我用637张游戏图标训练XL模型-免费提供下载研究-禁止直接商用

这件事是我一直想干的。在游戏项目中,基本上用的还是1.5版本的lora模型,工作量紧张,有时没法去做模型的迭代优化。游戏实际项目中去运用最大的痛点还是形状没法很好的控制。Dreambooth+lora也是我一直想去做的事情。

XL模型的特性分辨率更大,支持的文本语言更多,自然对图标的形状辨识度会更高。这是我结合实际观察来说的一个猜测。但训练XL模型门槛也随之拉高,需要更高的显卡支持。所以,最近趁着有时间赶紧尝试一版本,我会在文中随时更新动态。

这次我使用的是A800-80G显存,素材637张,使用XL默认的checkpoint,训练轮数60,每6轮保存一个XL-lora模型,其他参数默认,共403800步。

期待接下来的跑图效果。

关于云端算力的研究

实际上我研究了一遍 AWS 的EC2算力服务,如果是48G的显卡粗略估计在上百美元左右。官方博客也分享了实际如何去搭建这样一套环境和流程。详细可访问这个地址:https://aws.amazon.com/cn/blogs/china/stable-diffusion-comfyui-deployment-solution-based-on-amazon-eks/

后来找到一个专注AIGC的云端算力服务星鸾云,他们提供A800-80G显存的算力,目前估计是新上线价格也还不错6元/小时左右,对我来说是一个比较合适的产品服务。但是总体后台操作上可能还存在一些不足。感兴趣的可以前去体验。

跑图多久

实际这张卡跑图就跑了三天,如果全部训练完成得需要6天时间,我会去训练过程中不断拿产出模型去做测试,所以达到标准就直接终止了。最终训练费用在400元左右。

跑图效果

投入的训练集素材是512分辨率,担心质量不佳。实际效果确实真好,因为XL的升级优化感觉对文本的识别能力提高不少,输入的文本内容效果基本都能满足精度(但同样也存在随机性变化问题、造型问题)。

它不仅仅是习得训练集中已有的素材效果,输入其他内容,比如人、动物等它同样能将风格、上色方式给迁移过去

生成的素材造型、色彩,都提高不少,例如能够捕捉到提示词 smile 在宝箱图标结合上的合理性,这在SD1.5版本上是会逊色很多的。

以上跑图来自comfyui环境下。不足的地方就是细节造型不准,颜色偏暗。在sd-webui上跑图开启高清修复效果会更好。

下载地址访问哩布:https://www.liblib.art/modelinfo/adeaf829f9a04f238dfff370bc1df8f4?from=personal_page&versionUuid=5fbcdd4ca04c4a4091f4ae462dfe4e31

请搭配 base_xl 官方原版模型使用,lora权重请控制在0.6-0.8之间,触发词: Trilightlabs style, 后续接图标属性例如:gem,stone,drink,ring,shoes,flower,treasure chest

这个图标的特点几乎涵盖日常需要使用的游戏图标种类,可以尝试各种属性提示词,此lora模型风格主要偏写实日韩二次元游戏画面风格。

Be First to Comment

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注