stable diffusion – TrilightLabs

当把XL训练的repeat提高到100以上

上一期文章分享了扁平插画女孩的LoRa-XL模型，训练的repeat扫描次数在10-20之间，这次我将他们的repeat提高到100-150，在同样的提示词下生成的效果如图：

masterpiece:(1.2),chahua_nvhai,,British girl,Exquisite facial details,long hair,1girl,illustration style,brown hair,wear blue dress,illustration, 5 fingers,8K,hud,Grand Budapest Hotel background,happy

头发的细节，脸部细节泛化能力都提升不少。如果你在模型训练的时候如果感觉效果没有提升，特别是XL模型训练，试试看将repeat扫描次数提高到100以上。

我用637张游戏图标训练XL模型-免费提供下载研究-禁止直接商用

这件事是我一直想干的。在游戏项目中，基本上用的还是1.5版本的lora模型，工作量紧张，有时没法去做模型的迭代优化。游戏实际项目中去运用最大的痛点还是形状没法很好的控制。Dreambooth+lora也是我一直想去做的事情。

XL模型的特性分辨率更大，支持的文本语言更多，自然对图标的形状辨识度会更高。这是我结合实际观察来说的一个猜测。但训练XL模型门槛也随之拉高，需要更高的显卡支持。所以，最近趁着有时间赶紧尝试一版本，我会在文中随时更新动态。

这次我使用的是A800-80G显存，素材637张，使用XL默认的checkpoint，训练轮数60，每6轮保存一个XL-lora模型，其他参数默认，共403800步。

期待接下来的跑图效果。

关于云端算力的研究

实际上我研究了一遍 AWS 的EC2算力服务，如果是48G的显卡粗略估计在上百美元左右。官方博客也分享了实际如何去搭建这样一套环境和流程。详细可访问这个地址：https://aws.amazon.com/cn/blogs/china/stable-diffusion-comfyui-deployment-solution-based-on-amazon-eks/

后来找到一个专注AIGC的云端算力服务星鸾云，他们提供A800-80G显存的算力，目前估计是新上线价格也还不错6元/小时左右，对我来说是一个比较合适的产品服务。但是总体后台操作上可能还存在一些不足。感兴趣的可以前去体验。

跑图多久

实际这张卡跑图就跑了三天，如果全部训练完成得需要6天时间，我会去训练过程中不断拿产出模型去做测试，所以达到标准就直接终止了。最终训练费用在400元左右。

跑图效果

投入的训练集素材是512分辨率，担心质量不佳。实际效果确实真好，因为XL的升级优化感觉对文本的识别能力提高不少，输入的文本内容效果基本都能满足精度（但同样也存在随机性变化问题、造型问题）。

它不仅仅是习得训练集中已有的素材效果，输入其他内容，比如人、动物等它同样能将风格、上色方式给迁移过去。

生成的素材造型、色彩，都提高不少，例如能够捕捉到提示词 smile 在宝箱图标结合上的合理性，这在SD1.5版本上是会逊色很多的。

以上跑图来自comfyui环境下。不足的地方就是细节造型不准，颜色偏暗。在sd-webui上跑图开启高清修复效果会更好。

下载地址访问哩布：https://www.liblib.art/modelinfo/adeaf829f9a04f238dfff370bc1df8f4?from=personal_page&versionUuid=5fbcdd4ca04c4a4091f4ae462dfe4e31

请搭配 base_xl 官方原版模型使用，lora权重请控制在0.6-0.8之间，触发词： Trilightlabs style, 后续接图标属性例如：gem,stone,drink,ring,shoes,flower,treasure chest

这个图标的特点几乎涵盖日常需要使用的游戏图标种类，可以尝试各种属性提示词，此lora模型风格主要偏写实日韩二次元游戏画面风格。

关于SD-FLUX-AIGC的模型训练工具的使用感受

今天来说说我所接触的这四个训练工具，目前来说稳定性比较好，受到广大群众认可的训练工具。其核心都是采用的kohya-ss底层。我之所以推荐这四个其实基本上考虑到易用性，对新手是友好的。

硬件要求：最起码16G的显存起步，如果没有最好是用线上训练平台来做。时间效率会高很多。kohya本身是本地部署的，包括秋叶训练工具。如果要从易用性上考虑还是推荐用秋叶训练包，界面友好、文本解释性的内容直观，能够消除新手入门的很多疑惑。

kohya也是有GUI界面的，使用的是gradio的框架，和stable diffusion界面一致。但是，如果对训练原理不太懂其实并不推荐，这会让你因为各种参数，报错给折腾的无从下手。

kohya-ss 地址：https://github.com/kohya-ss/sd-scripts/tree/sd3

秋叶训练 整合包项目地址 https://github.com/Akegarasu/lora-scripts

Civitai 模型训练平台地址：https://civitai.com/models/train

算力需要收费，5美元5000个Buzz（也就是显卡算力），相比liblib稍微便宜一点昂。个人比较推荐的训练平台。支持多个任务同时进行，支持最新flux模型lora训练。价格比较便宜，数量集最大支持1000的限制。

交互设计上采用分阶段提交的方式，各个参数说明都挺详细，训练过程如下：

实际训练体验

如果你是仅训练单一风格素材（例如单一人像风格，单一属性元素的图标等等）并且训练集的数量较少可以选择这个服务。否则你的训练集过多会因为总步数的限制导致训练效果不佳。后台给你的总步数是10000步，超出这个数系统不会执行。

liblib 训练地址：https://www.liblib.art/pretrain

他们的界面简化了训练参数，如果需要专业参数可以点开设置。

哩布哩布的话是生成会员+训练会员制度，如果你是有训练需求的话只需要购买训练会员就可以了，一般训练300训练集以上要充值199元，59元是一个基础的模型训练仅支持200张训练集。

实际效果如何可以访问这个地址：Flux-日韩二次元写实游戏图标模型

基于flux1模型训练的lora，实际使用请看详细说明。

游戏图标风格模型的训练集筛选思路

定义：游戏图标风格模型包含的图标属性类目多，杂。训练集各个属性数量占比不均衡，在游戏中往往宝箱、宝石、药水瓶、卡券占多数，所以这类风格模型在工作流的运用上通常是用来做风格迁移。

因为训练素材各个占比数量不同，也就导致造型上数量多的在训练轮数增加会被固化，很难通过补充形状的提示词来做造型上的改变。而恰恰因为某些训练素材占比少，轮数增加之后反而能够获得稳定的效果。结论就是风格模型 LoRa 没有绝对的稳定的单一模型，需要依据需求使用不同轮数的模型来做生产。

关于打标

如果是训练风格模型，没必要给各个素材打统一的触发词，应该是将每个素材标按：属性+特征描述例如：gift box,flower,ribbons,bow,

如果是训练专属某个属性的图标模型，例如头像框则要分析当前头像框的素材造型特征。头像框算是比较简单的造型了，大体上分为对称设计和不对称设计两种。所以在打标的时候要加入 symmetry、asymmetrical 两个标签，扯远了……

补充训练集

一个游戏项目的图标资产数量上肯定是有限的，甚至某些数量还不满足训练要求。这时候就要有目的性地去从外部补充素材，筛选风格相似、写实度大体接近的进行补充。

例如上图的书籍图标样式大体类似，通过补充一些其他造型、角度不同的书籍图标来让它更具泛化性，从而满足需求。

例如礼盒图标也是因为训练素材太过单一的缘故，细节造型上缺少一些变化。为了扩充礼盒的泛化能力有目的性地去补充了相关训练素材。

下图是补充后的

例如宝石，原来的宝石也是缺少一些变化，造型上太单一，缺设计感。

补充的素材之后

风格模型的价值在于能够涵盖泛的图标造型，同时继承游戏项目的风格，造型上不追求精确，具备可修改的空间，满足在图标的批量生产中的风格迁移即可。

关于生成的图标出现污染的问题

如图水果冰激凌会出现叶子和面包等类型的元素，是因为打标的时候加入了food这个标签的影响，所以迭代模型的时候可以将相应的素材打标要清理干净，虽然都是食物，但要精细化去打标。

没有被打标污染的食物图标

以上图标基础模型：revAnimated_v122EOL 训练而来，训练集数量674

[stable diffusion]浅谈AI游戏道具-在项目中的运用

用了2天训练了一个游戏道具图标的风格模型，训练集数量在500百多张素材，

训练参数为：

底模：revAnimated_v122EOL.safetensors

精细化打标训练集，每张图训练18次。共30轮，每10轮保存一次，batch size为2

learning rate为1e-4 unet-lr为1e-4 text-encoder-lr 为1e-5

networddim为128，netword-alpha为64

总步数：95904

训练环境使用的是揽睿星舟提供的服务，显卡为rtx3090ti-24G显存，耗时大概在5小时左右。

打标将每张图调整描述，去掉无意义的打标字母，结构为【触发词+属性词+特征描述词】，实际文生图效果非常好，能够根据文本描述精确生成相应效果资源。

AI如何具备创新绘画能力？

2023是AI绘画爆发的元年，具备创新能力可能还不足，尤其是stable diffusion属于稳定扩散模型，基于这个技术条件训练的模型都是投喂什么生成什么，投喂的质量越高、数量越多，效果也就越好。依靠质量和数量来弥补它的创造能力不足，也是一个巧妙的方法。

看好OPENAI的DALL·3的绘画能力，它是真正整合人类自然语言能力，理解能力更符合人心智的人工智能工具。我甚至尝试了将它用来绘画游戏图标，并在公司项目实际运用。也尝试用了为外贸儿童工厂制作儿童T恤（后续也会分享工作流程出来）。

AI在实际游戏道具图标流程中如何提升效率？

我觉得AI在游戏中的最大价值还是降本增效，创新能力一般。在实际项目中合理的将AI工具运用到工作上一定是前置AI工具的运用，例如在需求发起的同时，策划人员就可以利用SD(stable diffusion)生成一些参考图，甚至只需要简单修改即可使用。再分配给设计师修改，就能减少很大的工作量。

优化现有的工作流程，如果项目团队整体对AI都没有深入的研究，或者专注于手头的创新设计上更重要。那我建议应该成立一个AI小组中台，小组成员专注于AI工具的流程优化、模型训练积累经验，同时承担各个项目组的设计需求，磨合积累经验。小组成员中分配每个成员相应的接口人例如：图标接口人、角色立绘接口人、场景原画接口人等等，在需求对接上保证准确性和一致性。同时，定期与对接需求的相关人员每周复盘，总结当前存在的问题，使用了哪些新技术，优化了哪些流程，对比现有的效率库提升了多少。

要想让AI工具在项目中价值最大化，AI介入要有个清晰的流程梳理，同时与制作人、策划、美术总监、APM、UI设计师都要开会拉齐达成共识。

正常的需求发起一定是基于玩法创新，经过文案策划精心包装而来的需求，后置AI的介入只会让产出变得被动，因为AI的随机性、模型的稳定性、训练集质量问题目前很难100%的吻合需求。

Lora模型+风格迁移+contrlnet抽卡

当前主流的做法还是通过抽卡来获得更好的效果，得益于腾讯的IP-Adapter插件的分享，以及reference等参考模型。仅需风格迁移提升了一半的制作效率。再搭配contrlnet的linart权重适当调整，仅需要简单的草稿图、绘制一半的基础稿交给IP-Adapte就能几秒钟实现风格的一致。（后续也会分享详细教程）