2024 年 1 月 – TrilightLabs

游戏图标风格模型的训练集筛选思路

定义：游戏图标风格模型包含的图标属性类目多，杂。训练集各个属性数量占比不均衡，在游戏中往往宝箱、宝石、药水瓶、卡券占多数，所以这类风格模型在工作流的运用上通常是用来做风格迁移。

因为训练素材各个占比数量不同，也就导致造型上数量多的在训练轮数增加会被固化，很难通过补充形状的提示词来做造型上的改变。而恰恰因为某些训练素材占比少，轮数增加之后反而能够获得稳定的效果。结论就是风格模型 LoRa 没有绝对的稳定的单一模型，需要依据需求使用不同轮数的模型来做生产。

关于打标

如果是训练风格模型，没必要给各个素材打统一的触发词，应该是将每个素材标按：属性+特征描述例如：gift box,flower,ribbons,bow,

如果是训练专属某个属性的图标模型，例如头像框则要分析当前头像框的素材造型特征。头像框算是比较简单的造型了，大体上分为对称设计和不对称设计两种。所以在打标的时候要加入 symmetry、asymmetrical 两个标签，扯远了……

补充训练集

一个游戏项目的图标资产数量上肯定是有限的，甚至某些数量还不满足训练要求。这时候就要有目的性地去从外部补充素材，筛选风格相似、写实度大体接近的进行补充。

例如上图的书籍图标样式大体类似，通过补充一些其他造型、角度不同的书籍图标来让它更具泛化性，从而满足需求。

例如礼盒图标也是因为训练素材太过单一的缘故，细节造型上缺少一些变化。为了扩充礼盒的泛化能力有目的性地去补充了相关训练素材。

下图是补充后的

例如宝石，原来的宝石也是缺少一些变化，造型上太单一，缺设计感。

补充的素材之后

风格模型的价值在于能够涵盖泛的图标造型，同时继承游戏项目的风格，造型上不追求精确，具备可修改的空间，满足在图标的批量生产中的风格迁移即可。

关于生成的图标出现污染的问题

如图水果冰激凌会出现叶子和面包等类型的元素，是因为打标的时候加入了food这个标签的影响，所以迭代模型的时候可以将相应的素材打标要清理干净，虽然都是食物，但要精细化去打标。

没有被打标污染的食物图标

以上图标基础模型：revAnimated_v122EOL 训练而来，训练集数量674

[DALL·E 3]算是最易用的自然语言绘画

用DALL·E 3绘制的微信表情包小肥狗墩墩

以上就是用DALL·E 3绘制的表情包，相比midjourney反复垫图生成确实高效很多。自然到只需要用中文叫它如何做。

下面是案例对话还原：

如果不满意，还可以直接发送参考图给它，比如我想要个吃瓜表情

这样就不需要自己再组织语言让他理解是怎样一个构图，得益于它的识图能力强大

我想要个让小肥狗从手工袋探出头的表情，效果不是很满意。直接给它一张参考图生成后的。

与midjourney交互上的区别；

1.使用中文描述，每次生成都是重新请求生成，连贯性会稍逊于Midjourney，但是一旦出现第二次生成的图风格大相径庭，可以要求“和第XX张图风格类似”就可以让图的风格统一起来。

2.生成不需要任何指令，如果能够描述的更具体，效果也就越符合你的期望，避免抽象词汇。

3.Midjourney垫图只模仿它的形。DALL·E 3则能够借助参考借鉴构图，又能清楚所绘制的物体是什么。

柔柔酱表情包-Midjourney制作

使用midjourney来生成表情包需要特定的提示词组合，

–style cute –q 2 –s 750

样例：一个超级可爱的黄色小狐狸，快乐、悲伤、无助、喜欢、愤怒、冷漠，9个图标，stick figure,纯白色背景 –style cute –q 2 –s 750 — V5.1

注意增加了stick figure（简笔画风格）以及使用v5.1的模型，在这个过程中要反复筛选不断升频操作，找到合适的表情，然后做微调。

以下是生成的原图，还有很多就不放了，导入到PS中找到合适的再做放大细节细节处理，（使用Upscayl这款软件）

总体来说，操作上相比DALL·E3会繁琐一点，随机性也会更大。好处是量多，可选的方案多。

[stable diffusion]浅谈AI游戏道具-在项目中的运用

用了2天训练了一个游戏道具图标的风格模型，训练集数量在500百多张素材，

训练参数为：

底模：revAnimated_v122EOL.safetensors

精细化打标训练集，每张图训练18次。共30轮，每10轮保存一次，batch size为2

learning rate为1e-4 unet-lr为1e-4 text-encoder-lr 为1e-5

networddim为128，netword-alpha为64

总步数：95904

训练环境使用的是揽睿星舟提供的服务，显卡为rtx3090ti-24G显存，耗时大概在5小时左右。

打标将每张图调整描述，去掉无意义的打标字母，结构为【触发词+属性词+特征描述词】，实际文生图效果非常好，能够根据文本描述精确生成相应效果资源。

AI如何具备创新绘画能力？

2023是AI绘画爆发的元年，具备创新能力可能还不足，尤其是stable diffusion属于稳定扩散模型，基于这个技术条件训练的模型都是投喂什么生成什么，投喂的质量越高、数量越多，效果也就越好。依靠质量和数量来弥补它的创造能力不足，也是一个巧妙的方法。

看好OPENAI的DALL·3的绘画能力，它是真正整合人类自然语言能力，理解能力更符合人心智的人工智能工具。我甚至尝试了将它用来绘画游戏图标，并在公司项目实际运用。也尝试用了为外贸儿童工厂制作儿童T恤（后续也会分享工作流程出来）。

AI在实际游戏道具图标流程中如何提升效率？

我觉得AI在游戏中的最大价值还是降本增效，创新能力一般。在实际项目中合理的将AI工具运用到工作上一定是前置AI工具的运用，例如在需求发起的同时，策划人员就可以利用SD(stable diffusion)生成一些参考图，甚至只需要简单修改即可使用。再分配给设计师修改，就能减少很大的工作量。

优化现有的工作流程，如果项目团队整体对AI都没有深入的研究，或者专注于手头的创新设计上更重要。那我建议应该成立一个AI小组中台，小组成员专注于AI工具的流程优化、模型训练积累经验，同时承担各个项目组的设计需求，磨合积累经验。小组成员中分配每个成员相应的接口人例如：图标接口人、角色立绘接口人、场景原画接口人等等，在需求对接上保证准确性和一致性。同时，定期与对接需求的相关人员每周复盘，总结当前存在的问题，使用了哪些新技术，优化了哪些流程，对比现有的效率库提升了多少。

要想让AI工具在项目中价值最大化，AI介入要有个清晰的流程梳理，同时与制作人、策划、美术总监、APM、UI设计师都要开会拉齐达成共识。

正常的需求发起一定是基于玩法创新，经过文案策划精心包装而来的需求，后置AI的介入只会让产出变得被动，因为AI的随机性、模型的稳定性、训练集质量问题目前很难100%的吻合需求。

Lora模型+风格迁移+contrlnet抽卡

当前主流的做法还是通过抽卡来获得更好的效果，得益于腾讯的IP-Adapter插件的分享，以及reference等参考模型。仅需风格迁移提升了一半的制作效率。再搭配contrlnet的linart权重适当调整，仅需要简单的草稿图、绘制一半的基础稿交给IP-Adapte就能几秒钟实现风格的一致。（后续也会分享详细教程）