游戏图标风格模型的训练集筛选思路

定义:游戏图标风格模型包含的图标属性类目多,杂。训练集各个属性数量占比不均衡,在游戏中往往宝箱、宝石、药水瓶、卡券占多数,所以这类风格模型在工作流的运用上通常是用来做风格迁移。

因为训练素材各个占比数量不同,也就导致造型上数量多的在训练轮数增加会被固化,很难通过补充形状的提示词来做造型上的改变。而恰恰因为某些训练素材占比少,轮数增加之后反而能够获得稳定的效果。结论就是风格模型 LoRa 没有绝对的稳定的单一模型,需要依据需求使用不同轮数的模型来做生产。

关于打标

如果是训练风格模型,没必要给各个素材打统一的触发词,应该是将每个素材标按:属性+特征描述 例如:gift box,flower,ribbons,bow,

如果是训练专属某个属性的图标模型,例如头像框则要分析当前头像框的素材造型特征。头像框算是比较简单的造型了,大体上分为对称设计不对称设计两种。所以在打标的时候要加入 symmetry、asymmetrical 两个标签,扯远了……

补充训练集

一个游戏项目的图标资产数量上肯定是有限的,甚至某些数量还不满足训练要求。这时候就要有目的性地去从外部补充素材,筛选风格相似、写实度大体接近的进行补充。

例如上图的书籍图标样式大体类似,通过补充一些其他造型、角度不同的书籍图标来让它更具泛化性,从而满足需求。

例如礼盒图标也是因为训练素材太过单一的缘故,细节造型上缺少一些变化。为了扩充礼盒的泛化能力有目的性地去补充了相关训练素材。

下图是补充后的

例如宝石,原来的宝石也是缺少一些变化,造型上太单一,缺设计感。

补充的素材之后

风格模型的价值在于能够涵盖泛的图标造型,同时继承游戏项目的风格,造型上不追求精确,具备可修改的空间,满足在图标的批量生产中的风格迁移即可。

关于生成的图标出现污染的问题

如图水果冰激凌会出现叶子和面包等类型的元素,是因为打标的时候加入了food这个标签的影响,所以迭代模型的时候可以将相应的素材打标要清理干净,虽然都是食物,但要精细化去打标

没有被打标污染的食物图标

以上图标基础模型:revAnimated_v122EOL 训练而来,训练集数量674

[DALL·E 3]算是最易用的自然语言绘画

用DALL·E 3绘制的微信表情包 小肥狗墩墩

以上就是用DALL·E 3绘制的表情包,相比midjourney反复垫图生成确实高效很多。自然到只需要用中文叫它如何做。

下面是案例对话还原:

如果不满意,还可以直接发送参考图给它,比如我想要个吃瓜表情

这样就不需要自己再组织语言让他理解是怎样一个构图,得益于它的识图能力强大

我想要个让小肥狗从手工袋探出头的表情,效果不是很满意。直接给它一张参考图生成后的。

与midjourney交互上的区别;

1.使用中文描述,每次生成都是重新请求生成,连贯性会稍逊于Midjourney,但是一旦出现第二次生成的图风格大相径庭,可以要求“和第XX张图风格类似”就可以让图的风格统一起来。

2.生成不需要任何指令,如果能够描述的更具体,效果也就越符合你的期望,避免抽象词汇。

3.Midjourney垫图只模仿它的形。DALL·E 3则能够借助参考借鉴构图,又能清楚所绘制的物体是什么。

柔柔酱表情包-Midjourney制作

使用midjourney来生成表情包需要特定的提示词组合,

–style cute –q 2 –s 750

样例:一个超级可爱的黄色小狐狸,快乐、悲伤、无助、喜欢、愤怒、冷漠,9个图标,stick figure,纯白色背景 –style cute –q 2 –s 750 — V5.1

注意增加了stick figure(简笔画风格)以及使用v5.1的模型,在这个过程中要反复筛选不断升频操作,找到合适的表情,然后做微调。

以下是生成的原图,还有很多就不放了,导入到PS中找到合适的再做放大细节细节处理,(使用Upscayl这款软件)

总体来说,操作上相比DALL·E3会繁琐一点,随机性也会更大。好处是量多,可选的方案多。

[stable diffusion]浅谈AI游戏道具-在项目中的运用

用了2天训练了一个游戏道具图标的风格模型,训练集数量在500百多张素材,

训练参数为:

底模:revAnimated_v122EOL.safetensors

精细化打标训练集,每张图训练18次。共30轮,每10轮保存一次,batch size为2

learning rate为1e-4 unet-lr为1e-4 text-encoder-lr 为1e-5

networddim为128,netword-alpha为64

总步数:95904

训练环境使用的是揽睿星舟提供的服务,显卡为rtx3090ti-24G显存,耗时大概在5小时左右。

打标将每张图调整描述,去掉无意义的打标字母,结构为【触发词+属性词+特征描述词】,实际文生图效果非常好,能够根据文本描述精确生成相应效果资源。

AI如何具备创新绘画能力?

2023是AI绘画爆发的元年,具备创新能力可能还不足,尤其是stable diffusion属于稳定扩散模型,基于这个技术条件训练的模型都是投喂什么生成什么,投喂的质量越高、数量越多,效果也就越好。依靠质量和数量来弥补它的创造能力不足,也是一个巧妙的方法。

看好OPENAI的DALL·3的绘画能力,它是真正整合人类自然语言能力,理解能力更符合人心智的人工智能工具。我甚至尝试了将它用来绘画游戏图标,并在公司项目实际运用。也尝试用了为外贸儿童工厂制作儿童T恤(后续也会分享工作流程出来)。

AI在实际游戏道具图标流程中如何提升效率?

我觉得AI在游戏中的最大价值还是降本增效,创新能力一般。在实际项目中合理的将AI工具运用到工作上一定是前置AI工具的运用,例如在需求发起的同时,策划人员就可以利用SD(stable diffusion)生成一些参考图,甚至只需要简单修改即可使用。再分配给设计师修改,就能减少很大的工作量。

优化现有的工作流程,如果项目团队整体对AI都没有深入的研究,或者专注于手头的创新设计上更重要。那我建议应该成立一个AI小组中台,小组成员专注于AI工具的流程优化、模型训练积累经验,同时承担各个项目组的设计需求,磨合积累经验。小组成员中分配每个成员相应的接口人例如:图标接口人、角色立绘接口人、场景原画接口人等等,在需求对接上保证准确性和一致性。同时,定期与对接需求的相关人员每周复盘,总结当前存在的问题,使用了哪些新技术,优化了哪些流程,对比现有的效率库提升了多少。

要想让AI工具在项目中价值最大化,AI介入要有个清晰的流程梳理,同时与制作人、策划、美术总监、APM、UI设计师都要开会拉齐达成共识。

正常的需求发起一定是基于玩法创新,经过文案策划精心包装而来的需求,后置AI的介入只会让产出变得被动,因为AI的随机性、模型的稳定性、训练集质量问题目前很难100%的吻合需求。

Lora模型+风格迁移+contrlnet抽卡

当前主流的做法还是通过抽卡来获得更好的效果,得益于腾讯的IP-Adapter插件的分享,以及reference等参考模型。仅需风格迁移提升了一半的制作效率。再搭配contrlnet的linart权重适当调整,仅需要简单的草稿图、绘制一半的基础稿交给IP-Adapte就能几秒钟实现风格的一致。(后续也会分享详细教程)