当把XL训练的repeat提高到100以上

上一期文章分享了扁平插画女孩的LoRa-XL模型,训练的repeat扫描次数在10-20之间,这次我将他们的repeat提高到100-150,在同样的提示词下生成的效果如图:

masterpiece:(1.2),chahua_nvhai,,British girl,Exquisite facial details,long hair,1girl,illustration style,brown hair,wear blue dress,illustration, 5 fingers,8K,hud,Grand Budapest Hotel background,happy

头发的细节,脸部细节泛化能力都提升不少。如果你在模型训练的时候如果感觉效果没有提升,特别是XL模型训练,试试看将repeat扫描次数提高到100以上。

分享扁平插画女孩风格LoRa模型

该模型基于XL base 1.0底模微调的LoRa模型,画风特点是扁平简笔插画风格,训练素材104张。

30张写实正则化训练素材,74张简笔插画风格素材。目的是解决造型太单一,使其符合真实人的站姿,但个人认为效果并不是很明显。

这模型我主要想用来接入krita使用,所以对文生图的细节、色彩、构图、手指问题不做追求。需要的去libulibu自取:https://www.liblib.art/userpage/5bc8f4248c1b4ce1a45bd206f806803a/publish

触发词:chahua_nvhai

提示词样例:

masterpiece:(1.2),chahua_nvhai,fullbody,British girl,Exquisite facial details,long hair,1girl,illustration style,brown hair,wear blue dress,illustration, 5 fingers,8K,hud,Grand Budapest Hotel background,happy

效果如下:

我用637张游戏图标训练XL模型-免费提供下载研究-禁止直接商用

这件事是我一直想干的。在游戏项目中,基本上用的还是1.5版本的lora模型,工作量紧张,有时没法去做模型的迭代优化。游戏实际项目中去运用最大的痛点还是形状没法很好的控制。Dreambooth+lora也是我一直想去做的事情。

XL模型的特性分辨率更大,支持的文本语言更多,自然对图标的形状辨识度会更高。这是我结合实际观察来说的一个猜测。但训练XL模型门槛也随之拉高,需要更高的显卡支持。所以,最近趁着有时间赶紧尝试一版本,我会在文中随时更新动态。

这次我使用的是A800-80G显存,素材637张,使用XL默认的checkpoint,训练轮数60,每6轮保存一个XL-lora模型,其他参数默认,共403800步。

期待接下来的跑图效果。

关于云端算力的研究

实际上我研究了一遍 AWS 的EC2算力服务,如果是48G的显卡粗略估计在上百美元左右。官方博客也分享了实际如何去搭建这样一套环境和流程。详细可访问这个地址:https://aws.amazon.com/cn/blogs/china/stable-diffusion-comfyui-deployment-solution-based-on-amazon-eks/

后来找到一个专注AIGC的云端算力服务星鸾云,他们提供A800-80G显存的算力,目前估计是新上线价格也还不错6元/小时左右,对我来说是一个比较合适的产品服务。但是总体后台操作上可能还存在一些不足。感兴趣的可以前去体验。

跑图多久

实际这张卡跑图就跑了三天,如果全部训练完成得需要6天时间,我会去训练过程中不断拿产出模型去做测试,所以达到标准就直接终止了。最终训练费用在400元左右。

跑图效果

投入的训练集素材是512分辨率,担心质量不佳。实际效果确实真好,因为XL的升级优化感觉对文本的识别能力提高不少,输入的文本内容效果基本都能满足精度(但同样也存在随机性变化问题、造型问题)。

它不仅仅是习得训练集中已有的素材效果,输入其他内容,比如人、动物等它同样能将风格、上色方式给迁移过去

生成的素材造型、色彩,都提高不少,例如能够捕捉到提示词 smile 在宝箱图标结合上的合理性,这在SD1.5版本上是会逊色很多的。

以上跑图来自comfyui环境下。不足的地方就是细节造型不准,颜色偏暗。在sd-webui上跑图开启高清修复效果会更好。

下载地址访问哩布:https://www.liblib.art/modelinfo/adeaf829f9a04f238dfff370bc1df8f4?from=personal_page&versionUuid=5fbcdd4ca04c4a4091f4ae462dfe4e31

请搭配 base_xl 官方原版模型使用,lora权重请控制在0.6-0.8之间,触发词: Trilightlabs style, 后续接图标属性例如:gem,stone,drink,ring,shoes,flower,treasure chest

这个图标的特点几乎涵盖日常需要使用的游戏图标种类,可以尝试各种属性提示词,此lora模型风格主要偏写实日韩二次元游戏画面风格。

关于SD-FLUX-AIGC的模型训练工具的使用感受

今天来说说我所接触的这四个训练工具,目前来说稳定性比较好,受到广大群众认可的训练工具。其核心都是采用的kohya-ss底层。我之所以推荐这四个其实基本上考虑到易用性,对新手是友好的。

硬件要求:最起码16G的显存起步,如果没有最好是用线上训练平台来做。时间效率会高很多。kohya本身是本地部署的,包括秋叶训练工具。如果要从易用性上考虑还是推荐用秋叶训练包,界面友好、文本解释性的内容直观,能够消除新手入门的很多疑惑。

kohya也是有GUI界面的,使用的是gradio的框架,和stable diffusion界面一致。但是,如果对训练原理不太懂其实并不推荐,这会让你因为各种参数,报错给折腾的无从下手。

kohya-ss 地址:https://github.com/kohya-ss/sd-scripts/tree/sd3

秋叶训练 整合包项目地址 https://github.com/Akegarasu/lora-scripts

Civitai 模型训练平台 地址:https://civitai.com/models/train

算力需要收费,5美元5000个Buzz(也就是显卡算力),相比liblib稍微便宜一点昂。个人比较推荐的训练平台。支持多个任务同时进行,支持最新flux模型lora训练。价格比较便宜,数量集最大支持1000的限制。

交互设计上采用分阶段提交的方式,各个参数说明都挺详细,训练过程如下:

civitai flux 模型训练界面

实际训练体验

如果你是仅训练单一风格素材(例如单一人像风格,单一属性元素的图标等等)并且训练集的数量较少可以选择这个服务。否则你的训练集过多会因为总步数的限制导致训练效果不佳。后台给你的总步数是10000步,超出这个数系统不会执行。

liblib 训练 地址:https://www.liblib.art/pretrain

liblib 模型训练界面

他们的界面简化了训练参数,如果需要专业参数可以点开设置。

哩布哩布的话是生成会员+训练会员制度,如果你是有训练需求的话只需要购买训练会员就可以了,一般训练300训练集以上要充值199元,59元是一个基础的模型训练仅支持200张训练集

实际效果如何可以访问这个地址:Flux-日韩二次元 写实 游戏图标模型

基于flux1模型训练的lora,实际使用请看详细说明。

AI应用案例-SD-饰品手模训练及思考

前段时间看到某个视频博主分享了他的电商AI落地案例,看到讲关于饰品的手模,视频里面展示了一些客户发给他的产品图,然后他经过训练之后能够戴到模特手上。所以,本着好奇我倒推了下,具备一定的可行性。其实,也很简单就是在前期搜集训练集的时候,收集一些手模素材和带了饰品的手模素材两种。然后再搜集某个饰品的多个角度产品图作为训练素材。练成两个LORA,都是基于XL模型训练。两者权重手模模型在0.7、翡翠镯子权重0.5

效果如下:

你可能觉得效果还行,我也觉得效果还凑活。下面展示下镯子前期的训练集素材。

对比后你发现了吗?经过SD训练跑出来的图会出现翡翠的质感失真,一些天然的质感没有了,珠子形状大小不一,数量时多时少。反映出这块如果在面对更复杂工艺的镯子、戒指甚至耳环会出现货不对板的情况。嗯,底层原理决定了它在这块的缺点。

分享下生产界面,供感兴趣的朋友参考:

发现如果开启depth,强度控制在0.4左右能够生成更多戴在手上的效果。
玩归玩。这块个人觉得如果想更好地实现落地效果还是要局部重绘,发挥AI自身的优势,例如更换场景图、换虚拟模特等等。

SD目前针对电商能落地的模特虚拟人、更换场景、优化模特有瑕疵的姿势、修改模特光影、换脸。

如果觉得有用,感谢点个在看,欢迎评论!

关于录制AI游戏图标课程的大体思路框架分享

从事游戏行业6年多,在游戏项目上主要也是绘制游戏相关的道具图标工作。加上23年AI工具的爆发,公司项目上也非常关注,确实在效率上能够提升到30-40%左右,毕竟游戏行业已经是一片红海,争分夺秒。

所以,也有一些小小的经验可以分享。在录制课程之前还要准备一些提纲、前期的模型资料准备方便后期讲起来也方便。

先放出个大体的框架,内容还会增加、调整。如果又有对AI工具新的理解的话就会做一些改动,最终的目的就是能够帮助到大家,对我也有好处。

游戏图标风格模型的训练集筛选思路

定义:游戏图标风格模型包含的图标属性类目多,杂。训练集各个属性数量占比不均衡,在游戏中往往宝箱、宝石、药水瓶、卡券占多数,所以这类风格模型在工作流的运用上通常是用来做风格迁移。

因为训练素材各个占比数量不同,也就导致造型上数量多的在训练轮数增加会被固化,很难通过补充形状的提示词来做造型上的改变。而恰恰因为某些训练素材占比少,轮数增加之后反而能够获得稳定的效果。结论就是风格模型 LoRa 没有绝对的稳定的单一模型,需要依据需求使用不同轮数的模型来做生产。

关于打标

如果是训练风格模型,没必要给各个素材打统一的触发词,应该是将每个素材标按:属性+特征描述 例如:gift box,flower,ribbons,bow,

如果是训练专属某个属性的图标模型,例如头像框则要分析当前头像框的素材造型特征。头像框算是比较简单的造型了,大体上分为对称设计不对称设计两种。所以在打标的时候要加入 symmetry、asymmetrical 两个标签,扯远了……

补充训练集

一个游戏项目的图标资产数量上肯定是有限的,甚至某些数量还不满足训练要求。这时候就要有目的性地去从外部补充素材,筛选风格相似、写实度大体接近的进行补充。

例如上图的书籍图标样式大体类似,通过补充一些其他造型、角度不同的书籍图标来让它更具泛化性,从而满足需求。

例如礼盒图标也是因为训练素材太过单一的缘故,细节造型上缺少一些变化。为了扩充礼盒的泛化能力有目的性地去补充了相关训练素材。

下图是补充后的

例如宝石,原来的宝石也是缺少一些变化,造型上太单一,缺设计感。

补充的素材之后

风格模型的价值在于能够涵盖泛的图标造型,同时继承游戏项目的风格,造型上不追求精确,具备可修改的空间,满足在图标的批量生产中的风格迁移即可。

关于生成的图标出现污染的问题

如图水果冰激凌会出现叶子和面包等类型的元素,是因为打标的时候加入了food这个标签的影响,所以迭代模型的时候可以将相应的素材打标要清理干净,虽然都是食物,但要精细化去打标

没有被打标污染的食物图标

以上图标基础模型:revAnimated_v122EOL 训练而来,训练集数量674

[stable diffusion]浅谈AI游戏道具-在项目中的运用

用了2天训练了一个游戏道具图标的风格模型,训练集数量在500百多张素材,

训练参数为:

底模:revAnimated_v122EOL.safetensors

精细化打标训练集,每张图训练18次。共30轮,每10轮保存一次,batch size为2

learning rate为1e-4 unet-lr为1e-4 text-encoder-lr 为1e-5

networddim为128,netword-alpha为64

总步数:95904

训练环境使用的是揽睿星舟提供的服务,显卡为rtx3090ti-24G显存,耗时大概在5小时左右。

打标将每张图调整描述,去掉无意义的打标字母,结构为【触发词+属性词+特征描述词】,实际文生图效果非常好,能够根据文本描述精确生成相应效果资源。

AI如何具备创新绘画能力?

2023是AI绘画爆发的元年,具备创新能力可能还不足,尤其是stable diffusion属于稳定扩散模型,基于这个技术条件训练的模型都是投喂什么生成什么,投喂的质量越高、数量越多,效果也就越好。依靠质量和数量来弥补它的创造能力不足,也是一个巧妙的方法。

看好OPENAI的DALL·3的绘画能力,它是真正整合人类自然语言能力,理解能力更符合人心智的人工智能工具。我甚至尝试了将它用来绘画游戏图标,并在公司项目实际运用。也尝试用了为外贸儿童工厂制作儿童T恤(后续也会分享工作流程出来)。

AI在实际游戏道具图标流程中如何提升效率?

我觉得AI在游戏中的最大价值还是降本增效,创新能力一般。在实际项目中合理的将AI工具运用到工作上一定是前置AI工具的运用,例如在需求发起的同时,策划人员就可以利用SD(stable diffusion)生成一些参考图,甚至只需要简单修改即可使用。再分配给设计师修改,就能减少很大的工作量。

优化现有的工作流程,如果项目团队整体对AI都没有深入的研究,或者专注于手头的创新设计上更重要。那我建议应该成立一个AI小组中台,小组成员专注于AI工具的流程优化、模型训练积累经验,同时承担各个项目组的设计需求,磨合积累经验。小组成员中分配每个成员相应的接口人例如:图标接口人、角色立绘接口人、场景原画接口人等等,在需求对接上保证准确性和一致性。同时,定期与对接需求的相关人员每周复盘,总结当前存在的问题,使用了哪些新技术,优化了哪些流程,对比现有的效率库提升了多少。

要想让AI工具在项目中价值最大化,AI介入要有个清晰的流程梳理,同时与制作人、策划、美术总监、APM、UI设计师都要开会拉齐达成共识。

正常的需求发起一定是基于玩法创新,经过文案策划精心包装而来的需求,后置AI的介入只会让产出变得被动,因为AI的随机性、模型的稳定性、训练集质量问题目前很难100%的吻合需求。

Lora模型+风格迁移+contrlnet抽卡

当前主流的做法还是通过抽卡来获得更好的效果,得益于腾讯的IP-Adapter插件的分享,以及reference等参考模型。仅需风格迁移提升了一半的制作效率。再搭配contrlnet的linart权重适当调整,仅需要简单的草稿图、绘制一半的基础稿交给IP-Adapte就能几秒钟实现风格的一致。(后续也会分享详细教程)