QWEN-Image 可能是目前开源最强大的中文生图模型

在我的工作中,缺个能够完全支持中文的同时具备文生图能力的高品质模型。在了解到Qwen模型能够通过中文达到指向性的修改的能力,所以在这做一波测试效果对比。我对比的是字节的即梦模型,它在游戏行业中logo、海报、美术字、场景、人像角色泛化能力算是比较强的。接下来会划分几个维度看看他们的能力处在一个什么样的边界。

注:以下效果图左边是即梦,右边是Qwen本次测试的Qwen模型为20g大小的精简即梦为3.0

游戏道具图标测试效果:

厚涂中国风,游戏图标,仙侠法宝,玄幻色彩,九宫格显示9个造型各异的宝箱道具图标,设计精良,细节丰富,充满金属光泽,高档,闪亮,发光,色彩鲜艳明亮,多种材质,镶嵌宝石,金色花纹装饰,散发着神秘的光芒,纯色背景,正面斜45度视角,色彩简洁明快,奇幻插画风格,大师作品

宝箱设计风格的一致性不错,角度也一致,唯独两者在细节花纹上都需要二次修正。

icon图标设计,一共九个,图标顺序依次是:汉堡,薯条,炸鸡,可乐,鸡肉卷,奶茶,面条,米饭,包子,3D,立体感,颜色统一,白色背景,光影质感

这组图标,两者总体风格是一致的,但是在细节效果上即梦完善的更好,造型美观度要比Qwen好,体现在鸡腿的造型和细节,可口可乐的易拉罐会更有辨识度。

主题为会员等级徽章,9个不同等级六角形花状勋章图标,勋章中心有一块宝石。等级越高宝石越复杂 ,有外型上有翅膀。等级越高翅膀越多越粗 ,D游戏美术风格,生成勋章,颜色丰富鲜艳,有光感有质感,,线条简洁,

勋章图标即梦的高光处理会更更好一点点,而在造型复杂度上体现出梯度规则Qwen会完善的更好一些。总体美观度个人认为即梦的会更好。但论文本提示词的准确度中间有一块宝石Qwen更符合要求。

海报测试效果:

艺术家Kim Jung Gi设计风格,高饱和色系,极繁主义,神秘感,细节完美,极致光影,杰作。 钢笔插画风格,鸟瞰,一个小镇,所有房屋都是由可口可乐易拉罐改装成的,每个罐子房屋都是两层,有门有床有阳台,屋子里家居生活用品一应俱全。马路,车,拥挤,人群,生活气息,周边都是热带树林 高品质细节,超高清分辨率,最佳品质,笔触清晰,高饱和度,光影对比,电影质感。32k超高清细致修复

可以看出Qwen缺少对艺术家风格的理解,上色方式不同。旁边的造型建筑没有体现出来,总体风格效果效果不如即梦的好。但论结构造型也有它独特的地方。

一个被切开的青色苹果内部有一个制作工厂,工厂里的工人正在制作青色的苹果果冻糖,果冻糖躺在向外输送的传送带上。橙色背景上有忙碌的工作场景,旁边有小人物。微缩摄影、微缩模型、立体模型风格、柔和的马卡龙配色方案、3D渲染。整张照片具有很强的透视感,细节和纹理很多,营造出整体温暖的氛围。高分辨率、高质量和高细节。比例 2:3。

没啥好说的,构图和细节都基本一致。

一个有山有水的成都城市手绘图,插画,层次分明,国潮,只此天蓝色的色调,五彩斑斓,景色尽在眼底,壮阔雄伟,令人震撼,成都地标建筑(电视塔,九眼桥,IFS金融中心,武侯祠,宽窄巷子,环球中心),熊猫、竹子云雾环绕,仙气缥缈,色彩丰富,结构复杂,细节丰富,高清晰度,8K,主视觉背景。“成都”字体在左上角

这里的构图即梦会更有美感,动态趋势线比较明确,河流从左边环绕到右边,旁边建筑结构排列有序,不凌乱,建筑版面重心靠右,左边文字让画面平衡。而Qwen在构图上节奏有点乱,建筑的排列不好看,版面总体平淡。

美术字测试效果:

厚涂水墨风格字体“仙逆”,中国书法字体变形设计,字形笔画粗壮饱满如墨龙翻卷,呈青铜绿色调,融合金属质感与火焰质感,边缘有红橙色火焰光晕,仿佛从古代神兵中铸出,主字体带雕刻般高光与阴影,笔触如刀锋刻画,背景纯黑,右上角有英文“RenegadeImmortal”,搭配古印“阿K”字印章,整体构图对称厚重、层次感强,用途CG游戏海报设计,类型海报图,画风融合山海经风格、中国古代神话题材与现代数字绘画工艺,CG游戏海报风,虚幻引擎渲染感,特写,东方玄幻氛围,立体、神秘

毛笔字笔触和意境 即梦会处理的更好,而Qwen在细节度上会差点,主要体现在笔触质感上。存在部分效果没有依照提示词的效果来。

射击游戏特效标题字设计,以银灰色金属质感字体呈现主标题’枪战王者’和副标题’赢极品枪械福利不间断’,文字边缘有深色描边和立体效果,画面融入子弹、油渍、火星等元素并与文字巧妙融合,战争游戏背景,矢量插画风格,标志设计,特写,硬朗科技氛围,精致和谐统一,细节丰富

这里文字内容都符合要求,细节度上即梦同样会完善的更好一些,例如子弹的刻画上金属质感较好,而Qwen在子弹元素处理上会更Q版。文字的质感也存在同样问题。

正面居中呈现超现实风格的3D立体文字’英雄归来’与副标’HEROES COME BACK’,巨大的站立字,运用对称式构图。文字由抛光的金色和银色合金板材交错层叠,塑造出双层的厚重感。鲜艳的深红色能量流沿着字母的转折处,每一笔画内部巧妙镶嵌着立体的矢量齿轮图案和散发微光的光纤凹槽。字母的连接部位被锋利如剑的折线光刃穿透,镜面质感的金属表面映射出蓝紫色的粒子状光斑。以深邃的黑为背景,极大地增强了画面的立体景深效果。文字的边缘仿佛是金属液体瞬间凝固的模样,带有熔融后的独特质感。整体字面结构被硬核的几何光影切割得棱角分明,文字表面布满了如同纳米机械雕刻出的细微纹路,用于极具创意的超现实文字设计,超现实,正面居中,对称构图,科幻感,精细刻画

字体设计“黑暗时刻”,哥特体风高垂直比,笔画尖锐,修饰性强,复古庄严,用于奇幻 哥特气质字体,纯黑背景#000,轮廓衬线,楔形,红色高光,笔画延伸,艺术感。

对称式排列的古文明科幻风格3D立体文字「文明密码」与副标「CIVILIZATION CODE」,远古遗迹般的巨型文字。文字由刻满象形文字的玄武岩构成,形成神秘的时空交错感。笔画内部隐藏着旋转的密码盘与星象图。以深褐色为背景,突出考古氛围。文字充满文明探索的神秘感。

场景图测试效果:

正面视角,这张图片描绘了一个摆满了物品的书桌或工作台,背景是一面深蓝色的墙壁。整个场景的光线偏暗,但有两处光源营造出温馨而专注的氛围:一盏从右侧照向桌面的台灯,以及一盏从上方照向墙壁上画框的射灯。 画面的核心是一个巨大的金色奖杯,它被台灯的光芒照亮,显得光彩夺目。奖杯的底座上写着“CHAMPION”字样,它旁边有一个日历,上面显示着“TASK”。 桌面上散落着各种物品,似乎都与篮球或体育相关。我们可以看到一份展开的报纸、一本写有东西的笔记本和一支笔,以及一个放着平板电脑的支架,平板屏幕上似乎显示着一个九宫格或表格。在桌面的左侧,有几本书,其中一本的书脊上有一个“23”的号码。桌面上还有一些零散的纸张和照片。 在背景的墙壁上,挂着几个画框。最显眼的是一个大的横幅画框,里面是一张篮球比赛的图片,可能是某位球员在空中投篮的瞬间。这幅画被单独的射灯照亮。左侧还有几个更小的画框,里面是黑白照片,似乎也是与篮球运动员相关的。在桌子的最右侧,有一个印有NBA标志的杯子。 总的来说,这张图片营造了一个充满个人风格和成就感的书房或工作空间,暗示着主人的兴趣是篮球,并且他可能是一位取得了某种成就的冠军。

森林的草地上有两个可可脂,几个巨大的可可脂,切开里面是一个微观巧克力生产工厂,工人在生产线上忙忙碌碌,生产出来的德芙巧克力从生产线输送到小卖部售卖,生产线连接几个巧克力工厂,超现实主义,3D动漫卡通风格,色彩鲜艳,细节丰富,超细节刻画,超高画质

这是电子游戏的封面艺术,地下城骰子。这张图片是对地牢场景的生动、卡通般的描绘。以下是内容的细分:* 中心焦点:一组四名chibi风格的冒险家是中心焦点。有一个挥舞着火焰剑的骑士,一个是巫术类型的角色,还有另外两个,可能是流氓或战士,穿着深色的衣服。他们似乎在面对各种怪物。* 怪物:一个看起来像岩石的大型生物在中间占据了主导地位,似乎是老板或主要敌人。前景中还有一个像蜘蛛一样的大型生物,背景中还有更小、定义较少的怪物(包括看起来像骷髅的东西)。左上角可以看到一个女巫般的身影。* 游戏标题:标题“DUNGEON DICE”以风格化的字母突出显示在顶部。“地下城”中的“O”包含一个头骨。* 调色板:配色方案主要是蓝绿色/水绿色和棕色,还有火和其他细节的橙色和黄色。这创造了一种明亮又不太暗的幻想感觉。* 风格:艺术风格让人联想到漫画书或漫画小说,轮廓清晰,人物设计略显夸张。简而言之,这张图片是一件动态而引人注目的艺术品,非常适合宣传一款名为“地下城骰子”的游戏,暗示了人们可能期待的地下城爬行和掷骰子的游戏玩法。

角色人像测试效果:

机甲版孙尚香头部特写,荧光蓝短发渐变玫红,虹膜植入全息瞄准镜;金属护额延伸至太阳穴,耳麦闪烁数据流光;面部覆盖半透明能量面罩,反射弹道轨迹;背景星空粒子特效。赛博朋克风格,霓虹光污染,高饱和度色彩,故障艺术边框——ar 16:9

复古肖像,摄影风格,柔焦,纯净的脸,鹿,女孩,鹿角,藤蔓带叶子,金发,欧美高级脸,雀斑,细节光影,风,(强阳光),两个辫子,森林,前光源,,(星河),飘逸的裙子,巨大的花朵

拟人化的毛茸茸猫咪,正在玩真人CS游戏,户外丛林真人CS游戏场景,3d渲染风格,近景镜头,紧张、刺激氛围,质感、写实修饰

总结:

总体下来即梦的美感、细节处理上会更好,这个钱收的硬气。

本次对比测试不严谨,因为用的Qwen模型为20g,这种精简版的数据体量相比40g少了一半,自然对画面细节,文本的理解能力会降低。但Qwen依然是开源的中文模型文生图能力最强的。

待有时间尝试全量版的模型做个对比,相信会更有意思。

Qwen-image延伸阅读:https://docs.comfy.org/tutorials/image/qwen/qwen-image

我用637张游戏图标训练XL模型-免费提供下载研究-禁止直接商用

这件事是我一直想干的。在游戏项目中,基本上用的还是1.5版本的lora模型,工作量紧张,有时没法去做模型的迭代优化。游戏实际项目中去运用最大的痛点还是形状没法很好的控制。Dreambooth+lora也是我一直想去做的事情。

XL模型的特性分辨率更大,支持的文本语言更多,自然对图标的形状辨识度会更高。这是我结合实际观察来说的一个猜测。但训练XL模型门槛也随之拉高,需要更高的显卡支持。所以,最近趁着有时间赶紧尝试一版本,我会在文中随时更新动态。

这次我使用的是A800-80G显存,素材637张,使用XL默认的checkpoint,训练轮数60,每6轮保存一个XL-lora模型,其他参数默认,共403800步。

期待接下来的跑图效果。

关于云端算力的研究

实际上我研究了一遍 AWS 的EC2算力服务,如果是48G的显卡粗略估计在上百美元左右。官方博客也分享了实际如何去搭建这样一套环境和流程。详细可访问这个地址:https://aws.amazon.com/cn/blogs/china/stable-diffusion-comfyui-deployment-solution-based-on-amazon-eks/

后来找到一个专注AIGC的云端算力服务星鸾云,他们提供A800-80G显存的算力,目前估计是新上线价格也还不错6元/小时左右,对我来说是一个比较合适的产品服务。但是总体后台操作上可能还存在一些不足。感兴趣的可以前去体验。

跑图多久

实际这张卡跑图就跑了三天,如果全部训练完成得需要6天时间,我会去训练过程中不断拿产出模型去做测试,所以达到标准就直接终止了。最终训练费用在400元左右。

跑图效果

投入的训练集素材是512分辨率,担心质量不佳。实际效果确实真好,因为XL的升级优化感觉对文本的识别能力提高不少,输入的文本内容效果基本都能满足精度(但同样也存在随机性变化问题、造型问题)。

它不仅仅是习得训练集中已有的素材效果,输入其他内容,比如人、动物等它同样能将风格、上色方式给迁移过去

生成的素材造型、色彩,都提高不少,例如能够捕捉到提示词 smile 在宝箱图标结合上的合理性,这在SD1.5版本上是会逊色很多的。

以上跑图来自comfyui环境下。不足的地方就是细节造型不准,颜色偏暗。在sd-webui上跑图开启高清修复效果会更好。

下载地址访问哩布:https://www.liblib.art/modelinfo/adeaf829f9a04f238dfff370bc1df8f4?from=personal_page&versionUuid=5fbcdd4ca04c4a4091f4ae462dfe4e31

请搭配 base_xl 官方原版模型使用,lora权重请控制在0.6-0.8之间,触发词: Trilightlabs style, 后续接图标属性例如:gem,stone,drink,ring,shoes,flower,treasure chest

这个图标的特点几乎涵盖日常需要使用的游戏图标种类,可以尝试各种属性提示词,此lora模型风格主要偏写实日韩二次元游戏画面风格。

关于录制AI游戏图标课程的大体思路框架分享

从事游戏行业6年多,在游戏项目上主要也是绘制游戏相关的道具图标工作。加上23年AI工具的爆发,公司项目上也非常关注,确实在效率上能够提升到30-40%左右,毕竟游戏行业已经是一片红海,争分夺秒。

所以,也有一些小小的经验可以分享。在录制课程之前还要准备一些提纲、前期的模型资料准备方便后期讲起来也方便。

先放出个大体的框架,内容还会增加、调整。如果又有对AI工具新的理解的话就会做一些改动,最终的目的就是能够帮助到大家,对我也有好处。

游戏图标风格模型的训练集筛选思路

定义:游戏图标风格模型包含的图标属性类目多,杂。训练集各个属性数量占比不均衡,在游戏中往往宝箱、宝石、药水瓶、卡券占多数,所以这类风格模型在工作流的运用上通常是用来做风格迁移。

因为训练素材各个占比数量不同,也就导致造型上数量多的在训练轮数增加会被固化,很难通过补充形状的提示词来做造型上的改变。而恰恰因为某些训练素材占比少,轮数增加之后反而能够获得稳定的效果。结论就是风格模型 LoRa 没有绝对的稳定的单一模型,需要依据需求使用不同轮数的模型来做生产。

关于打标

如果是训练风格模型,没必要给各个素材打统一的触发词,应该是将每个素材标按:属性+特征描述 例如:gift box,flower,ribbons,bow,

如果是训练专属某个属性的图标模型,例如头像框则要分析当前头像框的素材造型特征。头像框算是比较简单的造型了,大体上分为对称设计不对称设计两种。所以在打标的时候要加入 symmetry、asymmetrical 两个标签,扯远了……

补充训练集

一个游戏项目的图标资产数量上肯定是有限的,甚至某些数量还不满足训练要求。这时候就要有目的性地去从外部补充素材,筛选风格相似、写实度大体接近的进行补充。

例如上图的书籍图标样式大体类似,通过补充一些其他造型、角度不同的书籍图标来让它更具泛化性,从而满足需求。

例如礼盒图标也是因为训练素材太过单一的缘故,细节造型上缺少一些变化。为了扩充礼盒的泛化能力有目的性地去补充了相关训练素材。

下图是补充后的

例如宝石,原来的宝石也是缺少一些变化,造型上太单一,缺设计感。

补充的素材之后

风格模型的价值在于能够涵盖泛的图标造型,同时继承游戏项目的风格,造型上不追求精确,具备可修改的空间,满足在图标的批量生产中的风格迁移即可。

关于生成的图标出现污染的问题

如图水果冰激凌会出现叶子和面包等类型的元素,是因为打标的时候加入了food这个标签的影响,所以迭代模型的时候可以将相应的素材打标要清理干净,虽然都是食物,但要精细化去打标

没有被打标污染的食物图标

以上图标基础模型:revAnimated_v122EOL 训练而来,训练集数量674

[stable diffusion]浅谈AI游戏道具-在项目中的运用

用了2天训练了一个游戏道具图标的风格模型,训练集数量在500百多张素材,

训练参数为:

底模:revAnimated_v122EOL.safetensors

精细化打标训练集,每张图训练18次。共30轮,每10轮保存一次,batch size为2

learning rate为1e-4 unet-lr为1e-4 text-encoder-lr 为1e-5

networddim为128,netword-alpha为64

总步数:95904

训练环境使用的是揽睿星舟提供的服务,显卡为rtx3090ti-24G显存,耗时大概在5小时左右。

打标将每张图调整描述,去掉无意义的打标字母,结构为【触发词+属性词+特征描述词】,实际文生图效果非常好,能够根据文本描述精确生成相应效果资源。

AI如何具备创新绘画能力?

2023是AI绘画爆发的元年,具备创新能力可能还不足,尤其是stable diffusion属于稳定扩散模型,基于这个技术条件训练的模型都是投喂什么生成什么,投喂的质量越高、数量越多,效果也就越好。依靠质量和数量来弥补它的创造能力不足,也是一个巧妙的方法。

看好OPENAI的DALL·3的绘画能力,它是真正整合人类自然语言能力,理解能力更符合人心智的人工智能工具。我甚至尝试了将它用来绘画游戏图标,并在公司项目实际运用。也尝试用了为外贸儿童工厂制作儿童T恤(后续也会分享工作流程出来)。

AI在实际游戏道具图标流程中如何提升效率?

我觉得AI在游戏中的最大价值还是降本增效,创新能力一般。在实际项目中合理的将AI工具运用到工作上一定是前置AI工具的运用,例如在需求发起的同时,策划人员就可以利用SD(stable diffusion)生成一些参考图,甚至只需要简单修改即可使用。再分配给设计师修改,就能减少很大的工作量。

优化现有的工作流程,如果项目团队整体对AI都没有深入的研究,或者专注于手头的创新设计上更重要。那我建议应该成立一个AI小组中台,小组成员专注于AI工具的流程优化、模型训练积累经验,同时承担各个项目组的设计需求,磨合积累经验。小组成员中分配每个成员相应的接口人例如:图标接口人、角色立绘接口人、场景原画接口人等等,在需求对接上保证准确性和一致性。同时,定期与对接需求的相关人员每周复盘,总结当前存在的问题,使用了哪些新技术,优化了哪些流程,对比现有的效率库提升了多少。

要想让AI工具在项目中价值最大化,AI介入要有个清晰的流程梳理,同时与制作人、策划、美术总监、APM、UI设计师都要开会拉齐达成共识。

正常的需求发起一定是基于玩法创新,经过文案策划精心包装而来的需求,后置AI的介入只会让产出变得被动,因为AI的随机性、模型的稳定性、训练集质量问题目前很难100%的吻合需求。

Lora模型+风格迁移+contrlnet抽卡

当前主流的做法还是通过抽卡来获得更好的效果,得益于腾讯的IP-Adapter插件的分享,以及reference等参考模型。仅需风格迁移提升了一半的制作效率。再搭配contrlnet的linart权重适当调整,仅需要简单的草稿图、绘制一半的基础稿交给IP-Adapte就能几秒钟实现风格的一致。(后续也会分享详细教程)