2026 年 3 月 AI 创作生态观察:当工具平台化,创作者该往哪走


写在前面

如果你过去两周一直在刷 Reddit 的 r/StableDiffusion 和 r/ComfyUI,大概率会有一种被信息轰炸的眩晕感。

3 月 10 日,ComfyUI 官方一口气扔出了 App Mode、App Builder 和 ComfyHub 三件套;3 月 12 日,Numonic 发了一篇深度分析,直言这是 ComfyUI 的”平台化时刻”;3 月 24 日,GAIR-NLP 团队联合 Sand.ai 开源了 daVinci-MagiHuman(arXiv: 2603.21986)——一个 15B 参数的音视频生成基础模型,在其论文和 GitHub README 中展示了超越 LTX-2.3 的基准测试结果。

而在更宏观的层面,Reddit r/artificial 版块上,用户们正在讨论一个更冷峻的话题:OpenAI 据传已放弃 Sora 视频模型与迪士尼的巨额合作,Arm 发布了 AGI 专用 CPU,三大公司同期推出桌面 AI Agent……整个行业正在以一种近乎失控的速度向前推进。

作为每天都在和这些工具打交道的人,我想把这些碎片化的信息拼成一个完整的图景——不是冷冰冰的资讯汇总,而是从一个创作者的视角,聊聊这些变化到底意味着什么。


一、ComfyUI 的平台化:从极客玩具到创作基础设施

发生了什么

3 月 10 日,ComfyUI 官方博客发布了一篇题为《From Workflow to App》的文章,宣布了三个核心功能:

  • App Mode:一键将复杂节点工作流转化为简洁的用户界面——隐藏所有节点和连线,只暴露创作者预设的输入参数和输出结果
  • App Builder:可视化配置工具,让创作者精确选择哪些参数暴露给最终用户,支持重命名、分组、排序
  • ComfyHub:类似应用商店的在线平台,创作者可以发布、分享自己的工作流 App,普通用户无需本地安装即可在浏览器中运行

用官方的话说,这套工具的目标是让任何人——”包括客户和团队成员”——都能使用 ComfyUI 驱动的强大功能,而不需要理解节点图是什么。

Reddit 社区的反应

社区的反应可以用两个字概括:分裂

在 r/ComfyUI 上,App Mode 和 ComfyHub 的官方公告帖获得了 220↑ 赞,评论区主流声音是欢迎。但也有用户表达了强烈的担忧,一条获得 321↑ 赞的帖子配了一张梗图,标题直指痛点:

“Remember when it was just cache and cookies?”(还记得当初只是缓存和 cookies 的事吗?)

这条帖子嘲讽的是 ComfyUI 的安装目录和依赖关系已经膨胀到令人窒息——一个工具从”下载即用”变成”装完要配置半天”,这反映了社区对工具日趋复杂的普遍焦虑。

另一条获得 74↑ 赞的帖子更加直白:

“Devs are going too fast… + New version sucks”

用户抱怨频繁更新导致大量现有工作流失效,UI 改动体验变差,错误信息不明确。核心诉求很明确:求稳

我的观察

作为一个游戏美术背景的 ComfyUI 日常用户,我对 App Mode 的态度是谨慎乐观。

乐观的部分:它确实解决了一个真实痛点。我自己的 Nano Banana Pro 插件工作流有 47 个节点,每次给同事演示都要解释半天哪个节点管什么。如果能把核心参数暴露成一个简洁界面,交付效率会大幅提升。这让我想起了当年 Unity Asset Store 的出现——开发者终于不用每次都从零搭建了。

谨慎的部分:平台化是一把双刃剑。Numonic 的分析文章一针见血地指出了问题——当产出量级倍增时,可查找性成了第一个被击穿的环节。他们引用的调研数据显示,团队目前约 25% 的时间浪费在寻找已知资产上。App Mode 会加速生产,但没有提供原生的”记忆层”。

更深层的隐忧在于合规性。欧盟《AI法案》最高罚款 1500 万欧元或全球营收的 3%,美国加州 SB 942 也对 AI 生成内容的溯源提出了明确要求。当工作流变成可分发的 App,生成资产的溯源链变得更长、更不透明。这不是危言耸听,这是每个认真对待 AI 创作的人都需要提前规划的问题。


二、AI 图像生成工具格局:没有赢家通吃,只有各有千秋

当前格局速写

综合 Reddit 社区讨论和多家评测数据,2026 年初的 AI 图像生成领域呈现出一个有趣的特征:没有一个工具在所有维度上都做到最好

工具最强维度代价
Midjourney v7艺术美学和构图无 API,商用需订阅,速度较慢(消耗 2 倍 GPU 时间)
GPT Image 1.5提示词执行准确度、多语言文本渲染依赖 OpenAI 生态,定价偏高
FLUX 1.1 Pro速度(4.5 秒/图)+ 多风格价格中高
Imagen 3 / Gemini 生态文本渲染、上下文理解、免费使用受限于 Google 平台
Stable Diffusion 3.5完全开源、可本地离线运行技术门槛高
Recraft v3速度与质量平衡社区生态较小

Reddit 上一个被广泛认同的总结是:

“Midjourney for realism, GPT Image for text, Flux for consistency.”

翻译过来就是:要写实找 Midjourney,要文字渲染找 GPT Image,要一致性输出找 FLUX。

我作为开发者的感受

作为一个经常需要在游戏道具图标、角色概念图之间切换的人,我实际上不会只用一个工具

比如用 Gemini 的图像生成能力做快速概念验证,用 Midjourney 出高保真效果稿,用 Nano Banana Pro + ComfyUI 做批量生产和精细化调整。这不是选择困难症,这是不同任务确实需要不同的工具——就像你不会用一把瑞士军刀做所有的木工活一样。

值得一提的是,越来越多 Reddit 用户也在讨论类似的”组合使用”策略。在 r/artificial 上,有人分享了自己的工作模式:Claude 写代码、ChatGPT 做头脑风暴、Perplexity 做研究。这种”多模型组合”的趋势在图像生成领域同样成立。

一个容易被忽视的信号

在所有工具的更新中,我最关注的是开源生态的速度。daVinci-MagiHuman 在 3 月 24 日刚开源,GitHub 上的论文显示它采用单流 Transformer 架构,能联合生成同步视频和音频——而就在几个月前,这还是闭源商业模型的专属领地。

Lightricks 的 LTX-2.3(22B 参数,支持原生 4K@50FPS + 同步音频)同样令人印象深刻,并且已经通过 ComfyUI 节点集成。NVIDIA 甚至专门发布了一套从 Blender 3D 场景规划到 ComfyUI 视频生成的完整工作流指南,建议 RTX 5070 Ti 以上配置。

开源正在快速追赶闭源的步伐,这是对创作者最利好的趋势。


三、AI Agent 本地化:一个可能被低估的趋势

现状

3 月,Perplexity、Meta、Anthropic 三大公司同期推出了桌面 AI Agent。Reddit 社区的讨论集中在一个关键点:这些 Agent 仍然缺乏持久记忆能力

一个高赞评论指出:

当前产品最大的瓶颈不是推理能力,而是”会话模式”——每次对话都是全新开始。真正的 Agent 需要具备文件访问、应用控制,以及最重要的是,持久记忆。

对创作者的潜在影响

想象一下:一个能记住你所有项目文件的 AI Agent,能自动根据你的设计规范生成素材,能跨会话保持上下文理解。这会彻底改变我们使用 AI 工具的方式——从”每次手动输入 prompt”变成”设定规则后自动执行”。

r/ComfyUI 上已经有人在做类似的尝试——有人把 ComfyUI 工作流连接到了角色扮演聊天 App(PersonaLLM),让 AI 对话驱动图像和视频生成。还有人展示了 Deepy,一个基于 WanGP v11 的本地 AI 代理,可以理解自然语言指令自动执行图像生成、编辑、视频合成等复杂工作流,主打离线和隐私保护。

这些还处于原型阶段,但方向值得关注:当 AI Agent 获得持久记忆和文件访问能力后,工作流驱动的 AI 创作将从”手动操作”进化为”意图驱动”。作为创作者,我们需要思考的不仅是”怎么用这个工具”,而是”怎么定义自己的创作规则,让 AI 在规则内自主执行”。


四、值得警惕的信号

Sora 的传闻

Reddit 上的讨论称 OpenAI 可能已终止 Sora 视频模型的开发及与迪士尼的合作。如果属实,这传递了一个重要信号:AI 视频生成的商业化路径比预期更加困难。不是技术不够好,而是商业模式、版权问题、生成质量稳定性等多重因素叠加,让视频生成赛道的商业化门槛明显高于图像生成。

安全隐患

r/StableDiffusion 上有人提醒关注开源 AI 软件(如 ComfyUI)潜在的安全风险,提及了一个名为 GlassWorm 的恶意软件活动——据报道,该恶意软件通过伪装成自定义节点或第三方扩展包传播,可能劫持 Python 运行环境或窃取系统凭证。随着 ComfyUI 用户基数扩大(App Mode 的目标就是吸引非技术用户),安全风险只会增加。给新手的建议很简单:只从官方渠道和可信的 ComfyUI-Manager 安装节点和自定义节点,不要从随机链接下载 .py 或 .json 文件

能源问题

r/artificial 上关于 AI 能耗的讨论从未停止。Arm 发布 AGI 专用 CPU 的新闻本质上是在回应这个问题——硬件层面的效率提升,或许是目前最务实的应对方案。但作为一个行业参与者,我们不能假装这个问题不存在。每一次大规模生成背后,都有真实的电力消耗。


五、我的判断:创作者应该怎么应对

基于以上观察,我给同在这个领域深耕的创作者们几点建议:

1. 拥抱组合工具策略

不要迷信”一个工具打天下”。根据任务类型选择最合适的工具,建立你自己的”工具矩阵”。这需要前期投入学习成本,但长期回报远大于效率。

2. 重视 ComfyUI 的平台化机会

如果你已经是 ComfyUI 用户,现在是一个关键时间点。App Mode 让你的工作流可以被更多人使用——这是建立个人品牌和影响力的机会。但要注意:提前规划资产管理。Numonic 说的 25% 资产查找时间浪费不是小问题,它会随着产出量级增长而恶化。

3. 关注开源视频生成

daVinci-MagiHuman 和 LTX-2.3 的开源,标志着视频生成正在走图像生成两年前走过的路。如果你是游戏开发者或动画从业者,现在就是入局的最佳时机。ComfyUI 节点已经就位,NVIDIA 也提供了官方工作流指南。

4. 保持对法规的敏感度

欧盟《AI法案》已经生效,加州 SB 942 也开始执行。无论你在哪里,溯源和合规都不是可选项。养成给 AI 生成内容标记元数据的习惯,至少不要在未来法规落地时措手不及。

5. 不要忽视安全

只从可信来源安装软件和节点。ComfyUI 的社区驱动模式是它的优势,但也是它的软肋。


小结

2026 年 3 月的 AI 创作生态呈现出一种矛盾的状态:一方面,工具能力在飞速进步——App Mode 让 ComfyUI 从极客玩具走向大众平台,开源视频生成模型快速追赶闭源竞品;另一方面,行业也在积累着隐忧——商业化困难(Sora 的传闻)、安全隐患、法规合规压力、以及社区对开发节奏过快的普遍焦虑。

作为一个既写代码又做美术的人,我的直觉是:最好的策略不是追最快的浪,而是建最稳的船

工具会换代,模型会过时,但对创作质量和工作流效率的追求是永恒的。把精力放在理解工具的底层逻辑上,而不是追逐每个新发布的模型——建立自动化、可复用的工作流,才是信息过载时代真正的护城河


本文信息来源:Reddit r/artificial、r/StableDiffusion、r/ComfyUI 社区讨论;ComfyUI 官方博客;Numonic、gradually.ai 等行业分析。所有观点仅代表作者个人判断。

2026 年 AI 图像生成趋势观察:工具如何重塑创作者生态

2026 AI Image Generation Trends

距离上一篇讨论 AI 行业隐忧的文章才过去两天,新的模型和技术又扎堆发布了。

AI 领域的节奏越来越快,快到让人有点喘不过气。但如果我们跳出来,从更宏观的角度看 2026 年上半年的 AI 图像生成领域,一些清晰的趋势正在浮现。


一、从”一张图”到”可控的每一帧”

2025 年初,AI 图像生成的核心叙事还是”谁能画出最好看的图”。到了 2026 年,叙事已经变成了”谁能最精准地控制每一帧”。

几个标志性事件:

  • Qwen Image Edit 2511(3月18日发布)实现了多角度图像编辑——上传一张产品图,通过可视化滑块控制摄像机角度,从任意视角重新生成
  • Wan 2.2(阿里通义万相,2025年7月开源)14B 参数的视频生成模型,支持图生视频(I2V)和动态人物驱动(Animate),2025年下半年陆续更新了 Animate 动作生成模型及高级 ComfyUI 工作流,实现了更长、更可控的视频生成
  • Gemini 3.1 Flash Image(2月26日发布)支持 0.5K 到 4K 的灵活分辨率,以及 1:4 到 8:1 的极端宽高比

这些技术的共同方向是:从”生成”走向”编辑”,从”随机”走向”可控”。

AI 不再是给你一个惊喜或惊吓的黑盒,而是一个你可以精确操控的创作工具。这个转变的意义比任何单个模型的画质提升都大。


二、ComfyUI:工作流成为核心竞争力

如果说 2025 年是 ComfyUI 的普及之年,2026 年就是它成为行业标准的一年。

ComfyUI 的核心优势在于节点式工作流——你可以把整个图像生成流程拆解成独立的节点(模型加载、提示词、采样器、后处理等),然后自由组合、保存、分享。

这意味着什么?

  1. **创作可复现** — 好的工作流可以反复使用,不用每次从头摸索参数
  2. **知识可传承** — 社区分享的 JSON 工作流文件,新人导入就能用
  3. **流程可自动化** — 将工作流接入 API,实现批量生成
  4. 2026 年初 ComfyUI 官方推出了 Comfy.org 平台,专门用于分享和托管工作流,进一步降低了使用门槛。越来越多的教程、模型、工具都以 ComfyUI 工作流的形式发布,它已经从一个”进阶工具”变成了”基础设施”。


    三、开源模型追平闭源

    2026 年的一个重要趋势是开源模型在图像生成领域追上了闭源模型

    • Qwen Image Edit(阿里通义)在中文图像编辑场景表现突出
    • FLUX(Black Forest Labs)在一致性和物理准确性上保持开源标杆
    • Stable Diffusion 4.x 系列持续迭代

    与之对应的是,闭源模型的护城河正在从”画质”转向”生态”:

    • Google Gemini 3.1 依赖 Google Cloud 生态和搜索 Grounding
    • 即梦 3.0 依赖字节跳动的抖音/剪映生态
    • Midjourney 依赖其社区和审美调性

    这意味着,如果你只需要”画一张好看的图”,开源模型已经足够。闭源的价值在于它背后的生态整合——能不能无缝接入你的工作流、能不能和其他工具联动。


    四、视频生成进入实用期

    2026 年初,AI 视频生成真正进入了”能用”的阶段。

    Wan 2.2 的出现是一个关键节点:

    • 14B 参数开源模型,支持文生视频、图生视频和动态人物驱动
    • 双专家架构解决了视频生成的”运动模糊”和”细节丢失”问题
    • GGUF 量化让消费级显卡(16GB 显存)也能跑
    • 2025 年下半年 ComfyUI 工作流的成熟让整个流程可配置、可复现

    对于创作者来说,这意味着:

    • 产品展示视频可以 AI 生成
    • 短视频内容可以快速原型化
    • 传统需要摄像机的场景可以先用 AI 预演

    但需要注意的是,AI 视频生成目前还是”辅助工具”而非”替代方案”。在需要精确控制、真人表演、复杂场景调度的场景中,传统视频制作依然不可替代。


    五、行业观察:从”能力竞赛”到”商业落地”

    这是整个 AI 行业的大趋势,图像生成领域也不例外。

    2026 年 3 月,多个信号表明行业正在从”比谁参数大”转向”比谁赚钱”:

    • Google 推出 AI Pro / AI Ultra 分层订阅
    • OpenAI 测试广告管理平台(最低 20 万美元起投)
    • 企业从追求全自动 AI 转向”混合 AI”(人机协作)
    • 多家公司推出模型压缩方案(如 HyperNova 60B),在边缘设备上运行

    对创作者而言,这意味着:

    1. **免费午餐会越来越少** — 优质 API 和模型会越来越贵
    2. **选择比努力重要** — 选对工具栈比追最新模型更重要
    3. **效率是关键** — 能够利用 AI 工具高效产出内容的创作者将获得更多机会

    4. 六、创作者的机会与挑战

      机会

      • 工作流即资产 — 你搭建的 ComfyUI 工作流本身就有价值,可以教程化、付费化
      • 跨平台分发 — 一套内容适配博客、小红书、知乎、B站,AI 工具帮你加速这个过程
      • 垂直领域深耕 — 通用模型越来越强,但在特定领域(游戏美术、电商设计、摄影后期)有深度理解的创作者依然稀缺

      挑战

      • 内容同质化 — 所有人都能用 AI 画好看的图,如何做出有辨识度的内容是核心问题
      • 技术迭代快 — 今天学的工作流下周可能就过时了,持续学习的成本高
      • 版权与合规 — AI 生成内容的版权归属越来越模糊,商用需谨慎

      七、我的思考

      我之前写过一篇《AI 狂热的三重隐忧》,讨论了数据中心能耗、氦气供应链和 AI 取代治疗师的风险。这篇文章想补充一个更务实的观点:

      工具在变快,但好内容的本质没有变。

      AI 图像生成工具的进步速度令人兴奋,但最终决定一个创作者价值的,不是他能用多少个模型,而是他能不能用这些工具讲出有温度的故事、做出有灵魂的作品。

      ComfyUI 的工作流、Nano Banana 2 的分辨率、Wan 2.2 的视频生成——这些都是”术”。而”道”在于你对创作的理解、对审美的把控、对受众的洞察。

      术可以学,道需要练。 这大概就是 2026 年 AI 创作领域最朴素也最重要的建议。


      相关阅读:

      • *AI 狂热的三重隐忧:当数据中心吞噬星球,当氦气断供,当算法取代治疗师*
      • *你以为是 AI 智能体?其实只是”改了个名”——揭秘 AI 智能体营销骗局*

AI 狂热的三重隐忧:当数据中心吞噬星球,当氦气断供,当算法取代治疗师

本周 Reddit r/technology 板块的热门帖子像一份诊断报告,揭示了一个正在加速失控的行业。

如果你在过去一周刷过 Reddit 的 r/technology,你会发现一种不安的共识正在形成:AI 的狂飙突进正在暴露出三根隐秘的裂缝,而大多数人的目光还停留在模型的参数量上。

一、数据中心军备竞赛:660 亿美元买一个「可能」

本周最令人震惊的数字不是某个模型的 benchmark 得分,而是来自俄亥俄州的 Piketon——一块 3,700 英亩的土地上,Softbank 计划建造一个 10 吉瓦 的数据中心。

这个规模的含义是什么?它需要配套一座 330 亿美元 的天然气发电厂,发电量相当于 9 座核反应堆。算上计算基础设施本身的成本,项目总价值超过 660 亿美元,预计本年代末完工。

这是美日之间 5,500 亿美元投资计划的一部分。作为基础设施项目,它令人叹为观止。但作为一笔投资决策,它让人脊背发凉。

DAME Magazine 本周发表的一篇文章直言不讳地将当前 AI 数据中心热潮比作 19 世纪的铁路泡沫。当年的逻辑和今天如出一辙:一种革命性技术即将改变一切 → 资本疯狂涌入基础设施建设 → 每个人都相信「只要建了,需求自然会来」→ 泡沫破裂。

铁路最终确实改变了世界。但在泡沫破灭的过程中,无数投资者血本无归。AI 也极有可能改变世界——问题在于,当前的 660 亿美元押注,是基于对 AI 推理需求指数级增长的假设。如果这个假设哪怕出现微小的偏差,这些巨型数据中心就会变成这个时代最昂贵的鬼城。

我的看法: 我们不是在否定 AI 的价值,而是在质疑当前这场军备竞赛的理性程度。当一家公司需要一座相当于 9 个核反应堆的电厂来训练模型时,「可持续」这个词就已经名存实亡了。更值得警惕的是,这些投资的退出路径极度依赖 AI 推理需求的持续爆发——而历史上每一次技术泡沫的破灭,都是因为现实增长未能匹配预期。

二、一根脆弱的供应链命脉:氦气

与此同时,本周另一条 Reddit 热帖(4,780 票)揭示了一个几乎被所有人忽视的致命弱点。

卡塔尔供应着全球约 30% 的氦气。 而氦气在半导体制造中不可替代——它的热传导性能使其成为晶圆蚀刻冷却过程中唯一可行的选择。三星、SK 海力士、台积电都依赖它。

3 月,卡塔尔的拉斯拉凡天然气出口设施遭到袭击并严重受损。QatarGas 宣布「不可抗力」,氦气生产全面暂停。约 200 个价值百万美元的液态氦运输容器被困在中东。

氦气现货价格已经翻倍。 真正的短缺预计将在 4 月上旬开始冲击市场。韩国芯片产业尤其脆弱——它约 65% 的氦气来自卡塔尔。

虽然三星、台积电目前声称库存充足,但全球芯片供应链的韧性正在被现实考验。关键问题在于:氦气没有替代品。这不是一个可以通过「快速切换供应商」来解决的问题。

我的看法: AI 产业的叙事是「算力为王」,但算力的物理基础——芯片制造——却依赖于一条极其脆弱的供应链。氦气只是冰山一角。从稀土元素到特种气体,从光刻胶到超高纯度化学品,半导体制造的每一个环节都存在类似的脆弱点。我们投入数千亿美元建设数据中心,却对这些基础材料的供应安全缺乏最基本的战略储备。这不是技术问题,这是战略短视。

三、当算法想要替代你的治疗师

如果说前两个隐忧是硬件层面的,那第三个则是人性层面的。

本周,北加州 2,400 名 Kaiser 医疗集团的心理健康专业人员罢工。原因不是薪资或工时——而是 AI

工会担心的是:虽然 Kaiser 目前尚未用 AI 进行心理治疗,但公司可能在技术成熟后用算法替代人工治疗师。超过 23,000 名护士联合声援,共同呼吁确保「由人提供对人的护理」。

这件事的讽刺之处在于:心理健康恰恰是 AI 最不应该介入的领域之一。心理治疗的核心不是信息传递——如果只是传递信息,一本自助书就够了。治疗的核心是两个真实的人之间建立的信任关系,是共情、沉默、眼神接触中那些无法量化的瞬间。

Kaiser 否认会用 AI 替代人工评估,声称 AI 仅是辅助工具。但工人的恐惧并非空穴来风。当一家企业的底层逻辑是降本增效时,「辅助」和「替代」之间的界限往往只取决于算法能力的进展速度。

我的看法: 这场罢工是一个信号——不是关于 AI 能力的信号,而是关于信任的信号。当 2,400 名专业治疗师和 23,000 名护士因为恐惧 AI 而走上街头时,我们需要的不是更好的技术公关,而是真正的制度保障。技术进步的代价不应该由最脆弱的群体来承担。

写在最后

本周的 Reddit 科技板块像一面三棱镜,折射出 AI 时代的三个盲区:

  • **资本的盲区**:我们在用 19 世纪的泡沫逻辑为 21 世纪的技术下注
  • **供应链的盲区**:我们忽视了支撑 AI 算力的物理材料基础有多么脆弱
  • **人性的盲区**:我们在狂热追求自动化的同时,正在侵蚀人类最珍贵的互动形式

AI 无疑是改变世界的力量。但一个成熟的社会,不应该只看到力量,还要看到代价。


数据来源:Reddit r/technology 热帖、Tom’s Hardware、Fortune、AP News

发布日期:2026 年 3 月 22 日

我为 Comfyui 下的工作流开发的 Nano Banana Pro 图像生成插件

这个插件我基本上都用在日常的工作中,我是一个游戏美术设计师,使用它,给我在日常工作上带来了极大的便利。依托 apiyi ,它的生成速度 4k 画质基本上都在 30s-70s 之间。这得益于供应商的优质服务,让我对此很满意。同时他们提供的价格通常在 0.3 元人民币/张图像(4K)也是相比官方更加的划算。

对此价格下,你可以利用它做更多创意的事情,例如批量化的生成图像,在comfyui很容易实现。Gemini 3 的多模态特性也能在你不同的提示词要求下提供多种优秀结果,可以发挥你的脑洞做更多有趣的事情。

以上红色涂抹部分是将你的 apiyi 密钥放到这里即可。更多相关插件的使用,介绍请访问:https://github.com/yitao2020/comfyui_Nano_banana_pro_apiyi

以上是插件返回图像的日志耗时,供你参考。

2026-纪念新年第一拍-Nikon z5 ii

从深圳出发,仅需1.5小时高铁即可抵达潮州——一个非常适合短途散心、放松身心的城市。这里的街边小店琳瑯满目,佛手香橼和茶叶是本地特色,其中品质上乘的佛手香橼,每罐价格甚至可超过两百元。当地人常将老香黄(也称佛手香橼,由新鲜佛手加蜂蜜与药材腌制而成)、老药桔和黄皮果一同泡水饮用,称之为“三宝茶”,据说有理气化痰、生津止渴、清热健脾的功效。

广济桥

我向来喜欢在旅行中拍摄当地的文化与风景,也乐于漫步街头捕捉生活气息。潮州的广济桥,是一座自南宋时期开始修建的梁桥与浮桥组合而成的古桥,历代多有修缮。清雍正年间曾进行过修复,但我们现在所见的桥梁并非清代原貌,而是在1958年加固、2003年全面修复后形成的今日样貌。早期的广济桥并没有这么长,靠“十八梭船”连接通行,如今它已成为潮州的地标和“潮州八景”之一。

历史上不少文人曾在此留下诗词,描绘当年景象。比如桥上石碑所刻的这一首:

清·日昌撰 吴善璋书

风饱碟帆张 浪柔兰浆软

兰浆划在柔波里感觉很软,碟帆被饱满的风鼓起高张。

诗中描写的应是清代桥面仍以十八梭船相连时的画面——作者或许立于船中,望见海面上帆影往来运送货物,心有所感,意境很美。这块石碑也是后人为了铭记当年主持修桥者而立,以示感恩。

泰佛殿

开元泰佛殿建于1992年,与我同龄。1997年,泰国诗琳通公主曾来此参拜。其名“开元”取自唐玄宗“开元盛世”之寓意,一如潮州的开元寺始建于唐代,赋予这座泰佛殿更厚重的历史感。

潮州古城

潮州古城聚集了许多地道小吃,总体口味偏甜咸。卤鹅很美味,腐乳鸡翅则风味独特,不过我个人感觉存在些许乱收费现象。古城适合停留一两天,如果时间凑巧,还能欣赏到富有当地特色的英歌舞表演。

需要注意的是,古城内的厕所位置比较隐蔽,找起来可能需要多花点耐心哦。

你以为是AI智能体?其实只是”改了个名”——揭秘 AI 智能体营销骗局

上周,我的一位做企业服务的朋友兴冲冲地给我演示他们公司刚上线的”革命性AI Agent产品”。

“你看,我们的智能体可以自动处理客户咨询!”他骄傲地点开界面。

我随口问了句:”如果客户问的问题超出预设范围呢?”

他愣了一下:”呃……那会转人工。”

“遇到多步骤复杂任务怎么办?”

“需要用户自己配置每一步流程。”

“那它和你们之前的聊天机器人有什么区别?”

长时间的沉默后,他尴尬地笑了:”好像……就是改了个名字?”

这不是个例。2025年11月,当Gartner将”代理式AI”(Agentic AI)列为十大技术趋势之首时,一场名为“Agent Washing”(智能体洗白)的行业乱象正在上演。


🎭 什么是”Agent Washing”?

简单来说,Agent Washing就是给产品换个”AI Agent”的马甲,但内核还是几年前的老技术。

就像:

  • 奶茶店把”珍珠奶茶”改名叫”黑糖波波AI奶茶+”
  • 健身房把”私教课”改名叫”AI智能体健身方案”
  • 连卖煎饼果子的都想贴个”Agent”标签

Gartner研究总监闫斌一针见血地指出:

“目前多数所谓’Agent’实为’Agent Washing’,仅改名为Agent,而无实质升级。真正的AI Agent应具备感知、决策与行动的闭环能力,而目前大部分类似系统尚处初级阶段。”

说白了,现在市面上90%自称”AI Agent”的产品,其实都是”伪智能体”。


💰 为什么突然冒出这么多”假Agent”?

1. 市场疯了——2029年市场规模达50%

数据太诱人了:

  • Gartner预测,到2029年,代理式AI将占全球AI总投资的近50%
  • 投资人见面第一句话:”你们有Agent吗?”
  • 客户招标文件里必写:”要求具备智能体能力”

不贴个”Agent”标签,连PPT都做不下去。

2. 技术门槛太高——真Agent不是谁都能做

构建真正的AI Agent需要:

  • 强大的大模型基础(OpenAI o3、Claude 4那种级别)
  • 复杂的多智能体协作框架
  • 可靠的工具调用和环境交互能力
  • 完善的错误处理机制

这套技术栈的研发成本动辄数千万美元。

中小企业怎么办?改个名呗,反正市场定义也不清晰。

3. 定义模糊——谁也说不清什么算Agent

问10个专家”什么是AI Agent”,你会得到10个答案:

  • 有人说:”能自主决策就是Agent”
  • 有人说:”能调用工具就是Agent”
  • 有人说:”带个对话界面就是Agent”

定义越模糊,浑水摸鱼的空间就越大。


🔍 如何识别”假Agent”?五个问题见真章

别被营销话术忽悠,问这五个问题:

问题1:”它能处理没见过的新情况吗?”

真Agent:

  • 用户:”帮我订周末团建的餐厅”
  • Agent:自动查询天气→分析团队饮食偏好→筛选合适餐厅→比较价格→预订

假Agent:

  • 用户:”帮我订周末团建的餐厅”
  • Agent:”请选择:1.中餐 2.西餐 3.日料”(还是填表那一套)

问题2:”遇到错误会怎么办?”

真Agent:
订票失败→自动尝试其他平台→价格不合适就换方案→都不行就联系人工

假Agent:
订票失败→弹出错误提示:”操作失败,请重试”(然后就没有然后了)

问题3:”能自己规划多步骤任务吗?”

真Agent:

  • 给个目标:”组织一场50人的产品发布会”
  • Agent自动拆解:选场地→设计流程→邀请嘉宾→准备物料→媒体宣传……

假Agent:

  • 需要你手动设置:”步骤1:xxxx,步骤2:xxxx……”
  • 它只是按你的脚本执行,改一个环节就全乱套

问题4:”有记忆和学习能力吗?”

真Agent:

  • 记住你上次说”不喜欢香菜”
  • 这次订餐自动备注”不要香菜”
  • 还会推荐更适合你口味的餐厅

假Agent:

  • 每次都像第一次见面
  • 重复问同样的问题
  • 没有任何个性化

问题5:”能跨平台、跨工具协同吗?”

真Agent:
从企业微信查任务→到钉钉发通知→去飞书找文档→调用Office生成报告

假Agent:
只能在自己的系统里转悠,出了这个软件就抓瞎


⚖️ 真假对比:一个案例说明一切

让我们用一个真实场景对比真假Agent的差异:

任务:帮我安排下周出差到上海的行程

假Agent(实际上是规则引擎+API调用)

对话:

  • 用户:”帮我安排下周出差到上海”
  • 假Agent:”请选择出发日期”
  • 用户:”下周三”
  • 假Agent:”请选择返程日期”
  • 用户:”下周五”
  • 假Agent:”已为您找到3趟航班,请选择……”
  • 用户:”最便宜的”
  • 假Agent:”请选择酒店……”

特点:

  • ❌ 一问一答,像填表一样
  • ❌ 不会主动思考
  • ❌ 不考虑你的偏好和特殊需求
  • ❌ 出了差错就卡住

真Agent(具备感知、决策、行动能力)

对话:

  • 用户:”帮我安排下周出差到上海”
  • 真Agent:”好的!我看到你下周三上午10点有个重要会议,建议周二晚上出发,这样时间更从容。我查了天气预报,那几天上海有雨,已经在你的行李清单里加了雨伞提醒。”

自动执行:

  1. 感知环节:
    • 分析日历发现周三有会
    • 查询天气预报
    • 回忆你上次出差说过”不喜欢赶早班飞机”
    • 检查你的差旅预算
  2. 决策环节:
    • 制定方案:周二下午出发
    • 选择航班:不是最便宜但时间最合适的
    • 酒店选择:会议地点步行10分钟内
    • 预留备用方案:万一航班延误怎么办
  3. 行动环节:
    • 订票、订酒店
    • 自动填写报销单
    • 在日历里创建提醒
    • 发航班信息给秘书
    • 遇到订票失败自动换方案

特点:

  • ✅ 理解上下文和隐含需求
  • ✅ 主动规划完整方案
  • ✅ 考虑个人偏好
  • ✅ 具备应变能力

Gartner的预警:泡沫即将破裂

在2025年的技术成熟度曲线上,AI Agent正处于一个危险的位置:

当前阶段:期望膨胀期顶峰(Peak of Inflated Expectations)

这意味着什么?

短期(2025-2026):泡沫继续膨胀

  • 更多”伪Agent”产品涌现
  • 营销话术越来越夸张
  • 客户试用后发现”货不对板”
  • 市场信任度开始下降

中期(2027-2028):泡沫破裂低谷期

  • 伪Agent企业批量倒闭或转型
  • 投资人和客户变得谨慎
  • 行业标准和评测体系建立
  • 真正有技术实力的企业脱颖而出

长期(2029+):稳步爬升期

  • 成熟的Agent产品占据主流
  • 形成健康的商业生态
  • 真正实现50%投资占比的预测

历史总在重复:

  • 2017年的”区块链洗白”
  • 2019年的”大数据洗白”
  • 2023年的”大模型洗白”
  • 2025年的”Agent洗白”

每一次技术浪潮都会经历这个过程。


🌟 哪些才是真正的好产品?

国际标杆

1. Anthropic Claude “Computer Use”

  • 能力:真正能”看懂”电脑屏幕,控制鼠标键盘操作软件
  • 应用:自动填写表单、处理邮件、生成报告
  • 评价:这才是从”理解世界”到”操作世界”的跨越

2. OpenAI o3

  • 能力:在ARC-AGI复杂推理测试中达到87%准确率
  • 特点:能系统性分解多步骤任务,具备真正的推理能力
  • 意义:从”感知智能”到”行动智能”的里程碑

3. Google DeepMind AlphaFold

  • 能力:自主预测蛋白质结构,已帮助科学家解决数千个难题
  • 特点:不需要人工干预,自己规划实验和验证
  • 影响:推动生物医学研究进入新时代

国内优秀案例

1. 月之暗面Kimi K2 Thinking

  • 能力:长文本理解+多步推理
  • 特点:能真正”思考”而不是简单匹配
  • 战略:开源生态的重要补充

2. 阿里通义Agent

  • 应用:企业场景的复杂流程自动化
  • 案例:电商客服、物流调度、供应链优化
  • 优势:深度整合阿里生态

3. 字节豆包Agent

  • 能力:多工具调用+任务分解
  • 场景:内容创作、数据分析、运营自动化
  • 特色:结合字节的内容理解优势

💡 给你的三个建议

如果你是企业主

别急着追风口:

  • 不要看到”Agent”就兴奋
  • 深入了解技术实现
  • 要求看实际demo而非PPT
  • 试用期多测试边界场景

务实选择:

  • 先解决真实问题,再谈概念
  • 可能一个传统RPA就够用了
  • 不需要为”Agent”标签付溢价

如果你是开发者

扎实积累技术:

  • 不要盲目跟风改名
  • 专注核心能力建设
  • 真正实现感知-决策-行动闭环
  • 参考开源框架(AWS Multi-Agent、NVIDIA NIM)

长期主义:

  • 泡沫破裂后才是真正机会
  • 技术积累需要时间
  • 好产品终将胜出

如果你是投资人

保持理性判断:

  • 不要被营销话术迷惑
  • 深入调研技术团队背景
  • 关注实际落地案例
  • 参考Gartner等权威机构评估

识别真伪:

  • 要求现场演示复杂场景
  • 观察错误处理能力
  • 评估团队的技术积累

结语:泡沫之后,才见真金

2025年的AI行业,正在经历一场”Agent狂欢”。

有人真心在做技术突破,有人只是在蹭热点。

市场会用最残酷的方式给出答案:

  • 真正有价值的产品会沉淀下来
  • 徒有虚名的”伪Agent”终将消失
  • 用户会用脚投票

就像Gartner技术成熟度曲线所揭示的:
每一次技术浪潮,都要经历膨胀、破裂、爬升三个阶段。

我们现在正处于”膨胀期顶峰”,泡沫破裂不可避免。

但这并不可怕。

真正的创新者,会在泡沫破裂后的废墟上,建立起新的秩序。

问题来了:你遇到过哪些”伪Agent”产品?在评论区说说你的经历吧!


参考资料:

  • Gartner《2025年中国数据、分析和人工智能技术成熟度曲线》
  • 闫斌(Ben Yan),Gartner高级研究总监访谈
  • 《2025 AI大模型开发生态白皮书》

[迭代] Vue 框架搭建 Gemini-nano-banana 支持图像比例输出

该工具已开源,可访问 Github 获取:https://github.com/yitao2020/Vue-AI-web-game-asset-generator

根据 Gemini 给出的 API 指导文档,我将 Vue 框架搭建的 Nano banana 进行了图片输出比例的迭代。基于 https://kie.ai/zh-CN 提供的接口,我只需要参考 Gemini 所列出的比例调用示例全部复制交给 Cursor claude 即可。

将前端的比例参数在文本输入框上进行添加,样式选择单选边框按钮。效果图如下:

输出一个 16:9 的生图效果

[迭代] 我用 Vue 框架搭建 Gemini-nano-banana

接上篇文字换成 Vue 框架来做前端搭建。Gradio 有个缺陷,没法灵活调整左侧任务栏卡片,因为涉及到删除管理操作,点击加载历史内容。框架存在局限,而Vue 能够很好的解决这个问题。

顺便一提,还是Cursor+Claude 好用,是真正再理解你的意思去解决问题,Qoder有点兜圈子,回头还是原地杵。

以下是效果图,比我预期完成的更好。这次的效果比 Gradio 完成度更高,之前存在卡片未对齐,文本摆放不美观的问题。

我实现了以下功能:

  • 添加了Nano banana edit 编辑模型API (触发条件就是只要用户上传图像)
  • 左侧列表排序逻辑最新的越靠前,可以删除任意卡片
  • 生成的效果图可以点击下载,显示图像分辨率字样
  • Canvas 原生局部重绘组件
  • 支持双图混合输入

知识点-使用图床将图像传入编辑模型

因为都在本地调试,除了接入好 Nano banana edit 编辑模型外,要接入图床,这样能够实现图像传输到编辑模型。图像的传输格式选择是 Base 64,同时接入Kie.ai 提供的免费图床 API 。对此,一个图像编辑需求功能才算正常跑通。

Cursor+claude 图片局部重绘遇到无法编辑图像

诊断为Canvas污染机制,当Canvas中绘制了跨域图片时,浏览器会将整个Canvas标记为”tainted”

我们的流程:AI图片 → 加载到Canvas → 用户涂抹 → 导出Base64 → 上传到图床

失败点:在导出Base64这一步失败了

Cursor+claude 是如何解决的

预防措施(图片加载阶段)

  1. 预处理图片:在加载到Fabric.js之前,先将图片转换为干净的Base64数据
  2. 避免污染源:不使用crossOrigin,通过Canvas重绘创建同源数据
  3. 完全控制:所有图片都经过我们的干净Canvas处理

兜底措施(导出阶段)

  1. 直接导出:先尝试正常的toDataURL()
  2. 重绘导出:如果失败,使用Canvas重绘技术
  3. 服务器端:如果还失败,发送数据到服务器合成(预留)

技术流程 

原始图片URL → createCleanImageBase64() → 干净的Base64 → Fabric.js

以上图片的局部重绘得以解决。

Fabric.js 会出现已知的画笔漂移

去掉Fabric.js,改用vue原生的 Canvas 局部重绘。

后续考虑后续增加 Seedream 的模型API、腾讯混元3.0 模型的API接入,这个后续再研究,相信是个更有意思的事情……

利用Gradio框架搭建Gemini-nano-banana

该工具流程主要是面向需求量集中,使用人群面向团队内部,小组群体。方便管理者统一核算成本。下面分享我使用的开发工具是阿里最近推出 Qoder(使用的是 Qwen 大模型),接入 Gemini-nano-banana的api ,并通过 Gradio 框架搭建一个简单的 web 界面。

1、通过Qoder编写一个简单的web文生图界面

新用户 1000 个积分,我的使用感受下来是能够满足基本的功能搭建,我是没有任何代码阅读能力的,所以全程都是从一个视觉设计师的角度来请求命令,产生的 bug 较多。当通过一条命令要求生成小猫图片后,1000 个积分已经消耗完毕。完成的界面效果图如下:

这个界面左侧是任务列表,右侧是对话列表(上半部分是当前任务的生成记录,下半部分是输入框),可以上传图片、局部重绘,以及底部的提示词范本。这还是基本效果,细节布局还待优化,耗时1天搭建。

2、我是如何接入 Gemini-nano-banana 的 API ?

一开始我尝试使用 Google AI studio 获取 api,提供 api 的示例样本给到 Qoder,测试下来能够调用成功,但是会出现 404,通过排查发现是要升级到计费账户,也就是需要国外注册地的 Google 账号,同时你要使用到境外的信用卡才能订阅。

这一步就走不通。选择用了第三方的API接口,我使用的是 https://kie.ai/zh-CN ,一个中国人做的,包含了很多大模型的接口(Chatgpt、VEO3、midjourney、Runway、flux kontext……)最便捷的还是付款方式非常方便,支持支付宝…..

这是 Nano banana api 接口信息:https://kie.ai/nano-banana?model=google%2Fnano-banana-edit

它包含三个类型:生图模型、编辑模型、高质量模型,也就是说完成从生图需求到编辑图像需求,再到高质量图像的需求你需要接入这三个API的配置信息。

还有一个注意的地方,我使用的调用方式是 Query Task(Get),使用 Create Task(post)会遇到 404 问题。总的来说接入还算比较顺滑。

3、国产编程模型使用感受

使用过 Trae、Curse-Claude对比 Qoder 我觉得是体验感受是这样的,Curse-Claude > Qoder > Trae。我的命令请求都不是站在程序员角度发出的,这对大模型的中文的理解能力也有一定的挑战,我认为使用 Curse claude调试 bug 是最省心的,我用它来开发 iOS 应用程序,Trae 每次修 bug 都会说修正好了(实际上并没有),平均时间要花费3天。同样的问题,同样的提问请求下 Curse-Claude 能在1天就修完所有Bug。

Qoder 使用下来对文本理解能力很强,能够主动通过测试监控结果找到 bug,这点做的很赞。但是在每次调试 bug 过程中,总会请求不同的端口测试,上下文关联较弱。即使说清楚指定一个端口测试依然会在后续多轮测试中忘记,有待加强。附上我对它狂哄的交流记录:

就到这里,还有很多功能和 bug 需要修复。

我觉得正因为有了 Nano-banana、即梦 这类模型精准的修改能力,出错也越来越少。非常适合在游戏美术团队中使用,特别是前期的新项目筹备需要大量试错,尝试不同的风格。基于这个场景下通过 N8N.io 这类自动化工具接入 Nano-banana-API,并给场景原画、角色立绘、道具设计、图标设计等等进行一些批量生成的定制化工作流。甚至编写不同的需求信息,一并交给Agent 进行排序生成管理,设定命令触发时间,通过视觉大模型检阅生成效果,不满足要求继续触发生成,而设计师只需要在第二天打开云盘审核筛选,优化生成命令,这将会是一个游戏视觉设计师与AI新的协作方式。

Gemini 2.5 Flash Image (Nano Banana) 指向性修改游戏道具图标不再是梦

照现在这个大模型的迭代速度,实现口交创作不再是梦想。笔者打算把 Qwen-image 的模型进行一轮改图对比测试,结果还躺在草稿箱。

这不,谷歌的Gemini-image一出,改图能力太强大了。身边同事都不免说出牛逼的惊叹。这妥妥的就是懒人设计师的福音,改图口交的神器。哪怕游戏策划再多修改要求,那也是分分钟都能出很多方案啊!实在是等不及想分享给游戏行业的设计师、开发者们。

另外为了体现出Gemini 2.5 Flash Image的生图能力,我单独开了一个专栏进行记录分享:https://trilightlab.com/about-_aigc/

废话不多说,开测。依然是左边是原图,右图是修改后的。

要求:将这个图的王冠修改一个兔头,保持画面风格的一致

修改要求一定要明确,具体。不要出现过多的形容词,例如:参考、大一点、小一点、类似这种抽象类词汇。

要求:将这个图左边的绿叶植物换成水仙,花朵换成水仙花,要求画风一致,将瓶子的颜色修改成绿色主色调。

要求:参考这个构图,重新绘制一个以哈利波特元素相关的药水瓶,要求构图类似,同时融入哈利波特的一些经典元素,植物花朵元素换成食人花,瓶子的主色调为紫色和棕色,有冷暖的对比。

到这一会发现它的修改能力下降了,有可能是因为提示词还有待提高,但同时我认为还存在缺陷。让它参考构图重新创作美感,构图表达是局限。即使你的修改要求巨长,描述的非常具体模型对审美上理解是存在缺陷的。这是天然的一个缺陷。

要求:将图中蓝色的小女孩换成一个老人

上难度,给它潦草的草稿,将图进行上色。该工作流支持2张图,多张图融合输入。

要求:参考图1的画风,给图2进行上色,做成彩色,画面风格一致

总体对于我来说很不错,指哪打哪,很舒服!

线稿上色

要求:参考图1的参考构图,将图2的脸迁移到图1,同时给同1的草稿上色

以上,我认为这将是又一次新的工作流革新。原画师、UI设计师能够在基于现有的设计稿,将工作流嵌入自己的项目中,提供多种设计方案不再需要数小时的修改,更不需要和上游策划掰扯如何修改更合理。多种方案对比之后必然是找到更合适的解决方案。

更重要的是能够让广大的设计师从繁琐的工作中解放出来,聚焦很重要的工作内容上。但同时我们的文字表达又是有局限的,设计师在屏幕上画两笔抽象的形状,文字如何表达出来?这种前后关系文字表达注定是缺点,希望对你有启发。

工作流地址:https://blog.comfy.org/p/nano-banana-via-comfyui-api-nodes