为 AI 视频工作流开发的两个 ComfyUI 插件

最近在做一个AI视频项目时,遇到了一个很实际的问题:如何用AI生成具有一致性的多角度镜头?

无论是电影预告片、漫剧分镜,还是产品展示视频,都需要在不同角度展示同一个场景或角色。传统的做法是手动调整prompt,但这种方式效率低下,而且很难保证角度的精确性。

于是,我开发了两个ComfyUI插件来解决这个问题。今天把它们开源出来,希望能帮到更多创作者。

遇到的实际问题

1. 角度描述不精确

在AI图像生成中,我们通常用文字描述相机角度:

正面视角,稍微从右边看,中景

但这种方式很模糊。什么是”稍微”?15度还是30度?中景是多大范围?

实际工作中的需求: 需要精确的数值控制,同时让AI理解场景意图。

2. 缺少可视化交互

大多数ComfyUI节点都是输入框+下拉菜单,调整参数像在填表格。但相机角度是3D概念,需要用直观的方式调整。

实际工作中的需求: 一个可以拖拽旋转的控制器,实时看到角度变化。

3. 与最新模型的集成

GPT Image 2发布后,我在实际使用中发现它在理解复杂提示词和生成一致性角色方面表现优异。但ComfyUI社区还没有好用的集成节点。

实际工作中的需求: 将GPT Image 2无缝集成到ComfyUI工作流中。

解决方案:两个ComfyUI插件

插件1:ComfyUI-MultiAngle-Camera(多角度相机控制器)

GitHub: https://github.com/yitao2020/ComfyUI-MultiAngle-Camera

核心功能

1. 3D球体交互控制器

  • 鼠标拖拽旋转,实时调整角度
  • 可视化反馈,参数实时显示
  • 不需要写代码,拖拽就能调整相机角度

2. 智能提示词生成

  • 自动将相机参数转换为AI能理解的提示词
  • 输出格式:camera angle: yaw=45°, pitch=15°, zoom=1.0 (front-right diagonal view, medium shot)
  • 同时输出数值,方便精确控制

3. 电影级镜头预设

  • 鱼眼视角(夸张的喜剧效果)
  • 倾斜视角(营造不安感)
  • 正面俯拍(权威感、压制感)
  • 正面仰拍(英雄视角,增强气势)
  • 全景俯拍(大场景展示)
  • 背面视角(跟拍镜头、主观视角)

在视频工作流中的应用

场景1:电影分镜预览

传统方式:手动画分镜,耗时数天 使用插件:

  1. 拖拽3D球体调整到理想角度
  2. 自动生成角度提示词
  3. 批量生成不同角度的场景预览

效率提升: 从3天缩短到3小时

场景2:漫剧角色立绘

需求:生成同一角色的5个角度(正面、左侧、右侧、背面、俯视) 使用插件:

  1. 创建5个相机节点
  2. 分别设置不同角度
  3. 拼接提示词,输入到图像生成节点
  4. 使用相同seed保证角色一致性

效果: 快速生成角色多角度展示,适合角色介绍、卡牌游戏等场景

场景3:动态镜头序列

需求:生成一个镜头的多个关键帧(远景建立 → 中景 → 近景特写) 使用插件:

  1. 设置3个节点,分别控制景别(zoom)
  2. 依次输入到图像生成节点
  3. 保持场景描述一致,仅改变相机参数

效果: 快速生成镜头运动序列,用于视频剪辑


插件2:ComfyUI-GPT-Image-2(GPT Image 2集成)

GitHub: https://github.com/yitao2020/ComfyUI-GPT-Image-2

核心功能

1. 完整API集成

  • 支持文生图(输入文字生成图片)
  • 支持图片编辑(上传参考图 + 编辑指令)
  • 支持多图融合(最多5张参考图同时输入)
  • 支持Mask局部重绘(只重绘指定区域)

2. 灵活的尺寸和质量控制

  • 8种预设尺寸(1K/2K/4K,方形/横版/竖版)
  • 3档画质:low(草图)、medium(日常)、high(精细)
  • 多种输出格式:png、jpeg、webp

3. 友好的错误处理

  • 常见错误提示(尺寸不对、内容审核拦截等)
  • 超时保护(high画质 + 4K可能需要3-5分钟)
  • 详细的日志输出,方便排查问题

与MultiAngle-Camera协同工作

完整工作流:

  1. 在MultiAngle-Camera中调整相机角度
  2. 节点自动生成角度描述提示词
  3. 将提示词接入GPT Image 2节点
  4. 生成符合预期的图像

实际应用示例:

# 基础场景描述
赛博朋克街道,霓虹灯,雨天湿滑的路面,电影质感

# + 自动生成的角度提示词
camera angle: yaw=45°, pitch=15°, zoom=1.0 
(front-right diagonal view, medium shot)

效果: GPT Image 2能够理解精确的相机参数,生成符合预期的镜头画面。

总结

这两个插件都是在实际工作中遇到问题时开发的,不是为做插件而做插件。

ComfyUI-MultiAngle-Camera 解决了AI图像生成中相机角度控制不精确的问题,特别适合需要多角度展示的视频/漫剧制作。

ComfyUI-GPT-Image-2 将最新的GPT Image 2模型集成到ComfyUI,支持文生图、图片编辑、多图融合等多种功能。

希望这两个插件能帮到更多创作者。如果在使用过程中遇到问题,欢迎在GitHub上提Issue或建议。


GitHub仓库:

如果觉得有用,请给个Star ⭐

我为 Comfyui 下的工作流开发的 Nano Banana Pro 图像生成插件

这个插件我基本上都用在日常的工作中,我是一个游戏美术设计师,使用它,给我在日常工作上带来了极大的便利。依托 apiyi ,它的生成速度 4k 画质基本上都在 30s-70s 之间。这得益于供应商的优质服务,让我对此很满意。同时他们提供的价格通常在 0.3 元人民币/张图像(4K)也是相比官方更加的划算。

对此价格下,你可以利用它做更多创意的事情,例如批量化的生成图像,在comfyui很容易实现。Gemini 3 的多模态特性也能在你不同的提示词要求下提供多种优秀结果,可以发挥你的脑洞做更多有趣的事情。

以上红色涂抹部分是将你的 apiyi 密钥放到这里即可。更多相关插件的使用,介绍请访问:https://github.com/yitao2020/comfyui_Nano_banana_pro_apiyi

以上是插件返回图像的日志耗时,供你参考。

[迭代] Vue 框架搭建 Gemini-nano-banana 支持图像比例输出

该工具已开源,可访问 Github 获取:https://github.com/yitao2020/Vue-AI-web-game-asset-generator

根据 Gemini 给出的 API 指导文档,我将 Vue 框架搭建的 Nano banana 进行了图片输出比例的迭代。基于 https://kie.ai/zh-CN 提供的接口,我只需要参考 Gemini 所列出的比例调用示例全部复制交给 Cursor claude 即可。

将前端的比例参数在文本输入框上进行添加,样式选择单选边框按钮。效果图如下:

输出一个 16:9 的生图效果

[迭代] 我用 Vue 框架搭建 Gemini-nano-banana

接上篇文字换成 Vue 框架来做前端搭建。Gradio 有个缺陷,没法灵活调整左侧任务栏卡片,因为涉及到删除管理操作,点击加载历史内容。框架存在局限,而Vue 能够很好的解决这个问题。

顺便一提,还是Cursor+Claude 好用,是真正再理解你的意思去解决问题,Qoder有点兜圈子,回头还是原地杵。

以下是效果图,比我预期完成的更好。这次的效果比 Gradio 完成度更高,之前存在卡片未对齐,文本摆放不美观的问题。

我实现了以下功能:

  • 添加了Nano banana edit 编辑模型API (触发条件就是只要用户上传图像)
  • 左侧列表排序逻辑最新的越靠前,可以删除任意卡片
  • 生成的效果图可以点击下载,显示图像分辨率字样
  • Canvas 原生局部重绘组件
  • 支持双图混合输入

知识点-使用图床将图像传入编辑模型

因为都在本地调试,除了接入好 Nano banana edit 编辑模型外,要接入图床,这样能够实现图像传输到编辑模型。图像的传输格式选择是 Base 64,同时接入Kie.ai 提供的免费图床 API 。对此,一个图像编辑需求功能才算正常跑通。

Cursor+claude 图片局部重绘遇到无法编辑图像

诊断为Canvas污染机制,当Canvas中绘制了跨域图片时,浏览器会将整个Canvas标记为”tainted”

我们的流程:AI图片 → 加载到Canvas → 用户涂抹 → 导出Base64 → 上传到图床

失败点:在导出Base64这一步失败了

Cursor+claude 是如何解决的

预防措施(图片加载阶段)

  1. 预处理图片:在加载到Fabric.js之前,先将图片转换为干净的Base64数据
  2. 避免污染源:不使用crossOrigin,通过Canvas重绘创建同源数据
  3. 完全控制:所有图片都经过我们的干净Canvas处理

兜底措施(导出阶段)

  1. 直接导出:先尝试正常的toDataURL()
  2. 重绘导出:如果失败,使用Canvas重绘技术
  3. 服务器端:如果还失败,发送数据到服务器合成(预留)

技术流程 

原始图片URL → createCleanImageBase64() → 干净的Base64 → Fabric.js

以上图片的局部重绘得以解决。

Fabric.js 会出现已知的画笔漂移

去掉Fabric.js,改用vue原生的 Canvas 局部重绘。

后续考虑后续增加 Seedream 的模型API、腾讯混元3.0 模型的API接入,这个后续再研究,相信是个更有意思的事情……

利用Gradio框架搭建Gemini-nano-banana

该工具流程主要是面向需求量集中,使用人群面向团队内部,小组群体。方便管理者统一核算成本。下面分享我使用的开发工具是阿里最近推出 Qoder(使用的是 Qwen 大模型),接入 Gemini-nano-banana的api ,并通过 Gradio 框架搭建一个简单的 web 界面。

1、通过Qoder编写一个简单的web文生图界面

新用户 1000 个积分,我的使用感受下来是能够满足基本的功能搭建,我是没有任何代码阅读能力的,所以全程都是从一个视觉设计师的角度来请求命令,产生的 bug 较多。当通过一条命令要求生成小猫图片后,1000 个积分已经消耗完毕。完成的界面效果图如下:

这个界面左侧是任务列表,右侧是对话列表(上半部分是当前任务的生成记录,下半部分是输入框),可以上传图片、局部重绘,以及底部的提示词范本。这还是基本效果,细节布局还待优化,耗时1天搭建。

2、我是如何接入 Gemini-nano-banana 的 API ?

一开始我尝试使用 Google AI studio 获取 api,提供 api 的示例样本给到 Qoder,测试下来能够调用成功,但是会出现 404,通过排查发现是要升级到计费账户,也就是需要国外注册地的 Google 账号,同时你要使用到境外的信用卡才能订阅。

这一步就走不通。选择用了第三方的API接口,我使用的是 https://kie.ai/zh-CN ,一个中国人做的,包含了很多大模型的接口(Chatgpt、VEO3、midjourney、Runway、flux kontext……)最便捷的还是付款方式非常方便,支持支付宝…..

这是 Nano banana api 接口信息:https://kie.ai/nano-banana?model=google%2Fnano-banana-edit

它包含三个类型:生图模型、编辑模型、高质量模型,也就是说完成从生图需求到编辑图像需求,再到高质量图像的需求你需要接入这三个API的配置信息。

还有一个注意的地方,我使用的调用方式是 Query Task(Get),使用 Create Task(post)会遇到 404 问题。总的来说接入还算比较顺滑。

3、国产编程模型使用感受

使用过 Trae、Curse-Claude对比 Qoder 我觉得是体验感受是这样的,Curse-Claude > Qoder > Trae。我的命令请求都不是站在程序员角度发出的,这对大模型的中文的理解能力也有一定的挑战,我认为使用 Curse claude调试 bug 是最省心的,我用它来开发 iOS 应用程序,Trae 每次修 bug 都会说修正好了(实际上并没有),平均时间要花费3天。同样的问题,同样的提问请求下 Curse-Claude 能在1天就修完所有Bug。

Qoder 使用下来对文本理解能力很强,能够主动通过测试监控结果找到 bug,这点做的很赞。但是在每次调试 bug 过程中,总会请求不同的端口测试,上下文关联较弱。即使说清楚指定一个端口测试依然会在后续多轮测试中忘记,有待加强。附上我对它狂哄的交流记录:

就到这里,还有很多功能和 bug 需要修复。

我觉得正因为有了 Nano-banana、即梦 这类模型精准的修改能力,出错也越来越少。非常适合在游戏美术团队中使用,特别是前期的新项目筹备需要大量试错,尝试不同的风格。基于这个场景下通过 N8N.io 这类自动化工具接入 Nano-banana-API,并给场景原画、角色立绘、道具设计、图标设计等等进行一些批量生成的定制化工作流。甚至编写不同的需求信息,一并交给Agent 进行排序生成管理,设定命令触发时间,通过视觉大模型检阅生成效果,不满足要求继续触发生成,而设计师只需要在第二天打开云盘审核筛选,优化生成命令,这将会是一个游戏视觉设计师与AI新的协作方式。

Gemini 2.5 Flash Image (Nano Banana) 指向性修改游戏道具图标不再是梦

照现在这个大模型的迭代速度,实现口交创作不再是梦想。笔者打算把 Qwen-image 的模型进行一轮改图对比测试,结果还躺在草稿箱。

这不,谷歌的Gemini-image一出,改图能力太强大了。身边同事都不免说出牛逼的惊叹。这妥妥的就是懒人设计师的福音,改图口交的神器。哪怕游戏策划再多修改要求,那也是分分钟都能出很多方案啊!实在是等不及想分享给游戏行业的设计师、开发者们。

另外为了体现出Gemini 2.5 Flash Image的生图能力,我单独开了一个专栏进行记录分享:https://trilightlab.com/about-_aigc/

废话不多说,开测。依然是左边是原图,右图是修改后的。

要求:将这个图的王冠修改一个兔头,保持画面风格的一致

修改要求一定要明确,具体。不要出现过多的形容词,例如:参考、大一点、小一点、类似这种抽象类词汇。

要求:将这个图左边的绿叶植物换成水仙,花朵换成水仙花,要求画风一致,将瓶子的颜色修改成绿色主色调。

要求:参考这个构图,重新绘制一个以哈利波特元素相关的药水瓶,要求构图类似,同时融入哈利波特的一些经典元素,植物花朵元素换成食人花,瓶子的主色调为紫色和棕色,有冷暖的对比。

到这一会发现它的修改能力下降了,有可能是因为提示词还有待提高,但同时我认为还存在缺陷。让它参考构图重新创作美感,构图表达是局限。即使你的修改要求巨长,描述的非常具体模型对审美上理解是存在缺陷的。这是天然的一个缺陷。

要求:将图中蓝色的小女孩换成一个老人

上难度,给它潦草的草稿,将图进行上色。该工作流支持2张图,多张图融合输入。

要求:参考图1的画风,给图2进行上色,做成彩色,画面风格一致

总体对于我来说很不错,指哪打哪,很舒服!

线稿上色

要求:参考图1的参考构图,将图2的脸迁移到图1,同时给同1的草稿上色

以上,我认为这将是又一次新的工作流革新。原画师、UI设计师能够在基于现有的设计稿,将工作流嵌入自己的项目中,提供多种设计方案不再需要数小时的修改,更不需要和上游策划掰扯如何修改更合理。多种方案对比之后必然是找到更合适的解决方案。

更重要的是能够让广大的设计师从繁琐的工作中解放出来,聚焦很重要的工作内容上。但同时我们的文字表达又是有局限的,设计师在屏幕上画两笔抽象的形状,文字如何表达出来?这种前后关系文字表达注定是缺点,希望对你有启发。

工作流地址:https://blog.comfy.org/p/nano-banana-via-comfyui-api-nodes