分享一个不全面不客观的flux-train训练工具测评

黑森林团队出的flux模型因其强大的参数,惊艳的细节效果广受欢迎,现在已经在各类AIGC平台占有很大的曝光量,甚至现在libulibu首页也是主推f1.0的lora模型,因其少量数据的微调就能获得很好的效果受到很多人的喜欢。

因为职业关系,我在工作上也尝试了flux-lora模型训练,接下来我分享pinokio-flux-gym训练工具和flux train-aitoolkit 两种工具的差别。

pinokio-fluxgym

优点:安装简单,易上手

缺点:只能训练flux-lora模型,如果想要训练sd1.5和XL模型你需要在社区中找到Kohya训练工具

Pinokio是一个AI社区浏览器,它整合了很多AI工具及工作流。它的优势在于即使你是一个不懂编程语言的小白也能轻松配置好flux lora 的训练环境,安装好pinokio工具之后,直接在探索中找到fluxgym,即可一键安装,其中python环境、第三方依赖性、模型配置等等你完全不需要自行考虑。坐等它配置好就行。

它底层基于Kohya Scripts开发,所有的参数设置都是统一的。在前端界面上采用三分法的布局设计,简化了操作步骤,123的布局设计让人一目了然,降低的理解门槛。在刚开始阶段,你都不需要详细了解具体的参数设置,只管提供优质的训练集就能拿到很好的模型效果,点赞。

实时的训练预览效果,它提供多种不同的预览图触发效果:

1.否定提示词

2.指定生成图像的宽度和宽度

3.指定生成图像的种子

4.指定生成图像的CFG比例

5.指定生成中的步骤数

支持显卡显存12G、16G、20G以上

支持的底模:flux-dev、flux schnell、flux-dev2pro(实际上训练最好用flux-dev1.0、flux-dev2pro)

FluxGYM可以修改训练集的数量 app.py文件,将 MAX_IMAGES = 修改即可

import os
import sys
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
os.environ['GRADIO_ANALYTICS_ENABLED'] = '0'
sys.path.insert(0, os.getcwd())
sys.path.append(os.path.join(os.path.dirname(__file__), 'sd-scripts'))
import subprocess
import gradio as gr
from PIL import Image
import torch
import uuid
import shutil
import json
import yaml
from slugify import slugify
from transformers import AutoProcessor, AutoModelForCausalLM
from gradio_logsview import LogsView, LogsViewRunner
from huggingface_hub import hf_hub_download, HfApi
from library import flux_train_utils, huggingface_util
from argparse import Namespace
import train_network
import toml
import re
MAX_IMAGES = 650 //修改训练集数量

flux train-aitoolkit

优点:远程训练, 面向专业级玩家、专业的UI界面

缺点:不稳定,需要简单的代码阅读能力,要配合ChatGpt或者deepseek使用

flux train-aitoolkit 目前处在一个早期版本,意味着在稳定性、功能可能不是那么的好用,该工具并非基于Kohya Scripts开发,其目录结构也和我见到的不同,因为自己对这块认识不够专业性,不便多说。

它最大的特点是基于huggingface远程访问的方式训练模型,这意味着你需要使用huggingface账户,从huggingface获取一个READ密钥,方可进行训练。

它支持FLUX.1-schnell、Flux-dev两个版本的模型训练,因为需要在本地预先写好模型配置信息,所以你需要一定的耐心来配置远程访问的信息。说实话,笔者在github上安装完这个工具都头大,你需要有一定的耐心和好奇心。否则很容易劝退。

Screenshot

笔者在配置以上两个工具都遇到diffusers无法正常克隆的情况,所以你在配置这两个工具都要开启全局git代理,否则很大几率会克隆不成功报错。

如果依然报错请使用国内镜像:https://gitee.com/opensource-customization/diffusers

训练打标

flux的特性是基于自然语言描述打标,所以你在训练中请使用触发词和自然语言描述打标,这样在训练中能够得到很好的效果。这意味着你需要使用GPT、caption等模型工作流来处理你的训练集。笔者实际尝试过仅用tag来打标,发现训练效果并不好(基于秋叶lora-script)。

分辨率

flux对尺寸分辨率没有特殊要求,小到512、大到1024,768*1024也是可以的。

实际跑图

实际使用上,权重同样是0.7-0.9之间最好,并且是触发词加自然语言描述,你的描述越多,生成的效果越细节。这也意味着你在使用上需要对画面更具体的要求,甚至在想法没有那么具体的情况下需要借助deepseek这类工具给你提供帮助。

[转载]Understanding Flux LoRA Training Parameters-了解Flux LoRA训练参数

这是转载自cvitai的文章,作者分享了基于flux lora训练的参数在训练中对模型生成结果的影响表现,值得学习。原文地址:https://civitai.com/articles/11394/understanding-lora-training-parameters

Abstract  摘要

The intent of generating images for my purposes is always central to creating a feeling; however, using machine learning to create images presents the problem of control. Image outputs can be random, incoherent, and difficult to fine-tune for small textural renditions. Feeling and aesthetics are related; to be able to create a feeling with intent, the aesthetic has to be controllable. There are ways to control aesthetics with prompting, custom nodes, and sampling settings, but the most effective approach starts near the beginning of the model pipeline—with custom-trained LoRAs. When training a LoRA, I encounter a long list of complex ML terminology that only registers as abstract concepts within my camera-based foundational understanding of image creation. This research is conducted to help myself and the open-source community define and visualize the effects these parameters have on imagery.


为我的目的生成图像的意图始终是创造感觉的核心;然而,使用机器学习来创建图像存在控制问题。图像输出可能是随机的、不连贯的,并且难以对小纹理再现进行微调。感觉和美学是相关的;为了能够创造一种有意图的感觉,美学必须是可控的。有很多方法可以通过提示、自定义节点和采样设置来控制美观性,但最有效的方法是从模型管道的开始处开始-使用自定义训练的LoRA。在训练LoRA时,我遇到了一长串复杂的ML术语,这些术语在我基于相机的图像创建基础理解中仅被视为抽象概念。进行这项研究是为了帮助我自己和开源社区定义和可视化这些参数对图像的影响。

I created a dataset of 30 images generated by Kurt Schwitters, an early 1900s Dadaism artist, intending to synthesize his noninformative collage style into controlled imagery with formative subject matter. I trained four different LoRAs, each with a different combination of parameters at extreme variations, to compare the results. Because the training data is all abstract collage and I want to merge the style with defined forms, I labeled all of the training data with false captions, covering a range of scene descriptions. The training data is available here.
我创建了一个由20世纪初达达主义艺术家库尔特·施维特斯(Kurt Schwitters)生成的30幅图像的数据集,打算将他的非信息拼贴风格合成为具有形成主题的受控图像。我训练了四个不同的LoRA,每个LoRA在极端变化下具有不同的参数组合,以比较结果。因为训练数据都是抽象的拼贴画,我想将样式与定义的形式合并,所以我用假标题标记了所有训练数据,覆盖了一系列场景描述。训练数据可在此处获取。

1.1 Parameters tested  验证参数

Unet Learning Rate  Unet学习率

Clip Skip  剪辑跳过

Network Dimension  网络维度

Learning Rate Scheduler   学习率

Min SNR Gamma  最小SNR Gamma

Noise Offset  噪声偏移

Optimizer  优化器

Network Alpha   网络α

Learning Rate Scheduler Number Cycle 
学习率数字周期

2. Experimental Setup 验证维度

Dataset: 30 images, each trained under four LoRA versions with variations in key parameters.
数据集:30张图像,每张图像在四个LoRA版本下训练,关键参数不同。

Evaluation Criteria:  评价标准:

Text/Prompt Integrity (how well text is preserved in output)
文本/提示完整性(文本在输出中的保存情况)

Overall LoRA Strength (extent of stylization and fidelity changes)
总体LoRA强度(风格化程度和保真度变化)

Artifact Frequency (presence of visual noise, distortions)
频率(存在视觉噪声、失真)

Realism vs. Cartoon Aesthetic (balance of photorealism and abstraction)
现实主义与卡通美学(摄影现实主义和抽象的平衡)

Seed Consistency (output stability across multiple various seeds *sample images below all have the same seed)
种子一致性(多个不同种子的输出稳定性 * 下面的示例图像都具有相同的种子)

3. Results 结果

3.1 Results with trained Loras 经过训练的Loras的结果

3.2 Results with no Loras (base model only) 无Loras的结果(仅基础模型)

4 Findings & Parameter Effects 结果和参数影响

4.1 Unet Learning Rate  Unet学习率

Higher Unet LR values (0.0002–0.001) significantly increase stylization, often leading to texture destruction and less controlled details. Lower Unet LR values (0.00005–0.0001) keep outputs more subtle, maintaining finer details but requiring higher LoRA strength to have a noticeable impact.
较高的Unet LR值(0.0002-0.001)会显著增加风格化,通常会导致纹理破坏和较少的控制细节。较低的Unet LR值(0.00005-0.0001)使输出更加精细,保持更精细的细节,但需要更高的LoRA强度才能产生明显的影响。

4.2 Clip Skip  剪辑跳过

Higher Clip Skip values (3–4) remove the influence of text guidance almost entirely, instead prioritizing textures, color balance, and stylization. Lower values (1–2) preserve typography and finer print details, making them more effective for text-heavy generations.
较高的“剪辑跳过”值(3-4)几乎完全消除了文本指导的影响,而不是优先考虑纹理、颜色平衡和样式化。较低的值(1-2)保留排版和更精细的打印细节,使其对文本密集的生成更有效。

4.3 Network Dimension  4.3网络维度

Lower Network Dimension values (8–16) make LoRAs effective only at high strengths, requiring exaggerated weight application to be noticeable. Higher Network Dimension values (32–64) produce more aggressive LoRA effects, often necessitating lower strengths to avoid excessive influence over outputs.
较低的网络尺寸值(8-16)使LoRA仅在高强度下有效,需要夸大的重量应用才能引起注意。较高的网络维度值(32-64)会产生更积极的LoRA效应,通常需要较低的强度来避免对输出产生过度影响。

4.4 Learning Rate Schedulers 学习率调度器

“Cosine with restarts” introduces drastic jumps in effect at strength thresholds, making it useful for controlled variability. “Constant” keeps training stable but with limited flexibility in adaptation. “Cosine” tends to enhance 3D-like structures but results in unstable outputs across different seeds. “Linear” smooths out color transitions but can overly flatten contrast-heavy images.
“重启余弦”在强度阈值处引入了剧烈的跳跃,使其对受控的可变性很有用。“恒定”可保持训练稳定,但适应灵活性有限。“余弦”倾向于增强3D类结构,但导致不同种子的输出不稳定。“线性”平滑了颜色过渡,但可能会过度平坦化对比度高的图像。

4.5 Min SNR Gamma  最小SNR Gamma

Higher Min SNR Gamma values (10–20) enhance contrast and sharpness but tend to flatten color depth, reducing natural shading. Lower values (5) retain softer gradients and allow for more depth in complex lighting conditions.
较高的最小信噪比伽玛值(10-20)可增强对比度和锐度,但会使颜色深度变平,从而减少自然着色。较低的值(5)保留较柔和的渐变,并允许在复杂的照明条件下获得更大的深度。

4.6 Noise Offset  噪声偏移

Higher Noise Offset values (0.3–0.5) introduce grain and chaos, mimicking VHS/Polaroid textures and adding analog-style imperfections. Lower values (0.05–0.1) preserve clarity and retain finer textures without unwanted distortions.
较高的“噪波偏移”值(0.3-0.5)会引入颗粒和混乱,模仿VHS/Polaroid纹理并添加模拟风格的瑕疵。较低的值(0.05-0.1)可保持清晰度并保留较精细的纹理,而不会出现不必要的扭曲。

4.7 Network Alpha  网络α

Higher Network Alpha values (16–32) amplify LoRA influence even at low strengths, often overpowering realism with more aggressive stylistic imprints. Lower values (4–8) require higher LoRA strengths to manifest noticeable effects but maintain a more subtle impact on realism.
较高的网络Alpha值(16-32)即使在低强度下也会放大LoRA的影响力,通常会以更具侵略性的风格印记压倒现实主义。较低的值(4-8)需要较高的LoRA强度来表现出明显的效果,但对真实感的影响更微妙。

4.8 Optimizers 

AdamW8Bit provides predictable, controlled results, making it ideal for structured LoRA applications. Prodigy forces stronger stylization effects, leading to more chaotic analog textures and unpredictable outputs.
AdamW8Bit提供可预测、可控的结果,是结构化LoRA应用的理想选择。Prodigy强制更强的风格化效果,导致更混乱的模拟纹理和不可预测的输出。

4.9 Learning Rate Scheduler Number Cycles 学习率循环次数

Higher LR Scheduler cycles introduce extreme variation between epochs, allowing for more diverse stylistic shifts throughout training. Lower cycle values maintain a more consistent stylization across training steps.
更高的LR训练周期在不同时期之间引入了极端的变化,允许在整个训练过程中进行更多样化的风格转换。较低的循环值在训练步骤中保持更一致的风格化。

5. Practical Applications of Parameters 参数的实际应用

5.1 Artifacts & Clarity  人工制品和清晰度

Higher Noise Offset values increase grain, texture, and chaotic variation. Min SNR Gamma improves clarity and sharpness in outputs. Higher Clip Skip values can reduce artifacts but may also lower overall clarity.
较高的“噪波偏移”值会增加颗粒、纹理和混乱变化。最小SNR Gamma可提高输出的清晰度和锐度。较高的“剪辑跳过”值可以减少瑕疵,但也可能降低整体清晰度。

5.2 Realism vs. Cartoon Spectrum Shift 现实主义vs.卡通光谱转移

Higher Clip Skip values push results toward photorealism, while lower values make images more stylized and painterly. Higher Unet LR values soften outputs with artistic distortions. Lower Noise Offset values produce cleaner images, while higher values introduce a gritty, film-like look.
较高的“剪辑跳过”值会使结果更接近照片级真实感,而较低的值会使图像更具有风格化和绘画感。较高的Unet LR值会软化带有艺术失真的输出。较低的“噪波偏移”值会产生更清晰的图像,而较高的值会产生粗糙的胶片外观。

5.3 Seed Consistency & Unpredictability 种子一致性和不可预测性

“Cosine with restarts” LR Scheduler creates controlled unpredictability across generations. The Prodigy optimizer decreases consistency, increasing variation in outputs. Higher Unet LR values decrease seed consistency, leading to less predictable outputs. Lower Network Alpha values stabilize seed predictability by reducing LoRA dominance.
“重启余弦”LR迭代法创造了跨代的可控不可预测性。Prodigy优化器降低了一致性,增加了输出的变化。更高的Unet LR值会降低种子一致性,导致更不可预测的输出。较低的网络Alpha值通过降低LoRA优势来稳定种子的可预测性。

5.4 Overfitting vs. Generalization 过度拟合与泛化

Higher Network Dimension values encourage overfitting, reducing flexibility in LoRA adaptation. Higher Unet LR values can cause over-memorization, leading to less variability. Higher Clip Skip values can improve generalization, allowing models to extract broader stylistic features rather than overfitting to specifics.
更高的网络维度值会鼓励过度拟合,降低LoRA适应的灵活性。较高的Unet LR值可能会导致记忆过度,从而导致可变性降低。较高的“剪辑跳过”值可以改善泛化,允许模型提取更广泛的风格特征,而不是过度拟合细节。

5.5 Parameter Sensitivity (How Small Changes Impact Outputs) 参数敏感度(微小变化如何影响输出)

Higher Network Alpha values result in small adjustments causing large output shifts. Higher Min SNR Gamma stabilizes changes, making variations less extreme. Higher Noise Offset values increase chaotic elements, making outputs more sensitive to small adjustments.
较高的网络Alpha值会导致小的调整,从而导致大的输出偏移。较高的Min SNR Gamma可稳定变化,使变化不那么极端。较高的“噪波偏移”值会增加混乱元素,使输出对微小调整更加敏感。

5.6 Fine Detail Retention 精细细节保留

Higher Min SNR Gamma values improve fine detail preservation. Excessively high Network Dimension values can cause loss of finer details. Lower Unet LR values help maintain sharpness and structural integrity.
较高的Min SNR Gamma值可改善精细细节保留。过高的网络尺寸值可能会导致丢失更精细的细节。较低的Unet LR值有助于保持清晰度和结构完整性。

5.7 Contrast & Tonal Shifts 对比度和色调变化

Higher Noise Offset values wash out tonal depth and flatten colors. Higher Min SNR Gamma values create stronger contrast, deepening shadows and enhancing highlights. The Prodigy optimizer produces harsher, more exaggerated contrast shifts.
较高的“噪波偏移”值会冲淡色调深度并使颜色变平。较高的最小SNR Gamma值可创建更强的对比度,加深阴影并增强高光。Prodigy优化器产生更严厉,更夸张的对比度变化。

5.8 Stylization vs. Photorealism 风格化与照相现实主义

Higher Clip Skip values push toward photorealism, while lower values lean into stylization. Higher Network Dimension values increase stylistic influence and exaggeration. Higher Unet LR values soften images, creating a more dreamlike, impressionistic aesthetic.
较高的“剪辑跳过”值会推动照片现实主义,而较低的值则倾向于风格化。较高的“网络尺寸”值会增加风格影响和夸张效果。更高的Unet LR值可以软化图像,创造出更梦幻、更印象派的美感。

6. Conclusion 结论

Fine-tuning individual values such as Clip Skip, Unet LR, and Noise Offset enables targeted control over stylization, realism, and text fidelity. Future studies will expand on testing parameters individually, multi-LoRA blending, and dataset balancing.
微调各个值(如“剪辑跳过”、“Unet LR”和“噪波偏移”)可实现对样式化、真实感和文本保真度的目标控制。未来的研究将扩展单独测试参数,多LoRA混合和数据集平衡。

人工智能与LLMs自我复制能力:娱乐媒体行业的未来变革

随着人工智能技术的飞速发展,尤其是大型语言模型(LLMs)的不断进步,娱乐媒体行业正迎来一场前所未有的变革。LLMs的自我复制能力更是为这一变革增添了无限可能,它不仅将改变内容创作的方式,还将重塑整个娱乐媒体行业的生态。

1. 音乐创作:从辅助到自主

在音乐领域,LLMs的自我复制能力将极大地提升音乐创作的效率和多样性。LLMs可以通过分析海量的音乐作品,学习不同风格的旋律、节奏和和声结构,从而生成与人类作曲家风格相似的音乐作品。例如,AI音乐平台如DeepMusic和天工SkyMusic已经能够一键生成广播质量级别的音乐。未来,LLMs的自我复制能力将进一步优化这些生成过程,甚至可能实现完全自主的音乐创作,为音乐产业注入新的活力。

2. 游戏开发:更智能的体验

在游戏行业,LLMs的自我复制能力将为游戏开发带来新的可能性。AI技术已经广泛应用于游戏策划、剧情创作、音频制作、图像和动画制作等环节,显著提高了游戏制作效率。例如,《黑神话:悟空》制作团队通过与多家厂商合作,融合了多重AI技术,打造了逼真的场景和华丽的视觉效果。未来,LLMs的自我复制能力将进一步提升游戏中的NPC(非玩家控制角色)的智能反应能力,使它们能够根据玩家的行为进行更自然的互动,从而实现更加沉浸的游戏体验。

3. 内容创作:创意与效率的双重提升

LLMs的自我复制能力将为内容创作带来革命性的变化。在影视产业中,LLMs可以分析大量的剧本数据,找出市场上最受欢迎的剧本结构、情节走向和人物设定,为编剧提供创作灵感和参考。例如,AI编剧“Benjamin”已经成功创作了科幻短片《Sunspring》,展示了AI在剧本创作中的潜力。未来,LLMs的自我复制能力将进一步提升剧本创作的效率,甚至能够根据观众的反馈实时调整剧情发展,提升观众的沉浸感。

4. 个性化推荐:更懂你的娱乐体验

LLMs的自我复制能力将进一步优化个性化推荐系统。主流的娱乐流媒体平台,如Netflix、YouTube和腾讯视频,已经利用AI技术为用户提供定制化的观影和听歌推荐。未来,LLMs的自我复制能力将使这些推荐系统更加精准,能够根据用户的情绪、时间段、甚至天气等外部环境因素,推送最适合的内容。这种高度个性化的互动将极大地提升用户的满意度和平台的竞争力。

5. 虚拟现实与增强现实:沉浸式体验的升级

结合LLMs和虚拟现实(VR)、增强现实(AR)技术,娱乐媒体行业将为用户带来更加沉浸式的体验。例如,虚拟演唱会、VR电影等新兴娱乐形式已经在市场上崭露头角。未来,LLMs的自我复制能力将进一步优化这些沉浸式体验,通过生成更加逼真的虚拟场景和角色,让用户仿佛置身于一个全新的世界。

总结

LLMs的自我复制能力将为娱乐媒体行业带来深远的影响。它不仅将提升内容创作的效率和质量,还将推动娱乐体验的个性化和沉浸式发展。然而,这一技术的广泛应用也带来了新的挑战,如版权归属、数据隐私和安全等问题。因此,娱乐媒体行业需要在技术进步的同时,加强伦理和安全方面的研究与监管,以确保技术的健康发展。

随着LLMs技术的不断进步,娱乐媒体行业的未来充满了无限可能。我们期待看到更多创新的应用和体验,同时也希望行业能够在技术与伦理之间找到平衡,推动整个行业向更加智能化、个性化和高效化的方向发展。

延申阅读:https://www.livescience.com/technology/artificial-intelligence/ai-can-now-replicate-itself-a-milestone-that-has-experts-terrified 人工智能现在可以自我复制–这是一个让专家们感到恐惧的里程碑

以上仅仅是畅想LLMS积极的一面对行业的影响,更多负面影响让人细思极恐。这个世界不是非黑即白的,有很多灰色地带我们一无所知,因为人这个物种的特点贪婪、不满于现状,创造了美好,也会因为这一弱点将人类拉入另一个生命维度。

AI自主复制能力既是文明跃升的钥匙,也可能是自我毁灭的按钮。其终极影响不取决于技术本身,而在于人类能否在技术失控前建立全球协作的治理体系,并在哲学层面重新定义「人类与智能的关系」。这一挑战的难度,不亚于人类第一次学会控制火种——稍有不慎,便会引火烧身。

Deepseek R1

当把XL训练的repeat提高到100以上

上一期文章分享了扁平插画女孩的LoRa-XL模型,训练的repeat扫描次数在10-20之间,这次我将他们的repeat提高到100-150,在同样的提示词下生成的效果如图:

masterpiece:(1.2),chahua_nvhai,,British girl,Exquisite facial details,long hair,1girl,illustration style,brown hair,wear blue dress,illustration, 5 fingers,8K,hud,Grand Budapest Hotel background,happy

头发的细节,脸部细节泛化能力都提升不少。如果你在模型训练的时候如果感觉效果没有提升,特别是XL模型训练,试试看将repeat扫描次数提高到100以上。

分享扁平插画女孩风格LoRa模型

该模型基于XL base 1.0底模微调的LoRa模型,画风特点是扁平简笔插画风格,训练素材104张。

30张写实正则化训练素材,74张简笔插画风格素材。目的是解决造型太单一,使其符合真实人的站姿,但个人认为效果并不是很明显。

这模型我主要想用来接入krita使用,所以对文生图的细节、色彩、构图、手指问题不做追求。需要的去libulibu自取:https://www.liblib.art/userpage/5bc8f4248c1b4ce1a45bd206f806803a/publish

触发词:chahua_nvhai

提示词样例:

masterpiece:(1.2),chahua_nvhai,fullbody,British girl,Exquisite facial details,long hair,1girl,illustration style,brown hair,wear blue dress,illustration, 5 fingers,8K,hud,Grand Budapest Hotel background,happy

效果如下:

关于搭建lora-script训练工具的一点思考

这篇文章主要是面向设计师读者,对偏程序向的内在逻辑不太了解的人看的。我的实际工作中还会需要去解决工具依赖项安装,程序更新后的兼容性问题排查等等。所以针对lora-script的脚本训练工具安装遇到的问题总结如下:

1.善用.venv虚拟目录将依赖项进行隔离

很多入门用户都会优先使用sd-webui(秋枼)、comfyui(秋枼)这类整合包,安装简单,解压即用省去了很多时间。所以这类整合包都会将各自的python目录进行隔离,避免公用一个python,从而避免冲突。安装lora-script也是同样的,最好准备CHATGPT在旁边待命,可以针对随时的安装报错提供帮助。

克隆之后power shell运行install-cn.ps1文件,理论上过程中应该会很顺利安装完成,但经过我实际部署超过7台计算机,都不是特别的顺利。

一是主要是出在python版本不兼容,二是程序调用的python路径不正确,使用的是系统C盘的python

python文件路径地址

对于版本好解决,只需要卸载本机不正确的python版本,安装支持的版本即可。如果程序一旦调用的是非lora-script下的python,你所有的依赖项都会安装到C盘的python目录,所以安装好依赖项也是在C盘,lora-script也会无法正常拉起。为什么会出现调用其他分区的python目录呢?你在安装之前请先运行指令例如:cd D:\lora-scripts\venv\Scripts 激活虚拟目录。

激活虚拟目录后的状态

如果没有激活虚拟目录就进行安装会导致第三方依赖项无法安装到正确的路径。

2.安装工具前cmd看看本机where python 安装在哪个目录

也遇到过将lora-script脚本克隆下来之后运行install-cn.ps1出现依赖项版本冲突问题。这时候就要细心观察他调用的是哪个路径下的python,如果调用的是在非Lora-script的目录下的python文件,就需要重新建立虚拟目录,重新安装依赖项。

未将python添加到path环境变量,这个问题出现的问题也挺多。特别是没有安装过python的系统,首次安装一般要勾选path添加到环境变量。但是也并不是100%成功,你需要手动检查是否都将他们添加进去了。下图第一行就是我的python文件路径,第二行是C盘的Python3.11版本的路径,第四行则是3.10版本。添加路径地址样例为:D:\ComfyUI_windows_portable_nvidia\python_embeded\ 代表这个目录下有python.exe可执行文件。

虽然作者已经在代码里面写的很清楚调用当前目录的python文件夹,但依然会出现调用错误的问题。

lora-script-install-cn.ps1 内部代码

3.90%报错出在python依赖项错误

你可能认为假如我在A电脑已经安装好了脚本工具,我在B电脑就直接进行复制粘贴不就可以了?也行也不行。为什么?取决于他们的python版本是否一致,pip、git是否安装。没法保证每个系统下的依赖项都是一致的所以最好进行分别安装。

所以,当你面对一台陌生的计算机你应该先在cmd中问第一句;where python

最后,配合ChatGPT一起使用会让事情变得简单,报错出现应该将更多的信息提供给它分析问题。包括不限于项目地址,requirements.txt的版本要求,脚本的运行代码,python路径等等。

多抓鱼-是一个会做内容的二手商-深圳

在深圳·后海Kalo商场B1层,多抓鱼开了一个线下二手商品展,这让我一个逛商场从来不愿排队宁可不去的人耐心排队并还很好奇的打量这个品牌为何能取得如此成功。首先,我对多抓鱼的第一次接触是在2017年,那会租房空间不大,手里屯里很多旧书。而且这些事其实对我来说非常珍贵,翻开书就好像作者在和我娓娓道来那些他/她所看到的世界。对此,如果是直接将书当废品处理,没几个钱不说,很多书还舍不得。

严格质检而建立起的信任

当时了解了他们的公众号,书籍的回收流程非常严格,在字里行间能感受到对用户的尊重,是一个非常用心做产品的公司。比如他们将回收来的书籍进行质检(确认是否为盗版),细致到通过使用放大镜来查看字迹印刷油墨的品质(还受到出版社的专业认可)。回收的书籍会进行二次消毒,再进行塑封包装,之后等待下一个读者打开。

每本书都会被认真对待,从用户端能够清晰的知道书籍的品相,销售的价格,以及谁购买了你的书籍(如果要是开放社交功能那就更好了,哈哈哈哈哈,发现彼此的阅读喜好,甚至还能找到相同话题)。

每回收一本书你都能获得相应的鱼币,这个鱼币能够有优先获得购买书籍的权限,也可购买周边。周边无形中也提升了品牌的传播。而遇到想买的书籍,也会在多抓鱼试试手气,万一真有呢,省钱又环保。

你觉得多抓鱼的用户都有哪些特点呢?

多抓鱼-一本书的回收旅程
多抓鱼-二手服装
二手-牛仔裤
多抓鱼-周边
多抓鱼-二手书
多抓鱼-T恤

OpenAI推出ChatGPT的搜索功能将改变用户获取信息的方式

我是一个游戏行业的从业者,只是在工作业务上享受到了AI工具带来的便捷和机会。自认为阅历不多,对这块可能暂时不具备深度凝练和总结。从收到OpenAI在推特发布的更新来看,这将会是一场用户获取新讯息的革新。23年和同事在聊,大家都在聊OpenAI,当时细细思考很是震惊,我认为它一定会是替代谷歌的,并且在搜索结果上获取的信息更加完整,准确,干净。而在今天发布这个消息显然技术已经成熟,他将造福更多的人。

技术创新和不断深化

ChatGPT的搜索功能基于GPT-4o模型构建,能够快速提供最新信息,并附上相关的网页链接,这标志着AI技术在搜索领域的应用正在不断深化。

抢夺谷歌的市场份额

不仅仅是和谷歌在技术上的正面硬刚,同时还会抢夺谷歌的市场份额,当前谷歌在信息检索上获取方式上还是属于被动型的接受,用户顶多看到1-2页结果后面的数据就压根没人看。同时,对于信息提供方(网站、移动网页、公司、产品等等)则不需要考虑SEO优化,关键词排名等等,而更应该注重内容的真实性,以及是否真正对用户有价值。

用户体验与交互

ChatGPT的搜索功能属于连续对话方式,并且上下文关联,从获取到信息用户进行理解还可以进行提问,矫正信息的真实性,这无疑提供能加灵活自由的沟通方式。信息检索方式的改变,也更直观体验更舒适。

与数据商合作是用户习惯的功能补充

提供天气、股票、体育、新闻和地图等类别添加最新信息和新的视觉设计,是与谷歌的一场功能的平替竞争,这类信息是用户日常使用频率最高的,无疑是让人更加惊喜的功能。

关于ComfyUI-工作流连线会断开的问题

这个问题没有发生在我身上,是同事在使用comfyui过程中遇到的问题。出现这个问题的场景是在启动工作流之后,loading出界面会出现已经连线完好的工作流程连线会断开的情况。

如图所示:

这个问题应该不是一个常见且容易复现的问题,我尝试在一些AI群里提问,包括去Google进行搜索很难找到类似的问题。后来,在reddit中进行提问(可以点击这个链接),老外反馈的问题是mixlab这个插件的bug导致,我猜测是因为不兼容的原因。

这个插件有人反馈必须要通过git进行安装才能正常使用,之前也遇到在换脸工作流的配置中因为版本不兼容而报错的问题。

对此,进行一个记录。希望搜索引擎能够尽快收录这篇问题哈哈。对于当前因为mixlab插件导致工作流断开的bug如果有遇到的类似的问题可以试试重新安装这个插件,或者切换到更低的版本时间。

我用637张游戏图标训练XL模型-免费提供下载研究-禁止直接商用

这件事是我一直想干的。在游戏项目中,基本上用的还是1.5版本的lora模型,工作量紧张,有时没法去做模型的迭代优化。游戏实际项目中去运用最大的痛点还是形状没法很好的控制。Dreambooth+lora也是我一直想去做的事情。

XL模型的特性分辨率更大,支持的文本语言更多,自然对图标的形状辨识度会更高。这是我结合实际观察来说的一个猜测。但训练XL模型门槛也随之拉高,需要更高的显卡支持。所以,最近趁着有时间赶紧尝试一版本,我会在文中随时更新动态。

这次我使用的是A800-80G显存,素材637张,使用XL默认的checkpoint,训练轮数60,每6轮保存一个XL-lora模型,其他参数默认,共403800步。

期待接下来的跑图效果。

关于云端算力的研究

实际上我研究了一遍 AWS 的EC2算力服务,如果是48G的显卡粗略估计在上百美元左右。官方博客也分享了实际如何去搭建这样一套环境和流程。详细可访问这个地址:https://aws.amazon.com/cn/blogs/china/stable-diffusion-comfyui-deployment-solution-based-on-amazon-eks/

后来找到一个专注AIGC的云端算力服务星鸾云,他们提供A800-80G显存的算力,目前估计是新上线价格也还不错6元/小时左右,对我来说是一个比较合适的产品服务。但是总体后台操作上可能还存在一些不足。感兴趣的可以前去体验。

跑图多久

实际这张卡跑图就跑了三天,如果全部训练完成得需要6天时间,我会去训练过程中不断拿产出模型去做测试,所以达到标准就直接终止了。最终训练费用在400元左右。

跑图效果

投入的训练集素材是512分辨率,担心质量不佳。实际效果确实真好,因为XL的升级优化感觉对文本的识别能力提高不少,输入的文本内容效果基本都能满足精度(但同样也存在随机性变化问题、造型问题)。

它不仅仅是习得训练集中已有的素材效果,输入其他内容,比如人、动物等它同样能将风格、上色方式给迁移过去

生成的素材造型、色彩,都提高不少,例如能够捕捉到提示词 smile 在宝箱图标结合上的合理性,这在SD1.5版本上是会逊色很多的。

以上跑图来自comfyui环境下。不足的地方就是细节造型不准,颜色偏暗。在sd-webui上跑图开启高清修复效果会更好。

下载地址访问哩布:https://www.liblib.art/modelinfo/adeaf829f9a04f238dfff370bc1df8f4?from=personal_page&versionUuid=5fbcdd4ca04c4a4091f4ae462dfe4e31

请搭配 base_xl 官方原版模型使用,lora权重请控制在0.6-0.8之间,触发词: Trilightlabs style, 后续接图标属性例如:gem,stone,drink,ring,shoes,flower,treasure chest

这个图标的特点几乎涵盖日常需要使用的游戏图标种类,可以尝试各种属性提示词,此lora模型风格主要偏写实日韩二次元游戏画面风格。