秋叶Lora炼丹炉:AI模型训练一键包,人人都可以当炼金术士
LORA是Low-Rank Adaptation的缩写,最早在2021年论文《LoRA: Low-Rank Adaptation of Large Language Models》中提出。是一种大语言模型低秩适配器,简单来说就是它可以降低模型可训练参数,使其尽量不损失模型表现的大模型微调方法,在此之前,StableDiffusion只能通过使用Dreambooth的方法训练大模型,如果对大模型的效果不满意,那么就只能从头开始,重新训练,但是大模型的训练要求高,算力要求大,速度慢。自从LORA被引入StableDiffusion后,大大降低了训练门槛,并扩宽了产出模型的适用范围。这就使得我们这些对AI绘画感兴趣的非专业人员,也可以在家用电脑上尝试训练自己的LORA模型。
Lora模型训练能做什么?
LORA现在已经广泛应用于商业场景中,将IP形象训练成LORA就大大节省了运营去根据不同活动不同场景结合IP绘制的时间;在电商领域,可以将衣服训练成LORA,就不需要请模特,或者拍摄,直接用AI生成模特,使用LORA给AI模特穿上特定的服饰;很多需要真人出镜拍摄的场景,也可以使用LORA模型,让一切变的简单可操作。
Lora模型作为一种微调模型具备的优点如下:
- 节省训练时间:LORA模型的低层模型已经在大规模的基准数据集上训练过了,因此可以利用这些已经学到的特征来加速新的训练过程。
- 提高准确性:使用LORA模型微调,可以在保持低层模型的特征提取能力的同时,针对具体任务进行优化,从而提高模型在特定任务上的准确性。
- 加快创作速度:LORA 模型可以快速生成想法的效果,这些结果可以为创作者提供新的创作灵感,开拓新的设计思路和方向,从而更好地实现自己的设计目标。
- 可迁移性:可迁移性意味着可以在不同任务之间共享底层模型,从而减少重复训练,提高工作效率,使其能够更快速地从一个任务转移到另一个任务。
1、云旅游
通过用自己的Lora可以做出各种各样的照片,可以看到自己穿上各种好看的衣服,出现在世界各地的著名景点。
2、AI模特
炼出一个自己的模特,让这个模特穿上自己的商品,电商场景运用广泛
3、改变画风
通过添加Lora改变照片的画风,这个画风可以自己去训练
4、IP形象LoRa
IP形象LORA的应用可以快速生成符合IP形象的设计方案,更灵活的应用在不同的场景中,IP形象LORA将整个设计过程更简化,让设计师能更专注于提升作品的审美价值,提高设计的多样性和丰富性提升设计效率。
无论是在线上的运营海报、开屏页、banner等还是在线下的KT版、海报物料等,都可以很好的应用。
5、电商LoRa
通过LORA模型训练,可以训练出属于自己的电商AI模特,让其穿上指定的服饰,也有很多电商背景LORA模型,布局、光影、拍摄都不需要了,大大节省了请模特和拍摄的时间人力物力成本。
6、建筑及空间LoRa
训练室内或建筑风格的LORA,可以结合controlnet一起使用,快速根据客户实际户型结构出效果图,大大提升了效率。
LORA的应用场景还有很多,也有很多未被探索出的使用场景,大家可以多多尝试探索,训练自己专属的LORA。
LoRA训练前的准备:
LORA训练对显卡有一定要求,同时需要安装一些方便训练的软件。
首先,对电脑配置的要求主要来自显卡,需要显卡有足够的显存,其他配置不太差就可以。显卡的选择中显存是第一要素,SD1.5版本的底模6G显存勉强可用,8G显存就可以比较流畅的生成图片和炼制LORA,12G可以流畅的使用Dreambooth微调大模型。我的Mac本直接Pass,Win的配置也不是特别高,所以炼丹速度比较慢,但是勉强可以用。
然后,就是推荐方便训练的软件,这期我们主要推荐秋叶大佬的炼丹炉,帮助新手小白降低训练难度,提升炼丹效率。
通过以下链接下载一键启动包:
- 下载地址:https://www.aigchouse.com/1439.html 您可以在页面右侧找到下载按钮进行下载。
Lora模型训练流程:
1、确定目的:
在训练LORA模型之前,我们需要首先明确自己需要训练什么类型的LORA,有的博主将模型分成了几个大类:人物角色、画风/风格、概念、服饰、物体/特定元素等。
我只简单的划分为两类:具象类和泛化类,具象类如:一个物体一种姿势、一种服装、一个人物、某个特定元素等都可以划归为具象类。泛化类如:某种场景、某种艺术风格、色彩风格等。
前期明确目的的训练能更好的确定要找素材的数量及选择的大模型类型,为后面的具体训练打好基础。
2、收集素材:
「大模型的选择」和「图片质量」都是收集素材的关键
收集素材阶段,我们仍然按照第一步中的训练目的,分为具象类和泛化类。
具象类LORA:
数量:在具象训练中并不是素材越多越好,一般建议20张左右即可素材要求:不同角度,不同背景,不同姿势,不同服饰,清晰无遮挡的图片
如果同质化的素材太多,容易造成权重的偏移。
泛化类LoRA:
数量:在泛化类训练中需要素材多一些,建议50张以上
这种情况不需要特别在意同质化,但也切勿非常接近的素材占比过高。
素材收集通用要求:
- 尽量找清晰无遮挡的图片作为训练素材,人像注意面部清晰,避免任何遮挡(如头发,手等)
- 尽量找画质清晰,图像质量好的图片,分辨率不要太低;
- 注意版权,不要使用有版权的图片,慎用肖像。
3、处理素材
从这一步起,我们会使用到上文提到的软件。处理素材主要包括统一素材尺寸、生成标签和优化标签
处理素材
1)、统一素材尺寸
可以使用修改图片工具对图片尺寸进行批量处理,至少保证一边为512px,但必须是64的倍数。横竖图可放一起训练。也可以使用美图秀秀或者PS自行裁剪。
2)、生成标签
推荐使用秋叶大佬提供的StableDiffusionWebUl,启动SD-训练-图像预处理。
在你的随便一个盘,建2个文件夹,我简单的命名为1和2(1文件夹放你收集好的图片素材即为「源目录」。2文件夹不需要管,等到SD自动打标完,会将打标文件和你的图片自动存放在2文件夹内即为「目标目录」),调整宽度和高度与你的素材尺寸保持一致,
复制文件夹1和2的地址,分别粘贴到源目录和目标目录的位置。
有两种生成标签的方式:BLIP即自然语言标签,比如“1个女孩在草地上开心的跳舞”;Deepbooru即词组标签(常用),比如“1个女孩,草地,跳舞,大笑”。,一般选择使用Deepbooru生成标签。
当SD界面右侧出现Preprocessing fnished,就表示SD已经帮你自动打标好了。
3)、优化标签
第一次训练时我没有优化标签直接训练LORA,最后的LORA效果不是很理想,第二遍训练又新增了素材数量,同时优化了标签。
优化标签一般有两种方式:1)保留全部,不做删减,用此方法比较方便,但是需要用精准的关键词,才能还原想要的效果;2)删除部分特征标签,我使用的是此方法。
批量修改关键词的工具BooruDatasetTagManager,很多大佬推荐过,界面比较原始,好用的点是可以批量增删改查关键词,并且可以通过调整关键词位置来调整权重。当然你也可以使用VsCode:或者直接用txt调整都可以。
下载完后,直接双击exe文件运行,就会出现此界面。界面分为三个区域,分别是「数据集区域」「图片标签区域」「数据集内所有标签区域」。标签相关的区域右侧都有操作,可以增加、删除,翻译、上下移动标签,常用的就是这几个功能。
4、调整参数/开始训练
至此,准备工作就完成了,可以开始准备正式训练LORA了,我使用的还是秋叶大佬的LORA训练器SD-Trainer,选择新手训练模式。
在新手训练开始之前需要先明确几个概念:
重复次数(Repeat):每一张素材的重复次数。需要在文件夹名以【数字_名称】的方式设定,如训练集chahua重复次数10,则文件夹命名为10_chahua。
训练轮数(Epoch):整个训练集按照重复次数训练一次为一轮10轮就是10*10为每一张训练100次
在操作过程中也同样要考虑具象类和泛化类不同来调整参数,具象类需要在每一轮提高次数以求精准度;泛化类就降低次数提高轮数,不需要那么精准,一轮轮去训练。新手训练模式下,我们只需要调整这几个参数即可。
5、测试反馈
通过测试我们可以对比大模型、不同阶段LORA、迭代步数、采样方法等生图效果,从而帮助我们对比生成的模型,选择更好的LORA模型。
1)、loss图
每次训练的loss图都是独一无二的,loss曲线只是参考,重点要观察loss逐步降低的状态,loss越低,拟合度就会越高,过低也有可能会过拟合,需要找到合理值,可以通过loss值来选择几个训练好的lora模型进行xyz序列图测试,从而选择更好的Lora模型。
2)、xyz序列图
xyz序列图是一个参考值,能看出不同权重对LORA的影响,以及过拟合,欠拟合的程度。需要多生图去测试加深对模型的判断。
我是用xyz序列图进行反馈:在使用之前需要先给Stable-Diffusion安装一个插件AdditionalNetworks,这个插件可以帮助我们测试多个LORA不同权重的效果。安装成功后,会有图片所示部分。
通过生成的xyz测试图,就可以对比看到哪个LORA模型在多少权重下生成的效果是最好的。最终就可以选定我们的LORA模型终稿。
同样的,也可以用此方法来测试不同采样方式哪种效果更好