level 11
真·晕晕无双
楼主
我在贴吧消失这么久回来一看这吧竟然已经被和ai毫无关系的一帮人占领了,属实是没想到![[喷]](/static/emoticons/u55b7.png)
其实这段时间一直再研究dreambooth,我发现对这玩意儿来说太重的任务是基本没办法进行的。
或者说太重的任务通常效果较差,训练图集应该是在300张左右是比较恰当的,最终收敛结果都比较稳定。
然后所谓微调,本质上就是使模型专注于学习一小部分概念,而概念范围越小训练难度越低成品效果也越好。
batch size和Gradient Accumulation Steps最好的设置就是1,我哪怕设置成2最终效果都和1有明显差距。
学利率和学习率优化器建议就设置为1e-6和余弦系列,设置的稍微高一点细节就完全学不到,或者说学的不像。
但是归根结底最重要的还是高品质的训练图集,无论你的参数调的再完美,不如多花点时间优化训练集。
如果你打算进行任何形式的模型训练,你90%的前期时间应该花在训练集的优化上。
因为最终训练成品效果90%以上都和训练图集质量正相关。
最后是打标建议,我推荐使用blip2和wd1.4双管齐下。
blip2可以为我们的画面提供一段准确的自然语言描述,方便我们在生成画面时使用一段自然语言提示词快速定义画面的主题结构。
也就是用【什么人在什么地方干什么事】这样一句固定的话就迅速将画面选定在一定的范围内。
然后再用wd1.4打标来为画面中各个概念进行标注,反映在实际图片生成时用来补充修饰的单个提示词。
最后放一些阶段性成果,我在生成这些图片的模型中主要是想训练的概念是【甜美少女】【服装模特】【小裙子】【洛丽塔风格】。
最终效果使我较为满意,我想要的概念都被准确的还原出来了。























2023年05月04日 01点05分
1
其实这段时间一直再研究dreambooth,我发现对这玩意儿来说太重的任务是基本没办法进行的。
或者说太重的任务通常效果较差,训练图集应该是在300张左右是比较恰当的,最终收敛结果都比较稳定。
然后所谓微调,本质上就是使模型专注于学习一小部分概念,而概念范围越小训练难度越低成品效果也越好。
batch size和Gradient Accumulation Steps最好的设置就是1,我哪怕设置成2最终效果都和1有明显差距。
学利率和学习率优化器建议就设置为1e-6和余弦系列,设置的稍微高一点细节就完全学不到,或者说学的不像。
但是归根结底最重要的还是高品质的训练图集,无论你的参数调的再完美,不如多花点时间优化训练集。
如果你打算进行任何形式的模型训练,你90%的前期时间应该花在训练集的优化上。
因为最终训练成品效果90%以上都和训练图集质量正相关。
最后是打标建议,我推荐使用blip2和wd1.4双管齐下。
blip2可以为我们的画面提供一段准确的自然语言描述,方便我们在生成画面时使用一段自然语言提示词快速定义画面的主题结构。
也就是用【什么人在什么地方干什么事】这样一句固定的话就迅速将画面选定在一定的范围内。
然后再用wd1.4打标来为画面中各个概念进行标注,反映在实际图片生成时用来补充修饰的单个提示词。
最后放一些阶段性成果,我在生成这些图片的模型中主要是想训练的概念是【甜美少女】【服装模特】【小裙子】【洛丽塔风格】。
最终效果使我较为满意,我想要的概念都被准确的还原出来了。























