第五期,究极指南!万字长文带你领略tag的真谛!
novelai吧
全部回复
仅看楼主
level 7
AI绘语 楼主
老规矩,先开贴,勉励自己动起来![吐舌]
看完这篇文章,估计你对tag会有非常非常深入的认识,所以一定不要错过哦[太开心][太开心][太开心]
2023年05月28日 08点05分 1
level 7
AI绘语 楼主
一、前言
在当今信息爆炸的时代,我们每天接触大量内容,而对这些内容进行有效分类、组织和搜索变得至关重要。标签(tag)正是发挥了这种力量。tag为我们提供了一种简单直观的方式来描述和标识内容,使其更易于搜索和浏览。
Tag在社交媒体平台、博客、图库和项目管理工具等各个领域中都扮演着重要的角色。通过将关键词或短语与特定对象、文件、图像等相关联,我们能够快速定位和识别特定主题或类别的内容。tag不仅提供分类和组织功能,还有助于内容的搜索和共享。
此外,tag在搜索引擎优化(SEO)中也扮演着重要的角色。通过为网页和内容添加相关的关键词tag,可以增加其在搜索引擎结果中的曝光度和排名,使其更容易被用户找到。Tag在帮助网页和内容被搜索引擎索引的同时,也为用户提供了更准确的搜索结果。
在图片生成式AI领域,tag同样发挥着重要的作用。tag可以为AI模型提供关键信息,帮助模型理解所需生成的图片的主题、风格和特征。通过正确理解和应用tag,我们能够更好地利用AI技术来创造符合我们期望的视觉内容,并进一步探索tag的潜力。
因此,tag作为信息组织和搜索的利器,在不同领域都发挥着重要的作用。它们简化了我们对内容的管理和搜索,提高了信息的可访问性和可分享性。无论是在网络世界还是在AI领域,深入理解tag并合理的使用tag都能给我们带来更符合预期的结果。
2023年05月28日 09点05分 3
level 7
AI绘语 楼主
文案基本写完了,但是还有好多配图没搞好,稍安勿躁[哈哈]
2023年05月28日 11点05分 6
level 7
AI绘语 楼主
二、tag和alt tag的概念
1、什么是tag?
Tag(标签)是一种关键词、短语或句子,用于描述、标识或分类内容,这是我们常说的tag。
2、什么是 ”alt tag” ?
在图片领域中,"alt tag" 是一个重要概念,全称为 "alternative tag"(替代标签)。它指的是在网页中使用的"alt"属性,用于提供图像的替代文本描述。"alt tag" 不仅是为了无障碍性和辅助技术而设计的,帮助无法加载图像的用户了解图片的内容或含义,同时也有助于搜索引擎理解和索引图像内容。
简而言之,"alt tag" 就是一段描述图片内容的文本。通过使用爬虫技术,可以轻松从网络上爬取大量的图片和对应的 "alt tag"。通过收集和筛选这些图片和 "alt tag" ,可以建立庞大的数据库,用于AI的训练。事实上,这也是SD训练数据的来源,后面我会详细介绍。
为方便理解,以下是我百度的一张猫的图片以及从网页源代码中截取的 ”alt tag” 值:
可以发现 ”alt tag” 与图片内容是有很强对应关系的。这些 "alt tag" 通常由网站开发人员或内容创作者手动添加,但也有些 “alt tag” 是程序自动添加,这种往往没办法作为训练数据。
然而,需要注意的是,并非所有的图片都具有准确和详细的“alt tag”。有些网站的图片可能没有提供“alt tag”,或者“alt tag”的内容相对简单,无法提供足够的信息来描述图片,或者与图片的相关度较低。因此,并不是所有的图片-标签对都适合用于训练模型。
比如,我从网页爬取我自己的头像:
这就是一种过于简单的tag,在构建数据库的时候是需要被过滤掉的
因此,要构建一个有效的数据库,相关的团队或组织需要对数据进行充分的筛选和过滤,以确保其适用于训练图片生成式AI。那么如何进行筛选呢?后面提到LAION数据库时,我会稍作补充。
2023年05月29日 02点05分 8
level 7
AI绘语 楼主
三、训练tag和提示词tag的关系
1、训练的tag和提示词的tag之间存在着密切的关系。
在训练过程中,tag作为训练数据的一部分,与对应的图片进行关联。通过这种关联,模型可以学习到不同tag和图片之间的关系,从而理解和捕捉tag所代表的特征和属性。例如,假设我们有三张分别标记为“猫”、“狗”、“鸟”的图片,并且只使用这三张图片和tag训练模型,那么,模型可以学习到这三个tag对应的视觉特征。比如猫有两只尖尖的耳朵,大瞳孔的眼睛,毛茸茸的身体,四只小短腿等等特征。这样,当我们需要生成一张关于"猫"的图片时,我们只需要在提示词中提及"猫",模型就可以根据学习到的猫的特征生成一张猫的图片。但如果你要让这个模型生成一张“猪”的图片,那是不可能的,因为它没见过带有“猪”tag的图片,意味着它还没有学习过“猪”的特征。
**这是极其简化的过程,而实际情况是无论训练数据还是生成过程都要复杂得多!
这个过程类似于人类的认知方式。我们之所以能够识别不同的事物,是因为我们接触过大量的样本,并通过大脑对这些样本中的特征进行学习和理解。我们的大脑可以自然而然地识别熟悉的特征,从而让我们能够准确识别和想象不同的动物,如猫和鸟。但是对于我们没见过的事物,我们同样无能为力。
因此,如果你输入的tag与训练时使用的tag差异很大,甚至在训练集中根本没有出现过,那么显然,你无法获得你所期望的结果。就像要求模型生成一张关于"猪"的图片,但它从未学习过"猪"的特征一样。
2、tag对应图片的特征强度很重要
Tag对应的图片特征越明显,模型学习的难度就越低,训练效果也更好。当tag与图片的特征之间存在明显的对应关系时,模型能够更轻松地学习到这种关联,并生成符合预期的结果。
如果tag所代表的特征在图片中非常显著,那么模型在观察大量样本时会更容易捕捉到这些特征的模式和规律。例如,如果tag为 "sunflower"(向日葵),而图片中的主体正是一朵鲜艳明亮、有明显花瓣形状的向日葵,并且没有复杂的背景信息(图左一)。那么模型很容易通过学习到这种形状、颜色和纹理等特征来识别并生成向日葵的图片。相反,如果我们仍然以 "sunflower"作为tag,但图片中的内容有其他干扰因素(图左二),甚至没有明显的向日葵(图左三),这时模型就可能面临更大的挑战。因为tag对应的特征不够明显,模型可能难以准确地学习到向日葵的特征。
因此,在训练模型时,提高tag与图片特征匹配程度可以显著增强模型的学习效果。如果你有训练模型的打算,那么这点你需要特别注意。
然而遗憾的是,训练模型需要大量的资源,因此相信我们大部分人都没有能力训练模型(dreambooth除外),因而使用别人训练好的现成模型则是更好的办法,也因此对于模型本身的问题我们大部分人是没办法干预的。不过我们可以去了解训练模型所使用的tag,以帮助我们更好控制提示词中的tag。
3、控制提示词tag以获得理想效果
利用tag生成图片同样有需要我们去注意的地方。首先是选择特征性强的tag,这样可以更好地缩小生成图片的范围,从而更容易得到我们想要的图片。
举个例子来说明,假设我们想生成油画效果的图片,但只使用了 "oil painting" 这个tag,你会发现好像油画效果并不明显。你可能会很困扰为什么得不到自己想要的结果,其实这是因为 "oil painting" 的特征性还不够强。在训练模型所使用的数据中,任何油画作品都可能带有 “oil painting” 的tag。这些油画作品涵盖了不同时期,不同风格,有细腻有粗犷,有鲜艳有素雅,有古典有现代。
你可以从下图中观察其多样性:
如果我们只是想要特定的艺术效果,那么可以添加艺术家的名字作为补充tag以将生成的结果限制在更小的范围内。艺术家的tag具有很强的特征性,每个艺术家的作品风格都非常明显。通过添加艺术家的名字,模型就能更准确地理解我们的意图,生成出更符合预期的图片。当然你也可以将许多艺术家的风格进行融合以形成更多样的画风,这是SD很擅长的地方。
以下是个例子:
Model: Realistic_Vision_V2.0
Prompt: a young woman with vintage dress is sitting on the grass, oil painting, light smile, vintage, detailed face, clear eyes, sunlight, shadow, van gogh
如上图所示,可以观察到只以 ”oil painting” 作为tag,油画风格其实并不是很强烈,缺少油画该有的纹理。当额外添加关键词 van gogh(梵高),画风出现明显转变,有高饱和的颜色,有强烈的线条感。当额外添加关键词monet(莫奈),则出现素淡的颜色,且有明显的短小线条纹理。将两者结合则会发现有monet素淡的颜色,也有van gogh 弯曲的线条。
所以说,在可以更具体描述的条件下应该避免使用相对抽象的表达。这其实与人类的思维方式相似。当我提到"油画"时,你可能会想到各种各样的油画,涵盖了不同的艺术家、不同的风格等等,这样我们对油画的想象比较抽象。但是当我提到"梵高的油画"时,就会变得更具体,你可以更准确地想象出来,比如他作品中那独特的弯曲线条等等。
2023年05月29日 03点05分 9
level 7
AI绘语 楼主
四、了解tag的重要性
tag对于确定模型生成图像的范围和目标起着重要作用。如果我们对训练模型时所使用的tag缺乏了解,那么我们无法清晰地了解该模型具有什么样的生成能力,以及什么是它不能产生的。此外,我们也无法明确如何调整tag以使模型生成的图像更符合我们的期待。因此,理解和掌握在训练模型时使用的tag以及tag的质量很有必要。
可以把模型学习的所有tag想象成一份地图。如果我们没有这个地图,尽管我们可以凭借记忆找到方向(这也正是为什么我们不了解tag但同样能生成一些自己想要的图片的原因),但是去到陌生的环境我们会迷失方向(这也是我们无法指导模型生成任何想要的事物的原因)。如果我们去的是之前去过的地方,也许我们不需要地图,但如果我们想去任何一个陌生的地方,没有地图我们将会寸步难行,这就是了解tag的意义所在。
那么为什么tag的质量同样重要呢?假设我们想去“银行”,但地图上却标错了位置,将“银行”标在了“图书馆”的位置。当我们按照地图走到那个标记为“银行”的地方时,却发现原来那里居然是个图书馆!
这就解释了为什么有时候输入某些tag会生成一些看起来与tag毫不相关的东西。因为模型将这些tag与一些毫不相干的特征对应起来了,就好像地图上明明标着“银行”,但实际上却是个“图书馆”。
因此,了解tag就像拥有一张地图一样重要。它们给予我们指引,让我们知道模型可以生成哪些内容(可以去哪里)以及怎么生成这些内容(怎么去)。同时,确保tag的质量也至关重要。如果tag质量不高,就会导致模型误解我们的意图。就像地图上的错误标记会让我们找错地方一样,模型对于错误或不准确的tag也会产生混淆。
因此,在使用模型生成图片之前,了解和考虑训练时使用的tag,以及确保tag的质量,对于获得预期的生成结果相当关键。这就像是拥有一张准确的地图,可以为我们提供
正确的
方向,让我们更好地引导模型生成符合我们期望的图片,同时,遇到无法生成预期图片的情况我们也能更快找到原因,调整输入的tag。
2023年05月29日 05点05分 10
level 7
AI绘语 楼主
五、SD的tag来自哪里?
1、基本概念
如果你曾浏览过C站,你可能遇到过以下的模型简介卡片。这些卡片为用户提供了有关模型的基本信息,帮助用户了解模型的类型、来源以及其他重要特性。
卡片中的"type(类型)":定义了模型的种类。如果显示为"checkpoint merge(检查点混合)",这意味着这个模型是一个混合模型。在此情境下,混合模型是指那些由许多基于Stable Diffusion(SD)的微调模型通过各自的权重组合而成的模型。这种模型的特点是不需要进行图像训练,它们能直接利用已有的微调模型生成重新混合成一个新的模型,这也是为什么C站上这类模型数量众多。
而当"type(类型)"显示为"checkpoint trained(检查点训练)"时,这代表这个模型是基于基础模型(base model,通常为SD 1.5)进行训练的模型。这种模型需要使用图像进行额外训练,以提升生成的质量和效果。
"base model(基础模型)"字段描述了微调模型使用的基础模型。当这里显示为"SD 1.5",它代表该微调模型的基础模型是V1.5的Stable Diffusion。这是目前许多微调模型所选择的基础模型。虽然SD 2.1已于上一年的十二月份发布,但由于SD 2.1在训练数据中剔除了nsfw的内容,且相对于SD 1.5的性能提升并不显著,因此目前大多数微调模型仍选择基于SD 1.5进行训练。然而,预计未来会有更多基于SD 2.1的微调模型发布,因为SD 2.1引入了拥有更多参数的文本编码器,这将带来更高的模型理解能力,理论上能有效提升图片生成质量。
此处所说的"微调模型"是指所有基于Stable Diffusion模型进行训练或混合的模型。C站上所有的"checkpoint"类型的模型都是基于SD的微调模型。可以说,SD1.5已经成为了当前主流模型的基础模型,因此接下来我们将主要研究基于SD1.5的模型及其tag情况。
2023年05月29日 06点05分 11
level 7
AI绘语 楼主
2、如何理解SD 1.5 之于微调模型的关系?
将SD 1.5模型和微调模型的关系比喻为一座大楼及其装潢是一种形象的解释。SD模型就如同一座完工的大楼,而微调模型则可以看作是对这座大楼进行进一步的装修和装潢,使其更加精美、符合特定需求。
当你首次使用SD webui时,默认使用的模型就是SD 1.5。可能你会发现,使用这个模型生成的图片效果相较于网络上其他人的作品存在一定的差距,无论是人物还是风景,都不尽如人意。但如果你对AI绘图已有一定的了解,并使用过多种微调模型,你就会察觉到,尽管SD 1.5生成效果不是特别出色,但它几乎能够生成任何内容,并且生成图片的差异性和多样性比其他微调模型更为丰富。也就是说,当你更改种子后,使用相同的prompt,SD 1.5能生成更丰富多变的图片。
这样的特点源自SD模型的训练数据。SD模型使用的数据来源于网络上抓取的大量图片数据,没有经过特别的筛选,因此不偏向任何特定风格,因此生成结果更随机。这一点可以从使用dreamlike diffusion V1.0和SD 1.5生成的图片中看出,前者生成的图片风格更加固定,而后者的变化则更为丰富,颜色和主体数量的变化更为多元,但质量欠佳。
进一步的说,SD模型表现得宛如一个知识面广泛却不精深的人。它似乎无所不知,无论是什么主题,什么风格,它都能生成。然而,它并不擅长精细处理任何特定的主题或风格,给人的感觉就像是样样皆通,样样稀松。
比如,你跟它说:“给我画一只猫吧”,它能给你一张猫的图片;“给我画一座山吧”,也能给你画;你能想象到的任何实物,风格等等它都能帮你画出来。但是有时候画猫会画得扭曲,画山时又可能不太像样。无论你想画什么样的物品或风格,它都无法精确地还原出来。
如果要打一个形象的比喻,SD模型就像是一个高中生,对各个科目都有一定的了解,但对任何一门学科都没有深入研究。相比之下,微调模型则更像是本科生或已步入社会的人,他们在某些领域或技能上有更深入、专业的理解和能力。
但这并不意味着SD模型的功能有限或效果欠佳。事实上,正是因为SD模型的宽泛性和灵活性,它能成为微调模型的基础,经过进一步的训练和优化,适应更多复杂的任务和需求。尽管这只是从感性角度的观察,但希望这种理解可以帮助你更快地理解SD模型的特性,进一步认识并利用其强大的能力。
预训练(pre-trained)模型的概念在许多模型中都很常见,这实质上指的是模型在具备基本能力的基础上,还需要进行特定方向的训练,以适应特定的任务或场景。对于SD模型来说,情况也是一样的。尽管它作为一种预训练模型,已经拥有了一定的能力,但直接使用它来完成具体任务,往往还有一定的难度。这就需要进一步的训练或微调,使得模型更好地适应特定的任务需求。
此外,一个模型的特性往往与其训练所使用的数据密切相关。SD模型也不例外。由于SD 1.5是大部分微调模型的底层模型,其训练数据的特性和质量在很大程度上会影响到这些微调模型的性能和特性。因此,深入了解和分析SD 1.5的训练数据是非常必要的。接下来,我将详细解析SD 1.5训练数据的具体情况。
2023年05月29日 06点05分 12
level 7
AI绘语 楼主
3、训练SD所使用的数据来源
根据SD 1.5的发布者,训练SD使用的所有数据均来自LAION-5B,以下是官方公布的训练数据来源:
SD 1.1: 从零开始训练,使用了LAION-5B的一个子集laion2B-en中分辨率大于256x256的数据(大约13亿个样本),以及从LAION-5B筛选的分辨率大于512x512的170M(1.7亿)个样本。
SD 1.2: 基于SD 1.1 继续进行训练,数据来自laion2B-en的子集”laion-improved-aesthetics”,该子集包含laion2B-en中图片分辨率大于512x512,预估美学得分>5.0,预估水印概率<0.5的样本,样本数量未知。
SD 1.3: 基于SD 1.2继续进行训练,使用与SD 1.2相同的数据进行训练,但是降低了10%的text-condition来提升CFG的性能。
SD 1.4: 基于SD 1.2继续进行训练,数据来自LAION-5B的子集”laion-aesthetics v2 5+”中分辨率大于512x512的样本,该子集样本数量为600M(6亿),同样降低了10%的text-condition以提升CFG性能,
SD 1.5: 基于SD 1.2 继续进行训练,数据与训练SD 1.4的数据相同,但是使用了更高的训练步数(2倍)。
简单来说,SD的所有训练数据都来自LAION-5B的子集 laion2B-en。可能里边的很多描述对你来说都很陌生,因此有必要对其做一定的补充说明。
① LAION:全称:Large-scale Artificial Intelligence Open Network(大规模人工智能开放网络),是一个非营利组织,该组织由来自世界各地的成员组成,旨在将大规模机器学习模型、数据集和相关代码开放给公众使用。可通过laion.ai访问到官方网站。
② LAION-5B:由LAION从网络收集超过60B(600亿)个图片样本并筛选的包含超过5B(50亿)个图片样本的数据库,准确来说有5.85B,是目前世界上最大的开放图片数据库。包含了2.32B的含有英文tag的样本,2.26B含有其它100+种语言tag的样本以及1.27B无法分辨tag语言类型的样本。
因此根据语言类型,LAION-5B被分成了三个子集:laion2B-en(英文)、laion2B-multi(其它语言)、laion1B-nolang(无法归类)。
LAION给出的数据中包含了图片URL、alt tag、图片大小以及图片和tag的匹配得分等等信息,但不会包含图片本身。
之前我说过tag与图片的匹配程度很重要,正如地图上标错的位置会让你去不到想去的地方一样,很多图片的tag并不能很好的描述图片内容,因此不是随随便便从网络上爬取的数据都能被纳入数据库的。LAION使用了一种模型——CLIP(没错,它跟我们安装依赖件时候下载的东西完全相同),它能够将图片和文本通过计算转化为张量(一种数学表达形式),再通过计算两者的张量交互值来评估tag和图片的匹配程度,得分过低的样本会被剔除。事实上,LAION通过这种方法剔除了超过90%的样本,从600亿缩小到58.5亿,而剩余的样本都是tag能较好描述画面内容(暂且这么说,因为任何模型都还不能做到100%的效率),因此可以认为LAION数据库质量是还不错的。
③ laion2B-en:由从LAION-5B筛选的包含英文 ”alt tag” 的数据构成的子集,训练SD 1.5的数据就是这个数据集。
④ laion-improved-aesthetics:laion2B-en的子集,具有较高的美学得分,较低的水印概率。水印对模型的训练影响很大,因此去掉带水印的图片是非常必要的。美学得分也由模型评估最低0分,最高10分。
⑤ laion-aesthetics v2 5+:LAION使用自己训练的模型筛选到的预估美学得分>5分且带有英文tag的图片构成的数据集。
2023年05月29日 06点05分 13
level 7
AI绘语 楼主
[吐舌][吐舌][吐舌]
下面就是本文的重点了
2023年05月29日 06点05分 14
level 7
AI绘语 楼主
4、提取SD 1.5的训练tag
1)那么现在主要集中看看SD 1.5所使用的alt tag有哪些。从官方数据来看,SD 1.5是从SD 1.2开始训练的,而SD 1.2则从SD 1.1开始训练,因此集中了解这三个模型所使用的数据即可。其包含以下四个数据集:
① Laion-2B en中分辨率 >= 256x256的样本,可以从huggingface下载
② laion-high-resolution,即LAION-5B中分辨率 >= 1024x1024的样本,可以从huggingface下载
③ laion-improved-aesthetics,即Laion-2B en中分辨率 >= 512x512,预估美学得分>5.0,预估水印概率<0.5的样本,没有提供下载途径,需要自己筛选,过程繁琐且吃配置,因此这个数据集我没办法提供相应的tag,不过应该不影响大局。
④ laion-aesthetics v2 5+中分辨率 >= 512x512的样本,可以从huggingface下载
2)我提取tag的步骤如下:
① 首先从huggingface下载了①②④三个库的数据集,为.parquet结尾的文件,这是一种大数据文件,其中包含了每个图片的['image_path', 'caption', 'NSFW', 'similarity', 'LICENSE', 'url', 'key', 'status', 'error_message', 'width', 'height', 'original_width', 'original_height', 'exif', 'md5']信息。由于每个数据库的数据量都十分巨大,因此采用抽样下载部分数据,然后再提取tag的方法。从三个库中,每个库分别下载大约4G的大数据文件(每个库下载大约3000万张图片的数据)。
② 根据图片大小过滤掉不符合要求的样本
③ 提取过滤后样本的 "alt tag"
④ 分词并统计单词和二元短语词频,过滤掉词频 <10的单词和二元短语,保存为excel文件
⑤ 把单词和部分短语翻译为中文。(对于二元短语的翻译需要调用API,数据太多,所以暂时没办法翻译)
***注意:能这样直接提取 ”alt tag” 来使用是因为我默认LAION数据库中的 ”alt tag” 能很好描述图片内容,不会出现明明是包含“猫”的 ”alt tag”,图片内容却是其它。因此只要是被搜集到的 ”alt tag”,我默认SD应该都学习过其特征,因此也应该能画出来(好坏不说先),这点我们可以后续进行验证。
3)下面分享我通过上述方法提取的tag,为方便查阅,以excel共享文件形式分享:
① SD 1.1 的训练使用的第一个数据集tag,即Laion-2B en中分辨率 >= 256x256的样本tag。
文件名:laion2B-en_translated.xlsx
网址:https://kdocs.cn/l/cssZkS4NZGt0
② SD 1.1训练使用的第二个数据集tag,即LAION-5B中分辨率大于 >= 1024x1024的样本tag。
文件名:laion-high-resolution_translated.xlsx
网址:https://kdocs.cn/l/ctQ2tvlMuGAD
③ SD 1.5训练使用的数据集tag,laion-aesthetics v2 5+中分辨率 >= 512x512的样本tag。
文件名:laion-aesthetics v2 5+_translated.xlsx
网址:https://kdocs.cn/l/cnVs3jtoyMvT
④ 将三个数据集的tag合并:
文件名:all_translated.xlsx
网址:https://kdocs.cn/l/cvg7WqsC8PUy
建议你主要参考第三个和第四个文件。
理论上,tag出现的频率越高,说明该词应该被模型更好地理解和掌握。然而,由于数据库中样本质量的参差不齐,tag的频率并不能直接反映出模型对其的理解程度。如果一个标签的频率过低,那么这个标签很可能不会被模型正确理解和掌握。在使用这种标签时,可能只会增加模型的理解难度。此时,你可以试着更换意思相近但频率更高的表达。
查阅这些文件的方法很简单:只需打开文件,然后使用Ctrl + F功能,搜索你需要的tag即可。
2023年05月29日 09点05分 15
level 7
AI绘语 楼主
以上就是有关tag的基础内容以及SD训练所使用给的tag
明天我再给出相关的测试结果以及更多模型的tag
另外,我发现帖子很容易被删,因为很多关键词都会被认为是敏感词,真的好烦,而且还不能排版
可能之后会考虑把内容搬运到公众号
2023年05月29日 09点05分 16
好的,刚说完,15楼就被删了,说是作弊内容????wtm十万个为什么?贴吧太厉害了[真棒]
2023年05月29日 09点05分
level 7
AI绘语 楼主
14楼昨天被吞了,到现在都还没恢复[黑线]
2023年05月30日 08点05分 19
level 7
AI绘语 楼主
15楼内容估计是回不来了,但是我不知道是什么方面违规了,所以也不知道怎么改,之后发公众号吧
2023年06月01日 01点06分 21
level 7
AI绘语 楼主
六、tag测试
正如我之前所说,只要是模型在训练数据中遇到过的tag,模型理论上都应该学习并掌握了这些tag对应的图像特征。这意味着,当你输入一个tag时,模型应该能生成具有相关特征的图片。虽然在这种情况下生成的图片质量可能并不是特别高,但模型至少能理解并按照你的需求进行相应的图片生成。对于基础模型来说,这已经是非常重要的一步。就像我作为一个理科生,我对历史的了解可能只是基本的和概括的,我能记住在历史上的哪个时期大概发生了什么重要事件,但如果你让我详细描述某一个具体的历史事件,我可能会感到困难。而对于一个历史专家来说,这种任务可能就相对简单很多。在这里,这个历史专家就像是经过微调的模型。接下来,我将使用SD 1.5(基础模型)和dreamshaper V4(微调模型)这两个模型,输入同样的tag,来生成图片。通过比较,我们可以看出基础模型和微调模型在理解和处理tag上的差异。从理论上来说,基础模型能理解的tag,微调模型也应该能理解;但微调模型能理解的tag,基础模型却可能无法完全理解。同时,微调模型通常会倾向于生成特定风格的图片,这是因为其训练数据中所包含的信息更具体且集中。以"laion-aesthetics v2 5+_translated.xlsx"文件为例,我进行了一个随机验证过程。
说一下测试步骤,首先是利用随机数生成器在1-100,000中生成了以下十个数字作为索引值:3707、7632、2278、34540、96194、65248、60872、61183、89661、60608。然后测试索引值对应的tag能否被模型理解,同时比较SD1.5和微调模型生成结果的差异。这些索引值分别对应的tag和利用模型生成的图片放在下面。
需要注意的是,这个测试的目的不是为了展示模型的生成能力,而是为了帮助我们理解模型对不同tag的理解程度,以及它如何根据这些tag来生成图片。因此,虽然生成的图片可能并不完美,但它们都是模型对tag含义的最直接反映。对于测试,
主要关注的点有两个:
1、SD 1.5能否生成符合tag特征的图片
2、SD 1.5 和微调模型生成图片的区别
2023年06月01日 01点06分 25
发现了,不能放链接[怒],一放链接就被判违规
2023年06月01日 01点06分
1 2 尾页