【科普向】AI绘画是怎么来的 - 剑网3吧

level 14

冬日里的稻草人楼主

2023年03月23日 16点03分 1

level 14

冬日里的稻草人楼主

最近看到很多帖子都在吵这个所谓的拼装大师，作为人工智能领域的学生想来尝试下科普科普。但是我也只是刚刚学了一些皮毛，也没有参与过图像有关的项目因此只能说趁这个机会鞭策一下自己边学边写。如果有误还请大佬们多多包涵和协助纠正。

2023年03月23日 16点03分 2

冬日里的稻草人

倒叙可看到背景知识科普结束后，我对于这种新科技或者说新科技的理解，以及如何面对和使用它们的建议。 [小乖]

谨代表个人意见

2023年03月23日 18点03分

level 11

茲徔

住下了

2023年03月23日 16点03分 3

level 11

不过寥寥数行

高级

2023年03月23日 16点03分 5

level 14

娑娜ლ

住下了很感兴趣

2023年03月23日 16点03分 6

level 14

冬日里的稻草人楼主

首先要有一个最基本简单的认知，目前最火热的图像生成方向的深度学习模型是什么？答案就是
镇楼
的图片“Diffusion Model”扩散模型。 Diffusion Model的任务就是把一张充满噪声的图片，（可以理解为类似于马赛克图片），通过去除噪声得到一张真正的图片。因此它的训练过程就是学习把一张图片逐步增加噪声得到一张纯粹噪声的图片的过程。学习完成后就可以通俗的理解为，diffusion model就是一个噪声预测器。

2023年03月23日 16点03分 7

level 15

可爱芽芽

看起来很学术

2023年03月23日 16点03分 8

level 16

弦之花月🍒

康康

2023年03月23日 16点03分 10

level 14

冬日里的稻草人楼主

从知乎上找到了一个更直观的图来描述这个过程。此外补充一下，diffusion model被应用于图像生成任务上是2020年。
2021年1月open AI，就是弄chat GPT的那个公司，在论文中宣布diffusion model在图像生成任务中打败了传统的GAN（生成对抗网络）
2021年10月 github上开源公开了disco- diffusion模型，它是基于Open AI的Guided Diffusion项目研发的。它的功能就是完成从文字生成图片的任务。
2022年8月“stability.AI” 开源了Stable Diffusion。也是这段时间AI绘画大爆发，许多商业绘画软件如NovelAI就是基于这个模型的

2023年03月23日 16点03分 11

冬日里的稻草人

此外还有open AI的DALL·E 2和谷歌的Imagen也都有很好的效果 [喝酒]

但是它们之间孰强孰弱我暂时还不知道，在找资料了。

2023年03月23日 16点03分

level 12

赎尘

住下了

2023年03月23日 16点03分 12

level 14

º春不渡

住下了

2023年03月23日 16点03分 13

level 14

困困困了吖

住下了

2023年03月23日 17点03分 14

level 11

sanwangbai

码住

2023年03月23日 17点03分 15

level 14

冬日里的稻草人楼主

妄图直接从数学角度手撕一下diffusion model发现我还是太天真了。 [阴险]

至少今晚我自己是理解不了这个数学推导过程了。图像生成目前主要有文字到图像（text-to-image）和图像到图像（image-to- image）。
出于好奇搜索了一下，发现目前大部分人确实都是在用Stable Diffusion来进行绘画的，而且里面需要调整的参数看起来也是需要经常查手册才能很好调整。所以我推测越个性化的图片需要越熟练的Tag训练师，怪不得会有这个新岗位 [阴险]

像剑网三截图转画应该是直接塞图像然后给几个风格tag就行了，我自己没画过也不清楚。至于为什么会有tag这一个说法，我在接下来会谈谈我自己的理解。
截图只是我看的教程不做保证也不做推荐有不有效。

2023年03月23日 17点03分 16

level 14

冬日里的稻草人楼主

先说tag。这里涉及一些NLP知识，NLP就是自然语言处理。这个领域集大成者就是chatgpt [阴险]

在以前，传统的方法就是用一个高纬的向量来代表某个词的意思，就是word2vec。
但是2017年深度学习领域的重磅炸弹transformer框架提出以后，NLP就得到了飞速的发展。可以理解为一个深度网络框架（一些基于transformer的变形，比如GPT）可以更好的概括词语的特征。
然后一个训练好的深度网络可以直接用来当成一个识字的工具，一段话在经过这个网络以后会变成一个蕴涵了这段话特征的高纬向量/矩阵。
同样如果有一个模型可以把图像也训练一下，那么这个模型也可以把图像特征浓缩成一个高维矩阵。
如果把这个文字矩阵和这个图像矩阵匹配起来。那么文字转图像的任务就是有迹可循了。

2023年03月23日 17点03分 17

冬日里的稻草人

因为没有人知道机器学习出来的高纬矩阵的各个部分都有什么含义，因此人们只能用最原始的办法去测试不同的词语会给模型生成结果带来哪些不同的细节变化。这也是为什么需要有tag训练师，这帮人就是要去测试这个模型用什么样的词可以对图像造成哪些改变，从而生成更好的图片。 [阴险]

2023年03月23日 17点03分