进sd吧必看贴之吧主希望你知道的事!
stablediffusion吧
全部回复
仅看楼主
吧务
level 12
socideath 楼主
见楼下。
2025年11月15日 08点11分 1
吧务
level 12
socideath 楼主
前排
提醒,请打开“只看楼主”
2025年11月15日 08点11分 2
吧务
level 12
socideath 楼主
本贴的作用是做简单的科普以及在吧内发帖前需要了解的事情
2025年11月15日 08点11分 3
吧务
level 12
socideath 楼主
首先我在此简单介绍一下,Stablediffusion (翻译为稳定扩散)是一款基于扩散技术的深度学习文本转图像模型,于 2022 年发布。这项生成式人工智能技术是 Stability AI 的旗舰产品,被认为是当前人工智能蓬勃发展的重要组成部分。
2025年11月15日 08点11分 4
吧务
level 12
socideath 楼主
上面的文本取自维基百科,对于吧友们或许有不少理解门槛。让我再解释一些东西。
2025年11月15日 08点11分 5
吧务
level 12
socideath 楼主
从上边这句话你应该看到了“模型”这个词,那么问题来了,什么是模型?
2025年11月15日 08点11分 6
吧务
level 12
socideath 楼主
这个是我们最需要理解认识的东西,或许你之前的学习经历里了解过什么 3d 建模里的“模型”,什么手办“模型”,什么数学“模型”,“物理”模型,等等。但在本吧的大部分讨论中,模型就是一个下载到你电脑里的文件,后缀可能是 safetensor,可能是 gguf,可能是 pt,可能是 oonx,可能是 pth。大部分就这些后缀了,不同的后缀可能有相同的作用,也可能有不同的作用,请不要以模型后缀来区分模型有什么用。
2025年11月15日 08点11分 7
更正一下,这里是onnx,应该是笔误
2025年11月17日 00点11分
另外还有个纯权重数据的.bin文件,这个大多数人不会用,但这的确是sd最早期的权重类型。因为只有权重,所以要有明确的对tensor的位置偏移量记录才可以被现有模型结构加载的上。
2025年11月17日 00点11分
@miniaigo 感谢补充[真棒]
2025年11月17日 01点11分
吧务
level 12
socideath 楼主
而你入门 ai 绘画时运行的主要的模型后缀大概就是 safetensor,文件大小呢,至少 1GB,目前常用的光辉(illustriousXL 及其一系列微调或者融合模型的代称,取中文翻译为“光辉”)模型是 6GB 到 7GB 大小之间,量化精度为 fp16 。
2025年11月15日 08点11分 8
吧务
level 12
socideath 楼主
那模型有什么用呢?你看到介绍里写的是“文本转图像模型”,再动脑筋想一想,文本转图像是什么意思?没错,我在鼓励吧友们做些基本的思考,为什么你用这个模型就能生成图片,视频?你要给模型什么东西,然后才能生成图片?对吧,你得输入文字。
2025年11月15日 08点11分 9
吧务
level 12
socideath 楼主
比如你想要模型输出一个漂亮二次元女孩,你就在文本输入框里输入 1girl,anime girl,beautiful girl,哦你不懂英语怎么办?现在不是 ai 都基本免费,还求着你给用吗?为什么不去点开随便一个 ai,然后在输入框里输入“我在使用 ai 绘画软件,请你告诉我生成一个漂亮二次元女孩的提示词,要 danbooru 风格的。”
比如用豆包 AI
2025年11月15日 08点11分 10
吧务
level 12
socideath 楼主
对吧,只要你不输入什么违反公序良俗,见不得人的词,国内的 AI 就不会不回答你,巴不得你多问呢。
2025年11月15日 08点11分 11
吧务
level 12
socideath 楼主
然后点生成,显卡风扇就转转转,经过一些时间,模型就输出一张好看图片了。
2025年11月15日 08点11分 12
吧务
level 12
socideath 楼主
至此,我解释完模型是什么,以及模型起着什么作用了。我知道你可能有点急,但是先别急,再把下边这个事搞明白再说。
2025年11月15日 08点11分 13
吧务
level 12
socideath 楼主
再回忆最开始的介绍,是不是提到了它是 2022 年发布的东西?但今年是 2025 年了,你可以在社交平台上了解到各种新型的模型,虽然本吧名字是 stablediffusion ,但是近几个月以来吧内其实充斥着很多新的开源的模型的讨论,比如 flux,flux kontext,chroma,qwen-image,qwen-edit 等等新的用于生成图像的模型,还有 animatediff,wan2.1,wan2.2,等等用于视频生成的开源模型(这里不讨论 sora2 ,即梦视频与图像模型,novelAI 的模型,豆包的图像与视频模型,因为他们目前都不开源。)。
2025年11月15日 08点11分 14
吧务
level 12
socideath 楼主
模型有很多,但我希望你知道两点:
1. 开源模型的不一定差,开源意味着有可能被社区接纳然后降低使用门槛与难度,让更多人以更简单的方式使用模型生成图片或者视频。
2. 本吧主要讨论以图像与视频生成为主要任务的开源模型的使用,开源技术的讨论以及相关问题的解答。
2025年11月15日 08点11分 15
1 2 尾页