AI绘画模型DeepFloyd IF开放训练
多模态吧
全部回复
仅看楼主
吧务
level 10
DeepFloyd IF开放dreambooth和lora的训练了,现在可以自己本地尝试训练模型或lora了。
DeepFloyd IF是一个开源的AI绘画模型,与大名鼎鼎的绘画模型Stable Diffusion(简称SD)是同一家公司开源的,但DeepFloyd IF与其他绘画模型有着非常大的区别,DeepFloyd IF在像素空间工作。与潜空间扩散模型(如Stable Diffusion)不同,扩散是在像素级别实现的。Stable Diffusion是从一张噪点图来生成同等大小的图片,而DeepFloyd IF是先生成一张64*64的小图片,再像素扩散生成一张256*256的中等图片(与普通的图片放大算法不同),再图片放大到1024*1024。
但DeepFloyd IF最令人惊艳的是解决了文生图领域的两大难题:正确生成文字,正确理解空间关系,这是很多绘画模型都无法做到的。这有赖于使用了大型T5-XXL语言模型作为文本编码器,而抛弃CLIP作为文本编码器。(想让SD正确在图像上生成一段文字简直不可能,连想让SD在指定衣服上是某种颜色都能把全局都变色。不过生成的文字也只能是英文,中文还不支持)
2023年06月10日 08点06分 1
吧务
level 10
github项目:网页链接
huggingface试玩:网页链接
lora和dreambooth训练文档:网页链接
2023年06月10日 08点06分 2
吧务
level 10
其实DeepFloyd IF开源已经有月余了,但是我一直没发,因为我自己尝试的时候,包括在huggingface试玩上用、colab上跑、租显卡自己做镜像跑,当时只有官方提供的模型,生成包括国人在内的亚洲人时,出的图实在太丑了,没眼看[呵呵],我就不放出来污染大家眼睛了。
我就等着什么时候能放出模型训练代码了,有炼丹师炼一些好看的模型再用。现在训练代码开放了,发一波,说不定有感兴趣的能训练一下新模型。
2023年06月10日 09点06分 3
1