清华开源多模态语言模型VisualGLM-6B
多模态吧
全部回复
仅看楼主
吧务
level 10
VisualGLM-6B 是一个开源的,支持图像、中英文的多模态对话语言模型,基于 ChatGLM-6B。
之前清华就开源过GLM的base模型和ChatGLM,其中ChatGLM作为早期开源的大语言模型,在开源大语言模型榜单中仍然能排名第五,能力不容小觑,而且还是少数能完美支持中文的优秀开源语言模型,因此多模态的ChatGLM的效果也十分令人期待,期待其多模态能力加持后的效果。现在VisualGLM终于来了。
VisualGLM图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。
2023年05月18日 07点05分 1
吧务
level 10
github地址:网页链接
2023年05月18日 07点05分 2
level 1
厉害
2023年05月18日 12点05分 3
level 1
这个回答太奇葩了
2023年05月19日 09点05分 4
BLIP2应该没有训练过“唐僧”这个概念[笑尿]
2023年05月19日 10点05分
回答奇葩,说明还有很大改进空间
2023年05月19日 10点05分
1