清华开源多模态语言模型VisualGLM-6B - 多模态吧

吧务

level 10

命起涟漪💦 楼主

VisualGLM-6B 是一个开源的，支持图像、中英文的多模态对话语言模型，基于 ChatGLM-6B。
之前清华就开源过GLM的base模型和ChatGLM，其中ChatGLM作为早期开源的大语言模型，在开源大语言模型榜单中仍然能排名第五，能力不容小觑，而且还是少数能完美支持中文的优秀开源语言模型，因此多模态的ChatGLM的效果也十分令人期待，期待其多模态能力加持后的效果。现在VisualGLM终于来了。
VisualGLM图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。