群魔乱舞的多模态大模型时代！Otter（水獭）来临 - 多模态吧

吧务

level 10

命起涟漪💦 楼主

先说个个非常有意思的事，在ChatGPT出现前，GPT3就早已出现，但并没有掀起波澜。但就在GPT4正在研发时，OpenAI突然被要求回过头来研发GPT3的改进版，这在当时并不被人理解，因为对于正在研发GPT4点openai员工来说，GPT3已经是过时的东西。可就是这次改进，将GPT3微调改进成了ChatGPT，使其有了多轮对话能力和交互指令能力，强大的能力直接引起了世界范围内的轩然大波。
最近的研究强继续调了微调指令对于增强大型语言模型的重要性，将GPT-3增强为ChatGPT就是最好是例子，以遵循自然语言指令并有效地完成现实世界的任务。
而GPT3终究只是一个单模态模型，不具备GPT4的多模态能力，幻觉现象也比GPT4多，而GPT4的多模态能力到目前为止也没有彻底开放。
而Flamingo（“火烈鸟”模型）被认为是多模态域中的GPT-3。在最近的项目项目中，提出了针对Flamingo微调的模型Otter（水獭），该模型已针对上下文进行了定制,通过使用精心制作的多模态指令调优数据集来提高其会话技能，使其从一个基础模型变成对话模型（基础模型多轮对话能力非常弱）。每个数据样本包括图像特定指令沿着用于该上下文的多模态指令的多个示例（包含对话的多模态数据集），这数据集也十分不好找。
多模态大模型的赛道开卷了。
#多模态#

2023年05月02日 15点05分 1