世界模型——认识世界如何运作,打造接近人类的智能【CV】
多模态吧
全部回复
仅看楼主
吧务
level 10
图灵奖得主、Meta 首席 AI 科学家 Yann LeCun的团队发布并开源了首个基于世界模型概念的AI模型——图像联合嵌入预测架构(Image Joint Embedding Predictive Architecture, I-JEPA),这一模型的发布可能是AI领域再次被颠覆的前奏。
LeCun认为基于自监督的语言模型(如gpt等目前所有大语言模型)无法获得关于真实世界的知识,这些模型在本质上是不可控的。他一直以来认为chatgpt的性能并没有超出自己的预料,认为大语言模型的发展十分有限,但又大力支持大模型的发展。
大语言模型基本只学习人类的文本内容,从中进行理解,而对真实世界的运行机理非常容易产生“幻觉” ,从而对不了解的东西胡言乱语。
LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架构)的架构。该架构可以通过堆叠的方式进行更抽象、更长期的预测。
到了现在,基于该思路的I-JEPA出现了,I-JEPA 在多项计算机视觉任务上取得极佳效果,并且计算效率远高于其他广泛使用的计算机视觉模型。此外 I-JEPA 也可以在少量微调后用于很多不同的应用。
2023年06月16日 11点06分 1
吧务
level 10
github项目包括代码和模型checkpoint:网页链接
项目博客:网页链接
论文(CVPR2023接收):网页链接
2023年06月16日 11点06分 2
吧务
level 10
I-JEPA 取得ImageNet的few shot SOTA
2023年06月16日 11点06分 3
吧务
level 10
只能说,只使用文本训练的单模态的大语言模型在概念上很快就要落伍了。但文本确实好获取好训练,互联网上最不缺文本
2023年06月16日 12点06分 4
1