基于对话的视频理解系统VideoChat
多模态吧
全部回复
仅看楼主
吧务
level 10
命起涟漪💦
楼主
坤坤不愧是视频AI界的Lenna,又双叒叕被作为演示在论文里出现了。
这是一篇论文,通过介绍一个端到端以聊天为中心的视频理解系统VideoChat,希望以此开始对视频理解的探索。通过可学习的神经接口集成了视频基础模型和大型语言模型,从而在时空推理、事件定位和因果关系推理方面表现出色。为了对这个系统进行有指导意义的调整,作者提出了一个以视频为中心的指令数据集,该数据集由数千个带有详细描述和对话的视频组成。该数据集强调时空推理和因果关系,提供用于指导系统的训练,为对话式视频理解系统提供宝贵资源。
2023年05月13日 02点05分
1
吧务
level 10
命起涟漪💦
楼主
论文地址:
网页链接
2023年05月13日 02点05分
2
1