秩序与自由 低不语
多看一眼,可能就是最后一眼
关注数: 104 粉丝数: 2,776 发帖数: 24,663 关注贴吧数: 581
开源大模型新王干翻GPT4o 开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。 新模型名为Reflection 70B,使用一种全新训练技术,让AI学会在推理过程中纠正自己的错误和幻觉。 比如最近流行的数r测试中,一开始它犯了和大多数模型一样的错误,但主动在<反思>标签中纠正了自己。 在官方评测中,70B模型全面超越最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是数学基准GSM8K上直接刷爆,得分99.2%。 这个结果也让OpenAI科学家、德扑AI之父Noam Brown激情开麦:GSM8K得分99%!是不是可以正式淘汰这个基准了? 模型刚刚上线网友就把试玩挤爆了,对此Meta还主动支援了更多算力。 在网友测试中,Reflection 70B能回答对GSM8K数据集中本身答案错误的问题:我向模型提供了GSM8K中存在的5个“ground_truth”本身就不正确的问题。模型没有重复数据集中的错误答案,而是全部回答对了,这很令人印象深刻,表明那99.2%的准确率并非来自于记忆测试集! 数各种r都不在话下,连生造词“drirrrngrrrrrnnn”中有几个r也能被正确数对。 网友纷纷对小团队做出的开源超越顶流闭源感到惊讶,现在最强开源模型可以在本地运行了。 关键70B还只是个开始,官方表示下周还会发布更大的Reflection 405B,预计405B性能将大幅优于Sonnet和GPT-4o。 Reflection 70B权重已公开,API访问将于今天晚些时候由Hyperbolic Labs提供。
阿里发布开源多模态模型Qwen2-VL 阿里Qwen2大模型家族新添多模态模型Qwen2-VL,在图像和长视频理解任务上双双取得了SOTA。 在具体的子类任务中,Qwen2-VL在大部分的指标上都达到了最优,甚至超过 GPT-4o等闭源模型。 在多模态能力的加持下,Qwen2-VL可以实时读取摄像头或电脑屏幕,进行文字形式的视频对话。 甚至还能作为Agent与环境进行交互,根据任务目标自主操控手机等设备。 此次发布的Qwen2共有2B、7B、72B三个版本,其中2B和7B版本已可下载并免费商用(Apache 2.0),72B则通过API提供。 目前开源代码已集成到Hugging Face Transformers、vLLM等第三方框架中。 还有不少网友都在狂cue一些知名大模型推理平台,如Groq、Ollama,希望能够早日提供支持。 下面就来一睹Qwen2-VL的表现! 会操作机械臂的多模态大模型 利用强大的多模态能力,Qwen2-VL能够操纵机械臂,进行物体的拿取、放置等操作。 还可以化身扑克牌玩家,根据识别到的场上信息和提示词描述进行“24点”游戏的决策,并且取得了胜利。 还有开头所展示的,Qwen2-VL可以根据识别到的屏幕内容,结合用户需求自行操作手机在网络上进行信息检索。 当然在这些体现工具调用和Agent交互能力的复杂任务背后,基础能力也是不能落下。 比如图像识别,在物体类的识别当中,Qwen2-VL可以准确地认出花的品种。 另一类识别场景是文字,Qwen2-VL支持多种语言的文本提取。 甚至把16种语言混合到一张图中,Qwen2-VL不仅能判断各自的语种,也能一口气提取出全部文本。 手写字体和复杂的数学公式也能识别,并且上下标这种微小细节处理得非常到位。 Qwen2-VL还支持多模态推理,代码和数学(包括几何)类问题,只需要传张图片就能解决。 视频方面,Qwen2-VL最长可以对20分钟以上的视频进行内容分析,既支持总结也能对细节进行提问。 不过目前还只能分析画面,暂不支持对声音的处理。 同时也支持实时视频文字对话,除了开头展示的基于摄像头的对话外,也可以读取电脑屏幕,作为对话的内容。 总之,在这些任务的背后,蕴含着Qwen2-VL不凡的综合实力。 多模态实力超GPT-4o 为了了解Qwen2-VL在各种任务上的综合表现,千问团队一共从从六个方面对其视觉能力进行了评估。 具体包括了综合类大学试题、数学试题、文档表格理解、通用场景下的问答、视频理解以及Agent能力这六种类型。 整体来看,Qwen2-72B的大部分的指标上都达到了最优,甚至超过了GPT-4o和Claude3.5-Sonnet,特别是在文档理解方面优势明显。 另外在多语言测试中,MTVQA也在9种语言中的8种全面超越了GPT-4o、Claude3-Opus和Gemini Ultra这些先进闭源模型,平均成绩也是最高分。 7B版本同样支持图像、多图、视频的输入,同时也达到了同等规模模型的SOTA水准。 最小的2B版本则主要为移动端设计,但麻雀虽小,却具备完整图像视频多语言的理解能力,特别在视频文档和通用场景问答相较同规模模型优势明显。 整体上,Qwen2-VL延续了其上一代Qwen-VL中ViT加Qwen(2)的串联结构,在三个不同规模的模型上,Qwen2-VL都采用了600M规模大小的ViT,并且支持图像和视频统一输入。 为了让模型更清楚地感知视觉信息和理解视频,Qwen2-VL新增了对原生动态分辨率的全面支持。 与上一代模型相比,Qwen2-VL能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的tokens,最少只需要4个。 这种设计不仅确保了模型输入与图像原始信息之间的一致性,也模拟了人类视觉感知的自然方式,让模型在图像处理任务上更加灵活高效。 Qwen2-VL在架构上的另一项创新,是多模态旋转位置嵌入(M-ROPE)。 传统的旋转位置嵌入只能捕捉一维序列的位置信息,而M-ROPE通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分。 这使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。 这一创新有助于提升模型的多模态处理和推理能力,能够更好地理解和建模复杂的多模态数据。
AGI至少需要10年才可能实现,也可能永远无法实现 “AGI至少需要10年才可能实现,也可能永远无法实现” 这是全球知名的IT咨询公司Gartner最新报告给出的结论。 他们还强调:“AGI甚至可能都不值得追求。” 为啥这么说,咱们一起来聊一聊。 他们认为AGI目前正处于新兴技术炒作周期的“高度期望的峰值”阶段。 尽管人们对AGI的期望很高,但实际的技术成熟度和应用能力仍然有限。 “AGI的概念虽然吸引眼球,但实现它的路径并不清晰。” 就比如OpenAI这些搞大语言模型的,宣称自己摸到类人智能的门道。但一些专家认为AGI这概念还没整明白,LLM的方法也不靠谱。 他们还从2000多种技术中提炼出“关键见解”,列出了一套简洁的“必知”新兴技术,在《2024年新兴技术炒作周期》报告表示这些技术会在2-10年内会有大作为,但生成式AI即将进入“幻灭低谷期”。 对此,Gartner的分析师阿伦·钱德拉塞卡强调,大家对生成式AI的期望太高了,结果发现实际效果没那么好。不过长远来看,这个技术还是会对投资产生很大的影响。 AI专家马库斯还专门发表了篇文章,提醒人们生成式AI可能要爆雷,投资者们得悠着点了。 值得一提的是,Gartner之前也出过一项研究报告,说办公室AI想赚钱至少得等两年。截至到今年3月,微软还在努力说服客户,让他们相信使用AI真的可以提高生产力 而这次Gartner的《新兴技术炒作周期》中也提到了AGI。 对此,钱德拉塞卡说:“AGI不是第一次被炒热了,很多研究实验室都想搞它,但这事真心不容易。他们还不确定现在的方法对不对。” 他还说,研究界对于AGI是不是值得追求,意见也不统一。甚至到底什么时候能实现,实现出来是个什么样,都没个准信。 可能至少需要10年才可能实现,也可能永远无法实现。
Scale AI 创始人 Alex Wang 的一个专访 最近看了 Scale AI 创始人 Alex Wang 的一个专访,很受启发。简单来说观点如下: - GPT-4 是 2022 年年底发布的,在那以后英伟达数据中心的营收从 50 亿美元增长到了 200 亿美元/季度,但 GPT-5 或远超 GPT-4 的模型,至今没有出现。 - 模型三板斧;算力、算法、数据。整个行业只是大幅增强了算力,小幅增强了算法,但对于数据,几乎没有进步。 - GPT-4 是一个基本上用尽了整个互联网所有公开易获取的文本数据的模型,基本用尽了。但如果要进一步增强模型的推理能力,需要给模型训练提供具备复杂推理过程的数据集——而这样的数据集还不存在。 比如一个银行的反诈分析师在分析一个可疑交易的时候需要对比不同时空的不同数据,结合经验综合多步骤推理和判断来得出结论,而这整个过程公开互联网上是没有的。 今天所有推动经济的推理和思考都没有放在互联网上,我们需要这样的数据来赋予模型强大可靠的推理能力。 - 有两种方法可以让模型超越人类,第一是通过某种算法建立通用的推理能力,这是 AI 领域的圣杯;第二是给出每一个细分场景下足够高质量的数据来训练模型,让高质量数据「淹没」模型,就能拿到一个推理能力很好的模型。 - 大模型是一个巨头的游戏,所有创业公司都应该认识到这一点。 具体到我更熟悉的智驾领域,有这么几个现状: - 智驾的端到端模型,无论是算力、算法、数据,都还没抵达 GPT-4 的阶段,大户人家如特斯拉也没有。这是端到端仍在高速迭代的基础。OpenAI 从 GPT-3 到 GPT-4 用了两年多,我们正处在智驾 GPT-3 到 4 的过程中。 - 仅通过摄像头(有些方案还有激光雷达、毫米波雷达)提供的数据,不断改进算法和算力,是否足以支持模型最终实现自动驾驶?大概率不足以。智驾模型最终需要理解现实世界的物理规律、对不同字体/字迹的文本信息、复杂的图像语义信息都有深刻的理解。 这意味着智驾大模型的数据集是多模态的、大规模的,同时某些复杂驾驶决策可能也需要像 Alex Wang 说的,在数据集中展示出人类驾驶员的分步骤推理过程,否则单凭看视频片段,模型可能很难抽象出所有复杂的驾驶决策逻辑。 - 纯粹的端到端模型,只通过学习人类的驾驶风格,大概率无法实现自动驾驶,因为模型没有推理能力——这是 VLM、世界模型这些概念的出发点。 如何训练世界模型这个级别的智驾模型,可以说目前业界没有企业建立起这样的工程能力,大家都在探索。特斯拉一定会和 xAI 合作。 - 大模型是一个巨头的游戏,所有创业公司都应该认识到这一点。智驾领域也是。
1 下一页