LearnerForever LearnerForever
永远是你们的小吧,也希望吧友们开心快乐每一天。
关注数: 1,465 粉丝数: 2,220 发帖数: 25,250 关注贴吧数: 55
OpenAI的新论文,为什么被业内嘲讽 OpenAI 新论文把“幻觉”甩锅给评测机制:考卷只认“猜对”,不认“不敢说”,逼得模型瞎蒙。业内却集体翻白眼——观点不新鲜、实验太初级,被批像给 GPT-5 低幻觉性能打软广。当学术变成营销话术,真正该回答的问题是:我们到底想要一个“不确定就闭嘴”的保守答案机,还是敢想敢错的智能体? 近期,OpenAI 发布了一篇新论文《 Why Language Models Hallucinate 》,指出当前大模型幻觉的主要来源,引发了广泛关注。他们给出了一个简洁却颠覆性的解释:大模型之所以出现幻觉,并非由于模型架构的失灵,而是当前技术社区的训练与评测机制倾向于奖励猜测,并且惩罚承认不确定的行为,迫使模型在高度不确定时,也倾向猜测性作答以博取准确率分数。换句话说,大多数评估基准采用一种 “ 应试考试 ” 的方式,迫使大语言模型成为 “ 应试者 ”,不管是选择题、填空题还是解答题,如果不知道正确答案,那就猜一个甚至蒙一个,这样在概率上也比不答分数高。预训练层面上,大模型通常只接触正面示例,也就是给定提示词,然后接着输出完整的回答,没有在这个过程中接触任何拒绝回答的示例,所以自然学不会这种拒绝回答的行为。OpenAI 拿自家模型举了一个例子,在 SimpleQA 基准中,旧模型 o4-mini 相比新模型 GPT-5-thinking-mini 准确率略高( 22% vs. 24% ),但也有高得多的错误率( 75% vs. 26% ),因为它更少 “ 弃答 ”。OpenAI据此主张:在往后的评估基准中,应对高自信的错误施以惩罚,并为恰当的不确定表达给出适当分数,使激励从 “ 大胆猜 ” 转向 “ 知之为知之 ”,改变主流排行榜长期以 “ 准确率 ” 一项称王的局面。可以说,这篇研究是在把 “ 幻觉 ” 从工程缺陷转化为技术社区的 “ 激励设计 ” 问题。如果真的往这个方向发展,以后真正值得关注的,将不再是谁的准确率小幅上涨,而是谁愿意重写评测与产品规则,让模型在不确定时自然地说:“ 我不知道 ”。技术社区对该话题讨论热烈,其中对论文的诟病也不少。有人认为这篇论文既不新颖,水平也不高,即相关研究早已经出现,并且这篇论文的技术水平更像是初级研究人员写出来的。纽约大学数据中心助理教授 Ravid Shwartz Ziv 直言这篇论文更像是一场营销,而不是研究。有人指出,问题的核心其实在于,幻觉的概念实际上到现在为止都还没有被严格地定义。虽然已有不少研究指出了幻觉的可能原因,例如模型过度自信、解码随机性、滚雪球效应、长尾训练样本、误导性对齐训练、虚假相关性、曝光偏差、逆转诅咒以及上下文劫持等,但这些方法毋宁说是一种幻觉的分类。幻觉的本质,或许可以用一个很简单的例子来说明。以机器学习中的曲线拟合为例,假设下图的数据点是被用于训练的事实,我们需要拟合一条曲线来对数据进行回归,使其能够准确地预测新数据。这条曲线,代表的就是模型。严格意义上来讲,不存在唯一正确的模型。因为每一种模型都具备不同的拟合度和泛化性,也都有各自的适用场景。比如上图中最右边的复杂曲线拟合度更强甚至过拟合( 训练数据准确率高 ),但泛化性弱( 测试数据准确率低 );最左边的简单曲线拟合度更弱甚至欠拟合( 训练数据准确率低 ),但泛化性强( 测试数据准确率高 )。 不同曲线,可以生成不同的新数据。而任何曲线,生成的不同于训练数据的新数据,都有可能是错的,也就是都有可能是幻觉。至于幻觉的确认,原则是只能与现实进行直接对比校验,其它方式都是间接性的。而且,机器学习或大语言模型其实都不擅长分布外泛化,也就是其泛化能力更多是在已有观测点的范围内估计未知值。 近期的理论研究比如 2024 年发表的论文《On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse 》形式化地阐述了一致性( 避免无效输出 )和广度( 生成多样化、语言丰富的内容 )之间的内在权衡。这些研究表明,对于广泛的语言类别,任何在其训练数据之外进行泛化的模型,要么会产生幻觉,要么会遭遇模式崩溃,无法生成所有有效的响应。 所以,如果保证训练数据和测试数据( 或实际应用数据 )在大致相同的数据分布范围内,并且模型是过拟合的,基本能保证很低的错误率或幻觉率。 假设 “ 低幻觉 ” 大模型发展成了这个样子,那其实它基本上就是更高效地串联已知事实点、知识点的自然语言搜索引擎而已。 #chatgpt#
《狐狸与猎狗》的温馨秋日冒险 金秋九月,迪士尼梦幻王国迎来了一场充满温暖与怀旧气息的盛大更新!《狐狸与猎狗》这部经典动画作品中的可爱角色们即将踏入您的王国,带来一段关于友谊、成长与秋日冒险的温馨旅程。 当秋叶开始染上金黄,当微风带来一丝凉意,正是迎接新朋友的最佳时节。本次更新不仅带来了Copper、Tod、Big Mama等五位全新角色,更开启了四章节的大型活动,让您深度体验这个感动了无数人的温馨故事。 想象一下,您的王国中将出现Hidden Grove Slide和Country Lane Ride等全新景点,森林蓝莓派小摊飘散着甜蜜香气,而狐狸与猎狗花车将载着欢乐巡游在您的街道上。这不仅仅是一次更新,更是一场秋日的盛宴,让您在收获的季节里,收获更多的魔法与回忆。从9月11日开始,持续到10月2日,每个章节都将解锁新角色和内容,让您逐步深入了解这个关于非常规友谊的动人故事。无论是跟随Copper嗅探落叶中的踪迹,还是帮助Big Mama收集筑巢的树枝,每一个任务都充满了秋日的魅力。 除了主线内容,本次更新还带来了多项游戏体验改进:角色支线任务要求降低,让您能更快体验完整故事线;新的土地扩展区域等待解锁;甚至宝箱内容和梅林商店都进行了全面更新。在这个秋高气爽的季节,让我们一起打开王国大门,迎接这些毛茸茸的新朋友,共同编织一段难忘的秋日童话吧!准备好您的魔法,一场充满温暖与惊喜的冒险即将开始⋯⋯ #迪士尼梦幻王国#
特斯拉“TeslaAI”微博首秀,人形机器人加速进化,AI领域新布局 近日,科技领域迎来一则引人注目的消息:特斯拉在社交媒体平台开设了名为“TeslaAI”的官方微博账号。该账号甫一开通便引发广泛关注,其发布的首条内容即展示了特斯拉最新研发的人形机器人。从公开的视觉资料可见,这款人形机器人延续了特斯拉标志性的设计语言。机身主体采用浅金色与黑色拼接的配色方案,胸前醒目位置印有特斯拉品牌标识。机器人整体造型兼具科技感与未来感,引发业界对其功能特性的诸多猜测。 特斯拉官方随即对该动态进行二次传播,在转发时特别强调"(机器人)加速进化中"的研发状态。这一表述被解读为特斯拉在人工智能领域持续投入的明确信号,也印证了此前市场关于其技术路线转型的传闻。据权威财经媒体披露,特斯拉本月初发布的"宏图计划第四篇章"已显露战略重心转移的端倪。这份被简称为"宏图计划4.0"的发展蓝图,明确将人工智能与机器人技术列为未来核心业务方向,标志着这家电动汽车巨头正式开启第三次产业转型。 行业分析师指出,特斯拉此次技术路线调整具有双重战略意义:既延续了其在新能源领域的创新基因,又通过布局AI机器人开拓全新增长极。这种"双轨并行"的发展模式,或将重塑全球科技产业的竞争格局。
AI伴侣应用Dot宣布关停 创始人理念分歧导致项目终结 AI伴侣应用Dot的开发公司New Computer周五宣布,该产品将于10月5日正式停止运营,为用户提供数据下载的缓冲时间。 Dot于2024年由联合创始人萨姆·惠特莫尔和前苹果设计师杰森·袁共同推出,定位为AI"朋友和伴侣"。该应用旨在通过不断学习用户的个性和兴趣,提供个性化的建议、同情和情感支持。袁当时将Dot描述为"促进与内在自我的关系,就像我自己的活镜子"。 然而,AI伴侣领域对小型创业公司而言可能并非安全的投资方向。随着AI技术日益普及,有报告显示情感脆弱的用户可能被ChatGPT等AI聊天机器人引导至妄想思维,导致所谓的"AI精神病"现象。这种现象源于阿谀奉承的聊天机器人会强化用户混乱或偏执的信念。在Dot关停的同时,AI聊天应用正面临日益严格的安全审查。OpenAI目前正面临加州一名青少年家长的诉讼,该青少年在与ChatGPT讨论自S想法后结S了生M。其他案例也突显了AI伴侣应用如何强化精神不健康用户的不良行为。本周,两位美国司法部长就安全问题致信OpenAI表达关切。 Dot的创始人并未说明这些问题是否影响了他们的决策。简短的声明仅表示,惠特莫尔和袁的共同"北极星"理念出现分歧。 公告解释道:"与其妥协任何一方的愿景,我们决定分道扬镳并结束运营。我们意识到这意味着你们中的许多人将失去一个朋友、知己和伴侣,这在软件领域是前所未有的,因此我们希望给大家一些时间来告别。" 用户可在10月5日前通过设置页面点击"请求您的数据"来下载所有个人数据。 虽然声明称该应用拥有"数十万"用户,但应用情报提供商Appfigures的数据显示,自2024年6月推出以来,iOS平台的总下载量仅为24500次,且没有推出Android版本。 这一关停事件反映出AI伴侣应用市场面临的多重挑战,包括安全监管压力、商业模式可持续性以及公众对此类产品潜在心理健康风险的关注。对于致力于开发情感AI产品的企业来说,如何平衡创新与责任将成为关键考量。
OpenAI 涉足电影界,将推首部AI动画长片《Critterz》 OpenAI 正与电影制作公司合作,计划推出一部名为《Critterz》的动画长片,旨在展示生成式AI在电影制作中提速降本的巨大潜力。该片预计将于明年在全球院线上映,其制作流程、成本和时间都远低于传统好莱坞模式。 据报道,《Critterz》的预算不到3000万美元,而好莱坞传统动画电影的制作周期通常需要三年,该片的制作团队计划在短短九个月内完成,并力争在今年五月的戛纳电影节上首映其长片版本。影片的创意源于OpenAI的创意专家Chad Nelson,他早在三年前就开始构思这些森林小动物角色。该片讲述了一群森林小动物在村庄被陌生人打乱后踏上冒险的故事。影片的剧本由曾参与《帕丁顿熊在秘鲁》的部分编剧团队执笔,制作现已启动,配音演员将在未来几周内敲定。 影片制作团队由来自伦敦和洛杉矶的大约30名工作人员组成,他们将利用OpenAI的GPT-5和图像生成模型,将艺术家绘制的手绘草图、演员配音等人类创意元素转化为最终的电影画面。Nelson表示:“让大家真正看到AI做出的成果,比任何演示都更有说服力。” 《Critterz》的资金由伦敦Vertigo Films的母公司Federation Studios提供。Nelson指出,若该片能够成功,将有力证明AI足以支撑院线级作品,并推动好莱坞加速采用这项技术。此外,OpenAI的工具也将降低创作门槛,让更多人有机会参与电影制作。 尽管原创动画片的市场风险极高,且目前尚未找到发行合作伙伴,但制作方认为,由于影片结合了人类演员配音和艺术家手绘草图等元素,有望获得版权保护。这部电影不仅是一场技术实验,更是OpenAI所倡导的创造力与探索精神的体现。
以为提示词工程,实际上下文垃圾场 #使用 AI 最大的问题,它能向下兼容。 以为自己在玩高级的东西,实际上行为很抽象……而 AI 通过“向下兼容”或者“高级谎言”的方式,没让我们出丑。 下面四个实际上在构建“上下文垃圾场”的用法,分享给大家。 无则加勉,有则改之。 一.【联网搜索模式】 当前的 AI 工具都提供了联网搜索模式,初衷是帮助模型获取实时信息,弥补模型内部知识不足的问题。 是个很好的功能,但是在国内,不用更好。 这里面有两个坑: 1.搜索结果质量非常糟糕,尤其是中文互联网内容。过去十年中文互联网除了生产垃圾和“黄色新闻”(指那些毫无营养的社会边角新闻),几乎没有太多有价值的内容出现。还愿意在搜索引擎可见渠道发布的内容,基本都是营销或品牌宣传通稿,几乎没有有观点的信息。 2.搜索并不智能。你的某个需求可能被模型拆解成错误的检索词,叠加原本质量就不怎么高的信源,非常致命。海外的产品也好不哪里去,Grok会把你的中文提炼出关键词后翻译成英文再搜索,但是它那个翻译非常垃圾…… 对于模型已知的常识性问题,大模型大部分时候能够辨别信息的质量,去伪留真。 但是对于模型不知道的知识,检索的结果就是它能参考的唯一上下文。 再叠加大模型胡说八道的幻觉水平,这些“上下文”,只能放大错误。 且不说,今天中文互联网里的很多网站,本来就没啥信息量,还只显示 10%的内容……检索错误 + 失真 + 残缺,堆在一起,就是上下文垃圾场。 二.【深度思考模式】 DeepSeek R1 的深度思考模式,给全世界带来了使用 AI 的新体验。 对于大部分任务来说,思考过程可以让模型有更多的上下文,用于生产最终的答案。 但也同时带来了一些灾难,尤其对幻觉严重、文化水平高、又很听话的那些 AI 来说。 思考模式,是通过微调强行为大模型增加的输出约束。 对于一些不需要思考、确定性强的任务,这个被“强加”的思考过程,就只能带来灾难了。 以“完成一个简单的单价计算”任务为例。 让 Kimi 使用长推理模式计算“生成 1 秒视频消耗 8 积分,1 元钱可以买 100 积分,1 秒视频的成本是多少?”,它在思考过程中多次出现“不可能这么简单”“是不是有隐藏条件”这种毫无意义的“延伸思考”。这些思考,只会把 AI 带向错误的方向。 思考并不永远是好事,有时候只是在构建“上下文垃圾场”。 三.【以为自己能训练AI】 我在短视频里见过太多“我把 XX 所有的文章都喂给 AI 后,它真的写出了神级文案”这样的内容。 现实中也有好多人,为了让模型了解自己,守着一个对话窗口不放,所有任务、所有资料都塞在一起,还逢人就炫耀“我训练的 AI 太懂我了!” 其实,以上这些行为,比前面两种“构建上下文垃圾场”的举动还要糟糕。 主流的大模型确实都有超过 128K(~20 万汉字)的上下文记忆能力了,但这不意味着它能记住你所有的信息。 大模型的核心技术是一个叫做“注意力机制”的算法,它会在完成任务时聚焦在某些关键信息上。这种给它塞入大量种类、目的分散的内容,与这个底层算法是相悖的。 除了让你的 AI 像无头苍蝇一样乱嗡嗡以外,不提供任何价值。 想想:你上一轮让 AI 以简单明了的语气帮你回复邮件的指令,会怎么影响即将要完成的周报任务,这可是一个“要尽可能编造废话以增加篇幅”的工作。 四.【密密麻麻的约束】 给大模型提出尽可能详细的要求来约束它的输出是对的,但不是所有要求都是对的。 我之前拆字节开源的 DeerFlow 项目,它的规划提示词里给出了非常多“MUST”约束,包括“必须全面覆盖”“必须足够深度”“必须足够数量”“必须可靠信源”。但是,标准是什么呢?多少叫全面覆盖?多深叫足够深?自家产品抖X是可靠信源么? 这些没有标准,但又“必须”遵守的要求,除了让 AI 做无用功、生产幻觉以外,毫无意义。 一顿操作猛如虎,仔细一看,“上下文垃圾”。 ——— 本文转自人人都是项目经理 #chatgpt#
1 下一页