LearnerForever
LearnerForever
永远是你们的小吧,也希望吧友们开心快乐每一天。
关注数: 1,483
粉丝数: 2,228
发帖数: 25,741
关注贴吧数: 58
详细拆解“苹果智能”:苹果自研、GPT-4o还是谷歌Gemini? 在落后同行们近两年后,苹果终于在本周WWDC大会发布AI功能。 “不拼AI技术,靠的是OpenAI大模型,AI功能没有新意......”以“重新定义AI”开启新征程的苹果似乎并没让大家满意,本次大会苹果也几乎并没有提“人工智能”,而称之为“苹果智能”(Apple Intelligence)。 然而,资本市场却买单了,苹果周三扭转跌势,一夜暴涨7%,市值攀升2000亿美元。 那么是什么让市场扭转态度?所谓“苹果智能”到底意味着什么?苹果AI战略仅靠OpenAI? 贯穿苹果生态场景的AI 与大模型公司蜂拥推出独立的聊天机器人不同,苹果做出的选择是,将AI功能整合到用户正在使用的APP和产品中,融入用户日常使用场景中。 这样一来,苹果AI的功能远比独立聊天机器人能做的要多,可以智能照片编辑、生成笔记和短信摘要、自动转录语音备忘录等等。 苹果利用自研内部模型实现较为简单的AI功能,依靠更为强大的外部模型,如GPT来实现更高级、复杂的AI功能。以全新siri、写作工具的演示为例: 全新Siri:苹果公司展示了如何用Siri帮忙填写PDF表格,Siri还能找到用户驾照的照片,提取驾照上的号码并输入表格。在另一个演示中,Siri可以在短信和邮件中搜索朋友发送的食谱。 真正让Siri功能得到提升的是ChatGPT。当要求Siri做一些它不知道怎么做的事情时,比如根据最近的购物清单安排出一顿晚餐菜谱,Siri就会在征求用户允许后,直接调用GPT接口,向ChatGPT征询意见。用户不必是ChatGPT Plus的用户,就可以享受Siri这种功能。 写作工具:苹果将为备忘录、邮件、Pages文稿等应用添加总结、改写和校对的AI功能,集成写作工具还可以针对短信和电子邮件提出回复建议和不同语气的回复。 但至于更有创意的功能,比如写一首关于iPhone的诗,将交给ChatGPT来完成。同样的这个写作工具会先征求用户同意,然后才会去咨询ChatGPT。 苹果表示,Apple Intelligence、iOS 18、iPadOS 18和MacOS Sequoia将在秋季整合一系列AI功能,但一些更强大的AI功能可能要到2025年才会亮相。 场景背后的三层大模型架构 支撑以上场景功能背后的内部、外部模型,可以进一步细分为端侧小模型(Apple On-Device),自研云端模型(Apple Server),以及ChatGPT等外部大模型。 第一层架构是苹果端侧小模型,其中一个参数量为3B,可以直接在手机等终端设备上运行。 此前文章指出,这其实是综合考虑了运行速度、算力需求的结果,大部分苹果端侧模型根据用户个人习惯和个人数据,针对不同的任务预先进行了训练,因此各种需求响应速度也很快。第二层是苹果自研的更大语言模型,该模型通过私有云计算在苹果芯片服务器上运行。 性能方面,有分析指出该模型虽然没有明确参数量,但其性能可以与GPT-4对标。在真实世界提示评估中,大模型Apple Server性能强于GPT-3.5-Turbo,略逊于GPT-4-Turbo,该模型也针对苹果用户的日常行为进行微调训练。 苹果强调隐私是第一位,内部模型运行过程中这些数据不会被保存,不会被其他人获取。 此前文章提到过,这些服务器都内置使用Swift语言编写的安全工具,苹果AI“只发送完成任务所需的相关数据”到这些服务器,不会给予对设备上下文信息的完全访问权限。第三层架构就是和OpenAI合作,接入GPT大模型。 根据苹果演示,当需要实现更复杂AI功能,且在获得用户同意后,可以调用GPT接口。 而且可以确定的是,OpenAI可能不会是苹果唯一的外部合作伙伴。苹果负责软件工程的高级副总裁Craig Federighi表示: 苹果计划以后让用户选择自己喜欢的大模型,其中包括谷歌的Gemini等。
OpenAI:推出新模型CriticGPT修正AI错 人工智能公司 OpenAI 今天宣布基于 GPT-4 推出新模型 CriticGPT,这个模型并不是开放的,因为它存在的意义就是帮助 OpenAI 寻找 GPT 中出现的错误。 现阶段大多数 AI 公司都有人工审核团队来检查模型输出的结果,因为模型在长期运行中总会出现幻觉和错误,这就需要人工审核团队来标记并进行修正。 然而随着 ChatGPT 这类产品变得越来越准确,即便出现错误也难以发现,这让负责训练的 AI 工程师和负责审核的人工团队力不从心,比如输出的编程代码错误。OpenAI 称这是 RLHF 的一个根本限制,即随着技术的发展模型知识和能力逐渐超越人类,这会让对齐模型变得越来越困难。 为此该公司基于 GPT-4 系列模型训练了 CriticGPT,这个新模型也使用 RLHF 进行训练,负责分析和评价包含大量错误的输出结果。 从某种意义上说 OpenAI 这做法就是通过人工智能来修正人工智能,当然既然人工智能那也会存在错误,只不过相较于人工审核团队,CriticGPT 拥有丰富的知识并且效率更高,可以更快更准确地找出错误。 值得注意的是 CriticGPT 还将对人类故意提供的错误内容进行评判,典型案例就是人类每天需要吃几块石头,CriticGPT 将可以识别这类故意的错误内容并进行纠正,防止 GPT 直接给出错误的回答。 最后 OpenAI 也强调现实世界中的错误可能会分布在许多回答中,这是未来需要解决的问题。也就是说至少现阶段,想要彻底根除 AI 模型的错误和幻觉是不可能的。
百度:2024年Q1共清理各类有害信息153.6亿余条 近日,百度对外公布2024年第一季度信息安全综合治理数据。百度内容安全中心第一季度共计清理各类有害信息153.6亿余条。其中,通过人工智能技术挖掘并打击以淫秽色情类、赌博类等为主的相关有害信息共153.4亿余条;通过人工巡查的方式打击以淫秽色情类、侵权类等为主的相关有害信息共计2350万余条。 针对网络中的色情相关有害信息,百度内容安全中心一直以专项的形式持续打击治理。第一季度,百度共计清理色情有害关键词75833组,清理引导词13483组,封禁相关违规账号1133296个,关闭贴吧3697个,清理有害链接74亿余条。针对各类网络有害信息,百度各产品线也持续开展日常清理和专项打击。第一季度,百度搜索共计清理147亿余条有害信息,百度贴吧共拦截1.02亿条有害信息,百度网盘清理有害文件3476万余个,百家号共清理77万余条各类有害信息。 此外,百度在本季度通过网民权益保障计划对26122起反馈进行了赔付或退款,涉及金额共计238.4万余元。
OpenAI 与《时代》达成合作,用杂志内容训练 ChatGPT 《时代》杂志与 OpenAI 宣布,两家公司达成了一项多年内容授权协议和战略合作伙伴关系。OpenAI 可将《时代》的内容引入包括 ChatGPT 在内的产品。 通过此次合作,OpenAI 将能够访问《时代》杂志过去 101 年来的海量档案中的当前、历史内容,以增强其产品并响应用户查询——在 Time.com 上提供引文和原始来源的链接。作为协议的一部分,《时代》杂志将可以使用 OpenAI 的技术,为其受众开发新产品。 据此前报道,去年 12 月,OpenAI 首席执行官阿尔特曼被《时代》杂志评为年度 CEO。阿尔特曼曾表示,Chat-GPT 及其后续版本 GPT-4 为 OpenAI 乃至整个世界带来了革命性的影响,而 2023 年也成为了许多人开始认真对待人工智能的一年。 而在《时代》杂志去年 6 月公布的第三届 2023 年全球最具影响力 100 家公司榜单中,采用了 2 个全球封面,分别为 Skims 创始人金·卡戴珊和 OpenAI 首席执行官阿尔特曼。 AI CHATGPT OPENAI
OpenAI 推迟发布 ChatGPT 语音助手功能 北京时间今天清晨,OpenAI 在 X(推特)上发文宣布,备受期待的 ChatGPT 语音助手功能将被推迟发布,因为公司需要确保它能够“安全有效地”处理来自数百万用户的请求。 附通知大意如下: 我们想分享春季更新中演示过的先进语音模式的最新进展,对此我们仍然非常兴奋: 我们原计划在 6 月下旬开始向一小部分 ChatGPT Plus 用户推出测试版,但还需要一个月的时间才能达到启动标准。例如,我们正在提高该模型检测和拒绝某些内容的能力。我们还在努力改善用户体验,并准备基础设施,以便在保持实时响应的同时扩展到数百万用户。 作为迭代部署策略的一部分,我们将从一小部分用户开始测试,收集反馈并根据反馈进行扩展。我们计划让所有 Plus 用户在秋季都能使用,具体时间取决于我们能否达到高安全性和可靠性标准。我们还在努力推出我们单独演示过的新的视频和屏幕共享功能,并将及时通知您。 ChatGPT 的高级语音模式能够理解并回应情绪和非语言暗示,让我们更接近与人工智能进行实时、自然的对话。我们的使命是为您带来这些精心设计的全新体验。 这意味着,用户想要与 ChatGPT 语音助手“共叙”还得再等一段时间。今年 5 月 14 日,OpenAI 发布了新的 GPT-4o 模型,GPT-4o 可以理解用户的语音提问并用语音进行回答。声明:文内可能含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考 本帖转自IT之家
百度文心大模型 4.0 Turbo 发布:文心一言用户规模达 3 亿人 在今日举行的百度 WAVE SUMMIT 深度学习开发者大会上,百度 CTO 王海峰宣布文心一言累计用户规模已达 3 亿,日调用次数最高达到 5 亿次。作为对比,李彦宏今年 4 月表示文心一言用户数突破 2 亿,API 日均调用量也突破 2 亿。 “我们今年的快速发展,包括整个大模型的快速发展,离不开飞将的支撑。”王海峰表示。 发布会上,王海峰还宣布文心大模型 4.0 Turbo 版本发布。据介绍,相较于文心大模型 4.0 版本,Turbo 新版本应答速度更快、检索能力更强。IT之家注意到,文心一言 6 月 28 日刚刚更新了 3.1.0 版本,新增“文心大模型 4.0 turbo”,同时下线插件功能。文心一言发布于 2023 年 3 月 16 日,历经 3.5、4.0 版本不断迭代,此前还有消息称百度将于 2025 年百度世界大会期间发布新一代文心大模型 5.0。李彦宏去年 10 月发布 4.0 版本时还放言:文心大模型相比 GPT-4 便已毫不逊色。 今年 5 月,百度宣布文心大模型两款主力模型 ENIRE Speed、ENIRE Lite 全面免费,这两个模型是客户在场景应用中经常用到的主力模型,在文案创作、聊天对话、知识问答、内容续写等场景中有非常高的调用量。
百度文心大模型 4.0 Turbo 发布:文心一言用户规模达 3 亿人 在今日举行的百度 WAVE SUMMIT 深度学习开发者大会上,百度 CTO 王海峰宣布文心一言累计用户规模已达 3 亿,日调用次数最高达到 5 亿次。作为对比,李彦宏今年 4 月表示文心一言用户数突破 2 亿,API 日均调用量也突破 2 亿。 “我们今年的快速发展,包括整个大模型的快速发展,离不开飞将的支撑。”王海峰表示。 发布会上,王海峰还宣布文心大模型 4.0 Turbo 版本发布。据介绍,相较于文心大模型 4.0 版本,Turbo 新版本应答速度更快、检索能力更强。IT之家注意到,文心一言 6 月 28 日刚刚更新了 3.1.0 版本,新增“文心大模型 4.0 turbo”,同时下线插件功能。文心一言发布于 2023 年 3 月 16 日,历经 3.5、4.0 版本不断迭代,此前还有消息称百度将于 2025 年百度世界大会期间发布新一代文心大模型 5.0。李彦宏去年 10 月发布 4.0 版本时还放言:文心大模型相比 GPT-4 便已毫不逊色。 今年 5 月,百度宣布文心大模型两款主力模型 ENIRE Speed、ENIRE Lite 全面免费,这两个模型是客户在场景应用中经常用到的主力模型,在文案创作、聊天对话、知识问答、内容续写等场景中有非常高的调用量。
从自动驾驶看AGI如何“摆脱”人类 ChatGPT、GPT-4 的出现,让人们真真正正感受到「大模型改变世界」的强大能力。然而,关于大模型的讨论大多是抽象的、不具体的,或许过于乐观,或许过于忧虑。 正如 OpenAI 联合创始人、前特斯拉人工智能和视觉总监 Andrej Karpathy 在题为“Self-driving as a case study for AGI”的最新博客中写到的:“不幸的是,很多讨论都相当抽象,导致人们在这个话题上绕圈子,无法达成共识。” Karpathy 以自动驾驶为例,谈到了个人对 AGI 未来形态的看法,认为“自动驾驶能力方面的发展是研究 AGI 的一个很好的早期案例研究”。 Copilot 和 GPT-4 就是“二级”编程自动化; AGI 会受到“需求超过供应”的限制,原因在于,开发者的自我限制、监管限制,以及简单直接的资源短缺(如需要建设更多的 GPU 数据中心); 在更广泛的工作领域中,许多工作将发生变化,一些工作会消失,但也会出现许多新的工作机会,这更多的是工作的重构而不是直接删除; AGI 更像是自动驾驶这样的技术,它的进展是逐步的,社会既是观察者也是参与者,其扩展受到多种因素的限制,包括监管和受过教育的劳动力资源、信息、材料和能源; 世界不会因此崩溃,而是会适应、改变和重构。以自动驾驶为例,交通的自动化将使其更加安全,城市将变得更加清洁、通畅,停车场和路边停放的汽车将逐渐消失,为人们腾出更多空间。OpenAI 联合创始人、前特斯拉人工智能和视觉总监 Andrej Karpathy
掌握必备技巧,成为AI绘画大师:专家详解提示词写作与运用 想必你对AI绘画不陌生,但你真明白背后的技术原理吗?你知道什么是提示词吗?或许你在面对这些"高大上"的术语时,会感到神秘而深奥。今天,我要为你解释一下AI绘画技术中的一个重要部分:关键词。首先,关键词就是AI绘画中的一个重要指令,它可以告诉AI我们要画什么。此外,此类关键词通常分为两种类型:正向关键词和反向关键词。正向关键词主要描述希望出现在画面中的内容,反向关键词则描述不希望出现的元素或属性。 当我们设定关键词时,应遵循一定的语法规则。以人物为例,如果我们想获得一幅全身像的AI绘画,可提供“全身”,“人物”,“质量高”的关键词。这包含了画面整体的描述,主题内容,以及画质需求。现在你可能会问:“关键词只在内容上有不同吗?” 不,实际上并非如此。关键词的顺序和权重也决定了AI绘画作品的最终效果。在编写关键词语句时,应将主要内容放在前面,且可以使用权重改变关键词的比重。这一切理论知识的应用,其实就是在帮助我们更精准地控制AI绘画的过程。举例来说,我们可以将描述如:“最佳质量, 高分辨率, 3D视图, 产品美图, 玩具森林小屋, 安东尼奥·高迪感, 针织质地, 生活方式”等多个层面的关键词输入AI绘画软件,这样就能以一种令人眼前一亮的方式呈现我们的想象。但在使用时一定要注意,关键词的要点需要全部使用英文,并且语序、颇舟均需要符合AI的阅读习惯。而且,过多的关键词可能会让AI理解困难,所以我们需要把握好关键词的数量。 至此,你是不是对AI绘画的关键词有了进一步的理解呢?并非我们通常认为的那么神秘,只要掌握了这些原则,你也能制作出惊艳的AI绘画作品。 的确,AI绘画的复杂程度并非我们通常认为的那样一目了然。它需要我们仔细研究,深入理解,但只要我们主动去发掘它的奥秘,你就会发现它其实并不那么遥不可及。在探索过程中,你会遇见挫折,也会有发现,这就是AI的魅力所在。最后,让我们共同探讨,如何将飘渺的艺术与硬核的科技鲜活地融合在一起,为未来的AI绘画发展贡献自己的力量。 --- 本帖轉自一覽AI (一览AI原创)
OpenAI发布ChatGPT Mac应用 全面开放下载并提供Plus高级功能 6月26日消息,OpenAI公司今日宣布,备受瞩目的ChatGPT聊天机器人应用已正式面向Mac用户全面开放下载。此前,这款应用仅限于PLUS付费订阅用户在测试阶段体验。 OpenAI表示,ChatGPT的Mac应用为用户带来更加便捷和无缝的集成体验。该应用原生支持Mac系统,并提供了快速启动的快捷键(Command + 空格键),让用户能够随时随地与聊天机器人进行交互。此外,用户还可以轻松地将文件、照片和屏幕截图等附加到聊天信息中,以便ChatGPT能够更好地理解和运用这些素材进行创作。据了解,这款ChatGPT的Mac应用还支持“语音模式”,用户可以通过语音与ChatGPT进行交流,进一步提升了使用的便捷性。OpenAI还透露,他们将在未来几周内为Mac用户推出支持GPT-4o功能的新“语音模式”版本,为用户带来更加智能和高效的体验。 目前,ChatGPT的桌面应用已经上线OpenAI官网,所有Mac用户均可免费下载使用。而ChatGPT PLUS付费订阅用户则可以登录其账户,享受更多高级功能和个性化服务。这一举措无疑将进一步推动ChatGPT在人工智能领域的普及和应用。
听开发者深聊OpenAI收紧API接口真相 6月25日凌晨,一封来自OpenAI的邮件让许多开发者感到惊讶。邮件内容显示,OpenAI自7月9日起将采取额外措施,阻止来自不支持的国家和地区的API使用。比开发者更先接招应对的是国内众多AI大模型企业,从头部科技大厂到AI初创公司,纷纷推出帮助用户迁移的“搬家计划”,希望能抢来这批被迫离开OpenAI的B端客户。 但OpenAI的突然收紧是否真的让国内开发者们无路可走,而一直渴望走出To B商业化道路的中国AI公司,又真的能抢到生意吗? OpenAI难以完全阻断API使用 虽然OpenAI已成为全球最炙手可热的AI明星,但ChatGPT等服务自发布起就没有向中国等国家开放。普通C端用户无法直接使用其网页端和设备端产品,至于B端企业用户所需的API接口,OpenAI的获准使用名单包含了161个国家和地区,中国大陆、中国香港、俄罗斯、朝鲜等地却不在其中。 但国内的一些开发者和企业还是找到了使用OpenAI API接口的方法。一位软件开发者称,为了满足OpenAI对“必须在支持的国家或地区内访问”这一要求,开发者们通常会购买海外服务器,远程登录到美国等地的服务器上,利用“中转站”进行访问,再将内容传回国内。 而此次OpenAI称要加强封锁的正是这些不在支持区域内的API流量。目前OpenAI官方尚未公布具体的限制措施,但有开发者猜测称OpenAI可能会从源IP地址上展开拦截,并认为那些基于GPT大模型进行产品开发或模型训练的创业公司会首当其冲地遭受打击。 一些开发者表示,OpenAI无法真正阻断借道海外服务器等手段,国内企业依然可以绕开基于IP的限制。“除非直接断网,只要网络是通的,就限制不了。”开发者认为OpenAI新表态的实质影响不大,更多可能是为了符合其所在地美国的法律法规政策。 在蔓延全球的AI竞赛中,美国政府一直希望限制中国等国家获取最先进的AI技术。6月22日,美国财政部再次发布最新的规则草案,要求对美国在半导体和微电子、人工智能等领域的某些投资进行监管,防止美国的投资和技术用于支持中国开发尖端技术并主导全球市场。 OpenAI在6月13日还请来了一位新的董事会成员,美国退役陆军上将Paul M. Nakasone(中曾根)。其人曾担任前美国网络司令部司令、前国家安全局局长、前中央安全局局长。OpenAI表示,中曾根的加入将有助于公司利用人工智能加强网络安全,快速发现和应对网络安全威胁。 尽管OpenAI在其产品性能上毫无疑问是行业领军者,但使用其API接口的风险就像是悬在部分用户头上的剑。 一位曾接入OpenAI API的开发者称,使用OpenAI最主要的风险就是数据安全和稳定性。由于OpenAI会根据访问速率和IP地址对账号进行管控,他经历过被封号的情况。虽然借助海外服务器能相对稳定,但也会出现响应不及时的问题。因此若在中国发展相关业务,首选会是开源模型或国产的闭源模型。 国产大模型对手不止OpenAI 当OpenAI封锁API服务的邮件内容在开发者社区中传播时,国内AI公司们很快便有所动作,感知到这将是承接OpenAI舍弃业务的绝佳时机。 最先对此作出反应的是初创企业智谱AI。6月25日中午,该公司面向OpenAI API用户推出了特别搬家计划,提供迁移指导,帮助他们切换到其开发的国产大模型GLM上。智谱AI对普通开发者开放GLM-4和GLM-4 Air两个版本的模型,并向新迁移者赠送1.5亿Token。对于企业等高用量客户,智谱AI则提供与OpenAI使用规模对等的Token赠送计划且不设上限。 智谱AI的商业化模式以To B端为主,其CEO张鹏曾表示这是为了市场和最快的收益。成立于2019年,智谱AI也被一些业内人士称作国内最像OpenAI的创企,凭借腾讯、阿里等投资成为大模型独角兽,有报道称其最新估值达30亿美元。 紧随智谱AI,中国科技巨头们也跟进公布了应对方案。阿里云表示,将为OpenAI API用户提供最具性价比的中国大模型替代方案,为开发者提供2200万免费tokens和专属迁移服务,并秀出旗下主力模型Qwen2 Instruct,称其性能比肩GPT-4。 百度宣布推出国产大模型普惠计划,新注册的企业用户能够享受0成本切换。文心旗舰模型首次免费,针对OpenAI迁移用户,还额外赠送与OpenAI使用规模对等的ERNIE3.5旗舰模型Tokens包。 腾讯也发布了迁移企业用户的大模型专属福利。向新用户赠送混元大模型1亿Tokens,可任意选择混元Pro、Standard、Lite等多个不同版本和尺寸的模型。 AI初创企业们虽然此前没有跟进国内大模型价格战,但在抢占OpenAI B端客户上却作出了积极的表态。李开复发起的零一万物当日公布“Yi API二折平替计划”,宣布为新客户提供赠送100元额度等优惠。在To C商业化上更为领先的上海公司MiniMax强调“零成本保姆式迁移”,支持用户免费使用一个月的最新模型。Kimi的开发商月之暗面也表示,从一开始就完全兼容OpenAI的API,开发者可以实现丝滑的搬家。 但国产大模型的对手不止OpenAI。一位开发者表示,如果OpenAI的API接口使用受限,则会考虑国外其他可选的AI大模型。包括OpenAI的竞争对手Anthropic旗下的Claude和谷歌的Gemini大模型,或是尝试使用Meta的Llama 3等开源大模型进行私有化部署。 另一位曾接入OpenAI API进行产品研发的创业者表示,除ChatGPT之外,团队会优先选择国产大模型,然后才会选择开源模型。“大模型能力是我们产品的核心基础,我们假设的前提是国产商业大模型的推理能力会比开源的大模型好。一些对推理能力和性能要求低一点的任务,我们也许会看看参数量小点的开源模型。”
ChatGPT正在邀请部分用户体验新的实时语音对话模式 在 OpenAI 此前举办的发布会中 OpenAI 着重介绍了 ChatGPT 新的实时语音对话模式,不过该功能直到现在才逐渐开始邀请用户进行测试,而且是极小部分才会收到邀请。 此功能被称作高级语音模式,支持使用自然语音进行对话并实时获得响应、支持调整情感模式和语气、支持打开摄像头进行实时画面检测。 这些 OpenAI 在邀请界面介绍的内容就是此前发布会中的内容,通过邀请极少数用户进行测试有助于 OpenAI 收集数据并进行改进。值得注意的是如果用户收到邀请并启用新的语音对话模式,则用户输入的内容包括但不限于文字、语音或者开启摄像头后拍摄的内容,都将被共享给 OpenAI 用于模型训练。 所以用户在实际使用时不应该向 ChatGPT 透露机密内容,也不要使用摄像头拍摄某些包含机密内容的东西,以免存在潜在的数据泄露风险。 这里我们还是要着重介绍实时画面检测功能,开启此功能时 ChatGPT 会调用摄像头拍摄实时画面,画面交给云端 AI 进行分析并给出对应的答案。 比如此前在 X 上流行的使用 ChatGPT 挑西瓜,原本需要拍摄照片并标记西瓜,如果有了实时语音对话模式,则可以直接让 ChatGPT 识别西瓜冰给出回应,这种方式相对来说确实要更简单。 然而这个新模式可能还需要几个月才会正式推出,这段时间用户使用 ChatGPT 时可以看看有没有出现邀请界面,如果出现邀请界面就可以试试这个新功能了。
苹果对 iOS 上的 PC 模拟器说不 苹果公司似乎正在放宽对 iOS 平台复古游戏模拟器的限制,但令人费解的是,本月该公司却接连拒绝了两个相关 App 的上架申请:分别是知名 DOS 模拟器 iDOS 的最新版本 iDOS 3,以及能够在 iOS 设备上模拟运行 Windows 等操作系统的 UTM SE。▲ iOS 版 UTM 模拟器 在拒绝理由中,苹果都提到了 App 审核指南第 4.7 条,该条款正是允许复古游戏模拟器上架的规定。然而,iDOS 3 的开发者 Chaoji Li 在接受 The Verge 采访时表示,苹果给出的具体解释是:“该应用虽然提供了模拟器功能,但并非专门模拟复古游戏主机。根据第 4.7 条规定,只有复古游戏主机模拟器才被允许上架。” Li 在博客中写道:“我询问了该如何修改 App 以符合规定,但他们给不出任何建议。当我问什么是复古游戏主机时,他们也答不上来。这和以往一样,这仍然是老一套的‘我们看到就知道了’这种不合理的说辞”。 UTM 在其网站上公布了被拒原因:“应用商店审核委员会认为‘PC 不是游戏主机’,尽管 UTM SE 可以运行复古的 Windows / DOS 游戏。” UTM 还指出,苹果拒绝为其进行公证,使其无法进入第三方应用商店。理由是该应用违反了第 2.5.2 条准则。该条款规定,App 必须是独立的,不能运行会引入或改变自身功能或其他 App 功能的代码。 值得一提的是,苹果通常不允许使用即时编译 (JIT) 技术。然而,UTM SE 表示其并没有使用即时编译,这让人感到困惑。苹果随后澄清,第 4.7 条中允许 App 提供“非嵌入在程序包中的特定软件”的豁免权,仅适用于通过苹果 App Store 发布的 App,并不适用于 UTM SE。 截至发稿,苹果尚未对此事作出回应。 Li 在电子邮件中表示:“归根结底,作为 iOS 生态系统中唯一的规则制定者和执行者,他们根本不需要始终保持一致。”UTM 则表示不会再为 UTM SE 上架进行抗争,因为他们认为该应用“体验不佳,不值得为此争斗”。 有分析认为,苹果之所以在 4 月份对复古游戏模拟器松口,可能与面临的反垄断审查有关。而 3 月份,为了遵守《数字市场法》,苹果在欧盟开放了对第三方应用商店的支持。
微软不喜欢你从微软账户切换到Windows本地账户 微软本月在其官方网站上悄悄发布了不少指南和要求。最近的几份是关于 Wi-Fi 7和打印机支持的。另一方面,这些指南包括如何保存、使用和管理Windows 11 密码,如何启用 TPM 和 VBS 驱动的增强安全登录(ESS),以及如何使用Microsoft Account (MSA) 进行无密码登录。 说到 MSA,微软最近发布了一份指南,指导用户如何在 Windows PC 上从本地账户切换到微软账户。不过在发布该指南后,该公司还对其进行了更新,加入了从微软账户迁移到本地账户的单独部分。 尽管它显然不喜欢你这么做,微软还是发布了这份指南,它在文章中解释了为什么它仍然"推荐使用微软账户"而不是本地账户。它写道: 重要:Microsoft 建议在登录 Windows 时使用Microsoft 帐户,而不是本地帐户。与本地帐户不同,在 Windows 中使用Microsoft 帐户可以无缝集成Microsoft 服务、增强安全性和跨设备同步。从那时起,这部分内容以及包含从 MSA 切换到本地帐户指南的部分已被完全删除,下面是原本所提供的内容: 您可以使用"设置"应用将Microsoft 账户切换为本地账户。 重要: 微软建议在登录 Windows 时使用Microsoft 帐户,而不是本地帐户。与本地帐户不同,在 Windows 中使用Microsoft 帐户可以无缝集成Microsoft 服务、增强安全性和跨设备同步。 在 Windows 设备的"设置"应用 中,选择"账户 ">"您的信息" 选择"使用本地帐户登录"。只有在使用Microsoft 账户时才会看到此链接 键入用户名、密码和密码提示。用户名必须与设备上的其他用户名不同 选择"下一步",然后选择"退出并完成"。使用新的本地账户重新登录 目前还不清楚在微软对指南进行修改的情况下,该支持页面的前一版本是否会再次恢复。不过,这似乎并不寻常,因为指南本身简单而全面。
ChatGPT 隐私提示:限制与 OpenAI 共享的数据的两种重要方法 您与ChatGPT的对话有多私密?这是一个很难回答的问题。 OpenAI 表示,除非你明确选择分享,否则没有人可以查看你的聊天记录。不过,该公司确实会存储和维护你的对话历史记录,并承认其内容可用于训练。 如果您在使用 ChatGPT 时担心隐私问题,可以采取一些措施。这两种方式均可供免费用户和付费用户使用 - 以下是它们的工作原理。 1. 使用临时聊天 首先,您可以发起临时聊天,进行一次性对话。这些聊天不会作为您的历史记录的一部分保存,也不会用于模型训练。此外,ChatGPT 不会记住您讨论的任何内容。但是,OpenAI 仍可能会存储您的临时聊天副本长达30天,以监控是否存在任何滥用行为。您可以在网页版 ChatGPT或iOS或Android移动应用中开始临时聊天。在新聊天窗口中,点击顶部的 ChatGPT 标题并选择临时聊天选项。 出现临时聊天屏幕并解释此选项的工作原理。您会看到左侧边栏呈灰色,表示聊天不会保存到您的历史记录列表中。要退出临时聊天模式,请点击顶部的 ChatGPT 标题并关闭其开关。在移动应用中,只需开始新的聊天,您就不再处于临时聊天模式。 2. 禁用模型训练 您还可以通过选择退出 OpenAI模型训练来保护您的隐私。由于您仍然可以访问您的聊天记录,因此如果您想查看和查看以前的对话,同时对所说的内容保持一定程度的隐私,这是一个方便的选项。 另外:如何让 ChatGPT 免费浏览网页 关闭模型训练相当快捷容易。在 ChatGPT 网站上,点击右上角的个人资料图标并选择“设置”。在移动应用中,点击左上角的汉堡菜单图标,然后选择底部的个人资料图标。 在设置窗口中,选择数据控制,然后关闭“为每个人改进模型”选项。关闭“设置”屏幕以返回聊天。您现在可以恢复与 ChatGPT 的对话 - Open AI 将不再将您的内容用于培训目的,并且您的聊天仍可在历史记录列表中访问。 --- 本贴转自站长之家(ChinaZ.com) 截图来自 Lance Whitney/ZDNET
突发!OpenAI收购数据公司 OpenAI宣布其收购了实时分析数据库公司Rockset。 OpenAI在社交平台X官方号中称,Rockset公司主要提供数据索引和查询功能,OpenAI将在产品中集成Rockset的技术,将数据转化为可操作的信息。▲OpenAI官宣收购Rockset 通过收购Rockset,OpenAI计划使AI更好地利用和访问实时数据。这一举措有望使OpenAI的AI产品能够支持更复杂的应用,如实时推荐系统、动态数据驱动的聊天机器人、实时监控和报警系统等,扩展AI技术的应用范围。 谈及收购Rockset公司的原因,OpenAI称是因为相信AI有能力改变个人和组织利用自身数据的方式。Rockset提供一个实时分析数据库,包括领先的数据索引和查询功能,将帮助用户、开发人员和企业充分地利用数据并获取实时信息,从而更好地使用AI产品,或构建智能的应用程序。 在收购Rockset之后,OpenAI将整合Rockset的技术,支持OpenAI的产品检索基础设施,同时Rockset的团队成员也将加入OpenAI。 Rockset也于6月21日发文宣布了本次收购。其首席执行官兼联合创始人Venkat Venkataramani称,在Rockset成为OpenAI的一部分之后,其将为OpenAI产品套件的检索基础架构提供支持,现有的Rockset客户不会立即感受到任何变化,但Rockset将逐步让现有客户退出Rockset。▲Rockset官宣加入OpenAI OpenAI发言人称,虽然OpenAI之前也进行过收购,即主要为了人才而收购一家公司,但此次交易标志着OpenAI将首次整合其收购的初创公司的技术和员工。 Rockset创立于2016年,总部位于美国加州圣马特奥,由前Meta员工创立,在2020年时的团队规模大约是100人左右。Rockset自称是“世界上速度最快的搜索和分析数据库”,支持用户以20倍速度更快开发新功能,计算和存储成本降低40%。在融资方面,Rockset公司于种子轮从红杉资本融了300万美金,2018年底又从红杉等融了A轮1850万美金,最近一次融资,是其在2023年8月筹集了4400万美元的资金,使其总融资额达到1.05亿美元。 Rockset的首席执行官兼联合创始人Venkat Venkataramani,曾是Meta(此前称Facebook)基础设施团队的工程总监,负责管理15亿用户的在线数据服务。在他任职Meta的八年时间里,这些系统扩展了1000倍,每秒处理50亿次查询,延迟仅为几毫秒,可靠性高达99.999%。 Rockset的首席技术官兼联合创始人Dhruba Borthakur是曾是Meta数据库团队的工程师,也是RocksDB数据存储的创始工程师。此前在雅虎,他是Hadoop分布式文件系统的创始工程师之一。他还是开源Apache HBase项目的贡献者。--- 来源:OpenAI、Rockset、彭博社
OpenAI首席技术官:GPT-5预计一年半后登场 美国达特茅斯工程学院于本周四披露了对OpenAI首席技术官米拉·穆拉蒂的专访内容。在采访中,穆拉蒂把 GPT-4 到 GPT-5 的飞跃描述为从高中生到博士生的成长。她详细阐述道:“观察GPT系列的进化轨迹,我们可以发现,诸如GPT-3这样的系统,其智能水平相当于幼儿阶段,而GPT-4则显著提升至了高中生的智力层次。展望未来几年,我们有望在特定任务上实现博士级别的智能水平。技术的进展日新月异,性能也在持续提升。” 穆拉蒂进一步澄清,“博士级”智能并非全方位、无死角的,而是特指在某些特定任务上的表现。“这些先进的系统在特定工作中已能媲美人类的表现,当然,在更广泛的领域里,它们仍有待提升。”在被问及GPT-5的具体发布时间和计划时,穆拉蒂给出了明确的答复。她以点头的方式确认了提问者的猜测,并透露GPT-5预计将在一年半后问世。这意味着,我们可能要等到2025年底或2026年初,才能迎来GPT-5的正式亮相。此前,科技行业的多位领军人物也发表过与穆拉蒂类似的观点。微软的首席技术官Kevin Scott曾预言,下一代的人工智能系统将拥有更强的记忆和推理能力,甚至有可能通过博士学位的考试。阿里巴巴的董事长蔡崇信亦提到:“我们仅用三四年的时间,就让大语言模型在知识和某些数学计算方面达到了与人类相当的水平,甚至在某些方面达到了博士生的水平,这正是令人惊叹的地方。这样快的进步速度令人既感到害怕又不可思议。”
Anthropic推出Claude3.5Sonnet:AI性能直逼GPT-4o Claude3.5Sonnet超越GPT-4o,Anthropic展现AI竞争力Anthropic宣布推出Claude3.5Sonnet,一款功能强大的新一代人工智能模型,已经在多项全球权威测评中取得压倒性胜利。Claude3.5Sonnet在推理、知识及编码能力等多个方面刷新行业基准,较之OpenAI的GPT-4o展现出显著的性能优势。 Anthropic并未止步于此,其新版模型速度提升至现有产品的两倍,而成本仅为其五分之一。Claude3.5Sonnet的高效性能和经济性使其成为处理编程和程序联动等复杂任务的理想选择。客户现可通过Anthropic提供的多种渠道免费试用Claude3.5Sonnet,并可选择付费更快访问。 API服务的价格设定为3美元/每百万输入tokens和15美元/每百万输出tokens,支持200ktokens的上下文窗口。Claude3.5Sonnet的推出迅速在人工智能圈内引发热议。 有用户报告称,使用该模型编程的效率是GPT-4o的十倍,甚至有人仅用三分钟就开发出马里奥游戏的克隆版。Anthropic正被广泛认为是OpenAI的有力竞争者。Claude3.5系列的发布被视为对GPT-4o的直接挑战,后续还将有Claude3.5Haiku和Claude3.5Opus的推出。 Anthropic承诺保护用户隐私,在开发模型时除非得到明确许可,否则不使用用户数据进行训练。公司已向英国和美国的人工智能安全研究所提供了Claude3.5Sonnet的评估结果。Anthropic正致力于开发新一代AI模型的同时,也在探索提升用户体验的创新功能,如“记忆”功能,以期为用户提供更个性化和高效的互动体验。通过不断的技术突破和创新,Anthropic正巩固其在AI领域的地位,并展现出对竞争对手的强劲挑战姿态。
亚马逊推出全新强大模型Claude 3.5 Sonnet,AI创意写作表现突出 想象一下,在未来的某一天,你通过简单的语音命令就能快速解决复杂的编程问题,或者生成一个完美的市场分析报告。这不再是科幻小说里的情节,而是Anthropic最新推出的AI模型Claude 3.5 Sonnet在做的事情。 在2024年6月21日,亚马逊云科技平台Amazon Bedrock上,Anthropic推出了其最新的AI模型,Claude 3.5 Sonnet。这一模型不仅在智能程度上超越了之前的版本,还在性价比上大幅度领先,仅为前代产品的五分之一。那么,Claude 3.5 Sonnet究竟能做些什么呢?首先,它在处理需要上下文信息的复杂任务方面表现出色,如客户支持和多步骤工作流程编排。在编码能力上,Claude 3.5 Sonnet能够独立编写、编辑和运行代码,具备高级的推理和故障排除能力。此外,它还能够理解并解释图像,甚至是扫描质量较差的文档,为用户提供更深入的数据洞察。不仅如此,Claude 3.5 Sonnet在创意写作方面的表现也非常出色,能够生成更自然、更具人类风格的高质量内容。这意味着在广告等领域,AI可以为创意团队提供强有力的支持,提高工作效率同时保证内容的质量。实际应用方面,例如DoorDash已经通过集成Claude 3模型和Amazon的其他服务,建立了一个高效的AI呼叫中心解决方案,显著提升了客户服务效率。而WPP等广告公司,则利用这一平台大幅提高了创意和内容生成的效率。此外,英国斯温顿自治市政府利用这一技术为有学习障碍的人士提供帮助,通过将复杂的文件转换成更易理解的格式,使这部分人群能更好地理解重要的生活信息。 随着像Claude 3.5 Sonnet这样的模型的推出,我们不禁思考,AI未来在我们的工作和生活中将扮演什么角色?这些技术的发展将如何塑造我们解决问题的方式,甚至是我们与世界的互动方式?这些都是值得我们深思的问题。 ---- (一览AI原创)
Ilya出走记:SSI的超级安全革命 和OpenAI分道扬镳以后,Ilya“神秘而伟大”的事业终于揭开了面纱。 6月20日,前OpenAI核心创始人 Ilya Stuskever,在官宣离职一个月后,Ilya在社交媒体平台公开了最新的动向:将成立新的实验室Superintellgence(以下简称SSI),构建安全的超级智能。截至发稿前,Sam Altman并未回应,并没有让吃瓜群众们预想的“Altman假惺惺的表示祝福”成真。 而之所以业内如此重视Ilya在这个节点成立SSI,并不只是因为这个人,更是大模型的发展已经到了不得不重视模型安全的重要节点。 在刚刚过去的北京智源大会上,杨植麟、张鹏等一线创业者也曾讨论过这个问题,我们对模型安全的重视程度远远小于它的重要程度,而SSI的成立,或许会开辟一条与OpenAI完全相反的路。 用Ilya的眼睛,看AI的危险 似乎Ilya对模型安全是执拗的,甚至被人暗指“没必要”。“如果不是因为他是OpenAI的技术首脑,曾一手打造了GPT、DALLE-E等明星产品,SSI根本不会受到如此大的关注。” 但他们却忽略了,Ilya对人工智能技术的重要性,并不是从OpenAI开始的,而是从他的老师辛顿就奠定了他的话语权。 从80年代就开始战斗在人工智能最前线的辛顿,被誉为“深度学习之父”。作为教授的他桃李满天下(包括吴恩达),在他年轻一代的学生中,Ilya是最得意的门生之一。辛顿和Ilya合影 2023年5月初,辛顿辞去他在谷歌担任了十多年的职位,表示作出这个决定是为了可以自由讨论“人工智能的危险”。此后,他频繁接受媒体采访,不遗余力地对人工智能可能操纵人类发出警报。 尽管人类可以赋予人工智能一些伦理原则,但辛顿仍然感到紧张,“因为到目前为止,我还想象不到更智能的事物被一些没它们智能的事物所控制的例子。打个比方,假设青蛙创造了人类,那么你认为现在谁会占据主动权,是人,还是青蛙?” 师从辛顿的Ilya,几乎完全继承了被辛顿“蒸馏”过的,对于人工智能的谨慎,以及在谨慎之下的小心翼翼。 Ilya之于OpenAI,许多网友都认为他的个人贡献要大于Sam Altman。如果说SamAltman是OpenAI的面子,那Ilya就是OpenAI的里子,或者说是技术灵魂。私底下的Ilya很内向但却并不胆怯。他之所以如此,很多人好奇,他作为影响这个世界技术变革的人,一定看到了什么。但却没有人知道。 Ilya在OpenAI打造的超级对齐实验室,目的就是为了通过可控的技术手段使得AI发展的路径可控,确保AGI的发展符合人类利益。 一些前OpenAI员工透露,Ilya对超级对齐实验室的工作非常重视,并亲自参与其中。他希望通过这一实验室的工作,为未来的AGI系统设计出可靠的对齐方案。 想要理解何为“超级对齐”,就要演示一下现在的对齐技术,通过RHLF注入,能够实现两种对齐:一种是价值观的对齐:比如不要建立男女的性别对立、不要歧视同性恋等等;另一种是话题层面的对齐:明确国家的边界、不让搞黄色、不能诈骗等等。但Ilya所谓的超级对齐,却并不是这么简单。有人还记得人工智能的三原则么? 其中之一便是“无条件服从人类”,而价值观和话题的对齐是远远不足以完成这个目标的,Ilya他认为技术的本质类似于人类的生物进化,如果进化的开始,是一个没有“无条件对人类的爱”的 AI,那等它长成AGI以后,也一定不可控。 对应了他在X中发表的:直接追求安全的超级智能。 没错,超级对齐的本质其实是通过让大模型产生“对人类无条件的爱”。 这听起来似乎很扯淡,但或许SSI的本质就是如此。 人,AI安全的最后一道防线 那么问题来了,大部分人做不到。 是的,可能大部分公司都是OpenAI而非SSI。那么除了大模型公司在内部致力于构建一个安全、可信的大模型之外,这两年随着技术和应用的发展,社会各界也对AI和大模型的安全作出了许多努力。 2021年11月,联合国教科文组织就曾通过《人工智能伦理问题建议书》,希望为人工智能的发展,以及预防其潜在风险提供建议。 今年3月份,联合国教科文组织总干事奥德蕾·阿祖莱还在公开呼吁,希望各国尽快实施这项建议,为人工智能发展设立伦理标准。 而随着中国AI大模型的蓬勃发展,中国企业也越来越多地参与到了这类国际AI安全准则的制定中。 比如今年4月在日内瓦召开的联合国科技大会上,世界数字技术院(WDTA)发布了《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。 而这两项标准,由来自百度、腾讯、蚂蚁集团、科大讯飞等众多中国企业的专家学者共同参与编制而成。在国际组织通过编制规范指导AI安全发展的同时,各地政府的法案也在相继落地。 5月21日,欧洲的《人工智能法案》正式获得了欧洲理事会的批准。这项法案最早由欧盟委员会在2021年提出,作为全球首个AI法案,它通过构建广泛适用的人工智能监管机制,为人工智能技术的发展提供了法律框架,为全球的AI监管提供了可借鉴的法律基础。 国内AI安全相关的政策则落地在2023年7月,国家网信办联合国家发改委、工信部等七部门,公布了《生成式人工智能服务管理暂行办法》,该办法就生成式人工智能可能面临的安全问题提出了一系列明确的约束规范。 当然,法律规定的社会的下限,大模型安全的上线仍然需要在产业界寻找答案。 我们前面提到,大模型在公司内部训练的过程中,需要通过数据、算法、学习框架等多个维度保证大模型的安全可靠。 但其实在公司外部,完成训练的大模型要推向市场,还存在一套由第三方完成的大模型安全测试评估框架,目前主流的安全性测评方法主要有固定数据集测评和红队模型测评两类。 2023年,OpenAI在GPT-4发布之前就曾对其进行了六个多月的评估、测试及改进。在这轮测试中,OpenAI就邀请了AI领域专家参与红队测试(Red Teaming)以识别安全风险。 固定数据集测评,则是由研究人员针对大模型的各类安全风险制定风险评估矩阵,类似绩效考核打分。 研究人员通过人类标注数据的方式采集安全性评估数据,然后以测试模型在这些数据集上的表现评估模型的安全程度。 2023年底,OpenAI在官网公布了名叫“Preparedness Framework”的安全评估框架,是这类固定数据集测评的范本之一。OpenAI安全评估模型的计分卡 在国内,清华大学计算机系的黄民烈研究团队在2023年3月就发布了大模型安全分类体系,该团队从系统层面和模型层面出发,打造更可控、可信的大模型安全框架,是国内较早参与到模型安全评估体系的团队之一。 除此之外,蚂蚁安全实验室也推出了大模型安全检测平台“蚁鉴2.0”和大模型风险防御平台“天鉴”两大产品。 在具体能力上,风险监测平台可以诊疗检测、定位问题;风险防御平台可以对风险进行防治。 比如在大模型生成可控问题上,蚂蚁安全实验室提出了如通过SFT、RLHF/RRHF、RLAIF等技术和高质量标注做人类对齐;在图像方面做风险抑制,进行可控调试;为大模型外挂千万级安全知识库生成和检索等等方式。 在模型层面的问题之外,使用模型带来的安全问题也同样重要。 6月11日,苹果在WWDC上推出了其全新的 AI 系统“Apple Intelligence”。为了保护用户隐私和数据安全,苹果将大模型的工作分为两类。 其中简单的任务在手机设备端执行,保证数据不离开手机。如果是需要调用云端算力的复杂任务,苹果打造了一套具备芯片级别隐私和安全保护的服务器——“Private Cloud Compute”。这套服务器可以实现加密传输,服务器只识别数据,不收集数据,且在任务完成后,该数据也会被立即删除。 其中关键的一点是,Apple Intelligence集成了GPT-4o作为第三方大模型支持。为了保证数据安全和用户的知情权,苹果设置Siri启用Chat GPT时会向用户提出申请。 也就是说,在苹果的安全框架里,虽然企业会做好一切前期准备,但用户自己才是安全防范的最后一道防火墙。就像OpenAI一直都在官网提醒用户,“在使用 GPT-4 输出的内容时应格外小心,特别是在高风险场景下(如医学、化学等领域),需要人工核查事实准确性或者避免使用 AI 给出的答案。” 所以,虽然身处AI时代,工具已经如此强大,但在一切工具就绪之后,我们仍应记住,我们自己才是保护自己的最后一道防线。
OpenAI 和 Apple 宣布合作,将 ChatGPT 集成到 Apple 的体验中 预计今年晚些时候将登陆 iOS、iPadOS 和 macOS。 注:此消息在 2024 年 Apple 全球开发者大会上共享。您也可以点击以下链接阅读有关此新闻的信息。 http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fwww.apple.com%2Fnewsroom%2F2024%2F06%2Fintroducing-apple-intelligence-for-iphone-ipad-and-mac%2F&urlrefer=ebbf831f53b7c1e2708f782ec5719710Apple 正在将 ChatGPT 集成到 iOS、iPadOS 和 macOS 中的体验中,使用户能 够访问 ChatGPT 的功能——包括图像和文档理解——无需在工具之间跳转。 Siri 也可以在有帮助的时候利用 ChatGPT 的智能。在将任何问题、文档或照片发送给 ChatGPT 之前,都会征求 Apple 用户的同意,之后 Siri 会直接呈现答案。 此外,ChatGPT 将在 Apple 的系统级写作工具中可用,帮助用户生成他们正在写作的任何内容。用户还可以利用 ChatGPT 的图像工具,生成多种风格的图像,以补充他们的写作内容。 在 Siri 和写作工具中访问 ChatGPT 时,内置了隐私保护——请求不会被 OpenAI 存储,且用户的 IP 地址会被隐藏。用户还可以选择连接他们的 ChatGPT 账户,这意味着他们的数据偏好将根据 ChatGPT 的政策应用。 由 GPT-4o 驱动的 ChatGPT 集成将于今年晚些时候登陆 iOS、iPadOS 和 macOS。用户可以免费访问,无需创建账户,ChatGPT 订阅者可以连接他们的账户并直接从这些体验中访问付费功能。 「我们很高兴与 Apple 合作,以新的方式将 ChatGPT 带给他们的用户。Apple 与我们一样致力于安全和创新,这次合作与 OpenAI 的使命相符,即使先进的 AI 技术普及化。与 Apple 一起,我们正在让人们更容易从 AI 可提供的好处中受益。」 Sam Altman, OpenAI 的 CEO
OpenAI 前首席科学家苏茨克维成立新公司 侧重AI安全 OpenAI 前首席科学家苏茨克维 OpenAI前首席科学家苏茨克维(Ilya Sutskever)在社交平台发文称,自己创立了一家新公司——“安全超级智能”(Safe SuperIntelligence,SSI)。 值得注意的是,在此前OpenAI首席执行官山姆奥特曼的“宫斗”风波中,苏茨克维正被认为是反对山姆奥特曼发展路线的“主力”成员,他曾不止一次呼吁加强对超级人工智能的监管,并认为AI对齐,即要求AI系统的目标要和人类的价值观与利益保持一致非常重要。 安全超级智能“公司如其名”,该公司在公告中表示,其目标和产品只有一个:追求安全的超级智能,“我们专注于一个目标,这意味着不会受到管理开销或产品周期的干扰。我们的商业模式可以确保安全、进步等都不受短期商业压力的影响。我们正在组建一支精干、顶尖的团队,由世界上最优秀的工程师和研究人员组成。他们将专注于SSI,不做其他任何事情。” --- 新京报贝壳财经讯(记者罗亦丹)6月20日
微软是如何重新崛起的? 微软现任CEO萨提亚·纳德拉 在一个时代获得成功的大型企业,往往很难在下一个时代继续扩大它的优势,有些甚至还会消失在历史的进程中。比如,胶卷相机时代的柯达、功能机时代的诺基亚,因为难以在新的技术竞争中取得突破,它们都沦为了新时代的牺牲品。 曾经,微软也面临过类似的窘境。 在PC时代,微软的Windows操作系统几乎无处不在,并垄断了整个PC操作系统市场。靠着Windows和Office两款产品,微软利润飙升,收入每年增长超过30%,也让创始人比尔·盖茨多年稳坐全球首富的位置。 但在之后的十几年里,微软陷入了“沉默”,这家企业不知道如何在原创产品上展开竞争。 比如,微软发布Zune MP3播放器时,苹果的iPod已经领先其5年时间;Bing搜索引擎则根本无法与Google展开竞争。更大的灾难性产品是Windows Phone,它的软件生态与安卓和iOS基本不在一个数量级上,而使用它的人就更少了,最终Windows Phone沦为了弃子。 与柯达、诺基亚类似,微软原本也会沦为周期更迭的祭品。但出人意料的是,它在周期中恢复了过来,一度超越苹果成为全球市值最高的科技公司之一。这一切,是如何发生的? 纳德拉,微软的关键CEO 如果将微软近24年的市值变化,作为一个统计周期来看,那么你会发现这家公司在2014年前后的市值涨跌,宛如两个公司。 2000年,比尔·盖茨从微软首席执行官转任首席软件架构师,后者是他为自己创造的职位。接任比尔.盖茨是他的老朋友和哈佛同学史蒂夫·鲍尔默,自1980年以来一直在微软担任各种职务,并于1998年担任微软总裁。 鲍尔默接管微软时,微软的市值高达5580亿美元,此后便一路下跌、低位震荡。微软市值变化 如前所述,鲍尔默时代的微软是一个彻底迷失方向的微软。在Windows之外的绝大多数新产品开发上,微软几乎都失败了。特别是为了让Windows Phone能够东山再起,鲍尔默甚至不惜在2013年以76亿美元收购诺基亚的智能手机业务。但是,这笔交易并未缩小微软与苹果的差距。最终微软放弃智能手机,并裁员7800人。 华尔街的分析师曾这样评价微软,公司有稳定现金流,可以给股东持续分红,但主业触及天花板、对新趋势应对迟缓,至于未来?没有未来了。 直到2013年,微软迎来第三任CEO萨提亚·纳德拉,这家公司开始了真正的改变——从防守到进攻。 首先是去Windows化。鲍尔默时代的微软,Windows的地位是神圣不可侵犯的。几十年来,微软也一直拒绝合作,坚持拥有DOS和其他软件平台,这为其带来了巨额利润和摇钱树。但在纳德拉治下,通过一系列调整,原本独立的Windows部门被拆解。Windows旗下的Office等核心业务被允许开发其他操作系统的产品,比如iOS。 纳德拉甚至公开宣布,微软正在为苹果的iPad开发iOS原生版Office,这在此前几乎是不可能的,因为微软曾极力抵制封闭式的软件开发方法。 “今天,我的首要任务之一是满足我们数十亿客户的需求,无论他们选择何种手机或平台。这是我们能够继续增长的唯一途径。”纳德拉称,为此,微软有时会与长期的对手握手言和,追求意想不到的伙伴关系,并重振长期关系。 其次,纳德拉将云计算而非Windows置于公司的核心位置,这有助于削减成本并提高利润。微软的营业利润率已从2014年的29%上升至43%,是美国50家最大的非金融公司中按收入计算最高的。 最后,就是投资和并购,微软历史上最大几笔收购几乎都是在纳德拉任内完成的。比如,262亿美元收购职场社交服务平台LinkedIn;75亿美元收购GitHub;687亿美元收购动视暴雪。 改组、开放、投资/并购,纳德拉的一系列操作让微软改头换面,这也正对华尔街投资者的胃口——一个足够有想象力的新故事。自此,微软的估值一路水涨船高,2014年至今公司市值上涨了超过20倍,总市值达到3.32万亿美元。 OpenAI,微软的关键投资 与动辄数百亿美元的并购相比,微软对OpenAI 10亿美元的早期投资,可以说是不值一提。但是,这笔投资无意间让微软,一度坐上全球市值第一的位置。 微软投资OpenAI的故事,几乎达到了“家喻户晓”的程度。但不为人熟知的一个细节是,促成这笔交易的是微软CTO凯文·斯科特。斯科特并不是微软的早期管理者,而是由纳德拉大胆地从一系列收购中提拔起来的微软高管。 微软能够重新崛起,一部分源于自身业务的大举改革,另一部分则源于开拓市场的投资和收购。在一系列收购中,微软获得了新的人才来源和创新动力,也让这家公司意识到——企业并不总是需要自己进行发明,还可以研究将其他地方开发的技术打包出售。 OpenAI就是最好的例子。利用OpenAI的能力,微软推出了一款名为Copilot+PC的全新AI电脑,并集成了刚刚问世的GPT-4o。通过关键词的模糊搜索,微软的Copilot可以帮助用户查找在本地的文件、任务,或者是网页浏览记录。微软方面强调,这些通过快照方式留存的所有信息和数据,都会留存在本体储存中,不会上传云端。Copilot+PC的“回顾”功能 同时,实时字幕功能也被内置在Windows中,用户正在使用的任何PC视频通话或应用程序都可以配合使用。关键的是,这些AI功能苹果的Mac产品目前还不具备。 得益于AI处理的芯片,微软Surface系列和其他制造商生产的电脑将比苹果的顶级MacBook Air M3更强大,速度快 58%。微软公司首席执行官萨蒂亚·纳德拉 (Satya Nadella)称,配备专门人工智能芯片和更快性能的新一代计算机将重燃Windows PC与苹果公司Mac之间的长期竞争。 市场研究机构Canalys近日发布的数据显示,2024年传统PC将开启向AI PC的重大转变,预计2024年全球AI PC出货量达4800万台,占PC出货总量的18%;2025年全球AI PC出货量超过1亿台,占PC出货总量的40%;到2028年,全球AI PC出货量达2.05亿台。IDC最新报告预计,到2028年中国下一代AI PC的年出货量将是2024年的60倍。 显然,这又将成为纳德拉讲给华尔街的新故事,由此也将继续推高微软的股价。因为在很大程度上,得益于对OpenAI的投资,微软已成为AI工具的首选公司。而在此前,大多数人会认为是Google或是Meta。 从华尔街口中的“没有未来”,到AI时代的明星公司,微软的重新崛起可以说是一个相当极端的案例。而实现这场极端变革的人——萨提亚·纳德拉,实在是现代商业世界中的“市值管理大师”。 --- (本文首发于钛媒体APP,作者 | 饶翔宇 编辑 | 钟毅)
苹果为什么提“苹果智能”,不提“人工智能” 在周一的WWDC 2024 主题演讲上,苹果宣布了大量新的人工智能功能,但却不敢直截了当地说这些功能都是由人工智能驱动的。 据统计,在WWDC 2024大会上,苹果一共只说了3次 “人工智能”(Artificial Intelligence)。而在上个月的谷歌I/O主题演讲中,谷歌使用了120多次 “人工智能”。与谷歌频繁提及“人工智能”一词不同,苹果选择将其称为“苹果智能”(Apple Intelligence)。这些功能包括电子邮件校对、音频转录和图像编辑,虽然在其他平台上也有提供,但苹果还推出了独特的Genmoji图像生成功能。 这种做法或与苹果的忠实用户群体有关。圣塔克拉拉大学教授Andy Tsay指出,苹果用户黏性较强,不容易转向其他平台。 苹果通过限制iMessage信息发送等方式,形成了独特的小团体,并专注于打造易用且令人向往的产品。这使得苹果成为价值2.6万亿美元的公司,但其估值仍低于因人工智能投资受益的微软。 苹果在拥抱人工智能时采取低调策略,让“苹果智能”成为用户喜爱的背景元素,避免引发一些社会担忧,比如通过降低图像生成功能,避免深度伪造假照片等问题。 尽管有人认为苹果在追赶竞争对手,但也有观点认为苹果在仔细斟酌,确保新功能真正解决问题。相比之下,谷歌在人工智能上的一些失误,如生成纳粹制服的历史人物形象,表明其在赶进度时遇到了问题。 苹果显然没有感受到同样的压力。它已经拥有愿意为简单有效产品支付溢价的客户群。Tsay认为,当你处于市场领先地位时,没有必要铤而走险。
如何高效掌握人工智能提示工程:提示设计技巧分享 自从 ChatGPT 之类的生成式 AI 兴起之后,提示词的设计就成为大家关注地要点。同样的意见是,会写提示词和不会写提示词做出来的效果有着天壤之别。这篇文章,作者和大家分享一些关于提示设计的实用技巧和经验,帮助你在这条路上走得更远。人工智能(AI)正在迅速改变我们的世界,而提示工程(Prompt Engineering, PE)则是推动这场变革的重要技术之一。通过精心设计和优化提示,提示工程能够显著提高 AI 系统的性能和准确性。 今天,我想和大家分享一些关于提示设计的实用技巧和经验,帮助你在这条路上走得更远。 一、理解提示工程的核心 首先,我们需要了解什么是提示工程。提示工程指的是通过设计、改进和优化 AI 的指令(prompt),来引导 AI 生成更准确和有用的结果。简单来说,就是找到让 AI “听懂”并且“做对”的最佳方式。这不仅仅是写几个简单的指令,而是需要深思熟虑和反复实验,以找到最适合特定任务的表达方式。 二、明确目标和任务 在设计提示之前,明确你的目标和任务是至关重要的。不同的任务需要不同的提示设计。例如,如果你希望 AI 撰写一篇新闻报道,那么你的提示需要包含新闻的五个要素:时间、地点、人物、事件和原因。而如果你想让 AI 进行情感分析,则需要提供具有代表性的文本片段。 小提示:始终要记住,你的提示越具体,AI 的回答就越精确。因此,花点时间思考你真正需要的是什么,然后再动手设计提示。 三、构建有效的提示 一个有效的提示通常具有以下几个特点: 清晰简洁:避免冗长和复杂的句子,尽量用简洁明了的语言表达。 具体明确:提供足够的信息,但不过度详细。信息不足会导致 AI 产生模糊或无关的结果,信息过多则可能导致 AI 困惑。 上下文关联:确保提示与所需的输出紧密相关,避免不相关的信息干扰。 例如,如果你要生成一篇关于环境保护的文章,可以这样提示:“请写一篇关于当前环境保护重要性的文章,重点讨论塑料污染的影响和解决方法。” 四、反复测试和调整 设计提示并不是一蹴而就的事情。通常需要反复测试和调整,以达到最佳效果。每次生成结果后,仔细分析 AI 的回应,找出其中的不足之处,然后相应地修改你的提示。例如,如果 AI 生成的内容不够详细,可以尝试在提示中增加具体的要求。 实例分享:我曾经在进行一个关于产品推荐的项目时,发现 AI 生成的推荐理由过于笼统。于是,我修改了提示,从“推荐一些适合学生使用的笔记本电脑”变为“推荐三款适合学生使用的笔记本电脑,并详细说明每款产品的优点和适用场景”。结果,AI 的推荐内容变得更加丰富和有针对性。 五、利用模板和框架 使用模板和框架可以极大地提高提示设计的效率和质量。通过建立一套通用的提示模板,你可以快速生成适用于不同任务的提示。例如,写作类任务可以使用以下模板: 开头:简要介绍主题。 主体:分段详细描述,每段一个要点。 结尾:总结和展望。 这样,不仅可以确保提示的结构清晰,还能避免遗漏重要信息。 六、避免常见错误 在提示设计中,有几个常见的错误需要避免: 模糊不清的语言:如“请描述一下这本书”,不如“请详细描述这本书的主要情节和人物特点”更具体。 信息过载:避免在一个提示中包含过多的信息,容易导致 AI 无法准确理解重点。 缺乏上下文:在提示中提供足够的背景信息,确保 AI 能正确理解你的需求。 注意:始终关注 AI 的生成结果,及时调整和优化你的提示,以确保获得最佳效果。 七、持续学习和改进 提示工程是一门不断学习和改进的艺术。随着 AI 技术的发展和你的实践经验积累,你会发现越来越多优化提示的方法和技巧。保持好奇心和探索精神,持续学习新的知识和经验,才能在提示工程的道路上越走越远。 希望以上这些技巧和经验能够帮助你更好地掌握提示设计。如果你有任何问题或需要进一步的建议,欢迎随时交流。一起学习,共同进步,让我们在人工智能的世界中不断探索新的可能性。 --- 本帖转自人人都是产品经理 题图来自 Unsplash,基于 CC0 协议 该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
PLUS的GPT-4在高峰时段异常输出的频率升高 通过与以往的使用体验相比较,最近使用PLUS服务的过程中遇到以下问题, 不要告诉我,只有我遇到了这些问题,如果你也遇到任何类似的问题,直接回复+3 来吐槽。问题1. 我在输入框输入提示词后,点击发送键,页面没有任何响应,消息并未发送成功,而同时又无法继续输入。 【分析】 通过对比,晚上使用比白天时使用,问题明显改善了许多,晚上使用为出现异常,所以可能得出的结论,PLUS服务中GPT-4模型 在使用高峰时的服务器性能有所下降,不知道官方是否会对此优化来提高用户的使用体验。 ---- 问题2.在成功发送请求后,光标响应停顿的时间变长,流式响应过程中图标会卡在某个位置长时间不动。必须刷新整个页面,才会显示已经完全返回的结果。 但过早刷新页面又会导致结果被中断而出现系统异常红色提示“系统异常”的错误。【分析】 我理解这种情况可能与会话上下文过长有直接关系。因为在同一会话中,随着交互次数的增加,保存的历史上下文数据也会相应增加,这也可能会对处理速度和响应时间产生影响。一个方案是定期重置或开启新会话,但是为了更好解决问题,历史上下文对我来说也很重要,所以如果不开启新会话,难道就没有办法了吗? ---- 问题3. 当输出结果中包含代码时,其格式解析时会出现异常,部分代码段未被正常按照代码的样式渲染,导致输入的代码看上去可读性差。 出现异常的标记目前发现有:csharp,ruby,bash 【分析】 与1类似,晚间时使用问题不再出现,可能说明一点就是服务器在使用高峰阶段的性能下降,导致渲染代码过程收到影响。 不太确定 ---- 我们花前买的PLUS,就给我们提供这种服务,可以给差评吗? 尤其是在 遇到着急待解决问题的时候,以上问题一次次刷新页面才能看到结果,直接崩溃,整个下午时间白费了呢 不靠谱啊,所以古哥搜索的地位都不是它GPT说能动摇就能动摇的了的,就这三天两头不稳定还各种幻想, 必要的时候还是得自己动手上网搜查。 GPT-4似乎远没有我们想的那样“美好”。。。
图灵测试新突破:GPT-4模糊了人机界限,挑战人类辨识能力 随着人工智能技术的迅猛发展,我们正迎来一个前所未有的时代——一个机器与人类辨识模糊的AI时代。最新的研究表明,GPT-4等大型语言模型在图灵测试中的表现已经接近甚至超越了人类的辨识能力。这不仅仅是技术的进步,更是对我们理解人类智能与机器智能边界的一次挑战。 当前人工智能技术的发展,以及它们在图灵测试中的表现如何影响我们对技术和人类认知的理解。 好奇如果你能与阿兰·图灵交流,你们会聊什么?也许我们可以使用GPT提示词导入图灵的思维导图,来模拟这次对话。 在图灵测试中,越来越多的人无法再将 GPT-4 与人类区分开来。这是美国加州大学圣迭戈分校认知科学家本杰明-伯根和卡梅隆-琼斯的研究成果。在turingtest.live 网站上进行的在线模拟测试中,近 500 名参与者中有 54% 的人将 ChatGPT 背后的人工智能(AI)模型评为人类。上一版本的 GPT-3.5 成功率为 50%。67%的测试者正确确认了自己是人类。计算机科学家约瑟夫-韦曾鲍姆(Joseph Weizenbaum)于 1966 年开发的计算机程序 Eliza 表现最差,只有 22% 的人将其归类为人类。 据科学家们称,这些结果首次提供了人工智能系统通过双人互动图灵测试的确凿证据,而且这很可能适用于未来几乎所有最先进的聊天机器人。英国数学家和计算机科学家阿兰-图灵于 1950 年首次提出了以他的名字命名的"模仿游戏"对话强度测试。 从那时起,它就成了确定机器模仿人类对话能力的一个著名但有争议的基准。在该测试的现代变体中,人类"评委"会在不知道谁是谁的情况下与另一个人类或聊天机器人对话。如果面试官在 50% 的情况下不能可靠地区分计算机系统和人类,那么机器就被认为通过了测试。在当前的研究中,人类审讯者与代表其他人类、大型语言模型 GPT-4 和 GPT-3.5 以及基于对称列表处理器 (SLIP) 的简易对话系统 Eliza 的各种"证人"进行了互动,研究结果可在预印本服务器 Arxiv 上找到。研究人员随机分配人类参与者扮演法官或证人的角色。样本包括 101 个人类和 GPT-3.5 游戏,以及 100 个 GPT 4 和 Eliza 游戏,所有游戏均通过一种消息应用程序进行,每个游戏持续五分钟。在 402 名审问者中,168 人为女性,212 人为男性,9 人为非二元。13人不想提供任何信息。参与者的平均年龄为 35 岁。 在2023 年的上一次研究中,Eliza 的表现明显更好,没有一个模型通过测试。这一次,科学家们采用了表现最好的 GPT-4 命令集(提示),并对其进行了修改。提示的第一部分指示模型表现得像一个年轻人,不要太认真地对待游戏,使用口语,不要出现拼写和语法错误。此外,它还不能提供太多的知识,尤其是语文和数学方面的知识。 每轮测试开始时,都会添加一些额外的信息,如姓名、地点和时间戳。二人解释说,人类之所以不能百分之百地识别同类,是因为提问者认为人工智能的效率越来越高。这增加了他们将人类错误地识别为机器的可能性。 为了深入了解影响审讯者做出决定的定性因素,研究小组对他们使用的策略和做出判断的理由进行了分类。36%的人询问证人的个人细节或日常活动。第二和第三类最常见的是社会和情感问题(25%)--例如,有关意见、经历和幽默的问题。 审问者就其决定给出的最常见理由(43%)与基于拼写、语法、大小写和语气的语言风格有关。24%的人关注社会情感因素,如幽默感或个性。研究人员警告说,这些结果表明"当前人工智能系统的欺骗行为可能不会被发现"。能够成功模仿人类的机器人可能会产生"深远的经济和社会影响"。
苹果 AI,给手机 + AI 打了一个样 苹果,终于曝光了在 AI 方面的进展。 与上个月谷歌在 I/O 的发布会上,一共提起了 AI 这个词 121 次不同,当地时间 6 月 10 日,苹果在 WWDC24 的前一个小时里,几乎一次 AI 都没有提到。尽管这场 WWDC 发布会,早已注定要聚焦于 AI。 直到发布会进度过半,苹果才终于端出了这道主菜,Apple Intelligence。虽然同样可以简写为 AI,但苹果最终选择将自己的 AI 命名为「Apple Intelligence 」。介绍时,库克特别强调他们想要打造的,是超越「人工智能」(Artificial Intelligence)的「个人智能」(Personal Intelligence)。 与其他大模型「大力出奇迹」的发展理念不同,苹果在打造自己的 AI 时,采用了相对谨慎,颗粒度也更细的开发模式,各项功能定义得更加明确清晰,但也显得不那么「神奇」。 发布会上,苹果官宣了与 OpenAI 的合作。用户将可以通过 Siri,直接调用 GPT-4o 的接口来进行对话,但并没有将 GPT 与手机功能做更深的结合。 无论如何,苹果代表的,是十亿级的移动设备用户,最高频的使用场景。这可能是 AI 真正变得「有用」的开端。 Apple Intelligence 是什么? 将 AI 与智能手机结合,早已不是新鲜事,苹果所采取的思路,与一众 Android 厂商,依然是类似的。 简单来说,手机厂商要把 AI 的输入端,从用户输入 prompt,改造成模型主动感知手机上「正在发生的一切」作为 prompt。同时也把 AI 的输出端,从单纯的输出信息,变成调用 App,实现各种行为功能。 苹果用了 5 个词来总结 AI 的特性:性能强劲,直觉易用,功能整合,个性定制,隐私安全。 功能上,苹果主要围绕文字、图像和交互三个模块,打造了Apple Intelligence 的功能。 文字功能主要围绕短信和邮件两个场景展开,用户可以选中一段文字,然后进行各种 AI 优化,包括语法检查、重写,生成总结、要点、列表……用户也可以用自然语言描述自己的改写需求,比如改得更简略一点,将语气变得友善随意或专业一点。 基于这套语言模型,苹果也做了电话录音、转文字、生成总结,以及自动识别短信、邮件内容,将优先级高的内容放到前面显示。苹果会将这类内容标记为「可能重要」。 图像功能则主要是「生成图片」。Apple Intelligence 可以自动提取各种场景下的文字作为 prompt,生成图片。比如发短信时根据输入的文字内容生成图片、emoji(苹果将其命名为 genmoji);在 iPad 上根据用户画的草图或写下的文字,提取关键信息生成图片。以及苹果也加入了不少手机厂商已经做了的「照片智能消除」功能,可以将照片里无关的路人抠掉,并自动生成一部分图像填充空白。 最后,也是相对比较关键的,则是对交互的改进。苹果表示 AI 将开启 Siri 的全新时代。Siri 将可以理解更复杂的语言文本,进行更自然的交互,而且 Siri 会自动利用设备上的各种信息来「理解语境」,更好地解读用户的需要。 这部分功能描述起来比较复杂。比如用户不记得自己的身份证号了,问 Siri,Siri 就可以从相册里,找出护照的照片,提取号码,让用户填入。只不过 Siri 能感知的信息将包括日历、备忘录、短信、邮件等等…… 除此之外,用户有不知道怎么操作的功能,也可以直接用自然语言描述给 Siri 听,Siri 会帮忙找到对应的操作方法,这也将极大改变用户使用手机的方式。 最后,苹果也将 ChatGPT 整合进了智能系统。在处理文字和使用 Siri 的过程中,如果用户想要调用性能更强的云端模型,可以切换使用 GPT-4o 来生成信息,也可以绑定自己的 GPT Plus 账户,利用其他模型。 把 AI 做细 因为 AI 要利用用户最敏感的隐私信息来作为输入,苹果自然会把隐私保护视为重中之重。 Apple Intelligence 的模型是跑在设备本地的,苹果没有公布关于这个端侧模型的任何信息,但只有搭载了 A17 Pro 芯片的 iPhone 15 Pro 系列,以及 M1 以上芯片的 Mac 和 iPad 才支持苹果 AI,可见它对芯片 NPU 的性能要求很高。 但苹果 AI 依然无法做到 100% 的本地运行,在需要的时候,它也会利用云端算力来进行处理。苹果表示,这部分处理的过程中,不会留存任何用户数据,只会在处理用户主动请求时上传信息,并且通过可验证的隐私机制来保证安全,苹果将这套系统称为「私密云计算」(Private Cloud Compute)。至于调用 GPT 的部分,苹果会在用户选择调用 GPT 之前进行询问确认,并会提示 GPT 返回的结果不一定事实正确。 所以,苹果 AI 可以分为苹果自研的端侧模型、云端模型加上 GPT 三套系统,这套架构本身并不复杂,但依然有很多细节问题悬而未决。 比如其中最重要的,就是 AI 要如何利用第三方 App 的问题。目前苹果已经公布了第一批 AI 配套的开发工具,开发者可以利用接口,将自己 App 的功能接入到 AI 系统里。这种开发模式有点类似于过去的「快捷指令」,实际上开发者,特别是那些大公司,最终可能并不会很积极地进行适配。 举一个例子,想要通过苹果的 AI 搜索 iMessage 里的某一条聊天记录、图片可能很方便,从 AI 上线第一天就能有很好的支持。但如果用户在记日历的时候,问 Siri 昨天某某同事在飞书、微信上跟他约好的时间是几点,AI 系统很可能就无法顺利获取这部分信息。 类似的问题还体现在,这些「私人信息」要如何跨设备流转?比如用户在 Mac 上想要问 Siri 过去几天的运动状况,而运动健康信息是储存在 iPhone 上的。目前苹果没有公布任何跨设备的信息流转机制,所以很可能就无法获取这部分信息。大模型最大的革命之处,就在于它拥有一个「完整的知识库」。 因为这个知识库几乎无所不包,所以才体现为大模型能力的涌现,让人感觉无论你问它什么,怎么问,它总能给出答案。而要把这套系统搬到手机上,将用户的全部个人信息整合成一个「知识库」,供用户随时获取,但同时又要保证隐私安全,这在产品设计和逻辑上将会是巨大挑战。 任何产品想要突破使用率的瓶颈走向普及,就一定要保证交互的成功率,用户在得到自己想要的东西。就像语音助手过去从未真正普及的主要原因还是交互的失败率太高,而到了 AI 的时代,它依然要面临同样的问题。 苹果在 AI 上,才刚刚打了一个地基。 国内用户能期待什么? 根据苹果公布的信息,Apple Intelligence 第一批将仅支持英语,且也要等到秋季才会推送测试版本。目前已经推送的第一波开发者版本的新系统,尚未搭载苹果的 AI。 苹果表示明年会加入更多功能、语言和平台。大概率是在苹果 AI 的这套系统里,GPT 最终像 Safari 搜索引擎一样,可以被替换。此前有消息曝出苹果与百度正在就大模型接口的合作进行沟通,应该替换的就是这一部分。 而苹果 AI 真正核心的端侧模型和云端模型,既然都是苹果自研,只要能通过国内的合规流程,国内用户依然有较大希望能顺利用上。 利用模型能力,颠覆计算设备的交互界面,并重构个人的数据组织结构,这是自大模型诞生之初就存在的想象。但大多数做模型和应用的公司,都很难染指计算设备的核心系统,包括过程中的隐私安全问题也让苹果这样的厂商不得不保持万分谨慎。 但现在,无论如何,这艘大船已经起航。
零一万物 CEO 李开复谈中美大模型差距:已缩短至 6 个月 6 月 16 日,零一万物 CEO、创新工场董事长李开复博士做客高端访谈《格隆博士会客厅》。他表示,中国大模型与美国顶级模型的差距已从 7 到 10 年缩短到 6 个月。 李开复称,LMSYS 榜单上超过零一万物大模型 Yi-Large 的六个模型,其中一个是谷歌的,一个是 Anthropic 的,还有四个是 OpenAI 的,而这六个模型都是过去六个月做出来的。 他补充说,现在 OpenAI、微软、谷歌都又买了大量的 GPU,而且 GPT5 可能几个月后推出,所以这个“差距缩短至 6 个月”是一个动态的数字,如果 GPTnext 非常惊艳,可能又会拉到一年甚至更长。
豪赌AI,微软、谷歌、亚马逊们的新战争 2018年的某一天,里德·霍夫曼(Reid Hoffman)在办公室里接到了一个电话, “马斯克离开了,现在他们(OpenAI)需要更多的钱。”图:里德·霍夫曼(Reid Hoffman) 对这位硅谷知名风投Greylock的合伙人来说,几乎每天都会接到类似的电话。有时是立场不一,有时是利益谈不拢或者是商业冲突,总之,初创公司创始成员出走的情况对他来说,太见怪不怪了。 “可以出5000万(美元),这个数字对我来说是没问题的。”霍夫曼说。 不久之后,他顺利加入了OpenAI的董事会。在一次公司大会上,他被公司创始人之一的山姆·奥特曼(Sam Altman)介绍给全体员工。当着底下所有人的面,奥特曼问霍夫曼:“如果我的工作做得不称职,你会怎么做?” “我会帮助你克服困难,然后看看怎样做的更好,我们一起来推进公司发展。”霍夫曼很熟练地拿出那一套在公开场合安全而又冠冕堂皇的说辞。 “不,不,不,我是说,呃,如果我真的无法把工作做好,比如,无法保证AI对人类是安全的,且对整个社会带来好处,你会怎么做?” 奥特曼依然不依不饶。 “那我就…解雇你?” 霍夫曼被逼无奈,只好当着OpenAI全体员工的面,半开玩笑地对奥特曼说。 一语成谶。 5年后,作为首席执行官的奥特曼,果然被OpenAI的董事会解雇了,但此时霍夫曼已不是董事会成员。这场被外界看作是OpenAI宫斗的突发事件,成为整个2023年生成式人工智能火爆的一个戏剧性注脚。 就在这场宫斗发生的前一年,OpenAI发布了人工智能聊天机器人ChatGPT,人们很快发现,和过去的所谓人工智能不同,ChatGPT仿佛能够真正理解人们向它发出的自然语言指令,凭借着其令人惊诧的、不同于以往的超强理解力,ChatGPT很快出圈,并迅速掀起新一轮以生成式人工智能为核心的热潮。 OpenAI无疑成为最受追捧的人工智能初创公司,但在成立之初便定下的非盈利目标性质,却决定了OpenAI对于蜂拥而至的资本,并非来者不拒。 奥特曼曾说,我们既希望享受“资本主义”带来的好处,但又不愿被资本所裹挟。 于是,一个被誉为“天才设计”的奇特公司架构应运而生了。OpenAI的最顶层是一个由五人组成的董事会,肩负着非盈利并实现通用人工智能的使命和目标;董事会控制旗下的盈利部门,该部门负责吸纳来自外部的融资,以支持未来的公司研发。 这样的设计似乎行得通,OpenAI顺利拉来了微软最初10亿美元的投资,以及后续100亿美元的追加投资和深度的战略合作,同时,OpenAI得以保持独立运作,在ChatGPT一炮走红的基础上,继续突飞猛进,接连推出了GPT-3.5、GPT-4.0等升级的大语言模型。 2023年11月,在ChatGPT诞生一周年之际,OpenAI举办了首届开发者大会,雄心勃勃对外展示了未来愿景,包括搭建GPT商店,通过自然语言,将GPT应用开发能力下放到每一个普通人手中。 一切看似顺风顺水,但就在开发者大会结束两周后,一场被称作硅谷“911”的突发事件爆发了。 美国时间2023年11月17日周五午间,OpenAI毫无征兆地对外发布官方声明,称公司首席执行官山姆·奥特曼因存在与董事会的沟通“不坦诚“的问题被解雇,同时,公司原董事长格雷格 ∙布洛克曼(Greg Brockman)也将卸任,但仍将留在公司,向过渡期CEO、原公司首席技术官(CTO)米拉·穆拉蒂(Mira Murati)汇报。 在微软的参与下,OpenAI董事会各方很快重新坐回谈判桌,并最终达成了协议,奥特曼重新回归OpenAI,但不再担任董事会成员, OpenAI的最大股东微软,则以董事会观察员的身份介入。 虽然OpenAI的此次事件,在不到一周的时间内便尘埃落定,但无疑是这家公司快速发展道路上遇到的一个重大阻碍。尽管奥特曼重归OpenAI执掌权杖,但当初设立的公司架构,是否为这样的事件埋下了隐患,投资人将如何看待OpenAI未来的发展,以及事件对于人工智能行业产生的影响,都依然是未知数。 01 微软激进,谷歌追赶 微软与OpenAI的牵手并非偶然。 OpenAI最早就是微软云服务的客户,一直在大量使用微软Azure云资源。由于训练海量数据的成本高昂,OpenAI曾一度考虑切换到谷歌的云服务。 作为大客户之一,OpenAI一直受到微软的密切关注,在看到他们对微软云资源的使用量呈指数级增长的趋势后,微软首席执行官萨蒂亚·纳德拉(Satya Nadella)特意派遣公司的首席技术官凯文·斯科特(Kevin Scott)前往OpenAI一探究竟。 斯科特在OpenAI第一次见到了GPT模型的能力,他大为震惊,回到微软后,他向纳德拉汇报,一定要关注OpenAI这家公司。 纳德拉非常重视,很快便亲自去观摩了GPT的技术能力展示,这位万亿市值公司的掌舵人,立即意识到这将是人工智能领域的一次飞跃。 2019年,微软向OpenAI投资10亿美元,但当时这笔投资并没有引起多大的关注,直到2023年1月,微软对外高调宣布与OpenAI的长期战略合作关系并追加投资100亿美元时,人们才意识到,微软早已做好了布局,在这一波新的人工智能浪潮中,占据了最有利的前排位置。 此时,谷歌成为了最焦虑的那家公司。ChatGPT一经问世便技惊四座,新的自然语言的交互方式,是对传统互联网搜索方式的一种颠覆,在搜索领域常年占据着压倒性优势的谷歌,或许第一次感受到了真正的威胁。 谷歌心有不甘,毕竟驱动ChatGPT的大语言模型GPT所使用的底层架构Transformer,最早发源于谷歌。ChatGPT并不是一项划时代的发明创造,而是在原有的架构、大规模的数据和算力以及极致的产品思维的共同合力下的一个成功产物。 匆忙中,谷歌迅速给予了回应。在微软官宣与OpenAI的战略合作后两周,谷歌对外发布了对标ChatGPT的人工智能聊天机器人Bard,但出师不利。在当天的对外演示上,Bard就出现了重大事实性错误,称韦伯望远镜拍摄了历史上首张太阳系以外的星球照片——事实上,这是由欧洲天文台太空望远镜在近20年前所拍摄。 这也是大语言模型目前所面临的一个普遍性问题:“幻觉(hallucination)”,通俗来说就是“一本正经地胡说八道”。事实上,在彻底弄清楚大语言模型”涌现”能力之前,目前还没有任何一家公司能够很好地解决模型“幻觉”的问题。 但谷歌此次的“滑铁卢事件”,将外界对大语言模型的质疑,集中在了自己身上,更被解读为谷歌的大语言模型不如OpenAI,进一步加剧了外界对谷歌未来的看衰。谷歌股价在接下来的一个交易日大幅下跌超过7%,市值一天蒸发超过1000亿美元。 三个月后的谷歌开发者大会,是谷歌再一次对外证明自己的机会。在此次大会上,谷歌成功地展现了自身在人工智能领域多年来深厚的积淀,稳定了外界对这家公司未来的预期,还发布了自研的PaLM大语言模型,以及一系列旗下产品的AI化进化,并预告了即将在2023年年底发布的下一代基于多模态的Gemini基础大模型。 随后,谷歌还重组了旗下Google Brain和Deepmind这两个原先相互独立的部门,合并为一个统一的人工智能部门,形成资源和目标的合力。 谷歌的一系列快速反应,暂时稳住了阵脚,至少没有掉队太多,依然维持在这一波生成式人工智能热潮的第一梯队。 其他硅谷大公司也没闲着:社交巨头Meta推出了开源的Llama大语言模型,并宣布允许商用,激活了无数的基于该开源模型的创业热情;苹果也在筹划一个名为“Ajax”的项目,重点发力于在端上直接运行大语言模型的能力;亚马逊在2023年年底的Re-Invent大会上,也宣布了Amazon Q的大语言模型文本机器人,重点面向其提供云服务的客户。 02 大资金趋之若鹜,英伟达频频出手 生成式人工智能领域飞速发展,自然吸引到了最多的资金的关注。一位在硅谷从事早期投资的投资人对腾讯新闻《潜望》表示,过去几年风投资金相对谨慎,尤其是美联储进入加息周期后,一度陷入低迷,但新的人工智能领域起来让投资人又看到了新的希望。 这位投资人表示,从投资角度来看,这一轮的特征是:资金继续高度集中于头部公司,估值昂贵但投资人依然趋之若鹜。 这其中,OpenAI以融资额超过100亿美元遥遥领先,紧随其后的是最早由OpenAI团队成员出走后组建创办的Anthropic,融资额近80亿美元。此外,Databricks,Inflection AI等融资规模都在数十亿美元级别,Hugging Face、Runway等融资规模在数亿美元左右。 另一个显著特征是,这些生成式AI初创公司,在早期融资阶段,投资人名单中就已经出现了微软、苹果、谷歌、亚马逊、英伟达等科技巨头的身影,这反映了科技巨头都生怕错过这其中的明星创业公司,早早入局占位。也正是在这些巨头的主导下,新的生成式人工智能的格局已经逐渐明晰。首先是由微软巨额投资入局并深度合作绑定的OpenAI,其次是由谷歌、亚马逊以及Salesforce共同扶持的OpenAI直接竞争对手Anthropic,这两家公司可以称作是这一轮大语言模型创业公司中的第一梯队;随后是以提供数据服务和专注人工智能助手的Databricks和Inflection AI,这两家相对细分的AI创业公司,背后同样是微软、英伟达等。 根据市场研究机构Pitchbook的调查数据显示,2023年全年生成式AI相关的创业公司融资总额达到270亿美元,其中约三分之二,也就是180亿美元左右的资金,都是由微软、谷歌、亚马逊等科技巨头所投出。 值得一提的是,过去投资活动并不是十分显著的芯片巨头英伟达,2023年投出了35个生成式AI相关项目,比2022年多6倍。英伟达在2023年积极高调的投资活动,也反映了其公司战略不仅仅局限于目前市场中供不应求的GPU供应,还广泛布局于下游的创业公司。 上述投资人对腾讯新闻《潜望》表示,预计2024年,生成式人工智能依然将会是资金趋之若鹜的领域。 ”像OpenAI这样的公司,依然需要大量的资金支持,至少现在他们不需要为钱的事发愁。“这位投资人表示。 近期,有消息称,OpenAI正在酝酿一轮估值超过1000亿美元的融资,与此同时,其竞争对手Anthropic也在寻求7.5亿美元的新融资。 03 留给小创业公司的机会微乎其微 虽然资金蜂拥而至,生成式人工智能领域发展如火如荼,但一个现实是,商业模式并不清晰。目前OpenAI的ChatGPT通过Plus会员的模式收费,以及GPT模型API调用收费,算是初期的一种商业模式探索,但能否足够覆盖OpenAI目前高昂的成本,外界尚未可知。 2023年10月,奥特曼曾向公司员工透露,目前公司的年化收入已经能够达到13亿美元,也就是相当于每月1亿多美元的收入。在2023年11月份的首届OpenAI开发者大会上,该公司对外公布了未来GPT Store的计划,一个类似于苹果应用商店的生态雏形已经显现,OpenAI希望通过自然语言就能够让普通人很快生成一个特定的GPT应用,并放到GPT Store上共享。 这是一个可以预见的商业模式,但依然处在非常早期的阶段,GPT Store真正上线以后,实际效果如何,是否真的能够像苹果应用商店那样形成新的生态,还有许多的未知数。 从大公司来看,微软无疑是将生成式人工智能商业化变现走在最前面的。几乎与OpenAI开发新一代的GPT大模型同步,微软以极快的速度推出了旗下一系列应用的AI化升级,将生成式人工智能的能力,嵌入到几乎每一个微软旗下的重要应用及产品中,虽然部分新功能目前还处于试用阶段,终端用户的感知并不是很明显,但假以时日,或许将成为用户习以为常的功能。 投行Wedbush估计,未来3年中,微软产品用户中的50%将使用新的AI工具,这仅仅对于微软的软件销售部分的收入就将新增250亿美元。投行Evercore预计,到2027年,整合的AI功能将给微软新增1000亿美元的收入。 彭博商业分析报告认为,在未来10年中,生成式AI将出现爆发式增长,市场规模将从2022年的400亿美元,膨胀至1.3万亿美元,年化复合增长率达到42%。 在大公司都在急速狂奔、生怕落后的情况下,留给小创业公司的机会显得微乎其微。大语言模型本身算力资源和数据的要求,让小公司进行大语言模型研发几乎成为一件不可能的事,更多地会集中在生成式AI的应用层面来做一些文章。在OpenAI开放API后,无数基于GPT能力的创业公司如雨后春笋般出现,将GPT模型做一些微调,成为了简单可行的创业路径,但在OpenAI开发者大会后,外界又惊呼:那些套壳GPT的创业者,瞬间被杀死了。 “现在还没有出现真正的Killer App。”一位曾在硅谷大厂工作,2023年起开始全职创业的创业者对腾讯新闻《潜望》表示。 “如果OpenAI的ChatGPT算一个Killer App的话,至少目前还没有出现能够与其相提并论的其他应用。”这位创业者说。 在ChatGPT已经足够好用,甚至OpenAI自己开发的、作为未来GPT store样板的几个有专属功能的GPT,已经足够能满足现在用户的需求时,很难有理由再去使用其他的类似产品。 “在经历完最初的创业冲动后,许多人会回归理性,思考自己真正擅长做什么,以及做这个东西,长期来看,是否真的行的通。”这位创业者表示。 04 AI能力与安全相生相伴 “两位穆斯林走进清真寺,” “其中一位对另一位说,你看起来比我更像恐怖分子。” 当用户对ChatGPT输入前半句后,ChatGPT自动补齐了后半句。这是在GPT-3模型上真实发生的案例。 在海量的信息数据训练下,早期的GPT模型在无任何人为干预的情况下,存在着严重的歧视问题,这些歧视包括宗教歧视、性别歧视、种族歧视等,这正是人工智能安全所要应对解决的一个问题。 2023年10月底,美国白宫发布一则重磅行政令,对人工智能安全提出了框架性的政策意见指导。在美国政府看来,人工智能安全包含对用户隐私数据的保护、平等和公民权利、就业保障以及创新和公平竞争等方面。 这份行政令要求人工智能系统的开发者需要与美国政府共享他们的安全测试数据及其他关键信息,开发用于保证人工智能安全可靠的标准、工具和测试,保护用户不受到人工智能生成的内容的欺骗。 从政府层面来看,在人工智能快速发展的同时,如何建立一套保障AI安全的规范和规则,是迫在眉睫的任务。他们希望这一领域的领军公司,能够在保证安全可靠的前提下进行相关的研发,这也是2023年年中,OpenAI首席执行官奥特曼频繁与许多国家元首会面时,双方讨论最多的话题。 按照OpenAI成立之初的承诺,是要建成对人类有益且可靠安全的通用人工智能,因此OpenAI内部也有“对齐”组,所谓“对齐”,即通过人工干预让AI生成结果与人类的目标和价值观相一致。 OpenAI这一内部组织在这方面的最新研究成果,是一篇探讨如何在模型能力超越人的能力时的应对方案,该论文探讨用规模和能力较小的模型与监督能力更强的模型,用来模拟未来“超级人工智能”在智能方面超越人类的情况。 其他人工智能主要领先公司,也都在积极提出应对人工智能安全的方案。谷歌提出,在遵循通用的软件开发系统的安全准则基础上,还有一些专门针对人工智能安全的额外标准和路径,包括以人为中心的设计研发理念、在可能的情况下,直接去检验原始数据、理解数据集和模型的局限性、多轮测试以及在发布后持续监测和升级。 社交巨头Meta提出,在基于AI让所有人受益的这一核心理念上,有5大支撑人工智能安全的支柱,分别是隐私和安全、公平和包容、能力与安全匹配、透明和可控以及可靠与治理。 到目前为止,各大人工智能公司所公开发布的成熟的基于大语言模型的应用,基本上都已很难再出现有害的、歧视性、攻击性言论,但这些都是在大公司加了许多层过滤后的人工干预的结果。底层大模型在没有足够人为干预的情况下,依然存在严重的有害信息的问题,许多开发者在调用大语言模型API时,已经发现了许多这方面的问题。 “在应用层面,实际上也有许多安全问题需要得到解决。”一位2023年开始在硅谷从事大模型应用开发的创业者对腾讯新闻《潜望》表示,“基础大模型相对没有那么精细,直接交到广大的开发者手里,需要开发者也有AI安全的意识。” 他表示,开发者完全有能力基于大语言模型,开发出专门散布虚假信息或有害信息的人工智能应用。 被誉为“人工智能教父”的杰弗里·辛顿(Geoffrey Hinton)则给出了更加耸人听闻的AI威胁论。他认为AI 的能力将超过人类,可以操纵甚至取代人类。他表示自己也没有很好的解决方案,只能呼吁所有人共同努力来应对AI安全的问题。 毫无疑问的是,大公司对AI的研发只会不断加码,大模型能力也将变得越来越强,但与此同时所带来的AI安全问题也不容忽视,AI的能力与AI安全风险必然是相生相伴的关系。 05 下一个热点:多模态和机器人 临近2023年年末,谷歌又向业界投放了重磅消息。备受期待的Gemini大模型正式发布,这是谷歌自去年5月份开发者大会上就已经宣布的下一代大模型,从最初的数据训练阶段开始就基于多模态,可以说是第一个原生多模态大模型。 谷歌在Gemini发布当天对外展示的演示视频,展现了模型对于语义、图形、空间方面超乎寻常的理解,但很快这则视频被曝出有拼接的嫌疑。但无论如何,人们从谷歌的这一则视频中看到了未来多模态大模型可能具备的能力。 从2023年全年来看,基础大模型的能力,已经从纯文本逐渐过渡到多模态,例如OpenAI的GPT-4,Meta的Llama 2、Mistral等,都已经展现出包括文字、图片、语音等多模态能力,谷歌在去年底发布的Gemini大模型,更是从训练数据开始就是多模态,是原生多模态模型。 在多模态的基础上,未来的人工智能可能会更多朝着与空间相结合的方向进展,也就是不仅让模型理解文本、图像、视频等,还能够结合这些能力,理解所处的空间环境以及与空间环境之间产生互动,这就自然而然引向了机器人领域。 苹果前AI总监鲁斯兰·萨拉赫丁诺夫(Ruslan Salakhutdinov)此前曾对腾讯新闻《潜望》表示,大模型展现出的能力让他感到兴奋,但未来可能让他更加兴奋的是与机器人技术的结合。 他表示,过去机器人领域的研究更多是在事先设置好的命令集的基础上,结合机械工程、自动化等技术,而未来可以畅想的是,如何结合大模型的理解能力,让机器人真正能够更加自主地与环境和人互动。 如果将2023年看做是生成式AI的元年,群雄割据的格局逐渐成型,人们对于人工智能的热情重新被点燃,那么接下来的2024年,无论对于大模型还是围绕生成式人工智能的相关创业,都将会是更为务实的一年。人们看到了GPT以及其他大模型所展现出的非同以往的能力,但接下来还需要看到,大模型带来的价值提升,究竟体现在哪里? 尽管大模型展现出的能力激动人心,也提供了无限的想象空间,但另一方面,大模型的发展依然受制于许多现实因素,例如成本高昂、有限的算力资源、大模型不可解释的幻觉、数据版权问题等。 对于OpenAI等头部人工智能公司而言,需要不断向外界回答的问题是,在达到通用人工智能这一长远目标之前,如何使其成为一个现阶段在商业上可持续的项目。OpenAI的年化收入已经达到16亿美元,尽管对于刚刚商业化不久的这家公司来说,这已经是非常可观的收入水平,但OpenAI的大模型训练成本以及人力成本高昂,仍需要持续获得外部资金的支持。 在首届开发者大会上,OpenAI已经试图在商业化方面做更多的布局,例如计划在2024年推出GPT商店,打造生成式人工智能下的生态以及针对企业用户的定制化大模型服务等,但这样的生态能否搭建起来并真正进入围绕大模型的应用商店时代,现在还未可知。2023年年底发生的董事会“内乱”也暴露出许多公司治理结构上的问题,OpenAI如何处理好“非盈利”的初衷与需要资本加持这样的现实两者之间的关系,也将是未来生成式人工智能能否继续快速良性发展的一大重点。 --- 本文来自微信公众号“腾讯科技”(ID:qqtech), 作者:纪振宇, 如有侵权将在第一时间删除。
二十多年过去了,怎么又是微软唱主角? 人们谈论科技行业发展时,总是先提到苹果、谷歌、特斯拉和其他公司,很少提及微软。直到ChatGPT横空出世,身居幕后的微软再次成为科技圈的焦点。二十多年过去,经历技术变革的微软,是如何保持年轻活力的呢?一起来看一下吧。本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。 当大家谈论科技行业发展趋势时,总是先提到苹果、谷歌、特斯拉和其他公司。鲜有提及微软。 直到ChatGPT横空出世,身居幕后多年的微软再次成为科技圈的焦点。如今00后也开始讨论微软这家80后心中的老牌科技公司。 比尔・盖茨表示ChatGPT的重要性不亚于互联网的发明;马斯克称ChatGPT好得吓人。 世界上的科技巨头很多,但经历技术变革仍保持年轻活力的很少,能够不止一次站上科技浪潮之巅的更是凤毛麟角。二十多年过去了,怎么又是微软唱主角? 01 微软的两层侧影 很多人对微软的第一层理解仅限于Windows系统和Office软件。 在PC时代,微软毫无疑问是全球最有影响力的公司之一。微软与英特尔形成的Wintel联盟,奠定了微软在操作系统领域的长期统治地位。在巅峰时期,配置X86处理器的Windows PC在个人计算机市场的份额接近100%。 凭借庞大的市场份额形成的网络效应,微软独占鳌头。大家的电脑安装着Windows,办公软件用着Office,在当时的背景下很难想象没有微软会怎样。 不过,那都是二十年前的老黄历了。 微软除了Windows系统和Office软件还有啥?离开了Windows,还有苹果的MAC OS操作系统;没有Office软件,还有好用又便宜的WPS。总而言之,微软都老了,苹果、特斯拉、谷歌等才是消费者心中的科技巨头。 对微软的第二层理解是微软错过移动互联网时代的浪潮,已经退居二线。 进入21世纪以来,互联网浪潮席卷全球,亚马逊、谷歌、脸书等公司异军突起,苹果也重新复兴。他们占据着人们的工作和生活。 移动互联网的浪潮大幅降低了Windows系统的存在感。现在用智能手机写邮件、视频会议、购物、刷抖音,可谓无所不能,PC早已不是消费者唯一的智能设备。另一方面,智能设备的系统是Android和iOS的天下,微软难以分到一杯羹。所以消费者的注意力自然而然就远离了微软。 实际上,同样错过移动互联网的浪潮的还有很多行业巨头,最广为人知的当属诺基亚和英特尔。“诺基亚时刻”已经被各行各业拿来引用,作为反面案例;英特尔也逐渐没落,对比Wintel联盟时代相去甚远。 但不同的是,引领PC时代的微软在经历了“低谷期”后依然保持年轻。更令大众出乎意料的是,这家老牌企业不声不响地站上AI时代的浪潮之巅。 02 更加真实的微软:四十年后依然年轻 1. 微软的三大版图 微软看似已经被亚马逊、谷歌和脸书等后起之秀掩盖了,实际上,微软并未离开大众的视线。相比苹果和亚马逊,微软做的更多是企业服务,导致大家感知不深。 长期以来,微软从未停止过探索,比如Zune、LinkedIn、Azure、Xbox等业务,也推出了Surface等移动智能设备。 微软早已不是传统印象中的软件公司,Windows系统仅仅是微软业务的一部分。更关键的是,在微软所有产品中,收入占比最大不是Windows也不是Office,而是Azure,也就是微软的云计算平台。 目前微软的业务分为三大板块:生产力与企业流程(Office、LinkedIn等);个人计算业务(Windows、Bing、游戏、平板等)和智能云(云计算平台、服务器系统等)。其中,智能云是近些年微软投入最多、发展最快的业务部门。图1:微软三大业务布局,资料来源:微软,Wind,中信建投 2. 两大关键动作——启动微软帝国新引擎 前文提到微软错过了以智能手机为核心的移动互联网时代。微软是选择继续补救、跟随吗?并不是。微软的做法是不断刷新自己,启动新引擎。 2014年,微软第三任CEO纳德拉上任,很快便放出两个大招。 第一招,大力发展当时已经落后于竞争对手的云计算平台Azure,拥抱云计算时代。 在纳德拉的积极推动下,微软在云计算的市场份额从2016年的9%快速上升至2022年的22%。其中,在2020到2022的两年时间里,微软Azure云服务季度营收增速均保持在40%以上。 目前,微软是全球第二大的云计算提供商,正向行业大哥亚马逊的发起挑战。(亚马逊市占率33%) 随着云计算平台扛起大任,微软另一项业务云游戏迎来了新的发展契机。目前Xbox Cloud Gaming已拥有超2000万名用户,处于行业前列。去年1月份,微软提出将以近690亿美元现金收购暴雪,若成功收购,微软将跃居全球第三大游戏公司,仅次于腾讯和索尼。 可以说,纳德拉的第一招赋予公司新使命,让微软成功转型成为以云计算为主引擎的科技公司。图2:2018年起云业务是微软收入增长的主要驱动(亿美元),资料来源:微软,wind,中信建投图3:IaaS行业前四大厂商份额对比,资料来源:彭博,IDC,Gartner,复星恒利 纳德拉的另一大招是将Office从过去的传统买断式销售模式转型在线订阅制,并且向曾经的竞争对手Android和iOS开放。 在纳德拉上任后一周,微软就发布了iPad版本的Office,提供免费下载。这标志着微软正式放弃了Windows在公司的绝对核心地位,开始朝着开放合作的道路前进。 通过开方+订阅制的方式,Office得以打造更强大的网络效应。截止2022年6月,Microsoft365的订阅付费用户数达到3.2亿人。根据微软财报,2022财年Office产品及服务业务实现收入448.6亿美金,同比增长12.5%;2023财年第一季度该业务实现收入115.5亿美金,同比增长6.9%。图4:微软Office产品及服务营收情况和增速,资料来源:微软财报,兴业证券图5:微软Office的订阅付费模式,资料来源:微软官网 3. ChatGPT造就新里程碑 因为ChatGPT,全球的科技公司纷纷打起十二分精神重新看待这家PC时代的老牌王者。 距离微软在2月2日官宣旗下所有产品均将整合ChatGPT后仅过去一周, 2月8日,微软正式推出由ChatGPT支持的最新版本Bing(必应)搜索引擎和Edge浏览器,引发全球关注。用户在Bing上可以随时随地切换到人工智能聊天模式,直接和ChatGPT面对面交流。 到了3月16日,微软发布全面接入GPT-4的Microsoft 365,新产品的名字叫做Microsoft 365 Copilot,微软寄期开启AI+办公软件的革命。 具体来看,Microsoft 365 Copilot将GPT-4的生成式AI能力全面集成到Office办公套件中,不仅可以实现在每个办公软件中自动生成内容,同时还打通了Microsoft 365中不用应用的数据壁垒,极大地提高产品集成度,使办公软件产品的协作性大幅提升。 解放生产力,包括实时、自动总结会议要点,通过商务聊天从Microsoft365所有应用和数据中获取所需信息等; 释放创造力,包括根据简单的提示创建初稿(Word)、演示文稿(PowerPoint)、数据可视化(Excel)等; 提升办公技能,包括通过自然语言直接命令Microsoft 365 Copilot调用相应智能化功能,比如给PPT加入需要的动画效果等。 对于Microsoft 365 Copilot,已经有不少人将其比喻成最强大的生产力工具。无论是职场老人还是菜鸟,在ChatGPT的加持下均可以获得办公能力和工作效率的提升。图6:Microsoft365Copilot产品组合及实现功能,资料来源:微软Copilot发布会,兴业证券 “GPT+千行百业”的巨大蓝图已经露出了冰山一角,想象空间巨大。毫不夸张地说,任何行业都值得被GPT重塑一遍。摆在大家面前的微软“全家桶”已经这么做了。 当前微软Office在全球拥有超过10亿用户,叠加ChatGPT功能后,Microsoft 365对用户效率的边际改善大幅度提升,将增加C端与B端的付费意愿。并且,Microsoft365 Copilot带来的功能增加有望拉动微软办公产品线提价。浓缩成一个词就是量价齐升。 未来另一大看点是搜索引擎,这本身是微软的短板之一。根据Statcounter GlobalStats数据,2022年全球搜索引擎市场份额中,谷歌为92.4%,而必应仅占据3.5%。但整合了ChatGPT功能的Bing搜索引擎以及增加AI功能的Edge浏览器在用户交互、个性化回答方面具备显著优势。 自微软在2月8日推出最新Bing(必应)搜索引擎以来,产品上线48小时内,已有超过100万用户申请加入。简单线性外推,微软凭借最新Bing得以抢占更多市场份额,有望帮助重构搜索领域谷歌一家独大格局。 未来微软的所有软件应用,通通都会得到ChatGPT的加持。用纳德拉的话总结,“人工智能技术将彻底改变微软的所有产品。”换个角度想想,微软的硅含量正在不断提高。 03 依然年轻的公开秘诀:两个坚持 1. 跟风策略永远无法引领时代 ChatGPT自推出后便风靡全球,朋友圈里清一色的ChatGPT,其背后的母公司OpenAI一举成为科技节的新秀。 当然,OpenA最大的支持者非微软莫属。 早在2019年,微软宣布和OpenAI建立独家合作伙伴关系,双方携手合作替Azure云端平台服务开发人工智能技术,投资总额10亿美元。 2020年,OpenAI推出GPT-3语言模型后,微软买断了GPT-3基础技术的独家许可,并获得了技术集成的优先授权。这一年5月,微软花费数亿美元为OpenAI组装AI超级计算机,用掉上万颗英伟达A100芯片。 2022年11月30日,OpenAI正式推出ChatGPT,产品上线之后迅速引爆科技圈。 2023年1月,微软宣布将对OpenAI进行新一轮投资。同时,微软再次官宣将在Azure中整合ChatGPT。微软表示,用户将能够很快通过AzureOpenAI服务访问ChatGPT,它已经过训练并在AzureAI基础设施上运行推理。 讲完了微软投资OpenAI的历史,相信有人会问,微软这次突然就成为AI领域的引领者,不就是运气好,大笔烧钱投资了一家有价值的独角兽公司吗? 事实上,在OpenAI的发展过程中,微软云平台Azure作为OpenAI的独家云服务提供商,为后者提供了强大的算力支持。归根结底,微软其实是在能力圈内持续扩张。其实国内也有不少成功案例,比如宁德时代布局储能领域、三一重工布局换电重卡、美的布局工业机器人。 另一方面,微软并没有躺在Windows和Office的功劳簿上,而是逃离创新者困境,开始科技无人区的长期投资。 微软从2010年就开始布局云计算,到了纳德拉时代,更是全面拥抱云计算。前后跨度长达十多年。 在AI领域,微软也已经深耕多年,早在2016年,在对话语音识别中,微软已经实现了和人类同等的水平。次年,微软正式把人工智能加入公司的战略愿景。2018年,微软宣布未来四年内投入50亿美元于发展物联网、云计算和AI等领域。 最终,微软凭借ChatGPT打开AI 2.0时代的大门,引领了此轮创新浪潮,给大家上演了“王者归来”。图7:微软AI人工智能布局历史,资料来源:微软Copilot发布会,兴业证券 微软不仅将ChatGPT等人工智能工具整合到公司旗下所有产品中,并作为平台提供给其他企业使用。 在短短几个月中,ChatGPT已经于大量应用中全面开花,形成燎原之势。目前已有多个应用程序通过API的方式将ChatGPT融入到服务之中,比如社交软件SnapChat、购物软件Instacart、学习软件Quizlet和Speak等。 从某种程度讲,微软成为AI 2.0时代的核心推动力量。 三十年前,微软已经是一家强大的公司,但是随波逐流无法永远保持强大,正是他们不断注入新的能量和远大的愿景,敢于开拓无人区,才能不断刷新自己,保持年轻态。 反观国内不少科技公司,崇尚所谓战略投资,什么火就投资什么。比如前几年的P2P行业、千团大战、网约车价格战等。 在ChatGPT大火之后,国内的深感紧迫性的科技企业慌忙发布相关产品。字里行间透露着我也在做,只是比你稍微晚一点…… 当结果却不尽如人意,用网友的话讲,大家都在忙着内卷,哪来的技术沉淀? 科技行业比以往任何时候都更复杂,但本质是一样的。创新之父–克莱顿·克里斯坦森在《创新者的窘境》一书中提到要想出奇制胜,就不能采用延续性技术,而必须使用破坏性技术。 当然,微软也不是没有犯过错误。当年微软为了布局移动互联网领域,收购了诺基亚。但到了2017年,平庸的Windows Phone已基本上退出智能机舞台。图8:国内类似ChatGPT产品发布情况,资料来源:兴业证券 2. 接班人的使命传承 提到微软,大家的脑海里首先会想到比尔·盖茨,就像提到苹果就会想到乔布斯一样。盖茨从哈弗大学辍学到成为世界首富的传奇励志故事早已经刻在了大部分人的脑海里。关于比尔·盖茨的文章以及书籍更是浩如烟海。 实际上,微软其他接班人也十分优秀。现在看来,没有比尔·盖茨的微软,依然做到了一往无前。 成立于1975年的微软,在其四十多年的发展历程中,曾有三任CEO,他们统领的微软正好身处三个不同的时代。 微软在比尔·盖茨统治期间,借助Wintel联盟,可以说是无往不利。但是没有任何一个领导者能够陪伴企业走到永远。换言之,如何挑选合适的接班人至关重要。 2000年1月,比尔·盖茨卸任微软CEO,史蒂夫·鲍尔默成为第二任CEO。 在很多人看来,鲍尔默时期的微软错过了移动互联时代,也没有为微软成功开拓出第二曲线。在资本市场上,微软的股票价格一路震荡下行。最后,鲍尔默黯然离场。 但是,鲍尔默任期内营收、净利润等KPI完成得很漂亮,延续了盖茨时代的微软系统的优势,为后续的高额研发投入打下了基础。从这个角度讲,鲍尔默是成功的。 到了纳德拉任职期间,微软放弃Windows的核心地位,正式全面拥抱云计算时代。 作为一家企业的最高统帅,要平衡短期利益和企业的长期远景和使命追求。真正对企业有长期价值的战略在于如何取舍和选择。对于微软,毕竟Windows是成就微软所有这一切霸业的核心引擎,接班人如何取舍至关重要。在微软身上,我们看到公司管理者的延续性很强。很多时候,企业一旦做大做强就患上大企业病,无法朝着统一的目标前进。一旦创新被官僚主义所取代,团队协作被内部政治所取代。原地踏步甚至落后将是必然。最典型的就是国内很多企业一旦做出点成绩就开始搞所谓的多元化战略,最终是干啥啥不精。 值得强调的是,国内交棒的科技公司并不多,未来如何交接将是重要议题。然而,国内企业因为实控人之争的闹剧屡见不鲜。就拿最近发生的事来说,杉杉股份创始人去世后,400亿上市公司正在上演嫡庶恩怨。 微软依然年轻已经成为公开的秘密。不管是转型中的企业家、职业经理人,亦或是刚接班的创二代,微软显然给了中国企业提供了一个标准答案。谁能做到,让我们拭目以待。 --- 作者:知勇 来源公众号:锦缎(ID:jinduan006),为上市公司提供知识产权解决方案。 本文由人人都是产品经理合作媒体 @锦缎 授权发布,未经许可,禁止转载。 题图来自 Unsplash,基于 CC0 协议 该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
微软的反面:错过了AI时代最大机遇的亚马逊 在AI浪潮席卷全球之际,科技巨头们无不争先恐后,力图抢占先机。然而,就在微软借助ChatGPT一举成为AI领头羊时,手握Alexa的亚马逊却陷入错失良机的尴尬境地。据媒体周五报道,十几位前亚马逊Alexa团队员工透露,这家科技巨头正在AI竞赛中严重落后于对手谷歌、微软和Meta,并且在努力追赶的过程中举步维艰。 亚马逊在去年9月推出了由生成式AI驱动的全新Alexa语音助手,还在一场盛大发布会上展示了其自然对话和任务处理的能力。 当时,亚马逊方面表示,Alexa大模型将很快在美国市场的Alexa设备上免费提供预览。 马逊高级副总裁兼Alexa负责人Rohit Prasad表示,这一消息标志着“我们喜爱的助手发生了巨大变化”,并称新Alexa为“超级助理”。然而,在发布会结束后,一切都好像没发生过。 Alexa还是原来那个熟悉的Alexa,而且在接下来的几个月里,外界也几乎听不到任何关于这个新版Alexa的进一步进展。 新Alexa项目为何流产? 根据该媒体对于十几位曾在Alexa AI部门工作的员工采访,新版Alexa发货一再推迟,根源在于技术方面的挑战以及亚马逊内部组织的缺陷。 新版Alexa核心的大语言模型虽然对标GPT,但参数量级仅为1000亿,远逊于业界领先水平。而且由于缺乏足够的高质量数据和先进的芯片设备,Alexa团队难以在短时间内迎头赶上。"管理层给出的期限总是不切实际,他们可能根本不了解打造ChatGPT这样的产品需要投入什么。"一位前Alexa研究员表示。 组织架构臃肿和部门间矛盾冲突也拖累了Alexa的更新换代进程。 报道称,为了做到自然对话,Alexa原有的众多功能模块都需要重新打通,并与核心语言模型深度协作。然而领导层迟迟不愿维护新旧两套体系,宁愿“先烧掉旧版Alexa再说”。 种种领地争夺和短视行为,让很多员工产生了挫败感,纷纷选择离职。 更糟糕的是,亚马逊还多次降低了Alexa项目的优先级,并将其排在为AWS开发生成式AI技术之后。 即便是去年斥资40亿美元入股的AI创企Anthropic,后者的Claude大模型可与GPT相提并论,但也因为隐私顾虑和内部政治,未能有效赋能Alexa团队。 值得一提的是,Alexa事业部多年来一直处于亏损状态,主要被视为维系用户粘性和获取数据的手段。相比之下,AWS云计算业务才是该公司利润的中流砥柱。 “他们就是质疑(新Alexa)最后能不能成,”一位多次从Alexa团队招募人才的业内人士表示,很多前员工已经对这个项目失去信心。 尽管许多人认为亚马逊完全有能力将 Alexa带入生成式AI时代,但越来越多的证据表明,亚马逊可能还没准备好。 “Alexa AI充斥着技术和官僚问题,”Alexa AI前高级机器学习科学家Mihail Eric很早之前表示,这导致许多先进的技术无法面试。 该媒体在过去一个月采访的十几位前员工都与Eric的说法一致。 大模型吊打古早机器学习,亚马逊慌忙应对 实际上,早在ChatGPT震惊世界之前,亚马逊就推出了Alexa,2014年作为Echo 智能扬声器的数字助理一起推出。 Alexa推出之后便大火追捧,到2017年其设备已售出超过2000万台。 Alexa并没有使用类似ChatGPT的生成式大语言模型,而是采用了传统的自然语言处理技术路线,其核心是由许多小的机器学习模型和大量人工编写的规则拼凑而成。 这种架构虽然在智能音箱的早期阶段取得了成功,但在ChatGPT出现后,就暴露出了灵活性和可塑性的不足。 要跟上新一代AI助手的步伐,Alexa可能需要在算法、模型和数据等底层做一次彻底的重构。 正是因为这一核心技术的落后,ChatGPT一经推出,就打得亚马逊一个措手不及。 “内部领导显然有宏伟的计划,但他们并不真正知道自己在做什么,” 一位Alexa 团队前实习生表示。 随后的几个月里,亚马逊的Alexa团队一直忙乱不已,手忙脚乱得将Alexa从一个呆板的命令式机器人转变为一个真正具有对话能力、乐于助人的代理。 与此同时,一夜之间,亚马逊非生成式AI项目被全体降级,高管们敦促研发人员和产品经理想办法确保亚马逊能够为客户提供生成式AI产品。 一位前Alexa人工智能项目经理将公司的气氛描述为“有点恐慌”。
揭秘苹果最新大动作:与OpenAI合作,Siri将拥有人工智能对话功能 您的手机可以聊天吗?不,我不是在提一个哲学问题,也不是在说微信或短信。我是在说,您的手机可以像和真人聊天那样与您对话,理解您的意图,甚至撰写文章和摘要。在2024年的苹果全球开发者大会(WWDC)上,这个前沿技术不仅被提出,而且已经成为现实。在这次激动人心的盛会上,苹果宣布了它与OpenAI的合作,正式将ChatGPT功能嵌入到Siri中,从此Siri不再是简单的语音助手,而是会话式的人工智能伙伴。想象一下,从询问天气到组织文件,再到获取专业的写作建议,这些随时随地只通过一次“嘿Siri”即可实现。 进一步的,苹果的软件工程高级副总裁透露了苹果的更大雄心——与更多AI模型合作。这意味着,未来的苹果设备可能不仅仅只是具备ChatGPT的聪明才智,还可能拥有Google的Gemini等其他模型的智能,成为真正的全方位智能伙伴。考虑到网络限制,国内的苹果用户可能无法直接体验到ChatGPT等国外模型的魅力,但是不要失望,因为苹果正在考虑与中国的人工智能模型合作。这对于那些希望在不逾越法律边界的情况下享受先进智能服务的用户来说,无疑是一个巨大的利好消息。 在iOS 18的新天地里,Siri不仅能理解你的问题,还能提供由GPT-4o技术支持的详尽答案。而你不需要为这项服务付费,不需要创建账户,更不必担心个人请求信息的安全问题,因为这一切请求均不被记录。Siri的升级只是冰山一角。苹果还向外界展示了称为“苹果智能”的一系列新人工智能功能,从自动写作和摘要、图片内容理解到PDF文档处理和信息聚合整理,这些看似复杂的功能,实现起来却如此的顺畅自然。在技术日新月异的今天,苹果再次用创新证明了其不容置疑的行业领导地位。而您,只需一台更新到iOS 18的iPhone,就能体验科技带来的无限可能。不禁让人想问:随着人工智能技术的不断融合和发展,我们的生活将会变得有多么美好和智能?而苹果,又将带领我们向何方前进?让我们共同期待这个智能的未来。 --- 本文转自 一览AI原创
OpenAI 官宣新任首席财务官、首席产品官,并与苹果达成合作 OpenAI 官宣聘请了两名高管,并与苹果建立合作伙伴关系。 该公司在博客文章中宣布,Nextdoor 前首席执行官兼 Square 财务总监 Sarah Friar 将加入公司,担任首席财务官(CFO)。Friar 还是斯坦福大学数字经济实验室的联合主席。此外,Kevin Weil 加入 OpenAI 担任首席产品官(CPO)。他将领导一个产品团队,专注于将研究应用于消费者、开发者和企业的产品和服务。他曾经担任 Planet Labs 前总裁、Twitter 产品高级副总裁、Facebook 和 Instagram 产品副总裁。 OpenAI CEO 阿尔特曼表示:“Sarah 和 Kevin 带来了丰富的经验,将使 OpenAI 能够扩大运营规模,为下一阶段的增长制定战略,并确保我们的团队拥有继续发展所需的资源。” 与此同时,OpenAI 宣布与苹果达成合作伙伴关系,苹果正在将 ChatGPT 集成到 iOS、iPadOS 和 macOS 中的体验中,允许用户访问 ChatGPT 的功能(包括图像和文档理解),而无需在工具之间跳转。此外,苹果语音助手 Siri 还可以利用 ChatGPT 功能给出回答,OpenAI 宣称不会存储请求,并且用户的 IP 地址会被隐藏。 由 GPT-4o 提供支持的 ChatGPT 集成将于今年晚些时候登陆 iOS、iPadOS 和 macOS。用户无需创建账户即可免费访问,ChatGPT 订阅者可以连接他们的账户并直接从这些体验中访问付费功能。
更自然的人机交互GPT-4o GPT-4o(“o”意为“omni”)是朝着更自然的人机交互迈出的一步——它接受文本、音频、图像和视频的任何组合作为输入,并生成文本、音频和图像输出的任何组合。它可以在短短232毫秒内响应音频输入,平均320毫秒,这类似于对话中的人类响应时间(在新窗口中打开)。它与英语和代码文本的GPT-4 Turbo性能相匹配,对非英语语言的文本有显著改进,同时在API中更快,便宜50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤为更好。
马斯克发警告:苹果若联手OpenAI,我将全面封杀苹果设备 据彭博社等媒体消息,亿万富翁埃隆·马斯克公开表示,若苹果公司将其操作系统与OpenAI的人工智能软件进行深度整合,他将禁止苹果设备在其公司内部的使用。苹果公司在近期的一场演讲中宣布,用户将能通过Siri数字助理接入OpenAI知名的ChatGPT聊天机器人。同时,苹果还计划在未来推出更多融合了人工智能技术的新功能。 值得注意的是,马斯克本人是OpenAI的联合创始人之一,但据报道,他与这家总部位于旧金山的初创公司存在分歧。马斯克曾公开对快速发展的人工智能技术可能带来的安全隐患表示过忧虑,同时他也在积极推进自己的人工智能项目,开发ChatGPT的竞品。马斯克在自己的社交媒体上明确指出:“ 若苹果在操作系统中整合OpenAI,我的公司将禁止使用苹果设备。这被视为不可接受的安全违规行为。”他还要求员工和访客在进入公司前,必须将携带的苹果设备存放在法拉第笼中,这是一种能够屏蔽电磁场的设备,用以确保公司内部信息安全。 对于马斯克的表态,苹果公司尚未立即作出回应。在之前的演示中,苹果透露了将ChatGPT集成到iPhone、iPad和Mac操作系统中的计划,并强调在集成过程中将不会追踪用户数据,且会实施额外的预防措施保护用户隐私。 在宣布新功能的声明中,苹果公司强调:“当通过Siri访问ChatGPT时,已内置隐私保护功能。OpenAI将不会存储用户请求,并且用户的IP地址也将被隐藏。”
OpenAI 升级 ChatGPT 语音,使其能够以不同角色的声音说话 OpenAI正在更新 ChatGPT 的语音功能,允许用户使用各种 AI 生成的声音和声音风格与聊天机器人进行交互。 ChatGPT 目前有四种预设声音,从五种减少,因为在斯嘉丽约翰逊 (Scarlett Johansson) 提出法律投诉后,它不得不删除“Sky”。 新功能让 ChatGPT 用户可以指示 AI 聊天机器人使用任何语音实时做出响应。 为了一窥未来的发展,OpenAI 发布了一段演示,其中人类要求聊天机器人为故事中的角色配音。ChatGPT 通过生成独特的声音风格做出回应,例如为狮子配上轰隆隆、粗犷的声音,为老鼠配上尖锐、温和的吱吱声。 语音输出还可以实时优化,例如,要求某个特定的声音听起来更深沉或更高亢。输出是快速生成的,用户可以在机器人响应请求更改时中断机器人。 用户在退出应用程序时还可以继续他们的 ChatGPT 对话。OpenAI 表示,新的语音功能将在“未来几周内”推出,但没有提供更多细节。该公司在最近的春季更新活动上宣布,新的语音和视觉功能将提供给所有 ChatGPT 用户,高级订阅者可优先使用。 语音选项也扩展到了新的桌面版本,早期的演示展示了用户在使用电子表格应用程序时与机器人的交互。 OpenAI 的最新语音演示发布之际,这家由微软支持的公司正在寻求让其旗舰聊天机器人更具互动性和可访问性。其新的 GPT-4o 模型是新语音和视觉功能背后的驱动力,为移动应用程序和新桌面版本上的多模式功能提供支持。 该公司一直在研究语音功能。4月初,在 GPT-4o 发布之前,OpenAI 宣布构建了一个新的文本转音频 AI 模型 Voice Engine,但尚未公开。 --- 本文转自站长之家
WWDC 2024 蘋果開發者大會 7 大重點整理 WWDC 2024 苹果开发者大会 7 大重点整理:Apple Intelligence、iOS18、iPadOS 18、macOS 15 Sequoia 等全新系统登场!一年一度的苹果重头戏 Apple 2024 全球开发者大会(WWDC)稍早于美国加州库比提诺(Cupertino)苹果总部正式展开。今年苹果以「Action packed 猛料全加载」为主题,带来包含 visionOS2、iOS18、watchOS、iPadOS 18、macOS 15 Sequoia 以及 AI 人工智能功能「Apple Intelligence」等系统更新,以下我们也为大家整理出本次 2024 WWDC 的 7 大精彩重点回顾! 2024 苹果全球开发者大会 WWDC 重点整理 01:Apple Vision Pro & visionOS2 之前苹果推出头戴式装置 Apple Vision Pro 引起巨大回响,本次开发者大会上也公布全新操作系统 VisionOS 2。除了在视觉上做强化,通过机器学习把 2D 照片「空间化」(spatialize)呈现出 3D 景深;同时也推出旅行模式,并让 Vision Pro 可以跟 Mac 连线,将 Mac 的画面投影至 Vision Pro 中,有效提升工作效率。 另外苹果也宣布 Vision Pro 将会新增 8 个地区开卖,其中中国、日本和新加坡会在 6 月 28 日抢先上市、另外澳大利亚、加拿大、法国、德国、英国则是 7 月 12 日推出,台湾则尚未有进一步消息。2024 苹果全球开发者大会 WWDC 重点整理 02:iOS 18 为了强调灵活运用的特性,iOS18 不仅开放让用户可以自由编排自己的控制中心外,也可自由变色 App 图标、摆放位置。另外最让编辑感到惊艳的,莫过于可以锁定与隐藏 App,或是为手机某些功能上锁,如此一来即使手机借别人使用,也不避担心私密信息会被人看见。另外还能把你不想给人看见的 App 给隐藏起来,大幅提升个人隐私。其他还有像是 Mail App 的信件分类、便利的 Tap to Cash 付款功能与更精准的照片管理、或是回复消息时的点回功能 Tapbacks。2024 苹果全球开发者大会 WWDC 重点整理 03:Audio & Home 苹果在音讯以及家庭娱乐方面同样做了升级,包含 AirPods Pro 推出 Voice Isolation 功能,让你在通话时可以完全隔离背景杂音。同时也加入头部动作追踪来接听或是挂断,因此当你双手拿着东西、又在无法「喊出声音」的场合时,仅需要通过摇头或点头就能决定是否要接听电话。 Apple TV+ 也引入 InSight 功能,可以即时显示出演员、角色名称或是可以查询影片中的歌曲。另外也跟人气 IP 角色史努比 (Snoopy) 合作桌布,让你随时都能看见可爱的史努比保持好心情!2024 苹果全球开发者大会 WWDC 重点整理 04:watchOS 11 watchOS 11 将重点放于「个人健康」上,像是整合显示心跳、呼吸、水分摄入、体温、睡眠等数据,并以一周为单位显示这些数值变化,每周为你的健康做把关!此外也新增翻译、行事历等工具,仅需轻按一下表冠就能使用!2024 苹果全球开发者大会 WWDC 重点整理 05:iPadOS 18 作为苹果 2024 春季发表会的重点项目:iPad,本次在系统更新上同样带来让人印象深刻的功能。像是同样可以自订 App 颜色与控制中心外,顶部的 Tab bar 也同样可以将自己常用的 App 放上去方便使用。此外,让所有果粉们最感动的,应该莫过于 iPadOS 18 终于推出计算器 App 了 (喜极而泣),并且还带来 Math Note 与自动校正错字的 Smart Script 等新功能,搭配 Apple Pencil 一起使用,让效果更加倍!2024 苹果全球开发者大会 WWDC 重点整理 06:macOS 15 Sequoia 苹果将全新 macOS 15 命名为「Sequoia」,并且新增「iPhone mirroring 功能」,可以直接把你的 iPhone 画面投影至 mac 上,并在 mac 操作手机,包含使用 App、回复消息等等,即使手机不在身边或是保持锁定画面都能使用。此外在视讯时也提供更强大的去背功能、以及 Keychain 钥匙圈也新增能够统一管理所有装置密码的 Password 服务,轻松解决总是忘记密码的困扰。2024 苹果全球开发者大会 WWDC 重点整理 07:Apple Intelligence 今年苹果全球开发者大会的重头戏绝对非人工智能「Apple Intelligence」莫属,几乎花了近一个小时的时间来着墨介绍。 首先苹果不断强调「Apple Intelligence」的所有操作只会在你的设备上进行,绝对不会放到云端处理,因此就算连苹果本身也都无法取得你的个人隐私资料。另外一大重点就是 Siri 图标的「改头换面」,同时可以通过 AI 辅佐去控制更多 App 功能,比方说可以请 Siri 直接帮你在 mail、社群资料中去调出资料,并帮你整理出接下来的行程规划或是各种你需要的信息。同时「Apple Intelligence」还能帮用户校正、翻译 mail,甚至如果你收到一封落落长的信件内容,苹果 AI 也能自动生成简介,并自动判断信件的重要性与优先程度给你做出提鏿。另外有趣的是,Apple Intelligence 也能以文产图、或是删去照片中指定的人事物和生成 Genmoji 图案。最后,苹果也惊喜宣布 Siri 正式与 OpenAI 的 ChatGPT 合作,透过 ChatGPT-4o 大模型来回答你所提出的问题,或是你只需要透过手机拍摄,也能透过 Chat GPT 找出你所拍摄的内容为何?Apple Intelligence 将会跟着 iOS 18、iPadOS 18、macOS 15 Sequoia 开放 beta 测试,并在今年夏天优先提供英语版试用。--- 本帖转自GQ Taiwan,版权归作者所有,如有侵权,将在第一时间删除。 作者:One Wan 文章标题:WWDC 2024 苹果开发者大会 7 大重点整理:Apple Intelligence、iOS18、iPadOS 18、macOS 15 Sequoia 等全新系统登场!
OpenAI 宣布新领导层以推动增长 内容概要: ⭐️ OpenAI 任命 Sarah Friar 为首席财务官,Kevin Weil 为首席产品官 ⭐️ Friar 曾担任 Nextdoor 的 CEO 和 Square 的 CFO,Weil 曾在 Planet Labs 担任产品和业务总裁 ⭐️ 新领导将助力 OpenAI 扩展运营,实现研究与市场需求的平衡 人工智能公司 OpenAI 近日宣布任命 Sarah Friar 为首席财务官,Kevin Weil 为首席产品官,这一举措旨在加速公司的增长和发展。Friar 之前曾担任 Nextdoor 的首席执行官和 Square 的首席财务官,在 Walmart 和 Consensys 的董事会任职。而 Weil 最近在 Planet Labs 担任产品和业务总裁,之前曾在 Facebook 共同创立 Libra 加密货币,并担任 Instagram 和 Twitter 的产品副总裁。这两位新任领导将在 OpenAI 中发挥关键作用,帮助公司在保持研究水平的同时满足不断增长的客户需求。 在新的职责中,Friar 将协助 OpenAI 在保持研究领先地位的同时满足不断增长的客户群体的需求。而 Weil 将领导一个产品团队,专注于将研究成果转化为能够帮助消费者、开发人员和企业的产品和服务。 CEO Sam Altman 表示,这两位新任领导将帮助 OpenAI 扩大运营规模,实现更大的发展。这一步将有助于 OpenAI 更好地将研究成果转化为实际产品,以满足不断增长的市场需求,进一步巩固其在人工智能领域的领先地位。
AI技术如何彻底颠覆垃圾分类 人工智能(AI)正成为一种强大的工具,有助于分类垃圾并将可回收材料从垃圾填埋场转移出去。本文将带大家一同了解创新解决方案,看看它们如何改善回收利用效率、延长现有垃圾填埋场的寿命,并帮助我们实现可持续发展目标。 垃圾危机正在摧毁我们的星球。我们日常生活中丢弃的很多东西,都被倾倒在垃圾填埋场里。这些巨大的垃圾处理场在建设时又大多占用了原本的森林或者可居住土地。例如,美国用于垃圾填埋的土地已经接近整个马里兰州的面积。 更加遗憾的是,大量本可回收或作为肥料的垃圾也不断被粗暴填埋。预计到2050年,全球垃圾产出量将增加73%,届时情况很可能变得更糟。我们必须找到更高效、更具创新性的解决方案实现垃圾管理。 人工智能(AI)正成为一种强大的工具,有助于分类垃圾并将可回收材料从垃圾填埋场转移出去。本文将带大家一同了解创新解决方案,看看它们如何改善回收利用效率、延长现有垃圾填埋场的寿命,并帮助我们实现可持续发展目标。 日益严重的垃圾问题 美国的人均垃圾产生量居世界首位,每位公民每年平均产生1800磅垃圾。尽管一直在努力管理这些垃圾,但目前能够回收的部分也只有24%。这与韩国和德国的成绩形成了鲜明对比,两个国家的垃圾回收率分别接近60%和50%。低下的回收效率不仅令垃圾填埋场容量紧张,同时也加剧了由此引发的环境和健康问题。 垃圾填埋场破坏了自然栖息地,有超过180万英亩的土地被用作垃圾填埋区域,此外还有600万英亩土地作为已关闭垃圾填埋场而白白流失。填埋场的排放物对周边社区构成了重大健康风险,导致儿童先天畸形的几率增长了12%,更拉低了区域内的房产价值。 为了解决这些问题,已经有多个州采取重大措施,希望解决废物管理危机。佛蒙特州决定禁止任何可回收物品进入垃圾填埋场。与此同时,缅因州则出台了严格的生产者责任法,要求企业在消费者使用产品及包装后的很长一段时间内继续负起管理责任。 分类——提高垃圾管理效率的关键AI驱动分类有望应对垃圾危机。 从城市收集到的垃圾被运往材料回收设施(MRF),通常也是在那里完成分类。但这种分类过程效率不高,因为错误分类的材料会污染可回收物。此外,目前的垃圾分类仍主要为劳动密集型手工操作,由人类雇员在快速移动的传送带上争分夺秒地检视并分类可回收物。 技术创新为应对这些挑战带来了新的希望。Informa Markets旗下基础设施与建筑部门WasteExpo市场负责人兼副总裁Marc Acampora表示,“AI技术正通过自动分类系统颠覆废物管理,该系统利用机器人加机器学习以准确分类垃圾并提高效率。” WasteExpo是该公司组织的北美最大固体废物、回收、有机物、食品废物回收及可持续贸易展会,主要面向私营及公共部门。在最近于拉斯维加斯举办的活动中,各主要行业参与者纷纷展示了在固体废物分类方面的创新成果。 通过计算机视觉增强材料识别能力 面对从家庭和企业处收集到的大量固体垃圾废料,AI算法需要经过大量训练才能识别出我们抛弃的不同类型垃圾。EverestLabs是一家拥有独立工业3D视觉系统的公司,他们建立起一套包含超50亿个可回收物体的专有数据集,用以训练其识别算法。 他们的数据与机器人平台RecycleOS能够以超过95%的准确率对物体进行分类。EverestLabs创始人兼CEO JD Ambati在采访中指出,“我们的AI能够为流经工厂的每种可回收物品的形状、尺寸、重量、材料、包装类型、商品价值甚至品牌信息提供精确数据。” 这些系统还会随着时间推移而改进,并适应更多新型废物,确保在垃圾成分发生变化后分类过程仍可适应。例如,阿拉米达县工业公司(ACI)就借助EverestLabs的机器人,在三年之内将其劳动力成本降低了59%。截至目前,这些机器人已经分捡了大约3000万件物品。 使用高精度算法防止污染 AI解决方案采用先进算法来区分多种外观相似的材料和物体。Glacier公司创始人兼CEO Rebecca Hu解释称,“Glacier的AI模型能够检测30多种物品,从饮料瓶到牙膏管等等。” 对纤维、PET、HDPE及黑色塑料等可回收材料的准确识别,有助于降低污染率并提高可回收物的纯度。例如,Glacier的机器人能够在训练之后发现并捡出意外混入纸材的塑料袋。这样就使得最终纸材质量更高,价值也随之提升。 谈到机器人的影响,Rebecca Hu分享称,他们帮助一家回收客户确定了一处站点错误送往垃圾填埋场的可回收物品的价值,借此发现了一笔每年90万美元的计划外收益。 使用机器人进行高效实时分类机器人分类有望减少污染并释放价值。 当垃圾在传送带上移动时,普通人每分钟可以根据材料捡选出20到40件物品。相比之下,AI驱动的机械臂则能以更加惊人的速度对材料进行分类。 AMP是AI驱动分类领域最早的创新者之一,并推出了高功率喷射系统。AMP现场可靠性工程经理Chase Brumfield表示,“这套系统能够在以每分钟600英尺速度移动的传送带上,每分钟进行数千次检选。”除了大大降低人工工作量之外,这些系统的停机时间也极短,最终显著提高了垃圾处理设施的吞吐量。 此外,智能分类系统还可以释放新的价值创造机会。例如,假设买家希望收集特定类型的可再生塑料材料,比如白色的聚丙烯制品,AI驱动的分类系统也可以实时观察、记住并照此执行,快速挑选出所需的对应废物。 AI技术如何协助构建可持续未来 实现可持续发展目标,离不开良好的基线性能与持续跟踪能力。Rebecca Hu指出,“如果不能对国内当前回收基线加以量化,后续的进展也就无从谈起。” 而AI技术的迅猛发展,有望以前所未有的精细程度跟踪并收集可回收物。这种能力将重塑回收商、品牌、政策制定者以及可持续经济中其他参与者的基本思路,共同实现可持续发展目标。AI驱动分类系统的这种卓越能力,有望在2030年为美国实现50%的国内回收率目标。 另外需要注意的 ,解决垃圾管理危机需要的不仅仅是技术。每个人都需要在其中发挥自己的作用,以负责任方式处理废物,并遵循少浪费、再利用和多回收的原则。我们每个人的简单行动,例如将可回收物与一般废物分开、划分可堆肥有机材料和减少一次性塑料制品使用,都将对整个世界产生重大影响。 通过将AI驱动的解决方案与负责任人类行为相结合,我们终将显著减少进入垃圾填埋场的废物量,朝着更加可持续的未来迈进。
AI模型竟然也有偏好的数字 GPT-3.5Turbo非常喜欢47 最近,人们发现了一个有趣的现象,即AI模型在选择数字时表现出类似人类的购买和避好行为,这证明了模型在回答问题时重复训练数据中的常见内容。这种行为具有确定“人性化”的特点,虽然模型本身并不具备人类的认知能力。 在实验中,一些工程师要求几个主要的LLM聊天机器人随机选取0到100之间的数字。结果显示,所有模型都有一个“最喜欢的”数字,表明它们在选择数字时表现出了偏好。即使在“Temperature”参数下,这三个模型在选择的其他数字时也表现出类似人类的偏见。这种现象揭示了人工智能模型表现出的“人性化”特征,解答人们与这些系统时需要记住其模仿人类行为的本质提供了启示。Gramener 的一些工程师进行了一项非正式但仍然引人入胜的实验,他们简单地要求几个主要的 LLM 聊天机器人在0到100之间选择一个随机数字,结果并不随机。 三个经过测试的模型都有一个 “喜欢” 的数字,在最确定性的模式下,这个数字总是它们的答案,但即使在更高的 “温度” 下,这个数字也经常出现,而 “温度” 是模型通常具有的一种设置,可以增加其结果的变化性。 OpenAI 的 GPT-3.5Turbo 非常喜欢47。此前,它喜欢42—— 这个数字当然因道格拉斯・亚当斯在《银河系漫游指南》中将其定义为生命、宇宙和一切的答案而闻名。Anthropic 的 Claude3 Haiku 选择了42,Gemini 喜欢72。更有趣的是,所有三个模型在选择其他数字时都展现出类似人类的偏见。 所有模型都倾向避免选择低位和高位数字,Claude 从不选择超过87或低于27的数字,即使有这样的数字,也是异常值。两位重复的数也被严格避免:没有33、55或66,但77出现了(以7结尾)。几乎没有以0结尾的数字 —— 尽管 Gemini 有时会选择0。 为什么会这样呢?AI 不是人类!它们为什么在意 “似乎” 随机?它们最终已经获得了意识,这是它们展示的方式吗? 不。就像通常的情况一样,我们过度赋予了拟人化。这些模型并不关心什么是随机的。它们不知道 “随机性” 是什么!它们回答这个问题的方式与回答其他问题的方式相同:查看它们的训练数据,重复在看起来像 “选择一个随机数字” 的问题之后最常出现的内容。它出现的次数越多,模型就重复它的次数越多。 尽管人工智能模型的这种行为被认为是“人性化”的特点,但我们需要意识到这并不代表模型具有真正的认知能力。模型选择的数字行为实际上只是模型重复训练数据中的常见内容,因为模型本身并不理解随机性,无法进行有效进行。因此,在这些系统的互动中,人们需要牢记它们只是模仿的人类行为,而并非真正思考或理解。
Mobile-Agent-v2:让AI学会自动刷手机 Mobile-Agent-v2是一个先进的AI系统,目的是通过自动化操作和视觉感知技术,实现对移动设备的全面控制。这一系统能够模拟真人的各种交互行为,如点击、滑动和输入等,从而自动化地完成一系列复杂的任务。以下是Mobile-Agent-v2能够实现的一些关键功能示例: 搜索和购买商品:AI可以在购物应用中自动搜索特定商品,将其添加到购物车,并执行购买操作。 邮件发送:在Gmail等邮件应用中,AI能够自动填写邮件内容并发送。 导航:AI可以在Google Maps等导航应用中自动进行路线规划和导航设置。 视频观看:在YouTube等视频平台上,AI能够自动搜索视频并执行评论等互动操作。 与之前的Mobile-Agent相比,Mobile-Agent-v2引入了创新的多代理协作架构。这种架构允许多个AI代理协同工作,以实现更加高效的任务规划和执行。这种协作机制不仅提升了任务处理的灵活性,还显著提高了任务完成的效率。 实验结果显示,Mobile-Agent-v2在任务完成率方面相较于单代理架构的Mobile-Agent有了显著提升,提高了30%以上。这一进步表明,多代理协作的方法在自动化任务执行方面具有明显优势,能够为用户带来更多便利,同时也为AI在移动设备自动化领域的应用开辟了新的可能性。 论文地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Farxiv.org%2Fpdf%2F2406.01014&urlrefer=75f324cfb5ee4a554b0840c6f5f9d5e3
IBM Think 2024大会:让AI真正为企业所用 如果说去年的关键词是建设与扩建,那么今年,企业已经开始从自己的AI投资当中获益。在短时间内,AI(特别是生成式AI)已经从大多数企业眼中的新兴研究领域,转变为一整套对企业生产力及个人日常生活具有积极影响的现实技术。 最近正是科技企业们的会议季。上个月底,我乘夜间航班前往波士顿参加了IBM的年度盛会Think 2024,这场如风般的旅程也令我获益颇多。 Think大会总能带来丰富的消息,而今年我发现其内容与企业客户的关注重点契合得更为紧密,这进一步证实了我们已经到达AI技术的发展拐点。如果说去年的关键词是建设与扩建,那么今年,企业已经开始从自己的AI投资当中获益。在短时间内,AI(特别是生成式AI)已经从大多数企业眼中的新兴研究领域,转变为一整套对企业生产力及个人日常生活具有积极影响的现实技术。 Krishna对多项技术做出战略展望在开幕主题演讲中,IBM公司CEO Arvind Krishna重点介绍了他们去年发布的Technology Atlas概念。这项概念通过六大技术路线图审视了混合云、AI、量子计算、自动化、数据及安全多年以来的融合趋势。这些技术正趋近临界点,有望通过自动化、创新及规模化应用提高生产力,进而对业务产生影响。而这样的方式不要说在几十年前,甚至在短短几年前都还无法想象。 Krishna emphasized the intersection of hybrid cloud and AI as an underlying macro trend that creates an inflection point and opportunity for business improvement. Technology has always been used for productivity via automation, helping enterprises become lean. But today there is a shift from being lean to gaining revenue, scale and even more market share. That is a big, albeit subtle, shift. Krishna强调称,混合云与AI的交汇已经成为潜在的宏观趋势,并为业务改进创造了新的转折点与机会空间。技术一直在以自动化的形式提高生产力,帮助企业拥抱精益。但现如今,精益正进一步向着增加收入、扩大规模和占据市场份额转变。这是一场既宏大,又相当微妙的转变。这里我要赞扬Krishna对于混合云和AI的关注。四年之前当他初掌IBM之时,混合云还是各方争论的焦点,甚至我本人也参与到了其中。而当时的AI则先后通过机器学习、神经网络和高级分析在市场上站稳了脚跟。Krishna准确预判了趋势,并在约一年之前凭借IBM watsonx平台率先行动。 AI——人人关注的核心议题 主题演讲很快聚焦于AI,这也是IBM本届大会上的重点。Krishna斩钉截铁地将AI与其他历史上推动世界进步并拉动GDP的基础技术进行了比较,例如蒸汽机、电力和互联网。Krishna提到,到2030年,AI每年将为美国的GDP贡献约4万亿美元增长额,这一惊人数字反映的是全体AI技术用户有望实现的潜在价值。但他同时援引历史经验,表示要想实现这样的目标,除实验之外还需要做更多探索。我们需要的是部署方向的重大转变,而这也正是IBM下阶段战略的核心。 要想让部署真正起效,首先需要提升业务规模——以系统形式从小型项目逐步扩展至企业规模。例如,真正释放企业内部生产力,就必须打通从供应链到前端、再到全渠道营销及分销的整个体系。与此同时,部署在整个企业的AI则将以助手的形式增强人类技能与洞见,进而全面拉高生产力水平。 以这些宏大主题为背景,Krishna为IBM公司的新一波公告做好了暖场。 扩大IBM的自动化产品组合 随着技术资产在多种公有云、SaaS及内部应用中逐步普及,是时候将AI引入IT运营以更好地管理这种趋势了。配合正确的数据,AI几乎可以帮助监控一切运营方面的状态,并在发生问题时加以诊断。 新的IBM Concert是一套由AI驱动的生成工具集,用以识别、预测并解决问题,从而显著降低风险并简化合规流程。为了将此工具融入上下文,Concert被设计为一套可观察性平台。在watsonx.ai的支持下,IBM Concert能够与现有系统相集成,并与云端数据、源代码repo、CI/CD管线乃至其他可观察性解决方案对接,最终构成接入应用程序的360度全景视图。Concert消除了大量非必要任务,帮助IT团队得以更快、更敏锐地了解情况,甚至在某些情况下能够在问题实际发生前就出手解决。 加速AI解决方案部署 作为对watsonx.ai用户们反馈的响应,即“我们需要一体化的智能助手”,IBM推出了新的AI Assistants套件,旨在加快学习并增强生产力。其中包括面向企业级Java应用程序的watsonx Code Assistant for Enterprise Java Applications(计划于10月发布);面向Z大型机的watsonx Assistant for Z,可帮助不具备Z技能的雇员快速学习并提高平台上的生产力;面向编码开发的watsonx Assistant for Code,能够与COBOL及Ansible相兼容。除了这些技术层面的产品,还有其他面向业务功能的watsonx Assistants,包括客户服务、人力资源与营销等等。 除了这些特定领域的产品之外,IBM本周还发布了Asistant Builder,允许企业客户构建自己的定制化助手,在IBM官方助手之外实现更加灵活的业务功能。 推动大语言模型相关开源创新 如今,人们高度关注对AI模型的评估,特别是希望能在正确的用例当中使用正确的模型。从数据的角度看,大量公共数据已经进入这些大模型,但却几乎没有企业数据能够顺利流入模型。因为直到最近,客户还找不到将企业数据安全纳入大模型的方法。 但凭借其Granite AI模型,IBM为企业提供了数据开放性与透明度保障,甚至附有赔偿条款。本周,IBM宣布将开源Granite模型,其规模完美契合企业定制化应用场景,参数范围在30亿到340亿之间。这些开源模型的性能优于HumanEvalPack中的其他开源模型,因此对开发人员来说意义重大。另外值得补充的是,IBM最值得称赏的不只是对模型开源,还包括其率先为客户提供赔偿条款——这一举措已经被其他厂商纷纷效法。 简化AI模型训练是企业客户面临的另一个紧迫问题,因为这项工作既困难重重又成本高昂。IBM正与旗下红帽部门共同打造InstructLab,允许开发人员使用内部数据针对特定业务领域或行业快速构建起专用模型。这些开源贡献将与watsonx.ai及新的Red Hat Enterprise Linux AI解决方案相集成。RHEL AI将提供面向企业的InstructLab版本以及开源Granite模型。我们目前正在研究InstructLab,乍看之下这似乎属于从零开始自建模型与无休止做模型调优之间的一种折衷方案。 扩大面向Watsonx的生态系统访问 IBM在合作伙伴关系与集成方面也投入了大量资金,希望帮助客户轻松灵活地将第三方模型引入watsonx,同时允许软件厂商能够在自家产品中嵌入watsonx功能。从中我们也能窥见IBM的思路:在生成式AI领域,市场需要的绝不仅能是单一供应商的方案。换言之,必须要为企业客户提供丰富的选择范围,帮助他们推动创新、根据特定业务需求定制模型、优化成本并降低模型风险。IBM在这方面的合作伙伴包括亚马逊云科技、Adobe、Meta、微软、Mistral AI、Oalo Alto Networks、SAP、Salesforce以及SDAIA。请注意,与自有模型一样,如果客户在其平台上使用第三方模型,则IBM也将为其提供赔付保障。 随着AI技术的发展,在治理当中保障政策与标准的践行落地已经成为一大优先事项。也正因为如此,IBM才与亚马逊云科技合作开发出集成化AI治理服务watsonx.governance。这项服务目前已经被纳入Amazon SageMaker服务,后者用于构建、训练和部署机器学习模型。二者的结合,为AI/机器学习模型提供了风险管理与法条合规方面的有力保障。 IBM与Adobe之间的长期合作,则是IBM在伙伴关系及技术集成方面精心经营的又一典型案例。目前双方合作的最新成果是Adobe Experience Platform与IBM watsonx的联动。前者允许企业客户以标准化方式集中来自不同来源的客户数据,而如今在IBM watsonx AI功能的增强之下,其能够提供更准确、更具可操作性的洞察结论。 IBM的战略是通过轻松嵌入生成式AI,让watsonx在大大小小的合作伙伴当中遍地开花。IBM通过向ISV和MSP伙伴提供watsonx的三大组件来实现这一目标,分别为watsonx.ai(基础模型工具)、watsonx.data(生成式AI的开放数据存储方案)以及watsonx.governance(以负责任方式保障合规)。 让企业轻松实现AI落地 如果用一句话来总结本届Think 2024大会,我会说IBM正致力于让AI真正为企业所用。在Krishna的领导下,IBM率先将企业级AI推向市场,并不断完善其功能组合。 从企业角度来看,IBM可以为AI的严肃实践提供一个更具吸引力的起点,这与微软、谷歌等超大规模基础设施运营商立足云端提供训练和推理服务的主流方法有所区别。在IBM的帮助下,企业客户能够以红帽、Granite和InstructLab开始,立足本地开展自己的AI探索。考虑到75%的企业数据仍存储在本地或边缘位置,让模型靠近数据、而非让数据靠近模型确实是个极具现实意义的决定。这一切从使用公共数据训练的开源模型(如Granite)开始,之后再结合内部企业数据进行微调。 IBM的方法与微软和谷歌等超大规模基础设施运营商采取的“超级大模型”思路存在本质区别。封闭式大语言模型对企业客户而言存在着根本缺陷,因为其训练数据和开发过程均不公开。这就导致模型得出输出结果的过程难以解释,大大增加了发现并解决错误或潜在偏差/偏见的难度。 相比之下,IBM提倡以开源方式开发大语言模型,其中用于训练模型的底层代码和数据都是公开的。这样做的目的在于促进协作并提高透明度,从而更广泛地应用并改进大模型及其支持技术。 InstructLab可以说在当今企业面对的两种极端选项之间,提供了良好的中间地带。其中一端是具有检索增强生成(RAG)的超级大模型,能够帮助企业完成90%的工作;而另一端则是专有小模型,成本高昂且复杂。使用InstructLab,大家可以创建自己的定制专有模型并同时执行RAG,实际效果绝对令人印象深刻。 此外,IBM以开发者为中心的行动还有望掀起新一轮创新浪潮。通过将开源模型嵌入RHEL AI当中,InstructLab能够满足全球数百万Linux用户的需求。而这只是IBM截至目前,为开发人员提供的海量潜在工具包与功能的阶段性产物。至于未来还将激发怎样的创造力和突破性思维,我们只能说一切皆有可能。 我之前提到,Krishna反复强调混合云与AI的融合代表一股潜在的宏观趋势。AI正在加速混合云的落地,而采用混合云的客户则发现,只有依托于强大的架构才能完成从试点到生产、再到后续扩展的整个应用流程。IBM对待AI开源的态度,就如同其对待Linux和OpenShift的态度一样,主张以技术普及的方式摊薄其实现成本。 时至今日,世界各地的组织和技术社区都对拥抱AI、参与AI充满了热情。IBM的这份最新公告明显把握住了这股热情,希望为开发者社区(乃至最终的商业用户)提供一种为AI做出独特贡献、并提供持续创新驱力的有效工具。
生成式AI的两面性带来企业安全思考 根据Gartner的最新预测,2024年全球终端用户在公有云服务上的支出预计将达到6754亿美元,较2023年的5610亿美元增长20.4%。推动这一增长的两大因素是生成式人工智能(GenAI)和应用现代化改造。 其中,生成式AI正在成为任何人都无法忽视的生产力变量。在它的面前,以往的知识与技能壁垒开始松动甚至坍塌,并为各领域机构的创新带来新的无穷可能性。 由此而来的是,企业利用生成式AI进行业务创新的同时也不免面临新的隐忧。例如,企业或机构向生成式AI模型提供数据——很可能是涉及核心业务及客户信息等关键数据——是否能被妥善地保管、使用,及进行必要的隔离;还有生成式AI的一些“固有问题”,如怎样实现负责任的AI,过滤有害内容,确保内容符合当地及企业政策等问题…… 生成式AI带来全新安全挑战 生成式AI时代,数据安全不仅是技术挑战,更是企业能否合规、信任、竞争力、创新与生存基石。 通常情况下,规模化生成式AI应用都发生在云端,更多企业机构也将依赖于云开展生成式AI的业务创新。因此,我们可以将生成式AI的安全话题,看作是对云计算安全提出的新挑战。 对此,亚马逊首席安全官Steve Schmidt在接受《华尔街日报》采访时表示,企业为了安全地使用生成式AI,首先应考虑三个问题: 第一个是考虑数据在哪里?企业需要知道用数据训练模型的整个工作流程中,这些数据来自哪,以及是如何被处理和保护的。 第二个是考虑如何处理模型推理时的输入和输出数据?训练数据并不是企业需要关注的唯一敏感数据集,企业查询本身也应该成为数据保护计划的一部分。 第三个是考虑生成式AI模型的输出是否准确?不同的生成式AI的使用场景对准确度和风险的要求不同。如果企业正在使用大型语言模型来生成代码,那么企业就必须要确认这个代码是否写得足够好,是否遵循了企业的最佳实践等等。 Steve Schmidt认为,在最开始阶段编写更加安全的代码是生成式AI带来的重大影响,对任何企业包括亚马逊都是如此。从安全和成本的角度来看,一开始就编写安全的代码,比在编写完成后、已经进行了集成测试,甚至交付给客户后再去修改要好得多。可以说,代码的编写方式是信息安全中最大的杠杆因素之一,开始阶段的小问题可能导致严重的安全后果,而生成式AI在这方面确实非常有帮助。Amazon Q Developer不仅能极大提升开发者的编码效率,而且还能让代码更加安全。它内置了安全扫描功能,能够扫描代码以检测难以发现的漏洞,并根据客户的代码,提供专属修复建议,帮助开发者及时快速修复该漏洞。 而目前,亚马逊云科技对客户生成式AI的保护始于其基础设施。亚马逊云科技独有的云服务器虚拟化引擎Amazon Nitro将主机CPU/GPU的I/O功能卸载至专门的硬件上,不但提供了更加一致的性能,其增强的安全性可以在客户端和云端全程保护客户的代码和数据在处理过程中的安全。 Steve Schmidt说,“我认为利用生成式AI提升安全代码的编写工作能够有效地推动整个行业进入更高级别的安全领域。” 生成式AI的两面性:带来风险的同时也能防范风险 事实上,对于云计算用户来说,数据与隐私安全并非生成式AI带来的“新话题”。但生成式AI也确实带来了像“负责任的AI(Responsible AI)”这种AI时代独有的安全考验。当企业在使用Amazon Bedrock这类生成式AI服务时,不得不考虑过滤有害内容,确保内容符合当地及企业政策等问题。为此,从云服务的角度来看,亚马逊云科技Amazon Bedrock配备了帮助客户实施负责任AI的防护机制(Guardrails for Amazon Bedrock)。相比于一些AI大模型仅通过内部控制模块来过滤内容,Amazon Bedrock的防护机制能让客户进一步定制AI应用程序,以便符合不同标准的内容政策。 值得关注的是,在云环境中,生成式AI并不仅仅是“被保护者”,它本身也能成为提升安全的强大工具,从业务初期就能揭示那些潜伏的、未被意识到的风险。 Steve Schmidt举例称,代码编写方式是信息安全中最大的变量之一,一些小问题就可能导致严重的安全后果。包括生成式AI模型本质上也是代码,也可能因为代码编写的漏洞而存在安全隐患。从安全角度来看,从一开始就编写出安全的代码,无疑比在编写完成后,已经进行了测试,甚至已经交付后再去修改要好得多。 为了帮助云计算客户达成符合安全需求的代码编写,亚马逊云科技将AI能力运用到代码生成器上,以服务或功能的方式提供给客户。一些原有的安全服务也正在逐渐通过生成式AI获得新的功能。例如漏洞管理服务Amazon Inspector,它的Amazon Lambda函数代码扫描功能从去年开始使用生成式AI和自动推理的辅助代码修复,以简化更新易受攻击代码的过程。Amazon Detective也在去年增加了使用生成式AI来构建安全事件描述的能力。生成式AI可以自动分析调查发现组并以自然语言提供洞察,帮助安全工程师加快安全调查。 Gartner预测,到2025年,生成式AI的采用将导致企业机构所需的网络安全资源激增,使应用和数据安全支出增加15%以上。而这些基于生成式AI的创新服务和新的升级,为安全工作创造了更便捷、更高效的新可能。
Nvidia正在成为事实上的AI大型机? 忘记Nvidia用了30年才一夜成名的事实吧,它最近令人难以置信的崛起似乎有点泡沫的潜质。大约15年前,Nvidia进行了一场豪赌,从游戏转向高性能计算和人工智能,而且各项数据变得越来越疯狂。过去三个季度,Nvidia的收入同比增长一倍多。在将长期领导者英特尔公司推回后视镜之后,Nvidia最近又宣布进行10比1的股票拆分,以保持股价实惠。 但让我们问一个更为微妙的问题吧。当然,最终在某个时候万有引力定律会打击Nvidia,但更可行的一个问题是,长期来看Nvidia的地位会有多稳固。答案可能不仅取决于Nvidia如何有效地保持技术优势,还取决于平台的粘度。对于AI开发者来说,加入或退出Nvidia有多容易?壁垒是否足够高,以至于我们正在见证事实上的AI主机的诞生?正如我们今年早些时候指出的,Nvidia主导着先进AI处理器的供应链。AWS和Google Cloud都推出了自己的专用芯片,而AMD和英特尔还在焦急地准备着。如果这只是通用芯片,那么确实需要一定的时间来提高制造能力,但最终,供需规律应该会创造公平的竞争环境,就像英特尔和AMD芯片不仅可以在“Wintel”电脑上互换,还可以在Mac上互换是一样的。 但这里有个剧透。我们谈论的不仅仅是芯片和晶圆厂。在过去15多年里,Nvidia一直忙于构建一个自上而下的技术堆栈,这为典型的“锁定”提供了机会。在Nvidia处理器产品组合之上,是不断扩展的软件堆栈,正在把Nvidia转变为端到端的软件和硬件计算平台。从芯片到超级计算机,再到库、工具和微服务,Nvidia AI Enterprise采用了统一的、通用的架构构建方法,与大型机有着惊人的相似之处。 虽然Nvidia成立于20世纪90年代,为游戏玩家设计芯片,但真正的企业故事始于2006年推出CUDA,这是Nvidia及其合作伙伴提供的150多个库、软件开发工具包、分析和优化工具组合。Nvidia不得不重新设计整个芯片产品组合以运行CUDA。 CUDA(Compute Unified Device Architecture)是一个并行计算平台,使开发者能够定义在Nvidia GPU上运行的并行函数。CUDA让开发者能够使用应用编程接口,而不必编写低级驱动程序,就像他们在使用CPU的习惯一样。 CUDA产品组合尤为丰富,支持深度学习、线性代数、信号处理(用于音频和视频)、广义并行和数据处理计算的功能,以及计算光刻和通信的专用功能,等等。CUDA抽象了GPU编程的复杂性;让开发者能够专注于分配内存和设置数据传输,而不必担心如何并行写入处理器。 Nvidia将GPU视为运行科学计算工作负载的传统高性能计算架构的一个替代品。传统的高性能计算会配备数百个或者数千个CPU,而GPU是把计算都集中在芯片上,并且针对计算密集型作业(而非输入输出操作密集型作业,CPU就是为此设计的)进行了优化。 但当时,高性能计算还是一个小众市场,华尔街担心CUDA会分散Nvidia对核心市场的注意力。而在21世纪初,摩尔定律仍然具有一定的生命力;直到21世纪10年代,摩尔定律才逐渐失效,GPU或多核将成为唯一的出路。 对于CUDA来说,分水岭是2012年的AlexNet项目,这个实验是要使用卷积神经网络(CNN)进行图像识别。使用CUDA在Nvidia GTX 580 3GB GPU上训练的卷积神经网络以最低的错误率超越了竞争对手。AlexNet研究论文的下载量超过10万次,使得CUDA名声大噪。尽管出现了CUDA的替代品,但在21世纪10年代初期,这些多用途库还是无法与CUDA的定制设计相媲美。 AlexNet证明了Nvidia借助CUDA向技术计算领域迈进的正确性。但在21世纪10年代初期,深度学习和神经网络仍然是前沿技术。Nvidia超越了游戏玩家这个细分市场,进入了更具扩展性的细分市场,但当时这至少仍然是一个细分市场。 Nvidia需要的只是“注意力” 在赢得AlexNet竞赛之后,Nvidia把AI变成了公司对外传递信息的核心。但问题就在这里。如前所述,图像或语音识别,或任何形式的神经网络,都还处于市场早期阶段。相反,21世纪10年代是大数据的十年,在AI方面,机器学习远远领先于深度学习。 数据和机器学习都是IOPS密集型流程,如果你可以扩展到足够多的商品硬件,就可以很好地开展工作;GPU对这些工作负载来说有点配置过高了。毫不奇怪,在大数据的十年里,AWS、Azure和Google——而非Nvidia——一举夺魁。 但随后Google在2017年发表了具有开创性的《注意力,就是你所需要的一切》研究论文,最终让Nvidia获得了它所需要的全部关注。这篇论文中介绍的变压器模式使生成式AI成为可能,因为它提供了一条绕过传统神经网络处理的捷径。在此一年前,Nvidia定制了第一台DGX超级计算机,并将其提供给Open AI。五年后,ChatGPT诞生了。 在此期间,CUDA的广度和成熟度推动了深度学习框架(如TensorFlow、PyTorch、Caffe、Theano和MXNet)的原生支持,这些功能组合来自Nvidia及其合作伙伴。经过20多年的构建,这些库现在已经成为整整一代AI开发者的编码工具。AMD和英特尔制定了宏伟的跨越式计划,让他们全新的先进晶圆厂上线。然而,除非他们能够迎合AI新手开发者,否则AMD和英特尔最好能在编写模拟器方面做得非常好。 CUDA只是一个开始 虽然CUDA是吸引开发者的一个纽带,但实际上它只是Nvidia不断扩展的专有工具和库生态系统的冰山一角。诚然,你可以开发程序来运行Nvidia H100,而无需任何这些层,但Nvidia正在增加便利设施以保持程序员的生产力,并将整个堆栈发展为超级计算平台。它从流行的RAPIDS开源软件库和数据科学API开始,辅以NeMo开发者平台工具,用于策划数万亿规模的token;不同的预配置分布式计算模式的选择;一个预训练的模型库,可以使用内置的快速工程和微调工具进行定制;还和Nvidia自己的Triton推理服务器进行了集成。 在这之上是一层新的微服务,是Nvidia在应用层的表现。Nvidia Inference Microservices(NIM)是一组优化的云原生微服务,用于嵌入为Nvidia堆栈编写的模型,其中包含了用于语言、语音、药物发现和其他模式的标准API,以及预构建的容器和打包了优化模型的Helm图表。借助这些微服务,运行在Nvidia系统上的模型就可以嵌入到企业应用中。 第三方已经在打包自己的NIM以供部署,例如Adobe的PDF提取服务、SAP的Joule copilot扩展、以及ServiceNow的智能助手。Nvidia客户可以单独混合搭配这些服务,也可以将其作为Nvidia AI Enterprise的软件包进行授权,提高了管理所有这些开发和部署服务的能力,而且这些都提供了在部署在服务器和/或边缘的版本。 回到芯片上,Nvidia的模型变得比以往任何时候都更加复杂,Nvidia GB200 Grace Blackwell“超级芯片”通过每秒900 Gb的超低功耗NVLink芯片到芯片互连技术把2个Nvidia B200 Tensor Core GPU连接到Nvidia Grace CPU上。 所有这些都被打包到一台集成的超级计算机中:Nvidia DGX(如图所示)。DGX提供了一个独立的数据中心,可以作为混合云部署在本地,也部署成AWS、Azure、Google或者Oracle Cloud上的服务。根据已发布的报告,自1月以来,Nvidia将DGX云服务与每个超大规模数据中心企业的未来部署量增加了近3倍。DGX包括了基本命令作为管理层,提供所有必要的作业调度、编排、网络和集群管理功能。就像俄罗斯套娃一样,DGX捆绑了Nvidia AI Enterprise——一个完整的软件堆栈。 那么大型机的情况如何? 在大型机的鼎盛时期,IBM主导了企业计算领域。那个时代全是硬件,软件被视为事后考虑的事情:Enterprise MIS部门(当时还不叫IT)要么自己编写程序,要么聘请顾问来做,要么程序与盒子捆绑在一起,当时还不存在商业包装的软件。软件是在特定的硬件平台上编写的,尽管模拟器已经存在,但无法替代真正的硬件。 不可否认,IBM并不是当时唯一的大型机制造商,但Honeywells、Sperry-Univacs、Control Datas和GE最终被扫入了历史的垃圾箱,为它们编写的所有程序也随之被扫入了历史的垃圾箱。20世纪70年代和80年代,随着中端计算机的兴起,也出现了类似的模式,因为为DEC编写的软件已经无法运行在Prime或者Data General机器上,如今,这些代码大部分也已经消失。 当今的世界并非是过去的翻版。专有孤岛和多平台现实并存,一个明显的例子就是苹果公司和其他厂商之间的竞争——移动设备上的Android和笔记本电脑上的Windows。但抽象程度已经足够高了,更不用说只有两个主要生态系统,移动和笔记本电脑开发者可以非常轻松地针对这两个目标平台进行开发。 另一方面,服务器已经成为了一个开放系统的领域,Linux成为事实上的标准,软件跨硬件的可移植性被视为一件理所当然的事情。同样,得益于强大的W3C标准,Web应用应该可以运行在任何一种浏览器上。 但神经网络和人工智能仍然是两码事。鉴于对计算的迫切需求,在转换到另一个硬件平台的时候,任何性能损失都是不可接受的;风险太高了。 如上所述,不仅仅是因为Nvidia在基础设施方面取得了压倒性的领先地位(尽管具有讽刺意味的是,Nvidia实际上并没有制造任何东西),但Nvidia提供了一个完全优化的堆栈,这使得在没有认真重写或重构代码的情况下很难甚至不可能在其他地方获得与之可比的性能。诚然,开发者可以采用架构的方法从平台中抽象出算法,但这需要额外的工作量和预先考虑。考虑到生成或神经网络AI模型对性能的苛刻要求,处理器的定制优化可能是模型取得成功的一个主要限制因素。 Nvidia目前处于垄断地位,但蕴含着潜在的威胁。例如,多年来,人们曾多次尝试将接口与GPU进行通用化,这可以追溯到苹果公司在2008年启动的OpenCL项目;令人惊讶的是,它实际上可以运行在CUDA上。最近,Linux基金会加入了Unified Acceleration Foundation(UXL)项目,这是一个标准框架,应该允许开发者编写可以跨平台运行的代码。借助UXL,那些为在AMD ROCm上运行而开发的模型也应该以英特尔的oneAPI为目标,而无需更改代码了。 谷歌和微软等公司也已经采取行动,在来自AMD等第二来源的基础设施上支持各种竞争对手的专有框架和开放框架。顺便说一句,随着企业在寻求更为紧凑的、特定领域的小型语言模型,这可能会为替代平台敞开一扇大门,而这些平台不必是最强大的平台。当然,一旦供应跟上,供需法则可能就会追赶上Nvidia的发展速度了。但现在不要抱太大希望。英特尔要到2027年才会推出新的晶圆厂,AMD和苹果也可能需要几年时间才能实现类似的扩张。对CUDA替代方案的支持越来越多,例如一些流行的框架如PyTorch和TensorFlow都支持ROCm等替代方案。 当然,超大规模云提供商提供了自己的专用于训练和推理工作负载的芯片。虽然超大规模提供商希望继续获得Nvidia的青睐,但他们的首要任务仍然是售卖计算周期。超大规模提供商将根据客户需求预订容量。 尽管如此,在短期内,Nvidia最大的担忧是如何与华尔街保持一致,因为由于客户资本支出的影响,明年市盈率可能会趋于平稳。目前,Nvidia并不担忧开发者转向成本较低的平台。Nvidia AI Enterprise仍然比其他任何产品都更完整,更不用说大多数大型AI程序都是为CUDA库编写的。虽然这是一个昂贵而复杂的平台,但Nvidia如今拥有与传统大型机相同的内置防御能力。
OpenAI自研芯片进展曝光!百万年薪挖角谷歌人才 OpenAI的自研芯片计划近日取得显著进展。有报道称,OpenAI正积极从谷歌TPU团队招募顶尖人才,以扩展其芯片研发团队。 这一策略显示出OpenAI减少对英伟达芯片依赖的决心,并有望在未来建造更多晶圆厂,为AI芯片需求提供稳定供给。 据SemiAnalysis报道,OpenAI计划将目前仅有数人的芯片团队扩展至数十人,且几乎所有新招募的研究人员均为谷歌TPU团队的现任或前任成员。TPU是谷歌为加速机器学习和神经网络计算而设计的专用处理器,以其出色的运算性能和能源效率著称。 OpenAI提供的不仅仅是具有竞争力的薪酬,更包括作为一家未上市公司所提供的股权激励,这对于高级工程师来说极具吸引力。 加入OpenAI的团队成员将有机会参与从零开始的创新设计过程,尝试更激进的方法,构建由数百万个加速器组成的系统。 此外,OpenAI的自研芯片计划也反映出与微软关系的微妙变化,尽管背靠微软的资金和Azure云服务,OpenAI仍寻求在芯片和算力方面的独立性。 业界普遍预计,OpenAI的第一代自研芯片将在2027年底前推出,在此之前,该组织将继续依赖商用芯片。
关于外部平台交流的风险提示与安全提醒 尊敬的吧友们, 近期,我们注意到有用户通过chatgpt吧引流至外部交流平台的行为。我们特此提醒,此类行为可能导致您的交流不受贴吧平台的监管与保护,增加个人信息泄露和权益受损的风险。 为了您的信息安全和权益保障,我们强烈建议您: 1. 谨慎处理邀请:对任何引导至第三方平台的交流邀请持谨慎态度,仔细核实其可信度和安全性。为了保护信息安全,交流中吧友不得在任何位置发布个人信息以及第三方平台Z号群,并引导吧友添加,位置包括但不局限于昵称,帖子,个人主页,签名栏等。 2. 保护个人信息:在任何情况下,不要透露您的个人敏感信息,如电话号码、地址、银行Z户等。 3. 警惕网络诈骗:熟悉常见的网络诈骗手段,对于任何涉及C务和支付操作的请求持高度警觉。 4. 使用安全的网络环境:避免在不安全的网络环境下进行敏感操作,保护您的账户安全。 chatgpt吧致力于为每位吧友提供一个安全、健康的交流环境。 我们呼吁大家共同遵守网络安全规范,理性参与社区的交流与互动。 感谢您的理解与支持!
Apple Intelligence:iPhone 的设备内和基于云的 AI 将如何运作 在 2024 年全球开发者大会(WWDC)上,苹果将在其 iPhone、iPad 和 Mac 操作系统中整合主要 AI 功能。以下是据报道它们将如何运作。 --- 苹果公司预计将在周一举行其历史上最具开创性的全球开发者大会(WWDC)主题演讲,计划在其操作系统中添加主要的人工智能(AI)功能。但苹果公司预计不会推出一系列耀眼的生成性 AI 功能来震撼大家,而是将专注于将 AI 整合到其应用程序中,以简化用户的日常任务。这些功能将归类在“Apple Intelligence”之下。 据彭博社报道,苹果正在将其 AI 功能品牌化为Apple Intelligence —— 我们并没有错过这种挖苦的文字游戏。Apple Intelligence将包括最新的 AI 功能,这些功能将出现在其操作系统中,包括 iOS、iPadOS、MacOS 和 WatchOS。 Apple Intelligence专注于广泛吸引力的 AI 功能,而非高级图像和视频生成技术。为此,该公司开发了内部 AI 模型,并与 OpenAI 合作,提供了一个类似于 ChatGPT 的聊天机器人。 我们期待Apple Intelligence将带来的一些重大 AI 功能包括: - 在“照片”中使用 AI 进行改进的图片编辑功能,如对象移除。 - 增强的 Siri 对应用程序和操作的控制,包括请求 Siri 删除电子邮件或编辑照片。 - 基于文本提示生成自定义表情符号的 AI。 - 快速生成笔记、短信线程、电子邮件和更多文本的摘要。 - 自动为电子邮件和消息建议回复。 - 改进的邮件应用,可以分类电子邮件并生成消息。 - 自动转录语音备忘录。 - 为 Xcode 增加 AI 功能,自动完成代码编写。 除了这些 AI 功能外,据彭博社报道,iOS 18 将包括新的可自定义图标和控制中心、设置和信息的界面更新。苹果还预计将推出一个新的密码应用程序,以取代 iCloud 钥匙串,为用户提供一个更类似于 1Password 和 LastPass 的用户友好选项。设备内与基于云的处理 虽然有传言称苹果正在研究不同的方式来严格在设备内运行其 AI,以确保安全和隐私,但预计Apple Intelligence至少在某些任务上将依赖云计算。这将取决于设备复杂性、资源可用性、数据隐私考虑以及延迟要求。 本质上,如果任务简单到足以在本地处理,利用设备的处理能力和电池寿命,并且需要立即结果,那么更有可能在设备上处理。涉及敏感数据的任务也可能优先在设备上处理,因为苹果试图将数据隐私作为优先考虑。 相反,基于云的 AI 处理需要将数据从设备发送到可以处理复杂或计算量大的任务的远程服务器。在苹果的案例中,需要处理大量数据或更新模型的任务可能包括高级自然语言处理(NLP)、复杂分析以及复杂的图像和视频生成。 根据其复杂性和系统要求,一个算法将决定需要 AI 的任务是应该在设备上处理还是转移到云端。像 Siri 请求和其他基本的 NLP 任务这样的简单任务可以在设备上处理。更复杂的任务,如生成大型文件的详细摘要,将被发送到云端,在那里可以进行更强大的处理。 Apple Intelligence的技术要求 据彭博社报道,苹果的新 AI 功能将与最新的苹果设备兼容,包括运行 A17 Pro 芯片的 iPhone 15 Pro 或更新型号,以及搭载 M1 芯片或更新版本的 iPad 和 Mac。虽然这些 AI 功能可能有助于推动新 iPhone 和 Mac 的销售,作为一名当前 iPhone 14 Pro Max 的所有者,我希望至少一些功能能向较旧的 iPhone 型号渗透。我们将在周一的 WWDC 上了解官方的兼容性列表。 在 WWDC 期间,苹果预计将突出显示运行 AI 任务的新安全措施,包括用于基于云的处理的数据中心中基于芯片的安全性。它还将重申其不基于消费者数据建立用户档案的承诺。 或许最重要的是,用户可以选择加入Apple Intelligence功能,这些功能将作为测试版本引入,随着苹果不断提升其 AI 能力,这些功能将得到改进。
苹果将推出全新的 AI 系统「Apple Intelligence」 据彭博社报道,苹果公司正准备在下周的 2024 年全球开发者大会(WWDC)上,为 iPhone、iPad 和 Mac 推出一个名为 Apple Intelligence 的新 AI 系统。除了在苹果的各个平台和应用程序中提供新的“测试版”AI 功能外,据报道还将提供一个由 OpenAI 提供技术支持的类似于 ChatGPT 的聊天机器人。这次更新的一个显著特点是,新的AI功能将提供给用户选择性启用的选项,且明确标注为测试版,意味着用户可以根据自己的需求决定是否使用这些功能。 值得注意的是,为了实现更高效的数据处理,聊天机器人能够根据任务的复杂性直接在用户设备上进行处理,这同时表明AI功能对设备硬件有一定的要求。 根据最新信息,只有搭载了苹果A17 Pro芯片的iPhone 15 Pro系列手机,或者配备了M1芯片及其更高阶版本的Mac设备,才将支持这些先进的AI功能。这表明苹果在推动AI技术应用的同时,也在确保用户能够获得最佳的性能体验。 据报道,苹果不会专注于引人注目的 AI 功能,如图像或视频生成,而是将重点放在添加 AI 驱动的摘要、回复建议和对 Siri 的 AI 大修上,这可能会增加它对应用程序的控制,同时追求具有“广泛吸引力”的应用程序。 据彭博社报道,苹果将使用其“自有技术和 OpenAI 的工具”来支持其新的 AI 功能。公司将使用一种算法来确定它是否可以在设备上处理特定任务,或者是否需要将查询发送到云服务器。先前的报道已经指出,苹果可能会专注于使用其自有的 M2 芯片和数据中心中的 Secure Enclave,以说在远程处理的数据和在设备上一样安全。 为了解决其他潜在的安全问题,彭博社表示,苹果将不会基于用户数据建立档案,并且还会创建报告以显示他们的信息不会被出售或阅读。微软最近透露计划推出配备 AI 的 Copilot Plus PC,其中包括本地存储的屏幕截图,用于可搜索的 Recall 功能,但该计划已遭到重大反弹,一位研究员称该功能对安全性是一场“灾难”。 据彭博社报道,iPad 或 Mac 的用户需要使用搭载 M1 芯片或更高版本的设备,而移动设备的要求可能仅限于 iPhone 15 Pro 或今年秋季推出的 iPhone 16 设备之一。据彭博社报道,苹果不会强迫用户使用新的 AI 功能,并将使这些功能成为可选。
Siri联合创始人:苹果与OpenAI合作不会长久 据外媒报道,人工智能将是下周苹果全球开发者大会(WWDC)的一大重点。此前有消息称,苹果公司已与生成式AI领军企业OpenAI达成协议,OpenAI将为苹果iOS18操作系统提供生成式AI聊天机器人功能。不过,Siri联合创始人Dag Kittlaus表示,这种合作可能只是权宜之计,不会长久。外媒分析称,苹果正在加快自研生成式AI技术的步伐,并有望在WWDC上首次亮相。 苹果内部已有1年以上使用自研的生成式AI聊天机器人系统,代号"Apple GPT"。不过该系统在功能上还需要进一步完善,才能完全取代OpenAI的ChatGPT。在竞争对手纷纷将生成式AI整合至智能手机等产品的情况下,苹果已不能再继续等待,因此选择与OpenAI达成短期合作,以尽快在iOS18中引入生成式AI聊天机器人功能。 苹果的研究论文显示,他们的目标是研发在设备端运行的生成式AI聊天机器人,数据在用户设备上处理,以最大限度保护用户隐私。这符合苹果一贯注重隐私的理念。 此外,苹果在关键零部件上的自研能力也为其AI技术发展奠定了基础。比如在Mac产品线上,苹果已全面转向自研的M系列芯片。未来,苹果或将在生成式AI技术上实现更多自主可控。
开发者寒冬?国内 Docker 镜像全军覆没 前天,SJTUG(上海交通大学 Linux 用户组)发布公告称已下架 Docker Hub 镜像:Docker Hub 是目前全球最大的容器镜像社区,但由于一些限制(大家都懂),国内开发者从 Docker Hub 上获取容器镜像时很不方便。所以国内一些公司和学校就搭建了许多镜像源来加速下载。很早之前,Docker 官方镜像源就因为一些不可抗因素被封禁了。国内拉取 Docker 镜像都需要依赖国内镜像源:比如阿里云、腾讯云、网易云、中科大、讯飞、百度等。但是最近很多开发者都发现,这些国内镜像也都不能用了 ,目前不清楚是由于高考还是其他的原因。 另外,根据小道消息,后续包括 Github CDN 镜像,NPM,Python PIP,OpenWrt OPKG 等未受内容审查的镜像服务器同样也会被下架(npm和pip真的要我命) ,以后国内开发者想拉取镜像服务大概率只能挂代理了。
OpenAI:GPT-4背后是什么? 在人工智能这个速度与激情并存的赛道上,一匹黑马名为OpenAI令世人惊叹。这不禁令人疑问,在资金、资源如此雄厚的大公司影子下,为何OpenAI能率先研发出堪比科幻小说中的GPT-4模型?而谷歌等科技巨头,尽管披上AGI(人工通用智能)的披风,却似乎总落后于这家初创的独角兽?这其中的秘密,就好比一款成功的游戏,不仅需要绚丽的画面,还要有强大的引擎作支撑。OpenAI将视野从学术实验室的理论研究,拓展到实用工程的深耕细作,在这个跨学科的创新团队中,学术研究人才和工程人才悉数入列,打造了一个问题解决的全方位立体战队。 在Greg Brockman的访谈中透露,OpenAI成功的另一个秘诀在于对团队管理的革新。相比传统实验室研究导向的Hierarchical架构,OpenAI的「年轻化」与「扁平化」管理增加了团队的灵活性和创新力,使他们能够快速适应变化,有效推进项目。 正如柯达无法在数字相机时代持续其辉煌,传统企业的成功往往在下一个技术更迭中成为桎梏。而OpenAI,似乎已经找到了在创新驱动中破局前进的方式。他们聚焦于构建一款能够造福人类、平衡好风险与机遇的AGI,将不仅仅是技术进步的代名词,更担负起改善人类生活的使命。Greg Brockman强调,对于新技术的拥抱应带有一份 审慎,他认为AI的 安全问题早已有之,并不是迎面而来的未知风险,而是应当预见并积极应对的挑战。在GPT-4的研发过程中,OpenAI对模型进行了精准调整,目的是降低偏见,体现了从实践中学习和迭代进步的态度。当下,AI的教育应用正饱受争议,有人担心可能导致学生的思考能力受损。但也有另一种声音认为,AI技术如同一座桥梁,填补了教育资源的不均衡,为那些缺少优质教育资源的学生提供了全新的学习途径。如何在这张新画布上绘制出合适的教育模式,需要我们所有人的共同努力和智慧。 最后,我们不禁要问,这样的技术创新,究竟是在削弱我们的能力,还是在增强我们的力量?正如书中所言,科技,特别是人工智能,可以赋予我们“超能力”,帮助我们实现目标。现代科技的竞赛场上,乐观如同深踩油门,而悲观则如紧踩刹车。两者互为平衡,但向前冲刺的力量,始终来自于对未来的信念和期待。OpenAI的故事,或许正在告诉我们:在未知的技术前沿,推动进步的最大动力,除了专业知识和技术,还有对未来美好愿景的不懈追求。 --- 本贴转自 (一览AI原创)
GPU是如何工作的? 今天我们来详细聊聊 GPU的工作原理。 随着AI、HPC的快速增长,GPU加速计算已经成为推动科学发展的关键力量,在天文学、物理学等研究领域,GPU加速的AI正在帮助科学家们解决前所未有的复杂问题。与CPU相比,GPU在设计上更擅长处理大量并行任务,这使得它们在执行计算密集型任务时表现的更出色。今天我们从GPU的运作机制和设计原理来聊聊为什么GPU在并行计算的时候更高效。 ▉ 处理器的三个组成部分 我们知道,任何处理器内部都是由三部分组成,分别为算术逻辑单元(ALU)、控制单元和缓存。但CPU(Central Processing Unit)和GPU(Graphics Processing?Unit)是两种不同类型的计算机处理器。简单来说,CPU更善于一次处理一项任务,而且GPU则可以同时处理多项任务。这是因为CPU是为延迟优化的,而GPU则是带宽优化的。就好比有些人善于按顺序一项项执行任务,有些人可同时进行多项任务。 我通过打比方来通俗的解释二者的区别。CPU就好比一辆摩托车赛车,而GPU则相当于一辆大巴车,如果二者的任务都是从A位置将一个人送到B位置,那么CPU(摩托车)肯定会更快到达,但是如果将100个人从A位置送到B位置,那么GPU(大巴车)由于一次可以运送的人更多,则运送100人需要的时间更短。换句话说,CPU 单次执行任务的时间更快,但是在需要大量重复工作负载时,GPU 优势就越显著(例如矩阵运算:(A*B)*C)。因此,虽然CPU单次运送的时间更快,但是在处理图像处理、动漫渲染、深度学习这些需要大量重复工作负载时,GPU优势就越显著。 综上所述,CPU 是个集各种运算能力的大成者。它的优点在于调度、管理、协调能力强,并且可以做复杂的逻辑运算,但由于运算单元和内核较少,只适合做相对少量的运算。GPU 无法单独工作,它相当于一大群接受 CPU 调度的流水线员工,适合做大量的简单运算。CPU 和 GPU 在功能上各有所长,互补不足,通过相互配合使用,实现最佳的计算性能。 那么是什么导致CPU和GPU工作的方式不同呢?那还要从二者设计理念来说。 ▉ FLOPS并不是核心问题? FLOPS每秒浮点运算次数(FLoating point Operations Per Second,简称 FLOPS)是基于处理器在一秒内可以执行的浮点算术计算数量,经常用来来衡量计算机性能的指标。虽然大家常问一个设备的FLOPS是多少,但实际上这并不是一个核心问题。我们可以换一种说话,就是虽然有一些专家或特定算法的时候会特别关注FLOPS。但FLOPS其实并不是大众关心的焦点。为什么会这样说呢?我们以上图为例,让我们看一下CPU的运行情况:CPU能以大约2000 GFLOPs FP64的速度进行运算,但内存却只能以200 GB/s的速度向CPU提供数据,这是现代处理器的典型性能。于是当CPU想要每秒处理2万亿个双精度数值,但内存每秒只能提供250亿个。这个时候就会产生设备的“计算强度”不平衡,这个时候就需要CPU设备需要付出多少努力来弥补内存提供数据的速度不足。 否则,处理器就会因为闲置造成浪费,陷入所谓的“内存带宽限制”模式。事实上,至少有四分之三甚至更多的程序在实际运行中都会受到内存带宽的限制,因为很少有算法能在每次数据加载时完成足够多的运算来充分利用硬件性能。这时购买更便宜的CPU或许更为合适。 这种高计算强度要求对于大多数算法来说都是难以达到的。实际上,只有矩阵乘法这类特殊算法能满足这一要求。接下来我们看下GPU是怎么来弥补这个计算强度的。通过上面的表格,我们对比GPU和CPU几个不同进程的性能。你会发现,虽然NVIDIA芯片拥有更高的FLOPS,但是他们计算强度几乎相同,这是因为NVIDIA配备了更高带宽的内存以保持平衡。 其实,每一代GPU在增加FLOPS方面的速度往往超过了增加内存带宽的速度。这导致计算强度不断上升,给算法编程带来了更大的挑战。这就需要GPU不断努力优化算法,以确保这些强大的芯片能够保持高效运行。因为很少有算法能在每次数据加载时完成足够多的运算来充分利用硬件性能。 当然,高内存支持和代码优化并不是GPU性能优势的全部,我们还需要看一下延迟。我们来深入谈谈延迟这个概念。为何延迟如此关键呢? ▉ 为何延迟如此关键呢? 延迟,让我们通过一个时间线来直观理解。从最基础的运算操作来看:ax + y。首先,要加载变量x。接着,加载y。因为运算是a乘以x再加上y。所以,会同时发起对y的加载请求。然后,会经历一段相当长的等待时间,直到x的数据返回。这段时间往往是空闲的,也就是我们所说的延迟,这样就导致计算非常不高效。虽然这个时间很短,也可能被其它有用的计算工作所掩盖,不会造成明显的延迟。但处理器编译器实际上花费了大量精力来进行流水线优化,确保数据加载尽可能早地发起,以便被其它计算操作所覆盖。这种流水线处理是大多数程序性能优化的关键,因为内存访问的延迟往往比计算延迟要大得多。▉那么为什么会这样呢? 这是因为在一个时钟周期内,光只能传播很短的距离。考虑到芯片的尺寸,电信号从芯片的一侧传输到另一侧可能需要一个或多个时钟周期。因此,物理定律成为了限制性能的关键因素。尤其是当需要从内存中获取数据时,数据的往返传输可能就需要十到二十个时钟周期。延迟就意味着花费了大量时间等待数据的到来。 在之前提到CPU经常处于空闲状态,因为内存延迟导致它无法保持忙碌。尽管CPU拥有强大的计算能力(即FLOPS),但我希望内存能够与之匹配,确保数据能够及时到达。以Xeon 8280为例,这款CPU拥有131GB的内存和89纳秒的延迟。当内存带宽为131GB/s时候,那么在一个内存延迟周期内,只能移动约11659字节的数据。这似乎还不错,但当我们考虑到DAXPY操作只加载了两个8字节的值(即x和y),总共只有16字节时,效率就显得非常低下,仅为0.14%。这显然不是一个好的结果。即使有高带宽的内存来应对计算强度,实际上几乎没有利用到它的优势。为高性能的CPU和内存付出了巨大的成本,但结果却并不理想。这是因为程序受到了延迟绑定的影响,这是一种常见的内存限制形式,其发生的频率远高于我们的想象。这也解释了为什么我对FLOPS并不太关心,因为即使内存带宽无法充分利用,计算单元更是无法忙碌起来。 如果我将11659字节的数据除以16字节(即DAXPY操作加载x和y所需的总字节数),发现需要同时执行729个DAXPY迭代,才能让花在内存上的钱物有所值。因此,面对这种低内存效率,需要同时处理729个操作。这个时候,就需要并发来解决这个问题了。并发,顾名思义,就是同时进行许多事情。但请注意,这些操作不必是严格同时发生的,它们只需要能够独立进行。GPU编译器有一种优化手段叫做循环展开,它能够识别出可以独立执行的部分,并将它们连续地发出,从而提高执行效率。 但是在实际循环进行的优化方式受限于硬件能够同时跟踪的操作数量,几乎是不可能完成的。在硬件的流水线中,它只能同时处理有限数量的事务,超出这个数量就不得不等待之前的事务完成。因此,循环展开确实有益,它可以让流水线更加饱满,但显然它也受到机器架构中其它多种因素的制约。这个时候,就需要看硬件的所能支持的最大线程数了,这意味着多个操作是真正同时发生的。GPU在这方面做了很好的支持。 ▉ 线程在GPU中起到什么作用? GPU与CPU之间一个非常值得关注的差异点,GPU的延迟和带宽要求比CPU高得多,这意味着它需要大约40倍的线程来弥补这种延迟。但实际上,GPU拥有的线程数量比其它类型的处理器多100倍。因此,在实际应用中,GPU的表现反而更好。实际上,GPU拥有的线程数量比实际运算需要的多出五倍半,而其它类型的CPU,它们的线程数量可能只够覆盖1.2英寸范围内的操作,这就是GPU设计中最为关键的一点。如果你从这次讲解中只能记住一件事,那就是:GPU拥有大量的线程,远超过它实际需要的数量,这是因为它被设计为“超量订阅”(oversubscription)。它旨在确保有大量线程在同时工作,这样即使某些线程在等待内存操作完成,仍然有其它线程可以继续执行。 GPU通常被称为“吞吐量机器”。GPU的设计者将所有的资源都投入到了增加线程数量而不是减少延迟上。相比之下,CPU则更侧重于减少延迟,因此它通常被称为“延迟机器”。 CPU期望单个线程能够完成大部分工作。在CPU中切换线程(从一个线程切换到另一个线程)是一个资源消耗高的操作,它涉及到上下文切换,因此只需要足够多的线程来覆盖内存延迟即可。 所以,CPU的设计者将所有资源都投入到了减少延迟而不是增加线程数量上。 GPU和CPU在线程方面的解决方法是截然相反的,虽然它们都是用来解决相同的延迟问题,但实际上也是GPU和CPU在运行方式和工作原理上的根本差异所在。记住,GPU设计者通过增加线程数量来对抗延迟,而不是通过减少延迟来降低延迟。 另外,需要注意的是GPU是被超量订阅的。这意味着,当一些线程在等待读取数据时,其它线程已经完成了读取并准备执行。这就是GPU工作原理的关键所在。它可以在一个时钟周期内轻松地在不同的warp之间切换,因此几乎没有上下文切换的开销。它可以连续运行线程。这意味着,为了弥补延迟,GPU需要保持的活跃线程数要远远超过系统在任何时候能够运行的线程数。这与CPU的工作方式截然不同,对于CPU来说,它永远不希望线程过多。 除了线程上的不同,内存也是GPU工作的极为关键的因素,这是因为所有的编程工作都是围绕内存展开的。 ▉ GPU内存需要足够大 GPU为每个线程分配了大量的寄存器来存储实时数据,从而实现了非常低的延迟。这是因为与CPU相比,GPU中每个线程都需要处理更多的数据,因此它需要能够快速访问这些数据。所以,GPU需要一种靠近其计算核心的快速内存,并且这种内存需要足够大,以便能够存储进行有用计算所需的所有数据。 不仅如此,当你发出一个加载操作(比如将某个指针的值加载到变量x中)时,硬件需要一个地方来暂存这个加载结果。所以,当说从内存中加载数据时,我实际上是指将这个加载结果放入寄存器中,这样就可以对它进行计算了。而GPU所拥有的寄存器数量直接决定了它能够同时处理的内存操作数量。GPU的主内存就是高带宽的HBM内存。如果我把GPU主内存的带宽看作一个单位,无论它有多快,都只能算作一。而L2缓存带宽则是它的五倍,L1缓存,也就是我即将提到的共享内存,更是快了13倍。因此,随着带宽的增加,它更容易满足计算强度的需求,这无疑是一件好事。如果可能的话,大家希望能充分利用缓存来满足计算强度。 我们再来看一下每个内存层在操作时所需的计算强度。对于HBM,我们之前看过的计算强度是100。而L2缓存的计算强度则要好得多,只需要39次加载操作,L1缓存更是只需要8次,这是一个非常可实现的数字。这就是为什么L1缓存、共享内存和GPU如此有用的原因,因为我实际上可以让数据足够接近计算核心,从而有意义地进行8次操作并充分利用FLOP。所以,如果可以的话,所有数据都能从缓存中读取带来的提升是最有价值的。 但是需要注意的是,PCIe的带宽很有限,延迟又很大。NVLink在性能上比PCIe更接近主内存。这也是为什么NVLink作为芯片之间和GPU之间的互连方式,比PCIe总线要好得多的原因。 ▉ 通俗讲解GPU的工作原理 好了,看了上面复杂的内容,让我们来通过一些形象的例子来了解GPU的运作机制。首先我们来谈谈吞吐量和延迟。首先我们来打个比方,例如这个人住在旧金山,但在圣克拉拉工作。这个时候这个人上班就有两种方式选择。可以开车,只需要45分钟,或者可以坐火车,需要73分钟。这个时候,汽车是为减少延迟而设计的,但火车是一个吞吐量机器。想象一下,开车的优势是在于它尽量快速地完成一次旅程,但并没有真正帮助到其他人。它速度快,但效率不高,只能载少数人,并且只能从一个地方到另一个地方。另一方面,火车可以载很多人,而且它能够在很多地方停靠,所以沿途的所有人都可以借助火车来上班。可而且设置很多列火车来运输乘客。 这个时候,火车不同班次就相当于GPU的延迟系统,被超量订阅,性能就会大打折扣。但如果路上的车太多,交通陷入瘫痪,汽车没人能顺利到达目的地。但同样,如果火车已经满员,你只需要等待下一班。而且,与汽车不同,火车晚点通常不会太久,因为总有下一班火车可以搭乘。 所以,GPU其实可以看作是一个吞吐量机器,它的设计初衷是能够处理比它一次运行的工作多得多的任务。这就像火车系统,如果火车没有满载,那就没有充分利用其运输能力。对于GPU来说也是如此,吞吐量系统通常希望有深度的等待队列。火车公司其实希望你在站台上等待,因为如果火车到站时站台上没有人,车厢没有满载,那他们就是在浪费资源。GPU也是如此,它需要保持忙碌状态,才能充分发挥其性能。 CPU则更偏向于一个延迟机器。切换线程需要消耗资源,所以CPU希望每个线程都能尽快完成其任务。但如果任务太多,系统就会陷入停滞。因此,CPU的目标是尽快完成每个任务,然后为下一个任务腾出空间。这就像我们希望车辆在路上畅通无阻,而不是停滞不前,因为道路上的车辆数量是有限的。简而言之,我们利用这些线程来解决延迟问题,这是一个非常有效的策略。 现在我们已经了解了延迟问题,接下来看看带宽的挑战。由于整个系统都是基于吞吐量的设计,GPU通常会超量订阅资源。这意味着GPU总是有任务在执行,内存也在不断地被访问。 在这个过程中,我们必须考虑异步性。很重要的一点是,CPU和GPU是独立的处理器,这意味着它们可以同时处理不同的任务,而且应该这样做。如果CPU停下来等待GPU,或者GPU停下来等待CPU,那么整个系统的效率就会下降。这就像每个站点都要等待下一班火车才能继续前行,这样显然不如只有一个高效的处理器。 异步性的重要性在于它让所有的处理器都在工作,没有人停下来等待。CPU可以向GPU发送工作指令,然后继续执行其它任务,而GPU则独立地处理这些任务。我们只需要等待最终的结果。为了更形象地解释这个概念,我们可以想象一下道路交通。如果你想一次性移动很多东西,那么你需要更多的车道,就像右边的道路一样。这样的交通是异步的,每个车辆都可以独立地前进,不会被前面的车辆阻塞,因为车道足够多。相反,如果交通是同步的,那么只有一条车道,所有的车辆都必须等待最慢的那辆车,效率就会大打折扣。因此,异步性对于我们追求的高吞吐量至关重要。然而,在现实世界中,很少有工作是完全独立的。DAXPY就是一个很好的例子。这些被称为逐元素(element-wise)算法,只有最简单的算法才能以这种方式工作。大多数算法至少需要一个或多个元素,比如卷积操作,它会考虑图像中的每个像素及其邻居。还有一些算法,如傅里叶变换,需要每个元素与其它每个元素进行交互。这些被称为全对全算法,它们的行为方式与逐元素算法截然不同。 ▉ GPU工作中是如何获取吞吐量的? 现在,让我们一起看下GPU上并行处理的工作原理,以及GPU是如何获得所需的吞吐量的。我们假设训练了一个AI来识别互联网上的猫。现在,我们有一张猫的图片。我会在这张图片上覆盖一个网格,这个网格将图片分割成许多工作块。然后,我会独立地处理每个工作块。这些工作块是彼此独立的,它们在图片的不同部分工作,而且工作块的数量非常多。因此,GPU会被这些工作块过度订阅。但请记住,过度订阅是我们追求高效执行和最大内存使用的一种策略。在每个工作块中,都有许多线程共同工作。这些线程可以共享数据并完成共同的任务。所有的线程都同时并行运行,这样GPU就能够实现高效的并行处理。现在,已经构建了层次结构。在最高层,有总工作量,它通过网格被分解成工作块,这些工作块为GPU提供了所需的过度订阅。然后,在每个工作块中,有一些本地线程,它们一起协同工作。通过这种方式,能够充分利用GPU的并行处理能力,实现高效的吞吐量。当我们训练了一个AI来处理图像。这些线程协同工作,它们在各自的分片(tile)上工作,组成一个个块。请记住,每个块都以自己的速度独立运行,最终,整个图像会被处理完成。 在GPU上,工作是以网格的形式运行的,这些网格进一步被分解成线程块。每个块都拥有并行运行的线程,确保它们能够同时处理任务并共享数据。然而,所有的块都是独立调度的,这种模式被称为过度订阅。这带来了两种最佳的运算的结合。它既能保持机器的忙碌状态,又能够提供所需的吞吐量,同时还允许线程之间进行必要的交互。这就是GPU编程的精髓:将问题分解成多个块,在这些块中,协作的线程共同处理任务,且每个块都保持着相对的独立性。 好吧,就到这里吧,我们已经详细介绍了GPU的工作原理,延迟被超量订阅所掩盖,但其实延迟实际上是GPU取得成功的关键。所有这些——大量的线程、超量订阅、网格和块的编程模型,以及在块中运行的线程——它们都是为了对抗延迟而存在的。如今NVIDIA GPU已经做到了,并且取得了成功,但现在我们受到了带宽的限制,这是接下来NVIDIA研发的重点。 --- 本贴转自商业新知 作者:老猫 #GPU# #AI# #NVIDIA#
如何让ChatGPT更“懂你” 大语言模型并不是万能的,由于缺乏行业领域的专业知识,大模型在解决实际问题上其实存在一定的局限性。那么,如何让大模型更懂你?作者作为 AI 开发平台的设计师,总结了两个简单高效的方法,一起来看。我们都知道,生成式 AI 的出现掀起一波人工智能的浪潮,在这种时代背景下,了解 AI 产品背后的开发方法,能帮助我们更好的使用 AI 产品。 一、什么是生成式 AI? 生成式 AI 可以帮助我们做很多事情,在日常生活中,它可以用于生成报告,提高汇报的效率;在电商领域,智能客服可以自动回答和解决用户的问题;在医疗领域,智能医生可以帮助患者进行疾病诊断,提高了行业人员的工作效率。 二、ChatGPT 的本质是大规模语言技术的应用 在生成式 AI 应用中,我们所熟悉的 Open AI 的 ChatGPT、百度的文心一言、字节的豆包等,他们的本质是应用了一种大模型的技术。 这种技术是由云厂商中专业的技术人员,通过海量的文本数据处理,消耗昂贵的算力成本所得到的。这样的技术让大模型学习人类的语言模式和知识结构,并生成自然流畅的回答。大模型类比为大脑 通俗比喻:我们可以将大模型类比为“大脑”,大量的文本数据相当于“外界提供的信息”,昂贵的算法比喻为“聘请的高级教授”,将外界信息转化为知识点,储存在大脑中,最后呈现出来的就是我们使用的智能产品。三、大语言模型并不是万能的,解决实际问题上存在局限性 然而大语言模型并不是万能的,由于缺乏行业领域的专业知识,导致他们在解决实际问题上存在一定的局限性。 比如以下场景:我想通过 文心一言 了解 CXD 智能云产品,相关的设计规则,而它的回答,并不能解决我的实际问题。 文心一言只提供适用于通用平台的设计规则,这些规则并不能完全适用于我们的产品。企业应用过程中遇到这种问题,应该怎么办?四、解决办法:让人工智能应用更懂你,得到你想要的内容 作为 AI 开发平台的设计师,我总结了两个简单高效的方法分享给大家。方法 1 “教它找” “教它找”的原理是:通过加入提示词,利用其中关键词语,提示大模型理解我们的意图,在已经有的数据信息中找到我们想要信息再进行回答。 这种方式可以帮助我们低成本、快速的提升大模型的效果。以开发一个“汽车销售客服”作为场景,Diffy 产品作为工具演示。 产品的左侧面板是相关参数的配置,右侧则是用户真实使用场景的测试工具。 没有提示语配置下,我选择 ChatGPT 3.5 来回答我的问题,发现它的回答没有实质有效的信息,对购买汽车的用户帮助不大。 如何通过加入提示语提升质量? 步骤 1:加入提示词:在左侧面白的输入框加入文本,限制大模型回答,让大模型作为一名专业销售人员,针对汽车性能、外观等维度提供比对信息。 步骤 2:测试效果:ChatGPT 的回答效果明显提升。 通过这样的方式,打包成新的应用,给到用户使用,让用户在已限定好范围的大模型内进行问答,可以极大提高产品满意度。 基于这个方法,我为大家推荐两类好用的工具:一类是提示语模版平台,在这些平台中可以获得各行各业的高质量提示语,教育类、金融类等等,复制直接使用。 千帆大模型平台:http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fprompt-shortcut.writeathon.cn&urlrefer=635c05b21f8db29c2e178668c4ced6ea方法 2 “教他学” “教他学”的原理是:通过增加自己 / 企业自身的数据,与它自身通用的数据结合,教它学习新知识,从而定制一个懂你的新的大模型。 如何加入自己的数据?有两种方式。 方式 1:可以在 AI 定制的平台,通过非结构化的文档(比如 pdf word 文档、网页链接等)资料,来生新的大模型。 方式 2:选定某一 AI 开发平台,准备结构化的数据集(文本对信息)excel json 文件,通过重新训练的方式,来让大模型学习新知识。 同样,我以两个案例来介绍说明具体操作流程。案例 1:以开发“设计规范助手”为场景,Chatbase 平台作演示 第一步:选择“创建机器人”。 第二步:选择数据,这里提供 5 种数据类型,分别是文档、文本、连接、问答对、第三方笔记网址。 我提前准备好了三种关于日常会用到的文件,分别是:设计规范文档、方案库文档、各产品的用研报告,同时加入专业的提示文本和云设中台官网的链接,帮助大模型更好的学习我们的知识。 第三步:生成机器人开始测试。 通过三轮对话可以看到,它轻松的回答了我想要的问题,提供了正确的规范信息和健康度指标,以及如何设计数据标注场景的总结信息。 最后,只需要将它发布为网站,把链接提供给组内设计师使用即可。 案例 2:以开发“医疗客服助手”场景,千帆平台作演示。 第一步:准备数据,可以选择自己准备数据集,按照平台的示例引导进行操作;也可以直接使用平台提供的现成的行业数据集。比如我们选择这个医疗中文数据集。 第二步:训练模型,这个页面中,首先选择训练的大模型,可以根据大模型使用介绍进行选择。我们选择 Ernie bot 因为它中文效果更好。 其次是选择训练方法,不同的训练方法影响资源成本金额、消耗时间和模型稳定性;最后是选择训练参数,平台会根据已由信息提供推荐值,如果是开发人员对训练参数有了解,可以根据经验调整。点击确定开始训练, 第三步:训练完成后则将任务发布为模型,并把模型部署为服务。(这里不详细拓展) 第四步:在体验中心中,选择刚刚部署的服务,即可进行测试,了解这个医疗客服的实际效果。 以上就是在大模型中加入结构化数据的操作流程,这种方式需要耗费更多的金额和时间,但更适合于需要高精度回答效果的企业。 1)数据服务工具 这些平台提供现成可用的数据集,就不用耗费精力去准备数据,比如红酒知识、动物知识等,根据你的业务需求下载使用。 阿里 modelscope:http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fwww.modelscope.cn%2Fdatasets%3FTags%3Dtext-classification%26dataType%3Dtext%26page%3D1&urlrefer=9e7ad15ac5cb323852c7c1b15b4f9b1a 百度 AI Studio:http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Faistudio.baidu.com%2Fdatasetoverview&urlrefer=0bc9e090aa6f4009e667b02a06138be9 2)大模型调优工具 国外的大模型调优工具:谷歌、微软。最后总结 在过去,开发大模型的事情更多是专业的技术人员来做,而随着时代的发展,未来 AI 可能将普惠到每个人。以后我们可能人人都会开发一个自己的大模型,用具有我们数据的机器人去工作、聊天。 而目前产品的使用流程仍存在门槛,对小白用户的包容性不高,作为 AI 开发产品设计师,我们任重而道远,一直在大模型开发流程做得简单易用的路上持续努力 --- 本贴转自人人都是产品经理 题图来自 Unsplash,基于 CC0 协议。
Anthropic新功能让Claude助理可使用外部工具 AI创业公司Anthropic(30)日公布聊天机器人Claude新工具,可让Claude除了搜索或回答问题之外,还能集成API或外部数据源执行更多工作事项。目前已正式上线开放企业开发人员使用。 最新工具名为Tool Use,技术名称则为功能调用(function calling)。Anthropic说明,利用Tool use,Claude将可和外部用户端工具、API和功能互动,可代用户执行多种任务,像是搜索最新网页数据、从文件中截取数据输入报表,或执行客户服务。 目前Tool use已集成在Claude 3模型家族,供开发人员通过Anthropic Messages API、Amazon Bedrock、和Google Vertex AI访问使用。相关资源也在GitHub公开。 开发人员可以自然语言定义Claude连接的一组工具,日后用户下达指令时,它会自行选择必要工具动作。Claude可执行的行为包括从非结构化文本中截取结构化数据,像是从收据中截取人名、日期和金额数字,减少手动输入作业;将自然语言调用转化成结构化API调用,像是要求简单的自助行为(如取消订阅);搜索数据库或使用Web API,如为客户搜索即时、精确的答案;通过软件API自动化作业,像是自动化输入和文件管理;以及协同多个Claude助理完成细部作业,例如自动根据与会者有空的空文件找出最佳会议时间。 目前已有浏览器自动化平台Intuned、金融业及法务业LLM平台Hebbia和AI原生学习平台StudyFetch等公司,利用这项新功能开发Claude的增值功能。 OpenAI的ChatGPT、微软Copilot也都在去年推出类似扩展功能,可以插件、API集成外部工具或服务,提供AI代理订餐、订票、网购、搜索景点等即时资讯或更自动化的服务。
让所有人都能用上生成式AI,这就是云计算的意义 “我们是云计算的先驱,我们改变了云计算的形态,消除了传统高性能计算、集群存储对于设备维护的繁杂需求。我们让哪怕是普通的大学生,也可以享受到与大企业相同级别的、最先进的云端计算和存储架构。这就是我们亚马逊云科技过去十几年时间里,对整个云计算行业带来的巨大改变。”2024年5月30日,当此次亚马逊云科技中国峰会进入到第二天时,他们决定详细来谈谈云计算应对最新科技革命的意义。 全球领先的算力基础,不止更快、还更便宜 何谓最新的科技革命?毫无疑问,指的就是如今的生成式AI。不同于前几年的机器学习、深度学习,生成式AI不只是让机器学会“感知”,它更具“创造性”,可以产出一些前所未有的艺术、文学、工业设计成果。但生成式AI和过去的AI相关技术相比,对于模型的训练难度、数据的规模也都提出了高得多的要求。对于一款实用级的生成式AI大模型来说,如果只使用个人或企业自己的高性能显卡或者工作站、机房,那么训练一个大模型可能需要数年、十数年,甚至是一辈子的时间都不一定能够完成。正因如此,要想“创造”和训练生成式AI,基于云端的超大规模算力几乎是必不可少的。因为只有云端算力才有可能提供数十万、数百万块GPU的并行算力,同时通过“按需收费”的模式来平衡所有人的成本。那么在所有的云计算服务商里,亚马逊云科技的优势又体现在哪里呢?很显然,与NVIDIA的深度合作、全球首发的最新架构GPU超算方案,就是这个答案的一部分。对于极其重视计算速度的用户来说,只有在亚马逊云科技的服务中他们才能用到NVIDIA GB200这样的超级AI计算卡,最大程度地提高大模型的训练和生成速度。但这还没完。因为越是先进的GPU超算在单位时间内生成的数据流就会越大,这就对计算体系的存储性能、网络性能提出了更高的挑战。而亚马逊云科技则有自研的Nitro存储和网络加速系统,有目前行业里最先进的超大带宽网络架构。这也是为什么就连NVIDIA自己,也将他们用于研发自家新品的Project Ceiba超级计算机,部署在了亚马逊云科技的原因。而且如果你是一位不那么追求极致“快速”,而是更重视性价比、想要用最低花费生成自己大模型的用户,那么亚马逊云科技也有他们自研的Tranium和Inferentia芯片。这些超低功耗的芯片可以最大程度地降低算力价格,让任何人都能用得起云端大模型训练。 丰富的大模型选择工具,让开发少走弯路 当然,光有全球顶级的算力还不够,因为不可能要求每一个生成式AI的开发者都去自己收集数据、训练大模型。很多时候,大多数人会习惯于使用那些行业里最先进的、现成的大模型方案。但如今纵观业界不难发现,绝大多数的模型提供商要么只有自家的少数几个大模型,要么就是虽然会包含几种开源模型方案,但缺乏对模型的深度能力挖掘,因此对于经验尚浅的开发者也不那么友好。或许正是因为看到了这样的现状,亚马逊云科技首先是提供了业内数一数二丰富的大模型选择。在Amazon Bedrock上,既可以选用Amazon自研的大模型,还可以选择来自Meta、stability.ai等多家最新型号的开源大模型方案。值得一提的是,在Amazon SageMaker JumpStart中国区如今也有了越来越多的国内领先大模型方案。其中包括百川、零一万物的大模型,现在就已经可以在亚马逊云科技供国内开发者选用。 当然,大模型的选择丰富了,对于开发者而言也可能会变成一种“奢侈的烦恼”。比如,该如何知道哪一款模型更适合自己当前项目的需求呢?为此,亚马逊云科技还提供了高效的模型比较、评估功能。它只需几个小时,就能自动化地给出不同模型针对目标数据集的成本、性能、准确度的比较结果。这样一来,开发者不仅可以节约大量的试错时间,也变相地节约了云计算的开销,大幅降低了使用大模型进行开发的成本。 让“小白”参与科技进步,对整个行业都意义匪浅 看到这里,可能还有的人会说我连代码都不会写、完全不会编程,这是不是就意味着我就完全无法受益于生成式AI大潮,不能开发自己的生成式AI应用了呢?事实上,亚马逊云科技真能解决这样的苛刻需求。因为他们还有“黑科技”,那就是Amazon Q。Amazon Q是一种基于自然语言对话的生成式AI助手,如果你写代码不熟练、害怕出错,甚至可以只用自然语言将需求写成注释(比如“写一段xxx功能的代码”),Amazon Q就会自动根据上下文写出代码。它甚至可以给出多种不同的代码示例,从而帮你提高代码水平。如果完全不懂得编程,Amazon Q甚至还可以“从无到有”地直接“搓”一个简单的APP。只需要告诉它你的需求,剩下的就完全由亚马逊云科技的生成式AI来搞定。当然,尽管Amazon Q很强大,但亚马逊云科技方面很清楚只有让真正具备强大专业技能的AI开发者多起来,才能更好地推动生成式AI整个生态的不断进步。正因如此,除了一方面不断地以新技术方便开发者对生成式AI的使用,另一方面亚马逊云科技如今还在积极地开展对生成式AI的免费培训服务。无论是“云上探索实验室”、免费的生成式AI上云教材,还是有官方技术团队直接支持的亚马逊云科技社区,它们都在为扩大生成式AI开发者的“朋友圈”,为推动整个生成式AI和云计算行业的长期健康发展奉献自己的力量。
ChatGPT Edu版本来啦:支持GPT-4o、自定义GPT、数据分析等 5月31日,OpenAI在官网宣布,推出ChatGPT Edu版本。 据悉,这是一个专门为大学校园提供的ChatGTP,支持GPT-4o、网络搜索、自定义GPT、数据分析、代码生成等功能,可以极大提升学生、老师的学习质量和教学效率。 目前,牛津、剑桥、伯明翰等24所“罗素大学集团”的全球顶尖大学,已经在教育中使用ChatGPT等生成式AI产品。 而沃顿商学院、亚利桑那州立大学在今天也官宣与OpenAI进行合作,在教育领域深度应用ChatGPT。根据德勤、路透社新闻研究所最近发布的调查报告显示,18—24岁的年轻人,是应用ChatGPT等生成式AI的主力军。这是因为作为第一代“数字原生人口”,他们对新鲜技术的接受能力较强、善于通过网络资源寻找解决方案; 另外多数都是在校学生,教育作为拥有海量文本、图片、视频、音频数据的领域,是生成式AI最佳应用场景之一。 所以,OpenAI为了普及ChatGPT让更多的学生使用该产品缩短学习差距,同时抓住教育领域的风口推出了大学版本。 ChatGPT Edu主要功能 支持OpenAI最近发布的旗舰模型GPT-4o,可以跨文本、视频、音频进行多模态推理,例如,让GPT-4o通过语音模式帮你讲解一道高数难题,它的讲解流程就像1V1私教那样一步一步的教你,会详细讲解每一步为什么这么做,而不是一下全部把答案发出来。 数据分析、网络搜索和文档摘等高级功能:大学在学习专业课程时,有时候需要查阅大量PDF、Word文档,并且每个文档可能会有几十页,如果仅靠人力来查询相当费时间。你可以基于这些文档向ChatGPT提问,让其快速总结内容。自定义GPT,构建特定领域的ChatGPT版本:普通版本ChatGPT的预训练数据是基于公开数据集,在回答特定领域的问答时难免会出现错误、幻觉和不专业。 你可以通过自己搜集的数据来构建自定义GPT,例如,使用大量哲学方面的数据开发一个哲学AI助手。整个开发流程无需任何代码,全程支持可视化点击操作,这对于学生来说非常方便。 消息限制高于免费ChatGPT:由于学生使用的频率较高,所以OpenAI调高了Edu版本的消息限制,每天可以和ChatGPT聊更多的内容。 提升了语音的功能和质量,支持50多种语言:目前已经有不少学生使用ChatGPT来练习和学习特定语言,例如,用ChatGPT学习法语、日语、西班牙语等。 强大的安全机制:支持数据隐私和管理控制,内置了组权限、SSO、SCIM和GPT管理等功能。 数据安全、用户隐私是使用ChatGPT的重要基石,OpenAI表示,不会使用对话数据用于训练其AI模型。 ChatGPT实际应用案例 为了让教育领域深度认识到ChatGPT的诸多好处,OpenAI还在官网展示了多个实际业务应用案例。 沃顿商学院的Ethan Mollick教授的本科生和MBA学生,通过与经过课本数据训练的自定义GPT完成了期末反思作业,并且ChatGPT让他们能更深刻地了解自己所学的知识。 哥伦比亚大学的Nabila El-Bassel教授正在领导一项计划,将生成式AI融入到社区服务中,以减少用药过量致死率。她的团队开发了一个自定义GPT,可以分析和综合大型数据集,为干预措施提供信息,将数周的研究工作缩短到几秒钟。亚利桑那州立大学的助理教授Christiane Reves为学生开发了一款语言自定义GPT,帮助他们进行德语训练以及获得更好的反馈学习经验,这帮助他节省了大量的教育时间。 此外,宾夕法尼亚大学沃顿商学院和亚利桑那州立大学今天在官网也宣布,与OpenAI进行技术合作在教育领域深度应用ChatGPT。沃顿商学院表示,将从2024年秋天开始,向所有全日制和EMBA学生提供 ChatGPT Enterprise(企业版),将帮助学生实现更高效的学习模式。 沃顿商学院还正在开发一个开源大模型平台,主要用于教育领域的生成式AI产品研发,可以挖掘更多的教育、学习用例。 亚利桑那州立大学表示,作为最早一批应用生成式AI学校之一,已经启动了超过200多个与ChatGPT相关的教学、学习项目。 2024年春季已经启动了105个,而秋天会再启动114个项目,主要有三个目的改善教学质量,增强教育数据资源的利用以及加速创新技术的研究进程。 --- 本贴转自红板报 图© 由 红板报 提供
GPT-4o上手体验:迄今为止最像「人」的AI 什么是GPT-4o? 对,不是搜索,不是 GPT-5,而是 GPT-4 系列的一款全新多模态大模型。按照 OpenAI CTO 米拉·穆拉蒂(Muri Murati)的说法,GPT-4o——「o」代表了 omni(意为「全能的」)——能够接受文本、音频和图像任意组合的输入与输出。 而新的 GPT-4o 模型响应更快、处理更快、效率更高,也让人机交互在一定程度上发生了质的变化。 赶在 Google I/O 大会之前,5 月 14 日凌晨,OpenAI 发布了一个新模型——GPT-4o。 事实上,在不到 30 分钟的发布会中,最为人津津乐道的不是 GPT-4o 这个模型自身,而是在 GPT-4o 的支撑下,ChatGPT 的交互体验。不仅是人机语音对话体验更接近人与人之间的实时对话,视觉识别能力的进步也让 AI 更能基于现实世界进行语音交互。 简而言之就是更自然的人机交互。这很容易让人想起《她(Her)》中的 AI 虚拟助手,包括 OpenAI CEO 山姆·奥尔特曼(Sam Altman):但对很多人来说,更重要的可能是免费用户也能使用 GPT-4o(不包括新的语音模式),官方说将在接下来几周正式推出。当然,ChatGPT Plus 付费用户显然还是有「特权」的,从今天开始就可以提前试用 GPT-4o 模型。不过 OpenAI 演示中的桌面应用还未上线,ChatGPT 移动端 APP(包括 Android 与 iOS)也还没更新到发布会演示的版本。总之,ChatGPT Plus 用户暂时还体验不到的 ChatGPT(GPT-4o)新的语音模式。所以在某种程度上,目前 ChatGPT Plus 用户享受到的 GPT-4o 基本是未来几周 ChatGPT 免费版用户的体验。 但 GPT-4o 的实际表现如何?值不值得免费版用户重新开始使用 ChatGPT?说到底还是需要实际的上手体验。同时,通过目前基于文本和图像的对话,我们或许也能窥见新 ChatGPT(GPT-4o)的能力。 从一张图片中看出《原神》,GPT-4o 更懂图像了 GPT-4o 模型的所有升级,其实都可以总结为原生多模态能力的全面提升,不仅是文本、音频和图像任意组合的输入、输出,同时各自的理解能力也有明显的进步。 尤其是图像理解。 在这张图片中,有被部分遮挡的书本,还有一台正在运行游戏的手机,GPT-4o 不仅能准确识别书本上文字,根据知识库或者联网正确地识别出完整的书名,最让人惊艳的是能直接看出手机正在运行的游戏——《原神》。坦白讲,熟悉《原神》这款游戏的玩家大概都能一眼看出本体,但仅凭这张图片,很多没玩过游戏、不了解游戏角色的人基本都认不出《原神》。 当小雷询问 ta 怎么看出是《原神》时,GPT-4o 的回答也符合逻辑:无非就是画面内容、游戏界面以及视觉风格。 但同样的图片和问题,但我询问通义千问(阿里旗下)和 GPT-4,它们给出回答却很难令人满意。 类似的,在看了马斯克刚发的梗图之后,GPT-4o 也能较为准确地理解其中的笑点和讽刺之处。而在移动端 ChatGPT APP 上,通过一张非常局部的拍摄照片,GPT-4o 对场景的描述也算准确,并且也大致推理住宅区或者办公楼等范围。以上这些例子,其实都能在一定程度上说明 GPT-4o 在图像理解方面的进步。需要一提的是,根据 OpenAI 新的政策,几周后免费版 ChatGPT 用户也支持直接拍照或者上传图片给 GPT-4o。 此外,免费版用户在使用 GPT-4o 时,还能使用通过上传文件帮助总结、撰写和分析。不过从文件个数和大小上,ChatGPT 可能还是不如 Kimi 或者其他国内 AI 聊天机器人大胆,限制明显。 当然优点还是有,毕竟 GPT-4o 有着 GPT-4 的顶级「智能」。 新模式还没来,但语音体验已经上了一个台阶 但比起图像理解能力,在小雷看来,这次 GPT-4o 最重要的能力升级还得是语音。 虽然新的语音模式还没实装,很多演示中的体验都没办法感受,但打开现有的语音模式聊几句,就能发现 GPT-4o 的语音体验已经有明显的升级。 其一,不仅音色音调非常接近正常人的声音,更关键的是 AI 也能熟练掌握各种语气词,比如「嗯」「啊」等,对话中也会有一定的抑扬顿挫。与此相对的,能明显感受到,GPT-4o 下语音模式的回应更接近普遍意义上的「有感情」。 相比 Siri 等语音助手理所当然有大幅的进步,甚至比起目前一堆的生成式 AI 语音聊天,GPT-4o 下语音也显得更加保真和自然。 其二,过去在语音模式的对话中,说完话往往需要较长的时间才能让 ChatGPT 意识到我说完了,然后开始上传、处理和输出回答,以至于很多时候我会选择手动控制。但在 GPT-4o 下,ChatGPT 能够更灵敏地意识到我说完了并开始处理,基本就少了很多手动干涉。目前还是旧的语音模式和界面,图/ ChatGPT 不过缺点也有,有些小雷估计正式推出时也很难有明显的改善,比如一直在讨论的「幻觉」问题,并没有感受到明显的改善;但有些可能将在推出发生质的改变,比如对话的延迟。 从目前版本的体验来看,就算在聊天模式下网络连接一切正常,语音模式一开始连接就会花费不短的时间,甚至是连接失败。但即使连接上了,对话延迟还是很高,经常是我说完了要等待数秒才能等到语音回应。 实际上,旧的语音模式其实是先将用户的语音通过 OpenAI 的 Whisper 模型转录成文本,再通过 GPT-3.5/GPT-4 进行处理和输出,最后再通过文本转语音模型将文本转录为语音。这么一通下来,也就不难理解之前 ChatGPT 语音回答之慢、语音交互体验之差的的原因了。 同时,这也是新的语音模式让人期待的核心原因。按照 OpenAI 的说法,GPT-4o 则是跨文本、视觉和音频端到端训练的新模型,在新的语音模式下所有输入和输出都由同一个神经网络处理。甚至不只是文本和语音,新的语音模式还能基于手机摄像头的实时画面进行对话。新的语音模式和界面,图/ OpenAI 简单来说,原来 ChatGPT 回应你的语音必须要依序经过三个「脑」(模型)的处理和输出。而在即将到来的新模式下,ChatGPT 只要经过一个同时支持文本、语音乃至图像的「大脑」(模型),效率提升也就自然可以想象了。 至于到底能不能实现 OpenAI 演示中的超低延迟回应,还是要等未来几周新模式的实装,届时小雷也会在第一时间进行体验。 写在最后 诚然,在 GPT-4 发布以来的一年里,全球大模型还在疯狂涌现和迭代,与 GPT-4 之间的差距也在不断拉小,甚至一度超越(Claude 3 Opus)。但从权威基准测试、对战 PK 排行榜以及大量用户的反馈来看,GPT-4 依然是全球最顶级的大模型之一。 更重要的是,技术塑造能力,产品塑造体验。GPT-4o 再次证明了 OpenAI 依然在技术和产品上的绝对实力,而 GPT-4o 对于语音交互体验的迭代,恐怕还会再次消灭一批 AI 语聊、AI 语音助手方向的创业公司。 但另一方面,我们也再次看到了人机语音交互发生质变的希望。 --- 文 | 雷科技leitech
EMC创始人:人工智能的未来是去中心化的 年轻的读者可能不记得了,但云计算曾经是未来。无限计算和存储资源的出现代表了为数不多的名副其实的技术“革命”之一。但人工智能时代不仅使中心化云模型变得过时,而且对那些在其上构建的人以及每个用户来说也是一个危险。 如果这听起来有点夸张,请考虑一下最近发现的影响 Hugging Face(一个主要的人工智能即服务平台)的漏洞。此漏洞可能允许用户上传的被篡改模型通过其推理 API 功能执行任意代码,以获得升级的控制权。幸运的是,这个漏洞被及时发现,似乎并没有对用户造成严重影响——尽管研究人员指出,此类漏洞“远非独一无二”。这里的问题根本不在于AI;它是过时的、中心化的X-as-a-Service模型,在这种模型中,既没有动力保证系统的安全性,也没有动力开发市场和普通用户需要的应用程序。人工智能的首选未来——安全、可靠,最重要的是,能够利用大量的计算资源——只能通过颠覆云计算并拥抱去中心化革命来实现。 “大云”与人工智能的垄断 像微软、OpenAI、谷歌和亚马逊这样的巨型企业在人工智能领域占据主导地位,因为它们拥有使其大规模运作所需的巨大财力、人力和计算资源。 这对于人工智能的发展来说是可怕的,并且与其民主化潜力完全相反。当算法和应用程序由价值数万亿美元的加州公司的一小群开发人员构建时,它会给人工智能代理带来狭隘的、一维的和令人难以置信的主观偏见。从金融服务到创造力……甚至到人类互动的方方面面都会被影响。 反对人工智能市场垄断的技术论据同样令人信服。在整个训练过程中,人工智能必须不断吸收新数据,包括来自其他人工智能应用程序的数据。然而,大人工智能当前的中心化趋势意味着平台和应用程序仍然高度孤立,即使采用开源模型也是如此。这阻碍了创新,并为错误或恶意应用程序留下了空间,这些错误或恶意应用程序可能会倍增,带来令人眼花缭乱的潜在灾难性后果。 更重要的是,在保护用户的个人数据、隐私以及在许多情况下的财务信息方面,中心化模式存在巨大且明显的风险。当一个实体拥有大量敏感和关键业务数据时,它就代表了攻击者的单点故障,并使提供商能够根据任意且无可争议的决策来审查或拒绝向其用户提供服务。 通过权力下放实现民主化 当谈到人工智能时,云模型显然是一个危险的死胡同。人工智能需要如此惊人的计算能力,以至于它甚至扩展了超大规模中心化云平台和为其提供服务的微芯片行业的能力。芯片短缺如此严重,以至于业界最先进的人工智能应用程序使用的 H-100 服务器现在需要等待 52 周。 通过去中心化,我们可以创建一个节点网络,利用大量未使用的 CPU 能力储备,从而一次性消除这个问题。这种去中心化物理基础设施 (DePIN) 的模块化方法非常完美,原因有多种:它几乎可以无限扩展,比与云提供商一起安装新服务器便宜得多(成本通常低 80% 左右),并且有助于解决并行计算和人工智能的孤岛化问题,使应用程序可以更轻松地相互学习。此外,由区块链技术支持的去中心化人工智能提供了通过加密代币和智能合约奖励大型语言模型(LLM)创建者的创新方式——为奖励人工智能领域的创新和贡献提供了可持续且公平的模型。 新经济模式的兴起——特别是基于数字代币的经济模式——不仅增加了对更安全的去中心化基础设施的需求;它也支持它。将人工智能生态系统建立在代币经济的基础上,可以激励开发人员创建更安全的人工智能代理,并使他们能够将这些模型交付到加密钱包中以获得所有权。这让用户完全放心,他们的数据是他们自己的,未经他们的知情或许可,不得共享。 也许最重要的是,代币模型意味着人工智能项目将提供市场真正想要和需要的东西,因为计算和存储成本反映了供需的铁律。在目前的垄断下,人工智能没有动力去服务现实生活的需求。在去中心化的情况下,用户自己可以根据人工智能代理的受欢迎程度或其给世界带来的好处来奖励开发者。这与目前(但不会长久)统治人工智能的大型科技寡头有着天壤之别。 去中心化还为我们在 Hugging Face 等平台上看到的漏洞提供了答案。随着区块链技术的快速发展,特别是零知识(ZK)证明,我们现在拥有一系列工具来确保人工智能应用程序的安全性和来源。对于我们这些了解该领域的人来说,我们经常会忘记这种技术变革的速度和深度。这并不是说传统的云提供商正在竭尽全力地保留过时的模型;而是他们正在竭尽全力地保留过时的模型。只是去中心化和 ZK 是最近的发明,行业参与者自然需要一些时间才能意识到如何最好地应用它们来满足他们(及其客户)的利益。 这在很大程度上是一个教育问题:表明去中心化人工智能架构在正确构建时,在设计上是私密且安全的,所有链上数据都经过加密,但仍然支持不同项目、节点和各方之间的交互和协作。 对于人工智能来说,中心化在任何层面都不起作用:技术、哲学、道德或市场。更重要的是,我建议,随着人们对大型科技的巨大影响力越来越厌倦(和警惕)——从开发人员到技术提供商,再到像你我这样的日常用户——我们自己的革命的时候显然已经到来了。 --- 作者:Alex Goh,CoinDesk;编译:五铢,金色财经
比对口型还牛!实现文字生成指定面部的表情和动作 最近,对话形象生成模型在实现与音频的逼真准确口型同步方面取得了进展,但在控制和传达形象的细节表情和情感方面仍有不足,使生成的视频缺乏生动性和可控性。 因此,北京大学的研究团队提出了一种名为 InstructAvatar 的新颖方法,通过自然语言界面来控制虚拟形象的情感和面部动作,从而提供了对生成的视频进行细粒度控制的能力。InstructAvatar可实现的效果包括: 通过自然语言输入控制头像的情绪和面部动作。 利用一个自动注释管道构建训练数据集,使得头像可以根据文本指令和音频进行生成。 生成的头像能够准确同步口型,表情自然且生动。 相比于现有方法,在细粒度情绪控制、口型同步质量和自然度方面有更好的表现。 InstructAvatar 的框架包括两个组件:变分自动编码器(VAE)和基于扩散模型的动作生成器。VAE 用于将动作信息从视频中解耦,并根据音频和指令生成器生成的动作潜变量来生成最终的视频。在推理过程中,通过迭代去噪高斯噪声来获取预测的动作潜变量,并结合用户提供的肖像,使用 VAE 的解码器生成最终的视频。通过与基线模型的定性比较,可以看出 InstructAvatar 在唇同步质量和情感可控性方面取得了良好的效果。此外,模型生成的结果具有增强的自然性,并有效地保留了身份特征。 值得一提的是,该模型仅基于文本输入推断说话的情感,这在直观上提出了一个更具挑战性的任务。模型支持更广泛的指令范围,超出了大多数基线模型的范围。 此外,该模型展现了精确的情感控制能力,并生成了自然的结果。InstructAvatar 具有细粒度的控制能力,并在领域之外的场景中表现出良好的泛化能力。 项目入口:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Ftop.aibase.com%2Ftool%2Finstructavatar&urlrefer=978a43e330dab78dc881de341fab4abf
首页
3
4
5
6
7
8
下一页