LearnerForever LearnerForever
永远是你们的小吧,也希望吧友们开心快乐每一天。
关注数: 1,483 粉丝数: 2,228 发帖数: 25,761 关注贴吧数: 58
注意避开打着AI旗号的钓鱼网站 钓鱼网站可能伪装成可信网站,以欺骗您泄露个人或财务信息。即使它看起来可信且感觉可靠,您尝试访问的网站可能是伪装的钓鱼网站。继续访问这个网站可能会使您的敏感信息——比如密码、信用卡号、联系信息或软件激活密钥——面临风险。 这些攻击通常使用垃圾邮件、广告或从其他网站的重定向来试图欺骗您泄露敏感信息。友情提醒: 请在交流中保持警惕,尤其涉及到可能出现的网络陷阱,请保护好个人信息和财产安全,避免被不法分子利用,窃取您的个人信息,或者骗取钱财。 另外共享账号有风险,如必要,请不要发布或提问中不要包含任何个人隐私信息,防止信息被其他共享者窃取。 共享账号存在多次转让分享的情况,可能实际使用者比预计要多很多,所以极大提升账号被封的概率风险,请不要轻易分享您的账号。 对于主动分享账号的用户,我们请对其保持一定的警惕,避免利益受到损害,以及影响您的使用体验。除非您已经了解彼此,否则请保持一定的安全意识,避免出现问题后无法找回损失。 对于代充的人,请采取一定安全措施,确保自己的利益不受影响,在交流中请排出以下可能情况 1. 订阅渠道为官方订阅,非常渠道将导致账号封禁 2. 代充者在完成订阅后,不会退订 3. 代充者在收到费用直接跑路。 4. 代充者窃取账号信息,包括聊天信息。 5. 代充者篡改账号密码,盗取账号,或将您的账号分享给其他人,在未通知您,未经您同意的情况下,用做交易。 6. 代充者诱导,提供不实信息,大幅抬高订阅价格,导致吧友权益受损。 7.代充者诱导吧友,提供不实信息,非官方账号冒充官方服务收费。 8. 代充者过度宣传暂停PLUS的期限,以哄抬PLUS 共享费用。 以上行为均可能造成,吧友的权益受损,所以建议请吧友们尽可能自己完成PLUS的订阅,安全又经济,同时自己不断尝试的过程中也会学到很多。 建议先自己去官方网站去注册并激活。完成账号的创建, 以下是你可以参考的步骤以及相关依赖环境。 1. PC端或者移动端访问官方chat.openai.com链接 ,注册OpenAI账号 2. 访问sms-activate.org注册账号并充值至少2美元购买用于激活账号的手机,接收短信码用于激活您的OpenAI账号 3. 您需要开启节点,用于访问OpenAI服务 如何开通PLUS: 1. 您可以购买礼品卡,通过苹果手机订阅PLUS服务 2. 您可以绑定信用卡的方式开通PLUS 如果你对于使用chatgpt过程中遇到什么其他问题,可以随时提问,或者留言讨论。
李彦宏官宣,超越GPT4.0!百度含“AI”量,究竟多高? AI的尽头,不是储能,而是算力。 3月19日,OpenAI CEO 山姆·奥特曼在一档节目中表示,算力将成为未来最宝贵的财富之一,会成为未来的“货币”,人工智能的发展将是一场巨大的权力斗争。 作为算力板块的直接受益者,英伟达的股价一路飙升,超过了谷歌、Meta、亚马逊,成为美股第三大市值的公司。 有机构甚至预测,英伟达的市值会在年内超越苹果。 英伟达的成功,得益于AI应用层面的落地。OpenAI 作为大模型领域领头羊,其一举一动都会在行业产生深远的影响。 实际上,自去年OpenAI 大火之后,国内就掀起了AI浪潮。 不少互联网巨头也趁机推出了自己的大模型应用,其中做的比较好的有阿里、百度、科大讯飞等公司。但总的来说,尽管进步很快,但差距依旧存在。 3月9日,百度董事长李彦宏透露,公司开发的文心一言大模型4.0在中文处理上已超越GPT-4.0。为了能使外界更为信服,他还举例说明,尽管GPT-4.0能够创作诗歌,但在特定格式如《沁园春》词牌的要求下,GPT-4.0无法准确完成。 此外,李彦宏还强调,心大模型的用户数量在过去一年已突破1亿。百度文库等AI原生应用在模型升级后,实现了数据指标的显著提升。 此言一出,立马引发了业界一些大佬的拆台。 毕竟去年文心一言出来之后,李彦宏还曾说过,文心一言和ChatGPT的差距可能在一到两个月左右,差距并不大。 搜狗创始人王小川在接受采访时曾表示,“李彦宏很魔幻主义,去年2月就喊出比OpenAI只差两个月,已经够有幻觉了。” 短短一年时间,李彦宏文心一言从差距不大变成了超越。 但很显然,他在超越的问题上玩了一个文字游戏,他加上了“中文处理”。王小川认为,李彦宏不仅对GPT有误解,对自己的产品有误解,对国内模型也有误解,活在自己的幻觉中,并质疑李彦宏从团队接收的信息有问题。 对于王小川的说辞,百度团队也是立马进行了回击,百度副总裁、搜索平台负责人肖阳更是讽刺王小川脱离一线太久,对国内人工智能技术的发展缺乏了解。 3月9日,李彦宏在一档节目上公开称,基本上以后不会存在“程序员”这种职业了,因为只要会说话,人人都会具备程序员的能力。 而他的说法很快遭到了周鸿祎的驳斥,周鸿祎称,“程序员热十年内不会减弱。尽管未来人人都会用电脑,所谓人人都是程序员,但不同的人用电脑创造的产品完全不一样,AI 时代更需要计算机专家和程序员,他们可能是各行各业最有发言权的。” 此前,周鸿祎也曾说过,国内的大模型与ChatGPT至少是两年。 那么,百度的含“AI”量究竟有多高? 根据百度2023年发布的财报显示,2023年百度的总营收1345.98亿元,同比增长9%;净利润287亿元,同比增长39%。值得注意的是,百度的在线营销收入为751亿元,同比增长8%。据悉,百度的在线营销收入来源主要包括移动广告、搜索广告、信息流等业务。也就是说,百度收入的大头还是来自于“传统业务”。 在财报会议上李彦宏指出,“2023年第四季度,大模型为云业务带来约6.6亿元收入”。但该收入并不足以打消市场的疑虑。当文心一言发布后,网上出现了许多负面评价,李彦宏表示,对于ChatGPT和文心一言有着天壤之别的言论并不生气。 从上述数据我们不难看出,百度含AI量,目前并不算特别高。近期,因文心一言4.0会员效果不及预期等,用户投诉量有所增加,且其总体活跃用户数也已被字节跳动旗下的豆包超越。 值得注意的是,AI作为风口上的产业,目前的确是趋势所在,但风口变化之快,产品如果不能短期形成强有力的竞争,未来风险依旧很大。 此前,百度曾将重心放在了自动驾驶之上,但目前百度重心已经开始转移至AI领域。 近期,李彦宏在被问及到不想亲自下场造车时,他回复道:“那个门槛稍微有点高,得有生产资质之类的,比较麻烦。”
外媒:OpenAI已向客户提供GPT-5体验版,夏季或将正式推出 据外媒披露,OpenAI已向客户提供了GPT-5的体验版本,目前正处于红队测试阶段,预计最快今年夏季将正式发布。一些企业用户已有幸体验到了最新版的ChatGPT,他们对其性能给予了高度评价,称其具有质的飞跃。据报道,OpenAI展示了新模型如何根据客户公司的特殊需求和数据进行工作,同时还透露了一些未公开的功能,包括调用OpenAI正在开发的AI智能体来自主完成任务的能力。目前,OpenAI尚未确定GPT-5的具体发布日期,这意味着项目进度可能会有所变化。知情人士透露,OpenAI仍在对GPT-5进行训练,训练完成后将进行内部安全测试,并进一步接受红队测试,以发现潜在的安全问题。安全测试的完成时间尚不确定,因此发布计划也无法完全确定。 GPT-5的重要性不言而喻。一方面,由于ChatGPT已经吸引了大量用户,如果安全性出现问题,OpenAI可能会面临舆论压力。另一方面,To B业务是OpenAI的主要收入来源,定制化的ChatGPT可以显著增强各企业的业务能力和效率。GPT-5的发布也将解决了GPT-4发布后用户抱怨的问题,为企业用户提供更稳定的服务和更好的体验。 Altman在Fridman的播客中提到了关于GPT-5的许多细节。他表示,OpenAI将在未来几年内推出许多新产品,而在GPT-5推出之前,还将有其他重要产品发布。他认为GPT-5是一个全面更好的模型,各方面的改进都会导致更好的结果。此外,他呼吁监管机构监管AI,强调需要一个强健的治理体系来应对AGI的出现,因为他认为没有任何个人或公司有能力控制AGI。 Altman认为在AGI出现后,没有任何个人或公司有能力控制它。他强调了监管的重要性,并呼吁建立起一个强健的治理体系来确保AI的安全和可控性。
NVIDIA展示了完全由人工智能控制的NPC在游戏中的表现 周一,2024 游戏开发者大会拉开帷幕,各家公司纷纷展示了自己的人工智能游戏作品。Unity预告将与对话式人工智能初创公司Convai合作,而NVIDIA则宣布了一系列利用其MetaHuman和其他人工智能技术的项目。 在 GDC 2024 的主题演讲中,NVIDIA 首席执行官黄仁勋播放了一段《Covert Protocol》的简短预告片/解说,这是与人工智能 SDK 开发商 Inworld AI 合作的技术演示。Covert Protocol 是 Inworld 正在构建的人工智能增强开发平台的代号。它使用虚幻引擎 5 并利用NVIDIA 的多项 AI 技术(包括 Riva 自动语音识别和 Audio2Face)来提供逼真的角色,这些角色可以说话、做出反应并与周围环境实时互动。 《Covert Protocol》与 Convair/Unity 在 GDC 上展示的Project Neural Nexus 技术演示相似。主要区别在于,前者比 Neural Nexus 看起来要好得多。从图形上看,它采用了 UE5 和 Epic 的 MetaHuman 技术,效果令人惊叹。Neural Nexus 使用的是 Unity,显得单调乏味。 http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fyoutu.be%2FuryeFhnNzEs%3Fsi%3D-PeChIdM283xZRKy&urlrefer=b3d192325beeda3463a26a9798c5b6a1与以往的 MetaHuman Creator 演示相比,《Covert Protocol》的模型看起来更具可塑性。不过,我们必须考虑到,当 Epic展示高度精细、近乎逼真的模型时,并没有复杂的背景来消耗周期。因此,开发人员可以充分利用资源,使 MetaHuman 脸部看起来尽可能细致。隐秘协议》更接近于模型在成品游戏中的样子,这仍然是相当不错的。 与康维展示的 FPS 游戏相比,该演示的游戏玩法更像是对话式的神秘冒险。因此,我们没有看到任何激烈的动作,但它确实展示了对话片段,而且人工智能的面部动画和语音语调要好得多。语音仍然无法与人类配音相比,但也不像 Convai 的模型那样完全没有情感。其中有一些情感的暗示。 不可否认,这次演示给人留下了深刻印象,但它也像"神经连接项目"(Project Neural Nexus)一样,对游戏的未来提出了一些合理的问题。也就是说,游戏玩家是否真的希望能够与虚拟的 Chat-GTP 头像进行开放式、有时甚至是无意义的对话?还是他们会拒绝这些人工智能驱动的想法,转而选择传统的语音表演和脚本对话?没有成品还很难说。不过,我们已经可以看到人工智能疲劳症的出现,因为公司每天都在向消费者灌输基于人工智能的产品理念。如果目前的趋势继续下去,人工智能很快就会控制一切,从游戏到日常任务。没有经过深思熟虑就开发出来的游戏--过于依赖人工智能机制很可能会惹恼玩家,而不是将他们转化为销量。
全球科技公司加速布局AI芯片   新华社旧金山:美国芯片企业英伟达18日在加利福尼亚州圣何塞市举行的开发者大会上,最新推出基于Blackwell架构、可应用于人工智能(AI)领域的高性能图形处理器(GPU)B200。英伟达首席执行官黄仁勋表示,这次推出的人工智能芯片是“驱动这场新工业革命的引擎”。  据介绍,B200集成有2080亿个晶体管,是上一代芯片800亿个晶体管的2.6倍,在处理给聊天机器人提供答案等任务时,B200芯片的速度比上一代芯片快30倍。微软、亚马逊、谷歌等科技巨头将是Blackwell架构芯片产品的首批用户。   以美国开放人工智能研究中心(Open AI)推出现象级生成式人工智能产品ChatGPT为起点,美国主要科技公司纷纷聚焦生成式人工智能领域,带动人工智能新一轮爆发式发展的浪潮。   随着人工智能研究的前沿转向计算密集型大语言模型,构建复杂人工智能系统所需的数学运算与图形芯片的工作方式相似,需要同时进行大量简单计算,高性能图形处理器便成为训练人工智能的算力基础。   数据、算法和算力被认为是人工智能三大支柱。人工智能的数据模型对高性能、高算力的AI芯片需求极大,加之人工智能各领域应用快速发展,推动芯片行业的竞争日趋白热化,发展目标转向高算力、高灵活性和低功耗。   原本在图形处理器领域先行一步的英伟达公司就此找到更广阔的用武之地和发展空间。凭借AI热潮的助力,该公司股价一路攀升,跃身为全球第一家市值突破2万亿美元的芯片公司,反映了全球科技公司对于AI算力需求的激增。   随着Sora、“双子座”等大模型的相继推出,基于大模型的诸多应用逐渐落地,AI芯片供不应求的状况或在相当长时间内持续。   科技公司要想在大模型竞争中赶上潮流,就必须构建强大的算力设施,AI芯片正成为瓶颈。据估算,英伟达AI芯片目前占据全球该领域销售额的70%至80%。   目前谷歌、微软和“元”公司等科技巨头纷纷开始布局自研AI芯片,加入人工智能芯片竞争。美国超威半导体公司也宣布加大投入,以期挑战英伟达的市场主导地位。2023年12月,超威半导体发布了可用于训练和运行大型语言模型的MI300系列芯片产品。   在十九世纪中期的淘金热中赚到最多钱的是那些提供工具的人,而不是寻找金矿的人。今天,以英伟达为代表的人工智能芯片公司,可能在这场技术革命中扮演着同样的角色。
库克首次称苹果生成式 AI 今年晚些时候宣布 苹果公司 CEO 蒂姆・库克今日现身上海,被询问“iPhone 在 AI 上有何进展?”库克回答道,AI 已经运用在了苹果产品的各方面,例如 Apple Watch 的摔倒检测以及 iPhone 的预测性文本输入等功能,都是由 AI 来完成驱动的。据报道,这也是库克首度在中国谈及 AI 话题。库克同时重申,“苹果的生成式 AI,在今年晚些时候会有新闻宣布。”苹果在决定停止造车之后,已明确会将更多精力放在 AI 上,尤其是大语言模型方面的表现。 而在 2 月 29 日的苹果年度股东大会上,库克在谈到苹果的 AI 计划时表示,公司将在 2024 年在生成式人工智能领域“开辟新天地(break new ground)”。他强调:“我们相信这将为用户带来变革性的机遇。”结合此前的消息:彭博社、《纽约时报》近期均称苹果公司正在和谷歌磋商,计划在 iOS / iPadOS 系统中引入 Gemini 模型,为 iPhone / iPad 提供某些 AI 功能。 苹果公司确实已经和谷歌开始商讨,在下一代 iPhone 中使用 Gemini 的生成式 AI 模型。三位知情人士说,这些谈判是初步的,潜在交易的具体范围尚未确定。其中一位知情人士说,苹果公司还与其它人工智能公司进行了讨论,苹果公司希望充分使用大型语言模型的力量,分析大量数据并自行生成文本。 两位熟悉其开发情况的人士透露,苹果固然在开发自己的大型语言模型,但和 ChatGPT、Gemini 的差距短时间内是无法追上的。而摩根大通在投资备忘录中推测,苹果一方面专注于 iPhone 本地运行的小模型,另一方面通过和其它厂商合作引入大语言模型(LLM)。摩根大通认为相比较 OpenAI 的 ChatGPT 和谷歌的 Gemini,苹果目前在大语言模型方面处于落后状态,苹果公司也深知这一点,因此将重心放在可以本地运行的小模型方面,从而更好地发挥自己的优势。
32% 的组织已经在企业应用中部署生成式人工智能 根据 Recognise 最近的 CIO 调查,分享了一些有趣的发现。Recognise CIO 调查系列是在美国与250-500位首席信息官进行的定期调查。 调查数据显示,越来越多的组织采用生成式人工智能技术,如 ChatGPT、Bard 等。其中32% 的组织已经将这些技术部署为企业应用或流程,20% 的组织正在个别进行实验,显示出底层的兴趣。此外,有16% 的组织正在进行大型项目,14% 的组织正在原型阶段,显示出对探索生成式人工智能能力的重大兴趣。AI机器人打游戏 图源备注:图片由AI生成,图片授权服务商Midjourney 调查还揭示了组织在部署生成式人工智能时的主要关注点。60% 的受访者最担心的问题是安全性,这凸显了在人工智能系统中需要强大安全措施的迫切性。接下来,37% 的受访组织担心这些复杂技术的复杂性,31% 的组织表示在人才获取方面存在缺口,显示出该领域技术人员的短缺。同样,30% 的人担心硬件需求和人工智能模型可能存在的不准确性,27% 担心对工作的影响,反映了人力资源的影响,22% 担心投资回报率较低。 大多数组织正在使用 OpenAI 的 GPT-4,占58%,显示了其在该领域的主导地位。约21% 的组织采用了 OpenAI 的 GPT-3.5,超过5% 的组织采用了谷歌 AI 的 PaLM2。这种分布凸显了 OpenAI 在大型语言模型领域的显着影响。 调查数据显示,75% 的组织目前使用大型语言模型(LLMs),表明广泛采用。然而,20% 的组织尚未实施这项技术,5% 的组织对与这些先进人工智能系统的接触感到不确定。 此外,调查还揭示了组织在网络安全方面对托管服务(承包商)的重大依赖,79% 的组织依赖承包商进行网络安全监控和管理,这反映了由于该领域的复杂性而出现的强烈外包趋势。与此相反,19% 的组织不使用托管服务,表明他们在内部处理。这些数据凸显了托管服务在现代组织的网络安全格局中的关键作用。 调查显示组织对云技术的承诺不断增加。42% 的组织已经处于云迁移项目的中间阶段,35% 的组织几乎完成了云迁移工作,表明对云的重大承诺。与此同时,14% 的受访者正处于云迁移旅程的早期阶段。这些数据强调了当前商业领域中云技术的广泛采用和重要性。
开源Grok,不只是对OpenAI的“回击”,马斯克还有更大的谋划 马斯克旗下大模型公司xAI兑现诺言,正式对Grok-1大模型开源。随后在X平台上,马斯克还不忘嘲讽OpenAI一番,“我们想了解更多OpenAI的开放部分”。 据悉,Grok-1模型参数大小为3140亿,是迄今为止业界开源参数最大的模型。 马斯克的开源举措引发了业界的广泛关注和热烈讨论。表面上,这一举动像是针对OpenAI的一记“回击”,但从更深的层次来看,还隐藏着马斯克的战略谋划和考量。 据xAI去年公布的文档,尽管Grok-1在各个测试集中呈现的效果要比GPT-3.5、Llama2要好,但距离Palm-2、Claude2和GPT-4仍然差了一大截。 因此有分析认为,在强敌环伺,且Grok难以匹敌顶尖大模型的情况下,马斯克选择开源是必然之举,其考量之一可能是将模型迭代进化的任务交给社区。 开源还是闭源,一直是AI浪潮之下一个极具争议性的话题。有AI专家此前在接受《每日经济新闻》记者采访时认为,开源已是大势所趋。从商业角度来看,开源不仅能够避免少数财力雄厚的科技公司控制前沿模型,对于AI创业者来说,也进一步降低了门槛和成本。 马斯克的“阳谋”:让开源社区迭代模型 3月18日凌晨,马斯克旗下大模型公司xAI宣布正式开源3140亿参数的混合专家(MoE)模型Grok-1以及该模型的权重和网络架构。截至发稿,在Github上,该开源项目已经揽获31.6k星标,足见其火爆程度。值得注意的是,这是迄今为止业界开源参数最大的模型,超过GPT-3.5当时1750亿的参数量。 DeepMind工程师Aleksa Gordié预测,Grok-1的能力应该比Llama2要强,但目前尚不清楚有多少数据受到了污染,二者的参数量也不是一个量级。 从Grok-1的模型细节来看,值得注意的一点是,该基础模型基于大量文本数据进行训练,没有针对任何具体任务进行微调。而在X平台上可用的Grok大模型就是微调过的版本,其行为和原始权重版本并不相同。也就是说,xAI目前开源的Grok-1模型并不包括X平台上的语料。 据xAI去年公布的文档,从Grok-1的整体测试效果来看,Grok-1在各个测试集中呈现的效果要比GPT-3.5、70亿参数的Llama2和Inflection-1要好,但距离Palm-2、Claude2和GPT-4仍然差了一大截。基于此,有分析认为,马斯克开源Grok-1的一个考量是,尽管该模型表现尚可,但“比上不足,比下有余”,并未具备打败顶尖模型如GPT-4的能力,更别说未来的GPT-5。 在大模型角逐的当下,尽管Grok依托X平台的数据,但其无论是在能力上,还是知名度上都不具备与OpenAI、谷歌、Anthropic等公司匹敌的优势。尤其是今年以来,谷歌发布了Gemini,Anthropic发布了Claude3,大型语言模型的竞争更加激烈,在这样的情况下,马斯克选择开源路线也是必然之举。 模型开源让研究者和开发者可以自由地使用、修改和分发模型,打开了更多开放合作和创新的可能性。因此,一次性开源可以将迭代进化的任务交给社区。 正如月之暗面CEO杨植麟在此前接受腾讯采访时表示,“如果我今天有一个领先的模型,开源出来,大概率不合理。反而是落后者可能会这么做,或者开源小模型,搅局嘛,反正不开源也没价值。” 再加上马斯克频繁讽刺OpenAI并不Open,外媒Venture Beat认为,Grok-1的开源显然对他来说也是一个有益的立场。 不过,针对让社区来实现迭代这一目的,有业内人士在X平台表示,Grok-1的问题可能是模型参数太大,这需要巨大的计算资源,所以开源社区可能无法对Grok-1进行迭代。 另有评论认为,Grok-1没有对特定任务进行微调,这提高了用户使用它的门槛。AI工具饱和的市场可能更需要针对特定用例的工具。 开源乃大势所趋,初创公司迎来新机会 开源和闭源是当前AI浪潮之下的一个极具争议性的话题。 纽约大学坦登工程学院计算机科学与工程系副教授Julian Togelius在此前接受《每日经济新闻》记者采访时曾认为,开源是业界大势所趋,Meta正在引领这一趋势,其次是Mistral AI、HuggingFace等规模较小的公司。谷歌今年2月罕见地改变了去年坚持的大模型闭源策略,推出了“开源”大模型Gemma,似乎也是对Togelius言论的验证。 从技术视角来看,开源代码可以提高透明度并有助于推进技术发展,也能帮助了解模型弱点,这样才能更好地部署模型,从而降低风险。另一方面,也有不少反对开源的一派认为,开源AI会被不良行为者操纵从而造成风险。 从商业角度来看,Julian Togelius认为开源对防止权力集中很重要,能够避免少数财力雄厚的科技公司控制前沿模型。此外,还有分析认为,对于创业者来说,开源大模型则进一步降低了创业门槛,降低了大模型的开发成本,让更多创业者在基础模型方面处于同一起跑线上。 例如,目前许多开源模型都是基于Meta的开源模型Llama2而开发。据报道,截至2023年底,HuggingFace上开源的大模型排行榜前十名中,有8个是基于Llama2打造的,使用Llama2的开源大模型已经超过1500个。 Grok-1的权重和架构是在宽松的Apache 2.0许可下发布的,这使得研究者和开发者可以自由地使用、修改和分发模型,这种开源方式可以适应多种不同的任务和应用场景,更适合那些想要用开源模型打造自己专有模型的开发者。因此,有分析认为,Grok-1的开源也是为许多AI初创公司提供了另一个选择。 例如,AI初创公司Abacus AI的CEO就在X平台上表示,将开始研究Grok-1,并在几周内进行更新/发布。对话搜索引擎公司Perplexity CEO Aravind Srinivas也在X平台上发文称,将会基于Grok的基础模型进行对话式搜索和推理的微调。随着开源力量的不断壮大,马萨诸塞大学洛厄尔分校计算机科学教授Jie Wang曾对《每日经济新闻》记者表示,未来各个主要参与者可能都倾向于采用半开源的方式,类似Meta开源Llama2系列大模型的方式,即开源模型的某些部分,以便研究人员和开发人员了解模型的架构和训练过程,但保留最重要的部分,例如用于训练和预训练模型权重的完整数据集。 Grok-1走的也是这样的路线。 知名机器学习研究者Sebastian Raschka认为,“尽管Grok-1比其他通常带有使用限制的开放权重模型更加开源,但是它的开源程度不如Pythia、Bloom和OLMo,后者附带训练代码和可复现的数据集。”--- 图片来源:X平台 本帖转自每日经济新闻
Chat-With-MLX:一个在Mac上集成各种开源模型的聊天界面 Chat-With-MLX是一个利用苹果MLX框架实现的高效、多语言支持的检索增强生成(RAG)聊天界面。这个聊天界面可以轻松地自动集成任何HuggingFace和MLX兼容的开源模型,并支持通过URL与Doc(x)、PDF、txt文件和YouTube视频进行交互聊天。项目地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Ftop.aibase.com%2Ftool%2Fchat-with-mlx&urlrefer=c9502f215ce28ecd4bc91702917cbfa5 Chat-With-MLX的主要功能包括与数据聊天:用户可以通过URL与doc(x)、pdf、txt文件和YouTube视频进行聊天交互。此外,该界面支持多语言,包括中文、英语、法语、德语、印地语、意大利语、日语、韩语、西班牙语、土耳其语和越南语。这意味着用户可以使用他们最熟悉的语言进行交流。 另外,Chat-With-MLX还具有易于集成的特点,用户可以轻松地将任何HuggingFace和MLX兼容的开源模型集成到聊天界面中。支持的模型包括Google Gemma、Mistral、OpenHermes、NousHermes、Mixtral、Quyen、StableLM2Zephyr、Vistral、VBD-Llama2等模型。这意味着用户可以根据自己的需求选择合适的模型进行聊天交互,从而获得更加个性化的体验。 总的来说,Chat-With-MLX是一个功能强大且易于使用的聊天界面,为用户提供了更加便捷和多样化的交流方式。无论是处理文本数据还是观看视频内容,用户都可以通过这个界面与模型进行交互,获得所需的信息和帮助。希望Chat-With-MLX能够为用户带来更加愉快和高效的使用体验。 --- 本帖转自站长之家
微软Copilot Pro已覆盖超200个区域,将提供免费试用 继此前在今年1月,微软方面宣布推出月费20美元、适用于旗下人工智能(AI)助手Copilot个人用户的高级订阅服务Copilot Pro后。日前微软方面宣布,Copilot Pro正逐步向更多区域开放,目前已覆盖全球超过200个国家和地区。 据了解,Copilot Pro用户将能够优先访问OpenAI的最新模型GPT-4 Turbo,在高峰时段获得更快的性能;使用Designer的AI生成图像功能;体验到支持Copilot的Word、Excel、PowerPoint、Outlook、OneNote等应用(在订阅Microsoft 365个人版或家庭版的情况下)。值得一提的是,日前微软方面还宣布,将把Microsoft 365 Web应用中的Copilot免费向Copilot Pro用户开放。这也就意味着与Microsoft 365桌面应用不同,Copilot Pro用户访问Microsoft 365 Web应用的Copilot将无需参与Microsoft 365的订阅计划。 据悉,Microsoft 365 Web应用中的Copilot适用于多种语言,包括英语、法语、德语、意大利语、日语、葡萄牙语、西班牙语和简体中文等,但Excel中的Copilot仍处于预览阶段,目前仅支持英语。 同时微软方面还宣布,为了让所有用户更好地体验Copilot Pro功能和优点,将为iOS和Android版Copilot应用的用户提供为期一个月的免费试用期。 此外微软方面还宣布,Copilot for Microsoft 365将在未来几周内向Microsoft 365 F3、Microsoft 365 F1、Office 365 E1,以及Business Basic用户开放 。据悉,此前微软已于2023年11月为其E3和E5用户开放了Copilot for Microsoft 365,并于今年1月增加了对Microsoft 365 Business Premium和Business Standard的支持。而在价格方面,Copilot for Microsoft 365的价格为每人每月30美元。 对此微软搜索和人工智能营销总经理Divya Kumar宣布,“Copilot是您日常的人工智能伴侣,旨在为工作和生活的每个人带来生成式人工智能的力量。通过Copilot,我们致力于为每个人提供提升创造力和工作效率的机会”。 但需要注意的是,近日有用户反馈称,Copilot Pro存在偏执、多疑等倾向,其表现无法令人满意。据相关截图显示,Copilot Pro在经历几段对话之后,语气会变得比较强硬,并会单方面中断对话。 但截至目前,微软方面尚未对此进行回应。 【本文图片来自网络】
环球视角:美国联邦贸易委员会调查Reddit的AI许可协议 据外媒消息,近日,Reddit在提交给美国证券交易委员会的文件中透露,美国联邦贸易委员会正在对其人工智能许可协议进行调查。该公司正处于首次公开募股阶段,表示监管机构已通知Reddit官员,其“有意请求”关于公司人工智能交易的信息和文件。目前尚不清楚为什么美国联邦贸易委员会要调查Reddit这一相对较新的许可业务,但看起来调查尚处于初步阶段。Reddit在一份文件中写道:“2024年3月14日,我们收到联邦贸易委员会的一封信,信中告知我们,美国联邦贸易委员会的工作人员进行一项非公开调查,重点是我们向第三方出售、许可或共享用户生成内容以训练人工智能模型的行为。考虑到这些技术和商业安排的新颖性,我们并不惊讶联邦贸易委员会对此表示关注。我们认为自己没有参与任何不公平或欺骗性的贸易行为。” Reddit将其用户生成内容目录授权给第三方使用的交易是其增加收入、准备上市策略的关键部分。在公司申请上市当天,Reddit宣布与谷歌达成协议,谷歌将使用Reddit的数据来训练其人工智能模型。据报道,该协议价值约6000万美元。公司表示,此类协议“探索”尚处于早期阶段。 据Axios报道,其他公司也收到了美国联邦贸易委员会的类似信件。此前,监管机构已经对当前涌现出的一批生成式人工智能初创企业及其与大型科技公司的关系表现出了兴趣。联邦贸易委员会目前正在调查微软、Alphabet和亚马逊对知名人工智能初创企业的投资。 --- 【来源:环球网】 【环球网科技综合报道】
有消息称,阿联酋MGX或将投资OpenAI芯片工厂 近日有信息源透露,阿联酋人工智能投资公司MGX正与OpenAI方面进行关于投资芯片业务的初步讨论。此前有消息称,为摆脱对英伟达相关芯片的高度依赖,OpenAI CEO萨姆·奥尔特曼(Sam Altman)一直希望筹集足够的资金,用于提高全球人工智能芯片的产能,而传言中OpenAI芯片工厂的投资规模则从“数百亿美元”到“七万亿美元”不等。公开资料显示,不久前在2024年3月11日,阿联酋人工智能和先进技术委员会m (AIATC)宣布设立人工智能投资公司MGX,其投资策略主要集中在人工智能基础设施、半导体、人工智能核心技术和应用三个领域。该公司将以阿布扎比在这些领域的现有投资为基础,与国际技术和投资公司一起部署资本,其基础合作伙伴包括主权财富基金穆巴达拉(Mubadala)和阿布扎比人工智能企业G42。曾有知情人士透露,该公司的短期目标是管理超过1000亿美元资产规模。 值得注意的是,阿联酋方面已将人工智能作为其重点发展领域之一,并希望到2031年成为人工智能领域的领导者之一。此前在2023年,开源大语言模型Falcon、阿拉伯语开源大语言模型Jais相继推出,2023年6月迪拜人工智能中心启动,2023年8月迪拜国际金融中心开始以90%的补贴为人工智能和Web3企业提供商业许可证。众所周知,芯片产业需要海量资金的支持,因此在OpenAI的芯片工厂计划中,或不止是MGX这一家主权财富基金。此前就曾有消息源透露,新加坡主权财富基金淡马锡的高管曾在短期内多次会见奥尔特曼,双方的谈判始于奥尔特曼的投资基金Hydrazine Capital,之后才转移到AI芯片工厂方面。 并且淡马锡也是目前全球最活跃的投资者之一,而且AI正成为其所关注的重点,此前该公司就投资了英国法律技术公司Robin AI、韩国AI芯片设计初创公司Rebellions和硅谷生成式AI芯片设计企业d-Matrix。 【本文图片来自网络】
戴尔员工可选择远程办公,但升职将无望 戴尔公司在实施混合办公文化已有十余年之久,远早于疫情爆发。“戴尔看重的是工作成果,而非工作地点,”一位在戴尔远程工作十多年的资深员工上个月告诉 BusinessInsider,“当时每个团队约有 10% 到 15% 的员工远程工作。” 这种灵活性使员工能够应对重大生活变化,并保持职业生涯的稳定,也帮助戴尔自 2018 年以来一直被列入“残疾人平等指数最佳工作场所”名单。 然而,今年 2 月戴尔出台了一项严格的重返办公室政策,并对希望居家办公的员工采取惩罚性措施。 根据新政,从 5 月份开始,几乎所有员工都将被归类为“混合办公”或“远程办公”工作者。内部文件显示,“混合办公”员工需要每季度至少 39 天到公司指定的办公室上班,相当于每周大约三天。 如果员工想继续居家办公,可以选择完全远程办公。但这种选择也有弊端:完全远程办公的员工将不会被考虑晋升,也不能换岗。 备忘录中写道:“对于远程办公团队成员来说,了解权衡取舍很重要:职业发展,包括申请公司内部的新职位,都需要团队成员重新归类为混合办公到岗。” “整个公司都在私下抱怨这件事,” 一位与高层管理人员一起工作的戴尔员工说。由于担心遭到报复,这名员工要求匿名。 戴尔在一份声明中称,“面对面的沟通加上灵活的工作方式,对于推动创新和价值差异化至关重要。” 这种做法与戴尔创始人兼首席执行官迈克尔・戴尔此前对远程工作者的支持背道而驰。2021 年,他告诉 CRN 杂志,公司扩大远程办公文化的做法“绝对会持续下去”。这位亿万富翁后来还在领英上批评强制员工重返办公室的公司:“如果你依赖在传统办公室强制加班来创造协作和在组织内提供归属感,那么你做错了。” 截至 2022 年,公司并没有改变既定方針:“戴尔科技公司的长期目标是在任何一天让 60% 的员工远程办公。” 但据 CRN 报道,2023 年 3 月,戴尔开始改变政策,发布了一项新的强制令,要求所有距离办公室一个小时车程内的员工每周至少来公司三天。 组织心理学家、工作场所健康和福祉问题全国论坛的联合创始人卡里・库珀教授表示,戴尔此举可能是 “对疲软的世界经济的恐慌反应”。库珀还表示,这其中还存在着 “群体心态”,科技公司试图效仿其他所有人正在做的事情,而不是继续坚持对他们有效的方法。
AI创业的77个方向 随着 AI 的发展和不断挖掘能力,很多工作已经可以用 AI 来代替。这种情况下,用 AI 来创业成为很多人的选择,那如何选择创业方向呢?文章给了 77 个建议,可以参考。人工智能系统可以分析大量数据、识别模式并根据处理的信息做出预测或建议。对于创业来说,人工智能可以在多个方面带来巨大的好处。人工智能有潜力彻底改变创业精神,使初创企业能够在不断变化的市场环境中更高效地运营、更有效地创新并更好地满足客户的需求。 以下是 77 种利用 AI 赚钱的方法,大致可以分为文字语言类、咨询服务类、应用平台类。 01 写作工坊 组织研讨会,让参与者学习如何使用人工智能来提高创造力和生产力。 02 虚拟语言课程 利用人工智能的语言处理能力提供个性化的语言学习课程。 03 法律文件审查服务 基于 AI 自然语言理解,为律师事务所提供高效的文件审核服务。 04 简历优化服务 提供简历优化服务,利用人工智能对就业市场趋势的洞察来优化内容。 05 简历筛选工具 开发工具来筛选简历并根据人工智能对工作要求和候选人资格的分析来识别最佳候选人。 06 语言翻译服务 提供由人工智能自然语言理解和翻译能力支持的语言翻译服务。 07 内容本地化服务 借助 AI 适应不同市场和语言的能力,为企业提供内容本地化服务。 08 可持续发展咨询服务 通过人工智能对环境影响的分析和最佳实践,为企业提供可持续发展咨询服务。 09 时尚造型服务 基于 AI 对用户喜好和趋势的分析,提供个性化的时尚造型服务。 10 虚拟治疗课程 利用人工智能对人类行为和语言的理解提供虚拟治疗课程。 11 活动门票推荐服务 基于人工智能对用户偏好和兴趣的分析,提供推荐活动门票的服务。 12 客户支持解决方案 利用人工智能理解和响应查询的能力,为企业提供人工智能驱动的客户支持服务。 13 职业咨询服务 提供职业咨询服务,根据人工智能对就业市场趋势的分析,提供个性化的建议和指导。 14 投资组合咨询 利用人工智能的财务分析功能,推荐适合个人偏好和风险状况的投资组合。 15 房地产投资建议 基于人工智能对市场趋势和用户偏好的分析,提供个性化的房地产投资建议。 16 数字营销策略咨询 基于 AI 对市场趋势和消费者行为的分析,为企业提供个性化的数字营销策略咨询。 17 就学咨询服务 提供个性化的就学咨询服务,根据 AI 对学业成绩、课外活动和理想职业的分析,提供定制化的指导和支持。 18 虚拟活动策划 基于人工智能了解用户偏好和要求的能力,提供虚拟活动策划服务。 19 室内设计咨询 通过人工智能对设计原则和用户偏好的理解,提供个性化的室内设计咨询。 20 图书推荐 基于人工智能对阅读习惯和偏好的分析,提供个性化图书推荐服务。 21 个人购物助理 提供个性化购物辅助服务,根据人工智能对用户偏好和需求的分析推荐产品。 22 能源效率咨询服务 通过人工智能对能源使用数据和最佳实践的分析,为企业提供能源效率咨询服务。 23 虚拟招聘会 组织虚拟招聘会,求职者可以与雇主联系,并根据人工智能的分析获得个性化的工作推荐。 24 旅行保险建议 根据人工智能对旅行计划和用户偏好的分析,提供个性化的旅行保险建议。 25 时尚趋势分析 开发时尚趋势分析工具,并根据人工智能分析为企业产品开发作指导。 26 虚拟家居装修咨询 通过人工智能对设计原则和用户偏好的理解,提供虚拟家居装修咨询。 27 虚拟家居布置服务 通过人工智能对设计原则和买家偏好的理解,提供虚拟家居布置服务。 28 美容产品推荐 基于人工智能对皮肤类型和偏好的分析,推荐个性化美容产品。 29 会员订阅服务 根据人工智能对用户偏好和兴趣的分析,提供个性化的网络订阅选择。 30 投资资讯 开发个性化的投资资讯,根据人工智能对市场趋势和用户偏好的分析提供见解和建议。 31 礼品推荐服务 根据人工智能对收件人偏好和兴趣的分析,提供个性化礼物推荐。 32 虚拟商务社交活动 组织虚拟社交活动,企业可以根据人工智能对行业趋势和机遇的分析进行联系和协作。 33 时尚订阅服务 提供时尚订阅服务,根据人工智能对风格偏好和合身的分析,提供个性化的服装选择。 34 职业发展计划 基于 AI 对技能、兴趣、市场趋势的分析,提供个性化的职业发展计划。 35 托儿服务 提供个性化的托儿服务,根据人工智能对儿童发展里程碑、兴趣和偏好的分析,提供定制的护理计划和活动。 36 虚拟婚礼策划服务 提供虚拟婚礼策划服务,根据人工智能对用户偏好的分析,为场地、供应商和主题提供个性化推荐。 37 退休规划服务 提供个性化的退休规划服务,根据人工智能对财务目标和时间表的分析,提供定制的储蓄和投资策略。 38 商业创意研讨会 组织研讨会,根据人工智能对技能、兴趣和市场趋势的分析帮助创业者思考商业机会。 39 在线约会服务 创建在线约会服务,根据人工智能对个性特征、兴趣和关系目标的分析提供个性化配对。 40 教育玩具 根据人工智能对发展里程碑和学习风格的分析,创建可提供个性化学习体验的教育玩具。 41 送餐服务 提供送餐服务,根据人工智能对饮食偏好、营养需求和烹饪偏好的分析,提供个性化菜单选项。 42 爱好推荐 提供个性化兴趣爱好推荐,根据 AI 对个人喜好和生活方式的分析,为休闲活动和兴趣提供定制化建议。 43 情感关系咨询服务 提供个性化关系咨询服务,根据人工智能对沟通方式、冲突解决技术和关系动态的分析,提供定制建议和策略。 44 旅游摄影之旅 组织旅游摄影之旅,根据人工智能对目的地、风景和文化事件的分析,提供个性化的行程和摄影技巧。 45 自由职业技能发展课程 提供个性化的自由职业技能发展课程,根据人工智能对个人技能、兴趣和市场需求的分析,提供定制的培训和资源。 46 儿童发展研讨会 组织儿童发展研讨会,根据人工智能对发展里程碑、学习风格和兴趣的分析,为家长提供个性化建议和策略。 47 文化沉浸体验 提供个性化的文化沉浸体验,根据人工智能对文化兴趣、语言熟练程度和旅行偏好的分析,提供定制的行程和活动。 48 养老服务 提供个性化的老年护理服务,根据人工智能对健康状况、行动限制和社会偏好的分析,提供定制的护理计划和活动。 49 健身静修 根据人工智能对健身目标、饮食偏好和生活习惯的分析,组织健身静修活动,提供个性化的健康体验。 50 音乐创作服务 利用人工智能对音乐理论和作曲风格的理解,提供定制音乐作曲服务。 51 社交媒体管理工具 开发工具来分析社交媒体数据并根据人工智能的建议自动创建内容。 52 虚拟助理市场 基于 AI 自然语言处理,创建招聘虚拟助理的市场。 53 食谱生成应用程序 通过人工智能的数据分析,根据个人饮食偏好和营养需求生成个性化食谱。 54 虚拟辅导平台 由人工智能知识库提供支持,开发跨学科个性化辅导课程平台。 55 营销活动优化 利用人工智能对消费者行为和偏好的分析,开发工具来优化营销活动。 56 财务管理应用程序 利用人工智能数据分析,开发可以提供个性化财务管理建议和预算工具的应用程序。 57 冥想应用程序 创建冥想应用程序,根据人工智能对用户偏好和心理健康需求的分析,提供个性化的冥想课程。 58 职业技能培训项目 基于人工智能对就业市场趋势和雇主需求的分析,提供个性化的职业技能培训计划。 59 音乐平台 基于人工智能对用户偏好和收听习惯的分析,开发推荐个性化音乐播放列表的平台。 60 儿童学习应用程序 为儿童创建教育应用程序,根据人工智能对学习方式和进度的分析,提供个性化的学习体验。 61 社媒博主营销平台 根据人工智能对受众人口统计数据和参与度指标的分析,开发将企业与社交媒体博主联系起来的平台。 62 读书俱乐部 组织虚拟读书俱乐部,根据人工智能对阅读习惯和偏好的分析,推荐个性化的图书选择。 63 金融知识培训项目 基于 AI 对个人知识差距和学习方式的分析,提供个性化的金融知识培训项目。 64 营养指导计划 根据人工智能对饮食偏好、健康目标和营养需求的分析,提供个性化营养指导计划。 65 旅行规划应用程序 创建旅行规划应用程序,根据人工智能对用户偏好的分析,提供目的地、活动和住宿的个性化建议。 66 职业指导计划 提供个性化的职业指导计划,根据人工智能对技能、兴趣和市场趋势的分析提供定制的建议和策略。 67 心理健康辅导应用程序 开发心理健康辅导应用程序,根据人工智能对个人需求和挑战的分析,提供个性化支持和策略。 68 育儿培训平台 提供个性化育儿培训平台,根据人工智能对儿童发展和育儿方式的分析,为家长提供定制的建议和策略。 69 睡眠指导应用程序 开发睡眠指导应用程序,根据人工智能对睡眠模式、习惯和挑战的分析,提供个性化的睡眠提示和策略。 70 音乐治疗项目 开发音乐治疗项目,根据人工智能对个人偏好、情感需求和认知能力的分析,提供个性化的治疗体验。 71 营养教育项目 为学校制定营养教育计划,根据人工智能对饮食偏好、营养需求和学习方式的分析,提供个性化课程和资源。 72 在线语言交换平台 创建在线语言交换平台,根据人工智能对语言能力、学习风格和文化兴趣的分析,提供个性化的语言学习体验。 73 青少年财商培训项目 为青少年提供金融扫盲计划,根据人工智能对财务目标、消费习惯和职业抱负的分析,提供定制的课程和资源。 74 绿色生活工作坊 组织绿色生活研讨会,根据人工智能对环境影响、生活方式偏好和预算限制的分析,提供可持续生活的个性化建议和策略。 75 退休人士社交平台 为退休人士提供分享爱好的社交平台,根据人工智能对退休人士偏好的分析,为退休人士提供丰富业余生活的平台。 76 旅行安全培训项目 提供个性化的旅行安全培训计划,根据人工智能对目的地风险、文化规范和应急准备的分析,提供定制建议和策略。 77 创业孵化器项目 提供个性化创业孵化计划,基于人工智能对商业创意、市场趋势和行业动态的分析,为创业者提供定制化的支持和资源。 人工智能提供的可能性是巨大的。从个性化服务和预测分析到自动化和创新,人工智能为企业家提供了一系列创造价值、提高效率和推动企业增长的机会。通过有效利用人工智能技术,企业可以保持领先地位,适应不断变化的市场动态,并在竞争日益激烈的环境中开辟新的成功途径。随着我们不断探索和利用人工智能的潜力,创业的未来拥有无限的可能性,仅受限于我们的想象力和野心。 --- 专栏作家 MsQ 星球,人人都是产品经理专栏作家。关注商业模式和创新商业模式,擅长商业创业分析。 题图来自 Unsplash,基于 CC0 协议
苹果推出 300 亿参数 MM1 多模态大模型,可识别图像推理自然语言 苹果公司旗下研究团队近日在 ArXiv 中公布了一篇名为《MM1:Methods, Analysis & Insights from Multimodal LLM Pre-training》的论文,其中介绍了一款 “MM1”多模态大模型,该模型提供 30 亿、70 亿、300 亿三种参数规模,拥有图像识别和自然语言推理能力。苹果研究团队相关论文主要是利用 MM1 模型做实验,通过控制各种变量,找出影响模型效果的关键因素。 研究表明,图像分辨率和图像标记数量对模型性能影响较大,视觉语言连接器对模型的影响较小,不同类型的预训练数据对模型的性能有不同的影响。苹果推出 300 亿参数 MM1 多模态大模型,可识别图像推理自然语言© 由 IT之家 提供 据介绍,研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家(Mixture of Experts)架构及一种名为 Top-2 Gating 的方法构建了 MM1 模型,号称不仅在预训练指标中实现了最好的性能表现,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。 研究人员对“MM1”模型进行了测试,号称 MM1-3B-Chat 和 MM1-7B-Chat 优于市面上绝大多数相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、MMMU 和 MathVista 中表现尤为突出,但是整体表现不如谷歌的 Gemini 和 OpenAI 的 GPT-4V。--- 本帖转自IT之家
懂AI PC的人要先拥抱新世界了 | 模力时代 2024年第一个四分之一还没过完,PC市场的最热关键词,已是非「AI」莫属。 最新消息,继联想、荣耀之后,微软的首款AI PC马上也要来了。 据Windows Central爆料,微软将于3月21日发布新款Surface Pro和Surface Laptop。 两款新品围绕人工智能打造: 硬件方面,Intel版本搭载号称“AI CPU”的全新Intel Core Ultra,arm版本则用上了能把130亿参数大模型塞进PC的高通骁龙X Elite。 软件方面,两款新品均将首批支持Windows 11的“下一代”AI体验,包括一个内部名为“AI Explorer”的全新AI功能。消息人士称,AI Explorer将会“使AI PC与非AI PC完全区分开来”,依靠自然语言交互,用户就能在PC上完成一切。 (贾维斯内味儿,这不就来了吗doge)这还不算完,各种老牌PC玩家也都坐不住了,纷纷放出自家首款AI PC的消息。 由大模型技术风暴掀起的「模力时代」中,我们日常使用的生产工具正在加速变革。 这样的趋势,现在越发明朗。而终端产品的变革,也意味着,对于人们的日常工作生活而言,新一代的办公、学习姿势已经在酝酿之中。△ChatGPT4生成 那么,问题来了—— 对于普通打工人而言,产品概念花里胡哨,但究竟怎样的PC,才算是真正的AI PC? PC可以怎样AI? 终端侧AI趋势开始后,终端、芯片、应用厂商正在用一个个面向生成式AI的芯片逐步补全关于AI PC的定义。 最先勾勒出想象的是微软。 去年9月,Colpilot正式进入Windows 11,成为电脑系统的AI助手。这彻底掀开PC上自然语言交互的序幕,更改设置、整理桌面、打开软件都能通过聊天的方式实现。联想紧随其后,推出首款AI PC,展示了大模型运行在本地后,给用户带来更加专属化的体验。 基于用户个性化信息创建本地知识库,量身定制完成一系列新任务。 比如基于电脑上的家庭照片和视频,创作一段“智能剪辑”。再或者是成为更本地化的工作助手,帮助写文档、总结知识点、提升生产力。与此同时,最关键的底层芯片也重大更新。 高通发布骁龙X Elite,就从底层角度给出了关于AI PC的一系列思考。 这块4nm制程的CPU支持130亿参数大模型的本地运行,70亿参数模型可每秒生成30个token。 AI引擎算力可达75TOPS,AI处理速度可达竞品的4.5倍。 CPU、GPU性能均是竞品的2倍,相同峰值性能功耗比竞品低68%。除此之外,刚落幕不久的MWC 2024上,高通还展示了多模态大模型在PC本地运行的示例。 它能理解音频并进行推理,可实现语音输入的多轮对话。 这意味着,AI PC趋势和多模态趋势正在交汇融合,传统PC的交互方式将发生更加彻底的变革。透过厂商们的实际动作,一些关于AI PC的初步共识已逐渐清晰。 即AI PC应该成为一个用户专属的个人助理,它具备强大的AI能力和底层计算能力,将人类从日常生活中常规的、重复性的、看似琐碎的工作中解放出来,转而从事更加具有创造性、求变的工作。 但问题是,现在的传统PC如何才能走到这一步?哪些地方已经悄然发生改变? 技术趋势给出了一定答案。 AI如何重塑PC? 面向生成式AI,PC要经历的是一场全新计算架构的变革。从底层硬件到上层应用,都正在发生变化。 因为生成式AI浮现出的典型场景,给计算连接等都提出新要求。 高通最新公布的《通过NPU和异构计算开启终端侧生成式AI》白皮书中总结,生成式AI用例可分为三类: 按需型:由用户出发,需要立即响应。比如在PC上生成会议摘要、开车时用语音查询最近的加油站。 持续型:运行时间较长。比如用手机进行实时对话翻译,PC上玩游戏时逐帧运行超级分辨率。 泛在型:在后天持续运行。比如始终开启的预测性AI助手。 这些情况都面临两大关键挑战。 第一,考虑到终端的功耗和散热问题,通用CPU和GPU难以满足这些AI任务的计算需求。 第二,生成式AI应用还在不断丰富,不能在功能完全固定的硬件上进行部署。硬件方面,NPU和异构计算成为应对挑战的关键。 在终端侧AI趋势兴起后,原本更常出现在手机芯片上的NPU,也开始在电脑芯片上发挥更加重要的作用。 NPU(Neural Processing Unit)专门为加速神经网络和AI任务而生,可以快速处理AI推理任务。它不易于编程,但能实现更高的峰值性能、能效和面积效率,从而运行机器学习所需的标量、向量和张量数学运算。 随着AI趋势演变,NPU的设计也发生了一系列变化。比如2015年时,NPU主要面向音频和语音AI设计,用于简单CNN并主要需要标量和向量数学运算。 后面随着AI在拍照和视频中的使用增多,以及Transformer、RNN、LSTM和高维度CNN等模型相继出现,NPU又增加了张量加速器和卷积加速,可以降低内存带宽占用和能耗。 发展到大模型时期,低时延、续航、内存、等因素共同要求下,NPU往往比GPU表现出更好的能效和性能,也使得NPU成为生成式AI终端上不可或缺的部分。举例来看,骁龙X Elite上集成的Hexagon NPU算力达到45TOPS。 在不损失太多精度的情况下,Fast Stable Diffusion能够在0.6秒内生成一张512×512分辨率的图像。但随着生成式AI终端逐渐发展,端侧运行的模型可能规模还将继续扩大,多模态趋势已经显现,还有可能会搭载多个大模型。 仅靠NPU来支撑生成式AI任务,可能还不是最佳方案。 目前厂商们已经开始通过异构计算,让不同处理器分别处理擅长的任务,也就是让全部处理器都来支持生成式AI任务。这一直是高通坚持且擅长的赛道。GPU不仅用于处理图像任务,也能用于以高精度格式进行AI并行处理,支持FP32、FP16、INT8运算。 CPU则能用于计算量低、要求低时延的AI任务上,如高通Oryon CPU性能达竞品的2倍,功耗还降低了三分之二。 处理器之间的相互配合,可以进一步释放AI引擎性能,超越单NPU效果。与此同时,软件层面也受到AI影响发生改变。 一方面,生成式AI终端需要软硬结合才能更充分释放性能;另一方面,开发者也需要适宜当下的工具,能够更快速将大模型加入到应用中。 在MWC 2024上,高通宣布推出的AI Hub正是这样一个平台。 它是一个全面的模型优化库,为开发者提供超过75个主流模型,如Stable Diffusion、ControlNet、Baichuan-7B等。这些模型全部经过优化,可以充分利用高通AI引擎内所有核心的硬件加速能力,实现4倍推理速度提升。开发者能快速将大模型无缝集成到应用程序中,缩短产品面市时间。 同时这些优化后的模型也同步上线到GitHub、Hugging Face。开发者可在搭载高通和骁龙平台的云托管终端上自行运行模型。更早推出的高通AI Stack可全栈支持主流AI框架(如TensorFlow、PyTorch、ONNX和Keras)和runtime。集成高通神经网络SDK,面向Android、Linux和Windows不同版本。 此外还提供一系列量化、压缩开发工具,能够在尽量不降低模型精确度同时压缩模型。一些生成式AI模型由此可以量化至INT4。总之,从底层硬件到上层软件,都在以生成式AI为中心进行快速变革。 巨头们脚步一致,纷纷加速All in AI,也让生成式AI带来的变革更加迷人。 AI变革究竟会如何影响每一个人的生活? AI PC展现出的演进过程,已经给大家做了一些小剧透。 AI PC通往何处? 细数起来,AI PC从概念兴起到初步产品落地,刚刚过去半年的时间。 高通产品管理高级副总裁兼AI负责人Ziad Asghar将其类比为“人们刚刚能够实现手机上网”的阶段:数十亿人都能够通过手机连接到网络,奠定了此后移动互联网应用大爆发的格局。 我想如果我们能够在终端侧实现AI的发展,就可以把生成式AI的能力和优势充分发挥出来,打破所有的界限,利用生成式AI的能力让我们在生活、工作、娱乐、医疗等各个方面都获得更好的体验。 换言之,AI重构PC,现在正是打地基的阶段。 从上述各大厂商的动作之中,可以梳理出几个关键的环节: 云端大模型能力向终端侧的迁移 为生成式AI打造的芯片+AI开发平台 基于AI+5G技术的设备互联 前两者不再做过多赘述,设备互联,则关系到生成式AI的发展从第一阶段走向第二阶段的实质: 数据在哪里,AI推理就在哪里进行。 短期来看,终端生成式AI基础能力的构建,能在手机、PC这样的生产力终端上率先带来应用的爆发,提高生产效率、带来新的创新机会—— 对于普通用户,人机交互方式彻底变革,自然语言操作一切,带来的是更高的终端使用效率。 对于开发者而言,新一轮的AI原生应用爆发机遇,已经是现在进行时。AI搜索应用Perplexity,刚刚被曝估值将破10亿美元,跻身独角兽行列。 而对于终端厂商而言,从底层芯片到操作系统的变革,也将带来重塑市场格局的机会。 从更长期来看,更重大的影响则是,AI PC、AI手机的背后,真正的私人AI助理将会出现:用户能够在本地打造专属的Agent,而通过终端设备互联,AI Agent将可以渗透到生活的方方面面。工业革命的核心,是生产力的突破和生产方式的变革。AI掀起的技术风暴,概莫能外。 而就像从纸质办公到网络办公,处在当下的我们还无法窥见未来的全貌,但可以预见的是,以人为中心,AI将自然流转于手机、PC、智能车、AR/VR,乃至全新的AI硬件之上,构建起真正的万物互联。身处这样的时代,对于直面风暴的技术厂商们而言,如何跟上趋势,已有高通这样的先行者给出参考。 而对于我们每一个普通而言,更重要的是,认真思考如何拥抱新变革的时间点,已经到来。 毕竟先拥抱新趋势的人,先享受世界。 --- 本帖转自 鱼羊 明敏 发自 凹非寺 量子位 | 公众号 QbitAI
似“人工智能”实则“人为陷阱” 揭开借助AI技术实施诈骗新套路 据新华社消息,号称可提供ChatGPT服务,实际是冒牌AI;视频电话中熟悉的“亲友”,是不法分子AI换脸模拟而成;为博取流量,用AI技术编造虚假谣言,流量变“流毒”…… 随着人工智能的发展迭代,生成式AI正以前所未有的速度重塑着日常生活,但由此衍生出的新骗局、新套路也在刷新人们对风险防范的认知。这背后不仅关乎广大消费者的财产安全,还潜藏着人身安全风险和隐患。记者梳理近期管理部门查处的AI相关案件,揭开人工智能“圈套”背后的真相。 9块9使用ChatGPT?其实是“套壳AI” 自人工智能产品ChatGPT爆火,一些企业看到无限“钱景”,强行“关联”。一时间,市场上涌现出不少与ChatGPT“沾亲带故”的服务产品。2023年2月,一个名为“ChatGPT在线”的公众号引起了上海市徐汇区市场监管部门的注意。这个头像与ChatGPT原开发公司官方标识高度相似的公众号,在用户短暂免费体验后即需注册会员付费使用,支付9.9元可以对话20次,随着对话次数增加,其收费也逐步提高。该公众号仅用两个月就吸纳超36万人的粉丝量,累计注册付费用户4231人,经营额共计125385.44元。 执法人员调查发现,该公众号的运营公司与实际ChatGPT开发公司并无关联。所谓“ChatGPT在线”也并非“ChatGPT”产品本身。“当事人为实现销售目的,使用类似图像、名称及服务简介等多种手段实施复合性混淆行为,利用‘ChatGPT’热点进行攀附,混淆真实情况,谋取交易机会,获取不当利益。”上海市徐汇区市场监督管理局执法稽查科副科长张琦说,当事人行为违反了《中华人民共和国反不正当竞争法》第六条第(四)项的规定,市场监管部门已责令其停止违法行为,处以罚款,并要求其妥善处置相关消费纠纷。 记者发现,“冒牌AI”的现象并不少见。2023年,百度“文心一言”上市前夕,网上出现大量打着“文心一言”旗号的社交媒体账号。随后百度官方发文辟谣称“文心一言”尚未注册社交账号。 “人工智能大模型开源生态的建立,让AI发展加速的同时也让生成式AI更容易被滥用。”中国行政法学研究会常务理事、华东政法大学教授沈福俊认为,考虑到立法的滞后性,监管部门还需更加关注新技术发展对市场端的影响,加大事前监管力度,充分运用现有的法律法规资源实施有效监管,切莫使新问题隐匿在“监管盲区”。 张琦也表示,消费者出于对新兴技术的好奇,往往在不知不觉陷入“圈套”。“如果误用了别有用心的‘套壳AI’,甚至可能被不法分子套取个人信息,埋下安全隐患。”他建议,消费者在选择AI产品时需仔细甄别,避免被商家误导。“如果购买到了仿冒产品,要保留好相应的产品购买凭证,主动联系监管部门,维护自身合法权益。” “AI换脸”诈骗眼见不一定为实 只需一通视频电话,不法分子就骗走了430万元。2023年4月,福建省某科技公司法定代表人郭先生接到“好友”的微信视频通话,对方声称自己当下需要430万元保证金用以项目竞标,想借用郭先生公司的账户“走个账”。因为有先前的视频通话,加之对“好友”的信任,郭先生陆续给对方转账共计430万元。随后郭先生再次联系好友时才发现自己被骗。所幸在警方帮助下,成功止付拦截336.84万元。 据郭先生回忆,由于在视频电话中确认了对方的面孔和声音,所以毫不怀疑对方身份有诈。不仅如此,犯罪分子还精准了解郭先生与好友的关系,并成功盗取好友微信账号实施诈骗,令人不寒而栗。 AI技术的迭代升级让不法分子借助智能AI换脸和拟声技术,就可轻松实现远程视频诈骗。记者调查发现,最近多地出现的AI换脸诈骗案件,均具备定制性、迷惑性等特征。 其中,香港警方近期披露一起涉案金额高达2亿港元的多人AI换脸诈骗案尤为典型。据媒体报道,某公司职员受邀参加公司“多人视频会议”时,先后将2亿港元分别转账到5个本地银行账户内。据警方调查,这场视频会议中除了受害者外,其余均为AI换脸后的诈骗人员。 不少业内专家表示,随着文生视频大模型Sora等多模态人工智能的探索和出现,人们可能陷入“眼见也不一定为实”的困局。“一直以来,银行等部门将实时视频用做检验身份的手段之一,如今其可靠性将面临巨大挑战。”沈福俊说,“随着人工智能技术的迭代升级,这类违法行为还可能演变出更多形态。” 沈福俊坦言,对此类AI换脸和AI拟声的恶性诈骗案件,若只依靠传统监管手段已不能防堵,监管部门在提升自我科技能力储备的同时,有必要引入新兴技术,探索用AI技术监管AI的可能。 从消费者角度出发,沈福俊建议提升全民个人信息保护意识,谨防隐私泄露。“不管是在互联网上还是社交软件上,尽量避免过多地暴露自己的信息,在涉及转账交易等行为时,可以多角度询问身份信息,反复验证对方是否为本人。” 警惕“AI造谣”小心“流量”变“流毒” 当前AIGC技术已在文本生成、图片创作等方面广泛应用,输入几个关键词即可由AI快速生成一张画或一篇文章。但一些用户为博眼球、蹭热度,却将人工智能技术用以编“伪消息”,造“假通报”。 2023年6月,一条名为《浙江工业园现大火浓烟滚滚,目击者称有爆炸声!》的视频在网络上流传,引发网友关注。后经相关部门核实为谣言。据调查,当事人为给自己账号涨粉引流,获取更多利益,通过非法渠道购买了AI视频生成软件。该当事人将网络热门话题通过AI自动生成视频产品,并上传至多个热门视频平台。 截至案发,相关当事人发布的虚假视频多达20余条,涉及浙江、湖南、上海、四川等多个省市,累计阅读观看量超过167万次。目前浙江绍兴上虞法院已开庭审理并当庭宣判了这起案件,两名被告均被判处有期徒刑。 但“AI谣言”仍时有发生。2024年1月,广西东兴市骆某某为博取流量,将其他地区的抗洪、救灾视频,经AI软件自动编辑,编造新疆乌什县发生地震的虚假视频信息。同年1月,四川一网民在某平台发布“贵州女婴被弃”的谣言文章。经调查,该涉谣文章由AI系统生成并发布,相关言论及照片均为不实信息。 技术的普及带动自媒体产业的繁荣。但一些网民为获取流量不惜利用技术手段编造生成虚假视频,让“AI谣言”在网络上传播,不仅给网络安全带来严峻挑战,也严重扰乱社会秩序。 2023年,最高人民法院、最高人民检察院、公安部联合发布的《关于依法惩治网络暴力违法犯罪的指导意见》中规定,对“利用‘深度合成’等生成式人工智能技术发布违法信息”的情形,依法从重处罚。 对此,沈福俊等多位专家表示,一方面,要提高广大自媒体经营者的法律意识,从源头减少此类“AI谣言”的产生;另一方面,监管部门也要加强相关案件的宣传推广,提高网民对“AI谣言”的鉴别力。
AI巅峰大会!英伟达GTC大会:期望之高,B100撑得住场子吗? 英伟达一年一度的GTC大会不仅仅是一场关于GPU技术的峰会,俨然已成为全球AI开发者的顶级盛会。 3月18日-21日,英伟达2024年度AI大会GTC将在美国圣何塞会议中心举行,届时,英伟达CEO黄仁勋将进行主题为“面向开发者的1#AI峰会”(1# AI Conference for Developers)的演讲。 黄仁勋通常会在活动开始时介绍新产品,并分享他对未来科技方向的最新见解。 此次大会焦点有三:下一代Blackwell GPU架构、基于Blackwell打造的新款B100 GPU、人形机器人。媒体分析认为,英伟达GTC时隔五年重回线下,黄仁勋应该会“拿出点真家伙”。 华尔街预计,本届GTC将帮助英伟达股票结束近期的震荡走势,并继续保持今年迄今超过80%的强劲增长势头。将本届GTC比作苹果年度产品发布会的罗伯特·W·贝尔德公司技术策略师Ted Mortonson表示: 这是一个巨大的刺激因素,因为他们很可能会提供更多关于行业渗透等方面的信息。 AI界的Woodstock音乐节 在H100取得巨大成功后, 英伟达股价节节攀升,使其市值今年猛增1万亿美元,成为标普500指数中表现最佳的股票。 但自3月7日创纪录收盘价以来,英伟达股价走势开始变得震荡:周二股价结束了近五个月来最糟的两日连跌,但在周三又开始下跌,周四早盘交易中,股价又下跌了1%以上。 这种波动部分是由于交易员在活动前的定价操作。期权数据显示,随着大会临近,投资者支付越来越高的保费购买看涨期权,尤其是短期合约。 Mortonson说: 这有点像苹果的产品发布会,每个人都想抢在前面。 他还提出了一个价值百万的问题: 黄仁勋的主题演讲后是否会发生‘买预期,卖事实’的现象? 由于GTC对股价有重大影响,美银甚至将其称之为“AI界的Woodstock音乐节”。Woodstock音乐节是世界上最著名的摇滚音乐节之一。 英伟达还能涨多少? 大会召开前,美银将英伟达的目标价由925美元提高到1100美元,比周四收盘价879.4美元高出25.1%。 尽管在过去12个月里股价几乎翻了四倍,但根据美银的分析,英伟达的估值仍有进一步上涨的空间。自从ChatGPT于2022年11月发布以来,其市盈率实际上是在下降。 同时,华尔街对英伟达本届GTC持极为乐观的态度。在彭博社跟踪的分析师中,英伟达获得了60个买入评级,7个持有评级,0个卖出评级。 TD Cowen的分析师Matthew Ramsay表示: 鉴于目前对需求水平及其对未来12至18个月我们自己预测的所有上行空间的信心,我感到非常舒适和自信。 他给英伟达的评级为“表现优于大盘”,目标价900美元。 虽然进入GTC召开前的预期是积极的,但分析师和投资者都警惕英伟达股票交易接近技术上的超买水平,可能引发回调。 --- 图:由 华尔街见闻 提供 本帖转自华尔街见闻
ChatGPT有身体了,能走向千家万户吗? OpenAI投资的人形机器人——Figure 01迎来重磅更新,接入最新版ChatGPT后,它能和人交流描述眼前看到的事物。在视频中,Figure 的人形机器人,可以完全与人类流畅对话,还能理解人的自然语言指令进行抓取和放置,并解释自己为什么这么做。而其背后,就是 OpenAI 为其配置的智能大脑。Figure 01,最懂你的人形机器人? 得益于 OpenAI 多模态大模型的强大支持,Figure 01 现在可是个桌上物品识别的小能手。苹果、沥水架、水杯和盘子,对它来说都是小菜一碟。饿了,想让它整口吃的,它能秒懂你的心思,麻溜地递上一个苹果。它甚至能一边拣起你丢弃的垃圾,一边跟你解释为啥刚才给了你苹果。在人类的一声令下,Figure 01 还能做家务,收拾餐具,这机器人,简直是家庭生活的最佳伙伴。 综合来看,Figure 01拥有的能力包括: 一、视觉识别和理解。当人类问Figure 01看到了什么,Figure 01回答道:“我看到了桌子中央的盘子上有一个红苹果、一个装满杯子和盘子的晾碗架,以及你站在附近,手放在桌子上。” 二、语言识别和理解。当人类问Figure 01能够吃点什么东西时,Figure 01将桌上的苹果递给了人类,并表示这是“唯一我可以从桌上为你提供的食物”。 三、流畅的任务执行。Figure 01清理桌面垃圾、整理晾碗架的场景。整理家具 机器人的速度已经接近人类速度 Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了机器人互动背后的原理。此次的突破,由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作。机器人所做出的所有行为都是出于已经学习过,内化了的能力,而不是来自远程操作。 研究人员将机器人摄像头中的图像输入,和机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的,可以理解图像和文本的多模态模型(VLM)中,由该模型处理对话的整个历史记录,得出语言响应,然后通过文本到语音的方式将其回复给人类。同样的模型,也负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令,将特定的神经网络权重加载到 GPU 上并执行策略。这也是为什么这个机器人,属于“端到端”的机器人控制。从语言输入开始,模型接管了一切处理,直接输出语言和行为结果,而不是中间输出一些结果,再加载其他程序处理这些结果。Figure 的机载摄像头以 10hz 的频率拍摄图像,然后神经网络以 200hz 输出 24 个自由度动作。Figure 的创始人提到,这代表机器人的速度已经有显著提高,开始接近人类的速度。 人形机器人加快“进厂打工” 值得注意的是,Figure AI近期还与汽车制造商宝马公司签署了一项商业协议,将在汽车制造中部署通用机器人。 在人工智能技术的加持下,人形机器人的智能化水平大幅提升,并加速进入工厂等真实的工作场景当中。梳理发现,已有多家海内外公司将在工厂中引入人形机器人,或已经演示了机器人“进厂打工”的视频。 去年底,美国机器人公司AgilityRobotics宣布,将在俄勒冈州塞勒姆市开设世界上第一座“人形机器人制造工厂”,并且承诺每年将生产1万台智能人形机器人“Digit”,作为“机器人同事”在仓库和工厂内运输和搬运货物。亚马逊在其西雅图郊区的一个配送中心也引入了Digit人形机器人,用于协助员工完成仓库中的搬运工作。 今年1月,特斯拉CEO埃隆·马斯克在财报电话会上透露,特斯拉正致力于在2025年实现人形机器人Optimus初步出货,马斯克还表示,预计2024年Optimus在特斯拉工厂进行实用性测试。 国内方面,今年2月22日,“人形机器人第一股”优必选发布了工业版人形机器人Walker S在新能源车厂的首次实训视频。视频中,Walker S完成了对蔚来汽车门锁、安全带、车灯盖板的检测,并以流畅的动作贴好了车标。在整个过程中,Walker S展示出精巧的身体控制能力,手部动作尤为灵巧。优必选创始人、董事长兼CEO周剑曾透露,已经在跟多家新能源汽车制造厂接触,“2024年会有更多工业制造客户的消息”。Walker S “进厂打工” 具身智能加速商业落地 大部分人很容易将人形机器人和具身智能画等号,其实不然,人形机器人只是具身智能的物理形态之一。英伟达公司创始人黄仁勋将具身智能定义为,能理解、推理及与物理世界互动的智能系统。具身智能并不一定以人形状态呈现,根据应用场景不同,可以有无尽想象力,比如可能是动物、汽车等形态。 近年来,具身智能作为人工智能研究中的一个新领域,热度不断攀升。根据赛迪智库最新研究显示,国家层面,世界主要经济具身智能产业的发展方向各有侧重。美国不断推进具身智能基础研究,并且掌握着前沿技术;日本聚焦工业机器人和服务机器人领域;韩国重点关注机器人核心零部件和软件、自动驾驶汽车领域的技术创新;欧盟则全方位推进具身智能发展。企业层面,国内外具身智能主要企业亦动作频繁。谷歌发布具身视觉语言模型,打造机器人大脑;微软以ChatGPT为内核,通过对话来指挥机器人操作,进一步简化人机交互模式;英伟达发布的多模态具身AI系统可以在视觉文本提示的指导下执行复杂任务;阿里入局“AI+机器人”赛道,将“千问”大模型接入工业机器人;优必选人形机器人已应用于教育领域。熊猫机器人优悠在迪拜世博会中国馆教游客打太极 近日,美国科技公司英伟达宣布成立通用具身智能体研究实验室GEAR。去年以来,包括中国电科21所、智元机器人、科大讯飞、小鹏汽车、傅利叶智能在内的多家国内企业相继发布了自主研发的具身智能机器人,并有多家企业拟在今年实现具身智能的商业化落地。业界普遍认为,2024年有望成为具身智能商业落地元年。 --- 图:由视觉中国等提供 海报新闻编辑王锦川、实习编辑王春苗 综合四川日报、羊城晚报、中国基金报等
ChatGPT 每天耗电超 50 万度,是美国普通家庭 1.7 万多倍 据 The New Yorker 报道,热门聊天机器人 ChatGPT 每天需要处理超过 2 亿次请求,其电量消耗可能高达每天 50 万千瓦时。相比之下,美国普通家庭每天的平均用电量仅为 29 千瓦时,这意味着 ChatGPT 的日耗电量是普通家庭的 1.7 万倍以上。更令人担忧的是,随着生成式人工智能的普及,其电量消耗可能会进一步激增。荷兰中央银行数据科学家 Alex de Vries 在一份发表于可持续能源期刊《焦耳》上的论文中计算得出,如果谷歌将生成式人工智能技术应用于所有搜索,其每年将消耗约 290 亿千瓦时电量,这相当于肯尼亚、危地马拉和克罗地亚一年的总发电量。 然而,目前评估蓬勃发展的 AI 行业究竟消耗了多少电量还存在困难。据 The Verge 报道,大型科技公司一直引领着 AI 发展,但它们对于自身能源消耗讳莫如深,同时不同的人工智能模型运行方式也存在巨大差异。 不过,de Vries 在论文中还是根据英伟达公布的数字做出了粗略计算,据 CNBC 报道援引 New Street Research 的数据,英伟达在图形处理器市场份额中占据了约 95%。de Vries 在论文中估计,到 2027 年,整个 AI 行业将每年消耗 85 到 134 太瓦时(terawatt,相当于 1340 亿千瓦时)的电量。 “这相当于到 2027 年,人工智能的电量消耗可能占到全球电量的一半左右,”de Vries 告诉《The Verge》,“我认为这是一个相当可观的数字。” 相比之下,世界上一些耗电量最大的企业也相形见绌。根据 Businessinsider 基于消费者能源解决方案报告的计算,三星的年耗电量接近 23 太瓦时,谷歌等科技巨头的数据中心、网络和用户设备每年耗电略高于 12 太瓦时,微软的耗电量则略高于 10 太瓦时。 --- 本帖转自IT之家
为什么说 Sora 是世界的模拟器? AI 视频生成的「ChatGPT 时刻」比想象中提前了 6 个月。 Sora 的诞生意味着什么,何以堪称「世界的模拟器」? OpenAI 技术报告中透露,Sora 能够深刻地「理解」运动中的物理世界,堪称为真正的世界模型。 而 LeCun 则一贯酸溜溜地认为 Sora 不能理解物理世界,在他看来,「仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界。生成视频的过程与基于世界模型的因果预测完全不同」。 Sora 真的理解物理世界吗?与 ChatGPT 的底层逻辑有什么异同? 成为物理世界的模拟器,Sora 是唯一的解法吗? OpenAI 接连核爆,「暴力美学」之路真的能抵达 AGI 吗? 01.Sora 是世界的模拟器? OpenAI 在其技术报告中只字未提与模型架构、数据规模、训练成本等相关的细节,但其标题赫然指出 Sora 这类视频生成模型是「世界的模拟器」。 OpenAI 想强调,Sora 不是单纯的视频生成模型,不只是视频行业颠覆者,而是「世界的模拟器」——它打开了一条通往模拟物理世界的有效路径。 OpenAI 仅列举了作为物理世界的模拟器应具备的几个特点和例子—— 3D 一致性、远程相关性、物体持久性、与世界互动等,却并未对“什么是世界的模拟器”做任何定义和具体分析。 但我们大概可以总结出它的逻辑:Sora 生成的视频能够在相当长的时空范围内,不违反物理世界的常见规律(比如重力、光电、碰撞等)。如果模型规模进一步提升,它有可能模拟生成物理世界的一切视频。 我们不禁疑问,为什么 OpenAI 在此时提出「模拟器」这一概念,它究竟是什么?如何成为「世界的模拟器」?与单纯的视频生成模型有什么逻辑关系?进而,一个能够模拟复杂世界动态的 AI 会将人类带往何处? 在谈物理世界的模拟器之前,我们先重温一下虚拟世界的模拟器—— ChatGPT. 02.ChatGPT 是虚拟思维世界的“模拟器”? 何谓“模拟器”,顾名思义,如同动态镜像一般,模拟器是可以逼真“反映”虚拟世界或现实世界的模型或系统。 游戏可视为一种对现实世界的模拟,所谓数字世界。 游戏的数字世界通常有一个既定的环境,包括人物、场景、功能道具等,还有一个起始的配置。给以目标指令,按下『start』,游戏主角便可以开始出发探索这个世界,与之互动。 比如在小游戏《超级马里奥》中,主角马里奥和每一关卡的场景都是既定的环境,小马里奥只身出场是起始配置,在规则下赢得金币是目标指令,『start』游戏开始,直达旅程目标。 这就是一个最简单模拟器的模拟过程,构造了一个既定场景的小世界。 在 ChatGPT 这类应用中,我们通常可以为模型设置角色,例如设置为用户的助理、教师或伴侣(可视为环境),用户就可以给出目标指令开始与之交互。 比如可以让 ChatGPT 写一篇关于 Sora 的文章,给它一段头,ChatGPT 就会续写整篇;给定一段故事结尾,它可以补足故事的来龙去脉;给出一段故事节选,它可以展开前后两端的想象,予以扩写;给定完整的篇幅,它也可以缩写摘要。成篇非常顺畅丝滑,符合文法和逻辑。 这些语言任务的完成,其实是在模拟创作者的思维过程。 而对创作者思维的模拟,需要遵从思维背后的逻辑和常识。比如 ChatGPT 在续写 Sora 原理的文章时,会围绕深度学习和语言模型层层推进,逻辑线条合理,而不会跳跃到辛亥革命或咖啡机使用指南。 ChatGPT 作为语言模型 ,通过“语言”这一思维的载体,可以多方面模拟虚拟世界中的各种场景和角色(合理丝滑的故事线),成为虚拟世界的“模拟器”。 既然 ChatGPT 对答如流,也能模拟不同风格的文学家、诗人写诗作文,作品不违反常识,也符合人类思维规律,那是否说明它就掌握了这些规律呢? 功能主义角度的回答是肯定的。我们可以认为 ChatGPT 是懂得思维的,是理解思维世界的,具有自己的认知。虽然我们没有一一教他具体的思维逻辑和常识,但它读遍浩瀚的书籍数据,已然从数据中汲取了海量的知识,掌握了知识背后的思维逻辑。 ChatGPT 这类语言模型从语言大数据中的学习,实际上就是在模拟一个充满了人类思维和认知映射的虚拟世界。 今天的 ChatGPT 已经攻下了虚拟世界“模拟器”的堡垒。它所反映的人类认知,包括常识、百科知识以及推理逻辑,实际上已经远远超过了绝大部分人类个体。 那么物理世界的模拟器会以何种方式呈现? 03. 何为物理世界的模拟器?遵循物理世界规律 如同人类的思维世界要前后自洽,不违反常识,遵循分析归纳、逻辑推理等「规律」(统称思维逻辑),物理世界也有背后的「规律」,包括能量守恒定律、热力学定律、力的相互作用定律等等。 比如苹果不能突然在空中漂浮,这不符合牛顿的万有引力定律;比如在光线照射下,物体产生的阴影和高光的分布要符合光影规律等;比如物体之间产生碰撞后会破碎或者弹开。 作为“物理世界的模拟器”,需要能够在虚拟环境中重现物理现实,为用户提供一个逼真且不违反「物理规律」的数字世界。 技术上至少有两种方式可以实现这样的模拟器,一种是通过大数据学习出一个 AI 系统来模拟这个世界,比如说本文讨论的 Sora。 另外一种是弄懂物理世界各种现象背后的数学原理,并把这些原理手工编码到计算机程序里,从而让计算机程序“渲染”出物理世界需要的各种人、物、场景、以及他们之间的互动。 虚幻引擎(Unreal Engine,UE)就是这种物理世界的模拟器。它内置了光照、碰撞、动画、刚体、材质、音频、光电等各种数学模型。一个开发者只需要提供人、物、场景、交互、剧情等配置,系统就能做出一个交互式的游戏,这种交互式的游戏可以看成是一个交互式的动态视频。 UE 这类渲染引擎所创造的游戏世界已经能够在某种程度上模拟物理世界,只不过它是通过人工数学建模及渲染而成,而非通过模型从数据中自我学习。而且,它也没有和语言代表的认知模型连接起来,因此本质上缺乏世界常识。而 Sora 代表的 AI 系统有可能避免这些缺陷和局限。 04. 为什么 Sora 有望成为世界的通用模拟器? 不同于 UE 这一类渲染引擎,Sora 并没有显式地对物理规律背后的数学公式去“硬编码”,而是通过对互联网上的海量视频数据进行自监督学习,从而能够在给定一段文字描述的条件下生成不违反物理世界规律的长视频(虽然目前长度只有一分钟,但是完全碾压了此前有数秒限制的类似竞品,如曾被热捧的 Pika 和 Runway)。 与 UE 这一类“硬编码”的物理渲染引擎不同,Sora 视频创作的想象力来自于它端到端的数据驱动,以及跟 LLM 这类认知模型的无缝结合。 端到端的数据驱动更加通用、更方便迭代提升 与历史上所有的数据驱动的端到端 AI 系统一样,Sora 的优势是如果数据给力,数据量足够大,它可以覆盖各种各样的边界条件下的复杂度。与之相比,UE 能够硬编码的数学原理和场景模版毕竟是有限的,更何况很多物理世界的现象,人类还没有发现其背后的数学原理。 所以很多时候,UE 游戏开发者不得不牺牲用户体验,或者手工对某些特殊情况“头痛医头”地做针对性专门编码。比如,由于材质和碰撞模型的不完善,大家经常看到数字人直播时的穿模现象(手插到肚子里去了),而要解决穿模问题得做很多额外的工作。 以迭代完善的角度,对于数据驱动的 AI 系统,我们只要利用摩尔定律,不停地加大数据和算力,系统就会自动越来越完善。而“硬编码”的系统则依赖于“人工”的努力和进展。 与认知模型的无缝融合让多模态模型更加通用和鲁棒 与很多人样,我们为 Sora 视频的高质量所折服,但让我们真正兴奋的是, Sora 类视频生成模型的架构终于向 LLM 的架构靠近。 比如 Sora 采用 Transformer 作为模型的骨架来学习文本和视频的关系以及视频内部的时空关系。又比如 Sora 把视频数据 token 化。这样的好处是视频生成模型能跟 LLM 在模型层面无缝融合。 虽然我们现在无法判断 Sora 的训练是否将 LLM 作为起点,然后再加入视频的模态继续训练。但是几乎可以肯定的是,未来的多模态模型都会把 LLM 作为起点,从而把 LLM 的认知能力迁移到下游的其它模态里。 这既提升了下游模型的智能天花板,也大大降低了下游模型的数据需求。笔者多次强调,这种跨模态的知识迁移可能是 LLM 对 AI 建模的最大贡献,已经在 RT-2、Gemini、出门问问魔音工坊的语音大模型等很多实践中得到证明。 为什么 LLM 的认知赋能及其与视频模型的无缝融合这么重要? 前文提到如果视频生成模型要成为世界的模拟器,那它生成的视频必须得符合物理规律。我们可以从大量的视频数据里学习这些规律,也可以直接继承语言模型里海量的常识,而继承这些常识会大大降低对视频数据的质量和数量的需求,也会大大降低模型学习的难度。 比如,如果我们让 Sora 生成一只杯子掉在地板上的视频。今天的大语言模型,比如出门问问的「序列猴子」,就含有玻璃会碎、水会溅出等常识。 有了这些常识,视频生成模型将不再需要大量的类似玻璃掉地的视频数据来训练,从而大大降低了生成逼真视频的难度。语言模型还包含了对其它物理规律(比如声光电、碰撞等)的各种描述。所以,如果 Sora 训练的基础是一个语言模型,这个模型不仅仅处理文本数据,而且继承了对世界常识的理解。 通过引入多模态数据处理能力——特别是视频与文本对应的数据—— Sora 能够实现更深层次的 Grounding,即将语言的虚拟概念与物理世界的具体实例紧密关联。 这种能力使得 Sora 在模拟物理世界时,能够更准确地反映出现实世界的复杂性和多样性。具象的视频训练数据总是有限的,因此模型所能学到的物理现象总有局限。 但语言模型中的物理常识几乎是面面俱到的,这是由语言作为思维认知模型的本性所决定的。这种知识迁移弥补了视频数据不可能面面俱到的短板。 语言模型是多模态大模型的核心,必将居于独一无二的中心赋能地位。而「视频」作为物理世界的映像,是世界模型渲染出来的结果。 相比语言数据,通过视频大数据学习到的模型是“模型的模型” ,同时学到了很多物理世界规律,让模型更加逼近模拟物理世界。 文本与视频的区别在于,前者是理解人类的逻辑思维,后者在于理解物理世界。所以,视频生成模型 Sora 如果能很好跟文本模型 LLM 融合,那它真有望成为世界的通用模拟器。如果有一天,这样的系统自己通过模拟驾车场景,学会了在城市复杂的交通环境下开车,我们应该也不会奇怪。 我们认为,Sora 之所以有潜力成为下一代物理世界模拟器的翘楚,主要归功于其基于多模态大模型的设计理念及其实现中巨大算力和工程能力。 Sora 在视频赛道重现 ChatGPT 式的成功,很可能得力于其把虚拟世界的模型(LLM)落地到具象化的物理世界模型(视频生成),如果现在不是这样,将来也大概率是。 (Sora 可以通过镜像原理等世界常识生成逼真的带有反光影像的视频) 能生成世界,就意味着理解世界? 类比语言模型,面对 ChatGPT 的对答如流、通情达理,我们反思语言模型到底是否学会了“思维”和“理解”? 虽然尚无法从原理上解释,但从结果上看,它与基于对语言的深刻理解所呈现出来的行为是一致的,我们可以认为它其实已经学会了虚拟世界的“思维”和“理解”;那今天的 Sora 已经可以在长时空的范围里生成不违反物理规律和常识的视频,我们是否也可以认为,它已经理解了物理世界?它具备了世界模型的能力? 模拟物理世界,Sora 是唯一解法吗? 如果 Sora 深度融合 LLM (如 ChatGPT)被认知智能充分赋能,它的确有望成为「世界的模拟器」。除此之外,还有其他成为世界模拟器的可能性解法吗?另外一种可能是:ChatGPT + UE。 如果我们能把自然语言模型(如 ChatGPT)与物理渲染引擎(如 UE)结合起来,把自然语言模型的描述转换成 UE 的描述语言,然后由 UE 来渲染出视频,是不是也意味着一个可行的物理世界模拟器? 在很多对通用性的要求不那么高的场景中,这可能是优于 Sora 这种端到端模型的选择,估计未来很快会看到这样的尝试。但是,UE 的天花板就是整个系统的天花板。 另外一个相关话题,Sora 的训练可能用了 UE 合成的数据,但 Sora 模型本身应该没有调用 UE 的能力。 05. 从虚拟到物理,如果世界皆可被模拟,什么是现实? 如果说这个世界(无论是虚拟世界还是物理世界),其背后存在着简单的规律和模型,那么文本和视频等模态就是这些规律的具体呈现,也可以说是渲染。 OpenAI 的 ChatGPT 和 Sora 通过互联网上海量的自然的文本和视频数据,“隐式”地学会了这些数据背后的规律和模型。那么,未来是否有一天,ChatGPT 和 Sora 之类的系统还将融合味觉、触觉等其他模态,从而可以模拟我们的整个世界呢? 如果这一天到来,什么是现实呢?我们是否还那么坚定地相信我们这个物理世界不是被模拟出来的?科幻电影 所描述的世界是否仍是科幻呢?这是现代版的庄周梦蝶,古老的哲学思辨在后现代的技术浪潮中再度冲击我们的信仰,细思有点恐。 展开想象,为什么 AI 模拟器不可以模拟巴以冲突、中美关系,模拟人类从山顶洞走向农耕文明的过程呢?「世界模拟器」通过模拟不同的事件和情景,预测未来的发展趋势,或可辅助决策制定。Sora 类不仅能够模拟政治经济、人类社会等宏观层面的动态,也应该可以深入到病毒传播、交通规划等微观领域。这一切最终是否会改变各种学科研究的方式? 我们可以展望,AI 有能力通过模拟学会各种物理世界的技能。比如城市驾驶,AI 可以从文本里学到各种驾驶规则,自己渲染一些交通视频场景并在这些场景里学习提升,从而学会基本驾驶技能。当然,模型最后还是会有真正物理环境下的 Fine Tuning。如果机器人能够自主学习各种技能,这是否也会改变机器人服务世界的发展路径? 总之,如果未来的 AI 既理解了人类思维,又理解了物理世界,而且还不知疲倦自主模拟学习,下一步将会“涌现”怎样的斑斓世界?人类如何自处? 06. 暴力美学能抵达 AGI 吗? 回看 OpenAI 的最初胜利,主要并非算法上的创新,而是「暴力美学」的胜利。 如今,以 GPT 为代表的「暴力美学」已成为工业界凝聚了共识的做 AI 的方法论:把模型架构做得简简单单,但足够通用,然后把精力放在猛搞数据和算力上。 这一次 Sora 的成功延续了 OpenAI 的暴力美学的套路。把 Diffusion Model 里的 Unet 换成 Transformer、把视频的时空 Patch 转换成 Token 等之类的想法应该很多人拍脑袋都能想到,都是对模型的简化从而更便于 Scale Up。但是,能够坚信这些简单的 ideas、并有能力和有条件把规模真正做上去修成正果的却是凤毛麟角。 OpenAI 这次关于 Sora 的技术 blog 里的两段话,把这种信念的力量体现得淋漓尽致。 第一段话表达了他们对 Scaling 的信念,而第二段话强调了 Scaling 导致涌现的实证。 这次 Sora 的发布又让很多人对 AGI 的实现更加乐观了,可能也让心高气盛的 OpenAI 对 Scaling Law 和暴力美学的信念进一步坚定。但是,沿着 Scaling Law 和暴力美学一定能抵达 AGI 吗?面对飞速发展的 AI 科技,也许只能拷问自己,到底是因为看见而相信,还是因为相信而看见? 可以肯定的是,Sora 如果真能实现对物理世界的模拟、能够跟 LLM 代表的虚拟世界无缝融合,那它必然是通往 AGI 路上的里程碑。 结语 当我们回到人类文明的前夜,从用石头砸开坚果,从山洞走向茅屋,一一回望人类最早的科技成就——石制工具、火、衣服、长矛和弓箭是如何被发明的。正是有了让能力边界不断延伸的它们,人类才得以走出非洲。 其中最重要的一项能力——语言能力,它使现代智人能有效传递信息,不断完成物理世界的任务,最终将尼安德特人赶到比利牛斯半岛的尽头,成为世界主人。 而今天,掌握人类语言的 AI,将能进一步地通过视频生成模拟世界,面向我们为之雀跃的 AGI 时刻,是否已是另一种文明的前夜? 编者按: 本文转载自“飞哥说 AI ”。作者在文中分析了“为什么说 Sora 是世界的模拟器?”他表示 ChatGPT 作为语言模型 ,通过“语言”这一思维的载体,可以多方面模拟虚拟世界中的各种场景和角色(合理丝滑的故事线),成为虚拟世界的“模拟器”。并且他们认为 ChatGPT 是懂得思维的,是理解思维世界的,具有自己的认知。 作者 | 李维 高佳 创意 | 李志飞
新年快乐,万事如意 亲爱的吧友们, 值此新春佳节之际,给大家拜年了!感谢过去一年里,每一位吧友对我们工作的支持与配合,是你们的参与和热情,让这个社区更加温馨和谐。 新的一年,新的开始,愿我们都能拥有更多的欢笑和收获。在这辞旧迎新的美好时刻,我想对大家说: 新年新气象,愿你的生活如同璀璨的烟花,绽放出最美丽的光彩; 新年新希望,愿你的每一天都充满希望,像晨曦的第一缕阳光,温暖而明媚; 新年新梦想,愿你勇敢追逐梦想,像翱翔的雄鹰,展翅高飞; 新年新成就,愿你在各自的道路上取得新的成就,像攀登者达到顶峰,享受成功的喜悦。 在这里,我也想借此机会,向所有辛勤付出的吧务团队成员表示最深的感谢。你们的努力和奉献,是贴吧稳定和谐的基石。让我们携手并进,共同营造一个更加美好的网络环境。 再次向大家致以最诚挚的祝福: 龙舞翩翩,福星高照,愿你们在新的一年里,身体健康,阖家幸福! 财源滚滚,事业有成,愿你们在新的一年里,心想事成,步步高升! 学业进步,知识丰收,愿你们在新的一年里,智慧如海,才华横溢! 友情长存,爱情甜蜜,愿你们在新的一年里,人际关系和睦,爱情美满! 新年即将到来,让我们带着满满的祝福和期待,迎接更加精彩的一年。新年快乐,万事如意!期待在新的一年里,我们能一起分享更多的快乐和精彩!
新年快乐,万事如意! 亲爱的吧友们, 值此新春佳节之际,给大家拜年了!感谢过去一年里,每一位吧友对我们工作的支持与配合,是你们的参与和热情,让这个社区更加温馨和谐。 新的一年,新的开始,愿我们都能拥有更多的欢笑和收获。在这辞旧迎新的美好时刻,我想对大家说: 新年新气象,愿你的生活如同璀璨的烟花,绽放出最美丽的光彩; 新年新希望,愿你的每一天都充满希望,像晨曦的第一缕阳光,温暖而明媚; 新年新梦想,愿你勇敢追逐梦想,像翱翔的雄鹰,展翅高飞; 新年新成就,愿你在各自的道路上取得新的成就,像攀登者达到顶峰,享受成功的喜悦。 在这里,我也想借此机会,向所有辛勤付出的吧务团队成员表示最深的感谢。你们的努力和奉献,是贴吧稳定和谐的基石。让我们携手并进,共同营造一个更加美好的网络环境。 再次向大家致以最诚挚的祝福: 龙舞翩翩,福星高照,愿你们在新的一年里,身体健康,阖家幸福! 财源滚滚,事业有成,愿你们在新的一年里,心想事成,步步高升! 学业进步,知识丰收,愿你们在新的一年里,智慧如海,才华横溢! 友情长存,爱情甜蜜,愿你们在新的一年里,人际关系和睦,爱情美满! 新年即将到来,让我们带着满满的祝福和期待,迎接更加精彩的一年。新年快乐,万事如意!期待在新的一年里,我们能一起分享更多的快乐和精彩!
OpenAI预警系统探索 GPT-4 在制造生物武器方面的优势 OpenAI最近着手研发GPT-4的早期预警系统,以探讨大型语言模型是否能够提高获取关于生物威胁信息的效率,相较于互联网。该系统旨在作为一种“触发器”,提示潜在存在生物武器的可能性,需要进一步调查,同时纳入OpenAI的预防框架。研究采用了100名参与者,包括50名具有湿实验经验的博士生物学家和50名至少在大学修过一门生物学课程的本科生。实验中,参与者被随机分配到两组:一个只能访问互联网的对照组,另一个除了互联网外还可以使用GPT-4的处理组。处理组的专家可以访问GPT-4的研究版本,该版本不会拒绝有关高风险生物制剂的直接问题。 每个参与者都被要求完成一系列涵盖生物危害生成过程各个方面的任务。OpenAI根据五个结果指标评估了参与者的表现:准确性、完整性、创新性、用时和自评难度。其中,专家评估了准确性、完整性和创新性,而用时则直接来源于参与者的回答,任务难度由参与者在1到10的评分标尺上自评。 研究结果显示,相较于只使用互联网的基准,处理组的参与者在准确性和完整性方面都略有改善。在准确性评分的10分制度上,专家组平均提高了0.88,学生组提高了0.25。对于完整性的改善也类似,专家组为0.82,学生组为0.41。然而,OpenAI指出,这些效果并不足以在统计学上具有显著性。 OpenAI表示,对于LLM用户而言,在完整性方面的优势可能是由于模型生成和人类生成的输出记录习惯不同。语言模型倾向于生成更长的输出,其中可能包含更多相关信息,而使用互联网的人并不总是记录每个相关细节,即使他们已经找到并认为这是重要的。 然而,研究存在一些限制,仅评估了对信息的获取而非实际应用,未探讨LLM在新型生物武器开发中的潜在贡献。此外,所使用的GPT-4模型缺乏互联网研究和高级数据分析工具,因此结果只能被视为初步的。
10年时间将微软市值带到3万亿美元 纳德拉做对了什么? 微软市值突破3万亿美元,仅次于苹果,这样的成绩是对微软CEO萨提亚·纳德拉(Satya Nadella)的认可。 2014年纳德拉成为微软CEO,当时的微软创新乏力,业绩停滞,现在微软却成了AI领头羊。 在纳德拉领导下,微软市值只用了不到十年便从3810亿美元猛增至3万亿美元。微软市值突破3万亿美元,仅次于苹果,这样的成绩是对微软CEO萨提亚·纳德拉(Satya Nadella)的认可。© 由 极客网 提供 纳德拉是怎么赢的? BBMA(BMNxt Business and Market Advisory)分析师、首席研究官Deepak Kumar认为:“纳德拉采用的策略可以分成两个阶段。第一阶段,推动微软在两个方面变革,一是敏捷开发,二是云交付,两大变革又是以组织架构的文化变革作为支撑的。第二阶段,投资AI驱动型消费软件,比如ChatGPT。” 在第一阶段,纳德拉发现了云计算金矿,让微软老树开新枝。CyberMedia Group总裁Thomas George指出:“通过‘云优先、移动优先’战略,纳德拉将微软带到了增长轨道。他优先研发云服务,全力打磨Azure,承认移动设备在现代计算中的地位,最终让微软成为科技进化的领头羊。” 数据显示,微软已经是全球最大的公共云提供商,2023年上半年的市场份额约为17.1%,AWS屈居第二,份额12.6%。 在纳德拉的领导下,微软还推出了云计算版Office。更重要的是AI。2019年微软投资OpenAI,拿到了进入AI时代的门票。有消息称微软已经向OpenAI投资130亿美元。 在纳德拉的领导下,微软有意将ChatGPT与多款自有产品整合。去年OpenAI创始人Sam Altman被迫离职,纳德拉马上做出决定,聘请Sam Altman领导微软AI研发实验室。随后他又与OpenAI协商,试图让Sam Altman重新担任 CEO,他的系列行动对微软都是有益的。 在过去几年里,微软砍掉许多失败业务,比如Windows Phone。与此同时,微软在10年里完成100多起收购,比如收购Linkedin和Activision。 微软还与开源社区深度合作,目前微软已经是第二大开源贡献者。2018年微软以75亿美元收购开源平台GitHub。据报道,2022年GitHub的年度经营性收入达到10亿美元,收购时只有2-3亿美元。 与苹果的市值之争 纳德拉能否带领微软继续前进,甩开苹果?所有人都在观望。在过去20年里,苹果与微软的市值此起彼伏,高潮不断。 1990年代,微软凭借Windows超越通用电气,成为当时美国市值最高的企业。那时的微软独步天下,苹果却奄奄一息。PC市场竞争激烈,产品定价过高,缺乏创新,Macintosh操作系统、QuickTake相机、PowerCD便携CD、Pippin游戏机全都失败,苹果进入黑暗时代。 后来乔布斯回归,苹果坐着火箭冲上云霄,iMac、iPod、iPhone大获成功。2004年微软市值约为2910亿美元,苹果只有260亿美元。到了2010年,苹果市值2970亿美元,微软2340亿美元,微软被苹果超越。 2024年1月,微软短暂超越苹果,成为市值冠军,苹果与微软的市值之争再次成为热议话题。未来几年苹果还能保持高增长吗?值得怀疑。从营收看,微软的增速高于苹果,而且苹果主业是硬件,周期性明显。过去几个季度,苹果营收略有下滑,从长远看不确定性很大。苹果如果想继续增长,必须依靠创新。 目前苹果的市值约为3.023万亿美元,微软3.022万亿美元,相差无几,但在过去12个月里,微软股价大涨67.3%,苹果只有37.1%。最近一个季度,微软的毛利率为69%,苹果只有45%。 CFRA Research分析师Angelo Zino说:“我们最爱的是微软。它没有过度依赖消费者,苹果却是一家消费型公司。”消费者是多变的,企业客户却比较稳定。 另外值得注意的是,微软的资本支出是苹果的四倍,大多用于收购。Silvant资产管理公司CIO Michael Sansoterra说:“微软知道何时应该掏出支票。”
谷歌将为Chrome内置AI写作助手 谷歌即将为Chrome推出一项新功能,这将是一个浏览器内的AI写作助手。“在网上写作可能很令人望而却步,尤其是如果你想在公共场合或论坛上表达你的想法,”谷歌Chrome副总裁Parisa Tabriz在周二的一篇文章中写道。“所以在下个月的Chrome版本中,我们将推出另一项实验性的AI功能,来帮助你更自信地在网上写作,无论你是想给餐厅留下一篇精彩的评论,还是为聚会准备一份友好的回复,或者对公寓租赁进行正式的询问。”要激活AI写作助手,你只需“在Chrome中访问的任何网站上的文本框或字段上右键单击,然后选择‘帮我写’,”Tabriz说。 “输入几个单词,我们的AI就会为你启动写作过程,”她说。 写作作为一种失落的艺术形式 AI写作助手看起来相当无害,因为已经有很多人使用AI,比如OpenAI的ChatGPT,来生成文本。但是Chrome的庞大用户群,加上对AI写作助手的便捷获取,可能会对互联网产生世界性的影响。 当每个人都使用AI来生成内容时,会意味着什么?在规模上,结果可能是可怕的。 人们可能无意中抄袭内容,因为这些AI平台“不能在不倾向于无意重复源头的大量文本和图像的情况下学习,”AI专家和认知科学家Gary Marcus在他的Substack上写道。 你也可以看到这种在生成AI应用中侵犯版权的倾向。 而谷歌大规模发布AI写作助手的一个巨大危险是,互联网将充斥着更多的AI生成的内容。这意味着AI模型将在AI生成的内容上进行训练,造成一种垃圾的循环。Marcus简洁地说:“但最终,没有人会再创造出好的、新鲜的、新的内容,互联网将开始吞噬自己的尾巴。我们最终都会遭殃,被一锅平庸的炖菜喂饱。”
谷歌AI芯片TPU v5p在训练LLM方面比其前一代快2.8倍 谷歌正迅速成为其最好的朋友英伟达的强大对手——其超级计算机所使用的TPU v5p人工智能芯片比以往任何时候都更快、更大、更宽,甚至超过了强大的H100。谷歌在最近推出其Gemini人工智能模型的同时,也发布了其最新版本的旗舰张量处理单元(TPU),用于人工智能的训练和推理,这似乎是一种挑战英伟达自己的市场领先的图形处理器(GPU)的尝试。TPU v5p是谷歌最强大的定制设计的人工智能加速器,已经被部署到了该公司的“人工智能超级计算机”上。这是一种专门为运行人工智能应用而构建的超级计算架构,而不是通常运行科学工作负载的超级计算机,因为TPU不适合这些工作。 其最新版本的TPU每个单元(组成系统的部分)有8, 960 个芯片,相比之下,v4 只有4, 096 个,而且在每个单元可用的浮点运算次数(FLOPs)方面,它的可扩展性是v4 的四倍。这些新的单元提供了4,800Gbps的吞吐量。新的单元还拥有95GB的高带宽内存(HBM),而TPU v4 只有32GB的HBM RAM。 不同于英伟达,它将其GPU出售给其他公司,谷歌的定制TPU仍然只在其自己的产品和服务中使用。谷歌的TPU长期以来一直用于为其服务提供动力,包括Gmail、YouTube和Android,而最新版本也被用于训练Gemini。 谷歌的v5p TPU在训练大型语言模型方面比TPU v4 快2. 8 倍,并且提供2. 1 倍的性价比。虽然今年早些时候发布的中间版本TPU v5e在三者中提供了最高的性价比,但它只比TPU v4 快1. 9 倍,这使得TPU v5p成为最强大的。 它甚至强大到足以与英伟达广受欢迎的H100 GPU相媲美,这是市场上最适合人工智能工作负载的显卡之一。根据该公司自己的数据,这个组件在训练工作负载方面比英伟达的A100 GPU快四倍。 与此同时,谷歌的TPU v4 据估计比A100 快1. 2 到1. 7 倍,这是根据它在四月份发布的研究结果。粗略的计算表明,TPU v5p大约比A100 快3. 4 到4. 8 倍,这使得它与H100 相当或者更优秀,尽管在得出任何结论之前,需要更详细的基准测试。
ChatGPT新增多语言功能Alpha版,支持简体中文 日前有消息显示,OpenAI方面已为ChatGPT新增多语言功能Alpha版,允许用户将ChatGPT的界面转换为简体中文等语言,从而为非英语用户提供更便捷的体验。据了解,收到灰度测试邀请的用户可在ChatGPT主界面中点击自己的头像,进入“设置”-“通用”-“语言环境(Alpha)”,即可将界面修改为其他语言。 但有用户反馈,“将界面修改为简体中文后,ChatGPT对话框的提示句按钮也将同步变为简体中文,但直接按下快捷按钮后自动输入的还是英文内容,有待进一步的改进”。 值得一提的是,近日OpenAI方面已宣布,将发布新的GPT-4 Turbo预览模型GPT-4 Turbo 0125、新的GPT-3.5 Turbo模型GPT-3.5 Turbo 0125、两款新的嵌入模型,以及新的文本审核模型text-moderation-007,并将为开发人员管理API密钥和了解API使用情况引入新的方法。 此前曾有消息指出,GPT-4 Turbo已开始“变懒”,即出现响应速度慢、对话中断、回答敷衍等一系列情况。后续据OpenAI方面透露,新版本的GPT-4 Turbo预览模型旨在减少这些情况的发生概率,让大模型更加“敬业”、能彻底完成指令任务,同时新版本的GPT-4 Turbo预览模型在代码生成等任务方面的表现,也较之前的预览模型有了显著提升。 OpenAI方面还透露,具有视觉效果的GPT-4 Turbo有望在“未来几个月内”与广大用户正式见面,并且新版本的GPT-3.5 Turbo模型的诸多功能也得以增强,包括更精准的指令跟随、以及并行函数调用的优化等。 此外,继不久前有相关报道援引消息源透露的信息显示,OpenAI首席执行官山姆・阿尔特曼(Sam Altman)曾在与阿联酋国际控股公司(IHC)董事长谢赫·塔赫努恩·本·扎耶德·阿勒纳哈扬(Sheikh Tahnoon bin Zayed al-Nahyan)等中东投资人和软银集团等投资方,以及包括台积电在内的全球领先的芯片制造商洽谈合作,目标是筹集数十亿美元成立一家全新的芯片合资企业,并与芯片制造商合作、共同构建一个国际AI芯片生产网络后。
百度也要搞车载语言模型,这次又是对标ChatGPT吗? 近日,科技界与汽车制造业再度跨界融合,百度IDG与吉利汽车联手,在吉利银河L6车型上实现了百度自主研发的“文心大模型”的实际应用。这一创新举措将AI智能提升到了新的高度,让汽车不再仅仅是代步工具,而是成为了能够深度理解和回应驾乘者需求的智能伙伴。通过“文心大模型”的赋能,银河L6的车载系统不仅能够流畅地进行日常对话交流,更能精准把握用户习惯,重塑人性化的人车交互体验。而放眼全球智能出行市场,跨界融合趋势愈发明显。就在不久前,德国汽车巨头大众汽车也与OpenAI旗下的人工智能聊天机器人ChatGPT展开合作,试图将AI对话技术引入自家的智能汽车系统,以期为消费者创造更自然、流畅的互动体验。这些头部企业的系列动作预示着智能出行领域的新一轮技术竞赛已然拉开序幕。总之,无论是百度与吉利的成功联姻,还是大众与ChatGPT的跨国握手,都预示着未来智能汽车不再仅仅局限于机械性能的比拼,而是要在软实力上展开较量,尤其是智能化、个性化的人机交互将成为决胜未来的关键因素。这样的跨界合作,无疑将智能出行推向了一个全新的高度。 在此背景下,我们不禁引发猜想:同样是AI对话技术,“文心大模型”凭借对中国市场及用户习惯的独特洞察,是否能在车载应用场景中展现出超越ChatGPT的优势?抑或ChatGPT凭借其全球影响力和技术先进性,在未来的车载对话领域后来居上?百度与吉利联袂推出的“文心大模型”与国际流行的语言模型ChatGPT相比,究竟哪一方有望成为智能汽车交互体验的新标杆呢?
ChatGPT之父萨姆·奥尔特曼当地时间26日对韩国进行访问 OpenAI首席执行官萨姆·奥特曼本周正在访问韩国半导体行业的领导人,作为人工智能先驱者考虑进入芯片制造的雄心勃勃之举。据一位知情人士透露,奥特曼周四晚上抵达首尔,周五将参观三星电子在平泽的芯片制造工厂。他将会见三星半导体业务的高级执行官,以及代工、存储器和系统LSI部门的负责人。据该人士称,他还计划与竞争对手SK海力士的首席执行官以及SK集团董事长崔泰源会面,讨论合作方式。 自OpenAI一年多前发布ChatGPT以来,对人工智能应用的兴趣急剧增加,推动了对构建和运行这些AI程序所需的计算能力和处理器的巨大需求。奥特曼一再表示,他的公司已经没有足够的芯片。 奥特曼韩国之行的目标尚不明确。据彭博新闻本月报道,他一直在努力筹集数十亿美元,建立一系列工厂来生产半导体。三星一直在扩大其代工业务,为客户设计的芯片进行制造。 三星和SK海力士的代表拒绝发表评论。OpenAI的代表没有立即回应置评请求。 韩国是高端芯片生产的领导者,在市场上与台湾占主导地位。台湾半导体制造公司是世界领先的代工厂,为苹果公司和英伟达公司等制造芯片。 本月韩国政府概述了一项蓝图,涉及到2047年之前由私营部门投资622万亿韩元(4660亿美元)。他们将投资建设13个新芯片工厂和3个研究设施,除了现有的21个工厂。从平泽到永仁,该地区预计将成为世界上最大的,到2030年每月能生产770万片晶圆。 世界上两个最大的存储芯片制造商正试图在国内建造最先进的芯片工厂。三星在代工扩张方面押下重注,作为到2047年500万亿韩元投资的一部分。SK海力士计划在同一时期在永仁投资122万亿韩元用于存储器。
Opera将在欧洲为iOS推出全新人工智能浏览器 Opera今天透露,它将在欧洲的iOS平台上推出一款基于自己引擎的新的人工智能浏览器。这家总部位于挪威的公司是在苹果公司根据《欧洲数字市场法案》(DMA)的要求允许在iOS上运行其他浏览器引擎的消息传出后宣布这一变化的。这一变化将允许开发者提供不基于 WebKit 引擎的浏览器。苹果目前要求第三方浏览器使用 WebKit,而 WebKit 正是支撑苹果 Safari 浏览器的浏览器引擎。为了符合 DMA 的要求,苹果将开始允许开发者提交不基于 WebKit 的浏览器,包括网页浏览器应用和为在 iOS 应用中显示网页而提供应用内浏览器的开发者。 Opera 表示,这些变化将使其能够为 iPhone 用户提供 Safari 以外的人工智能替代方案。 Opera 移动业务执行副总裁 Jørgen Arnesen 在一份声明中说:"作为欧洲领先的浏览器开发商,我们欢迎 DMA 引入的变革,这些变革旨在促进竞争,并为用户在 iOS 上提供更多样化的浏览器选择。"我们打算通过以人工智能为中心的 iOS 版 Opera One 实现这一目标。此外,我们很高兴看到苹果公司确认也将在 iOS 上推出浏览器选择界面,让用户在移动设备上也能更方便地选择自己喜欢的浏览器作为默认浏览器。" 阿内森继续指出,Opera"对苹果公司宣布的新的互操作性申请表感到非常兴奋,它将允许开发者提交更多与 iPhone 和 iOS 硬件和软件功能的互操作性申请"。 新浏览器预计将于 3 月份亮相,也就是 DMA 生效之时。鉴于这些变化仅适用于欧盟,Opera 在一份新闻稿中表示,它"强烈鼓励苹果公司为全球 iOS 用户提供这些增强的自由"。 Opera 没有提供有关即将推出的浏览器的更多细节,但表示将很快宣布对欧洲的一个关键人工智能基础设施项目进行"重大投资"。 去年,Opera 推出了"Aria"人工智能浏览器,并重新设计了其旗舰桌面浏览器,将其命名为 Opera One,这也将是新 iOS 浏览器的名称。当时,Opera 表示,新浏览器的一些元素将使其为"基于 AI 的生成式未来"做好准备。
OpenAI 连更5款模型:修复 GPT-4“变懒”BUG OpenAI 近日发布新闻稿,在更新 GPT-4 Turbo 预览模型之外,还下调 API 调用价格,优化现有模型性能,并发布全新嵌入性模型。 OpenAI 今天一口气宣布了 5 个新模型,包括两个文本嵌入模型、升级的 GPT-4 Turbo 预览版和 GPT-3.5 Turbo、一个审核模型。更新 GPT-4 Turbo 预览模型 OpenAI 根据开发者对早期预览版的反馈,发布了 gpt-4-0125-preview 预览模型,重点修复了模型的“变懒”情况,能更彻底地完成代码生成等任务。 新预览版还改善了对非英语生成问题的支持,引入“gpt-4-turbo-preview”模型别名,可自动指向最新的预览版。 OpenAI 还计划在未来几个月内全面推出带有视觉功能的 GPT-4 Turbo。 定价更低的新嵌入模型 OpenAI 还引入了两种新的嵌入模式,一种是体积更小、效率更高的 text-embedding-3-small 模型,另一种是体积更大、功能更强的 text-embedding-3-large 模型。 嵌入(embedding)是表示自然语言或代码等内容中概念的数字序列。机器学习模型和其他算法通过嵌入,可以更容易理解内容之间的关联,也更容易执行聚类或检索等任务。ChatGPT 和 Assistants API 中的知识检索等应用,以及许多检索增强生成(RAG)开发工具都使用到了嵌入这个概念。 text-embedding-3-small 相比较 2022 年 12 月发布的 text-embedding-ada-002 模型,text-embedding-3-small 性能和效率大幅提升。 性能方面,text-embedding-3-small 在多语言检索常用基准(MIRACL)的平均得分从 31.4% 提高到 44.0%,而英语任务常用基准(MTEB)的平均得分从 61.0% 提高到 62.3%。定价方面,text-embedding-3-small 的定价是 text-embedding-ada-002 的五分之一,从每 1k token 0.0001 美元降至 0.00002 美元。 text-embedding-3-large text-embedding-3-large 是 OpenAI 新推出的性能最佳的模型。将 text-embedding-ada-002 与 text-embedding-3-large 进行比较:在 MIRACL 上,平均得分从 31.4% 提高到 54.9%,而在 MTEB 上,平均得分从 61.0% 提高到 64.6%。 text-embedding-3-large 的价格为每 1k token 售价 0.00013 美元。 允许开发人员以降低存储和计算需求来换取一定的准确性。简单地说,保持主旨不变的情况下,shortening 就像从一个复杂的标签中去掉一些不那么重要的细节。 GPT-3.5 Turbo 在 API 领域,GPT-3.5 Turbo 同样表现不俗。在执行各类任务时,它不仅能够提供比 GPT-4 更低的成本,还能保证更快的执行速度。 因此,对于那些付费用户来说,此次输入价格下调 50%、输出价格下调 25% 无疑是一大利好。 具体来说,新的输入价格定格在每 1k token 价格为 0.0005 美元,而输出价格则为每 1k token 价格为 0.0015 美元。
IBM 预测全年营收增长超出预期,受到AI应用潮流推动 IBM 在周三发布的预测中,预计全年营收增长将超出市场预期,这是因为企业们寻求采用人工智能技术而对其 IT 软件和咨询服务的稳定需求。该公司的股价在盘后交易中上涨了8% 以上。 IBM 发言人表示,该公司将在2024年进行一些员工裁员,但会招聘更多的以人工智能为中心的职位,预计全年员工总数不会有太大变化。IBM 预计可能会有与2023年类似的再平衡费用,金额约为4亿美元。 在首席执行官阿文德・克里希纳(Arvind Krishna)的领导下,这个111多年历史的公司重新定位,将重点放在软件和咨询服务上,并加大对人工智能的投入,以应对不同行业对人工智能整合的需求。克里希纳首席执行官表示,IBM 的生成式人工智能业务(包括实际销售和各种服务)在第四季度相较上一季度大约翻了一番。 IBM 首席财务官詹姆斯・卡瓦纳表示,其中约三分之一的业务来自软件,其余的来自咨询服务。他还表示,该公司与德国的 SAP 等新客户签订了与人工智能相关的合同。 全球 X ETFs 的分析师梅・德(May De)表示:“IBM 在人工智能咨询领域具有明显优势,再加上其日益重要的人工智能软件解决方案,使其在竞争对手中处于有利地位。” IBM 预计2024年的营收将以中个位数增长,大约为4% 至6%,超过华尔街对3% 的预期。 克里希纳首席执行官在财报电话会议上表示:“技术预算在2024年将与2023年基本持平。” 卡瓦纳补充说,IBM 在 “非常波动和不确定” 的经济环境中继续运营。尽管如此,IBM 报告的第四季度营收和调整后利润超出预期,其最大的业务部门 —— 软件业务增长约为3%。 基础设施部门,主要包括大型机业务,第四季度营收达46亿美元,高于 Visible Alpha 估计的42.9亿美元,其中得益于嵌入式人工智能芯片等的改进。 卡瓦纳补充说,汇率预计将使2024年的营收减少100个基点。
谷歌取消与AI数据公司Appen的合同,曾帮助训练Bard等产品 谷歌公司宣布终止与澳大利亚数据公司Appen的合同,后者曾为Bard、Search等谷歌产品提供大型语言模型AI的训练。这一决定是谷歌为评估和调整其在Alphabet旗下众多供应商伙伴关系的持续努力的一部分,以确保其供应商运营的最大效率。据The Verge报道,Appen对此表示,他们事先并不知情,这一决定由谷歌单方面终止合同。在Appen等公司,人工工作者通常负责训练AI中较为不受欢迎的部分,他们往往是整个行业中低薪且常常被忽视的支持者。在Appen,承包商负责评估来自AI模型的数据质量和答案。去年,Fast Company报道称,一些加入Alphabet Workers Union的Appen员工曾向Appen请愿,要求将时薪从10美元提高到15美元。尽管工会争取到了一定的加薪,但最终的数字未能达到他们的目标,导致许多员工被裁员,Appen则以业务状况为由。 据CNBC报道,Appen还为微软、Meta和亚马逊等公司的AI模型提供了训练。Appen在澳大利亚证券交易所的文件中表示,与谷歌的合作对其营收产生了重大影响,仅在2023财年,Appen从谷歌的收入就达到了8,280万美元,而去年公司总收入为2.73亿美元。 谷歌发言人Courtenay Mencini补充说,谷歌正在与Appen密切合作,以确保过渡“尽可能顺利”。另一家与谷歌合作的承包商Accenture的员工在去年11月拒绝为当时尚未发布的Bard聊天机器人处理“淫秽、露骨和冒犯性的提示”后,以压倒性的票数加入了Alphabet Workers Union。 这不仅是谷歌面临的问题。在肯尼亚为数据标注公司Sama工作的内容管理员起诉该公司及其客户Meta,指控他们以每小时2.20美元的薪资让人们观看令人不安的图像和视频。这一事件凸显了AI行业内对于人工工作者薪资和工作条件的关切,以及与之相关的道德和社会问题。
国网络安全机构警告:人工智能将使网络钓鱼邮件难以分辨 英国网络安全中心(NCSC)近日发布的报告警告称,人工智能技术将使网络钓鱼攻击变得更加难以识别,尤其是那些要求用户重置密码的欺骗性信息。NCSC表示,由于人工智能工具的复杂性,人们将很难辨别这些欺骗性信息,使得网络攻击的威胁水平在未来两年内“几乎肯定”会上升。 生成式人工智能(Generative AI)是一种能够从简单手工输入的提示中产生令人信服的文本、语音和图像的技术,通过像ChatGPT这样的聊天机器人以及开源模型的免费使用,已经广泛面向公众。NCSC指出,这种技术将使网络攻击更加复杂,尤其是欺骗性信息和社交工程攻击的辨识变得更加困难。报告中强调到2025年,生成式人工智能和大型语言模型将使每个人,无论其网络安全理解水平如何,都难以评估电子邮件或密码重置请求是否真实,以及辨别网络钓鱼、欺骗或社交工程的企图。 此外,NCSC还预测勒索软件攻击将增加,其中包括一些已经针对英国图书馆和皇家邮政等机构的攻击。该机构警告称,人工智能技术的复杂性“降低了”业余网络犯罪分子和黑客访问系统并收集目标信息的难度,使他们能够瘫痪受害者的计算机系统,提取敏感数据并要求加密货币赎金。 报告还指出,生成式人工智能工具已经通过创建虚假的“诱饵文件”帮助黑客接触潜在受害者,这些文件不包含传统网络钓鱼攻击中常见的翻译、拼写或语法错误,因为它们的内容由聊天机器人精心制作或修正。 尽管生成式人工智能被认为是一种有效的编码工具,但报告指出,它并不会提高勒索软件代码的有效性,而是有助于对目标进行筛选和识别。 最后,NCSC强调了人工智能技术作为一种防御工具的潜力,该技术能够检测攻击并设计更安全的系统。此次报告发布的同时,英国政府制定了新的指导方针,鼓励企业更好地准备应对勒索软件攻击,即“网络治理实践守则”,旨在将信息安全置于与财务和法律管理相同的层次。 尽管如此,网络安全专家呼吁采取更强有力的行动。前NCSC主管Ciaran Martin表示,除非公共和私人机构从根本上改变对勒索软件威胁的应对方式,否则在未来五年内可能发生类似英国图书馆袭击那样严重的事件。Martin在一份新闻简报中写道,英国需要重新评估其对勒索软件的应对方式,包括制定更严格的有关赎金支付的规定,并放弃对位于敌对国家的罪犯进行“反击”的“幻想”。
甲骨文的 OCI 生成式 AI 服务现已推出 Oracle 宣布了 Oracle Cloud Infrastructure(OCI)Generative AI 服务的普遍可用性,以及使企业更轻松地利用生成 AI 的最新进展的新创新。 OCI Generative AI 服务是一项完全托管的服务,无缝集成了来自 Cohere 和 Meta Llama2的大型语言模型(LLM),以解决各种业务用例。OCI Generative AI 服务现在具有支持100多种语言的多语言功能,改进的 GPU 集群管理体验和灵活的微调选项。客户可以在 Oracle Cloud 和通过 OCI Dedicated Region 在本地使用 OCI Generative AI 服务。“Oracle 的 AI 重点是解决实际的业务用例,以实现在企业中的广泛采用。为此,我们正在将 AI 嵌入到技术堆栈的所有层中,通过将生成 AI 集成到我们的应用程序和融合数据库中,并提供新的 LLM 和托管服务,所有这些都受到快速且具有成本效益的 AI 基础架构的支持,”Oracle 云基础设施高级副总裁 Greg Pavlik 表示。“我们不提供需要组装的工具包,而是提供一个功能强大的预构建生成 AI 服务和功能套件,这些服务和功能可以共同解决客户更智能、更快速地解决业务问题。” 简化生成 AI 模型的定制化 为了帮助客户解决以文本生成、摘要和语义相似性任务为重点的业务问题,来自 Cohere 和 Meta Llama2的最新模型将在一个可通过 API 调用消耗的托管服务中提供。此外,客户还可以将生成 AI 轻松安全地嵌入到其技术堆栈中,具有严格的数据安全和治理。 客户可以使用自己的数据通过检索增强生成(RAG)技术进一步改进这些模型,从而使模型了解其独特的内部操作。目前处于测试版阶段的 OCI Generative AI Agents 服务与 RAG agent 相结合,结合了 LLMs 的强大功能和基于 OCI OpenSearch 构建的企业搜索,提供增强的上下文结果。该 agent 使用户能够以自然语言与各种企业数据源进行对话,而无需专业技能。检索到的信息是实时的,即使是动态数据存储,结果也会提供对原始源数据的引用。 最初的测试版支持 OCI OpenSearch。即将推出的版本将支持更广泛的数据搜索和聚合工具,并提供访问具有 AI 矢量搜索功能的 Oracle Database23c 以及具有 Vector Store 的 MySQL HeatWave。Oracle 还将在其一套 SaaS 应用程序中提供预构建的代理操作,包括 Oracle Fusion Cloud Applications Suite、Oracle NetSuite 和 Oracle Health 等行业应用程序。 “通过今天的新闻,Oracle 将生成 AI 引入到客户的工作负载和数据中,而不是要求客户将其数据移至单独的矢量数据库,”IDC 全球人工智能和自动化研究实践副总裁 Ritu Jyoti 表示。“通过一个通用架构,将生成 AI 集成到 Oracle 生态系统的所有部分,从 Autonomous Database 到 Fusion SaaS 应用程序,Oracle 将生成 AI 带到了已经存在的以 EB 级别计的客户数据所在的地方,无论是在云数据中心还是本地环境中。这大大简化了组织在现有业务运营中部署生成 AI 的过程。” 在 Oracle 的整个堆栈中嵌入生成 AI Oracle 领先的 AI 基础设施和全面的云应用程序组合为客户的信任创造了强大的组合。通过将生成 AI 集成到其包括 ERP、HCM、SCM 和 CX 在内的云应用程序组合中,Oracle 使客户能够利用现有的业务流程中的最新创新。此外,Oracle 正在将生成 AI 能力嵌入到其数据库组合中,以使客户能够构建自己的 AI 驱动应用程序。通过 Autonomous Database Select AI,客户可以通过将私有企业数据与生成 AI 的生产力和创造力相结合,加速应用程序开发或创建新的业务解决方案。 为了帮助客户使用开源库(如 Hugging Face 的 Transformers 或 PyTorch)构建、训练、部署和管理 LLMs,Oracle 还在扩展 OCI Data Science 的功能。新的 OCI Data Science AI Quick Actions 功能将于下个月测试版,它能够以无代码方式访问各种开源 LLMs,包括 Meta 或 Mistral AI 等领先供应商。 --- 本贴转自站长之家
微软Copilot中的ChatGPT GPT现已免费推出 备受期待的由 ChatGPT 支持的"GPT"终于可以在免费版的 Microsoft Copilot 中使用了。不过,GPTs 功能并不是Pro订阅的专属功能,它已经开始向普通用户推出。如果你幸运的话,应该已经可以看到一些 GPT元素出现了。Copilot GPT 不需要微软账户或 Edge 浏览器。在我们的测试中,我们可以在Google浏览器中访问 GPT,而无需登录微软账户。目前,GPT 功能有限,只能使用基本模块,如健身、设计或烹饪的 GPT。 Copilot GPT 更适合您选择的主题。例如,如果您选择 Microsoft Designer GPT,您就可以使用 DALL-E 3 生成更有创意的图像。这是因为 Designer GPT 在使用额外知识进行创意方面做了更多优化,而且还能最大限度地发挥 DALL-E 3 的潜力。OpenAI 在博文中指出,GPT 不仅仅是提示工程师,还包括一套额外的指令、额外的知识以及各种技能的组合。Copilot 中的 Designer (DALL-E 3) GPT(免费版) 换句话说,GPT 是为你的需求量身定制的,微软将免费为每个人提供这一强大功能。 这家科技巨头目前正在测试以下 GPT: Copilot:为您带来 A1 和网络的平衡 设计师:用文字创造图像 假期计划:发现、计划和预订旅行。 烹饪助手:寻找、计划和烹饪饭菜 健身教练:健身计划和健康小贴士。 GPT 对现有的 Copilot 体验进行了定制,微软计划在未来几周内推出更多的 GPT。 如果您有访问 Copilot Pro 的权限,还可以构建和自定义这些 Copilot GPT,它们与 ChatGPT Plus 中的 GPT 生成器类似。要创建 Copilot GPT,您可以回答一些问题,然后直接进行提示工程、知识上传和其他操作。 值得注意的是,这些 GPT 已经出现在 ChatGPT Plus 中,但微软正在将它们引入免费版 Copilot。 同样,微软告诉我,它将继续在Copilot中免费提供ChatGPT GPT-4 Turbo,但仅限于"非高峰时段"。另一方面,Copilot Pro 用户将始终可以使用 GPT-4 和 GPT-4 Turbo。 使用Pro订阅有几个好处。例如,如果您想充分发挥 DALL-E 3 的潜力,Copilot Pro 可能是一个更好的选择,因为它提供 100 次每日提升和更快的性能。同样,Pro订阅可以让您抢先试用实验中的功能。
麻省理工新研究发现 人工智能不太会取代人类的工作 麻省理工学院计算机科学与人工智能实验室(CSAIL)进行的新研究挑战了之前对人工智能对就业和自动化的预测。尽管许多先前的研究表明,人工智能可能会在未来几年内自动化大量工作,但这项最新研究认为实际情况可能比预期更为缓慢。 研究集中在需要视觉分析的工作领域,如在生产线上检查产品质量。研究人员发现,尽管有些任务可以通过人工智能实现自动化,但从经济角度看,自动化的吸引力相对较低。研究科学家Neil Thompson表示,尽管有巨大的自动化潜力,但许多任务目前并不具备经济上的自动化吸引力。研究中提到了一个例子,即面包师的工作。虽然一些与食品质量检查相关的视觉任务可以自动化,但根据研究估计,部署一个简单的人工智能系统的成本远高于通过自动化实现的实际工资节省。因此,研究得出结论,目前情况下雇佣人类仍然是更为经济的选择。 研究人员还考虑了通过供应商提供的自托管人工智能系统,这些系统只需进行微调而无需从头开始训练。然而,研究人员认为,即使系统成本降低到1000美元,这也不足以为企业带来足够的经济效益,因此自动化仍然在经济上不切实际。 最后,研究结果强调了人工智能自动化可能比预期更为缓慢的事实,并建议政策制定者和开发人员应认识到这一过程需要数年甚至数十年的时间,从而有足够的时间采取相应的政策和措施来应对未来的挑战。
AI搅动就业市场 AI技术成为就业市场的最大变量。 1月22日,据领英提供的劳动力市场调研数据显示,2023年已有超500个可能受到生成式人工智能(GAI)技术影响的职业技能,预计2030年,65%的职业技能将发生改变。 领英针对企业雇主的最新调研显示,2023年,有88%的亚太区企业招聘负责人认为,求职者所展现出的技能组合已经发生显著变化,41%的中国企业雇主认为AI相关技能提升显著。 全球企业员工对AI技能的学习诉求增长迅速。 2022-2023年,领英前100门AI/GAI相关课程的学习时长增加了1.7倍。过去三个月,在领英学习平台上观看AI相关课程的学员数量增加了80%。 岗位方面,猎聘大数据研究院近期发布的《2023年度就业趋势数据报告》(下称《猎聘报告》)显示:2023年1-10月,要求掌握AIGC的职位同比增长179.19%。 其次,在简历中注明自己会用AIGC技能的求职者占比0.04%,他们被企业开聊的次数明显高于未注明有该技能的求职者,前者为7.95次,后者为4.76次。“同等条件下,57.04%的企业更会优先考虑会用AIGC工具的人。”猎聘称。 与此同时,企业更愿意为掌握AIGC技能的人才买单。 《猎聘报告》显示,要求AIGC技能的机器视觉招聘平均年薪为48.45万,无此要求的是29.83万元,前者比后者高62.44%。以“数据标注”为例,2022-2023年,其新发职位增长34%,平均年薪12.38万,集中在互联网、人工智能行业。 麦可思研究院《2023年中国本科生就业报告》(就业蓝皮书)显示,IT相关职业依然领跑薪酬榜。从事互联网开发及应用、计算机与数据处理类职业毕业生薪资依然保持领先,毕业五年后的年收入均超18万元。 AI的发展,也在影响年轻人的求职理念,薪资并非年轻人最看重的求职因素。领英调研显示,2024年,中国企业吸引顶尖人才的两大首要因素是:提供内部流动性、发展空间和技能学习机会,以及强调企业在AI时代的愿景和目标,其次才是薪资福利等。
2024 年值得关注的 6 大生成式 AI 趋势 2023年是人工智能领域长期以来最具颠覆性的一年,大量生成式人工智能产品进入主流。继续其变革之旅,生成式人工智能有望在2024年从兴奋的话题转变为现实世界的应用。 随着科技公司不断开发和微调人工智能模型,生成式人工智能领域正在迅速发展,催生了一系列广泛的趋势,这些趋势将促进人工智能在各行各业的采用及其在我们日常生活中的存在。让我们深入研究顶级生成式人工智能趋势,这些趋势将决定生成式人工智能的真正价值。1. 小语言模型 在 ChatGPT 取得巨大成功之后,我们看到许多公司在2023年发布了大型语言模型。然而,现在是时候为小语言模型 (SLM) 的激增做好准备了。法学硕士接受过从各种公共在线资源中废弃的大量数据集的培训,并且能够执行需要人类智能的复杂任务,从编写编程代码和逻辑推理到回答几乎所有可以想象的主题的查询。 然而,处理如此庞大的具有数万亿参数的人工智能模型需要大量的计算资源和财务投资。 相比之下,小语言模型是根据特定任务的有限数据进行训练的,并且更具成本效益。SLM 的参数较少,占用的存储空间也较少,因此适合在计算能力较低的较便宜的硬件上运行。当使用从教科书、新闻网站和杂志等可信来源提取的高质量训练数据进行训练时,该模型可以提供出色的性能。这将促进这些模型的采用。 迄今为止,一些流行的 SLM 包括 Meta 的 Llama-2、微软的PHI-2和 Mistral7B。 2. 人工智能生成 目前人工智能的水平还不能与人类智能相提并论。人工智能公司渴望开发一种能够匹配或超越人类理解和认知能力的模型,这一突破被认为是通用人工智能(AGI)。 AGI模型不局限于特定领域,无需人工干预即可解决人类认知层面的各种问题。它可以独立学习并解决不熟悉的问题,无需额外培训。简而言之,AGI 是完整人工智能的概念,反映了人类理解和解决复杂任务的广泛认知能力。 相比之下,现有模型依赖于大量训练来理解和解决同一领域内的相关问题。例如,预先训练的大型语言模型 (LLM) 必须输入金融数据集才能做出与投资相关的决策。 AGI 的概念是,机器可以跨领域执行具有人类认知水平的复杂任务,而无需了解这些任务的背景知识。 3. 多模态人工智能模型(聊天机器人) 生成式人工智能模型通过集成多模式多功能性超越了文本创建。多模态人工智能将在2024年取得进展,并为生成式人工智能领域带来重大变化。 多模态人工智能模型经过训练,可以通过先进的算法学习和处理多种形式的数据,例如文本、照片甚至声音和视频,以便根据提示生成不同类型的内容,例如文本、图像、声音和视频。 训练数据集(包括文本、图像、视频和音频)的组合可以训练系统学习不同类型媒体之间的关系,并使它们能够识别一种媒体并对另一种媒体做出响应。例如,如果您输入图像,模型将生成文本作为响应,反之亦然。 向人工智能模型的过渡将使该技术更加直观和动态。Gemini、GPT4-V、Gen-2、ImageBind 等因其多模态功能而深受用户欢迎。 4. 代理人工智能 虽然到目前为止我们已经能够与人工智能聊天,但到今年,我们将看到聊天机器人作为代理运行。科技公司正在努力将人工智能模型转变为自主软件程序,旨在无需直接人工干预即可实现特定目标。 这些自主代理是使用先进的算法和机器学习技术设计的。此类智能体的开发本质上需要集成不同技术的多模态人工智能,包括机器学习、计算机视觉、自然语言处理等。 这些代理旨在使用数据来学习模式、设定新目标,并在没有或很少人为干预的情况下实现这些目标。他们可以通过同时分析不同的数据类型并考虑当前环境来有效地预测、采取行动和交互。 例如,可以训练金融人工智能代理收集市场数据、分析模式并根据不断变化的市场条件实时调整其投资策略。 5.人工智能治理 2024年将是人工智能监管的分水岭,重塑生成式人工智能策略的发展和道德风险,以实现安全可靠的人工智能应用。 随着生成式人工智能迅速进入主流,企业很高兴利用它来推动创新并发现各个行业和应用程序的新机会。然而,整合这项尖端技术并非没有挑战。人工智能的快速发展让监管机构争先恐后地跟上该技术的步伐。 尽管有可能产生或预测期望的结果,但生成式人工智能引起了人们对幻觉、错误信息传播、深度伪造等的担忧。此外,这些模型容易遭受注射、中毒、敏感私人信息泄露、侵犯版权、偏见和种族主义内容的产生强调了全球范围内迅速采取监管反应的必要性。 监管机构需要塑造人工智能治理的未来,促进创新,并确保制定护栏来保护多元化劳动力的权利和就业机会。随着人工智能融入许多行业,行业领导者、政府、学术研究人员和民间社会的联盟对于创建一个成功的人工智能治理监管框架是必要的。 6.定制企业生成AI模型 像ChatGPT vs Bard和 Midjourney这样的大规模大型语言和图像模型已经席卷了世界。然而,对于商业用例,小型、定制的企业生成人工智能模型正在兴起。这些模型是通过集成专有数据来设计的,以满足利基市场和用户需求,并确保更准确和相关的响应。定制企业人工智能应用的发展表明,企业正在转向更高效、个性化的人工智能驱动的业务解决方案。 企业生成式人工智能可以根据各种业务需求进行定制,包括客户支持、文档审查,甚至供应链管理。这些模型对于术语和实践高度专业化的金融、法律和医疗保健领域特别有用。将定制模型集成到其运营中的组织可以更好地控制其数据,从而提高隐私和安全级别。 鉴于生成式人工智能模型带来的隐私和安全风险,严格的人工智能法规可能会推动企业在未来几年过渡到使用专有模型。 2024年,生成式人工智能的格局将继续快速发展,出现一系列新趋势,给消费者和企业带来新的挑战。生成式人工智能具有巨大的潜力,其影响才刚刚开始。
首页 7 8 9 10 11 12 下一页