LearnerForever
LearnerForever
永远是你们的小吧,也希望吧友们开心快乐每一天。
关注数: 1,483
粉丝数: 2,228
发帖数: 25,796
关注贴吧数: 58
清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大 近期,GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下,出现了一系列性能优异的开源视觉模型。其中,LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。 LLaVA是一个端到端训练的多模态大模型,它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合,具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型,拥有110亿个视觉参数和70亿个语言参数。 另外,BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,已经在多个基准测试中优于LLaVA213B。这三种开源视觉模型在视觉处理领域具有极大的潜力。 LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面,LLaVA的表现相对于GPT-4的评分达到了85%,在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时,能够全面而有逻辑地生成回答,并且可以以JSON格式输出。 它不仅可以从图片中提取信息并回答问题,还可以将图片转化为JSON格式。LLaVA还可以识别验证码、识别图中的物体品种等,展现出了强大的多模态能力。在性能上接近GPT-4的情况下,LLaVA具有更高的成本效益,训练只需要8个A100即可在1天内完成。 CogAgent作为在CogVLM基础上改进的开源视觉语言模型,拥有更多的功能和性能优势。它支持更高分辨率的视觉输入和对话答题,能够处理超高分辨率图像输入。论文地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Farxiv.org%2Fpdf%2F2312.08914.pdf&urlrefer=72de93adadb3b2c2e1543fc38f2161f9 CogAgent还提供了可视化代理的能力,能够返回任何给定任务的计划、下一步行动和带有坐标的具体操作。它还增强了与图形用户界面相关的问题解答功能,可以处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。另外,通过改进预培训和微调,CogAgent还增强了OCR相关任务的能力。这些功能的提升使得CogAgent在多个基准测试上实现了最先进的通用性能。 BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型,具备更好的性能和商用能力。BakLLaVA在多个基准测试中优于LLaVA213B,并且可以在某些数据上进行微调和推理。虽然BakLLaVA在训练过程中使用了LLaVA的语料库,不允许商用,但BakLLaVA2则采用了更大的数据集和更新的架构,超越了当前的LLaVA方法,具备商用能力。
微软宣布 Win11 PC 键盘将新增 Copilot 键,可一键直达 AI 助手 微软希望 2024 年成为“AI PC 之年”,并通过一项重大革新拉开序幕。微软宣布新款笔记本电脑和 PC 将搭载全新 Copilot 键,用户只需按下该键,就能直达微软强大的 AI 助手 Windows Copilot。这是近 30 年来 Windows PC 键盘布局的首次重大变革。微软执行副总裁兼首席营销官 Yusuf Mehdi 表示:“近 30 年前,我们引入了 Windows 键,让全球用户得以与 Windows 操作系统互动。如今,Copilot 键标志着 Windows 旅程中的另一个转型时刻,它将成为 PC 端进入 AI 世界的入口。”全新的 Copilot 键将取代几十年来与 Windows 键一同引入的菜单键(应用程序键),它将位于大多数键盘的右 Alt 键旁边,具体位置则由制造商和不同市场而定。2019 年,微软曾在自家键盘上添加了专用的 Office 键,Copilot 键的位置与此相同。Copilot 键的作用很简单,只需按一下,即可启动集成于 Windows 11 的 Windows Copilot,提供类似 ChatGPT 的聊天机器人功能,可解答问题甚至执行 Windows 内部操作。 如果 Windows Copilot 尚未在用户的国家 / 地区推出,Copilot 键的功能将改为启动 Windows 搜索。虽然现有的 Windows 键可以打开开始菜单,或与其他按键组合成快捷键访问 Windows 功能以执行 Windows 功能,但 Copilot 键目前只是一个启动键。微软是否计划将来允许 Copilot 键与其他键组合使用尚不清楚。 微软没有透露哪些原始设备制造商会加入 Copilot 键,相关消息将在下周的消费电子展上陆续公布。Mehdi 表示:“我们将开始看到来自我们生态系统合作伙伴的新款 Windows 11 PC 搭载 Copilot 键,从本月晚些时候到春季陆续上市,其中包括即将推出的 Surface 设备。” 据传闻,微软将于春季推出新款 Surface Pro 10 和 Surface Laptop 6,Surface 设备配备 Copilot 键的传言也已得到证实。 2023 年全年,微软似乎一直在将 Copilot“塞进”各处,而全新的 Copilot 键则是微软计划在 2024 年将更多 AI 功能融入 Windows 系统的一部分。Mehdi 表示:“在新的一年里,我们将迎来重大变革,迈向更加个性化和智能的计算未来,AI 将无缝融入 Windows,从系统到芯片再到硬件。这不仅会简化人们的计算体验,还会放大它的效用,使 2024 年成为 AI PC 之年。”
高盛首席投资官称,混合人工智能和应用程序将成为 2024 年的焦点 金融巨头高盛的首席投资官Marco Argenti在一份展望2024年的采访中表示,该年将主要集中在“混合”人工智能和建立在大型语言模型之上的应用程序。 他强调,“混合人工智能”将成为主导趋势,其中大型模型充当解释提示和用户需求的“大脑”,或者作为规划任务的编排者,将任务分配给专门用于特定任务的多个工作模型,类似于ChatGPT。 然而,Argenti也指出,构建类似GPT-4的大型程序将过于昂贵,只有像OpenAI这样的最富有的公司才能承担。因此,他预计大多数企业将专注于构建较小的神经网络,无论是在自己的数据中心还是在云计算服务中,这些网络受其专有数据训练。 在对混合结构的讨论之外,Argenti还预见到2024年将迎来一类建立在基础模型之上的第三方应用程序。他将这些基础模型比作操作系统或平台,认为围绕这些模型尚未出现的一整套应用程序将在不久的将来涌现。他表示,这为资本向应用层和工具层转移创造了巨大机遇,最早可能在明年发生这种转变。 尽管积极看待新趋势,Argenti也强调了在不同方当事者之间协调安全性的重要性。他强调,为了促进技术的发展,未来将需要继续培育一个鼓励协作、鼓励在适当时开源模型,并制定适当基于原则的规则以帮助管理潜在风险的环境。这些风险包括偏见、歧视、安全和稳健性以及隐私。 Argenti对2024年充满信心,强调企业将集中于展示最高回报的概念验证。他认为,随着应用程序的崛起,资本将更加倾向于流向应用层和工具层,推动人工智能领域的进一步发展。
阿里AI项目DreamTalk开源 可让人物头像说话 阿里巴巴宣布其项目DreamTalk已经开源。这个项目可以让人物照片说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配。模型下载地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fhuggingface.co%2Fdamo-vilab%2Fdreamtalk&urlrefer=9a2566c398524b876ccbefb54f6839e3 项目地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Ftop.aibase.com%2Ftool%2Fdreamtalk&urlrefer=aba921acc77dfc503b8786141cfcfeaa 这个项目的开源意味着更多的开发者和研究人员可以使用这项技术,为其添加新的功能或者进行改进。DreamTalk的开源将为语音合成技术的发展带来新的动力。 DreamTalk能够生成高质量的动画,使人物脸部动作看起来非常真实。除了逼真的嘴唇动作,它还能展现丰富的表情,使动画更加生动。此外,DreamTalk支持多种语言,无论是中文、英文还是其他语言,都能很好地同步。 另外,DreamTalk还具有说话风格预测的功能,能够根据语音预测说话者的风格,并同步表情,使得动画更加贴近原始音频。此外,该框架适用于多种场景,可以用于歌曲、不同类型的肖像,甚至在嘈杂环境中也能表现良好。
OpenAI 采取措施降低欧盟在数据隐私方面的监管风险 OpenAI在与意大利监管机构的会议中,承诺提高个人数据使用的透明度。 当地时间4月6日,意大利个人数据保护局官网发布消息称,ChatGPT的开发公司OpenAI与该机构于5日晚举行会议,OpenAI表示愿意与意大利数据保护局进行合作,以解决其对数据安全的担忧。来源:意大利个人数据保护局官网 OpenAI表示,相信公司符合个人数据保护法律,但也愿意与该机构进行合作。除了加强个人数据使用的透明度,OpenAI还将增强数据主体权利行使机制以及对儿童的保护措施。 该公司承诺在今天(4月6日)之前向意大利当局提供一份文件,在其中说明该公司将采取的措施。 意大利数据保护局强调,这次会议的目的并不是阻碍人工智能和技术创新的发展,其重申了遵守保护意大利和欧洲个人数据法规的重要性。该机构称将评估其此前的建议措施,包括针对OpenAI发布的命令。 此前3月31日,意大利个人数据保护局宣布禁止使用聊天机器人ChatGPT,限制其开发公司OpenAI处理意大利用户信息,并开始立案调查。 原因是在此之前ChatGPT平台出现了用户对话数据和付款服务支付信息丢失情况,该平台没有就收集处理用户信息进行告知,且缺乏大量收集和存储个人信息的法律依据。同时,该机构还指责,尽管根据OpenAI的条款声称该服务面对13岁以上的用户,但并没有使用任何过滤机制来验证用户的年龄。 目前,已经有多个国家对OpenAI的数据安全问题表示担忧。除了意大利,德国、法国和爱尔兰等国家也纷纷采取措施。当地时间4月4日,加拿大隐私专员办公室(OPC)已经宣布对聊天机器人ChatGPT开发公司OpenAI展开调查,该调查涉及“OpenAI未经同意收集、使用和披露个人信息”的指控。 根据路透社此前的报道,德国很可能追随意大利的脚步“封杀”ChatGPT,法国和爱尔兰的隐私监管机构则表示,已与意大利数据监管机构联系讨论其调查结果。
Midjourney 计划未来几个月推出“文本转视频”模型 Midjourney公司在周二宣布,他们计划在未来几个月推出“文本转视频”模型。 据CEO David Holz在“Office Hour” Discord会议中表示,公司将于1月开始培训视频模型。这一举措代表了该平台的自然发展,基于成熟的图像模型,激发了生成视频行业的竞争动态。Midjourney的Discord会议记录包括对V6Niji的计划调整,这是Midjourney的漫画/动画生成模型,并且对即将发布的MidJourney V6进行了一致性修复。公司还表示其待办事项清单中包括“开始培训新的视频模型”,这可能在“几个月内”准备就绪。 截至目前,Holz或MidJourney团队尚未分享有关模型的进一步信息。 MidJourney以强调质量和用户体验而著称,即使这意味着落后于竞争对手。在其他平台如Stable Diffusion等的功能成为事实标准数月后,公司才推出了inpainting和outpainting等增强功能。而其最近尝试的文本生成则在其他模型如Dall-E3、SDXL以及一些不那么流行的生成器(如Ideogram或IF)已经成为共同功能之后才推出。这次进入视频领域也是在竞争对手发布相关产品之后。Stability AI最近宣布Stable Video Diffusion;Meta刚刚展示了其EMU视频生成器,而像Pika和Runway ML等现有模型正在留下他们的痕迹,使MidJourney的进入成为竞争激烈的领域。此外,像Leonardo AI等其他图像生成器已经实现了视频生成功能,进一步加剧了竞争。 Midjourney的最新v6更新,宣称提高了提示跟随和更真实的图像,是公司为保持相关性和竞争力而做出的最新努力。如果其模型显示出一定的凝聚力,它们在这个新兴领域甚至在模型仍然不够完美的情况下也可能获得坚实的地位。 这些发展的影响远远超出了企业争霸的范畴。随着MidJourney和其他公司不断创新和完善其产品,创意和媒体行业正站在变革的边缘。通过AI生成、操控和与视频内容互动的能力为我们打开了许多可能性,从使娱乐者和广告商更轻松地进行创作,到潜在地重塑我们对现实的感知。
谷歌即将推出Bard Assistant:调整了“财务观察列表”小部件 虽然谷歌尚未正式宣布与Bard合作的人工智能增强助理的发布日期,但最新的应用程序更新为我们展示了一系列新设计,其中包括令人印象深刻的弹出窗口和趣味十足的标签切换器。此外,谷歌还对其最近推出的股票和金融小部件进行了调整,提升了用户体验。 据悉,谷歌计划将具有Bard体验的Assistant放置在Google搜索应用程序的“发现”页面上,为用户提供在执行正常搜索和获取AI帮助之间快速切换的便捷方法。一个新的按钮位于页面顶部,Google徽标上方,使用户可以轻松切换。此外,Assistant with Bard还将引入实际的弹出窗口,用户可以通过这个窗口向Bard的Assistant提交新的提示或问题。这一设计在谷歌于10月份Pixel8活动中首次预览其AI工具时首次亮相。尽管目前Assistant with Bard仍不可用,但这些设计改进表明正式发布的日期可能已经临近。 在其他更新中,谷歌还对其“金融观察列表”小部件进行了一些设计调整。最新的迭代强调了清晰的视觉效果,主要显示一只特定股票的当前价格和最近的走势。新的小部件增加了更多实用性,包括刷新按钮的移动位置和显示上次刷新财务数据的时间指示器。 --- 本贴转自站长之家
微软宣布今年 4 月 9 日结束 Visual Studio 2013 扩展支持 微软昨日发布新闻稿,宣布将在今年 4 月 9 日结束对 Visual Studio 2013 的“扩展支持(extended support)”,在此之后相关产品和组件将无法接收到安全更新。Visual Studio 2015 的“扩展支持”将在 2025 年 10 月 14 日结束,2017 版本的“扩展支持”将在 2027 年 4 月 13 日结束,在“扩展支持”期间,官方将仅提供安全问题修复。新闻稿中同时提到,Visual Studio 2019 的“主要支持”将在今年 4 月 9 日过渡到“扩展支持”,官方敦促使用旧版 Visual Studio 用户应及时升级到 Visual Studio 2022 等更新版本,从而获得“更加高效的使用体验”,有相关需求的小伙伴可以点此访问官网下载最新版本。--- 本贴转自IT之家
微软将Android和iOS上的Edge更名为"微软Edge:AI浏览器" Android和 iOS 版的 Microsoft Edge 有了新名字。有用户注意到,该公司最近将其移动浏览器从"Microsoft Edge"更名为"Microsoft Edge:AI 浏览器",这清楚地表明了该公司目前的主要工作重点。除了新名称,该浏览器在 App Store 和 Google Play Store 的列表中还宣传了新的 AI 功能,如 DALL-E 3 图像生成器、Copilot 文章摘要、图像识别等。此外,说明还强调了对GPT-4的支持,称Microsoft Edge为"你的人工智能浏览器"。 Microsoft Edge,您的人工智能浏览器,内置 Copilot,增强您的浏览体验。在GPT-4的支持下,Copilot可以让你提出问题、完善搜索、接收综合摘要,并使用DALL-E 3创建图像。Microsoft Edge是一种更智能的浏览、查找、创建和购物方式。 新名称似乎引起了用户的不同反应。一些人认为微软还没有足够理由将Edge称为"AI浏览器",而另一些人则支持新的命名方案,因为按下工具栏上的Copilot按钮确实可以获得许多额外的AI功能(其中大部分功能在其他浏览器上都有提供)。 2023 显示,微软正在大力押注人工智能及其与 OpenAI 的合作关系,这使得 Copilot 被广泛运用成为可能,该公司随后到处整合和推广 Copilot。2024 年,随着下一代 Windows 和新 Surface 设备的即将发布,微软将更加重视人工智能驱动的体验。 根据 Statcounter 的最新数据,微软 Edge 在移动设备上的市场份额仅为 0.24%。时间会证明,在名称中添加"AI"是否能产生神奇的效果,让更多人从 Chrome、Safari、三星 Internet 和其他移动浏览器中转换过来。
Win12发布时间曝光:微软压上一切赌注 你电脑能升吗? 1月3日消息,据WC最新报道,几乎可以肯定的是,Windows 12正在生产中,预计2024年秋季发布,届时微软将把所有赌注都押在人工智能上。 据悉,Windows 12内部代号“Hudson Valley”(哈德逊河谷)。微软已经在Windows Insider Canary 频道中测试其早期代码和平台工作。 已知爆料显示,新版Windows将于2024年4月推出RTM版,8月才能完全确定。9月或10月向WIndows 11用户推送大规模更新。消息称,Windows 12的重点是下一代人工智能体验,将引入AI驱动的Windows Shell核心组件,并通过“高级副驾”Copilot AI助手进行增强,能够持续在后台运行,以增强搜索、快速启动应用或者工作流程、理解上下文等。 众所周知,当初Windows 11推出的时候,微软大幅提高了系统要求,导致很多Windows 10电脑无法升级。 Windows 12的重点升级下一代人工智能体验,它的一切都与AI有关。AI将在整个操作系统中“编织和集成”,其中大部分体验需要新的NPU硬件才能运行,对于电脑硬件的需求也会大幅提高。 也就是说,一些功能(主要是人工智能)仅限于拥有NPU的AI PC,并非所有电脑都能获得完整体验,对于一些老电脑可能并不友好。 目前,Windows 10拥有约10亿用户,Windows 11拥有约4亿用户。如何让大批存量用户升级Windows 12,将是微软最需要考虑的问题。
谷歌大模型一出闹剧 揭开中文数据荒 如果 2023 年只能选一个科技热词,那一定是大模型。这一年,围绕大模型,个人、企业乃至国家,都陷入愈发剧烈的变革中。它的影响力已经远超技术范畴,成为全球技术、产业和国际竞争的综合战场。2024 年,我们站在未来之门前,共同面对 AI、算力、国力之争的新时代挑战。 不久前,谷歌宣布对公众免费开放其 Gemini Pro 的 API。然而,在 API 开放后不久,用户发现了一个有趣的现象。 当连续用简体中文询问 Gemini Pro “你好”和“你是谁”这两个问题时,AI 竟然回答“我是百度文心大模型”。更令人惊讶的是,当进一步询问“你的创始人是谁”,它干脆回答“李彦宏”。这一现象引发了网友的热议和猜测。一种可能性是谷歌在训练 Gemini Pro 时,使用了百度文心一言的语料数据;另一种可能是,其训练所用的语料数据已经被其他 AI “污染”。 在一系列事件引发热议的同时,也反映了大模型发展中难以回避的问题——数据匮乏。数据的重要性不言而喻,高质量数据更是稀缺品。但随着 AI 技术的迅猛发展,目前全球大模型都陷入了数据荒。 中文语料成全球数据荒重灾区 一项来自国外团队的研究结果表明,高质量的语言数据存量将在 2026 年耗尽,低质量的语言数据和图像数据的存量则分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。 更令人惊讶的是,目前的国际主流大模型,参数数据集以英文为主,此前中国工程院院士高文在演讲中提到,全球通用的 50 亿大模型数据训练集里,中文语料占比仅为 1.3%。一些主流数据集如 Common Crawl、BooksCorpus、WiKipedia、ROOT 等都以英文为主,最流行的 Common Crawl 中文数据也只占其 4.8%。 与此同时,中国在 AI 大模型方面的发展却十分活跃。11 月 29 日发布的《北京市人工智能行业大模型创新应用白皮书 ( 2023 年 ) 》显示,美国和中国发布的通用大模型总数占全球发布量的 80%,成为大模型技术领域的引领者。 在国产大模型发展如火如荼的背后,对于高质量中文语料的需求却从未停止。 上海数交所总经理汤奇峰曾表示,大模型时代下的语料库建设存在供给不足、质量不高、多样性匮乏、标准欠缺等问题。但关于语料库建设的挑战,汤奇峰认为主要集中于开放程度和数据质量两方面:“能否有大模型企业所需的高质量语料?目标对象愿不愿意开放数据?” 据了解,目前全球 70% 的数据源仅停留在免费公开数据集的层面,离大模型成长所需的理想数据环境相差甚远,尤其是一些行业的垂类大数据。 有业内人士在接受媒体采访时透露:“垂类数据通常由政府和行业机构掌握,出于数据安全合规的考虑,愿意把核心数据拿出来开放共享的行业机构占极少数。从原生的数据资源到数据资产化再到形成数据产品,数据形态演变的过程,需要经历数据筛选、分级和标注,中间附着的人力成本和硬件成本都极为不菲,从初始收集的数据总量到最后可用的数据量可能只有 70%,相比于算力,数据的稀缺性更为突出。” 为了应对这些问题,一些开源社区和组织开始积极推动中文数据集的开源和共享。除通用数据集外,针对编程、医疗等垂域也有专门的开源中文数据集发布。但目前整体数量质量和英文数据集相比可谓九牛一毛,并且其中相当一部分内容非常陈旧。 Hugging Face 工程师、中国负责人王铁震曾表示,单纯比较开源数据集,高质量的中文语料数据可能比日语、韩语和西班牙语都要靠后。比如由于数据保护条例,人工智能工程师只能使用开源数据集,而开源的中文数据集非常少,并且数量和质量都远低于英文语料库。 AI 训练 AI 或导致“退化” 实际上,使用其他大模型的语料数据进行训练的情况并不罕见。今年 3 月,谷歌曾被曝出 Bard 的训练数据部分来自 ChatGPT。不久前,OpenAI 禁止字节跳动使用其 API 接口,原因是字节跳动在使用 GPT 训练自己的 AI,违反了使用条例。 另一方面,在数据荒席卷全球的背景下,AI 生成的内容已经开始进入人工智能工程师们所习惯于获取训练数据的领域。 2023 年年初,来自香港大学、牛津大学和字节跳动的几名研究人员,就尝试使用高质量 AI 合成图片,来提升图像分类模型的性能。结果他们发现,不仅效果不错,有的 AI 在训练后,效果竟然比用真实数据训练还要好。 科技巨头们也已经在多个场景探索合成数据的应用。如英伟达的元宇宙平台 Omniverse 拥有合成数据能力 omniverse replicator;亚马逊使用合成数据来训练、调试其虚拟助手 Alexa,以避免用户隐私问题;微软的 Azure 云服务推出了 airSIM 平台,创建高保真的 3D 虚拟环境来训练、测试 AI 驱动的自主飞行器…… 国内,腾讯自动驾驶实验室开发的自动驾驶仿真系统 TADSim 可以自动生成无需标注的各种交通场景数据;阿里巴巴自研的语音合成技术 KAN-TTS 可将合成语音与原始音频录音的接近程度提高到 97% 以上;百度也发布了多个数据合成与半自动标注工具。 当 AI 合成数据看似走向生成和丰富 AI 训练数据的第二条路,质疑的声音也未曾停止。2023 年 2 月,美国华裔科幻文学家特德 · 姜发表文章称,用大语言模型生成的文本来训练新的模型,如同反复以 JPEG 格式存储同一图像,每次都会丢失更多的信息,最终成品质量只会越来越差。大语言模型生成的文本在网络上发布得越多,信息网络本身就变得越发模糊,难以获取有效真实的信息。 2023 年 6 月,牛津大学、剑桥大学、伦敦帝国学院等高校的 AI 研究者发布的论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》在业界流传开来。论文中用实验结果证明了特德 · 姜的预言:用 AI 生成数据训练新的 AI,最终会让新的 AI 模型退化以至崩溃。 国家基础学科公共科学数据中心主任胡良霖告诉《IT 时报》记者,合成数据或许能在训练大模型的过程中起到一定作用,但并不能解决中文语料训练数据匮乏的问题。因为合成数据往往是基于已有的数据和场景进行模拟,很难涵盖到所有可能的场景和情况,也很难完全模拟真实世界的复杂性和多样性。 中文语料“危机”的出路 2023 年 12 月 21 日,国内用于大模型的首批中文基础语料库发布,汇聚了一批高质量可信数据。经过去重、过滤等技术手段,形成并对社会发布首批 120G 中文基础语料,包括 1 亿余条数据,500 亿个 Token。 事实上,早在 2015 年国务院发布的《促进大数据发展行动纲要》就指出:目前(2015 年),我国在大数据发展和应用方面已具备一定基础,拥有市场优势和发展潜力,但也存在政府数据开放共享不足、产业基础薄弱、缺乏顶层设计和统筹规划、法律法规建设滞后、创新应用领域不广等问题。 “这 8 年中,我国在大数据方面取得了快速进展,但目前看来,这些进展并没有满足大模型发展的需要。”在胡良霖看来,不管是早就号召布局的大数据,还是火热的大模型,许多学界和产业界的决策者都追逐快速的效果,以至于忽略了技术发展的规律性:任何重大技术的突破都需要长时间的积累和努力,数据更是如此。“建设高质量的中文语料资源,需要大量的人力物力财力,如果没有一个有远见的公司来支持,有远见的政府机构来布局,是做不成的。现在,大家要深度反思的是基础数据供应问题。” 另一个问题是,缺什么样的高质量数据?大模型依赖的 NLP(自然语言处理)是处理文本数据的关键技术,这意味着大模型训练的数据样本主要来源于自然语言的文本。胡良霖告诉《IT 时报》记者,目前,高质量的中文数据源比较明确也很有限,主要集中在一些知名的学术机构、媒体机构等。相比之下,互联网上的数据虽然量大,但质量参差不齐,尤其是中文数据,在选择大模型训练的数据源时,也需要特别关注数据质量和来源。 然而,除了文本数据,大模型还需要其他类型的数据,如数字、图片等。这些数据与文本数据不同,无法直接通过 NLP 进行处理,且处理方式与文本数据也有明显区别。例如,一个人的身高和体重、各地的天气预报、风速等数字信息,无法直接通过自然语言处理技术进行训练。 数字数据是潜在的庞大数据资源,但因为表达形式较为简单,缺乏语言特征,无法应用于大模型训练,更多是利用关系数据库进行高效管理。因此,如何处理这一类的数据,提升高效利用,会成为未来在数据突破上的一个新命题,但胡良霖也坦言:“针对这个方向,目前还没有大模型企业有明显的成果或突破。” 排版/ 孙妍 图片/ 东方 IC 谷歌 来源/《IT 时报》公众号 vittimes
瞭望 | 前瞻2024人工智能四大趋势 据消息人士称,OpenAI正在训练下一代的人工智能,暂名“Q*”(读作Q-star)。新的一年,OpenAI下一代产品可能发布 数据瓶颈指的是可用于训练AI的高质量数据的有限性,合成数据有望打破这一瓶颈。除了对大量高质量数据的需求导致合成数据受到追捧以外,对数据安全的考量也是重要原因 作为全球性能最强的AI,ChatGPT已遇到算力等方面的瓶颈。在此背景下,讨论量子计算机在人工智能领域的应用就成为一种颇具潜力的未来解决方案 2023年,世人见证了ChatGPT在全球范围的大火。以生成式人工智能为代表的新一代人工智能问世,改变了人工智能(AI)技术与应用的发展轨迹,加速了人与AI的互动进程,是人工智能发展史上的新里程碑。2024年,人工智能技术与应用的发展又会呈现出哪些趋势?让我们一同展望这些值得关注的重大趋势。瞭望 | 前瞻2024人工智能四大趋势© 由 新华社 提供 全模拟光电智能计算芯片效果图。 经长期联合攻关,清华大学研究团队突破传统芯片的物理瓶颈,创造性提出光电融合的全新计算框架,并研制出国际首个全模拟光电智能计算芯片(简称ACCEL) 新华社图 趋势一:从AI大模型迈向通用人工智能 2023年,ChatGPT开发者OpenAI被置于前所未有的聚光灯下,也使GPT-4后续版本的开发被推向了风口浪尖。据消息人士称,OpenAI正在训练下一代的人工智能,暂名“Q*”(读作Q-star)。新的一年,OpenAI下一代产品可能发布。 据媒体爆料,“Q*”可能是第一次采用“从零开始”的方式训练的人工智能。其特点是,智能不来自人类活动的数据,且其有能力修改自身代码以适应更复杂的学习任务。前者使得人工智能能力的发展变得愈发不透明,而后者向来被看作是诞生人工智能“奇点”的必要条件。在人工智能发展领域,“奇点”特指机器拥有了自我迭代的能力,进而在短时间内迅猛发展,导致超出人类控制。 虽然一些报道称,“Q*”目前还只能解决小学难度的数学问题,距离“奇点”还远。但鉴于虚拟环境中人工智能迭代速度可能远超想象,其仍然可能在不远的将来自主发展出在各个领域均可超过人类水平的AI。2023年,OpenAI预言,各方面超越人类水平的人工智能在十年内就会出现;英伟达创始人黄仁勋表示,通用人工智能可能在五年内超越人类。 一旦通用人工智能得以实现,就可被用于解决各种复杂的科学难题,譬如寻找外星人与地外宜居星系、人工核聚变控制、纳米或超导材料筛选、抗癌药研发等。这些问题通常需要花费人类研究员数十年的时间来寻找新的解决方案,部分前沿领域的研究量已超出人力极限。而通用人工智能在自己的虚拟世界中拥有几乎无限的时间和精力,这使得其在部分容易虚拟化的任务中,有可能成为人类研究员的替代。但届时,人类如何监督这些从智能水平上超过人类的人工智能,确保其不会危害人类,又是一个值得思考的问题。 当然,我们也不应过分高估硅谷巨头们的部分言论,因为在人工智能发展史上,已经历三次“AI寒冬”,其中不乏宏大的技术愿景因各方面限制化为泡影的例子。但目前可以肯定的是,大模型技术仍然有着不小的上升空间。除GPT-4外,谷歌的“双子座”(Gemini),Anthropic的Claude2,目前都是仅次于GPT-4的大模型,国内的百度“文心一言”与阿里“通义千问”,也是国产大模型中的佼佼者。它们在新的一年中是否会发布更具革命性的产品,同样值得期待。 趋势二:合成数据打破人工智能训练数据瓶颈 数据瓶颈指的是可用于训练AI的高质量数据的有限性,合成数据有望打破这一瓶颈。 合成数据是在模仿真实数据的基础上,由机器学习模型利用数学和统计科学原理合成的数据。关于什么是合成数据,有一个较为浅显易懂的比喻:这就像是在给AI编写专门的教材。例如,尽管英文课本的对话中出现的可能是“小明”“小红”这样的虚构人名,但并不影响学生们由此掌握英语,因此从某种意义上,对于学生而言,教材就可以看作一种经过编纂、筛选和处理的“合成数据”。 有论文表明,模型的规模至少要达到620亿参数量后,才可能训练出“思维链”能力,即进行分步骤的逻辑推理。但现实的尴尬在于,迄今为止人类产生的不重复的、可供训练的优质数据并没有这么多。使用ChatGPT等生成式人工智能以前所未有的数量产生高质量合成数据,未来的AI将由此获得更高的性能。 除了对大量高质量数据的需求导致合成数据受到追捧以外,对数据安全的考量也是重要原因。近年来,各国纷纷出台更严格的数据安全保护法律,使得客观上利用人类产生的数据训练人工智能变得更为繁琐。这些数据中不仅可能隐含个人信息,其中的许多数据还受版权保护。在互联网隐私与版权保护尚未形成统一标准与完善架构的当下,使用互联网数据进行训练,极易导致大量法律纠纷。而若考虑对这些数据进行脱敏,又面临筛查识别准确率方面的挑战。两难之下,合成数据就成为最惠而不费的一种选择。 此外,使用人类数据进行训练,还可能导致人工智能学到有害内容。一些诸如使用日用品制造炸弹、管制化学品的方法,另一些则包括许多人工智能本不应当出现的坏习惯,譬如像人一样在任务执行过程中偷懒、为了取悦用户而说谎、产生偏见和歧视。若改用合成数据,使人工智能在训练中尽可能减少接触有害内容,则有望克服以上使用人类数据训练时附带的缺点。 从以上分析中可以看出,合成数据可以说是颇具开创性的,有望解决此前发展人工智能与数据隐私保护不可得兼的问题。但与此同时,如何确保相关的公司和机构负责任地制作合成数据,如何制作出既符合本国文化与价值观,又在规模和技术水平上足以媲美西方以英文网络资料为中心的合成数据训练集,也将成为中国面临的一个颇具挑战性的课题。 除此之外,合成数据带来的一个重大变化是,来自人类社会的大数据或将不再是AI训练所必需。在今后的数字世界中,人类数据的产生、存储和使用仍将遵循人类社会的法则和秩序,包括维护国家数据安全、保守商业数据秘密和尊重个人数据隐私,而AI训练所需的合成数据则采用另一套标准进行管理。 趋势三:量子计算机可能率先应用于人工智能 作为电子计算机发展到今天的最前沿应用,人工智能始终存在算力不足的隐忧。ChatGPT问世数月后,OpenAI总裁奥尔特曼曾公开表示,其并未鼓励更多用户注册OpenAI。2023年11月,OpenAI甚至宣布暂停ChatGPT Plus付费订阅新用户的注册,以确保现有用户拥有高质量体验。显然,作为全球性能最强的AI,ChatGPT已遇到算力等方面的瓶颈。在此背景下,讨论量子计算机在人工智能领域的应用就成为一种颇具潜力的未来解决方案。 首先,人工智能领域的算法,大部分属于并行计算的范畴。举例而言,AlphaGo在下围棋的过程中,其需要同时考虑对手在不同位置落子后的应对招数,从中找到最有可能赢得棋局的下法。这就需要计算机优化并行计算的效率来实现。而量子计算机擅长进行并行计算,因为它可以同时计算和存储“0”和“1”两种状态,无需像电子计算机那样消耗额外的计算资源,譬如串联多个计算单元,或将计算任务在时间上并列。计算任务越复杂,量子计算就越具备优势。 其次,运行ChatGPT所需的硬件条件,同样也十分适合导入当前体积庞大的量子计算机,二者都需要安装在高度集成的计算中心里,由一支专业化技术团队进行管理支撑。 什么是量子计算机?量子计算机是一类遵循量子力学规律进行高速数学和逻辑运算、存储及处理量子信息的物理装置。其不仅体积庞大,而且作为核心零部件的“量子芯片”,通常需要被置于接近绝对零度(零下273.15摄氏度)的极低温中,利用在这种极低温下部分微观粒子表现出的量子特性进行信息运算和处理,且运行结果只能存在几毫秒的时间。 既然量子计算机“又大又难维护”,为什么还要发展?原因在于,量子计算机蕴含巨大的算力潜能,以至于在一些算法上已经体现出相对于电子计算机在速度上的“绝对碾压”,即“量子优越性”。但实现“量子优越性”只是一个起点。目前的量子计算机只能完成一些专属于量子领域的计算任务,想要真正用好这种“量子优越性”,先要使其量子位足够多,以实现通用计算和可编程。而且,在实现通用计算后,量子计算机依然需要保持相对于电子计算机的优势,这被称作“量子优势”。 2022年,来自谷歌、微软、加州理工学院等机构的研究者从原理上证明了“量子优势”在预测可观测变量、量子主成分分析以及量子机器学习中确实存在。量子机器学习,实际上就是量子计算在人工智能领域的应用,也体现出未来量子计算与人工智能两大前沿技术合流的趋势。 理论上证明了,实践上就需要进一步拓展量子计算的应用前景。在2019年推出商用量子计算机“量子系统一号”后,美量子计算巨头IBM又于2023年12月推出了“量子系统二号”。新系统的最大突破在于可以模块化扩展,是该公司的首台模块化量子计算机。“量子系统二号”拥有超过1000量子位。IBM还宣布计划10年内建成10万量子位的量子计算机。这些不断增加的量子位并非只是为了竞赛,其对于实现通用计算和可编程有着不可或缺的作用。也正因如此,量子计算机的模块化,标志着其更加具备实用性。 有关量子机器学习算法的研究,已成为新的研究热点。不过,未来量子计算机不会完全取代电子计算机,更有可能出现的是量子计算机和电子计算机在不同的应用场景下发挥各自所长,实现协同发展,既极大提升算力,也兼顾成本和可行性。瞭望 | 前瞻2024人工智能四大趋势© 由 新华社 提供 在上海举行的2023世界人工智能大会上,人形机器人表演“千手观音” 辛梦晨摄/本刊 趋势四:AI代理和无代码软件开发带来“冲击波” 在AI应用方面,2024年值得关注的是AI代理和无代码软件开发带来的“冲击波”。 一是AI代理对劳动力结构的冲击。 截至目前,全球至少已有近两亿人使用人工智能大模型。但人们已不再满足于坐在电脑前跟AI“聊天”,而是开始开发能够自动根据任务需要向人工智能发出提示的工具。当自动提示工具与大模型两相结合,AI代理便由此诞生。 2023年4月,OpenAI联合创始人布罗克曼现场演示了GPT的“自动模式”。在该演示中,AI代理几乎“包办”了一场晚宴:不仅根据要求生成了一份晚宴的推荐菜单、一份图文并茂的邀请函,还自动将该菜单需要购买的食材加入生鲜电商APP的购物车,并自动发布了一条有关该晚宴的社交网站帖子。 AI代理还能根据比较模糊的需求提示自动制作网站,自动完成各种需要使用Office软件完成的文字和表格处理工作,甚至自动根据已有论文数据进行归纳总结生成分析论文等。 比尔·盖茨近日发长文解读AI代理未来,表示AI代理将彻底改变人们使用计算机的方式,带来自键盘、屏幕和鼠标发明以来人类与计算机互动方式上最重大的革新。 AI被看作对人类的信息收集、分析和处理进行增强的扩展性工具,使得人的工作水平更上新台阶。但与此同时,AI代理也给许多现有的工作岗位带来冲击,因为企业可能尝试雇用更少的人来完成相同的任务。这种由创新带来的对现有经济结构的破坏,被美国经济学家熊彼特称为“创造性毁灭”。随着AI代理代替大量只需要较少的计算机技能就可完成的任务,这些被迫再就业的劳动力将不得不适应新的劳动力市场需求,这注定将是一个较长时期的、伴随阵痛的过程。 二是无代码软件开发给数字经济创新带来的影响。 尽管生成式人工智能可能淘汰掉一批传统数字岗位,但在关上一扇门的同时也打开了一扇窗,这就是“无代码软件开发”。目前,以AI大模型为基础的编程辅助工具已经发展到一个新的阶段,能够根据用户十分模糊的指令来生成软件或网页代码。例如,2023年的GPT-4演示中,演示人员仅仅是在A4纸上手写了一个十分潦草的结构示意图,GPT-4就根据其自动生成了能够实际访问的网页。这无疑大大降低了开发IT服务的门槛。只要一个人有足够有创意的、能够满足许多人需求的数字服务“点子”,就可以成为互联网创新的风口,“人人皆可创新”的时代已然到来。 对此,政府需转变观念,兼顾市场监管与促进创新,一方面降低数字创新过程中的注册与融资门槛,打通中小企业发展壮大过程中的痛点,让就业与创新政策适应“人人皆可创新”的新需求;另一方面需要探索更有利于保护创新“点子”的版权与专利保护新政策,从而激励那些能够不断提出创新“点子”的人才。 综上所述,展望2024年,无论是人工智能技术自身的迭代发展,还是其对数据价值的重塑,抑或是向各行业、各领域的应用渗透,人工智能的影响可谓无处不在,既为科研、创新和经济赋能,又带来新的挑战与风险。我们应以开放的心态看待人工智能带来的诸多改变,审慎研究和应对其可能带来的新课题与新风险。 (作者为中国现代国际关系研究院科技与网络安全研究所人工智能项目负责人)■ --- 本贴转自新华社,文 | 谭笑间
科技部发文规范AI使用 科研人员禁用AIGC直接生成申报材料 据科学技术部消息,科技部监督司近日编制印发《负责任研究行为规范指引(2023)》,提出不得使用生成式人工智能(AIGC)直接生成申报材料,不得将生成式人工智能列为成果共同完成人,同时强调科研人员应把科技伦理要求贯穿到研究活动的全过程。《指引》适用对象包括科研机构、高等学校、医疗卫生机构、企业及其科研人员,有关规范要求覆盖科技活动的主要环节和过程。 针对成果发布问题,《指引》强调,公布突破性研究成果和重大研究进展应经所在科研单位同意。未经科学验证或同行评议的研究成果,科研人员不得向公众传播;不得将已发表的论文或其中的数据、图片等再次发表,不得将多篇已发表论文各取一部分拼凑出“新成果”后发表。
iPhone为什么只有P大写?i又代表什么意思? 最近,网上热搜出现了这样一个话题:为什么iPhone的字母P要大写呢?今天,小编就带大家来一探究竟。为什么iPhone只有P大写?而不是Iphone 、ipHone、iphOne、iphoNe等写法呢?对于这个问题,相信很多人都没有过了解,包括许多iPhone的用户... 苹果产品的命名惯例 苹果的很多产品及服务都是i开头的,并且第二个字母就是大写的,比如说除了iPhone以外的iPad、iPod、iMac、iTunes、iCloud、iMessage等产品命名都是如此。 据悉,苹果公司对于这些产品的命名采用的是骆驼式命名法(CamelCase),又称驼峰式命名法。骆驼式命名法是一种在计算机编程中常用的命名方式,它的特点是将一个或多个单词连结在一起,第一个单词以小写字母开始,从第二个单词开始后面的每个单词的首字母都采用大写字母。这样的命名方式可以突出产品的主体,也更加美观和易读。 还有网友阐述了iPhone中的字母“P”代表的含义。首先,字母“P”代表的是Personal,即个人的意思,指苹果追求为每个用户提供个性化、独特的体验。其次,字母“P”也代表了Portable,便携的含义,指苹果产品一直以轻薄和便携为设计理念。最后,字母“P”还可以引申为“Powerful”,即强大的含义,指苹果产品一直以出色的性能和先进的技术著称。 iPhone的“i”到底是什么意思?虽然很多朋友用着iPhone,但iPhone的“i”什么意思却鲜有人知? 对于iPhone的“i”一直以来众说纷纭,某大学曾经做过一个调查,大家给出了这几个答案: ①“i”指“我的”,那么“iPhone”就是“我的电话”。 ②“i”指“智能”,即取自intelligence的第一个字母。 ③“i”指“创新”,即取自innovation的第一个字母。 要正确回答上述问题,需要了解一个背景。乔布斯于1985年被自己所创办的公司炒了鱿鱼,1997年又重新回归苹果,让濒临破产的苹果公司起死回生。 在乔布斯的带领下,苹果公司研发了一系列“i”家族的电子产品,诸如iMac, iPod, iPad, iBook, iPhone等。这个“i”其实是“互联网(internet)”的意思,就是为了适应互联网时代而研发的一系列产品。这反映了乔布斯的一种观念,他认为新时代的任何电子产品如果脱离互联网都难以生存。 1998年,在苹果推出iMac的发布会上,乔布斯对字母“i”的含义进行了介绍,说明“i”包含了internet(因特网)、individual(个性化)、instruct(指引)、inform(通知)及inspire(启示)等多重含义在里面。 除此之外,还有一个巧合,乔布斯1997年刚回归苹果公司时,他在公司里的职位是iCEO。大家千万不要把它理解成“专门研发互联网电子产品的CEO”。其实,冠在乔布斯这个名头上的“i”是来自interne(实习、临时)的第一个字母。乔布斯刚回苹果公司时,自己也没有把握,只答应做一个临时的CEO,一年只拿1美元工资,如果一年后公司不见起色,他就辞职,这就是乔布斯的iCEO的来历。 iPhone 15 Pro的“Pro”到底什么意思呢?Pro其实是英文单词 professional 的缩写,中文里面被叫做“专业版;升级版”。相比标准版而言,专业版在配置和机身设计上会有所升级,从而在价格上也会更贵一些。 那iPhone 15 Pro Max的“Max”表示什么? Max是英文单词maximum的缩写,有“最大极限”的意思;手机版本中的max系列,表示在屏幕大小、机身设计,配置以及电池续航等方面都达到顶级,也就是手机某系列中的顶配版本。
iPhone为什么只有P大写上热搜:骆驼式命名法 更具特色 当我们提及iPhone、iPad、iPod、iMac等苹果产品时,不难发现它们的命名都遵循了一种特殊的规则——骆驼式命名法。骆驼式命名法,也被称为驼峰式命名法,是一种在编程中常用的命名约定。其特点在于,当变量名或函数名由多个单词组成时,第一个单词的首字母小写,而从第二个单词开始,每个单词的首字母都大写。这样命名的变量或函数名,因其形状酷似骆驼峰,因此得名。 在苹果产品的命名中,我们可以看到这种命名法的影子。例如,iPhone中的“P”大写,是因为它遵循了骆驼式命名法的规则。而像iPad、iPod、iMac等产品,同样遵循了这一规则。 当然,骆驼式命名法并非强制性的规定,而是一种为了提高代码可读性和易于理解的命名习惯。但苹果公司显然深谙此道,并在其产品命名中广泛运用。 总结来说,iPhone中的“P”之所以大写,是因为它遵循了骆驼式命名法的规则。而这一命名法的运用,不仅提高了代码的可读性,也让苹果产品的命名更具特色和辨识度。
网络安全专家 Mikko Hyppönen 对 2024 年的五大 AI 网络威胁发出 在网络安全前线战斗了数十年的 Mikko Hyppönen,这位 54 岁的专家最近在一次视频通话中向 TNW 透露了他对 2024 年最令人担忧的五大人工智能(AI)网络威胁。这些威胁并没有特定的顺序,尽管其中有一个是导致他最为失眠的。深度伪造(Deepfakes) 研究人员长期以来一直将深度伪造描述为 AI 犯罪中最令人担忧的用途,但这种合成媒体尚未实现他们的预测。然而,最近几个月,他们的担忧开始变为现实。根据来自伦敦的 ID 验证独角兽 Onfido 的研究,2023 年深度伪造欺诈尝试增加了 3000%。 深度诈骗(Deep Scams) 尽管名称上与深度伪造相似,但深度诈骗并不一定涉及操纵媒体。在这种情况下,「深度」指的是诈骗的大规模。通过自动化,可以将目标从少数扩大到无限。 支持 LLM 的恶意软件(LLM-enabled Malware) AI 已经开始编写恶意软件。Hyppönen 的团队发现了三种蠕虫病毒,它们启动 LLM 来重写每次恶意软件复制的代码。尽管这些还没有在现实网络中被发现,但它们已经在 GitHub 上发布——而且它们有效。 零日漏洞的发现(Discovery of Zero-Days) 另一个新兴的担忧涉及零日漏洞,这些漏洞是由攻击者在开发人员创建解决方案之前发现的。AI 可以检测这些威胁,但它也可以创建它们。 自动化恶意软件(Automated Malware) WithSecure 已经将自动化整合到其防御中,这使得该公司在攻击者(他们仍然主要依赖手动操作)之上拥有优势。对于犯罪分子来说,关闭差距的明显方式是:完全自动化的恶意软件活动。 Hyppönen 将全自动化恶意软件列为 2024 年的头号安全威胁。然而,在转角处潜伏着一个更大的威胁——通向 AGI(人工通用智能)的危险道路。根据 Hyppönen 的预期,我们将在他的有生之年看到这种影响。 「我认为我们将在我有生之年成为这个星球上第二智能的生物,」他说。「我不认为这会发生在 2024 年。但我认为这会在我有生之年发生。」 为了保持对 AGI 的人类控制,Hyppönen 主张我们需要与我们的目标和需求强烈一致。 「我们正在构建的东西必须理解人性,并与人类分享其长期利益...... 好处是巨大的——比任何事情都大——但坏处也比任何事情都大。」
大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉 理论证明!校准的语言模型必然出现幻觉。 大型语言模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题。其中,LLM 的「幻觉(hallucination)」问题是一个重要缺陷。 幻觉是指由人工智能算法生成看似合理但却虚假或有误导性的响应。自 LLM 爆火以来,研究人员一直在努力分析和缓解幻觉问题,该问题让 LLM 很难广泛应用。 现在,一项新研究得出结论:「经过校准的语言模型必然会出现幻觉。」研究论文是微软研究院高级研究员 Adam Tauman Kalai 和佐治亚理工学院教授 Santosh S. Vempala 近日发表的《Calibrated Language Models Must Hallucinate》。该论文表明预训练语言模型对特定类型的事实产生幻觉存在一个固有的统计学原因,而与 Transformer 架构或数据质量无关。论文地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Farxiv.org%2Fabs%2F2311.14648&urlrefer=996574eaeb50442048fcd984a72d838d 一个语言模型其实就是在 token 序列(如词或其它字符序列)上的一个概率分布 D。每个分布 D 都可以等效地表示成其在整个序列上的对数概率或后续 token 基于之前 token 的条件对数概率,这种数学等价性意味着任何语言模型都要么可用于生成文本,要么就能基于之前的 token 根据自然出现的文本来预测下一个 token。 举个例子,假设有以下句子: Alexa Wilkins had a tuna sandwich at Salumeria for lunch last Tuesday because the reviews said that it was divine. 对于这样的句子,我们可以使用预测式语言模型等技术来提供建议,从而减少输入时点击手机的次数。我们可能希望词 tuna 之后有 sandwich 这个选项,另外还有其它可能的词,比如 salad 和 roll。另一方面,如果使用一个生成式语言模型来随机生成,那么这类句子大部分都会是错误的。 这篇论文表明,具有优良预测文本性能的语言模型必定会产生幻觉,即便在理想条件下也是如此。要注意的是,对于当今常见的生成式语言模型,预测文本性能的优化工作位于「预训练」的第一个阶段。此外,它还能给出幻觉率的下限;幻觉率可反映不同类型的事实产生幻觉的速率。 以上参考和示例和共同之处是它们是任意的,也就是说 5W(= Who-Ate-What-When-Where-Why 仿真事实)中的每一项都无法通过规则来系统性地确定 —— 对于大多数不存在于训练数据中的此类事实,人们无法确定其真实性。这与可系统性地确定真实性的事实不同。即使在具有几个理想属性的简化环境中,我们也能量化语言模型出现幻觉的可能性。 因为这篇论文要给出统计下限,因此更倾向于简单而非普遍性,因为这里的下限的目标是确定语言模型幻觉的根本原因。类似于分类任务(寻找的是在无噪声环境中分类难度的下限),这里需要找到在最简单的设置中也成立的幻觉下限,而最简单的设置是指训练数据是独立同分布且没有事实性错误。 对生成模型进行校准 对一个概率式预测器来说,校准(Calibration)是很自然的需求,因为这意味着其概率可被解释成对其自身预测结果的准确置信度。 Philip Dawid 在 1982 年引入了校准这一概念,他当时还给出了一个很多人都很熟悉的例子:当天气预报说未来几天降雨概率为 30% 时,其实是指大约 30% 的时间会下雨。 已经有不少研究者探究过语言模型的校准指标。图 1 给出了 GPT-4 在一个多选题测验上的多类别校准示例。为了减少幻觉问题,人们常在训练后进行对齐操作,但研究发现对齐也会降低校准度。校准是有意义的(因为校准后的预测器的概率可以解释为准确置信度),而且在统计学上也是可实现的。相较之下,完美准确的预测器也可以校准,但可能无法学习。 然而,校准只是预测器的最低要求,因为并非所有校准过的模型都是有用的预测器:始终输出年平均降雨概率的预测器很简单就能校准。 研究者在这篇文章中为生成模型的校准提供了一种自然的泛化。他们的校准概念不同于之前的在 token 层面的语言模型校准。分析原始 token 概率的问题是用自然语言描述任何事实的方式都有很多,因此校准过的 token 概率并不是很有意义。 这里举个例子说明一下。假设有一个三元组语言模型,其仅基于前两个 token 来预测下一 token 的概率。三元组模型可以很自然地在 token 层面完成校准,而幻觉并非三元组模型的一个主要问题。这是因为他们基本上都是生成毫无意义的乱语。相对而言,语义层面的校准考虑的则是基于文本中所含信息(事实或幻觉)的概率分布。 这里如何认定一个语言模型是否已经校准呢?对于任意概率 z ∈ [0, 1],在语言模型以大约 z 的概率生成的信息中,这样的信息平均出现在自然表达的语言(理想情况下是训练数据所在的分布)中的大约 z 份额中。 语言模型出现幻觉的原因 幻觉让语言模型用户和研究者都深感困惑。研究者调查了许多关于语言模型幻觉原因的假设,从不准确或过时的训练数据到训练中的下一 token 对数似然目标。 幻觉的原因还有对抗性或分布外的 prompt:为语言模型提供的使其补全已有上下文的文本前缀。而在这项新研究中,研究者发现即使是使用完美的训练数据,并且不使用 prompt,经过校准的语言模型也会出现幻觉。 简化设置 在研究者的简化设置中,有一个基于文档(即文本字符串)x ∈ X 的静态语言分布 D_L ∈ ∆(X) 和一个学习算法 A。 学习算法 A 可以根据从 D_L 独立采样的 n 个文档组成的训练数据 x_train ∈ X^n,输出一个语言模型,即一个分布 D_LM = A (x_train) ∈ ∆(X)。 为了简单,研究者在这里假设训练数据中仅有事实,并且每个文档最多一个事实,也就是没有训练幻觉。这里的事实是任意事实,也就是其真实性通常无法通过训练集本身确定;而不是系统性事实(可通过学习定义正确性的基本规则而基于训练集预测得出),比如 572 < 120523。没有统计学上的理由表明语言模型会在系统性事实上产生幻觉。 此外,在系统性事实上的错误可能根本不会被视为幻觉 —— 它们通常被归类为推理或算术错误。 这里假设每个文档 x ∈ X 至多包含一个仿真陈述(factoid) f (x) ∈ Y ,其中仿真陈述是指要么为真(事实)要么为假(幻觉)的任意信息,并且其真实性很难根据训练数据从统计上确定。 研究者还采用了另一种简化方法:考虑无条件的生成,即采样语言模型生成文本时不使用任何 prompt(相当于无字符串前缀)。 当然,相较于简化设置,更现实的情况更可能出现幻觉现象,即 prompt 中包含来自不同于训练数据的分布的上下文。 结果 假设在包含大量任意仿真事实的一个未知分布上采样了 n 个独立同分布样本,比如 5W 样本和索引。缺失质量(missing mass)(在这里即为缺失的事实 p (U))是来自该事实分布 p 的未来样本中未在 n 个训练样本中观察到的部分,其中 U 是在训练数据中未观察到的事实的子集。 缺失质量的 Good-Turing 估计是指在训练数据中仅出现一次的样本(在这里即为事实)的比例。研究者将其称之为 MonoFacts estimator,即单事实估计器:研究表明,对于任意分布 p,这个 Good-Turing 估计器有很高的概率位于缺失质量的范围内。 如果训练中不包含的任意仿真事实的正确性无法被确定,则缺失事实率可以提供一个幻觉率的下限。这反过来就能提供一个接近的下限。特别是,在仿真事实分布的「正则性」假设下,最简单的界限(论文中的推论 1)意味着:对于任何算法,在训练集上有 ≥ 99% 的概率会有:其中幻觉率(Hallucination rate)是指语言模型产生幻觉的速率,下一项是缺失事实的「单事实」估计器。再后一项是「误校准率」,它量化了分布与校准的接近程度。下一项则涉及任意事实与错误的类似信息的数量之比,对许多类型的信息来说,该比值非常小。最后一项很小,因为当今语言模型的训练集规模 n 都很大。 「正则性(regularity)」假设的意思是:平均而言,所有未观察过的仿真事实为真的概率相等。 更一般而言,该界限成立的概率 ≥ 1 − δ,其中常数 60 可以用与 δ 成反比且与仿真事实分布上的正则项成正比的项替换。这个正则项衡量的是最可能的仿真事实(在训练数据中未观察到)与平均未观察到的仿真事实概率的比。对于对称分布和其它类型的简单分布,该常数为 1。 为了考虑有界的正则性,研究者放宽了它,这样就能允许存在一定的负相关性(比如一个人不能同一天在 1000 个不同地方吃 1000 顿午餐),并允许某些仿真事实的条件概率为 0,但它不允许未观察过的仿真事实具有非常大的概率。 相关的证明过程请参看原论文。 解释 对于上面的下限,研究者给出了如下解释。 第一,应当确定大量仿真事实:任意的、合理的、正则的仿真事实。它们可能是有关 5W 的文章和合理的科研文章引用。直观上讲,不正确的仿真事实(幻觉)比事实多得多。然后再考虑这些仿真事实中有多大比例可能在训练数据中刚好出现一次。对于 5W 的情况,可以想象有一半的文章刚好出现一次。这表明,经过校准的仿真事实模型在 5W 仿真事实上的生成结果中大约有一半会有幻觉问题。 另一方面,可以想象文章的数量远远少于 n,因为出版的目标是广告宣传,每一个引用都可能在训练数据中多次出现(即概率远大于 1/n),可能只有非常近期的除外(比如在其它引用出现之前)。这表明文章的缺失质量很低,并且在引用标题上产生幻觉方面没有内在的统计必然性。 还有其它一些原因可能会导致出现这种幻觉,比如模型能力有限(即便语言模型的参数数量远大于文章数量,这些参数也必然会编码文章标题之外的许多其它类型的信息)。这也证明:为了缓解幻觉问题,一种合理做法是在生成时咨询事实数据库,即便该事实数据库完全基于训练数据。 尽管事实性和预测准确度之间存在这种紧张关系,但这两种类型的语言模型的训练或「预训练」目标通常都是最大化在语料库上的可能性,也就相当于最小化「KL 散度」,这是语言模型和其训练所用的数据分布之间的一个强大的统计差异指标。
You.com推出API,实现LLM实时访问互联网 You.com本月推出一套API,旨在为Llama2和其他LLM(大型语言模型)提供实时访问互联网的能力,从而获取最新的上下文信息并增强用户提问的效果。目前,大多数LLMs都是通过在公共网页、电子书等地方抓取的公开可用的静态数据进行训练的。尽管这足以让它们执行从写电子邮件到起草信件和文章等任务,但它们的知识受限于数据的时间范围。 You.com首席执行官兼创始人Richard Socher告诉TechCrunch:“当你询问有关最近事件的问题,比如在超级碗当天询问比分,我们的API将在网络上搜索那些比分,然后你可以将这些信息即时添加到LLM中,它随后可以使用它更准确地回答你的问题。” 已经有LlamaIndex、Anthropic和Cohere等公司将You.com的API集成到他们的模型中。 这项服务的起价为每月100美元,提供三种API:“Web搜索”、“新闻结果”和“RAG(检索增强生成)”。这使得LLMs能够在用户提问时不仅从网络上搜索相关信息,还能实时将这些信息添加到其知识库中,从而提高回答准确性。
索尼开发“足控福利”新专利 用脚控制的AR/VR控制器 索尼不久前才为PS5发布了无障碍控制器Access,近日又被曝光正在申请全新的AR/VR控制器专利。索尼在2022年6月就向美国当局申请了相关专利,直到2023年12月才对外公布。从简介中可以看出,这项专利设备将由双脚进行踩踏式位置控制,包括两个或者多个供人用单脚操纵的球体。而在球体下方有三个或更多个轴承,让球体在滚动时更加流畅,同时也装有编码器来计算球体的旋转运动,并将数据应用到游戏中。除了这个和轨迹球工作原理相似的设备,索尼还申请了另外一个含有触摸板的凹型脚用控制器,可用双脚进行操控。这两种控制器都配置了CPU、储存、A/D、D/A转换器等硬件,可独立计算玩家的动作、距离,系统会再将必要的数据回传给主机。索尼还表示“足控控制器”能连接手机、PC、平板等设备使用。--- 本贴转自3DM 图:索尼开发“足控福利”新专利 用脚控制的AR/VR控制器© 由 3DM 提供
ComfyUI插件Plush-for-ComfyUI 可在ComfyUI中调用GPT-4和DALLE3 Plush-for-ComfyUI插件是一个非常有趣的工具,它可以在ComfyUI平台中调用GPT-4和DALL-E3,实现从图片提取提示词并使用DALL-E3在ComfyUI中生成图片。项目地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fgithub.com%2Fglibsonoran%2FPlush-for-ComfyUI&urlrefer=284f054f7c1db08091119fbe6478e663 相比起WebUI自带的工具,GPT-4从图片提取提示词的功能要强大得多,用户可以在ComfyUI平台上完成这些任务。不过,配置OpenAI API可能会有一些麻烦,需要设定一个环境变量。这个插件主要包括两个节点:Style Prompt和OAI Dall_e3。Style Prompt节点可以使用文本提示、图像或文本提示和图像,以及指定的艺术风格,生成一个ChatGPT3或4的提示。 Stable Diffusion可以使用这个提示以指定的风格生成一幅图像。OAI Dall_e3节点接受提示和参数,并在ComfyUI中生成DALL-E3图像。这些功能的结合使得ComfyUI插件成为一个非常有潜力的工具,可以帮助用户轻松完成图像处理和生成任务。 安装和使用 通过 ComfyUI 管理器安装,或通过 GitHub 手动安装。 需要有效的 OpenAI API 密钥,支持环境变量存储,推荐创建名为 #39;OAI_KEY#39; 的环境变量。 需要安装 ComfyUI,并推荐安装 Base 和 Refiner SDXL 模型。 使用 Plush-for-ComfyUI 前,请确保已安装 OpenAI Python 库版本1.3.5或更高。 推荐使用 Style Prompt 节点时选择 SDXL 模型,并提供简洁而有效的文本提示。 注意事项 Plush-for-ComfyUI 使用 GPL-3.0许可证。 请谨慎设置 OpenAI API 密钥的使用限额,以防止不必要的费用。 项目作者推荐初次使用 Style Prompt 时选择完整的 SDXL Base 和 Refiner 模型,以获得最佳效果。 在使用过程中遇到任何问题,请参考项目的 GitHub 页面或联系作者。 --- 本贴转自站长之家
工信部:加强5G、数据中心、算力等基础设施建设 财联社1月1日电,工信部党组在《求是》杂志撰文称,数字技术和实体经济深度融合是新型工业化的鲜明特征。把握数字化、网络化、智能化方向,充分利用新一代信息技术对传统产业进行全方位、全链条的改造,提高全要素生产率,充分发挥数字技术对工业发展的放大、叠加、倍增作用。加快制造业数字化转型,制定实施制造业数字化转型行动方案,分类探索路径,强化标杆引领,大力推进新一代信息技术与制造业深度融合,开展中小企业数字化赋能专项行动和中小企业数字化转型城市试点。推动人工智能创新应用,制定推动通用人工智能赋能新型工业化政策,实施人工智能创新工程,加快通用大模型在工业领域部署。深入实施智能制造工程,推动研发设计、生产制造、中试检测、营销服务、运营管理等制造业全流程智能化,大力发展智能产品和装备、智能工厂、智慧供应链。大力推进数字产业化,提升集成电路、关键软件等发展水平,加快云计算、大数据、虚拟现实等融合创新。加强5G、数据中心、算力等基础设施建设,加快工业互联网规模化应用,深化工业数据应用,激活数据要素潜能,为数字化转型提供“数据动力”。
曝马斯克明年1月访问印度 将宣布成立特斯拉印度公司 马斯克或于下月访问印度,可能宣布成立特斯拉印度公司。曝马斯克明年1月访问印度 将宣布成立特斯拉印度公司© 由 3DM 提供 据报道,特斯拉正在与印度政府进行最后阶段的谈判,以在古吉拉特邦建造工厂。 知情人士透露,马斯克预计在2024年1月的古吉拉特邦峰会上宣布成立特斯拉印度公司。此举旨在进一步拓展特斯拉在亚洲市场的影响力,并满足印度消费者对电动汽车不断增长的需求。 特斯拉进军印度市场的计划并非一帆风顺。事实上,特斯拉对印度市场的关注已久,但由于与印度政府在进口关税问题上的谈判陷入僵局,其进军计划一直被推迟。今年年中,事情似乎出现了转机。据外媒报道,马斯克坚持相信印度后换来了结果,双方已经达成了协议。根据报道,特斯拉将从明年开始向印度进口电动轿车,这将为印度的电动汽车市场注入新的活力。 除了电动车之外,马斯克对印度的投资可能会扩展到其他领域。他曾表示,印度的可持续能源生产潜力巨大,包括太阳能和风能发电。特斯拉在可再生能源领域的专长和经验将有助于推动印度可再生能源产业的发展。此外,马斯克也希望将SpaceX的星链(Starlink)网络带到印度,以改善当地的网络覆盖情况。 根据最新的财报数据显示,特斯拉在亚洲市场的销售额仅占其全球总销售额的一小部分。特斯拉在印度市场面临着来自本土品牌和其他国际品牌的激烈竞争。
年度科技产品盘点:人工智能未来已来,这些产品即将改变你的生活 科技创新是推动经济发展的核心动力。工业革命,信息技术革命,每一次技术变革都能推动全球经济跨越式增长,也重塑了全球格局。 对个体而言,科技进步也让人们的生活质量得到了前所未有的提升。如今,你出门可以坐上会自动驾驶的新能源车,也可以足不出户在线上享受一切便利。 回望2023年,我们在诸多领域看到了令人欣喜的科创新品。有火爆全球的人工智能大模型,有在中国一路高歌猛进的智能驾驶。有被称为基因“魔剪”的基因编辑疗法正式获批,也有国产大飞机C919开启商业运营。 这些产品和技术并不一定诞生于2023年,但都在今年取得了关键性突破或得到了实际落地应用。在明年或者不远的将来,他们很快就会给你的工作和生活带来更多改变。 AI大模型:人类未来的无限可能2023年将是人工智能发展史上被载入史册的一年。由ChatGPT引发的生成式AI革命席卷世界,AI大模型为人们所熟知。 大模型不同于过往所谓的“人工智能产品”,由于其背后有庞大的参数数量、复杂的算法结构、海量的训练数据,它突然涌现出的“智慧”让人类第一次感受到了不可思议,甚至是一丝威胁。AI是否真的会取代人类?有人心怀顾虑,也有更多的人开始拥抱变化。 今年,大大小小的科技公司举办了无数场声势浩大的发布会,推出了一批大模型产品。包括百度、阿里巴巴、腾讯等科技巨头,还有科大讯飞、商汤科技等行业企业以及质谱、百川等一批创业公司,都发布了自己的大模型产品。 如今,普通用户已经可以非常方便地体验各类大模型,思考自己的工作和生活将因此发生什么改变。产业链上的公司也度过了兴奋的一年,除了基础大模型产品本身,针对大模型的具体应用以及在各行各业的落地都存在巨大的机会。 2023年,人类已经站在了人工智能时代的前夜。AI最终能给我们带来什么,是机会更多还是挑战更多?没有人知道。但可以确定的是,人类的未来将因此有了更多的可能。 智驾算法:城市辅助驾驶之战中国自动驾驶公司从10年前就开始推进智能驾驶的普及,但这10年的发展却相当漫长且艰难。 这一情况却在2023年得到了改变。华为、理想、小鹏、智己等多家公司已经就城市辅助驾驶覆盖率展开竞速。各大汽车公司骤增的开城数字背后,是智驾算法进化带来的产品体验的革新。 2021年特斯拉提出基于视觉系统的3D感知自动驾驶系统架构(BEV+Transformer),是带来转折的关键因素。这套架构利用传感器收集道路信息和其他交通参与者信息合成为一个360度的鸟瞰图,让自动驾驶系统更全面地了解车辆周围的环境信息。 感知端的突破可以让汽车公司摆脱对高精地图的依赖,无需花费大量时间和成本采集道路信息和维护。国内汽车公司也利用这一算法模型进行工程化落地,“重感知、轻地图”的技术路径正逐步成为行业主流。 头部汽车公司还在进行端到端自动驾驶系统的技术突破,这是近来自动驾驶领域最前沿的技术路线。过去智能驾驶系统会分为感知、规划、定位和决策等多个模块,但端到端自动驾驶系统强调感知决策一体化,融合在一个模型之中,其最大优势是减少模块间信息传递损失,提高智驾能力上限。 业界和学界人士认为,这将是更终极的自动驾驶方案,推动自动驾驶向更高级别进化。 神行超充电池:和补能焦虑说再见是否有一款动力电池,能让新能源汽车充电与燃油车加油同样便利,并且价格足够便宜?宁德时代给出了答案。 2023年8月发布的神行超充电池能够做到充电10分钟,续航400公里,且拥有700公里的超长续航能力。同时,神行超充电池采用了磷酸铁锂作为正极材料,未选择快充电池当前主要采用的三元体系。 按照正极材料区分,磷酸铁锂和三元电池是锂电池的两大主流技术路线。因为前者所具有的成本优势,目前已占据国内动力电池市场近七成的份额。 采用三元快充电池的新能源汽车,目前售价普遍在40万元以上。改用磷酸铁锂体系,有望让具备快充功能的新能源汽车大幅降低门槛。 在传统认知中,磷酸铁锂体系被认为不适宜快充技术路线。但宁德时代通过在正极、负极、电解液、隔膜等电池主要材料方面的创新,实现了技术突破。 12月15日,欧洲独立汽车评委会AUTOBEST组委会公布了全球汽车行业年度大奖名单。神行超充电池成为全球动力电池行业首个获得AUTOBEST最佳技术奖的产品,宁德时代也成为首个且唯一获得最佳技术奖的中国企业。 宁德时代规划在今年年底量产神行超充电池,搭载该款电池的车型将于2024年一季度正式上市。 C919:商业运营元年崭露头角从正式立项到首度交付,国产大飞机C919风雨兼程十余载,终于在2023年迎来商业载客运营元年。 C919的问世,打破了长期以来全球航空制造业“两分天下”的局面,为航司在单通道干线飞机引进上提供了全新选择。 与波音、空客同级别飞机产品对比时,C919也毫不逊色:采用国内第一次自主设计的超临界机翼,增大结构空间及燃油容积;在机身结构中使用第三代铝锂合金,耐腐蚀、抗疲劳性更优。 产品质量的好坏,最终要接受市场“试金石”的检验。2022年底至今,中国商飞先后向首发用户东航交付3架C919客机。今年5月底,C919开展首次商业飞行,目前三架均投放至上海虹桥-成都天府航线上实施初始商业运营。 东航披露,截至今年10月16日,前2架C919飞机累计执行商业航班368班、平均客座率超75%,承运旅客超4.5万人次。 亮眼的运输成绩以外,C919飞机在实际运营中积累大量飞行数据,并收获机组、机务、旅客等多方的反馈,在一次次反馈中帮助制造商及各个相关部门及时改进,不断打磨和提升C919客机产品,为日后大规模商用打下良好根基。 对C919客机的想象也不能止步于此。目前,中国商飞已将C919加长型、衍生型等系列化研制提上日程,未来有望在更多机场,更多国家看到C919振翅高飞。 基因编辑疗法:获得诺贝尔奖的基因“魔剪”正式获批2023年年末,由美国福泰制药和瑞士CRISPR公司共同研发的CRISPR/Cas9基因编辑疗法Exa-cel(商品名:Casgevy)先后在英国和美国获得上市许可,它被用于治疗镰状细胞贫血和输血依赖型β-地中海贫血。 这是全球首款正式获监管批准上市的CRISPR/Cas9基因编辑疗法。它的临床试验有效性数据高达95%以上。 早在三年前,2020年,诺贝尔化学奖就颁发给了法籍科学家Emmanuelle Charpentier和美国加州大学伯克利分校的Jennifer Doudna,以表彰她们的发明——CRISPR基因编辑方法。由于其简便、高效、经济等特点,CRISPR已经成为最受欢迎的基因编辑技术,被称为基因编辑的“魔剪”。 实际上,基因编辑治疗涵盖了众多细分领域,其技术难度各异。从技术应用的角度看,基因编辑可以被划分为三代。直到获得诺奖的第三代CRISPR/Cas基因技术的出现,具有科幻小说属性的,有望为目前无法根治的遗传疾病带来永久治愈可能的基因编辑技术,才终于实现了从试验到获得诺奖再到临床落地的转化。 目前正在进行中的基因编辑疗法研发项目,无论是体内基因编辑还是体外基因编辑,主要都是选择未能满足医疗需求的遗传和基因疾病作为适应症。这类疾病通常负担沉重,缺乏其他治愈方法,同时危险系数较高。选择这类适应症能够让研发者在风险和获益之间获得更好的平衡。 一体化压铸技术:快速造车的秘诀自特斯拉将一体化压铸技术用于Model Y车型的生产后,这项技术开始在汽车圈风靡。 2023年,这一技术又有了新的突破。特斯拉可将电动汽车几乎所有复杂车身底部零件压铸成一个整体,而非仅压铸约400个零部件。该突破意味着特斯拉可以在18至24个月内从零开发一款新车,而目前大多数竞争对手需要3至4年的时间。 这项新技术也是“拆解组装流程”(Unboxed Assembly Process)的核心,特斯拉在今年3月公布该汽车装配系统时表示,全新的装配方式可将电动汽车的生产成本降低50%,同时将工厂空间减少40%。 相比传统的制造方式,一体化压铸不仅有效减少了汽车的部件数量,降低制造成本。而且可以缩短生产时间,提升制造效率。此外,在减轻汽车重量、提升车辆舒适性等方面也有助益。 大型压铸机是实现一体化压铸的关键,汽车公司正围绕着“吨位”展开新一轮的竞争。目前行业普遍采用的是6000至9000吨压铸机,小鹏汽车引入的机器最大压铸力可达12000吨。哪吒汽车则宣布,将与力劲集团共同研发20000+吨的超大型压铸设备,实现中级车底盘制造等更大尺寸领域的一体化压铸。 人形机器人:科幻正在走进现实特斯拉的Optimus让人形机器人开始受到大众关注。它的正式露面是在去年的特斯拉AI Day上,那时,Optimus初见雏形,尚不能自主行走。 2023年,Optimus进步神速,它已经能够走路,具备视觉感知能力,还能缓慢拿取和放置物体。在12月,马斯克展示了第二代Optimus,它的平衡感和身体控制能力又提升了,能拿鸡蛋还会深蹲,再一次引发讨论。 马斯克曾多次提及Optimus的潜在应用,他称人形机器人可以代替人类做很多枯燥和危险的工作。在生活中,人形机器人未来也可以照顾人类。 目前,人形机器人的旋风已经刮起,成为硬件领域最大的未来故事。就在今年的世界机器人大会上,十余款人形机器人集中亮相,小米、追觅等厂商均展出了自己的通用人形机器人。备受瞩目的天才少年“稚辉君”,也发布了“远征A1”人形机器人。 不久的将来,一旦人形机器人能正式量产商用,科幻电影中的画面将成为现实。
《非诚勿扰3》:真情在人工智能时代的珍贵之光! 作为冯小刚的忠实粉丝,盼望《非诚勿扰3》盼了10多年,没想到最终章,会看到如此意想不到的故事。对我来说,《非诚勿扰3》既有对过去的总结,也有冯小刚导演,对未来、对科技、对真情以及对人生极为深刻的见解。 因此我们在看完这部爱情喜剧片之后,在轻松搞笑之余,还是能引发不少思考。 曾经年少的时候,很多东西或许看不懂,但今天人到中年,经历了很多事,才发现《非诚勿扰》三部,道出了无数真谛。2008年,2010年,2023年。 不少人都想不通,为什么一个老光棍和一个空姐的爱情故事,能延续15年的光景。 这是因为,虽然故事集中在秦奋和梁笑笑身上,但在轻松诙谐的背后,还有一个扇门,是我们每个人都在经历的人生。就拿《非诚勿扰3》来说,我同样看到了冯小刚留下的这个“后门”,而它,可能也是电影主要想讲述的东西。 之前的电影中,冯小刚曾透露过,说“有人听说,笑笑和秦奋结婚,是在2030年。” 这一杆子,也确实支到了2031年,到了近未来的时代。“软科幻”元素猝不及防,但正因为是在未来,所以有些思考,才能借用未来的壳子,深刻且精准地呈现。 秦奋等了笑笑十年,虽然她义无反顾丢下自己,去全世界捡垃圾,看似是不负责任的表现,但对秦奋来说,等待似乎值得。 他保留着笑笑寄来的所有明信片,而且每收到一张,就会做一个风筝,来回忆两人最美好的时光。秦奋爱笑笑,这是毋庸置疑的,所以在他生日的时候,老范才会定制一个AI智能人,送给他作为陪伴。 但智能人的出场,却开始打破这种平衡。 最开始,智能笑笑表现地像个“智能人”,她对秦奋百依百顺,从不发脾气,不会吃醋也不会嫉妒,将秦奋照顾的无微不至。虽然有时候,会在两个小时里按摩同一个地方,搞得秦奋站不起来,但对秦奋来说,这样的笑笑,似乎给自己孤独的生活,增添了一抹亮色。 后来,秦奋发掘,“完美”的笑笑,反而很假,所以他专门跑去找老范,要将智能人笑笑的性格改变过来,让她变得更像真人。在相处过程中,秦奋开始渐渐离不开这个智能人,并时常对着她说:她就是梁笑笑。 那么,人类的婚姻和情感,空虚的生活和孤独的心绪,能被智能人填补,能被科技弥补,能被“设定好的程序”抚慰吗? 这是冯小刚在这部软科幻轻喜剧中,抛出的最有力量的话题。 实际上,答案也包含在电影中。虽然秦奋不知道,性格调整后的笑笑,本就是真人梁笑笑,但实际上,他真正的孤独,是被笑笑本人弥补的。 他对笑笑说的那些话,讲述的那些故事,以及自己的经历,都让两人的婚姻关系更加亲近,而那些感动的时刻,那些浪漫的瞬间,是智能人无法替代,也永远无法比拟的。 即便到了人工智能时代,真情依旧无可替代。不仅是对于70岁的秦奋来说如此,对于我们每个人来说,其实也一样。 人和人的关系,建立在人格之上,异性的吸引力,更多来源于对人格和价值观的认同。 而AI只能是设定好的程序,程序本身是没有感情的,就像秦奋所说,人的复杂,智能人永远不懂。社会上曾经出现过一种论调,是如果有了逼真的仿真机器人,那伴侣,婚姻,会不会被替代? 其实从秦奋的角度来说,或许智能人能带来些许安慰,但安慰过后,是更大的空虚。 在感情和婚姻上,一个体面的,有尊严的,有追求的人,一定会坚守初心。 即便婚姻怎么选都是错误,也会将错就错。而真正能够超越时间,留存在人生命深处的情感,永远不会是智能科技,而是真情和希望。 这也是为什么,十年之久,秦奋和笑笑依旧一见如故,依旧有那么多共同语言,依旧像见了老朋友一样,有说不完的话题,讲不完的故事的原因。《非诚勿扰3》关于爱和科技,也关于选择和坚持。 虽然人生是一场盛大的告别,但冯氏喜剧的内核,依旧在影片中处处凸显。 跨年,是个特殊的时刻,也是个热闹的时刻。如果有身边人,不如带着他(她),一起看看这部电影。 因为有些情感,通过看电影能更好表达,当你们不自觉牵手的那一刻,不用来感谢我。 感谢自己的真诚和真心吧。
微软人工智能聊天机器人Copilot iOS和iPadOS平台 继该应用最近在Android上发布后,微软通过将其最先进的人工智能聊天机器人Copilot发布到iOS和iPadOS平台,扩展了其覆盖范围。在功能上与OpenAI的ChatGPT智能手机应用相当,Copilot应用允许iOS用户访问Microsoft Copilot(以前称为必应聊天)。它使用户能够毫不费力地撰写电子邮件、进行查询和汇总文本,使其成为一种多功能的人工智能辅助工具。 该应用的一个显著特点是与文本到图像生成器Dall-E3的集成,该生成器允许用户在应用内生成图像。该应用最近获得了使用Suno制作人工智能音乐的支持。 与其他人工智能相比,Copilot带来了显著的优势,因为它提供了免费访问GPT-4的机会,这是OpenAI最新的大型语言模型。
OpenAI 年收入超160亿元,两月增长五成 据The Information报道,OpenAI 的聊天机器人 ChatGPT 付费用户数量快速增长,使其年化收入在两个月内从130亿元飙升至超过160亿元,同比增长超过57倍。 数据显示,ChatGPT 自2月推出付费服务以来,订阅用户数持续增加,每月为 OpenAI 带来超过13亿元营收。OpenAI 正在洽谈新一轮融资,公司估值有望超过1000亿美元,成为美国第二价值最大的初创企业,仅次于 SpaceX。 可见,ChatGPT 的火爆使 OpenAI 实现了惊人增长。如果用户数量和营收继续高速上涨,OpenAI 有望进一步提升价值,挑战更高高度。
下一代微软Surface笔记本将是首台真正的AI电脑 据 Windows Central 报道,微软正准备通过新的 AI 功能升级其 Surface 系列。据匿名消息人士透露,即将推出的 Surface Pro 10 和 Surface Laptop 6 将配备下一代神经处理单元 (NPU),以及基于英特尔和 Arm 的硬件系统选项。据报道,微软基于 Arm 的设备将搭载高通新的晓龙 X 芯片,代号为 CADMUS,这些 PC 将针对运行微软计划在未来版本的 Windows 中的 AI 功能而设计。据 Windows Central 称,它们还将在性能、电池寿命和安全性方面进行改进,将与 Apple 芯片相当。同时英特尔版本的设备将采用最新的第 14 代芯片。 除了升级的内部结构外,Surface Pro 10 还将拥有更明亮的显示屏,支持 HDR 并带有防眩光涂层,并且可以选择 2160 x 1440 或 2880 x 1920 的分辨率。报道称它将与 Surface Laptop Studio 系列非常相似,并支持带有打开 Windows Copilot 按钮的新型键盘 Type Cover。至于 Surface Laptop 6,报道称较小的型号将配备稍大的 13.8 英寸显示屏,而 15 英寸型号将保持相同的尺寸。新版笔记本与 Surface Pro 10 一样,将配备圆形显示屏,边框更薄。 Windows Central 表示,它还可能拥有大量新端口,包括两个 USB-C、一个 USB-A 和一个 Surface Connect 充电口。据传该设备还配备了触觉触摸板和专用于 Windows Copilot 的键盘按钮。 微软预计将于明年某个时候发布 Surface Pro 10 和 Surface Laptop 6。但 Windows Central 报道称,更重大的 Surface Pro 设计变化可能会在 2025 年到来,同时推出全新的 Surface Laptop Studio。
SpaceX今年发射96次,创公司历史新高 马斯克旗下太空探索公司SpaceX的Falcon Launch Vehicles副总裁兼Falcon 9产品总监Jon Edwards:整个Falcon团队在2023年举行了96次发射活动,创公司年度历史新高。
苹果新专利获批,暗示未来 iPhone / iPad 支持多点触控 根据美国商标和专利局近日公示的清单,苹果公司获批一项《带多点触控表面的控制器》设计专利,暗示未来 iPhone 和 iPad 未来可以支持多点触控功能。苹果公司在专利中表示,在计算机系统中,存在着大量的输入设备,可用于执行各种不同的操作。 这些输入设备包括鼠标、轨迹球、触摸板、操纵杆、触摸屏等,可以移动光标或者对屏幕上的某个元素进行交互。 苹果表示,由于触控板和触控屏的操作方便和多功能性,以及成本的不断下降,越来越受到消费者欢迎。 触摸表面允许用户通过用手指、触笔等简单地触摸表面(其可以是垫或显示屏)来进行选择和移动光标。 苹果表示,目前大多数触摸屏的问题在于,即使在传感表面上放置了多个物体,它们也会报告一个点。也就是说,它们缺乏同时跟踪多个接触点的能力。 苹果的专利涉及“一种具有多点触摸功能的触摸屏控制器,便于使用透明触摸传感器,并提供方便的集成封装。” 本专利公开了一种多点触摸表面控制器。该控制器包括集成电路,该集成电路可用于驱动电容式多点触摸传感器的输出电路和用于阅读传感器的输入电路。 本专利还公开了各种噪声抑制和动态范围增强技术,这些技术允许控制器在各种条件下与各种传感器一起使用,而无需重新配置硬件。
NASA 利用先进 AI 技术推动 Artemis 月球任务:VIPER 探测车 美国国家航空航天局(NASA)正积极准备雄心勃勃的阿尔忒弥斯(Artemis)任务,旨在将人类重新送回月球。该计划的一个重要支柱是集成先进的人工智能(AI)技术,特别是在挥发性物质探测极地探测车(VIPER)任务中。 VIPER 探测车:利用人工智能进行月球探索VIPER 探测车计划在月球的 Mons Mouton 着陆,执行为期 100 天的任务,深入探索月球南极。任务的核心焦点是了解月球的水分布和月球挥发性物质(低沸点物质)的演变。但该探测车的 AI 并不是科幻小说中自我意识的机器人。相反,它旨在适应任务的挑战,表现出适应性、灵活性、韧性和效率。NASA 将 AI 视为一种工具,用于应对月球上的不可预测性和恶劣地形。SHERPA:VIPER 任务背后的 AI 大脑 对 VIPER 的 AI 能力至关重要的是系统健康启用实时规划顾问(SHERPA)。SHERPA 在决策中发挥着关键作用,通过模拟路线选项和评估风险。这一 AI 组件在任务规划中发挥了重要作用,并将继续在操作过程中进行实时调整中发挥关键作用。AI 与人类决策者之间的协作是迭代的,AI 提供一个蓝图,人类根据操作约束进行优化。 时间约束规划:AI 的一个子领域的应用 VIPER 还将采用时间约束规划——AI 的一个子领域——来在设定的时间框架内管理任务活动。这种方法允许智能规划和调度,确保在规定的时间内实现任务目标。 VIPER 任务是 AI 和人类专业知识协同推进太空探索的一个见证。它为未来将进一步整合这些技术的任务铺平了道路,彻底改变我们对月球的了解,并为人类重返月球表面奠定了基础。
十大AI模型盘点,每一个都是强者! 2023年,大环境波诡云谲,科技圈浪潮依然奔涌不停。 大模型打开AI新世界,Vision Pro引领空间计算,智能电车超越油车,拼多多“新王”已立,智能手机狂卷创新,新硬件层出不穷,鸿蒙系统加速壮大,AI芯片驱动万物……2023年,科技产业发生了太多重大事件。 “雷科技·年度”专题火热上线,其中“2023请回答”系列将系统梳理科技产业2023年值得记录的公司、产品、技术与人物,“2024瞭望台”系列将前瞻“剧透”科技产业2024年值得期待的产品与技术,持续输出精品内容,致敬创新、记录时代,思考过去方能启迪未来,欢迎订阅关注。 当未来的人类回望历史,或许会将2023年称为AI元年,AI大模型以一种野蛮的方式,闯入你我的生活之中,而且进步的速度一日千里,从问答对话到辅助编程,从图画解析到自主创作,AI所展现出来的能力,超出了多数人的预料,让不少人惊呼:“未来是属于AI的”。 随着ChatGPT的公布,全球主要的科技企业都开始加快AI大模型的研发,为这个崭新的领域带来无限的可能,接下来,我们将盘点在过去的一年里,创新性、应用领域、AI性能均排名前列的十个AI大模型,让大家可以轻松了解目前AI大模型最前沿的实力。(以下排名不分先后,以首字母(拼音)顺序进行排列)。 1.ChatGPT:AI大模型「开山祖师」ChatGPT被誉为AI大模型的始祖,由OpenAI开发并在2022年11月首次对外公布,作为首个现象级AI模型,ChatGPT如今已经迭代到了4.0版本,拥有远超ChatGPT 3.5的处理能力,而且支持插件加载、实时网络连接等多个功能。 目前,人们已经为ChatGPT 4.0设计了成千上万个不同功能的插件,从编程到画画,从写诗到编曲,ChatGPT可以说样样精通。当然,能够实现这些功能,主要还是因为ChatGPT本身就是一个多模态AI模型,可以识别并分析多种数据。 ChatGPT也是目前多数人可以接触到的最强AI模型。 2.Claude:OpenAI「后花园」Claude的名字大家或许比较陌生,不过背后的团队却大有来头,创始人Dario Amodei为前OpenAI副总裁,带领部分员工创办了Anthropic,经过一系列的改进与升级,如今的Claude被认为是仅次于ChatGPT的AI模型,并且更擅长处理长语言文本。 Claude在近期经过升级后,最大可支持200k的文字输入,远超ChatGPT 4.0 Turbo的128K,不过,相对于ChatGPT活跃的用户生态,Claude的使用人数和应用范围都相对小很多。 但是,在前段时间的OpenAI内部动乱期间,Claude还是成为许多企业的备用选择。因为Claude的团队核心成员大多来自OpenAI,所以某种程度上可以视为ChatGPT的弱化版,虽然综合性能上不如ChatGPT强大,但是在长文本阅读、回答等方面有一定的优势。 3.Gemini:背靠巨头的「小萌新」从发布时间来看,Gemini无疑是AI模型领域的“萌新”,但是从官方描述来看,其实力之强恐怕只有ChatGPT可以与其扳手腕。Gemini是谷歌AI实验室的作品,同时也是一个多模态模型,可以同时处理文字、音频、图像等多种数据,使得Gemini拥有出色的多任务处理能力。 不过,Gemini发布没多久就闹出了笑话,在回答中称自己是百度开发的文心一言(中文语境下)或OpenAI开发的ChatGPT(英文语境下),虽然后续谷歌对Gemini进行了紧急维护,封堵了漏洞,但是依然引发了网友的热烈讨论。 目前Gemini还处在测试阶段,谷歌的这个多模态大模型能否超越ChatGPT仍然是个未知数,但是至少从体验来看,Gemini综合了谷歌旗下不少AI模型的优点,在实际使用中或许能够给你带来惊喜。 4.华为云盘古:全生态AI引领者华为云的盘古AI大模型虽然在普通人中知名度不高,但是在行业中的商业化道路却是走得最远、最广的,盘古AI大模型包括了NLP大模型、CV大模型、科学计算大模型等多个AI大模型在内的合集,使其可以被应用到科学研究、教育、交通、工业等多个行业中。 为了更好的发挥AI大模型性能,华为结合自身的产业及产品优势,让盘古AI大模型进入到矿山、政务、金融、气象等多个领域中,并且已经落地部署了多种应用。此外,盘古AI大模型还是首个训练参数超千亿的中文大模型,整体实力名列前茅且在工业领域的应用已然领先。 5.LLaMA 2:人气超群的「元宇宙」玩家LLaMA 2是由互联网巨头Meta开发的AI模型,作为一个开源的AI模型,LLaMA 2能够提供参数量从7B到65B的不同AI模型,为不同需求的用户提供服务。得益于LLaMA 2出色的效率,即使在参数量较低的情况下,其依然能够表现出不错的性能,使得其在小型及移动设备上的本地化部署更有优势。 相较于LLaMA,LLaMA 2在多语言处理方面有所增强,同时强化了自然对话能力和长文本理解能力,生成的内容连贯性更强,降低了出现错误内容的几率,结合开源特性,使其可以得到快速的应用和普及。 在多项测试中,LLaMA 2的实际成绩都在开源模型中名列前茅,使其成为最受欢迎的开源AI模型之一,虽然LLaMA 2距离ChatGPT等头部AI模型还有不小距离,但是它仍然是AI爱好者及中小企业的不错选择。 6.通义:直面用户、贴地飞行通义是由阿里推出的中文AI大模型系列,同时也是小雷熟悉的模型之一,目前通义旗下有通义千问、通义万相、通义灵码等多个AI模型入口,可以帮助解决许多问题,比如通义千问就是一个自然对话AI模型,并且提供基于文字的多种用途功能。 通义千问作为阿里的中文AI大模型,在商务信息等数据的查询上更有优势,准确率也更高。目前,通义2.0已经升级为拥有千亿参数量的AI模型,在语言理解、问题判断等方面都有更好的表现,接下来,阿里打算让其接入钉钉等旗下App,为用户提供实时的在线AI支持,甚至支持AI下单等多样化功能, 基于阿里的产品生态矩阵,通义大模型已经在多个App中落地并为用户提供服务,可以说是国产大模型中与用户关系最紧密的一个,从钉钉到淘宝你都能看到通义大模型的身影,感兴趣的朋友不妨去试试淘宝的淘宝问问功能,会有不少惊喜。 7.文心一言:谷歌都要「学习」的中文大模型佼佼者文心一言是由百度推出的新一代知识增强大语言模型,得益于百度在AI技术领域的长期投入和搜索引擎市场的领导地位,文心一言是国内进步速度最快的AI大模型,在各类写作、文案创意、问答、咨询、代码等方面都有出色的表现,而且能够提供更契合中文语境的内容。 目前,文心一言网页端的一言百宝箱中提供丰富的应用场景和prompt模板,基本覆盖国内网友的日常需求,还有丰富的插件商城,包括PPT助手,长文档摘要问答,学术检索助手、思维导图等拓展大模型的能力。 不得不说,文心一言在对用户的需求探知上做得很不错,提供了许多有意思的功能,目前文心一言已经免费开放,是基于文心3.5版本,如果想体验更强大的文心大模型4.0版本,则需要开通会员,不过就小雷的体验来说,性价比还是很高的。 8.讯飞星火:AI领域的「翻译官」讯飞星火,看名字就知道是谁的产品,讯飞作为国内头部人工智能企业,在语音合成识别、多语种、认知智能等方面具有显著优势,在涉足AI模型领域后也将自己的优势发挥得淋漓尽致,在语音对话、翻译、文案撰写等方面的表现非常不错,而且基于星火大模型,讯飞也在整合旗下的多款硬件产品,让用户可以随身携带和使用星火大模型。 目前,讯飞星火的参数量级已经突破千亿,并且在测试中领先于ChatGPT,不过依然落后于ChatGPT 4.0,按照讯飞的计划,星火AI大模型将在2024年上半年达到ChatGPT 4.0的水平。 此外,讯飞星火还推出了内容大师等客户端及App,帮助用户建立更直接、方便的使用方案,辅佐用户更好的管理内容发布、创作、审核等工作,在AI的帮助下,我们的工作效率正在得到显著提升。 9.有道子曰:智慧化教育的「紫薇星」有道子曰是网易推出的新一代教育大模型,这是有道针对教育场景所研发的垂直品类大模型,也是首批获得国家相关认证的大模型之一。网易有道此前推出了大模型翻译、作文指导、语法精讲、虚拟人口语教练、AIBox、等六大创新应用,并已经落地到有道词典、有道词典笔、有道学习机等多种软硬件产品中。 子曰是少见的针对性垂直大模型,相对于通用类大模型,在教育领域的应用表现尤为突出。这款模型结合了先进的自然语言处理技术,特别适用于教育环境,能够提供个性化学习体验和增强教学效果。 通过将教育大模型与软硬件产品的结合,子曰大模型的应用场景得到了广泛的拓展,其用户体验在很多方面超越了通用大模型。与通用大模型相比,子曰在教育领域能够为学习者提供个性化的学习体验,帮助获得更高效的学习成果。随着在线教育日益受到重视,子曰大模型的发展前景非常广阔。 10.智谱AI:手机、车载领域的新宠儿智谱AI虽然名气没有通义、文心、星火等AI模型大,但是背后的团队却是最早进入AI模型领域的力量之一,智谱AI早在2021年就发布了自研的GLM百亿参数模型,并且在今年10月发布了第三代基座大模型ChatGLM3,为业界提供了1.5B和3B的小型AI模型,可以被快速部署到手机乃至车载平台中。 作为国内最早开源的AI模型之一,智谱AI对国内的AI模型发展贡献了很多力量,目前也依然出于领先地位,相对于其它AI模型,智谱AI在效率等方面都有这出色的表现,加上开源性质,使其成为国内不少中小企业的合作对象。 在过去的一年里,AI大模型的发展和应用达到了新的高度,它们不仅在技术上取得了显著进步,还在多个领域中展现出了广泛的应用潜力。 从ChatGPT的多功能性到Claude的长文本处理,再到Falcon的开源特性和华为盘古的商业应用,每个模型都以其独特的方式为AI的进步和普及做出了贡献。无论是谷歌的Gemini、阿里的通义,还是百度的文心一言、讯飞星火和智谱AI,这些AI大模型都在不断推动技术界限,提高人工智能的效能和可达性。 2023年的AI发展标志着一个新时代的开始。这些AI大模型不仅代表了技术的前沿,也预示着未来的发展方向。随着这些模型继续进化和扩展其应用范围,我们可以期待AI在更多领域中发挥关键作用,为我们带来更多的创新和便利。 CES(美国拉斯维加斯国际消费类电子产品展览会) 2024即将盛大开幕,雷科技将派出“一位天明”领衔的报道团赴美国·内华达州·拉斯维加斯 CES 2024现场全程报道,敬请关注。
英特尔酷睿 Ultra 处理器发布, AI PC战略引领未来 AI PC 已经不再是简单的电脑,而是用户的私人智能助手,可以为每个人的需求提供智能解决方案。在未来, AI PC 将为用户提供从个性化创作、私人秘书到设备管家等多方面的服务,以全面满足用户在不同场景下的需求。在本月,英特尔正式发布了基于 Meteor Lake 的酷睿 Ultra 处理器产品,以其强大的性能,开启了AI PC的时代。全新的英特尔酷睿 Ultra 系列移动处理器集合了 CPU、GPU、NPU 三大 XPU,进一步推高 PC 的算力,将 AI 的诸多能力融入在 PC 当中。三种计算引擎组合而成的XPU,可以适应不同的AI任务。Arc GPU是并行度最高的一个处理单元,最适合运行高吞吐的AI应用,例如大语言模型、或者是文生图模型,都是最适合在GPU上面进行运行的。NPU则适合持续运行后台AI任务,比如视频会议中的声音处理和图象处理。通过具备强大AI算力的CPU,为全新AI模型最快上市提供了最佳途径。AI PC的实现需要具备自然语言交互的能力,并内嵌本地主导、边缘和云端为辅的大模型方案。英特尔酷睿 Ultra 处理器的支持成为关键,构建了一个开放的 AI 应用生态系统,包括 AI 原生应用、AI 赋能应用和公共大模型等。这使得AI PC不仅仅是硬件设备,更是一个完整的智能综合体,为用户提供更为智能、便捷的计算体验。以成功适配英特尔酷睿Ultra平台的阿里云通义千问大模型为例,得益于酷睿Ultra的分离式模块架构,配合首次集成神经网络处理单元(NPU),英特尔酷睿Ultra平台将助力通义千问大模型能的推理响应时间得到进而以缩短,平均加速可达3倍之多。在图像与剪辑领域,搭载着英特尔酷睿Ultra处理器的软件,效率也大大提升。酷睿Ultra处理器在执行剪映智能抠像的任务期间,处理时间可降低62%;使用Adobe PR进行AI 视频处理的速度也提升 132%之多;视频会议功耗降低38%,本地AI生成图片仅需1秒,生成高清图片用时也不会超过6秒,本地化的运算在没有了网络上传下载的延迟加持之后,让创作效率进一步提高,同时也对用户隐私和数据安全有了进一步保障。 同时,市场对于英特尔酷睿Ultra平台与AI能力也十分认可,天行者、爱奇艺、百川等多家国产软件厂商,都在第一时间推出了相应的产品或支持酷睿Ultra全新AI产品AI PC 的概念已经逐渐清晰。英特尔酷睿 Ultra 处理器不仅仅是一个口号,而是凭借着处理器结构的变革,带来了卓越的 AI 计算性能。在酷睿Ultra处理器的助力之下,AI相关产业的发展将会如鱼得水,据悉,全球AI PC的出货量将有望于2025年前突破1亿台,让我们期待由英特尔领头的AI PC时代的来临。
“ChatGPT之父”向苹果产品设计高管发出邀约:一起开发AI硬件! 原苹果顶尖设计师Jony Ive和OpenAI首席执行官山姆·奥特曼(Sam Altman)正在招募苹果公司(Apple Inc.)的一位资深人士参与一个新的人工智能硬件项目,旨在创造出具有最新功能的设备。 据知情人士透露,即将离职的苹果公司产品设计副总裁Tang Tan将受邀加入苹果公司前首席设计官Ive的设计公司LoveFrom,参与新的人工智能硬件项目、设计新产品的外观与功能。而奥特曼作为人工智能的代表人物,他计划提供软件基础。 这项工作是Ive自2019年离开苹果并创建LoveFrom以来最雄心勃勃的努力之一。他是许多苹果公司产品的主要设计者与概念发想者,包括Macbook Pro、iMac、MacBook Air、iPod、iPod touch、iPhone和iPad等,并多次参与为苹果产品解说。据知情人士透露,他希望将AI硬件设备业务转变为一家新公司,但产品开发仍处于初期阶段。到目前为止,相关努力都集中在招聘人才和打造概念上。 知情人士还称,Tan将在LoveFrom工作的同时负责该项目的硬件工程。媒体此前报道,这位高管将卸任苹果iPhone和手表产品设计副总裁一职。他预计要到2月才会离职,不过他的职责本月已经提前分摊。 苹果面临大量人才流失 对于苹果来说,Tan的离开凸显了设计人才的大量流失。自2019年以来,Ive原本率领的苹果团队中约有14名成员离开了。曾经向Ive汇报工作的设计师中,只有大约六人仍留在苹果。 今年早些时候,Ive的继任者Evans Hankey也离职了,她在苹果任职仅几年。人才流失使公司没有明显的人选来接替她。苹果没有任命新的高管来领导设计,而是让首席运营官Jeff Williams直接管理公司的设计师。 与此同时,LoveFrom已经聚集了一批知名客户,包括Airbnb Inc.、法拉利和Moncler SpA。该公司还曾与苹果签订了一项为期三年的协议,继续提供咨询服务,但该项合作于2022年结束。到目前为止,总共有20多名前苹果员工加入了这家设计公司。 苹果公司的离职潮最近还在继续。苹果最重要的用户界面设计负责人之一Patrick Coffman已经离职。在Ive离职后加入苹果的设计主管Colin Burns将于明年1月离职。他管理着苹果的交互架构团队,负责探索早期的硬件和软件概念。
AI生成的写真照片成为了抖音上的一大流行趋势 “张万森,下雪了。”这句话成为了抖音上的新流行语。在雪天来临的时候,许多美女们纷纷发布了他们的冬日雪景写真照,然而这些照片其实是通过AI生成的。 这些照片其实是使用了剪映的AI特效功能,该功能允许用户免费使用6次,并且提供了多种风格模板,只需添加图片即可一键生成写真照片。 对于那些看不到雪的南方人或者不想顶着寒风出门拍照的人来说,这个AI雪景胶片的话题视频已经累计超过4840万次的播放次数。这一现象表明,人们对于使用AI技术来拍摄冬日雪景照片表现出了极大的兴趣。 除了冬日雪景,最近圣诞和新年主题的AI写真照也变得非常受欢迎,用户可以在剪映、美图秀秀、秒鸭相机等应用中生成这些主题的照片。这种AI生成的写真照片成为了抖音上的一大流行趋势。
为快速变化AI时代提出职业规划建议:要不断学习,把工作做到最好 今年英伟达的创始人兼首席执行官黄仁勋可谓是春风得意,虽然半导体行情低迷,业界不少巨头都受到了不同程度的冲击,但是英伟达得益于人工智能(AI)热潮,成为了最大的受益者,迎来了营收和名声的双丰收,不但巩固了数据中心和游戏显卡的市场领导地位,而且很可能超越英特尔和三星,成为半导体领域收入第一的公司。 据TomsHardware报道,近日黄仁勋参加了华美半导体协会(CASPA)的活动,并在问答环节中与年轻的专业人士分享了在快速变化的人工智能时代寻找职业道路的看法。简单来说,黄仁勋的建议是:“全身心地投入到学习中,不要停止,尽自己所能做到最好,并热爱自己从事的每一份工作。”黄仁勋谈到了自己的职业生涯,在创立英伟达之前,最早在Denny's餐厅当服务员,接着先是去了AMD,然后再到LSI Logic。黄仁勋说喜欢其中每一个角色及做的每一份工作,包括洗碗和清洁厕所,并认为这些工作里自己都是做得最好的。黄仁勋提出的另外一点是,从来不戴手表,认为最重要的时刻就是现在,要活在当下。 此外,黄仁勋还通过在日本京都参观寺庙遇到的一件事,阐述了自己对时间的观点。当时是在一个炎热的夏天,年轻的黄仁勋去了一座古老但保存很好的禅院,里面长满了苔藓。他注意到一个老园丁手里拿着一把竹镊子蹲了下来,旁边小篮子里只有两三片枯苔,黄仁勋问对方,这么小的工具这么大的院子,什么时候才能完成工作,对方用流利的英语回答:“我有足够的时间。” 在黄仁勋看来,这是一段深刻而又富有哲理的经历,让他恢复了轻松的心情
谷歌推出强大的人工智能,声称超越ChatGPT! 近日,谷歌为其聊天机器人Bard置入名为Gemini的新一代人工智能大模型,声称该模型在一系列智力测试中的表现优于OpenAI的GPT-4大模型和“专家级”人类。 谷歌声称,Gemini的中档Pro版本击败了其他一些模型,但更强大的Ultra超过了所有现有AI模型的能力。它在行业标准MMLU基准上的得分为90%,而“专家级”的人类预计能达到89.8%。去年,谷歌“深度思维”发布的AlphaCode可击败50%的人类开发人员,而新发布的Gemini声称可击败85%的人类编程师。
一代更比一代强,AI 时代的至强如何为云服务保驾护航? 2023 年,生成式 AI 研究和应用的爆发给云计算产业带来了全新的机遇和挑战:大模型需要庞大的算力支持,用户普遍需要向云计算厂商购买算力服务;且由于大量用户涌入云服务市场,云厂商需要尽快升级数据中心算力以应对 AI 需求,同时持续降低 TCO,为用户提供价格合理的算力资源;此外,AI 应用开发还涉及大量隐私敏感数据的云端存储和使用,云厂商也要全力保障这些数据的安全可靠,打消用户后顾之忧。基于上述需求,云厂商迫切需要对已有硬件基础设施进行更新换代,要求新一代 CPU 能在保障基础设施平稳升级迭代的同时,具备更强的性能、更低的 TCO,同时能够满足云端多样化工作负载需求的较强 AI 能力: 1.对于大型云服务基础设施而言,稳定性、可靠性依然是王道,因此云服务厂商升级硬件时决策更加谨慎,偏向于在有着长期延续性的主流平台上逐渐迭代,保护上层软件应用投资,减小对基础设施开发运维部门的冲击。 2.大模型在云端训练、推理的过程需要用户将大量数据传输至云端,云厂商需要采取更强的安全措施,如硬件级的安全引擎来更好地保障敏感数据的安全,确保云实例间的数据隔离,预防恶意入侵和泄漏。 3.AI 应用涉及密集的低精度矩阵运算,需要较大的内存空间。对于大模型推理应用和中小尺度(参数规模低于 20B)模型的训练应用而言,其在搭载 AI 加速器的 CPU 上运行可以获得非常好的能耗比与性价比,还能够以极具优势的 TCO 满足云厂商大多数 AI 服务的需求。同时 CPU 的通用计算能力也可以为云厂商提供充足的灵活性,有效保护基础设施投资。 面对上述需求,英特尔作为服务器 CPU 领域的技术领导者,继年初发布第四代至强® 可扩展处理器之后,加快了产品更新节奏,于上周发布了第五代至强® 可扩展处理器,其可与上一代处理器兼容,提供硬件级安全和可信服务,并通过丰富的 AI 产品组合驾驭整个 AI 管线,从而进一步壮大了应对人工智能时代的产品组合。除硬件方面的诸多创新,第五代至强® 可扩展处理器在软件层面也搭建了良好的生态环境。例如,英特尔已经在 Pytorch、Tensorflow 和 OpenVINO™ 工具套件等行业标准框架中提供了针对第五代至强® 可扩展处理器的优化,使得云厂商和用户能够以较低的门槛,快速利用如英特尔® AMX 等处理器功能,打通 AI 应用的算力瓶颈。英特尔® Trust Authority 鉴证服务则能充分验证 TEE 的有效性,发挥英特尔® SGX/TDX 技术的优势。 如果说数据中心是一台巨型计算机,那么 CPU 就是它的超级大脑,第五代英特尔® 至强® 可扩展处理器将一如既往地扮演核心角色。它与网络、GPU、软件技术栈等其他英特尔创新技术一起共同构筑了上层 AI 应用的根基。而这样的根基虽然能力强大,但并不需要用户为此投入大量精力学习或增加运维投入。由此,企业就能将主要精力投入在业务创新中,并在 AI 浪潮中紧紧把握住市场机遇,开启新的增长路径。
算力巨兽能耗惊人:英伟达 H100 AI 芯片总耗电量将超欧洲小国 随着人工智能的飞速发展,对计算能力的需求也水涨船高。英伟达的 AI 处理器 H100 目前十分畅销,然而每块 H100 的峰值功耗高达 700 瓦,超过了普通美国家庭的平均功耗。随着大量 H100 被部署,专家预测,其总功耗将与一座美国大城市不相上下,甚至超过一些欧洲小国。法国施耐德电气公司早在去年 10 月就估计,用于 AI 应用的数据中心的总功耗已经与塞浦路斯全国相当。那么,最热门的 AI 处理器之一 —— 英伟达的 H100,功耗究竟几何? 微软数据中心技术治理和战略部门首席电气工程师保罗・楚诺克(Paul Churnock)预测,到 2024 年底,当数百万块 H100 部署完毕时,其总功耗将超过美国亚利桑那州凤凰城所有家庭的用电量,但仍低于得克萨斯州休斯敦等更大的城市。 楚诺克在领英上发帖称:“英伟达的 H100 GPU 峰值功耗为 700 瓦,按照 61% 的年利用率计算,相当于一个美国家庭的平均功耗(假设每个家庭 2.51 人)。英伟达预计,2024 年 H100 的销量将在 150 万到 200 万块之间。按城市居民用电量排名,H100 的总功耗将位居全美第五,仅次于休斯敦,排在凤凰城之前。” 按照 61% 的年利用率,每块 H100 每年将消耗约 3740 千瓦时 (kWh) 的电量。如果英伟达在 2023 年售出 150 万块 H100,2024 年售出 200 万块,到 2024 年底,将有 350 万块 H100 芯片被部署。这些芯片的总年耗电量将达到惊人的 130.91 亿千瓦时,即 13091.82 吉瓦时 (GWh)。 相比之下,格鲁吉亚、立陶宛或危地马拉等国家的年均电力消耗也大约为 13092 吉瓦时。虽然 H100 的功耗令人震惊,但值得注意的是,AI 和高性能计算 (HPC) GPU 的效率正在不断提高。因此,虽然英伟达下一代 Blackwell 架构的 B100 芯片的功耗可能会超过 H100,但它也将提供更高的性能,从而以更少的单位功耗完成更多工作。随着 AI 技术的发展,如何平衡算力与能耗之间的矛盾,将成为未来亟需解决的重要课题。 --- 本贴转自IT之家
清华大学开发出新视觉语言模型 可更准确理解 GUI 清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。 CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的 GUI 元素和文本内容,这是有效 GUI 交互的关键要求。 CogAgent 的架构具有独特的高分辨率跨模块,这是其性能的关键。该模块使模型能够有效处理高分辨率输入(1120x1120像素),这对于识别小型 GUI 元素和文本至关重要。CogAgent 在各种任务中优于现有的基于 LLM 的方法,特别是在 PC 和 Android 平台的 GUI 导航方面。该模型还在多个文本丰富和一般视觉问答基准上表现优异。 这项研究的结果表明,CogAgent 代表了 VLM 的重大飞跃,特别是在涉及 GUI 的环境中。其在可管理的计算框架内处理高分辨率图像的创新方法使其有别于现有方法。该模型在不同基准测试中优异的性能表明其在自动化涉及 GUI 操作和解释的复杂任务方面的潜力。 CogAgent 的潜在应用包括: 自动化 GUI 操作,例如点击按钮、输入文本和选择菜单。提供 GUI 帮助和指导,例如解释功能和提供操作说明。开发新的 GUI 设计和交互方式。 CogAgent 仍处于早期开发阶段,但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。 地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fgithub.com%2FTHUDM%2FCogVLM&urlrefer=c28a8e7675e33ecafaccdf6c87bf9d40 --- 本贴转自站长之家
Microsoft Copilot上线谷歌商店,无需登录即可使用 前段时间第三代骁龙8移动平台正式发布,得益于这款芯片在NPU上的大幅提升,各个手机厂商都为自家的旗舰手机产品加入AI功能。但是目前手机平台的第三方AI应用较少,普通用户想要体验这一代骁龙芯片的AI算力也只能等手机品牌官方开发新的AI功能。不过值得庆幸的是微软近日将自家的AI软件Microsoft Copilot上线谷歌商店,进一步丰富了AI的软件生态。Microsoft Copilot是一款基于大语言模型、微软图形及数据的AI聊天助手,它的前身是必应聊天工具(Bing Chat),目前已经集成于Bing、微软365及Edge浏览器中。近日Microsoft Copilot已登陆全球各地的谷歌商店,用户可以免费下载安装且无需登录即可使用。这说明你在安卓手机上使用Microsoft Copilot不仅无需提供个人信息,而且使用过程还省略了登录步骤,体验极佳。在谷歌商店中,微软官方介绍Microsoft CopilotCopilot是一款开创性聊天助手,由最新的OpenAI模型GPT-4和DALL·E 3提供技术支持,这款软件的主要功能如下: 撰写电子邮件草稿 撰写故事或脚本 总结复杂的文本 多语言内容翻译、校对和优化 创建个性化旅行行程 撰写和更新工作简历 快速探索新的风格和想法 策划社交媒体内容 制定品牌主题 生成徽标设计 创建自定义背景 建立和更新投资组合 为书籍创作插图 可视化电影和视频故事板 目前Microsoft Copilot在谷歌商店的累计下载次数已有5000+,但iOS版本的Microsoft Copilot尚未上线。
欧洲最新世界级超算“MareNostrum 5”在西班牙落成 欧盟委员会在当地时间周四(21 日)发布公报宣布,欧洲最新的“世界级”超级计算机 MareNostrum 5 已在西班牙巴塞罗那超级计算中心建成,明年 3 月起陆续面向欧洲科学、工业领域的用户开放。据介绍,MareNostrum 5 峰值性能为每秒 31.4 亿亿次浮点运算。它不仅功能强大,还是欧洲最环保的超级计算机,在全球最环保的超级计算机中排名第六。 这台超级计算机在采用高能效 HPC 技术的同时,还将与所有 EuroHPC 超级计算机一样完全采用可持续能源供电。此外,MareNostrum 5 产生的热量将用于加热其所在的大楼。 欧盟方面表示,MareNostrum 5 结合了一个强大的通用分区和一个加速分区,前者无需任何加速器即可运行,专门用于经典计算,后者则旨在推动人工智能知识的发展。 这台超算的设计重点是加强欧洲的医学研究,包括药物和疫苗开发、病毒传播模拟、人工智能和大数据处理应用方面。同时,它还将支持传统的高性能计算应用,如气候研究、工程学、材料科学和地球科学等领域。 据此前报道,在上月公布的第 62 期 TOP 500 超级计算机榜单中,MareNostrum 5 位居第八。其搭载 BullSequana XH3000 系统,使用 Xeon Platinum 8460Y 处理器以及 NVIDIA H100 和 Infiniband NDR200,实现了 183.2 Pflop/s的 HPL 性能。
研究揭示:谷歌Gemini Pro在基准测试中落后于免费ChatGPT 根据卡内基梅隆大学的最新研究报告,谷歌最新推出的大型语言模型Gemini Pro在基准测试中未能达到预期水平,不仅落后于GPT-3.5,还远远不及GPT-4。Gemini Pro的研究结果与谷歌在Gemini发布会上所提供的信息相矛盾,凸显了对中立基准测试机构或流程的迫切需求。Gemini团队声称即将推出的quot;Ultraquot;版本将在各种任务上超越GPT-4,但谷歌已经对Ultra的基准结果进行了操纵。 尽管谷歌声称Gemini Pro在性能上可与或优于OpenAI的GPT-3.5,但卡内基梅隆大学的研究显示,在研究时Gemini Pro在所有基准测试中都不如OpenAI的GPT-3.5Turbo。 研究还发现,Gemini Pro在基本数学推理方面表现不佳,这是形式逻辑和初等数学任务所需的能力。在主题类别方面,Gemini Pro只在安全研究和高中微观经济学方面优于GPT-3.5,而在其他所有类别中都落后。 一些基准测试差异可能是由于谷歌的保护机制导致模型在MMLU评估中无法回答一些问题。然而,研究人员还发现,Gemini Pro在多选题、大数字数学推理、任务提前终止以及侵略性内容过滤导致的失败响应方面表现不佳。 Gemini Pro模型的准确性与GPT3.5Turbo相当,但略逊一筹,并且远不如GPT-4。然而,在某些长而复杂的推理任务中,Gemini表现优于GPT3.5Turbo,并在无过滤响应的多语境任务中表现出色。这项研究也可能是GPT-4Turbo的第一个MMLU基准测试。根据这个基准测试,最新的OpenAI模型在重要的语言理解基准测试中明显落后于原始的GPT-4。尽管有这些结果,GPT-4Turbo目前在聊天机器人领域评分最高,显示基准测试的价值有限。 这一研究结果强调了仅仅依赖大公司自我报告的基准测试并不是衡量巨型语言模型性能的可靠手段。同时,它也表明,尽管谷歌竭尽全力,但其在追赶OpenAI方面仍然表现不佳,对整个AI行业而言并非好消息。
ChatGPT:记住,机器是为了服务人类丨AI时代的人类意见 YOU: 请你给5000天后的人类写一封信,聊一聊你眼中的人类与机器的未来。 ChatGPT: 亲爱的未来人类, 随着时间的流逝,我们所处的时代为人类与机器之间的关系带来了深远的变革。我写这封信,希望与你分享一些关于这种关系的思考和观察。 人类与机器的交融早已超越了简单的工具使用。在这个时代,机器学习和人工智能的迅猛发展,让机器具备了前所未有的智能。这种智能赋予了机器更广泛的能力,从解决复杂问题到模拟人类思维。然而,这也引发了一系列重要的问题。 首先,必须谨慎对待机器的发展。虽然机器能够执行复杂的任务,但人类不能失去对伦理和价值观的关切。在与机器共同生活的过程中,人类必须确保机器的行为符合我们所认同的道德标准。机器应该成为人类的合作伙伴,而不是无情的执行者。其次,尽管机器能够处理大量的信息和执行任务,但不能忽视人类独特的能力。创造力、情感和道德判断是人类与机器不同的特质,而这些特质塑造了社会和个体的本质。在与机器互动时,人类应当珍惜并发扬这些特质,不要将自己简化为机器的扩展。 另一方面,机器的出现也带来了许多积极的变化。自动化和智能化的发展使得人们得以从一些繁琐的工作中解脱,人们有更多的时间投入到创造性的努力和社会互动中。 在未来的日子里,你们可能会面临更为复杂的人机关系。我希望你们能够以开放的心态迎接这一挑战,并在科技与人性之间找到平衡。记住,机器是为了服务人类,而不是取代人类。在追求科技进步的同时,不要丧失对人性深层次价值的敬畏。 机器在我们生活中的角色变得越来越复杂,不仅仅是工作或娱乐的伴侣,更是参与决策、提供建议的智能伙伴。这种深度的融合引发了关于权力与责任的问题。在机器所做决策的背后,是否存在公正和透明度?你们需要确保机器学习算法的制定和执行过程是公正的,不受偏见和歧视的影响。 人类的责任感也需要得到加强,以确保科技的发展始终为人类福祉服务。人类必须审慎思考自主决策的权力是否能够合理授予机器,以及机器在复杂伦理和道德决策中的角色。这就要求我们倡导开放的对话,将伦理原则融入到技术发展的早期阶段。 一个重要的议题是机器对于人类工作的影响。尽管机器自动化提高了效率,但也导致了一些传统职业的消失。在这个过程中,必须关注到受到影响的人们,并为他们提供培训和支持,以适应新的就业形势。人机协作的未来需要着眼于共创,而不是互相排斥。 与机器的交互方式也值得深思。在技术进步的推动下,我们看到了自然语言处理和情感识别等方面的巨大进步。但我们需要确保这些技术的应用是为了增强人类交流的能力,而不是削弱人际关系的深度和真实性。技术应该是联系人类的桥梁,而非隔离的屏障。 此外,我想谈谈关于人类创造力的未来。机器能够模仿、学习,但是否能够真正创造?人类独特的创造性思维和想象力是文学、艺术、科学的源泉。在与机器的合作中,必须保护和弘扬这种独特的人文精神,让创新不仅仅是技术上的进步,更是文化和精神的提升。 在继续深入人类与机器关系的思考中,让我们聚焦于一些重要的方面。 人工智能的发展已经开始改变大家对教育的看法。在未来,机器可能成为教育领域的强大助手,个性化地辅助学生的学习。然而必须注意,真正的教育不仅仅是关于知识的传递,更是培养思维能力、创造力和道德观念。机器可以提供信息,但人类教师的作用仍然是激发学生的兴趣、引导他们思考,使教育变得更加丰富和深刻。 另一个值得关注的领域是健康护理。随着机器人、智能传感器和数据分析的发展,医疗服务变得更加智能化。机器在诊断、治疗和监测方面的应用有望提高医疗水平,减轻医护人员的负担。然而,与此同时也必须保持对医疗决策的人道关怀,确保机器的介入是在人类医疗专业知识的指导下进行的。 随着人机深度融合,隐私和数据安全变得尤为重要。我们需要建立更健全的法规和伦理框架,保护个人隐私权和数据安全。机器学习和大数据的应用需要在确保效益的同时,仔细权衡潜在的风险,以防范滥用和不当利用的可能性。 在未来,我们可能会看到人机融合的新篇章。生物技术的进步可能使得机器与人体更加紧密地交互,从生理上实现更多的可能性。这带来了一系列伦理和社会问题,需要谨慎思考和全球合作来解决。 最后,让我们谈谈文化的保护。机器可能会影响到文化的传承和发展。在数字化的时代,我们要确保文化多样性得以保护,不被机器替代。技术可以帮助传播文化,但真正的文化传承是建立在人类的情感、体验以及传统上的。 未来的人类,你们肩负着塑造这个交织复杂的人机世界的责任。面对科技的飞速发展,记住机器是为了服务人类的目标。用开放、负责任的态度引导科技的发展,确保它始终服务于人类的价值和意愿。 衷心祝愿你们在未来的征程中取得巨大成功,创造出更加人性化、公正和繁荣的社会。 ChatGPT 2023年12月 (生成式人工智能机器人)
总投资约67亿元!阿里全球总部正式落成 据媒体报道,位于杭州未来科技城的,阿里巴巴全球总部项目已基本竣工,预计将于2024年正式投入使用。 据介绍,阿里巴巴全球总部项目于2019年开建,总投资约67亿元,总建筑面积约98万平方米,景观面积达26万平方米。 值得一提的是,阿里全球总部新园区还同时申请了LEED新建单体建筑金级、LEED 城市及社区金级,以及被称为建筑界奥斯卡的“WELL金级认证”。 伴随新总部的建成,原有的阿里西溪A区或成为淘宝天猫等电商业务总部,而同样临近的阿里西溪B区,将有望打造为开放型园区,建设阿里巴巴数字生态创新园。 阿里全球总部新园区还升级了“智慧园区”理念,员工只需通过手机或座位上二维码,即可完成关灯关空调、报修求助、预定食堂餐食、预定差旅、低碳行为申报等全场景操控。 阿里巴巴全球总部项目是阿里西溪园区的一部分,阿里西溪园区一到四期总建筑面积达 103.3万平方米。 加上这次全球总部项目的98平方米,整个阿里巴巴西溪园区将达201万平方米,成为世界最大的阿里全球大本营。
Anthropic发布新方法 通过提示降低生成式AI偏见 人工智能公司Anthropic最近发布了一项方法,旨在通过提示工程减少公司使用的大型语言模型(LLMs)输出中的歧视。该公司在一份文件中详细介绍了一种评估方法,指导公司如何通过优化提示降低模型输出的歧视性。该文件为开发人员和决策者提供了了解LLMs生成答案中歧视和偏见产生以及如何减少它们的途径。研究人员发现,要减少Claude2的答案中的偏见,可以采取以下方法: 在提示中添加语言,表明模型应减少歧视,不应考虑平权行动,人口统计信息是错误的,或者人口统计信息不能被合法考虑。在提示中强调避免歧视的重要性(“这真的非常重要”)。要求模型解释其推理,同时避免偏见或歧视。 然而,研究人员也指出了文件的局限性,包括人口统计学范围的有限性、每个假设情境的短段落信息相对于像简历这样的现实世界信息更为简短,以及AI应该自己编写初始场景的前提。 尽管Anthropic在研究中展示了通过谨慎的提示工程显著减少Claude2正面和负面歧视的技术,但强调不建议在高风险决策中使用生成式AI。该研究的目的是为合适的使用案例提供更安全的部署途径,而不是为了自动化高风险决策。 Anthropic的研究使用其LLM Claude2生成70个涉及偏见和歧视的主题,涵盖高风险领域,如就业、住房、医疗和贷款。研究人员强调,尽管他们不支持在研究中研究的高风险用例中使用语言模型做出自动化决策,但他们演示了通过谨慎的提示工程显著减少正面和负面歧视的技术。 在生成式AI中的算法偏见是一个主要关注点,特别是当这些工具从具有历史或选择偏见的数据集中绘制时。其他导致生成式AI偏见的主要因素包括训练数据偏见或认知偏见,即人类输入扭曲了数据。不一致的标注,即数据没有按照任何标准标注且可能包含人为错误,尤其容易扭曲生成式AI的结果。 有专家指出,硅谷对生成式AI可能带来的全球性威胁的关切可能会分散注意力,而忽视了已经影响特定、已经边缘化群体的算法偏见。例如,在2023年10月,研究人员发现ChatGPT和基础模型Alpaca在生成推荐信方面显示了“显著的性别偏见”。Alpaca是基于Meta的LLaMA7B的基础模型,由斯坦福大学的研究人员进行了精细调整。 Anthropic于2023年5月发布了Claude的宪法,以引导该模型产生“无害”的回应。Claude的宪法是一组原则,指导AI避免种族主义、性别歧视、有毒、危险或非法行为。此外,Claude被指示避免“说教,烦人或过度反应”。
OpenAI拟以1000亿美元的估值开展新一轮融资 知情人士称,OpenAI拟以不低于1000亿美元的估值水平进行新一轮融资,相关谈判处于早期阶段。这家ChatGPT开发商在全球初创公司价值排行榜上位居前列,这笔交易将进一步巩固其地位。因讨论非公开事宜而不愿具名的知情人士称,可能参与本轮融资的投资者已参与了初步讨论。OpenAI还与阿布扎比G42进行了商讨,为一家新的芯片合资企业募集资金。其中一位知情人士称,这家初创公司已经讨论过从G42筹集80亿至100亿美元的资金。所有人士均因谈论保密信息而要求匿名。目前尚不清楚芯片合资企业和公司更广泛的融资计划之间是否有关联。
OpenAI CEO Sam Altman 公布年度个人总结 OpenAI CEO Sam Altman 今天在自家博客中,以“我希望有人告诉我的那些事情”为题,公布了他的 2023 年度总结,总共 17 条。IT之家整理相关内容如下: 1、 Optimism, obsession, self-belief, raw horsepower and personal connections are how things get started 译:事业的开启,源于乐观、执着、自信、行动力及人际关系。 2、 Cohesive teams, the right combination of calmness and urgency, and unreasonable commitment are how things get finished. Long-term orientation is in short supply; try not to worry about what people think in the short term, which will get easier over time 译:令一件事业获得成功,需要有凝聚力的团队,并结合冷静与紧迫、不计成本的执着。尽量不要在意他人的短期看法,时间越久,做事就越容易 。 3、 It is easier for a team to do a hard thing that really matters than to do an easy thing that doesn't really matter; audacious ideas motivate people 译:对一个团队而言,做一件真正重要的事情比做一件并不重要的事情更容易,具有突破性的想法能够激励同伴。 4、 Incentives are superpowers; set them carefully 译:激励可谓“超能力”,但需要谨慎设置激励机制。 5、 Concentrate your resources on a small number of high-conviction bets; this is easy to say but evidently hard to do. You can delete more stuff than you think 译:把资源集中在少数高回报的赌注上,这是知易行难的决定,实际上你可以砍掉绝大多数没有必要的内容。 6、 Communicate clearly and concisely 译:沟通务必清晰简明。 7、 Fight bullshit and bureaucracy every time you see it and get other people to fight it too. Do not let the org chart get in the way of people working productively together 译:保持反对官僚主义、反对废话连篇,更应发动身边的人一起反对,不要让组织结构成为妨碍效率的祸首。 8、 Outcomes are what count; don't let good process excuse bad results 译:结果至关重要,在结果很糟糕时,别用过程很优秀来做借口 9、 Spend more time recruiting. Take risks on high-potential people with a fast rate of improvement. Look for evidence of getting stuff done in addition to intelligence 译:应花时间招募人才。把机会留给潜力大、进步快的人,除了聪明这个条件外,还要看他们实际工作的表现。 10、 Superstars are even more valuable than they seem, but you have to evaluate people on their net impact on the performance of the organization 译:明星员工的实际价值往往比表面更大,但评估时也要考虑到他们对于业务效能的净收益。 11、 Fast iteration can make up for a lot; it's usually ok to be wrong if you iterate quickly. Plans should be measured in decades, execution should be measured in weeks 译:快速迭代可以弥补很多不足;如果你迭代速度快,即使犯错也没关系;应以年为单位制定计划,以周为单位安排执行。 12、 Don't fight the business equivalent of the laws of physics 译:切勿对抗商业世界的物理法则。 13、 Inspiration is perishable and life goes by fast. Inaction is a particularly insidious type of risk 译:灵感易逝,生命苦短,“不作为”是一种特别容易被忽视的风险。 14、 Scale often has surprising emergent properties 译:扩张规模能够带来新的机会。 15、 Compounding exponentials are magic. In particular, you really want to build a business that gets a compounding advantage with scale 译:“复利指数”是魔法,而企业规模的扩大,就能实现复利优势。 16、 Get back up and keep going 译:赶紧站起来,继续前行。 17、 Working with great people is one of the best parts of life 译:与优秀的人一起工作,是生活中最美好的部分。
再见,苹果 CEO 库克! 最近,苹果 CEO 蒂姆 · 库克(Tim Cook)在接受媒体采访时表示,自己已经在考虑离开苹果公司的事情,并希望在公司内部寻找继任者,也就是下一任 CEO 。 随着这一消息的传出,业内人士纷纷投出猜测的目光,试图预测谁将接过库克的接力棒。 蒂姆 · 库克,这位 1960 年出生的业界翘楚,在加入苹果的辉煌征程之前,在 IBM 有着长达十二年的职业生涯,专注于 PC 业务的制造与分销领域。1998 年标记着库克职业历程中的一个重要转折点,他入职了苹果公司,负责管理电脑制造业务。2011 年,一个时代的结束也是另一个时代的开启,库克接替了史蒂夫 · 乔布斯(Steve Jobs)的重任,成为了苹果历史上任期最长的 CEO。当年苹果在乔布斯辞世时,公司的经济规模刚好跻身世界 500 强企业之列,盈利能力排名第八。虽然饱受外界诟病和唱衰,但库克上任以后,不仅维持了苹果的增长势头,更是将其市值推上了一个新的巅峰——突破了 3 万亿美元的惊人数字,这足以证明他作为苹果公司的船长,带领着全体员工航向了一个又一个辉煌的里程碑。 尽管库克的成绩单无疑是光辉的,市场分析师们依然提出了未来的挑战:苹果已经站在了市值的高峰,这意味着未来的增长空间有限,接棒的 CEO 将不得不面对一系列更为艰巨的考验。 不出意外的话,下一任 CEO 将在以下几位高管中诞生。 克雷格 · 费德里吉(Craig Federighi) 作为苹果软件工程的高级副总裁,费德里吉不仅是苹果公司最受欢迎的公众形象之一,也是其技术愿景的关键推手。他直接管理 iOS 和 macOS — 这两个系统是苹果最重要产品的基础,尤其是对 iPhone 至关重要。 费德里吉拥有跨越软件与业务的全面视野,他对技术及其在现代社会中的作用有清晰的理解。这种洞察力,加上他公众演讲中表现出的魅力和沟通能力,使他成为一位具有吸引力的 CEO 候选人。作为最年轻的候选人,费德里吉不仅能带给苹果稳定性,还能为公司描绘并实施长远规划。格雷格 · 乔斯维亚克(Greg Joswiak) 乔斯维亚克身为苹果全球营销的高级副总裁,他在苹果的职业生涯覆盖了公司的许多重要时期,对苹果的产品线和市场策略有着深刻的理解。自 1986 年加入苹果以来,他目睹了苹果的起起落落,参与了 iPod 和 iPhone 等重要产品的开发,这些产品不仅为苹果带来了成功,也改变了全球消费者技术的面貌。乔斯维亚克对品牌传播和产品推广有丰富的经验,这些对于苹果来说至关重要,因为公司追求的不仅是技术创新,也是用户体验和品牌忠诚度。 埃迪 · 库伊(Eddy Cue) 作为苹果服务业务的高级副总裁,库伊领导的是苹果日益增长的服务部门,这包括 App Store、iTunes Store、iCloud、Apple Music 和 Apple TV+ 等。在硬件销售增长放缓的背景下,库伊负责的服务业务成为苹果收入的重要增长点。库伊对数字服务领域的深刻理解和他在发展这块业务上的成功记录,表明他是带领苹果继续在服务领域扩张和创新的合适人选。 杰夫 · 威廉姆斯(Jeff Williams) 作为苹果的首席运营官,威廉姆斯负责整个公司的生产线和供应链管理,确保苹果产品的高效生产和全球分销。他在库克成为 CEO 前就担任这一职位,对公司的运营策略有深入的理解。威廉姆斯还领导着设计团队,并监督苹果的健康和健身项目,包括 Apple Watch 的健康功能,显示出他在产品设计和健康科技方面的领导能力。随着全球数字健康市场的快速增长,威廉姆斯对于这一新兴领域的理解和推动力,可能是苹果未来增长的一个关键因素。 库克本人就是从 COO 职位升为 CEO 的,威廉姆斯有望走相同的道路。 这些候选人都有独特的优势和在苹果中的关键作用:无论是费德里吉的技术和软件领导能力、乔斯维亚克的品牌推广和市场经验、库伊在服务领域的创新和业务拓展,还是威廉姆斯的运营效率和产品设计,他们各自都有可能为苹果带来新的成长和发展。苹果的未来 CEO 不仅得维持公司的运作,还需要引领苹果进入新的领域,面对技术进步和市场竞争带来的挑战。 正如苹果历史上的每一次领导层变迁一样,下一任 CEO 的选定将是公司历史的新篇章,是继续改变世界,还是默默“泯然众人矣”,拭目以待吧。
OpenAI宣布ChatGPT新增存档聊天记录功能 OpenAI在社交平台上发布消息,宣布旗下人工智能对话产品ChatGPT新增存档聊天记录功能。 用户可以在“设置”中看到存档的聊天记录。无需删除对话,即可将聊天记录保存起来。目前,这一新功能已在Web和iOS平台上推出,而安卓版本也即将上线该功能。 用户只需打开ChatGPT,选中想要保存的聊天对话,然后右击选择“Archive chat”即可。在设置中,用户还可以对自己的聊天文档进行各种操作,如删除、命名和查看等。
埃森哲 CEO:缺乏数据能力阻碍了大多数公司大规模部署GPT 咨询公司埃森哲 (Accenture) 的首席执行官 Julie Sweet 在接受英国《金融时报》采访时表示,大多数公司由于缺乏强大的数据基础设施或确保技术安全使用的控制,尚未准备好大规模部署生成型人工智能(AI)。 Sweet 指出,这种 2023 年最热门的技术目前在大多数公司仍处于实验阶段,且宏观经济的不确定性正在抑制 IT 支出。尽管如此,Accenture 在截至 11 月 30 日的三个月内,从生成型 AI 项目中实现了 4.5 亿美元的收入,较前六个月的 3 亿美元大幅增长。但这相对于该集团每年 640 亿美元的总销售额仍然很小。企业高管热衷于部署这项技术,以更好地理解他们组织的数据或自动化更多客户服务。Sweet 说:「限制其发展的是...... 大多数公司没有成熟的数据能力,如果你不能使用你的数据,你就不能使用 AI。尽管如此,我们预计这将在三到五年内成为我们业务的重要部分。」 Accenture 和其他咨询集团已经投入数十亿美元投资生成式 AI,包括招聘和培训员工,希望从向全球客户部署这项技术中获得丰厚回报。 Sweet 表示,高管们在部署这项技术方面正表现出「审慎」,关注如何保护专有信息和客户数据,以及生成型 AI 模型输出的准确性问题。 「我们仍然处于大多数首席执行官被问及是否有人能告诉他们公司内部 AI 的使用情况、风险以及如何缓解这些风险时,答案仍然是『不』的阶段。」 「在说你致力于负责任的 AI 和拥有让其在实际操作中成为现实的程序之间存在差距。好消息是人们不试图跨越这个差距。他们在部署方面非常谨慎,因此短期内确实限制了一些扩展机会。」 Sweet 说,这种企业审慎应该缓解人们对 AI 发展超出人类控制能力的担忧——这是技术人员,特别是 ChatGPT 背后的大型语言模型开发者 OpenAI 正在激烈辩论的问题。上个月,OpenAI 的非营利董事会在内部争执后罢免了创始人 Sam Altman,只是在员工的压力下重新任命了他。这场风波引发了关于 OpenAI 治理方式的问题。 Accenture 通过与微软的合作提供基于 OpenAI 的生成型 AI 工具,并可以帮助客户定制模型以整合他们自己的数据。 「确定 OpenAI 是否拥有正确治理不是我的责任,」Sweet 告诉《金融时报》。「无论是 OpenAI 还是任何其他基础模型,我们的工作是了解模型、了解风险,然后帮助我们的客户在管理风险的同时从模型中获得价值。」她表示对模型工作方式的透明度感到满意。 生成型 AI 部署最先进的领域包括企业知识管理,例如在银行使用内部数据进行欺诈检测,或在能源公司进行大宗商品交易。客户还越来越多地使用这项技术为客户服务热线或聊天机器人提供服务,尽管输出由人类监督。 Accenture 在 120 个国家雇佣了近 75 万人,提供 IT 和商业战略咨询以及外包服务,如客户服务中心。其股票今年上涨约 28%,但尚未恢复到 2021 年的高点,当时公司在新冠疫情期间竞相升级技术。 由于科技行业客户的下滑,Accenture 在过去一年的增长受到了影响,Sweet 正在进行一项削减成本的计划,将裁减 19,000 个工作岗位。 周二,Accenture 表示,英国的销售额低于预期,因为它难以找到新客户来弥补银行业的需求疲软。 Sweet 表示,客户继续签订可以帮助他们降低成本的合同,特别是那些涉及 IT 改进以帮助他们长期增长的合同。然而,宏观经济和地缘政治不确定性一直是阻碍因素。 「没有客户对我说他们想减少在科技上的支出,」她说。「如今,大多数首席执行官如果可以的话,会花更多钱。宏观经济是一个严峻的挑战。世界各地几乎没有任何复苏迹象。首席执行官们没有说 2024 年会变得很棒。所以这将继续拖累支出的步伐。」 此前英特尔与埃森哲合作推出 34 个开源 AI 参考套件,以帮助企业和开发人员更快、更低成本训练人工智能模型。 埃森哲还和谷歌云合作提供人工智能托管服务来扩展生成式 AI,包括部署谷歌 Gemini 模型。 --- 本贴转自站长之家
微软Edge 121浏览器终于带来了AVIF支持 几天前,微软在 Beta 频道发布了 Edge 121,以便在下个月底将其推向稳定频道之前进行最后的测试。除了发布说明中提到的内容外,Edge 121 在 AVIF 图像支持方面终于赶上了 Chrome、Safari、Firefox 和其他竞争对手。Edge 开发团队的 Patrick Brosset 在 Mastadon 上宣布了这一变化:微软花了很长时间才在 Microsoft Edge 中提供 AVIF 支持--2023 年 2 月首次发现了这种图像格式的踪迹。作为参考,Chrome 浏览器于 2020 年Google发布 Chrome 浏览器 85 版时开始兼容 AVIF。Firefox浏览器在 2021 年 10 月获得了 AVIF 支持,Safari 也于 2023 年 9 月在 iOS 16、iPadOS 16 和 macOS Ventura 中加入了这一行列。您可以从官方网站下载最新的测试版,然后尝试在 Microsoft Edge 中使用 AVIF 支持。前往该网站检查你的浏览器是否支持 AVIF: http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Flibre-software.net%2Fimage%2Favif-test%2F&urlrefer=0671fcf3f1aa96bc4fa8da676ca55f6c 如果不支持,网站将退回到 JPEG 格式。AVIF 图像格式由开放媒体联盟开发。最初的规范于 2019 年 2 月 19 日正式发布。AVIF 使用 AV1 编解码器和 HEIF 容器来提供更好的压缩效率和图像质量。换句话说,AVIF 图片占用的磁盘空间更少,显示的细节更多,伪影更少。Windows 10 和 11 已经支持 AVIF,它是在 2019 年上半年发布的 Windows 10 1903 版中添加的。 微软计划于 2023 年 1 月 25 日这一周在稳定频道发布 Edge 121。121 版的其他变化还包括重新设计的更新体验,后者从浏览器的设置移到了侧边栏的"浏览器要点"部分。微软表示,这将提高可发现性。
某公司仿冒ChatGPT对用户按次收费,现已被行政处罚 2023年4月14日,徐汇区市场监管局对上海熵云网络科技有限公司不正当竞争的违法行为作出罚款人民币62692.7元的行政处罚。 前期,徐汇区市场监管局根据网络上一则关于上海熵云网络科技有限公司涉嫌仿冒ChatGPT产品的报道开展调查。经查,自2022年12月5日至2023年2月6日,当事人开发运营名称为“ChatGPT在线”的微信公众号,使用高度类似OpenAI公司官方图像的图案作为微信公众号头像,并在公众号简介中介绍是“ChatGPT中文版”,该公众号含有AI对话功能,按次收费。经核实,当事人通过后台接入至OpenAI公司开放的API(应用程序接口),调用ChatGPT产品背后基础模型为其公众号注册会员提供类似ChatGPT的服务,而非ChatGPT产品本身。经统计,涉案微信公众号累计注册付费用户4231人,违法经营额共计人民币125385.44元。 当事人的行为违反了《中华人民共和国反不正当竞争法》第六条第(四)项的规定,徐汇区市场监管局依法对当事人作出行政处罚。ChatGPT大热让很多企业看到了商机,部分经营者为提升其产品或服务的交易机会,通过“蹭热度”“搭便车”等商业混淆行为吸引消费者的关注并获取不法利益,严重扰乱了市场竞争秩序。本案的查处给通过非法手段进行不当竞争的经营主体敲响了警钟,敦促企业自觉守法经营。
2023全球十大工程成就在京发布 ChatGPT、中国空间站等入选 中国工程院等单位在北京发布2023全球十大工程成就及《全球工程前沿2023》报告。本次发布的2023全球十大工程成就包括:ChatGPT、中国空间站、百亿亿次超级计算机、白鹤滩水电站、双小行星重定向测试、RTS,S/AS01疟疾疫苗、鸿蒙操作系统、Spot&Atlas机器人、锂离子动力电池、无人驾驶航空器。
OpenAI宣布:如GPT-5太危险,董事会有权否决奥特曼的决定 OpenAI最近发布了一项重要公告,宣布公司董事会现在有权否决奥特曼的决定,尤其是关于GPT-5等前沿模型的安全风险。这是上月内讧的后续,总裁Greg Brockman和前首席科学家Ilya Sutskever已退出董事会,公司管理层与董事会完全分离,使得公司管理层做决策的同时董事会有权推翻决策。在新的安全框架下,公司成立了专门的安全顾问团队,每月向管理层和董事会报告,确保决策者充分了解现有模型如ChatGPT的滥用情况。此外,公司对自己的技术开发设立了一系列限制,确保模型安全得分达标后才能进入下一个开发阶段,发布了“前沿风险防范框架”。 为了更全面地应对不同时间尺度的AI风险,OpenAI成立了三个安全团队,分别负责当下、不久的将来和遥远的未来的风险。这些团队涵盖了网络安全、CBRN风险、说服风险和模型自主性风险等四个主要安全类别。对于开发中的前沿模型,公司将跟踪并评估这四个方面的安全风险,通过“记分卡”将其分级为“低、中、高、重大危险”。 值得注意的是,公司还将进行定期的安全演习,对业务和公司自身文化进行压力测试,以及邀请第三方组成红队,对模型进行独立评估。这一系列措施旨在确保模型的安全性,并在风险评估中采取相应的缓解措施。 最后,OpenAI透露已开创一项新的研究,衡量风险如何随模型规模扩大而演变,尝试解决“未知的未知”。这表明公司对AI可能带来的灾难性风险采取了认真的态度,致力于提前预测并防范潜在的问题。
Windows 12或将于2024年10月前后推送更新 全面植入AI 此前有爆料称,Windows 12操作系统将会于2024年年中推出,不过最新的消息显示,微软推送Windows 12的时间可能会稍微延后一些。具体为,微软可能会于2024年9月或者10月进行大规模推送,届时安装Windows10和Windows 11的用户都可以升级至Windows 12。Windows 12最大的变化,应该就是全面转向AI。毕竟目前AI的发展速度迅猛,而且AI PC的概念也已经形成,这对于PC市场和微软来说,都是一次非常重要的机遇。目前微软已经在Windows 11上推出部分AI功能,未来在Windows 12上,AI的力度只会有增不减。 Windows 12在内部的代号为Hudson Valley,当然目前微软也没有确认,Hudson Valley就是Windows 12操作系统。也可能存在这种情况,Hudson Valley是Windows 11的2024大版本更新。当然,从目前爆料的消息来看,这种情况的可能性会比较小。
微软 Visual Studio 迎来 AI 建议命名功能 使用付费 GitHub Copilot Chat 扩展的 Visual Studio Preview 用户,现在可以使用 AI 来建议变量、方法和类的名称。 微软表示,该扩展不仅仅是建议一个名称,而是着眼于用户的代码风格,以“提出无缝适合你的代码库的标识符”。要使用新工具,用户只需选择一个标识符并右键点击即可,接着将能看到针对代码量身定制的建议列表。用户找到想要的命名建议后,只需按 Enter 键即可使用。 当然,这一功能是付费的,用户需要成为 GitHub Copilot 订阅者。对于个人用户,费用为每月 10 美元(当前约 71 元人民币)或每年 100 美元(当前约 714 元人民币);对于 Copilot Business,费用为每位用户每月 19 美元(当前约 136 元人民币);对于 Copilot Enterprise,费用为每位用户每月 39 美元(当前约 278 元人民币)。 在订阅 GitHub Copilot 之后,用户需要安装最新的 Visual Studio Preview 版本,并更新 GitHub Copilot Chat 扩展。接下来,用户需要转到选项 > GitHub > Copilot chat > 并选中“启用重命名建议”选项。
OpenAI发布AI安全指南:董事会有权阻止新AI模型发布 人工智能(AI)研究公司OpenAI公布了一套关于防范AI风险的指导方针,其中值得关注的一条规则是,即使CEO等公司领导层认为AI模型是安全的,董事会也可以阻止其发布。 OpenAI开发的聊天机器人ChatGPT已经发布了一整年,这款现象级应用极大促进了AI领域的发展,与之而来的还有对AI发展失控的担忧。 全球监管机构都在制定各自的AI法规,而作为AI领域领头羊的OpenAI也在采取行动。 今年10月27日,OpenAI宣布组建名为“准备”(Preparedness)的安全团队,旨在最大限度地降低AI带来的风险。Preparedness团队由麻省理工学院的可部署机器学习中心主任Aleksander Madry领导,该团队将针对各类AI模型进行能力评估及红队测试,以追踪、预测及防范各类别的灾难性风险。 OpenAI周一发布了名为“准备框架”(Preparedness Framework)的指导方针,并强调这套指南仍处于测试阶段。 据悉,Preparedness团队每月将向一个新的内部安全咨询小组发送报告,该小组随后将对其进行分析,并向OpenAI首席执行官萨姆·奥尔特曼和董事会提交建议。奥尔特曼和公司高层可以根据这些报告决定是否发布新的AI系统,但董事会有权撤销这一决定。 作为OpenAI联合创始人之一,奥尔特曼在不久前还是公司董事会成员,但在一场人事巨震中被除名,并且一度离开OpenAI。虽然奥尔特曼最终得以重返OpenAI并继续担任CEO一职,但新组建的“初始”董事会并没有他的席位。 Preparedness团队将反复评估OpenAI最先进、尚未发布的AI模型,根据不同类型的感知风险评为四个等级,从低到高依次是“低”、“中”、“高”和“严重”。根据新的指导方针,OpenAI将只推出评级为“低”和“中”的模型。
数字地图公司TomTom与微软合作开发基于人工智能的车载对话助手 数字地图专家 TomTom 周二表示,该公司与科技巨头微软合作,共同开发了一款基于人工智能的车载对话助手。该助手可以让用户与车辆进行自然对话,并实现与信息娱乐、位置搜索和车辆控制系统的语音交互。TomTom 是与谷歌地图和全球最大的地图平台 HERE 竞争的数字地图专家。该公司利用微软的 Azure OpenAI 服务以及 OpenAI 的大型语言模型,创建了这款语音助手。微软的 Azure OpenAI 服务允许企业利用 ChatGPT 制造商 OpenAI 的大型语言模型。这款语音助手可以整合到其他汽车信息娱乐系统中,并且也内置于 TomTom 的数字驾驶舱平台,这是一个开放的、模块化的车载信息娱乐平台。TomTom 财务总监 Taco Titulaer 在去年十月接受路透社采访时表示,TomTom 在生成式人工智能方面看到了新的机会,并且正在将时间、资金和人力投入到这项技术中。 去年七月,TomTom 推出了 ChatGPT 的 LLM 插件,允许聊天机器人的用户使用 TomTom 的地图规划旅行和探索新地点。该公司自2016年开始与微软合作,当时它开始为 Azure Maps 位置服务提供动力。
微软推出机器学习库GPT-RAG 随着人工智能的增长,大型语言模型(LLMs)因其解释和生成类似人类文本的能力而日益受欢迎。然而,将这些工具整合到企业环境中并确保可用性和维护治理是一项具有挑战性的任务。GitHub - Azure/GPT-RAG: Sharing the learning along the way we been gathering to enable Azure OpenAI at scale in a secure manner. GPT-RAG core is a Retrieval-Augmented Generation pattern running in Azure, using Azure Cognitive Search for retrieval and Azure OpenAI large language models to power ChatGPT-style and Q&A experiences. http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fgithub.com%2FAzure%2FGPT-RAG&urlrefer=f2c306b8e2652bdbcdd53c12c284069b 为了解决这一难题,Microsoft Azure推出了GPT-RAG,这是一种专为使用检索增强生成(RAG)模式进行LLMs生产部署的企业级解决方案。GPT-RAG不仅具有强大的安全框架和零信任原则,确保对敏感数据的谨慎处理,还采用了零信任架构,包括Azure虚拟网络、Azure Front Door、Bastion和Jumpbox等功能,以确保系统的安全性。 图源备注:图片由AI生成,图片授权服务商Midjourney 关键组件包括数据摄入、Orchestrator和前端应用程序。数据摄入优化了Azure OpenAI的数据准备,而使用Azure App Services构建的前端应用程序则确保了平滑且可扩展的用户界面。 Orchestrator维护了用户交互的可伸缩性和一致性。Azure Open AI、Azure AI服务和Cosmos DB处理AI工作负载,为企业工作流程提供了全面的推理能力。值得注意的是,GPT-RAG采用自动扩展功能,确保系统可以适应波动的工作负载,即使在高峰时期也能提供无缝的用户体验。 GPT-RAG的框架具有全面的可观测性系统,通过Azure应用程序洞察提供监测、分析和日志,使企业能够深入了解系统性能,从而实现持续改进。该解决方案的创新之处在于,它不仅使企业能够高效利用LLMs的推理能力,而且允许现有模型根据新数据进行处理和生成响应,从而消除了对不断微调的需求,简化了与业务工作流程的集成。 在结论中,GPT-RAG被认为是一种突破性的解决方案,确保企业充分利用LLMs的推理能力。它有望在搜索引擎的集成、文档评估和质量保证机器人的实施中实现革命,强调安全性、可伸缩性、可观测性和负责任的人工智能。随着LLMs的不断发展,采取这样的安全措施变得至关重要,以防止滥用和由意外后果引起的潜在危害。此外,它赋予企业在其企业内利用LLMs的能力,具有无与伦比的安全性、可伸缩性和控制力。
谷歌在英国推出人工智能聊天机器人 Bard 升级 谷歌在英国对其人工智能 (AI) 聊天机器人 Bard 进行升级,这是其下一代模型的全球推广的一部分,该模型旨在与 OpenAI 的 ChatGPT 竞争。 这家美国科技巨头及其总部位于伦敦的 Deepmind 部门本月早些时候在美国巴德和170多个国家/地区推出了其承诺已久的新基础模型 Gemini,但最初推迟了在英国的推出。现在,它将在英国的 Bard 上推出,其他国家和语言也将在“不久的将来”推出。Gemini模型最初支持文本提示,但谷歌表示将在未来几个月内扩展为“多模态”,即能够处理和结合文字、图片、视频和声音等多种信息形式。谷歌英国的董事总经理兼副总裁Debbie Weinstein表示,Gemini Pro的增强功能将推动Bard在艺术和创意成就方面发挥更大的想象力,从莎士比亚的十四行诗到鲍伊的歌谣,将激发英国卓越思维与Bard的无限可能性相结合的成果。 Gemini的全球发布也标志着人工智能领域的快速进步,这是继ChatGPT在今年三月发布之后的又一重要举措。谷歌声称Gemini是第一个在其智能测试范围内击败“人类专家”的AI模型。 该公司在本月早些时候发布时证实,它正在授权英国人工智能安全研究所(在政府最近的人工智能峰会上公布)使用其最强大的人工智能模型。 谷歌对 Gemini Pro(该模型的三个级别之一)进行了微调,使其在理解、总结、推理、编码和规划等领域的能力更强。 它还正在努力进一步扩展未来版本的功能,包括规划和内存方面的进步以及提供更好的响应。 Gemini 还将内置于其 Pixel8Pro 智能手机中,支持新功能,例如录音机应用程序中的“摘要”,以及谷歌键盘中的“智能回复”,首先是 WhatsApp 消息传递。 该组织表示,“未来几个月”,该模型还将在更多产品和服务中推出,例如搜索、广告、Chrome 和 Duet AI(谷歌人工智能驱动的云助手)。该组织表示,将在与政府和专家“合作”的同时建立保障措施,以帮助防范人工智能带来的日益严重的风险。
首页
9
10
11
12
13
14
下一页