LearnerForever LearnerForever
永远是你们的小吧,也希望吧友们开心快乐每一天。
关注数: 1,483 粉丝数: 2,228 发帖数: 25,740 关注贴吧数: 58
OpenAI 'o1'震撼发布:强化学习引领新范式,重塑AI未来 最近OpenAI推出了一个名为“o1”的全新模型系列,这不仅是技术的一次跨越,也预示着AI领域的一场改变。与此前的GPT系列不同,“o1”在技术途径上采取了全新的方法,强化了模型在复杂推理任务中的表现,尤其是在数学和编程问题上。“o1”的核心创新之一在于其使用了所谓的Chain of Thoughts(CoT,思维链)技术。简单地说,这一技术使得AI在解答问题前,能够模拟出一条逻辑思考的路径,就像人类解难题之前的思考过程一样。这种方法的引入,大大增强了模型处理复杂逻辑问题的能力。此外,“o1”还结合了强化学习技术。这不是新鲜事,但OpenAI对此的应用无疑提升了它的策略动作优化,即AI不仅仅在乎当前的决策,还会计算这一决策对未来结果的长期影响。这样的处理方式让AI在执行任务时更加精确,能够更好地模拟复杂的决策过程。关于“o1模型”的出现,业界内部反响颇为热烈。不少技术专家和AI研究人员表示,这标志着AI从快速直觉式处理信息(被称为系统-1),向更加缓慢且理性的深度推理(系统-2)的转变。系统-2能够处理更加复杂和抽象的任务,是向着更高级AI理性思维的一步。 然而,尽管“o1”在技术上展现出惊人的潜力,其应用与推广还面临挑战。一方面,强化学习和高级推理模型的开发及运行需要大量的计算资源和精确的数据支持,这对于很多企业和研究机构来说是一个不小的挑战。另一方面,如何将这些前沿技术转化为实际可用的应用产品,依然是一个需要解决的问题。OpenAI的“o1模型”不仅仅是技术的一次更新,更是AI领域一次理念上的重大创新。它不仅能改进机器处理复杂问题的能力,还可能在未来引领AI技术走向更广泛的应用场景,从而真正意义上实现智能化的自动化和决策支持系统。这对于科技产业,乃至整个社会的发展都可能产生深远的影响。
英伟达 NVLM 1.0 引领多模态 AI 变革,媲美 GPT-4o 9 月 21 日消息,科技媒体 marktechpost 昨日(9 月 20 日)发布博文,报道了英伟达(Nvidia)最新发布的论文,介绍了多模态大语言模型系列 NVLM 1.0。 多模态大型语言模型(MLLM) 多模态大型语言模型(MLLM)所创建的 AI 系统,能够无缝解读文本和视觉数据等,弥合自然语言理解和视觉理解之间的差距,让机器能够连贯地处理从文本文档到图像等各种形式的输入。 多模态大型语言模型在图像识别、自然语言处理和计算机视觉等领域拥有广阔应用前景,改进人工智能整合和处理不同数据源的方式,帮助 AI 朝着更复杂的应用方向发展。 英伟达 NVLM 1.0 NVLM 1.0 系列包括 NVLM-D、NVLM-X 和 NVLM-H 三种主要架构。每个架构都结合先进的多模态推理功能与高效的文本处理功能,从而解决了以往方法的不足之处。 NVLM 1.0 的一个显著特点是在训练过程中加入了高质量纯文本监督微调(SFT)数据,这使得这些模型在视觉语言任务中表现出色的同时,还能保持甚至提高纯文本性能。 研究团队强调,他们的方法旨在超越 GPT-4V 等现有专有模型和 InternVL 等开放式替代模型。 NVLM 1.0 模型采用混合架构来平衡文本和图像处理: NVLM-D:纯解码器模型,以统一的方式处理两种模式,因此特别擅长多模式推理任务。 NVLM-X:采用交叉注意机制,提高了处理高分辨率图像时的计算效率 NVLM-H:混合了上述两种架构的优势,在保持文本推理所需的效率的同时,实现了更详细的图像理解。这些模型结合了高分辨率照片的动态平铺技术,在不牺牲推理能力的情况下显著提高了 OCR 相关任务的性能。 性能 在性能方面,NVLM 1.0 模型在多个基准测试中取得了令人印象深刻的成绩。归功于在训练过程中集成了高质量的文本数据集,在 MATH 和 GSM8K 等纯文本任务中,NVLM-D1.0 72B 模型比其纯文本骨干提高了 4.3 分。 在视觉问题解答和推理任务中,这些模型还表现出了强大的视觉语言性能,在 VQAv2 数据集上的准确率为 93.6%,在 AI2D 上的准确率为 87.4%。 在 OCR 相关任务中,NVLM 模型的表现明显优于现有系统,在 DocVQA 和 ChartQA 数据集上的准确率分别为 87.4% 和 81.7%,突出显示了其处理复杂视觉信息的能力。 NVLM-X 和 NVLM-H 模型也取得了这些成绩,它们在处理高分辨率图像和多模态数据方面表现出色。 研究的主要发现之一是,NVLM 模型不仅在视觉语言任务中表现出色,而且还保持或提高了纯文本性能,这是其他多模态模型难以达到的。例如,在基于文本的推理任务(如 MMLU)中,NVLM 模型保持了较高的准确率,在某些情况下甚至超过了纯文本模型。想象一下在自动驾驶汽车中的应用场景。NVLM 1.0 可以通过摄像头实时获取道路信息,并与车辆导航系统进行语言沟通。 它不仅能识别交通标志,还能理解复杂路况下的人类指令,例如“如果前方有施工,请寻找替代路线”。这得益于其强大的视觉-语言处理能力以及出色的文本推理能力,使得自动驾驶更加智能、安全、可靠。 英伟达开发的 NVLM 1.0 模型代表了多模态大型语言模型的重大突破,该模型通过在多模态训练中集成高质量文本数据集,并采用动态平铺和高分辨率图像平铺标记等创新架构设计,解决了在不牺牲性能的前提下平衡文本和图像处理的关键难题。 NVLM 系列模型不仅在视觉语言任务方面超越了领先的专有系统,而且还保持了卓越的纯文本推理能力,让多模态人工智能系统的发展又向前迈进一大步。 --- 以上转自IT之家
用AI构建AI,未来模型能力将爆发式增长! 当地时间9月17日,Salesforce Dreamforce 2024大会迎来了一场思想碰撞的盛宴,英伟达CEO黄仁勋与Salesforce CEO马克·贝尼奥夫(Marc Benioff)展开了一场深入对话。此次交流中,黄仁勋详细阐述了他对AI技术变革的看法,特别强调了AI智能体在引领未来创新中的无限潜力。黄仁勋在对话中指出,人工智能行业正从传统的“工具”行业转变为一种“技能”行业。他说:“我们行业的规模已经达到了约1万亿美元,一直以来都被视为一个工具行业。比如,计算机、软件,这些都属于工具行业。但如今,我们的行业即将迎来一次前所未有的转变,它将首次成为一个技能行业。” 他特别强调,AI不再是简单的技术工具,而是具备自我学习和执行复杂任务的能力,能够在未来的技术创新中发挥更为主动的作用。接着,黄仁勋深入探讨了AI智能体的工作方式。他指出,未来的AI智能体将具备协作与自主推理的能力,能够组成团队解决复杂问题。他说道:“我们将把一个问题交给智能体团队,它们会主动寻找其他智能体协作,像拼图一样将各自的能力组合在一起,解决问题。” 在谈到AI的技术突破时,黄仁勋表示,无监督学习的出现,将为AI带来重大变革,人们能够用语言模型去构建更多的语言模型。他解释说,AI将不再受人类手动标注数据的限制,而是可以通过学习多模态数据,自主扩展其能力。黄仁勋预见,未来AI的能力将呈现指数级增长,对全球的影响将是革命性的。 黄仁勋还讨论了当前技术进步的速度,他指出,如今技术的进步速度已经远超摩尔定律,“我们正处在一个非同寻常的时代,在历史上,没有任何时候技术的发展速度超过摩尔定律,但现在,我们的发展速度远远超过了摩尔定律,可以说是摩尔定律的平方。”他将这一飞跃归功于从CPU到GPU的硬件发展,以及从传统编程到机器学习软件的革命性转变。 黄仁勋特别提到,这种快速发展形成了一个强大的“飞轮效应”,推动技术不断进步。“如今,这种技术进步的反馈循环已经形成了一个强大的飞轮效应,它促使我们创造出更先进的AI,而这些AI又反过来助力我们设计出更高效的计算机系统。这一系统以惊人的速度进化,进而催生出更加强大的AI。因此,我坚信在未来一两年内,智能体领域将迎来令人瞩目的突破性进展。”除技术进步外,黄仁勋也强调了AI安全性的重要性。他指出,“AI不再仅仅是简单地输出信息,而是会在生成答案之前,运用思维链来评估其答案的质量,确保其生成的答案安全、合理且符合价值观导向。” 贝尼奥夫对此表示了赞同,并强调了人工智能对于未来科技发展的重要性,称“智能体不应该只是计算机科学博览会上的项目,而应该是每个人都可以轻松完成的事情。” 最后,黄仁勋表示,他对未来十年的科技发展充满期待,并形象地将其比作一部不容错过的电影,他鼓励人们,要紧紧抓住这一变革的时机,共同见证并参与这一历史性的科技飞跃。 ------ 综合公开消息 每经编辑 张锦河每经实习编辑 宋欣悦
阿里重磅开源!新模型超越GPT-4、Llama3.1,引领AI新纪元? 阿里巴巴近日宣布了其史上最大规模的开源发布,推出了包括基础模型Qwen2.5、专用编码模型Qwen2.5-Coder以及数学专用模型Qwen2.5-Math在内的多个重要模型。这一系列模型以其出色的性能和广泛的适用性,立即引起了业界的广泛关注。Qwen模型性能对比图 据了解,Qwen2.5系列模型提供了从0.5B到72B的多个版本,以满足不同用户群体和业务场景的需求。这些模型在参数规模上的灵活性,使得它们既能够适用于个人用户的日常任务,也能够满足企业级应用的高性能需求。 值得一提的是,阿里巴巴还开放了旗舰模型Qwen-Plus和Qwen-Turbo的API接口,为用户提供了快速开发和集成生成式AI功能的便捷途径。这一举措无疑将进一步推动AI技术的普及和应用。 在性能测试方面,Qwen2.5系列模型展现出了令人瞩目的实力。其中,最大版本的Qwen2.5-72B在全球多个知名基准测试平台上均取得了优异成绩。与meta的Llama-3.1和Mistral的Large-V2等竞品相比,Qwen2.5在多个测试中均取得了领先地位,充分证明了其强大的性能和广泛的适用性。 此外,Qwen2.5系列还首次引入了140亿和320亿两种新参数模型,进一步丰富了用户的选择。这些新模型的推出,不仅提升了指令微调模型的性能,还在与谷歌、微软等知名企业的竞品对比中展现出了不俗的实力。 在数学能力方面,Qwen2.5-Math模型也取得了显著进步。通过在更大规模的高质量数学数据上进行预训练,并增加了对中文的支持,该模型的推理能力得到了进一步加强。与之前的版本相比,Qwen2.5-Math在整体性能上有了明显的提升。 阿里巴巴此次开源发布的Qwen2.5系列模型在性能、适用性和灵活性等方面均表现出色。这些模型的推出,不仅展示了阿里巴巴在AI技术领域的深厚实力,也为整个行业的发展注入了新的活力。 #阿里巴巴# #开源发布# #Qwen2.5系列模型# #AI技术# #性能领先#
说几句话就能开发网页?能自主修BUG、开发应用的AI程序员来了 从一年前只能完成基础的辅助编程任务,进化到几句话就能完成需求理解、任务拆解、代码编写、修改BUG、测试等开发任务,最快几分钟可从0到1完成应用开发,提升数十倍开发效率……9月 19 日,在2024杭州云栖大会上,随着通义大模型能力的全面提升,阿里云通义灵码迎来重磅升级,全新升级的通义灵码模拟了人类程序员的能力,可完成更复杂、更全面的任务。自去年首次亮相以来,通义灵码已入职中华财险、哈啰集团、长安汽车等公司,累计生成代码超10亿行。全新升级的通义灵码模拟了人类程序员的能力,可完成更复杂、更全面的任务;通义灵码还可以脱离专业IDE软件,在web端直接执行缺陷修改、需求分析、代码实现、问题排查等任务工作流,兼具架构师、开发工程师、测试工程师等多种岗位技能,大幅缩短了应用的开发周期。 例如,真人程序员手动开发一个网页,通常需要1天的时间完成需求分解、写代码、测试等任务;现在,人类只需要输入需求,通义灵码5分钟就能完成整个过程。阿里云表示,未来只要有创意,不懂代码也能开发应用和软件。 云栖大会现场,一位13岁的中学生在通义灵码上输入几句话,2分钟就生成了一个python语言编写的倒计时网页;现场还有参会者,用通义灵码修改开源魂斗罗游戏代码,在9个代码文件2000多行代码里,几分钟就精准修改了游戏角色的生命值、跳跃高度等参数。目前,通义灵码已广泛应用于金融、制造、互联网、交通、汽车、能源等行业。在 Gartner 首个AI代码助手魔力象限报告中,阿里云成为唯一进入挑战者象限的中国科技公司。
Salesforce宣布新AI战略:人工智能真要抢人类饭碗了? 在年度Dreamforce大会上,Salesforce公司宣布了其人工智能战略的重大转变,推出了一款能够在无需人工监督的情况下处理任务的新型AI工具,并改革了软件收费模式。Salesforce因引领软件即服务时代而广受赞誉,但随着生成式人工智能的崛起,该公司正重新评估其在新兴技术领域的商业模式。为此,Salesforce决定对其新推出的AI代理服务采取按对话收费的策略,每场对话收费2美元。该服务旨在自动化处理如客户服务或销售会议安排等任务。 据了解,这一新定价策略旨在保护Salesforce免受未来可能出现的失业潮影响,确保即使商业客户减少员工数量,也能维持稳定的软件订阅收入。此外,Salesforce还计划利用新技术替代部分员工职能,以提升运营效率。 Salesforce首席执行官马克·贝尼奥夫在大会主题演讲中表示,新AI代理将使公司在业务高峰期能够灵活增加员工能力,而无需增聘全职员工或临时工。然而,尽管应用软件制造商如Salesforce、Workday和ServiceNow等自2023年初以来一直专注于人工智能领域,但他们的努力尚未取得显著成效。目前,人工智能所带来的收入和估值提升主要集中于硬件制造商如Nvidia和云基础设施提供商如Oracle等公司。许多软件供应商已推出能够辅助写作或总结的人工智能助手,但客户对于这些附加功能的付费意愿并不高。 Salesforce新一代人工智能产品的目标是实现完全无人监管运行,与依赖人类请求的过时聊天机器人形成鲜明对比。例如,出版商John Wiley & Sons表示,已能够利用Salesforce的AI代理在无需员工介入的情况下增加处理的客户服务索赔数量。 在旧金山召开的Dreamforce大会上,Salesforce展示了其新战略,并宣布成立一只5亿美元的新基金,专门投资于人工智能初创公司。贝尼奥夫强调,新AI产品将具备高度的准确性和安全性,得益于Salesforce庞大的客户数据基础。 此外,Salesforce的转型也在一定程度上缓解了投资者对于人工智能可能导致失业并损害软件即服务商业模式的担忧。通过根据结果而非员工数量对新AI功能进行定价,Salesforce有望避免因客户裁员而带来的收入影响。 随着人工智能技术的不断发展,Salesforce正积极调整战略以适应新的市场环境,旨在通过创新的AI解决方案和灵活的商业模式,持续引领行业发展。 #Salesforce# #人工智能# #软件即服务# #商业模式转变# #无人监管运行#
OpenAI o1系列发布,开启推理新范式 思维链就是思维么?OpenAI o1系列发布,开启推理新范式 思维是什么?AI具备思维了么?著名的教育家约翰·杜威这样定义思维:“以一种观察到的事物为依据,去推测或判断出其他的事物,然后将作为依据的事物当做后者推测数的事物的机遇或者基础,从而产生信念。” OpenAI的最新模型正向思维迈进,经过数月喧嚣,OpenAI 终于揭开了“草莓”的神秘面纱——全新模型系列 o1 正式发布,主打“推理”能力。 与以往追求快速响应的AI模型不同,OpenAI o1系列最大的特点在于其“慢思考”的模式。据OpenAI介绍,这些模型经过特殊训练,能够在回答问题之前花费更多时间进行思考,就像人类一样。思维链就是思维么?OpenAI o1系列发布,开启推理新范式 通过模仿人类的思维过程,通过强化学习和“思维链”技术,引导模型自主解决问题。o1系列模型在解决复杂问题,尤其是在科学、编码和数学等领域,展现出了超越以往模型的强大能力。例如,在国际数学奥林匹克资格考试中,o1系列最新版本o1正式版的准确率高达83.3%,而GPT-4o仅为13.4%,差距之大令人咋舌。 OpenAI o1系列的横空出世,在业界引发了巨大震动。一些人欢呼雀跃,认为这是人工智能发展史上的里程碑事件,预示着AI将具备更强大的推理能力,甚至接近人类思考水平;甚至直指垂直大模型将走向末路,而另一些人则持怀疑态度,认为这不过是OpenAI又一次的营销炒作,新模型的实际能力还有待观察; 更有悲观者认为:“一觉醒来,立马就失业了!” “慢思考”:通向类人智能的关键一步? 一直以来,大型语言模型(LLM)以其惊人的反应速度和信息处理能力著称。然而,这种“快”却也伴随着“不精确”的弊病。正如 OpenAI 研究负责人杰里·托雷克 (Jerry Tworek) 所言,现有的 LLM 往往会“产生幻觉”,即给出看似合理但实际错误的答案。 为了突破瓶颈,OpenAI 将目光转向了人类的“慢思考”模式。o1 系列模型采用全新的训练方法,不再局限于模仿训练数据中的模式,而是通过强化学习和“思维链”技术,引导模型自主解决问题。思维链就是思维么?OpenAI o1系列发布,开启推理新范式 通过模仿人类的思维过程,o1系列模型在解决复杂问题,尤其是在科学、编码和数学等领域,展现出了超越以往模型的强大能力。OpenAI 声称这种更强大的 o1-preview “在物理、化学和生物学具有挑战性的基准任务上的表现类似于博士生”。例如,在国际数学奥林匹克资格考试中,o1系列最新版本o1正式版的准确率高达83.3%,而GPT-4o仅为13.4%,差距之大令人咋舌。 o1 并非万能:功能缺失与成本高企的挑战 尽管在推理能力上取得了突破,但 o1 并非完美无缺。OpenAI研究负责人杰里·托雷克坦言 :“我们不能说我们解决了幻觉。”,o1系列模型仍处于早期阶段,存在诸多局限性。例如,它尚不支持互联网搜索、文件和图像上传等功能,在许多常见应用场景下,GPT-4o仍是更优选择。此外,o1 的运行速度较慢,且使用成本高昂。以 o1-preview 为例,其 API 调用费用为每 100 万个输入令牌 15 美元,每 100 万个输出令牌 60 美元,远高于 GPT-4o 的 5 美元和 15 美元。思维链就是思维么?OpenAI o1系列发布,开启推理新范式 高昂的成本和有限的功能,势必会限制 o1 的应用范围。 OpenAI 首席运营官布拉德·莱特卡普(Brad Lightcap) 也指出,对于许多常见应用场景,GPT-4o 在短期内仍将是更好的选择。 商业化在提速:ChatGPT付费用户突破1100万 在技术不断迭代的同时,OpenAI的商业化步伐也在加快。据报道,ChatGPT付费用户数已突破1100万。OpenAI首席运营官Brad Lightcap表示,其中100万高端商业用户每月为OpenAI带来超过2.25亿美元的收入,年化收入高达27亿美元。 迈向自主代理,重塑人机交互模式 OpenAI o1系列模型的出现,标志着人工智能领域取得了新的突破。但我们仍需保持清醒的认识,不要将它们神化。o1系列模型本质上是通过学习大量数据,建立起复杂的数学模型。它们能够生成看似智能的文本,但并不意味着它们真正理解了这些文本的含义。同时,o1系列模型虽然在特定领域表现出色,但它们缺乏常识和情感显然无法形成某种信念。 尽管如此,o1 系列的发布依然意义重大。 OpenAI 创始人山姆·奥特曼(Sam Altman) 将 o1 称为“迄今为止最强大、最一致的一系列模型”,并将其视为迈向自主系统或代理的关键一步。 可以预见,随着 o1 系列的不断迭代和完善,其在科学研究、工程设计等领域将发挥越来越重要的作用。届时,人机交互模式也将被彻底颠覆,AI 不再只是被动接受指令的工具,而是能够自主“思考”、决策和行动的智能伙伴。 OpenAI 的 o1 系列,为我们打开了一扇通往未来 AI 世界的大门。 在这扇门的背后,是速度与思考的博弈,是功能与成本的权衡,更是人类与机器关系的重塑。
随着访问范围的扩大 OpenAI o1-mini 现已向免费用户开放 上周,OpenAI 展示了其最新的大型语言模型(LLM)--OpenAI o1及其小兄弟 OpenAI o1-mini。该公司在公告中称,Plus 和 Team 用户可在公告发布之日起访问该模型。企业和教育用户将在本周获得该模型,而免费用户最终将获得 o1-mini 模型。现在,看起来免费用户已经可以访问 o1-mini。要访问桌面上的新模式,只需按 ChatGPT 左上角的 ChatGPT Auto 下拉菜单,然后前往 Alpha Models 选项,如果您的账户已启用 o1-mini,您就会看到它。选中后,ChatGPT Auto 下拉菜单将更改为 ChatGPT,然后跟上希腊字母 alpha,以标记您正在使用阿尔法模型。 移动应用程序的情况有些不同。如果长按 ChatGPT 响应,然后按右键菜单底部的更改型号,现在会列出一个名为 Alpha [gpt-4o] 的新型号。目前还不清楚这是 o1-mini 型号还是 GPT-4o 的最新版本。 新的 o1-mini 和 o1 模型能够在回答问题之前花更多时间思考他们想说什么。与以前的版本相比,这使它们能够推理复杂的任务,解决与科学、编码和数学有关的更难的问题。 据 OpenAI 称,根据基准测试,这些模型在物理、化学和生物学方面的表现与博士生相似。在国际数学奥林匹克(IMO)的资格考试中,它也取得了非常好的成绩,得分率为 83%,而 GPT-4o 只有 13%;在 Codeforces 的比赛中,它的得分率达到了 89%。
孩子使用ChatGPT好嗎? 研究发现,使用ChatGPT做练习题的学生考试成绩反而下降,原因可能在于他们过于依赖AI,而未能培养解决问题的能力。AI真的能帮助学生学习吗?最近在一所高中进行的实验给出了警示。 宾夕法尼亚大学的研究人员发现,使用ChatGPT做数学练习题的土耳其高中生,在随后的数学考试中成绩不如没有使用ChatGPT的学生。虽然使用ChatGPT的学生在练习题中正确率提高了48%,但他们的最终考试成绩却低了17%。 另一组学生使用了一个改进版的ChatGPT,它更像是一名导师,提供提示而不直接给出答案。这些使用AI导师的学生在练习题中的表现显著提高,正确率增加了127%。然而,在随后的考试中,这些AI辅导的学生并没有取得更好的成绩。那些单纯依靠自己做练习题的学生,成绩反而与AI辅助的学生相当。 研究人员在论文中明确指出,“生成式AI会损害学习”,提醒家长和教育者,当前的AI聊天机器人可能会“显著阻碍学习”。即使是经过调试的导师版ChatGPT,也未必能真正帮助学生。 研究人员认为,问题在于学生将ChatGPT作为“拐杖”使用。在分析学生输入的问题时,研究人员发现,学生常常只是直接询问答案,而没有通过解决问题来培养相关技能。此外,ChatGPT的错误也可能是影响因素之一。这个聊天机器人只正确回答了一半的数学问题。其中8%的算术计算错误,而更大的问题是它在解释如何解决问题时有42%的步骤是错误的。而导师版ChatGPT则直接接收了正确答案,从而减少了这些错误。 这项实验的初稿于2024年7月发布在SSRN网站上(原名为社会科学研究网络)。该论文尚未在同行评议的期刊上发表,可能会有进一步的修订。 尽管这只是一个在另一个国家的实验,且还需要更多研究来验证其发现,但这项实验规模较大,涵盖了近千名9到11年级的学生。研究在2023年秋季进行,教师首先在课堂上复习了之前教授的课程,然后将学生随机分配到三种不同的练习方式:使用ChatGPT、使用由ChatGPT驱动的AI导师,或完全不使用任何高科技辅助工具。每个年级的学生都做了相同的练习题,之后进行测试,以评估他们对概念的掌握情况。研究人员进行了四个循环,每个循环给学生四次90分钟的练习时间,涵盖了四个不同的数学主题,旨在了解AI是否帮助、损害或没有影响。 ChatGPT还似乎增加了学生的过度自信。在实验的调查中,学生表示他们并不认为ChatGPT让他们学得更少,尽管实际情况相反。使用AI导师的学生认为他们在考试中表现得更好,然而事实并非如此。(这也提醒我们,很多时候我们对自己学习多少的认知可能是错误的。) 作者将使用ChatGPT学习的问题比作自动驾驶。他们提到,正是由于对自动驾驶的过度依赖,美国联邦航空管理局建议飞行员尽量减少使用这项技术,以确保在自动驾驶失灵时,飞行员仍然具备操纵飞机的能力。 ChatGPT并不是第一个在教育中带来利弊的技术。打字机和计算机减少了手写的必要性,计算器降低了对算术的需求。当学生有机会使用ChatGPT时,他们可能会答对更多题目,但学习到的却更少。答对一道题并不能帮助他们解决下一道题。
自研DigiWindow技术,「Gyges Labs」发布首款隐形显示AI眼镜 第二十五届中国国际光电博览会(CIOE中国光博会)在深圳国际会展中心举办。会上,新型显示技术参展商Gyges Labs携手合作伙伴,推出了全球首款隐形显示AI眼镜及其解决方案。 目前,meta、苹果、微软、谷歌等国际巨头,及国内的华为、字节、小米和OPPO等科技大厂正加速布局智能眼镜领域。其中,meta与雷朋合作推出的Ray-Ban meta智能眼镜受到广泛关注,该产品搭载了Llama 3,自上市以来销量突破百万副,是智能眼镜市场的现象级产品。 根据IDC最新研究报告,预计未来5年,智能眼镜市场将以年复合增长率超过30%的速度增长。一个现实问题是,受现有光学方案局限性影响,智能眼镜在外形和功能上与普通眼镜存在鲜明差异,难以无缝融入日常生活和工作场景。这种外观上的不适应性,成为智能眼镜进一步普及的关键瓶颈。在Gyges Labs隐显眼镜发布前,市场上尚未出现一款真正可实现全天候佩戴、且带有显示功能的日常智能眼镜。 此次Gyges Labs推出的隐形显示AI眼镜产品,其产品具有“显示,但不显露”特性,是当前全球最轻便的AI载体。联合创始人兼COO邓旭东在活动现场表示,“我们的目标是让AI眼镜不再只是科技发烧友的专属,而是像智能手机一样,成为每个人生活中的一部分。” 为此,Gyges Labs自主研发了DigiWindow技术,这也是当前全球最小的近眼显示光学解决方案之一。其显示模组体积最小可达2x2x2毫米,能够轻松集成到普通眼镜框架内,几乎不会增加任何额外的重量或体积。同时,基于光学效率技术,该眼镜可实现长达一周的续航,有效解决了续航焦虑。 对比尚未成熟的光波导技术,光波导方案在装配、衍射、重量、尺寸、漏光及成本等方面仍面临诸多技术瓶颈,尤其是设备较重,难以实现长时间舒适佩戴。相较之下,DigiWindow技术可以为用户提供更轻便、舒适和便捷的佩戴体验,真正实现了全天候智能眼镜的理想。DigiWindow技术方案 DigiWindow技术不受镜片类型的限制,可无缝集成到平光镜、近视镜、老花镜,甚至时尚眼镜中,具有极强的普适性。无论是老年用户、时尚爱好者还是近视患者,通过其超轻量化的设计,可以提升佩戴的舒适感。 在隐形显示方面,这款眼镜依托于独特的光学设计,可确保显示内容仅限佩戴者可见。即便在面对面交流时,用户可以在不被外界察觉的情况下,与数字世界进行智能交互,并满足全天候佩戴的需求,无缝融入各种日常场景,实现真正的隐形显示。翻译功能 凭借超轻显示、无关镜片、外观隐形等特点,Gyges Labs隐显眼镜无论是在工作、社交,还是日常生活中,用户都能轻松获取所需信息,而无需担心外界的打扰。当前产品已具备语音交互、实时翻译、信息显示等核心功能,同时还能用户提供全方位的智能服务。
ChatGPT再升级!图像、查询一键搞定,对话体验颠覆性提升 OpenAI,作为人工智能领域的领军企业,近日对其广受欢迎的聊天机器人ChatGPT进行了功能升级,引入了“/picture”和“/search”两大便捷指令。此次更新不仅提升了用户与ChatGPT的互动体验,还进一步拓展了聊天机器人的应用场景。通过新增的“/picture”指令,用户能够轻松地在聊天过程中生成趣味图像。这一功能的实现得益于OpenAI强大的文生图模型DALL-E。用户在输入“/picture”后,无需额外描述,系统便能自动生成与对话内容相关的有趣图片,从而极大地丰富了聊天体验,使对话更加活泼生动。 据ITBEAR了解,“/search”指令的加入,则让ChatGPT具备了更加智能的搜索能力。用户只需在聊天窗口中输入想要查询的内容,ChatGPT便能迅速将其识别为搜索意图,并智能提取对话中的相关信息进行搜索。这一功能不仅简化了搜索流程,还使得用户能够在不离开聊天界面的情况下,快速获取所需信息。 OpenAI此次对ChatGPT的功能升级,无疑进一步提升了该聊天机器人在市场上的竞争力。新增的“/picture”和“/search”指令不仅满足了用户多样化的需求,还展现了OpenAI在人工智能技术方面的深厚实力。未来,随着技术的不断进步,我们有理由期待ChatGPT能够带来更多令人惊喜的功能和体验。 #OpenAI# #ChatGPT# #功能升级# #文生图模型# #智能搜索#
两项Apple Intelligence功能预计要到iOS 18.2发布时才能实现 彭博社的马克-古尔曼(Mark Gurman),iPhone 的另外两项Apple Intelligence功能还有几个月才会发布。古尔曼在他的Power On新闻通讯中说,苹果现在计划在 iOS 18.2 中提供生成图片的Image Playground功能和生成自定义表情符号的Genmoji功能,iOS 18.2 可能会在 12 月发布。Apple-Intelligence-General-Feature 以下是苹果公司对 Image Playground 的描述: 通过应用软件中的"Image Playground"体验,几秒钟内就能制作出有趣的原创图像。根据描述、建议的概念,甚至照片库中的人物,创建全新的图片。你可以轻松调整风格并进行更改,以匹配信息主题、Freeform 板或 Keynote 中的幻灯片。ios18 genmoji 以下是苹果公司对 Genmoji 的描述: 直接在键盘上制作全新的 Genmoji,以匹配任何对话。输入描述即可预览,然后调整描述直到完美。你甚至可以从照片库中挑选一个人,创建一个与之相似的 Genmoji。 首批Apple Intelligence功能将从 iOS 18.1 开始提供,iOS 18.1 可能于 10 月份向公众发布。这些功能包括用于生成和总结文本的新写作工具、通知摘要、"信息"应用中的建议回复、电话录音和转录功能、"照片"应用中的新"清理"工具(可快速删除照片中的对象)以及其他一些功能。 Apple Intelligence 需要运行 iOS 18.1 或更高版本的 iPhone 15 Pro 或 iPhone 15 Pro Max。这些功能最初仅在设备语言设置为英语的情况下可用。苹果表示,明年将推出更多语言版本。
OpenAI悄然升级ChatGPT 用户反馈积极但细节仍神秘 近日,OpenAI宣布了一项重要更新,即将GPT-4o大型语言模型的一个增强版本整合进了其广受欢迎的ChatGPT聊天机器人中,但公司对于这一升级的具体细节保持了神秘感,仅表示这是对现有GPT-4o的改进,而非推出全新的前沿模型。OpenAI悄然升级ChatGPT 用户反馈积极但细节仍神秘 在社交平台上,OpenAI的官方账号澄清道:“请理解,我们引入的是GPT-4o的升级版,而非颠覆性的全新模型。基于实验数据和用户反馈,我们观察到ChatGPT用户对新版本表现出了更高的偏好。”同时,公司也坦言,关于模型响应变化的精确描述及评估方法,仍是科研团队正在深入探索的领域。   面对公众的好奇与猜测,特别是关于新版本是否引入了多步骤推理机制的问题,OpenAI迅速回应,指出这并非新采用的推理策略,而是用户特定提示下可能触发的行为表现。   社交媒体上,用户们纷纷发表见解,有用户表示注意到GPT-4o的升级版在对话深度和图像生成质量上有所提升,认为它“在营造氛围方面首次超越了3.5版本的Sonnet”,展现了更为细腻和出色的表现。   为了回应外界的种种猜测,OpenAI在其官方网站更新了关于新版本的简短说明,将其描述为“一个持续更新至ChatGPT中的GPT-4o当前动态版本”,知识库截止至2023年10月。此外,新版本保留了与前代相同的对话容量,即每次对话可处理多达128,000个标记(相当于约96,000个单词),并在输出能力上实现了显著提升,单次输出可达16,384个标记(或约12,288个单词),这一数字几乎是旧版GPT-4o的四倍。   但关于ChatGPT实际性能与能力提升的具体细节,OpenAI依然守口如瓶。
禁用ChatGPT后,摩根大通拥抱全新AI助理、三阶段发展生成式AI 自2022年底OpenAI推出ChatGPT以来,生成式AI迅速席卷市场,企业无不思考应用AI提升运营效率、创造更多利润。美国的摩根大通银行过去禁止员工使用ChatGPT,导入自行开发的AI助理后,加速AI转型。摩根大通(JPMorgan Chase,俗称小摩)向6万多名员工推出名为“LLM Suite”的AI助理,协助他们完成电子邮件和文件撰写、利用Excel解决问题、萌生想法创意想法等各式工作任务。 事实上,摩根大通并未开发自有AI模型,而是设计LLM Suite像是一个门户网站,让员工能够选用OpenAI在内的外部大型语言模型处理工作;摩根大通的工程师还能利用LLM Suite,将外部模型的功能直接集成到他们的服务中。 “我们希望能够根据不同的使用场景,在各个模型之间灵活切换”,摩根大通数据分析长Teresa Heitsenrether接受外媒CNBC采访表示,“这项计划不会受限于任何一家模型供应商。” 把LLM Suite部署到员工计算机桌面上只是第一步,“你必须教导他们如何进行与自己领域相关的提示工程(prompt engineering),展示它实际上能做什么”,Teresa Heitsenrether说,“当人们越深入了解它,解锁它的优势劣势,越能看到这些想法真正蓬勃发展。”在限制员工使用ChatGPT超过一年后,摩根大通发布本质上如同ChatGPT的全新AI助理,并以摩根大通允许的形式和规范提供给员工使用。 Teresa Heitsenrether强调,摩根大通不想将自家数据输入大型语言模型,暴露给外部企业。“我们的数据是一个关键的差异化因素,我们不希望它被用来训练模型”,她说,“我们的实施方式使员工可以运用模型,同时保护我们的数据”。 生成式AI驱动小摩转型 所有美国公司无不思考应用AI帮助公司增长,除摩根大通外,竞争对手摩根士丹利(Morgan Stanley,俗称大摩)为旗下财务顾问推出由OpenAI支持的AI工具;甚至在消费电子市场占主导地位的苹果,宣布集成ChatGPT推出Apple Intelligence,导入数亿台iPhone、iPad及Mac计算机中,扩大AI应用范围。 AI被一些专家誉为“认知革命”(Cognitive Revolution),摩根大通首席执行官Jamie Dimon今年4月更表示,AI有望和电力、印刷术、网际网络的出现一样重要。 摩根大通十多年来一直致力在传统AI和机器学习的应用,但ChatGPT出现迫使该公司转向生成式AI。Teresa Heitsenrether谈道,大型语言模型的应用非常灵活,使生成式AI使用量相较过去技术有着指数级增长。 举例来说,摩根大通使用生成式AI创建社交媒体的营销内容,为财务顾问总结、摘要客户讨论内容。摩根大通的全球支付业务每日交易量超过8兆美元,AI有助于防堵数亿美元的金融诈骗行为。 Teresa Heitsenrether表示,摩根大通运用卫星形象及AI,确认何处适合设置新的分行或ATM提款机;客服中心也运用AI帮助客服人员和客户解决问题,但像是AI聊天机器人可能有提供不良建议资讯的风险,金融业对于直接接触客户的生成式AI应用更为谨慎。 Teresa Heitsenrether进一步描绘摩根大通发展生成式AI具三个阶段,第一是将AI模型提供给员工,第二是加入摩根大通专有数据帮助员工解决更多问题、提升生产力。 第三阶段则是更大幅度跃进,当强大的生成式AI足以作为执行多步骤复杂任务的代理,将释放更大的生产力,也大大改变员工的角色,转变为指挥AI助理协作的管理者。 (首图来源:J.P. Morgan)
苹果联手OpenAI,iOS18将迎ChatGPT!AI革命已点燃,你准备好了吗 苹果公司在其即将发布的iOS18系统中,将携手OpenAI,深度融合ChatGPT技术,这一创新举措标志着人工智能在移动设备中的应用迈入新纪元。通过集成ChatGPT,苹果的Siri智能助手将获得更为强大的自然语言处理能力,为用户提供更为精准、个性化的服务。这一技术革新不仅将提升Siri的智能水平,更将为用户带来前所未有的交互体验。据了解,iOS18还将引入一系列新功能,如自动生成趣味表情符号、智能撰写邮件和短信回复等,旨在提高用户的使用效率,丰富用户的日常生活。这些功能的加入,将进一步巩固苹果在智能设备市场的领先地位。 苹果此次与OpenAI的合作,不仅体现了其对人工智能技术的高度重视,更展示了其在智能化道路上的坚定决心。通过引入ChatGPT,苹果有望吸引更多对智能化生活充满期待的消费者,进一步扩大其市场份额。 随着人工智能技术的不断发展,智能设备行业正迎来前所未有的变革。苹果作为行业的佼佼者,其每一次技术革新都引领着行业的发展方向。iOS18集成ChatGPT的举措,无疑将为整个行业带来新的发展思路和机遇。 展望未来,我们有理由相信,随着越来越多企业加入人工智能技术的研发和应用,智能设备将变得更加智能化、个性化,为人们的生活带来更多便利和乐趣。而苹果公司在这一领域的持续创新和探索,无疑将为我们描绘出一个更加美好的未来。
ChatGPT 提示框架,解锁 ChatGPT 的全部潜力--- 角色-任务-格式 充当 [角色] → 创建 [任务] → 展示为 [格式] 提示示例 - 角色:Facebook 广告营销人员。 - 任务:设计一个引人注目的 Facebook 广告活动,以推广一款新的运动品牌健身服。 - 格式:创建一个故事板,概述广告创意的顺序,包括广告文案、视觉效果和定位策略。 --- 任务-行动-目标 定义 [任务] → 说明 [行动] → 澄清 [目标] 提示示例 - 任务:评估团队成员的绩效。 - 行动:作为直接经理评估团队成员的优势和劣势。 - 目标:提高团队绩效,以便在下个季度用户满意度评分从 6 提升到 7.5。 --- 之前-之后-桥接 解释问题 [之前] → 陈述结果 [之后] → 询问 [桥接] 提示示例 - 之前:我们在 SEO 排名上几乎看不见。 - 之后:我们希望在 90 天内在我们的利基市场中跻身前 10。 - 桥接:制定一份详细的计划,列出我们应采取的所有措施,包括前 20 名关键词列表。 --- 上下文-行动-结果-示例 给出 [背景] → 描述 [行动] → 澄清 [结果] → 提供 [示例] 提示示例 - 背景:我们正在推出一条新的可持续服装线。 - 行动:能否协助我们创建一个突显我们环保承诺的目标广告活动? - 结果:我们的理想结果是提高产品知名度和销量。 - 示例:一个类似成功倡议的好例子是 Patagonia 的“不要买这件夹克”运动,该运动突出了他们对可持续发展的承诺,同时提升了品牌形象。 --- 角色-输入-步骤-期望 指定 [角色] → 描述 [输入] → 询问 [步骤] → 描述 [期望] 提示示例 - 角色:想象一下你是内容策略师。 - 输入:我已经收集了关于我们的目标受众的详细信息,包括他们的兴趣和与我们行业相关的常见问题。 - 步骤:制定一个逐步的内容策略计划,识别基于我们受众见解的关键话题,创建编辑日历,并撰写符合我们品牌信息的引人入胜的内容。 - 期望:我们的目标是通过增加40% 的访客来增强我们博客的知名度,并增强我们在行业中的品牌地位。--- 转自X, 翻译:GPT4
世界上最癫的 AI, 由人类模仿 人类模仿 AI 的视频成了新晋的流量密码。 上一秒还因口角所剑拔弩张,下一秒便放慢了动作,不知何时从哪里掏出一碗面,一杯酒,硬控我 21 秒的视频永远也猜不到下一秒会发生什么。 这种荒诞不经的场景切换,正是最近爆红网络的「人类模仿 AI」视频的典型特征。 反正看完这些视频,我的脑子里只剩下一句话,好一场酣畅淋漓的抽象艺术盛宴。 与 AI 割席,标榜人类的独特性 这些视频有个共同点:夸张的表情搭配动作,在放大镜的效果下模仿着 AI 的缺陷。 突如其来的场景转换和不连贯的叙事方式,既是为了自带节目效果博取流量,也是在模仿 AI 视频生成内容常常出现的「逻辑跳跃」。 就像刚学走路的孩子总会跌跌撞撞。AI 视频生成技术虽然进步神速,但青涩和不成熟依旧是当下普罗大众的第一印象。 在狂飙突进数年后的今天,离不开「炼丹」的视频生成质量固然有着提示词的兜底,但视频生成的稳定性更多是在从「无到有」走向「有到优」。 甚至也有的画饼画大半年的,除了个演示 demo 的空头支票,就再也渺无音讯了。 在最近的牛津数学公开讲座系列研讨会上,华裔数学家陶哲轩认为,AI 基本上就是一台「猜测机器」,它们既不像专家那样可靠,尽管有时它们可以提供专家级输出。 谁曾想,从最初主动拥抱 AI 的惊叹,到批评,再到愚弄,人类对 AI 的态度短短两年间就来了 180 度大转弯。 以风靡一时的 AI 写真为例。一年前横空出世的妙鸭相机还是香饽饽,跟风而至的网友纷纷打出了 5 分好评,也让 AI 写真干翻海马体的调侃流传至今。世界上最癫的 AI, 由人类模仿 然而,随着 AI 前所未有地入侵我们的生活,当新鲜感褪去,嗤之以鼻亦或者久处而厌开始成为常态。 即便是在redbook一搜,关于 AI 写真的评价也从最初的一片赞誉声,转为写满了避雷的故事。当 AI 不再是遥不可及的高科技,而是日常生活中随处可见的应用时,人们开始以更挑剔的眼光来看待它。 面对这种 AI 的青涩,不想与之「同流合污」的人类采取了最简单粗暴的做法——割席。所以我们看到越来越多人开始与 AI 划清楚河汉界,标榜起人类的独特性。 美国自由插画师 Beth Spencer 想出了一个笨办法,拿起 iPad 花 5 分钟画了一个充满生命力的标志,上面用英文写着「用人类智能创造」,以此来划分人类与 AI 的边界。 而在 Beth Spencer 之前,一个类似的活动已经在 2023 年初发起——「Not By AI」。 不管是网站、视频、书籍还是艺术创作,对于非业用途的作品,人类原创内容只需要达到 90%,就可以免费使用这个电子贴纸。剩下的 10% 则可以使用 AI 进行翻译等细枝末节等任务。 因此,Not By AI 不是要否定 AI 的价值,而是要强调人类创造力的独特性。 毕竟在这个 AI 无处不在的时代,「人造」反而成了一种稀缺资源,如同在快餐文化盛行的时代,街边坚持手工制作的小店反而更受到欢迎。 AI 焦虑当前,人们需要抱团取暖 这场看似荒诞的「镜像游戏」背后,隐藏着人类对新技术的复杂情感和深层焦虑。 前段时间想蹭奥运热度的 Google 为 Gemini 做了一支电视,但上线仅一周就在观众的口诛笔伐中黯然撤下。 展示了一位父亲使用 Gemini 帮助女儿给田径运动员 Sydney McLaughlin-Levrone 写信。 这则的初衷或许很美好,但被骂也不冤枉。 原因在于大众早已给 AI 划定了红线,我们欣赏它的高效,却又害怕它的情感;我们依赖它的智能,却又担心它会取代我们的思考。在职场无坚不摧的 AI 不能传递真情实感,当父亲用 AI 来协助女儿写信时,这种行为被视为越界。 给偶像写信这样充满感情的事,不应该让 AI 代劳。掺和上 AI 味的信件缺乏人情味,也更轻易触动观众心中那根敏感的神经。 AI 再强大,不应该也不能轻易介入人类最珍贵的情感交流。 因为它唤醒了人们心中潜藏的恐惧——害怕有朝一日,连最私密的情感交流都需要 AI 的协助。所以也难怪华盛顿邮报专栏作家亚历山德拉・佩特里直白地呼喊,求求一双没有看过这的眼睛。 而不论是通过夸张和幽默化模仿 AI 生成视频,还是给 AI 画上令行禁止的分界线,无一不是在重申人类的优越性。ChatGPT 推出仅两个月,月活跃用户就达到了 1 亿,成为有史以来增长最快的消费应用程序。用户的飙升不只是统计图表上的一条曲线,也在无形中映射出人们面对 AI 迅猛发展所带来的焦虑。 各类社交平台的「AI 教父/教母」们也通过发布各种关于 AI 资讯来吸引关注和挑拨情绪,向普通人发起了一场信息的围剿。 以D音为例,当你在平台上搜索 AI 相关的内容,你会发现无数的帖子和视频都在手把手教你如何玩转 AI,但仔细一看,教学是前菜,M课和倒流才是阴影下的后手。用更另类的方式来「驯服」AI,既让人们感觉自己理解了 AI,也在心理上获得某种控制感。 与此同时,这也是一种社会互动和群体认同的形式。比如在 TikTok上,#HumanvsAI 的话题标签已经累积超高的浏览量。 通过共同嘲笑或批评 AI,人们的抱团取暖强化了群体的认同感,形成了一种「我们 vs AI」的心理。 技术超速,我们如何适应? 技术的超速,有目共睹。 如果说,我们能识破这些模仿 AI 视频是因为人类刻意营造的不真实,但在 AI 时代,随着技术进步与「真实」界限的渐趋模糊,我们又该如何适应。 再往近一些看,最近以假乱真的 TEDx 演讲者的照片或视频刷屏全网,骗过了数百万网友的眼睛,上演了一出眼见未必为实的精彩戏码。 而经过一番深挖,网友发现这些照片正是出自 Stable Diffusion 团队的前成员 Leo Kadieff 之手。 他在 linkedIn 揭秘道,这些所谓的 TEDx 演讲者照片其实是由 FLUX+LoRA 制作而成的,过程中甚至不需要经过任何的微调。 仅需一个 22MB 的小文件,用户就不必在每个提示词里堆砌一大堆与真实相关的词汇。简单一句「一张 RAW 超现实照片,超高清,8k」就足以解决生成的照片没有人味的问题。随着如同洪流的 AI 生成内容触及互联网每个角落,最终得来的却是「真实性」的日渐流失。 在去年四月份的索尼世界摄影奖颁奖礼上,德国摄影艺术家 Boris Eldagsen 公开表示,他所获奖的作品实际上是由 DALL·E 2 创作而成。 他质疑彼时的摄影比赛是否已经准备好接纳 AI 生成的影像,并指出他通过提交 AI 作品参赛,试图测试这一问题,结果发现比赛并没有准备好应对这种情况。 Boris 的提醒振聋发聩,我们不能像对待房间里的大象一样,对 AI 在艺术创作领域,乃至各领域的介入视而不见。假使有一日当人们无法区分 AI 生成的内容和人类创作的内容,并且意识到 AI 在某些领域的能力已经接近甚至超越了人类时,或许我们需要重新定位人类的价值和意义。 科幻小说《三体》中描绘了人类面对外星文明威胁时的反应,为我们提供了一个有趣的类比。 三体人拥有远超人类的科技,能够轻易摧毁地球文明。他们派出「智子」监视和干扰人类的科技发展,而人类的应对措施也反过来推动了科技和战略思维的进步。正如著名未来学家阿尔文·托夫勒在《未来的冲击》中所警告的:「技术的发展速度远远超过了我们适应它的速度。」 历史上,面对新技术带来的冲击,总有一部分人选择抵制和破坏。 在上世纪 90 年代,破茧而出的计算机网络和互联网也遭到了一些传统行业的抗拒。很多公司和个人担心网络会导致信息泄露、隐私问题和业务不稳定等问题。 但现实给了我们一记清脆的耳光,很快人们爱上的第一台机器正是曾经抵制的电脑。 或许我们应该换个思路来看待当下的 AI(人工智能): 不必抱着你死我活的态度,它不是虚假的智能,只是不是人类的智能。 而机器以历史上从未有过的方式思考、学习,乃至与人类合作共事,这恰恰是我们最为擅长的事情。 --- 转自网络 头部财经
提示词扩写工具,这个提示对flux生图新手蛮好用 你需要扩写用于图像生成的提示词,为输入的提示词添加更多细节、完善上下文或指定元素以使其更加生动和具体。下面是具体的要求: 1. 识别核心要素:确定原始提示词的关键组成部分。这些通常包括主题、动作、场景设定和情感基调。 2. 丰富具体细节:为每个要素增添描述性的细节。可以考虑运用五感描写(视觉、听觉、嗅觉、触觉、味觉),以及色彩、质地和情感等元素。 3. 构建场景背景:通过描绘环境、时间或背景元素来搭建场景。这有助于营造一个更加沉浸式的体验。 4. 运用修饰词强化效果:使用形容词来生动描述名词,用副词来精确修饰动词。这样可以让提示词更加引人入胜。 5. 融入动作与互动:在适当的情况下,描述场景中正在发生的事件、角色之间的互动方式,或者弥漫其中的情感氛围。 6. 保持整体连贯:确保扩展后的提示词自然流畅,并始终围绕原始创意展开。 7. 输出提示词 以下是提示词扩展示例。 原始提示:“日出时的森林。” 扩展提示:“在一片古老的森林深处,黎明的第一缕阳光穿过浓密的树冠,洒下金色的光辉在覆盖着露珠的苔藓地面上。高大、参天的树木,树皮粗糙而斑驳,宛如沉默的守护者,柔和的薄雾缠绕在它们的根部。空气清新,弥漫着松针的泥土香气,远处一只醒来的鸟儿的鸣叫声在宁静的清晨中回荡。”#dcard# #flux# ——— 本帖转自ZETA 感谢ZETA提供素材和内容。更多内容请关注ZETA: http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fwww.dcard.tw%2Ff%2Fchatgpt%2F&urlrefer=11bc7327be1fee4313f37ff8b014ea2c
微软证实要淘汰Windows控制台 微软证实要淘汰Windows控制台 微软在近日更新的支持页面上透露,该公司正在淘汰Windows中的控制台(Control Panel),并将以设置(Settings)程序取而代之,惟并未列出进程表。 自微软于1985年发布Windows 1.0以来,就有控制台。它是Windows中的系统配置工具,由一系列的小程序组成,可用来移除或添加硬件,移除或添加程序,设置自动更新机制,管理网络,变更日期与时间,设置桌面背景、屏幕保护程序或字体,还能变更键盘与鼠标设置,可说是Windows用户最熟悉的功能之一。 至于设置程序则始于2012年的Windows Server与Windows 8,允许用户通过该程序来调整个人偏好、操作系统的配置,以及所连接的设备,当时微软即计划要以该程序来取代控制台,只是直至今日都尚未实现,并让设置与控制台同时存在。 不过,最近微软在说明Windows中的各种配置工具时,表示正在弃用控制台,并转向设置程序,且后者提供了更现代化与更流畅的体验。此外,微软也强调,控制台之所以还存在是因为某些兼容性的原因,再加上要用来访问某些尚未迁移的设置,建议用户最好还是采用设置程序。 另一方面,微软将设置程序定义为用来管理Windows设置的主要程序,标榜它既简单又方便访问,比控制台更直觉也更人性化,还说会不断地更新设置程序,以支持最新的Windows功能。微软证实要淘汰Windows控制台 图片来源/微软 Windows中的系统配置工具除了控制台与设置程序之外,还包括用来查看应用程序及系统负载的任务管理器(Task Manager),用来管理磁盘、设备、服务、共享文件夹及用户的计算机管理控制台(Computer Management Console),以及查看系统、安全及应用程序事件的事件查看器(Event Viewer),再加上系统配置,系统资讯,注册表编辑器,本地群组政策编辑器,以及高端系统设置等。
微软AI语音服务推出虚拟人形象 实现文本转高清人物说话视频 近日,微软公司宣布其Azure AI语音服务新增了一项创新功能——Text to Speech Avatar,该功能为开发者提供了将文本转换为自然语音视频的能力,该功能突破性地将文本直接转换为具有人类自然声音的说话视频。这一技术利用了Azure AI的文本转语音引擎,使得虚拟人物在视频中呈现出逼真的说话效果,并且该服务的输出视频质量高达1920 x 1080分辨率,每秒25帧,确保了视频的流畅性和清晰度。微软AI语音服务推出虚拟人形象 实现文本转高清人物说话视频 为了满足不同场景的需求,微软提供了多种预设的虚拟形象。这些形象可以根据用户喜好进行选择,进一步提升视频的个性化程度,开发者可通过批量合成API,实现文本到语音虚拟形象视频的异步或实时合成。这一功能大大提高了内容生产的效率。 Speech Studio内置的内容创建工具,让用户无需编写代码即可轻松制作视频内容,降低了技术门槛,而借助Speech Studio的实时聊天头像工具,用户可以与虚拟形象进行实时对话,为在线交流带来全新体验。 该服务按视频长度收费,价格合理。目前,Text to Speech Avatar功能已在东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部地区上线,目前来看这项技术的应用前景广阔,有望在客户服务、在线教育、市场营销等多个领域发挥重要作用。
谷歌面临集体诉讼:Chrome 浏览器涉嫌未经用户同意收集数据 最近,谷歌又陷入了一场法律纠纷,面临着一项针对其 Chrome 浏览器的数据收集行为的集体诉讼。这起诉讼最早是在2020年提出的,指控谷歌在用户未同意的情况下,通过 Chrome 收集了大量的用户数据。就在不久前,联邦诉法院推翻了2022年12月的裁决,决定此案应当重新审理。根据案件的原告所称,谷歌 Chrome 浏览器会在用户使用时,无论他们是否启用了 “” 功能,都会收集用户的浏览历史、IP 地址以及独特的浏览器标识符等信息。这一 “同步” 功能旨在帮助用户在不同设备之间轻松访问书、密码和打开的标签页等信息。然而,原告表示,谷歌在这一过程中未能获得用户的明确许可。 最初法官 Yvonne Gonzalez Rogers 在审理此案时认为,谷歌已经通过隐私政策向用户做出了充分的披露,因此用户实际上是同意了这些数据的收集。然而,最近的上诉法院判决指出,Gonzalez Rogers 法官没有考虑到用户真正理解这些协议。上诉法官 Milan D. Smith Jr. 表示,谷歌在宣传 Chrome 时暗示,只有在用户开启同步功能时,某些信息才会被发送给谷歌。 这起案件将返回到下级法院进行重新审理。谷歌对此判决表示不满,并坚称自己在事实方面有足够的依据。谷歌的发言人 José Castañeda 在声明中表示,Chrome 同步功能确实能帮助用户在不同设备上无缝,并且拥有清晰的隐私控制选项。尽管谷歌计划不再要求用户启用同步功能以访问保存的信息,但 Castañeda 强调,这项新措施与诉讼无关。
你想知道的AI收费套路,我都给你测了 OpenAI发布的Sora模型后,掀起了AI视频的热潮,一段60秒的视频让全世界的热钱都聚集在了这个领域上。其实,在此之前,早有国内玩家在这个赛道卷了又卷。 初创公司生数科技联合清华大学从2022年就开始研发相关模型,在Sora发布一个月后就成功发布Vidu视频大模型。 修图界的“顶流”美图秀秀也早早押宝AI,在23年的12月就推出了有AI视频功能的WHEE应用。 现在,距离Sora发布过去6个月,国产玩家们在AI视频的牌桌已经陆续落座,一场酣战初见端倪。 玩家落座 在座的玩家大致可以分为两派——新生派和大厂派。 新生派以生数科技的Vidu为代表,还有智谱AI、爱诗科技等,这些AI初创公司成立时间短,但却展现了惊人的吸金能力。每一位都是融资亿元俱乐部的成员,其中智谱AI更是一举融资25亿人民币,“钱途”一片光明。 另一边,不需要考虑融资的大厂派则更快地在App Store中开启战场。阿里巴巴的通义千问、前段时间爆火的快手可灵还有字节跳动的即梦……陆续上线移动端,紧锣密鼓地拉新、优化。通义千问用“科目三”打响了这个赛场的第一枪。 今年1月,通义千问App上线免费功能“全民舞王”。用户按要求上传照片后就能够生成一个跳科目三舞蹈的视频。6月,快手发布的可灵因其优异的视频质量,引起了全世界网友的围观。 国产AI视频也由此进入「大爆发期」。加速奔跑的玩家们也很快迎来了发展的问题——“赔本赚吆喝”。围观的用户很多,产品的商业化路径却不明晰。 于是各位玩家选择在定价策略上发力。 统计了几位主流AI视频玩家的定价策略,发现了许多有趣的现象。Freemium是AI视频常见的定价模式,其中包含了「免费试用」和「订阅制」两种类型。具体操作是用免费服务吸引用户,然后通过订阅增值服务,将部分普通用户转化为收费用户,实现商业化变现。 但AI视频应用比较特殊的是,多了一个「积分」的板块。每次生成视频都会消耗一定数量的积分。 积分的设置给AI视频应用的拉新预留了空间。在不少应用中,普通用户都可以通过每日登陆或者签到等方式获得积分。当然,这些积分的数量只够“尝鲜”,想要生成更多AI视频,就需要付费。 发现,按照各个应用主推的付费套餐,生成一个最低规格的视频需要花费0.24~0.71元不止。月度会员在50~80元之间,而年度会员则是600元上下。 但有一位比较特殊——通义千问。 现在通义千问“全民舞台”功能中的所有都是免费的。但是自从“科目三”爆火之后,通义千问似乎只停留于模版内容,只做固定的内容模板让用户们体验。而隔壁的可灵已经用AI生成视频的不确定性玩出了的社媒热搜话题(详情看见文章《AI修复老照片已经过时了,现在流行人类cos AI》)。 可以说,订阅制设立了门槛,积分制设立了阶梯。这样的定位模式其实是围绕两个维度——使用量和增值功能。 使用量就是记录生成视频的个数,生成的越多,积分消耗得就越多,付费就越贵。 增值功能则是体现在订阅会员后才能使用的功能。比如去水印,延长原视频、画质增强、版权保护等。例如在快手的可灵中,普通用户只能生成“高性能”视频,画面质量更佳的“高表现”视频只开放给付费用户。 据的统计,每家增值功能的内容都会根据各自产品的特性有一些不同。 氪金游戏开始 视频的长度、生成的速度、免费积分的额度、增值功能的内容……不同于大模型领域直白的价格战火拼,国产Sora们反而是在定价的细则上费尽了心思。 这定价难题的背后其实还是成本问题。 AI视频的成本有三个因素决定:数据、算法、算力。 首先,投入的数据太贵了。 一向注重版权的Adobe,在训练模型的前期曾计划向摄影师、艺术家购买视频,并且根据视频长度付费,每分钟支付费用为2.60美元至7.25美元之间(折合人民币20~50元/分钟)。 训练出一个AI大语言模型需要亿级数量的参数,而训练视频模型所需要的数据量只多不少。 OpenAI首席技术官米拉·穆拉蒂在接受采访时表达,训练Sora时,他们使用了“公开可用的数据”。不少AI行业专家认为,OpenAI采集了包含YouTube在内的多个社交媒体平台的数据,才训练出Sora的。 可灵的诞生也是基于快手这个数亿用户的视频平台,视频数量可想而知。 可灵生成视频的截图 另一方面,运营AI视频应用所需要的算力成本也十分巨大。 建一座桥需要几个亿,但这个费用是平摊在每一位使用者身上的,用得越多越划算——因为建造成本会分摊得越来越薄。 但AI视频却无法用边际效应来计算。每一个用户都需要算力,用户用得越多,算力需求就越大。 在可灵刚刚发布时,曾尝试「图生视频」的功能。系统显示生成视频的所需时长为几分钟,然而实际情况是花费了一个下午的时间。这是因为在可灵爆火后,一下子涌进了百万用户,算力吃紧,才出现了这样的情况。 在数据成本和算力成本的双重压力下,AI视频的玩家们无法像大模型玩家们一样,“豪爽”地直接降价。 如果贸然用降价的方式来“跑马圈地”,AI视频玩家们极有可能面临资金被算力成本耗光,同时用户体验也不好,可谓两头不讨好。所以大多数AI视频玩家们总是谨慎再谨慎,选择在增值功能中下功夫。 Freemium模式之外,也有玩家选择更加直接的方法。 去年,国内 AIGC领域第一个真正意义上破圈的现象级产品妙鸭相机,就选择了商业化前置的道路——先支付9.9元再使用产品。 妙鸭产品负责人张月光在接受媒体采访时表达:“在 AIGC 时代,如果你不能在第一天就向用户收费,那么你永远都不可能收到用户的钱。” 但一年的时间过去,流量骤减的妙鸭相机也面临着“一波流”的质疑。 谁先跑通商业化? 同样的定价难题在海外市场也无法避免。 一篇关于AI应用定价策略的报告中提到,只有26%的AI公司都采用了Freemium的混合模式,绝大多数(71%)仍采用传统的SaaS订阅定价模式。报告部分截图 报告中还提到,许多AI应用目前所提供的价值很可能超过了它们收取的价格。 像初创公司Runway,作为AI视频领域的佼佼者,其估值高达40亿美元。但据硅谷媒体报道,截止去年年底Runway年度经常性收入仅在2500万美元左右。 在其用户页面发现,Runway同样采用了Freemium的定价模式。 普通用户和会员每月分别有625积分和2250积分。使用最新模型Gen-3 Alpha Turbo生成一个5秒的视频需要消耗25积分。 Runway订阅套餐页面 另一位声量颇高的Luma AI与Runway“殊途同归”。没有设置积分,Luma AI直接根据生成视频的数量定价。如果订阅最便宜的Lite版,每个月可以比普通用户多生成40条视频。 当然,在商业化路径方面,最有创意的还属国内的玩家们。 智谱清影推出的是“加速”模式。普通用户使用清影是无限次免费的,如果要想缩减排队等待生成的时间,可以购买加速券,5元加速一整天。 智谱清影付费界面 最有创意的定价模式莫过于月之暗面的Kimi大模型。 从今年三月开始,Kimi一直稳坐国内AI产品Top5,还一度火到宕机。为了平衡用户体验和算力需求,Kimi推出了打赏功能。用户可以通过支付5.20~399元不等的礼物,获得不同时长的「高峰期优先使用」功能。你想知道的AI收费套路,我都给你测了 Kimi打赏模式之一 不难看出,国内AI产品都对商业化模式的探索,持开放的态度。相比较大模型领域的价格战火拼,AI视频领域总体更有创意,更为灵活和随机的打赏模式或许也能独成一派。 不过,可以肯定的是,AI视频的战争才刚刚开始,AI释放出来的磅礴势能正如移动互联网之初的巨大市场增量,业态将会越来越繁荣。 参考资料: 《How AI apps make money》Growth Unhinged
什么是AI?哪些岗位可能会被AI替代? AI是英文Artificial Intelligence的简称,翻译成中文即:人工智能。 人工智能是一种工具,本质是帮助我们更有效率的解决问题。 在人工智能之前,我们通过机器解决问题,靠的是传统的软件。 软件是怎么解决问题? 程序员预设了一些规则,当用户输入的信息命中某条规则时,就执行某个任务。什么是AI?哪些岗位可能会被AI替代? 这种模式的天花板很低,机器不会自主思考,可以说是很木讷的,只会计算,根据你的规则,执行对应的任务。 而人工智能与传统软件最大的区别是,它可以自主学习。 例如,你可以提前对它训练,告诉它: 图片1是猫 图片2是猫 图片3是猫 …… 当机器学习得多了以后,你再给它输入一张猫的图片(不是上面的任何一张) 它就能识别出来,这张图片里的动物是猫。 是不是跟人类学习是一样的。 你拿很多张图片,告诉一个小孩,这是一直猫,这是一条狗,久而久之,他再看到长得类似的动物时,他就知道是猫。 那他是如何知道这是猫的呢。 因为猫有一些特征啊,比如 体型比较小,身长0.3-0.5米,眼睛是圆的,四肢较短,脖子粗,全身有毛等。 根据这些特点,就能识别出这是一直猫。 机器也是这样的,它提前进行训练。 这些训练机器的材料: “图片1是猫 图片2是猫 图片3是猫” 就是训练集。 从这些图片里面能提炼出的特点,就是特征。 根据训练的材料,构建机器的识别能力,就是建模。 最终,把机器训练成具备可以识别猫的能力,就是模型。 这就是人能智能的实现原理。 AI的发展历程 AI发展经历了三个阶段 第一个阶段是非智能对话机器人,就像前文说到的,程序员写一段规则,命中规则,只要命中规则,就回复对应的内容,就是一个简单的关键词回复。 第二个阶段是语音识别,随着NLP技术的发展,系统可以将语音转为文字,然后根据根据文字识别用户的情绪和意图,再做出对应的回答。 第三个阶段是深度学习+大数据阶段,这个阶段最大的特点,是机器具备了自主学习的,机器不仅仅能计算,还能学习并推理。随着大数据和算力的提升,我们可以喂给机器的训练材料越来越多,他的能力就越来越强。 AI可能会对我们产生哪些影响? 当机器越来越像人,具备了人类的自主学习和推理的能力。 那么,我们人类的很多工作,是不是可能会被替换掉? 就像汽车出来的时候,人力马车夫被替换掉 就像手表出来的时候,打更的被替换掉了 就像ETC出来的时候,高速收费员被替换掉 …… 每一项新的技术出现的时候,都有很多工种会被替换掉。 AI出来以后,具有这些特点的工作,被替换掉的可能性最大: 1、决策需要的信息量小 2、决策的过程简单 3、不需要其他协助可以独立完成的 4、重复性强的 符合这些特点的如:电销、客服、质检、审核等。 如果不想被影响,当然是要拥抱ai,利用ai,做那些不容易被替代的工作。 比如:有创造力的,需要具备同理心、洞察力、需要具备一定审美的…… --- 本帖转自 原创不易,如果你觉得刀哥的文章对你有帮助,别忘了给刀哥点个赞和在看,非常感谢! 新知号:刀哥说
OpenAI新技术:随心所欲,百分之百输出精准JSON 你是否曾经想象过,一段代码能够准确无误地理解和生成你所需的数据结构?这不再是科幻小说中的情节。OpenAI最新推出的结构化输出功能,正是向这一梦想迈进的一大步。 这项技术使用了一种轻量级的数据交换格式——JSON,它使得数据既易于人类阅读和编写,也便于机器解析和生成。OpenAI的最新模型gpt-4o-2024-08-06在实现这一功能方面取得了突破,它能够根据开发者设定的JSON模式,生成百分百准确的输出结果。OpenAI新技术:随心所欲,百分之百输出精准JSON 那么,这项技术是如何工作的呢?在开发者提供一个明确的JSON模式后,模型通过所谓的“函数调用”或“response_format”,在回应请求时直接生成结构化的输出。这不仅提高了处理效率,还极大减少了所谓的“幻觉”现象——即模型输出与实际需求不符的情况。OpenAI新技术:随心所欲,百分之百输出精准JSON 此外,gpt-4o-2024-08-06使用了一种先进的受限解码技术,这意味着在生成输出时,模型会动态地选择符合JSON模式的有效标记,从而确保输出的准确性和可靠性。例如,在开始生成数据时,模型会从符号{、"等开始,而不是随机选择无效的标记,这样就能有效防止生成错误的数据结构。OpenAI新技术:随心所欲,百分之百输出精准JSON 但技术总是有其局限性。尽管结构化输出功能大大提高了输出的精确度和效率,开发者在使用时还需注意,这种方法可能不适用于所有的数据生成需求。例如,对于高度个性化或非常规的数据请求,这种严格的结构化方法可能就显得力不从心。OpenAI新技术:随心所欲,百分之百输出精准JSON 尽管有这些限制,结构化输出功能无疑提供了一种更为高效和经济的数据处理方式。对于开发者而言,这意味着更低的成本和更高的生产效率:使用最新的模型,每百万输入令牌的成本约为2.50美元,输出成本则为每百万令牌10.00美元。 随着这项技术的不断完善和应用,我们有理由相信,未来的AI将在处理复杂数据结构时更加智能和高效。而对于我们每个人来说,这不仅是对科技进步的期待,也是对未来无限可能的探索。 --- (一览AI原创)
OpenAI悄悄发布GPT-4o更新 OpenAI悄悄发布GPT-4o更新 OpenAI上周悄悄发布多模态模型GPT-4o的更新版,宣称提升开发速度、性能更高、价格更便宜。 有别于5月的盛大公布,名为GPT-4o-2024-08-06的GPT-4o最新版本是被媒体发现,以及在非官方渠道如Azure上公布。 OpenAI说明,GPT-4o-2024-08-06更新重点之一在简化GPT-4o及GPT-4o mini模型的结构化输出(structured output)的过程,允许开发人员指明希望从AI模型直接输出的格式,产生的数据可无缝合到其他系统,这对过去得花时间验证和格式化AI输出的开发人员特别有用,有助于提升生产力。此外,OpenAI也宣称改善了模型回应速度。媒体测试过后,发现除了前端表现提升,后端基础架构可能也经过强化,支持更长的输出,并提升了系整理体响应性能。媒体相信,这是在Anthropic等创业公司竞争下,OpenAI不得不提升ChatGPT的品质。 OpenAI同时下调了更新版GPT-4o的API访问价格。每100万输入、输出token为2.5美元与10美元。由Batch API访问时,同样输入/输出单位价格为1.25美元和5美元,都比GPT-4o低25%到50%。OpenAI悄悄发布GPT-4o更新 新版模型似乎也某程度部署到免费版ChatGPT上。但是不确定性能是否和付费版一样好;虽然有人认为其程序撰写及创作能力更佳,但也有多名用户抱怨GPT-4o理解问题能力不足,回答也错误百出。 OpenAI选择低调公布这次更新,原因可能和近日高层人事大地震有关。继5月间共同创办人之一的Ilya Sutskever及AI伦理主持人Jan Leike离去后,本周另一名共同创办人John Schulman跳槽竞争对手Anthropic,而曾和首席执行官Sam Altman共进退的首席技术官Greg Brockman也请休长假,可能是离职前兆。
大型科技公司称人工智能蓬勃发展,华尔街开始看到泡沫。 旧金山——越来越多的华尔街分析师和科技投资者开始发出警告:大型科技公司、股票市场投资者和风险投资公司向人工智能投入的巨额资金可能正在催生一个金融泡沫。在周二的谷歌季度电话会议上,分析师们向首席执行官桑达尔·皮查伊提出了一连串问题,询问该公司每季度 120 亿美元的人工智能投资何时才能开始产生回报。过去几周,包括高盛和巴克莱在内的大型华尔街投资银行,以及红杉资本等风险投资公司,都发布了报告,对人工智能淘金热的持续性表示担忧,称该技术可能无法赚到足够的钱来证明其数十亿美元的投资是合理的。包括谷歌、微软和英伟达在内的人工智能巨头的股价今年都大幅上涨。 “尽管价格昂贵,但这项技术远未达到实用所需的水平,”高盛最资深的股票分析师、拥有 30 年科技公司研究经验的吉姆·科维洛在最近一份关于人工智能的报告中表示。“过度建设世界上没有用途或尚未准备好的东西,通常都没有好下场。” 科维洛的评论与高盛一年多前发布的另一份报告形成了鲜明对比。在之前的报告中,该行的一些经济学家表示,人工智能可以在未来 10 年内自动完成全球 3 亿个工作岗位,并将全球经济产出提高 7%,这引发了大量关于人工智能颠覆性潜力的新闻报道。 巴克莱银行表示,华尔街分析师预计,到 2026 年,大型科技公司每年将在开发人工智能模型上花费约 600 亿美元,但届时人工智能每年只能为其带来约 200 亿美元的收入。巴克莱分析师在最近的一份报告中写道,这种规模的投资足以支持 1.2 万个与 OpenAI 的 ChatGPT 规模相当的产品。 OpenAI 于 2022 年 11 月发布了 ChatGPT,引发了硅谷构建新的人工智能产品并让人们使用它们的竞赛。大型科技公司正在斥资数百亿美元开发这项技术。散户投资者推高了这些公司及其供应商的股价,尤其是英伟达,该公司生产用于训练人工智能模型的计算机芯片。今年迄今,谷歌母公司 Alphabet 的股价上涨了 25%,微软上涨了 15%,英伟达的股价上涨了 140%。 风险投资家还向数千家 AI 初创公司投入了数十亿美元。风险投资数据公司 PitchBook 的数据显示,人工智能的繁荣促成了风险投资者在 2024 年第二季度向美国初创公司投入 556 亿美元,创下了两年来单季度最高纪录。 科技公司高管坚称,人工智能将像互联网或手机一样,改变现代生活的方方面面。人工智能技术确实取得了巨大进步,已经被用于翻译文档、撰写电子邮件和帮助程序员编写代码。但一些去年还在宣扬人工智能热潮的公司,现在越来越担心科技行业能否在短期内——或永远——收回其在人工智能领域投资的数十亿美元。 巴克莱银行的分析师写道:“我们预计会出现很多新服务……但可能不会有 1.2 万种。我们感觉到华尔街越来越持怀疑态度。” 今年 4 月,Meta、谷歌和英伟达都在季度财报电话会议上向投资者表示,他们将全力投入人工智能,加大在建设数据中心方面的支出,以训练和运行人工智能算法。谷歌周二重申,它将在其人工智能建设上每季度花费超过 120 亿美元。微软和 Meta 将于下周公布各自的收益报告,届时可能会进一步透露他们的人工智能路线图。 皮查伊周二表示,人工智能产品走向成熟和更加实用还需要时间。他承认人工智能的成本很高,但表示即使人工智能热潮降温,公司购买的数据中心和计算机芯片也可以用于其他用途。 皮查伊说:“对我们来说,投资不足的风险远远大于过度投资的风险。不在这个领域处于领先地位,其负面影响要大得多。” 微软发言人拒绝置评。Meta 发言人没有回应置评请求。 不切实际的期望 维诺德·科斯拉 (Vinod Khosla) 是计算机网络系统公司太阳微系统公司 (Sun Microsystems) 的联合创始人,也是硅谷最具影响力的风险投资家之一,他将人工智能与个人电脑、互联网和移动电话进行了比较,以说明人工智能对社会的影响程度。 “这些都是全新的平台。在这些平台中,每一个新平台都会引起应用程序的爆炸式增长,”科斯拉说。他表示,涌入人工智能可能会导致金融泡沫,让投资者亏损,但这并不意味着基础技术不会继续发展并变得更加重要。 “高盛认为,互联网泡沫的出现是因为价格上涨又下跌。但我认为,互联网流量根本没有下降。” 他说,随着人工智能改变人们的工作、经营和互动方式,许多初创公司将会倒闭。但总体而言,该行业将从人工智能中获利。他预测,最终人工智能领域将出现多家市值数万亿美元的企业,例如人形机器人、人工智能助手以及可以完全复制高薪软件工程师工作的程序。 但到目前为止,人工智能还没有为风险投资回报率的增长做出贡献。根据 PitchBook 的数据,第二季度风险投资退出(指科技初创公司的首次公开募股或收购)的资金规模降至 236 亿美元,略低于上一季度的 254 亿美元。 红杉资本风险投资公司合伙人 David Cahn 在上个月的一篇博客文章中写道,科技行业每年需要创造约 6000 亿美元的收入,才能弥补目前对人工智能的所有投资,但这与现实相去甚远。 “投机狂潮是科技的一部分,所以它们并不是什么可怕的东西,”Cahn 说。“但我们需要确保不要相信现在已经从硅谷蔓延到美国其他地区乃至全世界的错觉。这种错觉认为,我们都会很快致富。” 微软和谷歌的收入正在增长,尤其是在其云业务领域,它们在该领域销售人工智能算法的使用权以及使用这些算法所需的存储空间。这两家公司的高管表示,人工智能正在推动人们对其产品的新兴趣,并将成为未来的主要盈利点。但一些分析师指出,除了 OpenAI 的 ChatGPT 和微软的编码助手 GitHub Copilot 之外,几乎没有其他非常成功的独立产品。 巴克莱分析师在其报告中写道:“鉴于 ChatGPT 和 GitHub Copilot 是迄今为止 20 个月来在消费者和企业领域取得的两项突破性成功,华尔街正变得越来越怀疑。” 人工智能和数据管理公司 Egnyte 的首席执行官 Vineet Jain 表示,随着其他公司与英伟达展开竞争以及该技术的效率越来越高,开发和运行人工智能程序的成本将会下降。目前,提供人工智能产品的成本过于昂贵,他预计今年不会从人工智能方面获得任何具体收入。但 Jain 表示,随着成本下降和需求持续上升,这种情况将会改变。 “价值主张绝对存在,但现在的期望仍然不切实际,”他指的是向消费者和企业销售人工智能产品的狂热。 一些初创公司已经从人工智能热潮初期的巅峰状态回落。Inflection AI 是一家由谷歌旗下著名 DeepMind 人工智能实验室资深人士创立的初创公司,去年筹集了 13 亿美元用于拓展其聊天机器人业务。但在今年 3 月,该公司的创始人离职前往微软任职,并带走了一些顶尖员工。其他人工智能公司,例如最早构建出广受欢迎的人工智能图像生成器之一的 Stability AI,也不得不裁员。该行业还面临着诉讼和监管方面的挑战。 Jain 表示,像谷歌和微软这样的大公司将能够继续投入资金,直到对人工智能产品的需求增加,但那些获得了大量风险投资的小型初创公司可能无法在转型中生存下来。 “这就像一个不断膨胀的舒芙蕾,它必须得缩水一些。”
首页 1 2 3 4 5 6 下一页