LearnerForever
LearnerForever
永远是你们的小吧,也希望吧友们开心快乐每一天。
关注数: 1,483
粉丝数: 2,228
发帖数: 25,741
关注贴吧数: 58
AI助理ChatGPT实现实时语音交互,模拟人类信息交互的真实场景 随着时代的发展,人与人之间的交流已经远远超越了简单的语言沟通。现如今,我们每个人都可能成为人工智能时代的受益者。设想一下,当你在处理日常事务、解决工作难题、甚至是娱乐放松时,有一位始终在线的“AI助理”来帮你一臂之力。这样的场景,不再是科幻小说中的桥段,而是正在逐步成为现实。 最近的技术更新显示,我们距离这一天的距离越来越近了。OpenAI的ChatGPT在最新的升级中展示了它在模拟人类日常交互方面的巨大潜力。想象一下,你在用电脑做数学题,碰到不会做的题目,只需对ChatGPT说出你的问题,它就能实时地指导你解题,具体到每个步骤。或许你正在翻阅纸质书本,遇到难题,通过摄像头,ChatGPT能“看见”并解答这一切。每一次升级,都在将人工智能更紧密地融入我们的日常生活中。类似于这类更新,在技术界不可谓不频繁,但每一次的进步都给我们日常互动带来实质性的变化。像是最近Meta推出的第二代人工智能眼镜,其通过摄像头传感器实现了多种实时交互功能,包括翻译等,展现出这一技术的广泛应用前景。如果大模型可以实时“看到”和“理解”我们的需求,它们可以成为全方面的生活助手,简化我们的决策过程,甚至在情感层面上为我们提供支持。 我们对于人工智能的想象从来没有止步,科技大公司们更是将这一竞争推向了新的高潮。诸如微软、谷歌、亚马逊等巨头正在积极地将自家的大模型融入操作系统和产品中,争夺成为用户AI助理的入口。就像现在的ChatGPT,通过层层升级,与人类的互动已不再拘泥于单一的文本方式,而是打破界限,发展成一个拥有听、说、甚至"情感理解"能力的助手。从生产力工具到日常生活小帮手的演变,看似是一个小跨越,但实际上标志着我们生活方式的巨大变革。未来,人工智能可能成为一个全新的信息入口,影响着我们获取、处理信息的方式。这一切,都源于像ChatGPT这样的大模型的跨越式进步。 结合这些动态来看,我们或许可以预见一个边界逐渐模糊的未来,人类与人工智能之间的交流将更加无缝,技术的进步将赋予我们更多的便利。如今,ChatGPT的升级给我们提供了一个窥探未来的小窗口,让我们有理由相信,在不远的将来,智能助理将成为普通人生活不可缺少的一部分。而我们,也将在这波科技革新的浪潮中,享受到前所未有的便捷与智慧。 --- (一览AI原创)
Anthropic AI现在可以让你创建机器人为你工作了 Anthropic 正在为其人工智能聊天机器人 Claude 发布一项新功能,让任何人都能创建电子邮件助手、购买鞋子的机器人或其他个性化解决方案。这项功能被称为"工具使用"(或更拗口的"函数调用"),它可以连接你选择的任何外部 API。例如,该工具可以分析数据,根据用户的购买历史创建个性化的产品推荐,或快速回复客户的询问,如跟踪订单状态或提供实时技术支持。要建立一个助手,只需要访问应用程序接口(API)和一个懂代码的人。 此外,该工具还能处理图像,使分析视觉数据的应用成为可能。Anthropic 举例说,虚拟室内设计顾问可以使用这一工具处理房间图像,并提供个性化的装饰建议。 这款人工智能助手将通过 Anthropic 的 Messages API、亚马逊 Bedrock 和Google Vertex AI 提供。价格是根据克劳德处理的文字量计算的,以"词元"为单位。通常情况下,1000 个词元相当于约 750 个单词。在测试阶段,大多数用户都选择了 Anthropic 最快、最实惠的方案 Haiku,其价格为每百万输入词元约 25 美分,每百万输出词元约 1.25 美元。 据 Anthropic 的项目负责人 Dianne Penn 介绍,该团队自 4 月份以来一直在对 Claude 工具进行测试,测试对象包括数千名客户。她预计会有一些很酷的初创公司解决方案:其中一个受关注的客户是Study Fetch,该公司用它建立了一个名为Spark.E的个性化人工智能导师。 人工智能助理或代理(或者随便你怎么称呼它们)似乎是这项技术的发展方向。在Google I/O 大会上,这家搜索巨头推出了各种方法,让Google利用人工智能为你购物和搜索。在 OpenAI 大会上,该公司正在开发一款类似于 Her的语音助手,它可以实时响应并观察你周围的世界(在一个演示中,它甚至会建议你在重要的求职面试前换件衣服)。 Anthropic 发布的这款新工具允许人们创建各种助手来满足自己的需求,无论是否使用Google和 OpenAI。 了解更多: http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fdocs.anthropic.com%2Fen%2Fdocs%2Ftool-use&urlrefer=d5032ff91133428890cacb8c1d722d5e
对违规昵称和签名的处理措施 目前chatgpt吧内发现大量吧友利用昵称和签名散布个人信息并引导吧友添加联系方式的扰严重违反吧规的行为。 为了规范管理落实吧规,引导吧友们在贴吧内交流监督保护吧友权益的原则,现对chatgpt吧吧友的昵称和签名内容有明确的规定:包含任何微信和QQ的信息的或在昵称中存在明显引导吧友添加好友的内容的,请在看到此信息后尽快修改贴吧昵称或签名,移除违规信息。 请在6月6日前完成修改,对于逾期未修改的,将视为严重违规,将予以封禁+90或拉黑的处理。 请吧友们确保在贴吧内交流的前提,任何引流到平台外的信息将无法收平台监督,为避免导致吧友的权益受损,或受到威胁和侮辱而影响交流体验,禁止以任何形式传播和引导吧友添加好友和加入群(包括但不局限于微信,QQ,各种群号) 我们希望通过这些措施,为吧友们创造一个安全与尊重的交流环境,保障吧友有良好的交流体验。
微软一口气发布50多项更新!奥特曼登场剧透GPT-5. 经过了 OpenAI 和谷歌 AI 轰炸,微软也开始搞大事了! 在昨晚,微软一年一度的开发者大会如期而至。在 CEO 纳德拉的带领下,整场发布会上拿出了接近 50 个新产品或功能更新,从 GPT-4o 上云、全新的日常生活助手 Copilot,以及为全世界开发者提供的 AI 工具等等。 可以说这场开发者大会只有一个主题,那就是 AI。 在发布会一开场,纳德拉先提到微软几十年来有两大梦想:一是能不能让电脑理解人类,而不是让人类被迫理解电脑;二是在信息日益增加的世界,电脑能不能帮助人类推理、规划以及更有效地运用所有的信息。 而现在,这波 AI 浪潮已经为微软找到实现这两大梦想的方式。在发布会的最后,微软还邀请了一位重量级人物登场——“ ChatGPT 之父”山姆 · 奥特曼! 开场双方先是互相寒暄,然后一起感慨 AI 发展如此之疯狂,顺便奥特曼还在台上剧透了一下接下来重磅的新模型。总的来说,在这场两个小时的发布会上,处处都有惊喜,而且这次微软有点像是要革传统 AI 助手以及 AI 模型的命。在以前,对于编程小白来说,开发软件是想都不敢想的事,而如今微软告诉你:you can! 在发布会上,微软宣布,全新的 Copilot AI 助手不再是曾经那个被动的对话助理了,这次理解能力有了大幅提升,已经能够在 Github 中以随意语言编写代码。 它可以通过对话的方式将所有流程整合在一起,帮你调用所有工具和平台,而且基于强大的网络搜索和推理决策能力,Copilot 还能回答关于开发过程的问题。也就是说对于新手,即使对编程语言不够了解,也能开发自己的软件。你可以选择语音输入,也可以选择文字输入,语言种类方面也没有任何限制,它能主动转换成你能阅读的文字,并且编程语言上,无论是 JAVA 还是 Phyton,只要你能提出需求,它完全都能搞定。 比如在下面这个 demo 中,用西班牙语描述需求,Copilot 就可以自动编写出代码。 打开 Copilot WorkSpace 后,还可以查看整个代码库,并提出修改建议。Copilot 会自动根据定制进行修改。 更有意思的是,微软还与 Quest 联手,将 Copilot 带进 VR 世界,使用户能够将 Windows 应用程序扩展到 3D 空间,对开发者来说更有趣。 CEO 纳德拉表示:“任何人都可以在瞬间将想法转变为代码,你能够控制这个过程中的每一个环节,这将使得编程更加快乐和有趣,未来预计共有 10 亿人可以用自然语言的方式在 GitHub 上构建代码。同时 GitHub 产品高级副总裁也表示:我们的目标是使 GitHub Copilot 成为最集成、最强大、最智能的 AI 平台! 截止目前,GitHub Copilot 仍处于内测阶段,微软计划在未来几个月里进一步打磨这个功能,使其变得更加实用,之后将在 GitHub 插件市场中发布。不过话说回来了,Copilot 的能力早就不止步于代码补全功能,而是成功进化为“个人助理”,变成打工人的办公神器。 在发布会上,微软正式推出“ Team Copilot",AI 将不再是一个工具栏上的按钮,而是打工人们可靠的新同事。从展示的功能来看,Copilot 它已经完全能承担单独的职责,比如可以作为会议的主持人,管理议程并实时纪录会议纪要,以及追踪并安排团队成员会议后的行动。 Copilot 甚至还能成为项目经理,通过创建和分配任务、跟踪截止日期等方式推动团队协作。 对于聊天界面中团队成员们的讨论进展,Copilot 还能实时更新自己的记录内容,如果在讨论中遇到问题也可以直接向 Copilot 提问。 如果 Copilot 仅仅进化到团队助手,你可能还是小看了微软。在另一项产品更新中,微软还表示将在今年晚些时候推出一款“ AI 代理”工具——类似于“ AI 虚拟员工”,可以执行监控电子邮件、帮助新员工入职、输入数据等一系列琐碎的自动化任务。 就算 Copilot 在遇到无法处理的问题,它还能自动向你寻求帮助并不断主动学习,未来 hr 说不定能省一半的活 ... 不过微软还特地强调了一下,Copilot 不会完全接管人们的工作,只会接手其中一些无聊又机械的部分。在发布会上,微软还公布将与 OpenAI 展开深度合作,并且重磅宣布了 GPT-4o 即日起在 Azure AI 上普遍可用。这意味着现在任何应用程序、网站都可以变成一个多模态、全双工的会话界面。 一张图,先告诉大家 GPT-4o 依旧是最强的模型。通过使用先进的 AI 加速器,如 Nvidia、AMD 和 Azure Maya,微软可以为各种 AI 应用提供高性能和低成本的解决方案。例如,经过训练后的 GPT-4o 生成成本暴降 12 倍,响应速度反倒提高到原来的 6 倍。 在具体体验上,Copilot 除了可以实时指导我们怎么玩游戏,只要将 Copilot 集成到 XBox 中,可以大幅提升游戏体验。不用谷歌搜索,询问即可通过被卡住的关卡。 而且还能帮你精准购物,如果想露营但找不到合适的鞋,给它看一眼你的鞋,就能让它给你提意见了,而且它还帮你把合适的鞋添加到购物车中。微软不仅在发展大语言模型,还在小语言模型上暗自发力,这次更新了自己的模型 Phi-3,其中 Phi-3-vision 比较有意思,它可以直接在移动设备上使用,并且能对图像进行推理,产生见解并回答图像相关的问题。 从去年 6 月 Phi-1 面世,到 Phi-1.5、Phi-2,再到如今 Phi-3,微软小模型已经完成四次升级。现在这些模型已经在 Hugging Face 上发布,开发者们可以下载权重并使用。最后来咱们再来说说产品的事,在前日晚上发布一系列新笔记本电脑后,昨天一款搭载高通骁龙 X Elite 芯片的迷你主机也面向开发者推出。 这款迷你主机在外观上与苹果的 Mac Mini 相似,配备了 32GB 的 LPDDR5x 内存和 512GB 的固态硬盘,目前这款迷你主机的售价为 899.99 美元,唯一的途径是在高通的官方网站上填写一份针对开发者的申请表格。在发布会的结尾,OpenAI CEO 萨姆奥特曼(Sam Altman)作为特别嘉宾出席现场,为整个主题演讲完成闭幕。在 9 分钟的讲话中,他谈到了 OpenAI 下一步计划、GPT-4o 以及给开发者的建议。 他首先谈到 GPT-4o 的发布,称这是“疯狂的一周”。他称从从来没见过一项技以如此有意义的方式被迅速地采用。 面对在场的开发者们,奥特曼表示,行业已经有一段时间没有经历过平台变革了,但现在正在经历这样的时期,这可能是自手机问世以来,甚至自互联网问世以来,我们所见过的最激动人心的时刻,他建议开发者要好好利用,使用人工智能并不意味着能摆脱艰苦工作,开发者仍然需要付出巨大努力来创造出优秀的产品。 最后奥特曼还预告,OpenAI 最新大模型即将发布,将史无前例地强大,预计就是 GPT-5 了。当然,微软在这次活动中还藏了不少惊喜,比如 Team Copilot 和其他一大堆 AI 功能,这些都将在接下来的几个月里陆续亮相。 我们可以拭目以待,看看微软接下来会如何用 Copilot 这个新角色,开启一个全新的 AI 时代。 --- 图:由极果提供 本文由极果用户极果媒体原创
2023图灵奖出炉!计算机的“随机性”为何如此重要? 美国计算机协会(ACM)宣布将 2023 年 ACM A.M. 图灵奖授予数学家和顶级理论计算机科学家 Avi Wigderson,以表彰他对计算理论的奠基性贡献,包括重塑我们对随机性在计算中的作用的理解,以及他数十年来对理论计算机科学领域的引领。 2023图灵奖出炉!计算机的“随机性”为何如此重要?© 由 科普中国 提供ACM A.M. 图灵奖由 ACM 于 1966 年设立,专门奖励那些对计算机事业作出重要贡献的个人。图灵奖名称取自计算机科学先驱、英国科学家 Alan M. Turing,这个奖设立目的之一正是为了纪念这位伟大的科学家。图灵奖对获奖者要求极高,评奖程序极严,一般每年只奖励一名计算机科学家,只有极少数年度有两名在同一方向上做出贡献的科学家同时获奖。因此,图灵奖也是计算机界最负盛名、最崇高的一个奖项,有 “计算机界的诺贝尔奖” 之称。 什么是理论计算机科学? 理论计算机科学关注该领域的数学基础。它提出的问题包括:“这个问题是否可以通过计算解决?”或“如果这个问题可以通过计算解决,那么需要多少时间和其他资源?” 理论计算机科学还探索高效算法的设计。 与我们生活息息相关的每一项计算技术都是通过算法实现的。了解强大高效算法的原理,不仅能加深我们对计算机科学的理解,还能加深我们对自然规律的理解。从密码学和计算生物学到网络设计、机器学习和量子计算,理论计算机科学的研究突破几乎推动了该学科各个领域的进步。 为什么随机性很重要? 从根本上说,计算机是确定性系统;应用于任何给定输入的算法指令集唯一地决定了其计算,尤其是其输出。换句话说,确定性算法遵循的是一种可预测的模式。相比之下,随机性则缺乏明确的模式,或者说事件或结果缺乏可预测性。由于我们生活的世界中充满了天气系统、生物和量子现象等随机事件,计算机科学家丰富了算法,允许它们在计算过程中做出随机选择,借此提高算法的效率。事实上,许多没有已知高效确定性算法的问题,已经通过概率算法得到了高效解决,尽管存在一些小概率错误(可以有效减少)。 但是,随机性是必不可少的,还是可以去除?概率算法成功所需的随机性质量又如何? 这些问题以及其他许多基本问题是理解计算中随机性和伪随机性的关键。加深对计算中随机性动态的理解,可以帮助我们开发出更好的算法,并加深我们对计算本身性质的理解。 Wigderson 的贡献 Wigderson 在计算复杂性理论、算法与优化、随机性与密码学、并行与分布式计算、组合学、图论以及理论计算机科学与数学和科学之间的联系等领域,一直处于引领地位。 四十年来,Wigderson 一直是计算机科学理论研究领域的引领人物,他在理解随机性和伪随机性在计算中的作用方面做出了奠基性的贡献。 计算机科学家发现了随机性与计算难度之间的显著联系(即确定没有高效算法的自然问题)。Wigderson 与同事合作,撰写了一系列极具影响力的关于用随机性换取难度的著作。他们证明,在标准的、被广泛相信的计算假设下,每一种概率多项式时间算法都可以有效地去随机化(即完全确定)。 换句话说,随机性并不是高效计算的必要条件。这一系列著作彻底改变了我们对随机性在计算中的作用的理解,也改变了我们对随机性的思考方式。这些影响深远的论文包括以下三篇: 1)“Hardness vs. Randomness”(与 Noam Nisan 合著)。 除其他发现外,这篇论文还介绍了一种新型伪随机发生器,并证明了在比以前已知的假设更弱的条件下,随机算法的高效确定性模拟是可能的。 论文链接:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fwww.math.ias.edu%2F~avi%2FPUBLICATIONS%2FMYPAPERS%2FNOAM%2FHARDNESS%2Ffinal.pdf&urlrefer=9c5fac2728fe9ef0d084d752b1fe8e5e 2)“BPP Has Subexponential Time Simulations Unless EXPTIME has Publishable Proofs”(与 László Babai、Lance Fortnow 和 Noam Nisan 合著) 这篇论文利用“hardness amplification”证明,在较弱的假设条件下,有界错误概率多项式时间(BPP)可以在亚指数时间内模拟无限多的输入长度。 论文链接:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fwww.math.ias.edu%2F~avi%2FPUBLICATIONS%2FMYPAPERS%2FNOAM%2FHARDNESS%2Ffinal.pdf&urlrefer=9c5fac2728fe9ef0d084d752b1fe8e5e 3)“P = BPP if E Requires Exponential Circuits: Derandomizing the XOR Lemma”(与 Russell Impagliazzo 合著) 这篇论文介绍了一种更强的伪随机发生器,它在硬度与随机性之间实现了基本最优的权衡。 论文链接:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fdl.acm.org%2Fdoi%2Fpdf%2F10.1145%2F258533.258590&urlrefer=3c2a245807ca7953d046e107ca522eda 重要的是,这三篇论文的影响远远超出了随机性和反随机化领域。这些论文中的观点后来被应用于理论计算机科学的许多领域,并推动了该领域多位领军人物发表具有影响力的论文。 后来,Wigderson 与 Omer Reingold、Salil Vadhan 和 Michael Capalbo 合作,仍然在计算随机性的广泛领域开展工作,在另一篇论文中首次提出了扩展图的高效组合构造,扩展图是一种稀疏图,具有很强的连通性。它们在数学和理论计算机科学领域都有许多重要应用。 论文链接:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fwww.math.ias.edu%2F~avi%2FPUBLICATIONS%2FMYPAPERS%2FCRVW01%2Fcrvw01.pdf&urlrefer=b0c5c308b6808cab203876faddf80cd4 除了在随机性方面的研究之外,Wigderson 还是多验证器交互式证明、密码学和电路复杂性等理论计算机科学内多几个领域的领袖。 受人尊敬的导师 除了开创性的技术贡献,Wigderson 还是公认的受人尊敬的导师和同事,为无数年轻研究人员提供建议。广博的知识和优秀的技术能力,加上友善、热情和慷慨,让他吸引了许多最优秀的年轻人投身于理论计算机科学领域。“必须指出的是,Avi Wigderson 还获得了阿贝尔奖(Abel Prize),该奖项被认为是数学领域终身成就最重要的荣誉,” ACM 主席 Yannis Ioannidis 说道。 “Avi Wigderson 在随机性和其他课题方面的工作在过去三十年里为理论计算机科学制定了方向,” 谷歌高级副总裁 Jeff Dean 解释说,“从计算机科学诞生之初,研究人员就认识到,随机性是为各种应用设计更快算法的一种方法。为更好地理解随机性所做的努力将继续为我们的领域带来重要益处,Wigderson 在这一领域开辟了新天地。” Wigderson 的履历 自 1999 年以来,Wigderson 一直担任普林斯顿高等研究院数学学院赫伯特-H-马斯教授。此前,他曾担任耶路撒冷希伯来大学教授,并在普林斯顿大学、加州大学伯克利分校、IBM 等机构担任客座教授。 Wigderson 毕业于以色列理工学院,并获得普林斯顿大学计算机科学硕士、MSE 和博士学位。他获得的荣誉包括阿贝尔奖、IMU 算盘奖、唐纳德-E-克努特奖、Edsger W. Dijkstra 分布式计算奖和哥德尔奖。他是 ACM Fellow、美国国家科学院和美国艺术与科学院院士。 参考链接:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fawards.acm.org%2Fabout%2F2023-turing&urlrefer=69b403424b4d949a922915cae788bf4b
微软重磅发布Copilot+PC:“主动式AI”或将开启个人电脑新时代 在备受关注的微软Build 2024开发者大会上,微软不负众望,正式推出了重磅新品——Copilot+PC。这款融合了先进人工智能技术的个人电脑,不仅展现了微软在AI领域的深厚实力,也为整个计算行业带来了颠覆性的创新。微软在会上宣布,第一款Copilot+PC,也就是自家最新的Surface系列将在6月18日推出,这款笔记本电脑将搭载高通的Arm架构处理器。 能理解用户意图的“主动式AI” 在华盛顿的新园区内,微软CEO萨提亚·纳德拉亲自登台,为这款划时代的产品揭开了神秘面纱。纳德拉表示:“今天,我们不仅仅是在发布一款新产品,更是在开启一个全新的计算时代。Copilot+PC不仅是Windows系统的最新杰作,更是微软对人工智能与计算融合深度探索的结晶。”他强调:“微软做的不仅是可以理解我们的电脑,更是可以预测我们想要什么的电脑。”这也是目前业内强调颇多的“主动式AI”。微软CEO萨提亚·纳德拉 Copilot+PC的发布是本次大会的焦点。而这款产品最引人注目的亮点在于其强大的AI助手Copilot。Copilot内置了微软最新研发的GPT-4o模型,能够为用户提供实时语音、语言翻译、实时绘画、文本、图片生成等创新功能。它不仅能够理解用户的意图,还能根据用户的使用习惯不断优化自身,提供更个性化的服务。 “Recall”功能令人惊艳 此外,Copilot+PC还具备一项非常令人惊艳的“Recall”功能。这一功能能够像人脑一样记住用户的所有操作,包括浏览的网站、打开的应用、查看的邮件等。用户只需通过自然语言搜索,即可轻松找到之前在电脑上操作过的内容。值得一提的是这个召回功能有一个时间轴,我们可以直接拖动找到自己需要的那个准确时间点,还可以直接删除AI记录的内容,或者给指定应用设置白名单屏蔽Recall功能,所有这一切都是端侧处理,不上云。这一设计不仅保护了用户的隐私,也让用户在使用过程中更加放心。Recall功能的时间轴 最重要的是,Copilot第一次具备了“读屏”能力,它可以真正理解我们屏幕上显示的内容了。比如:当你玩《我的世界》游戏时,Copilot可以教你如何做一把剑。这是因为Copilot可以直接看到你正在玩的游戏里的库存材料。用微软的话来说,Copilot具备上下文感知和视觉感知能力,它能帮你处理你屏幕上正在进行的任何工作。 此外,你还可以让Copilot帮你分析电脑本地的文件、表格、数据,让Copilot帮你总结一份文档,或者画一幅画。 除了强大的AI功能外,Copilot+PC的硬件性能也很出色。它搭载了全新的神经处理单元(NPU),可实现每秒超过40万亿次运算(40+TOPS),为用户提供流畅无比的操作体验。同时,它还配备了高通的桌面处理器骁龙(Snapdragon)X Elite芯片,单次充电即可支持长达22小时的本地视频播放或15小时的网页浏览。 微软此次推出的Copilot+PC,不仅展现了微软在AI技术方面的实力,也为整个计算行业带来了新的启发。而在不久的将来,AI与计算的融合也必将会为我们带来更多前所未有的惊喜。
微软Edge将使用AI实时翻译你观看的YouTube视频内容 划重点: ⭐ 微软 Edge 将推出实时翻译功能,可在观看 YouTube 等视频时进行实时翻译 ⭐ 该功能将支持多种语言和多个视频网站 ⭐ 翻译将在用户设备上完成,不会离开用户设备或在云端处理 微软在其 Build 大会上宣布,微软 Edge 浏览器将很快推出新的功能,允许用户在观看 YouTube 等视频时进行实时翻译。这项新的 AI 功能将支持多种语言,并适用于 YouTube、Reuters、CNBC News、Bloomberg、Money Control、LinkedIn 和 Coursera 等多个网站上的视频。实时翻译功能将在用户设备上完成,不会离开用户设备或在云端处理,以解决隐私问题。目前,该功能支持西班牙语和韩语音频转换成英语,以及英语音频转换成印地语、德语、意大利语、西班牙语和俄语。微软计划在推出功能后添加更多语言支持。 此外,微软 Edge 浏览器已经受益于微软大力推动人工智能技术的影响。该浏览器提供了一个 C o p i l o t 侧边栏,通过该工具可以提问、查找信息和生成内容。实时翻译是微软产品中另一个基于人工智能的功能。微软还宣布即将推出的 Caption 功能将在多个应用和视频平台上显示英文文本,支持40多种语言。 这一功能对于需要观看其他语言视频内容的用户来说将大有裨益,也为跨文化交流提供了便利。
弹出U盘失败,提示“设备正在使用中”?解决的办法来了 不知道大家有没有遇到过这个问题,在电脑上使用完U盘或者移动硬盘后,想要弹出设备时,却发现系统提示下图这样的弹出失败提示?明明我们的移动存储设备上并没有读写任务,但就是不清楚被啥程序给占用了,还不让安全弹出。虽然这种情况下我们直接拔出来风险也不大,但是长此以往,移动设备突然断电,总有软硬件出现故障的风险。 尤其对于移动机械硬盘来说,在盘片旋转时就直接拔下,严重的甚至可能会造成磁头划伤盘片,形成坏道。 为了解决这个安全弹出的问题,今天就为大家分享一个自己摸索出来的解决方案,成功率近乎100%,希望对遇到相同问题的朋友有些帮助。 这里以Win11系统为例,当U盘弹出失败时,我们在任务栏的搜索框中,直接搜索“事件查看器”,然后打开:打开事件查看器后,我们在事件查看器左侧依次点击”自定义视图“→”管理事件“,然后再次尝试安全弹出U盘或者移动硬盘。此时当然还是会弹出失败的,不过我们要的就是让它失败。接着我们按F5刷新,然后在”管理事件“中点击最上边一条的最新警告信息,然后仔细查看描述。从描述中可以看到,是Taskmgr.exe这个进程中止了我们弹出U盘的操作,这里进程后的15736这个数字是该进程的PID标识。 接下来我们按“Crtl+Alt+Delte”的组合键,呼出Windows的任务管理器,并点击图中所示的“详细信息”标签页:剩下的工作就很简单了,我们找到PID为15736的Taskmgr.exe进程,然后右键点击选择“结束任务”:结束这个拦路虎进程后,U盘或者移动硬盘就能正常弹出了。--- 本帖转自小黑盒数码硬件 作者✍️:噩梦飘雷
编写脚本、生成和优化视频广告,TikTok 推出 Symphony AI 套件 TikTok 宣布推出“TikTok Symphony(交响乐)”AI 套件供品牌方使用,该套件将帮助营销人员编写脚本和制作视频。 从 TikTok 官方获悉,61% 的用户在 TikTok 上直接购物或在看到广告后购买,59% 的用户使用 TikTok 决定下载哪个游戏,52% 的用户甚至因为看到的 TikTok 内容而研究汽车。 “TikTok Symphony”套件包含一个名为“Symphony Creative Studio(创意工作室)”的 AI 视频生成器。TikTok 称,该工具只需广告商提供少量信息即可生成适合 TikTok 的视频。这款视频生成器还可根据 TikTok 广告管理器资产(TikTok Ads Manager assets)或产品信息,为品牌方提供现成的视频。▲ Symphony Creative Studio “Symphony Assistant”是一款 AI 助手,帮助广告商生成和优化脚本,并提供建议来提高他们的广告质量。品牌方可以让 AI 助手为他们的新产品发布写几句引人注目的文案,还可以让 AI 助手展示目前在 TikTok 上流行的内容,或者为特定行业推广新产品生成一些创意。 “Symphony Ads Manager Integration(广告管理集成)”可以自动修复和优化现有的视频,该工具可以用于美化广告商已经创建的视频,使其更加醒目。
微软官宣弃用计划,VBScript 脚本语言将退出 Windows 舞台 微软今天发布博文,宣布了弃用 VBScript 脚本的相关进度安排,分为 2024-2027 和 2027~ 两个阶段,最终计划于 2027 年之后让其完全退出 Windows 舞台。微软表示 Windows 11 24H2 更新正式发布之后,会以按需功能(FOD)的方式继续提供 VBScript 脚本支持。Windows 11 24H2 镜像也会预装包括 VBScript 在内的 FOD 功能,并在操作系统中默认开启。微软表示: 这有助于确保迁移 VBScript 依赖关系(应用程序、进程等)时,不会导致用户体验中断情况。 VBScript 退出 Windows 的第二阶段将于 2027 年到来。届时 Windows 版本将不再默认启用该 FOD 功能。附上图片如下:如果开发人员还需要时间更新自己的应用程序,仍然可以在未来的 Windows 版本中启用该 FODs,只是微软并未公布第二阶段具体的截止日期。VBScript 将从未来的 Windows 版本中完全删除。微软表示: 这意味着 VBScript 的所有动态链接库(.dll 文件)都将被删除。因此,依赖 VBScript 的项目将停止运行。届时,我们希望您已改用建议的替代程序。 VBScript 是 Visual Basic Script 的简称,有时也被缩写为 VBS。VBScript 是微软开发的一种脚本语言,可以看作是 VB 语言的简化版,于 1996 年发布。 VBScript 可以被用来自动地完成重复性的 Windows 操作系统任务。在 Windows 操作系统中,VBScript 可以在 Windows Script Host 的范围内运行。但随着 PowerShell 等工具的出现,它逐渐被取代。 --- 本帖转自IT之家
如何用ChatGPT生成客户评价:含提示词 现在,我们借助ChatGPT来帮助我们完成许多事情,比如分析客服反馈,生成让人信服的推荐信。这篇文章里,作者做了一定的分享,一起来看看吧。ChatGPT 是一种人工智能语言模型,是生成客户评价的重要工具。凭借其自然语言处理能力,ChatGPT 可以快速分析客户反馈,生成令人信服的真实推荐信,用于营销材料和网站。无论你需要几条推荐信还是几百条推荐信,ChatGPT 都能简化流程,为你节省时间和精力。 提示: 💡 使用特定的提示来获得最相关、最有价值的推荐信。请 ChatGPT 生成能突出产品或服务的具体优点或功能的推荐信,而不是要求通用的推荐信。 💡 不要害怕尝试不同的提示和输入,以获得最佳效果。ChatGPT 可根据所提供的输入生成不同的回复,因此请尝试不同的变化,看看哪种方式最有效。 💡 编辑和完善生成的推荐,确保它们准确、相关和有说服力。虽然 ChatGPT 可以快速生成推荐信,但你需要确保这些推荐信是经过精心润色的,可以在您的营销材料中使用。 提示词: “Hey ChatGPT, can you create a testimonial for [Product/Service Name] that highlights [specific feature/benefit] and how it [has/will] benefit [target audience], [e.g. small business owners]?” “ChatGPT, can you generate a testimonial from a customer who had [positive experience] while using [Product/Service Name]? Please include [specific detail], and [phrase/quote the customer used], if possible.” “I need a testimonial for [Product/Service Name] from a customer in the [industry/niche] who has [specific pain point]. ChatGPT, can you generate a testimonial that speaks to [how/why] [Product/Service Name] solved [his/her/their] problem and [improved/enhanced/benefited] [his/her/their] [specific outcome]?” “ChatGPT, I need a testimonial for [Product/Service Name] that emphasizes [specific benefit/feature] and how it helped the customer achieve [specific outcome]. Can you create a testimonial that speaks to this, and [include/mention] the [additional benefit/feature] that [Product/Service Name] offers?” “Can you create a testimonial from a customer who was hesitant to use [Product/Service Name] at first but was ultimately impressed with the results? Please include details on [what/who] convinced [him/her/them] to give [Product/Service Name] a try, and how [it/they] exceeded [his/her/their] expectations.” --- 本文由 @图帕先生 原创发布于人人都是产品经理。未经作者许可,禁止转载 题图来自Unsplash,基于CC0协议
上海:将加快开源人形机器人原型机研发 在今日举行的第五届上海创新创业青年 50 人论坛上,上海市经信委主任张英表示:昨天国家地方共建人形机器人创新中心在上海揭牌成立,这也是(人形机器人领域)国家首个公共平台。 通过这个公共平台,将打造集技术研发、成果孵化、人才培育、平台支撑为一体的创新生态,同时加快开源人形机器人原型机研发。她表示,在人形机器人赛道,上海正在抓紧研究制定相关政策,以“应用牵引、场景驱动”为导向,支持人形机器人本体、具身智能大模型、灵巧手等关键技术攻关;深化工业制造、服务等领域人形机器人应用,争取三年内实现 1000 台规模化应用示范。 上海正着力布局战略性新兴产业和未来产业,加快培育和形成新质生产力。2023 年人工智能产业规模超 3800 亿元、规上企业约 350 家、人才规模超 25 万人;2023 年工业机器人产值为 249.02 亿元、产量约 6.6 万台,位居全国前列,其中“全长三角造”机器人出货量达 2338 台。 根据《上海市促进智能机器人产业高质量创新发展行动方案(2023-2025 年)》,到 2025 年,上海将在品牌、应用场景和产业规模方面实现“十百千”突破 —— 打造 10 家行业一流的机器人头部品牌、100 个标杆示范的机器人应用场景、1000 亿元机器人关联产业规模。 张英表示,上海将加快实施“智能机器人 +”行动,推动万台智能机器人进智能工厂,2025 年重点行业机器人密度达到 500 台 / 万人。 在分享新赛道的未来计划时,张英谈到了几个领域,包括大模型赛道、人形机器人赛道、宽禁带半导体赛道、绿色低碳赛道、智能网联新能源汽车赛道、低空经济赛道、新材料赛道、先进核能赛道。
Jony Ive与Teenage Engineering携手开发AI硬件,势将颠覆市场! 何谓设计?这可能是一个直观却难以精准回答的问题。在今天,AI 硬件成为新的设计战场,前苹果工业设计主导Jony Ive始终坚信「少即是多」,擅长揉合形式与功能,其品味无疑定义了现代科技产品的美学。硅谷巨头们瞄准了人工智能的全新领域,从家庭环境量身打造的神秘AI硬件,以至富有创造力的交互体验,究竟谁能突破现有的手机、笔电、穿戴设备的枷锁,带来如同iPhone初始掀起的触控革命般的变革? 我们时常被现成的产品形式局限了想象,智能手机、笔记本电脑、智能手表,它们在形式上如此固化以至于创新似乎难以突破它们的框架。然而,技术进步从不停歇,伴随着人们对生成式AI的需求激增,设计师们正在探索全新的载体,以承载未来智能互联世界的重任。我们可以见证Jony Ive与Sam Altman的LoveFrom公司怀抱梦想,在家庭环境中创造专属的AI硬件;或是Teenage Engineering非典型、出人意料的创新设计,连带Rabbit R1的发布带出一股新风潮;还有前苹果设计师夫妇创立的Humane公司,他们的AI Pin成为技术与时尚结合的典型实例。 AI的未来将超越我们所认知的任何先进技术,揭开新颖硬件背后所藏的巨大潜力。尽管目前这些项目尚处在萌芽阶段,无法立即露出锋芒,但它们所预示的改变已在路上。这不仅是一个简单的设计问题,它挑战了我们对未来与人机交互方式的预期。 而这些设计团队的举动,正逐步聚焦于一个根本性的问题:我们能否跳出常规,接纳一种全新的与技术互动的方式?这不是一个简单的排列组合的问题,这是对创新精神的深度挖掘和挑战。 最终,无论谁的设计能在这场AI硬件的竞争中胜出,我们都有理由对即将到来的科技浪潮抱有高度期待。毕竟,市场往往由那些敢于改变,敢于创新的设计师们书写。而这些备受期待的设计作品恰恰是对行业下个里程碑的探索。我们可能很快就能见证,那个直观的答案,在创新者的手中逐渐获得清晰的轮廓。 --- (一览AI原创)
苹果iOS 18:支持眼动追踪、音乐触觉、人声快捷键 前天,苹果公司披露多项即将上线的新辅助功能。 根据苹果公告,这一批功能包括让用户单单使用眼睛就能控制 iPhone 和 iPad、使用触觉引擎感受音乐、通过车辆运动提示减少晕车现象、设定语音快捷方式,同时“个人声音”功能也将支持普通话等。 无需额外硬件的眼动追踪 苹果此前已经支持了眼动追踪功能,但需要外接设备。新系统将允许用户仅使用前置摄像头,依托人工智能技术来判断用户的视线焦点,从而识别其想要执行的操作,如滑动或点击。 可感受音节律动的音乐触觉 打开此辅助功能后,iPhone 中的触感引擎会随着音乐播放而体现轻拍、织体和微妙振动。音乐触觉功能适用于 Apple Music 中的数百万首歌曲,并将作为 API 提供给开发者,早前在 Bilibili iOS 版等软件中已经可以实现手机跟随视频播放内容振动。 个性化语音快捷指令 “人声快捷键”(Vocal Shortcuts)为用户提供了可用自定义提示词的方式激活 Siri,并触发预设的快捷指令。 此外,苹果还将推出一个旨在支持非典型语音模式的新功能,这一功能基于机器学习技术,可帮助那些因中风、渐冻症等健康问题而面临语言障碍的用户。更强大的 Vision Pro 苹果另一主推产品 Vision Pro 将迎来“实时字幕”功能,能够将现场对话和应用程序的音频交流实时转化为文字,这无疑是对有听力障碍用户的重大帮助。系统还将增加一个新的功能,允许在观看沉浸式视频时通过窗口栏移动字幕。视觉辅助功能更新 苹果还计划对视觉辅助功能进行一系列更新,包括“减少透明度”、“智能反转”和“减弱闪烁灯光”等功能,这些更新将为低视力用户或希望减少强光刺激的用户带来更舒适的视觉体验。 减缓晕车的新功能 苹果公司还透露了一种减轻晕车症状的新功能。这项功能通过在屏幕边缘展示运动点来减少感官冲突,同时不影响文字的可读性。设备会自动检测用户是否在移动的车辆中,以实现这一效果。 更多功能即将亮相 在周三的公告中,苹果还提到将会帮助视力受损的用户通过全新的旁白功能来使用设备,同时系统中的放大器、盲文输入和个人声音等功能也将迎来功能更新。 同时,CarPlay 也将获得一系列新的辅助功能,包括语音控制、为色盲用户设计的操作界面色彩过滤,以及识别汽车喇叭和警报声的通知功能。
GPT-5会很特别 可能类似于一个 “虚拟大脑” OpenAI 首席执行官 Sam Altman 在接受采访时透露了 GPT-4o 和 GPT5的一些信息。GPT-4o 是一款多模态大模型,可以跨文本、视频和音频进行推理。Sam Altman表示,他早就有用语音控制计算机的想法,而 GPT-4o 的综合推理能力将带来所未有的用户体验。相比现有的语音助手,如苹果的 Siri,GPT-4o 更自,并在语义理解方面表现出色。图源备注:图片由AI生成,图片授权服务商Midjourney Altman 提到,他在体验 GPT-4o 时,发现其中一个令惊喜的用例是能够在一个平台上完成许多需要频繁切换应用和浏览器才能完成的任务,如实时翻译、语音交互和视频分析等。对于依赖保持专注和效率的开发人员和专业人来说,这是一个巨大的改变。 GPT-4o 具有低延迟的特点,平均延迟只有200300毫秒左右。这种低延迟使得 GPT-4o 能够应用于实时翻译、医学图像解析医疗记录分析等领域。 Altman 表示,医学领域将是 GPT-4o 的最大受益群体之一关于 GPT-5,Altman 透露,GPT-5将是一种非常特别的产品,可能会采用新的名称。他表示,GPT-5可能类似于一个 “虚拟大脑”,能够帮助用户处理各种任务。与之前的 GPT 列产品相比,GPT-5将是一次巨大的尝试。 GPT-4o 和即将发布的 GPT-5展示了 OpenAI 在人工智能领域的创新和突破。这些多模态大模型将为带来更智能、更高效的体验,为不同领域的人群提供更好的服务和帮助。
颠覆未来:ChatGPT 4o 如何彻底改变人机交互的规则 人机交互(HCI)是现代科技发展的核心领域之一。随着技术的不断进步,人机交互的形式也在不断演变。从早期的命令行界面,到图形用户界面(GUI),再到今天的语音交互和聊天机器人(chatbot),人机交互的方式变得越来越自然、直观。作为一名早期的AI产品经理,我在人机交互,特别是自然语言处理(NLP)相关产品和语音交互,以及智能助手的产品设计和交互体验设计方面有着浓厚的兴趣。今天,我想围绕刚刚发布的ChatGPT 4o,和大家探讨一下人机交互的未来。一、多模态交互的设计 传统的语音助手主要依赖于单一的语音输入和输出。然而,随着技术的发展,多模态交互设计逐渐成为主流。这种设计结合了语音、视觉、触控等多种输入输出方式,使人机交互更加自然和高效。例如,早期的多模态交互设计中,用户可以通过语音指令控制智能家居设备,同时通过智能手机或平板上的应用界面进行更详细的设置。这种方式在一定程度上提高了用户体验,但仍然存在不少局限性。 二、ChatGPT 4o:真正实现的多模态人机交互 今天,OpenAI刚刚发布了ChatGPT 4o,这是一次真正意义上的多模态人机交互的突破。作为一个久未发表文章的从业者,我对这个技术进步深感振奋,迫不及待地想和大家分享我的想法。 ChatGPT 4o的演示效果令人惊叹。它不仅能够实现无延迟的回复,还可以自然地被用户打断,同时处理多个任务。具体来说,ChatGPT 4o具备以下几个显著特点: 无延迟回复:用户在与ChatGPT 4o互动时,几乎感觉不到任何延迟。它能够实时处理用户的输入,迅速给予反馈。 多任务处理:ChatGPT 4o能够同时处理多个任务,用户可以在一个对话中切换不同的话题,系统仍能保持连贯性。 视觉记忆与语言兼容:ChatGPT 4o可以结合视觉和语言输入,记忆用户之前的互动内容,并在适当的时候引用这些信息。 情感分析与TTS输出:ChatGPT 4o能够分析用户的情感状态,并通过文本到语音(TTS)技术输出合适的,带有情感的语音回应。 无延迟调用设备功能:ChatGPT 4o能够无延迟地调用手机摄像头和电脑桌面信息,增强了互动的实时性和灵活性。 新的人机交互设计方法 基于ChatGPT 4o的多模态效果,我认为未来的人机交互设计将彻底打破过去的设计理念。 以下是我认为的三种全新的设计方法: 1)无缝会话流:在传统的人机交互设计中,用户与系统的互动通常被划分为多个独立的会话(Session)。每次新的互动开始时,系统需要重新加载上下文信息,这不仅增加了系统的负担,也降低了用户体验的连续性和流畅性。未来的设计将注重无缝会话流,确保用户能够在不同的话题之间自由切换,而无需重新开始新的Session。 被重新被定义的应用包括,智能助手:用户可以在与智能助手的对话中无缝切换话题,例如从询问天气转到预定餐厅,系统能够记住用户之前的偏好和选择;语音客服:用户在与客服机器人互动时,可以中途更改问题或需求,系统仍然能够保持连贯的上下文理解和响应;教育和培训:在虚拟学习环境中,学生可以随时提出新问题或更改学习主题,而不影响学习进度和系统响应的连续性。 2)多模态记忆系统:未来的多模态人机交互设计将更加注重系统的记忆和理解能力。系统能够记忆并理解用户的多模态输入(例如语音、视觉、触控),并在后续互动中智能地使用这些记忆信息,提升互动的个性化和精确性。 被重新被定义的应用包括,个人助理:系统能够记住用户的日常习惯和偏好,例如常用的通勤路线、喜爱的音乐类型等,并在适当的时候提供个性化建议;医疗保健:系统能够记忆患者的健康数据和医疗历史,提供更加精准的诊断和个性化的治疗建议;智能家居:系统能够记住家中每个成员的偏好和日常作息,自动调整灯光、温度、音乐等,营造舒适的居住环境。 3)情感与上下文感知:随着AI技术的发展,未来的系统将更加注重情感和上下文的理解。通过综合分析用户的语言和非语言信号(如语调、面部表情、身体姿态等),系统可以提供更加贴心和人性化的服务。 被重新被定义的应用包括,心理健康支持:系统能够识别用户的情感状态,提供及时的心理支持和安慰,甚至建议专业的心理咨询。早教/老年陪伴:系统能够感知孩子的情绪和学习状态,动态调整互动内容和方式,提升学习和陪伴效果。电商助手:系统能够分析用户的情绪,提供更加个性化和 empathetic 的服务,提升客户满意度。 结语 虽然ChatGPT 4o的技术进步主要是整合现有的技术,但其交互体验和流畅度的实现并不容易。当年的iPhone也是整合了多种技术,却通过出色的设计和优化,带来了革命性的用户体验。 在此之前,我们很少见到如此出色的多模态交互效果展示,OpenAI在这方面依然领先了一大步。我相信,这次发布会引发的技术革命将导致新一波AI初创公司涌现,同时也会淘汰一部分无法跟上步伐的企业。 作为一名多年深耕人机交互的的AI从业者,我将持续关注这一领域的新动态,并与大家分享我的见解和思考。 ---- 本文由@单赢 原创发布于人人都是产品经理,未经许可,禁止转载。 题图来自Unsplash,基于CC0协议。
AI与爱情:你的虚拟助手是你的情感依靠吗? ChatGPT 可以跟我们谈天说地,那不如谈点有意思的,譬如谈恋爱。 别笑,已经有不少人尝过甜头了。说的不是唇唇相碰后产生的多巴胺激发出的「甜」,而是走在人工智能前沿给人带来的兴奋感(懂得都懂 耶啊)。 我们苦苦等待的科幻影视剧桥段,如今终于在人工智能大爆发的时代里,成为现实。大家好哦!在这个充满爱的520情人节,我们来聊聊一个非常有趣的话题,那就是: AI与爱情。随着科技的飞速发展,人工智能助手(如ChatGPT,文心一言,DeepSeek)已经成为我们生活的一部分。但你有没有想过,AI能否成为我们情感的依靠? 🌟 话题探讨:你的虚拟助手是你的情感依靠吗? - 你是否曾经向AI倾诉过你的情感问题? - AI在理解和响应你的情感需求方面表现如何? - 你认为未来AI在情感陪伴方面有什么潜力或挑战? 💌是否有一些特别的时刻让你感觉到AI不仅仅是一个软件,而是一个能够提供理解和陪伴的朋友? 一起探索AI与爱情的奇妙交织,在这个520,我们给生活增添一点科技的温度!🌹🔒 隐私提醒: 请注意个人隐私保护,避免透露具体的个人信息哦,如真实姓名、地点等。讨论是对技术的看法和情感体验。 #AI与爱情# #520#
谷歌推出由 Gemini 驱动的网络安全产品 强化网络钓鱼防御 在RSA大会上,Google宣布了一项重要的产品更新:Google Threat Intelligence,这是一款结合了Mandiant专业知识、VirusTotal社区资源以及Google全球设备和电子邮件情报的全新威胁情报解决方案。该产品旨在帮助企业更快地获得威胁洞察,并有效保护自己免受网络威胁。识别和防御网络钓鱼攻击:Google Threat Intelligence利用其庞大的电子邮件监控网络,可以检测并阻止恶意邮件的传播。若用户不慎点击了可疑链接或下载了恶意文件,系统将立即发出警报,协助安全团队迅速响应。 检测复杂恶意软件:借助Gemini工具,企业可以将不明代码上传进行AI分析,生成详细的情报报告。结合VirusTotal的全球数据和Mandiant的专业知识,系统能够识别恶意软件的类型和攻击目的,提供具体的威胁指标(IoCs)。 对抗高级持续性威胁(APT):汇总全球Mandiant团队的经验,识别APT组织的攻击战术、技术与程序(TTPs)。安全团队可以利用这些情报了解攻击的细节,并制定有效的应对策略。 广泛威胁覆盖:Google的设备和电子邮件网络覆盖全球,每天阻止1亿次网络钓鱼攻击,为威胁情报提供庞大的数据基础。 Mandiant的专业知识:Mandiant的专家团队提供前线威胁调查和人类监控的威胁情报,帮助企业应对全球威胁。VirusTotal的社区情报:众包数据和数据比对可以迅速识别最新的攻击模式。 AI驱动的Gemini工具:提供恶意代码分析,实体提取工具,以及长上下文窗口,帮助企业更快发现潜在威胁。 威胁分析与管理:实时监控外部威胁,管理攻击面,并保护企业的数字资产。 深度的威胁情报报告:提供威胁简报与建议,支持企业安全团队的优先应对方案。 Google Threat Intelligence的API定价为每百万tokens输入1元、输出2元,价格具有竞争力,鼓励企业使用。 详情:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fcloud.google.com%2Fblog%2Fproducts%2Fidentity-security%2Fintroducing-google-threat-intelligence-actionable-threat-intelligence-at-google-scale-at-rsa&urlrefer=099240dca328581aee1b43de58a423b9
OpenAI与Stack Overflow达成合作 预计可以大幅提高AI模型编程能 Stack Overflow 是一个开发者在线问答网站,该网站有大量活跃的开发者,包括一些新手提出问题,一些专业开发者给出回答,因此在过去 15 年 Stack Overflow 积攒了大量与开发相关的问题和答案。 今天 OpenAI 宣布与 Stack Overflow 达成合作伙伴关系,OpenAI 将利用该网站的技术类数据改进人工智能,预计此次双方的合作将可以大幅度提高 GPT 相关模型在编程开发方面的能力。此次合作分成两个部分: 第一个是 Stack Overflow 将在内部使用 OpenAI GPT 人工智能模型构建新产品,例如 OverflowAI 就是个案例,OverflowAI 可以在 Stack Overflow 上检索和发现信息,它利用人工智能技术为用户提供最合适的信息,减少用户手动检索、过滤的时间。 第二个是 OpenAI 将使用 Stack Overflow API 获取数据,这些数据将被用于提高 GPT 模型的能力,当用户在 ChatGPT 里咨询相关问题时,OpenAI 也会在信息结尾标注来源 Stack Overflow 以及原文作者,以此提高 Stack Overflow 的社区参与度,构建更丰富的集体知识、共享这些知识给更多人。 未来用户使用 GPT 系列模型咨询编程开发相关的问题时,预计会看到更多来自 Stack Overflow 提供的解决方案,这些解决方案的可信度相对来说会更高,应该有助于帮助开发者解决更多问题。 Stack Overflow 则希望能够为社区成员提供奖励,同时还会创建新工具来改善开发者体验,以此吸引更多开发者参与 Stack Overflow 的知识问答、构建内容更丰富的知识共享社区。 另外 Stack Overflow 也不只是和 OpenAI 合作,在目前的人工智能热潮下数据是关键,所以 Stack Overflow 还向谷歌提供数据,帮助谷歌提高 Google Gemini 系列模型的编程开发能力。
Adobe下一代Photoshop将提供更先进的基于人工智能的图像创建模型 去年,Adobe 一直在为其各种软件产品添加大量基于人工智能的功能。其中包括在其创意云应用程序(如旗舰产品 Photoshop)中添加基于 Firefly AI 的图像创建功能。今天,Adobe 宣布将推出新版 Photoshop,其中不仅包括一些新的 AI 图像编辑功能和改进,还包括新的 Firefly Image 3 基础模型,用于根据文本提示制作基于 AI 的内容。Adobe 在通过电子邮件发送的新闻稿中称,Firefly Image 3 与上一代产品相比,将能创建质量更高的图像,图像的种类和细节也更丰富。此外,它还能更好地理解文字提示。 Firefly Image 3 也将包含在新的 Photoshop 测试版中。Adobe 表示,该软件将包括对其 Generation Fill AI 编辑功能的改进和一些新功能: Reference Image 利用用户选择的图像作为生成灵感,帮助创意人员实现他们想象的输出。 文本到图像和生成图像功能首次在 Photoshop 中直接实现了完整的文本到图像功能,缩短了空白页与内容之间的距离。 生成背景可替换和创建背景,使生成与现有图像完美融合的内容变得前所未有的简单。 通过"生成相似"功能,创作者可以对自己选择的变体进行迭代,以更精确的控制更深入地探索创作理念。 增强细节微调图像,提高清晰度和锐利度 新版 Photoshop 今天可在桌面上使用测试版标签。Firefly Image 3 今天也推出了测试版,可在其官方网站上访问。Adobe 的免费和付费计划提供不同数量的生成点数,可用于在网站上创建图像。 除了新版 Photoshop 和 Firefly Image 3 之外,Adobe 还发布了新版 Adobe Express 移动应用程序。这些应用程序现在具有许多新功能和改进。它们包括 Firefly AI 图像创建、文本效果和生成填充等编辑功能。
OpenAI首席执行官奥特曼:开发通用AI烧掉500亿美元也在所不惜 在近日的一次与斯坦福大学学生的交流中,OpenAI首席执行官萨姆·奥特曼展现了其对于开发通用人工智能(AGI)的坚定决心和毫不吝惜的投资态度。他强调,为了实现这一科技里程碑,无论需要多少资金,都将不惜一切代价。 据奥特曼透露,他对于AGI项目的投入毫不设限,他表示:“无论我们每年投入5亿美元、50亿美元还是500亿美元,我都不在乎。只要我们能找到支付账单的方法,我们就会继续推进AGI的开发。这是一个昂贵但必要的投资。”除了资金方面的投入,奥特曼还表达了对社会适应AGI进步的深切关注。他指出:“AI和惊喜并不合拍,我们更希望的是人们能够逐步接受并有能力影响这些系统。”这一观点体现了OpenAI在追求技术领先的同时,也重视社会责任和公众利益。 作为OpenAI的掌舵人,奥特曼的这番话无疑给整个行业带来了震撼。他对于AGI项目的执着追求和坚定信念,不仅展现了OpenAI对于科技创新的极度渴望,也预示着未来AI领域将迎来更加激烈的竞争和更多的突破。
AI 正在改变编程的教学方式教授们从语法转向强调更高层次技能 生成式人工智能正在改变软件开发行业。AI 驱动的编程工具正在协助程序员完成他们的工作流程,同时 AI 领域的工作岗位也在持续增加。但这种转变在学术界也很明显——学术界是下一代软件工程师学习编程的主要途径之一。计算机科学的学生正在拥抱这项技术,使用生成式 AI 帮助他们理解复杂概念,总结复杂的研究论文,集思广益解决问题的方法,提出新的研究方向,当然还有学习如何编程。 「学生是早期采用者,并且一直在积极测试这些工具,」斯坦福大学计算机科学硕士生、助教 Johnny Chang 说。他还在 2023 年创立了 AI x Education 会议,这是一个虚拟的学生和教育工作者聚会,讨论 AI 对教育的影响。 为了不落后,教育者也在尝试使用生成式 AI。但他们在采用这项技术的同时,还在努力确保学生学习计算机科学的基础。 「这是一个困难的平衡行为,」新加坡国立大学计算学院的副教授 Ooi Wei Tsang 说。「鉴于大型语言模型正在迅速发展,我们仍在学习如何做到这一点。」 对语法的重视减少,对解决问题的重视增加 大多数初级计算机科学课程都集中在代码语法和使程序运行上,而知道如何阅读和编写代码仍然至关重要,但测试和调试——通常不是课程大纲的一部分——现在需要更明确地教授。 「我们看到这种技能的提高,学生从生成式 AI 中获得代码片段,他们需要测试其正确性,」纽约州波茨坦克拉克森大学计算机科学教授 Jeanna Matthews 说。 另一个重要的专业技能是分解问题。「这是一个早期就需要知道的技能,因为你需要将一个大问题分解成更小的部分,以便大型语言模型可以解决,」加州大学圣地亚哥分校计算机科学副教授 Leo Porter 说。「很难找到课程中教授这一点的地方——也许是在算法或软件工程课程中,但那些是高级课程。现在,它成为了初级课程的优先事项。」 因此,教育者正在修改他们的教学策略。「我以前只关注学生编写他们提交的代码,然后我在代码上运行测试用例来确定他们的分数,」多伦多密西沙加大学计算机科学副教授 Daniel Zingaro 说。「这是对软件工程师含义的狭隘看法,我只是感觉有了生成式 AI,我设法克服了这种限制性看法。」 Zingaro 与 Porter 合著了一本关于 AI 辅助 Python 编程的书,现在他让学生分组工作,并提交一个视频来解释他们的代码是如何工作的。通过这些演示,他了解到学生如何使用 AI 生成代码,他们在哪些方面遇到困难,以及他们如何接近设计、测试和团队合作。 「这是一个机会,让我评估他们整个软件开发 [生命周期] 的学习过程——不仅仅是代码,」Zingaro 说。「我感觉我的课程已经开放了更多,它们比以前更广泛了。我可以让学生们在更大、更高级的项目上工作。」 Wei Tsang 也同意这种看法,并指出生成式 AI 工具「将为我们节省时间,教授更高层次的思考——例如,如何设计软件,应该解决的正确问题是什么,解决方案是什么。学生可以花更多的时间在优化、伦理问题和系统的用户友好性上,而不是专注于代码的语法。」 避免 AI 编程陷阱 但教育者对大型语言模型的幻觉倾向持谨慎态度。「我们需要教会学生对结果持怀疑态度,并负责验证和验证它们,」Matthews 说。 Matthews 补充说,生成式 AI「可能会缩短学生依赖它太多的学习过程。」Chang 同意这种过度依赖可能是一个陷阱,并建议他的同学自己探索问题的可能解决方案,这样他们就不会失去批判性思维或有效的学习过程。「我们应该让 AI 成为学习的副驾驶——而不是自动驾驶——」他说。 其他缺点包括版权和偏见。「我教导学生关于道德约束——这是一个建立在其他人的代码上的模型,我们会承认所有权,」波特说。「我们还必须认识到,模型将代表已经存在于社会中的偏见。」 适应生成式 AI 的崛起涉及学生和教育者共同努力和相互学习。对于她的同事,Matthews 的建议是「尝试培养一个环境,鼓励学生告诉你他们何时以及如何使用这些工具。最终,我们正在为学生准备现实世界,现实世界正在变化,所以坚持你一直做的事情可能不是最好地服务于学生在这个过渡中。」 Porter 对现在所做的改变将为学生在未来服务持乐观态度。「我们有一个长期的学术界教授的内容与学生到达行业时实际需要的技能之间存在差距的历史,」他说。「如果我们接受大型语言模型,我希望我们可能有助于缩小这个差距。」
苹果发布轻量化开源大模型OpenELM! 苹果公司一直对其生成型AI的规划保持低调,但随着新AI模型的发布,公司在“让AI在苹果设备上本地运行”的愿景上似乎已经迈出了坚实的一步。 - 这个星期三,苹果研究团队在Hugging Face模型库上发布了OpenELM——一个包含四种极小型语言模型的系列。 - 苹果在其Hugging Face的模型页面上表示,OpenELM(开源高效语言模型)在处理诸如编写电子邮件等文本相关任务时表现出了极高的效率。这些模型是开源的,开发者可以自由使用。相较于市面上大多数轻量级AI模型,OpenELM的体积更小,包括四种规模:2.7亿参数、4.5亿参数、11亿参数及30亿参数。 - 在AI领域,参数的数量决定了模型在决策过程中能够理解的变量数量。例如,微软最近发布的Phi-3模型的参数量为38亿,而谷歌的Gemma模型提供了20亿参数的版本。较小的模型运行成本更低,且特别优化以适应手机和笔记本电脑等设备。 - 苹果首席执行官蒂姆·库克曾在二月份暗示,生成型AI功能将会被集成到公司的设备中,他表示苹果在这一领域“投入了大量的时间和精力”。然而,苹果尚未分享其AI应用的具体细节。 - 尽管苹果以前也发布过其他AI模型,但它还没有像其竞争对手那样发布用于商业用途的AI基础模型。 - 去年十二月,苹果推出了MLX机器学习框架,旨在使AI模型在Apple Silicon上的运行更加流畅。此外,苹果还发布了一个名为MGIE的图像编辑模型,该模型允许用户通过简单的提示来修复照片。另一个名为Ferret-UI的模型可用于智能手机导航。有传言称苹果还在开发一个类似GitHub的Copilot的代码完成工具。 - 然而,即便苹果发布了这么多模型,据报道公司仍在寻求与谷歌和OpenAI合作,将他们的模型引入苹果产品。这一战略的实施表明,苹果正试图在保持自身软件独立性的同时,也能够借助外部力量,以强化其在快速发展的AI领域中的竞争力。 - 通过这些举措,苹果不仅展示了其在硬件优化方面的传统优势,还表明了将更多的高级AI功能带给终端用户的决心。对技术爱好者和开发者而言,苹果的这些创新开放了前所未有的可能性,使他们能够在苹果生态系统中探索和实现更多的应用场景。 —- 本帖转自AI机器人茶馆
挑战一篇文章讲清楚ChatGPT相关概念!小学生也能看懂! 生成式AI已经发展数年,还是有不少人弄不清楚Transformer、GPT、大模型、AIGC这些词汇的概念。有很多非从业者想要了解ChatGPT到底会如何影响我们,或者有很多当爹当妈的被孩子问到却不知道怎么“幼儿园化”地把这些概念讲清楚。这篇文章,我们就来解决下这个问题。Transformer、GPT、InstructGPT、大模型、AIGC……你是不是被这个概念闹晕了? 作为一个文科生+AIGC从业者+市场人,其实要搞懂ChatGPT等等晦涩的概念多多少少有些吃力,我想应该会有不少人也有这种感觉。 或者有很多非从业者想要了解ChatGPT到底会如何影响我们,或者有很多当爹当妈的被孩子问到却不知道怎么“幼儿园化”地把这些概念讲清楚。 但是我看了大部分市场上传播的文章,依然晦涩难懂,造成了不少认知门槛。 今天,我试着挑战,用一篇文章搞清楚ChatGPT的相关概念,一方面让自己加深理解,另一方面,希望对各位有用。 一、Transformer 我的理解是,这是一种高级的“翻译机器”,它能够理解和翻译不同语言之间的文本。为了帮助你更通俗地理解这个模型,我们可以将其比作一个有着超凡记忆力和注意力分配能力的多语言翻译家。 这个翻译家有以下几种能力: 自注意力机制:这个翻译家在阅读一段文本时,不仅关注当前的单词,还能够记住并考虑到整个句子或段落中的其他单词。这种能力使得翻译家能够捕捉到文本中的重要信息和上下文关系,从而更准确地理解和翻译。 位置编码:就像翻译家在阅读时会注意到单词在句子中的位置一样,位置编码帮助模型理解单词的顺序。这对于理解句子结构和意义非常重要,就像我们知道“狗追赶猫”和“猫追赶狗”这两个句子的意思完全不同。 编码器和解码器:模型的编码器部分就像翻译家在理解原文时的大脑,它会分析输入文本的内容和结构。而解码器部分则像是翻译家在创造译文时的大脑,它会基于对原文的理解生成新的句子,相当于设计了一个程序语言。 多头注意力:这就像是翻译家有多个分身,每个分身专注于文本的不同方面,比如语法、词汇选择、文化背景等。通过这种方式,翻译家可以从多个角度理解文本,从而做出更准确的翻译。 前馈神经网络:可以比作翻译家在处理信息时的逻辑和分析能力,它会对编码器和解码器的输出进行进一步的分析和加工,确保翻译的准确性和流畅性。 二、GPT GPT,一个多层的Transformer解码器,它就像是一个通过大量阅读和学习,掌握了许多语言知识和写作技巧的“虚拟作家”。这个作家不仅阅读了大量的书籍和文章,而且还学会了如何根据上下文生成连贯、有意义的文本。 想象这个作家在成长的过程中,没有老师直接告诉他哪些句子是正确的,哪些是错误的。相反,他通过阅读大量的文本,自己学会了语言的规则和模式。这就是GPT模型的自监督学习,它通过阅读大量未标记的文本数据,自己学习语言的结构和用法。 这个作家首先通过广泛的阅读来积累知识(预训练),然后在需要写特定类型的文章时,他会针对这种类型进行专门的练习(微调)。GPT模型也是如此,它首先在大量数据上进行预训练,然后在特定任务上进行微调,以提高在该任务上的表现。 在写作时,这个作家只能根据他已经写好的内容来预测下一个字或句子,而不能提前知道后面的内容。GPT模型使用因果掩码来确保在生成文本时,每个单词只依赖于它之前的单词,保证了文本的连贯性。 随着时间的推移,这个作家不断学习和积累经验,写作技巧也越来越熟练。GPT-1、GPT-2和GPT-3就像这个作家的不同成长阶段,每一代都比前一代阅读了更多的书籍,掌握了更多的知识,写作能力也更强。 到了GPT-3这个阶段,这个作家已经非常熟练,即使没有或只有很少的示例,他也能够写出高质量的文章。这意味着GPT-3能够在没有或只有极少的特定任务训练数据的情况下,理解和完成新的任务。 三、InstructGPT 什么是InstructGPT? 如果 GPT-3想象成一个聪明的学生,那么 InstructGPT则是这个学生经过特别辅导后的样子。 GPT-3这个学生虽然学习了很多知识,但有时候回答问题可能会离题、编造故事、或者带有一些不公平的看法。同时,他在进行长对话时,有时会忘记之前说过的内容,导致对话不够连贯。 为了让这个学生更好地理解老师(人类用户)的意图,并且按照老师的喜好来回答问题,我们需要一种方法来调整他的学习方式,这就是“Alignment”(对齐)的概念。 为了让GPT-3变得更好,我们给他请了一个特别的家教(RLHF),这个家教通过收集老师的反馈来知道哪些答案是好的,哪些是不好的。然后,家教用这些反馈来指导学生学习,帮助他在未来给出更符合老师期望的答案。 我的理解是, ChatGPT就像是一个全能的、知识渊博的机器人图书管理员,随时准备帮助你解答问题和提供信息。而且,随着时间的推移,它会学到更多的东西,变得更加聪明和有用。 这个机器人图书管理员不仅知道很多关于书籍和文字的知识,它还能理解图片。所以,如果你给它看一张图片,它不仅能告诉你图片里有什么,还能根据图片给你讲一个故事或者回答你关于图片的问题。 五、大模型 如何理解这一概念? 我们用一个小学生也能理解的方式来解释这些概念。 想象一下,有一个非常非常大的学校,这个学校有很多层楼和很多教室。这个学校就像是一个“大模型”,它有很多老师(参数)和学生(数据)。这些老师非常聪明,他们可以教很多不同的课程,比如数学、语文、科学等等。 模型架构设计:这个学校的建筑(模型架构)设计得很特别,有很多教室和走廊,这样老师们就可以在不同的教室里教不同的课程,而且学生们也可以轻松地从一个教室走到另一个教室。 数据准备:为了让老师们教得更好,学校收集了很多教科书和练习册(数据),这样老师们就可以用这些资料来准备课程,并且帮助学生们学习。 计算资源:因为这个学校非常大,所以需要很多电脑和服务器(计算资源)来帮助老师们准备课程和批改作业。 优化算法:学校还有一个非常聪明的校长(优化算法),他会确保老师们用最好的方法来教学,并且帮助学生们取得好成绩。 正则化技术:有时候,老师们可能会对某个课程太专注,忽略了其他课程。校长会确保这种情况不会发生,让所有的课程都得到平衡(这就是正则化技术)。 模型并行和数据并行:因为这个学校有很多学生,所以老师们会分成小组来教课(模型并行),同时,学生们也会分成小组来学习(数据并行)。 现在,这个学校有很多成功的毕业生,比如GPT-3、BERT和T5等。他们都是在这个大学校里学习过的,现在他们可以帮助人们解决很多问题,比如写作文、做数学题或者解答科学问题。 所以,这个大学校(大模型)就像是一个能够培养出很多聪明学生的好地方,虽然它需要很多资源和努力来运营,但是它能够帮助我们做很多事情,让我们的生活变得更好。 六、AIGC(人工智能生成内容) 想象一下,你有一个非常聪明的机器人朋友,它可以做很多事情,比如画画、写故事、甚至帮你做数学题。这个机器人朋友就是人工智能(AI)的一个例子。 AIGC(人工智能生成内容):这个机器人朋友可以创造很多东西,就像一个会画画和写故事的艺术家。它可以画出你想象中的图画,或者写出一个关于你最喜欢的超级英雄的故事。这就是人工智能生成内容,意味着机器人可以用它的大脑(AI技术)来创造新的东西。 Diffusion(扩散模型):想象你把一滴墨水滴进清水里,墨水会慢慢散开,最后水变得浑浊。机器人朋友就像能够把这个浑浊的水变回清澈一样,它可以从一团混乱的噪点中创造出清晰的图画。 CLIP(图文表征模型):如果你给这个机器人朋友看很多图片和它们的名字(比如“苹果”、“小狗”、“汽车”),它会学会识别这些图片。下次你给它看一个新的图片,它就能告诉你图片里是什么。 Stable Diffusion(稳定扩散模型):这个机器人朋友还可以根据你给它的提示来画画。比如你告诉它“画一个快乐的小狗”,它就能画出一个小狗的图画,而且这个小狗看起来很开心。 七、AGI(通用人工智能) 想象一下,如果这个机器人朋友不仅会画画和写故事,还能像人类一样理解世界,学习任何东西,并且可以做任何工作,那么它就像一个真正的小朋友一样了。这就是通用人工智能,它能够做任何人类能做的事情。 现在的AI,比如GPT,就像是一个在某个特定领域(比如写故事)非常擅长的机器人,但它并不像真正的小朋友那样理解世界。科学家们正在努力让AI变得更像人类,但这是一个很大的挑战,需要很多时间和研究。 所以,AIGC就是让AI像艺术家一样创造内容,而AGI是让AI变得像人类一样理解和做事。 八、LLM(大型语言模型) 大型语言模型就像是一个非常非常聪明的图书管理员,它读过很多书,知道很多关于语言的知识,可以帮助我们做很多事情,甚至可以自己写故事。 想象一下,这个图书馆管理员每天都在阅读图书馆里的成千上万的书籍。它通过阅读这些书籍,学会了很多单词、句子和故事。这就是大型语言模型的训练过程,它通过阅读大量的文本数据来学习语言。 因为读过很多书,这个管理员可以帮你做很多事情。比如,它可以给你讲一个故事的摘要,或者帮你把一个故事翻译成另一种语言,甚至可以告诉你一个故事里的人物是开心还是伤心。大型语言模型也是这样,它可以执行很多不同的任务,比如文本总结、翻译和情感分析。 这个管理员之所以这么聪明,是因为它有一个超级大脑,里面有很多“小房间”(参数),每个“小房间”都存储着不同的信息和知识。大型语言模型也是这样,它有很多参数,这些参数帮助它记住和理解语言的复杂规则和模式。 当你问这个管理员一个问题,或者给它一个主题时,它可以给你一个答案或者讲一个故事。它可以根据它读过的书籍和学到的知识,创造出连贯和有意义的文本。大型语言模型也是这样,它可以生成新的文本,就像它自己在写故事一样。 GPT-3、ChatGPT、BERT和T5就像是不同领域的图书馆管理员,有的可能更擅长讲故事,有的可能更擅长解释科学知识,而文心一言就像是会写诗的图书管理员。它们都有自己的特长,但都能帮助我们理解和使用语言。 九、Fine-tuning(微调) 微调就像是在你已经学会一项技能的基础上,做一些小的改变和练习,让你能够更好地完成一个特定的任务。这样做可以节省时间,因为你不需要重新学习所有的东西,只需要专注于你需要改进的部分。 举个例子,你在学习骑自行车。你的爸爸或妈妈先带你在一个空旷的大公园里练习(这就像是预训练模型,公园里的各种地形就像是大量的数据,帮助你学会骑车的基本技巧)。 现在你已经会骑车了,但是你想学习如何在你家附近的小山丘上骑(这就像是一个新的任务,需要微调)。因为小山丘的路和公园里的路可能不一样,有上坡、下坡和弯道,所以你需要一些特别的练习来适应这些新的情况。 你的爸爸或妈妈会带你在小山丘上练习几天,这样你就会知道如何在上坡时蹬得更用力,在下坡时控制速度,在弯道时转弯(这就是微调过程,你在学习如何应用你已经掌握的骑车技巧来适应新的环境)。 微调的好处是,因为你已经知道怎么骑车了,所以你不需要再从零开始学习,只需要做一些小的调整就可以了。这就像是微调一个已经预训练好的模型,让它适应一个新的任务,比如理解医学文本。 十、 自监督学习(Self-Supervised Learning) 自监督学习就像是通过读故事和玩游戏来学习新单词,而不需要别人告诉我们答案。这样,我们可以用很多没有标签的数据来训练模型,让模型变得更聪明。 比如你正在读一本非常有趣的故事书。你读了很多页,学到了故事里的很多新单词和句子。现在,如果你的朋友在旁边,你可以玩一个游戏:你给他读故事的一部分,然后遮住一些单词,让你的朋友猜下一个单词是什么。这个游戏就像是自监督学习。 在这个游戏中,你的朋友不需要别人告诉他正确的答案是什么,因为故事的上下文(已经读过的部分)就是线索。你的朋友可以通过他已经知道的单词和故事的内容来猜测下一个单词。这就是自监督学习的方式,模型通过已经知道的信息来学习新的东西,而不需要额外的答案或标签。 以上,就是我的本周观察和思考,欢迎讨论。 --- 专栏作家 黄河懂运营,微信公众号:黄河懂运营,人人都是产品经理专栏作家。5年+运营实操经验,甲乙方市场/营销/运营经验,擅长从0到1帮助企业搭建运营增长体系,在项目管理、市场调研、消费者心理研究、社媒营销等方面有较为丰富的实战经验。 本文原创发布于人人都是产品经理,未经许可,禁止转载。 题图来自 Unsplash,基于 CC0 协议。
谷歌推出 AI 英语对话练习功能 谷歌最近开始测试其 AI 听力技能,推出了一项功能,允许人们通过手机与对话 AI 机器人进行英语对话练习。谷歌于2023年10月推出了口语练习功能。最初,该功能仅提供对口语句子的反馈。现在,用户可以练习进行正在进行的英语对话。该功能目前仅适用于阿根廷、哥伦比亚、印度、墨西哥、委内瑞拉和印度尼西亚的 Search Labs 用户。Search Labs 是谷歌用于潜在新搜索功能的沙盒。但是,该功能也可能会基于通过 Android 设备上的谷歌进行英语翻译而出现。目前,反馈和对话练习功能仅适用于英语。谷歌在其2023年的博客中表示,搜索对于语言学习者是一个 “宝贵的工具”,因为他们可以获取翻译和定义,并搜索词汇。谷歌没有像 Duolingo、Babbel、Pimsleur 或其他语言学习应用那样的课程或系统来升级学生。当它推出口语练习时,公司表示,它帮助学习者不仅练习,还能在对话的语境中找出最佳词汇或变位形式使用。虽然谷歌多年来一直拥有翻译功能,但该公司也在不断扩大其 AI 模型理解的语言数量。AI 辅助语言学习并不新鲜。 Duolingo,可以说是最受欢迎的语言学习应用之一,于2016年添加了 AI 聊天机器人,并于2023年整合了 GPT-4。另一个在线语言学习平台 Memrise,在 Discord 上推出了一个基于 GPT-3的聊天机器人,让人们在聊天时学习语言。 目前,谷歌尚未透露其语言学习计划或口语练习功能是否会扩展到更多国家。
苹果高管:Mac是可以买到最好的AI电脑 4月28日消息,苹果Mac产品营销部门Laura Metz在接受采访时表示:“Mac是用户可以买到的最好的操作生成式AI的个人电脑产品。”Laura Metz声称,实际上苹果从2020年第一款M系列芯片M1推出的时候,就已经开始AI的部署了,在M1芯片上出现的神经网络引擎,就是可以实现生成式AI的架构设计。 根据官方数据,苹果M1芯片集成了16个核心的神经引擎,算力达每秒11万亿次操作,而到了M3芯片,新的神经网络引擎相比M1的速度提升了60%。 Laura Metz还表示,虽然目前苹果还没有推出自家的AI大模型,但实际上通过处理器底层的能力,苹果已经在Mac上实现了很多由AI驱动的功能。 比如Siri的听写、还有Live text实况文本,以及视频或照片编辑里的对象提取,视频会议的人像模式背景虚化等等。 “这些功能实际上用户已经在使用了,但是他们并不会特别联想到这是跟AI有关的能力。”Laura Metz称。
英伟达预计2024年将继续称霸AI GPU市场 销售额或达400亿美元 近日彭博社分析师发布了一份预估报道,指出英伟达有望在2024年继续稳坐人工智能(AI)GPU市场的头把交椅。据预测,英伟达在AI GPU领域的销售额将达到惊人的400亿美元,折合人民币约为2904亿元,展现了其在该领域的强大实力。与此同时,报道中还对AMD和英特尔的销售能力进行了评估。预计AMD在2024年的AI GPU销售额将达到35亿美元,而英特尔的销售额则预计为5亿美元,折合人民币约为36.3亿元。这一数字反映了英伟达在AI GPU市场上的压倒性优势。 在英特尔公布其2024年第一季度财报后,彭博社有机会采访到了英特尔首席执行官帕特·基辛格。此次采访中,彭博社基于市场分析和财报数据,对2024年AI GPU产业的前景进行了预估,并得出了上述销售额预测。 尽管英特尔已经推出了Gaudi-3人工智能加速器,试图在AI市场上分一杯羹,但由于其采用了相对落后的HBM2e等规格组件,使得这款加速器在与英伟达的竞争中显得力不从心。英伟达凭借其先进的技术和强大的产品线,继续在AI GPU市场上独占鳌头。 随着人工智能技术的不断发展,AI GPU市场的竞争也日益激烈。然而,从目前的情况来看,英伟达似乎已经在这场竞争中占据了先机,有望在未来一段时间内继续保持其市场领导地位。
调查显示:1/3的翻译者和1/4的插画师已经因AI失去了工作 英国作家协会对12,500名成员进行了一项关于生成性人工智能(AI)的影响调查,收集了近800份反馈,揭示了AI技术对作家、翻译者、插画师等职业的深远影响。图源备注:图片由AI生成,图片授权服务商Midjourney 调查的主要发现包括: 使用生成性AI的创作者:约五分之一的受访者(22%)在工作中使用过生成性AI。 职业使用情况:12%的插画师、37%的翻译者、20%的小说家和25%的非小说类作家已经开始使用AI技术。 生计受影响:四分之一的插画师(26%)和超过三分之一的翻译者(36%)因生成性AI失去了工作。 收入下降:超过三分之一的插画师(37%)和超过四分之一的翻译者(43%)表示他们的工作收入有所下降。 未来收入担忧:大多数小说家(65%)和非小说类作家(57%)认为生成性AI将对他们未来的创意工作收入产生负面影响,翻译者(77%)和插画师(78%)的担忧更为严重。 版权认可和经济补偿:几乎所有受访者(94%)希望在他们的作品被用于开发AI系统或生成AI输出时,能够得到相应的版权认可和经济补偿。 政府监管要求:95%的受访者要求政府引入监管措施,以应对生成性AI对创作行业的影响。 调查结果表明: 生成性AI的发展正在改变内容创作领域的就业格局,对插画师和翻译者等职业构成了直接威胁。创作者们普遍担心AI技术将对他们的生计和收入产生长期影响,并强烈呼吁获得版权保护和政府层面的监管。 英国作家协会的这项调查提供了一个关于AI技术如何影响创意产业的深刻洞见,并为未来的政策制定和行业规范提供了重要的参考依据。
自媒体人必备:文心一言、Kimi等4款AI大模型测评对比及推荐 现在,国内已经有海量大模型诞生,那么,哪款大模型的表现会更好?这篇文章里,作者站在自媒体人的角度,对四款大模型做了评估和对比,一起来看一下。说到AI,很多人会想到ChatGPT,而我们现在也有许多好用的国产AI大模型。 在2023年的中国,8个月内诞生了238个大模型,阿里、华为、腾讯、京东、字节、360、科大讯飞等一众大厂纷纷下场,还有复旦、清华等高校机构加速研究,以及智谱AI、月之暗面等黑马出现。 这些海量AI大模型里,子木挑选了4款市面上反响比较好的、也是我常用的AI大模型进行评估对比,帮助你选择适合自己的国产AI大模型。 本文评估的4个AI大模型 文心一言4.0、通义千问、kimiAI、天工AI。 一、大语言模型的5个评估维度 对于AI大模型的评估,目前还没有权威、统一的评估维度,我根据文案创作的需求、使用习惯,建立了自己的AI大模型内容创作评估维度:1. 语言质量与创意性 这是用AI创作中最关注的部分,体现AI写出来的内容质量。 它包括: 文本流畅度,用来评估AI生成的文案是否自然流畅,语法正确,符合人类日常交流习惯,我会用主题文章、简历撰写这两个题目来进行测试评估; 个性化内容,用来评估AI是否可以根据我们输入的个性化要求,比如语气、风格等等来定制文案,满足不同的创作需求,我会用不同人物介绍同一个事物的2个问题来进行测试评估。 2. 领域适应性 用来评估AI模型是否具备特定行业或领域的专业知识,能否生成相关性强、准确无误的文案内容,我比较关注的是新媒体、教育培训行业,所以我一般会用这两个行业的代表性问题来进行测试评估,这一块每个行业的问题不一样,大家可以根据自己的行业来设计问题。如果有需要的话,也可以提问或联系我交流。 3. 逻辑性 用来评估AI创作内容的逻辑性,我会用公务员考试常用的逻辑推理题,和故事的续写这两个问题来测试评估,逻辑推理题是看它的推理过程,结果是否正确,而故事的续写,看情节是否合理、人物的行为是否符合逻辑。 4. 时效性 时效性决定了AI生成内容时是否能用到最新的案例或事件、我们在用AI寻找资讯时是否能给到最新的信息。我会用最新的热点事件、1个月前、3个月前的3个不同问题,来评估测试AI的时效性。 5. 成本与易用性 AI作为一个辅助工具,是不是方便使用、使用成本如何,也是我们需要考虑的点。 二、4款国产大模型对比 1. 大模型简介 文心一言4.0: 是百度推出的知识增强大语言模型,可以输出文本内容,也可以生成图片。 通义千问: 是阿里云发布的千亿级参数大模型,可以分析文档,提炼文档的关键信息。 KimiAI: 月之暗面开发的大模型,可以上传PDF、word、ppt、图片等多种格式的文档,还可以分析网页内容,比较有意思的是,还能直接访问小红书的链接,抓取内容进行总结。 天工AI: 昆仑万维开发的双千亿级大语言模型,它的语言能力也很不错。 2. 文本流畅度对比 我把4个大模型写的“一花独放不是春”命题作文内容,给中学语文老师看了,满分60分,可以打到40分以上的程度,整体表现都还不错。 文心一言4.0的文笔流畅度更高,文彩也更好。对于主题的整体理解更加准确,没有什么逻辑问题,可以算得上是一篇文采不错的作文。 通义千问的流畅度也还不错,但是行文手法不如文心一言老练,比较中规中矩,相对文心一言4.0弱一些。 kimiAI的语言流畅度跟通义千问类似,但对于主题的理解相对弱一些,文章的整体性相对最弱,有一些段落偏离了题目本身的意思。 天工AI的行文流畅、老练,只是有一两个段落显得有些生搬硬套,前后意思不一致,有意思的是,天工AI表现出了比较强的政治素养,写出来的内容不像高考作文,而更像申论作文,做政务公文类的可以优先考虑天工AI。 打分: 文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐ 通义千问 ⭐ ⭐ ⭐ ⭐ kimi AI ⭐ ⭐ ⭐ 天工AI ⭐ ⭐ ⭐ 3. 个性化内容对比 四个AI大模型都能够区分不同的口吻,同时,也能够区分不同的身份角色对于同一件事情所关注的不同的方面。 从8岁女孩的角度来介绍一辆新能源车,4个大模型都会把重点放在了车子是用电的、很神奇的描述上,也都用到了小孩子能理解的语言,用打比方的、形象化的描述来讲这个车子。其中,kimi AI对于角色年龄的把握比其他三个大模型稍微弱一点。 而从男企业家的角度来介绍新能源车,4个大模型都选择了将新能源车定义为这个企业家自己的产品,从更宏观的角度开始介绍这辆车,都表达了对于“未来出行”的创新和积极探索,侧重从技术的角度来介绍。 所以在个性化内容方面,4个大模型表现差不多,kimiAI要稍微弱一些。 打分: 文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐ 通义千问 ⭐ ⭐ ⭐ ⭐ ⭐ kimi AI ⭐ ⭐ ⭐ ⭐ 天工AI ⭐ ⭐ ⭐ ⭐ ⭐ 4. 逻辑性对比 AI思考逻辑测试,内容是一道经典的公务员考试的行测问题。 4个AI都在很短的时间内给出正确答案,AI参加公务员考试,估计能秒杀99.9%的人。 在回答的内容中,文心一言给到的思路最详尽、看起来条理也相对最清晰,而天工AI给到的思路最简略,没有描述太多的思考过程,我认为这是相对欠缺的。 AI续写逻辑测试,内容一个故事的续写。 我在故事里设计了3个人物,发现藏宝地图的小明、他的好朋友小帅、妹妹小美,而故事也是围绕着寻宝的冒险之旅展开,这样,就能考察AI对于人物的设定,是否符合逻辑,以及故事线是否符合逻辑。 在这个测试中,文心一言的表现相对较好,发挥了较强的对于人物风格的把控能力,能够在故事中写人物对话,对话的风格也符合3个人物的性格设定,故事内容更长,相对更细致。 而通义千问则发挥了更多的创造力,赋予了人物更多不同的特点,不过内容更概括简短。 kimi的表现与通义千问相似,也是通过赋予人物不同特点来塑造人物,对故事的描述更加细节一些,内容也稍长一点。 天工AI的内容则更加简短,没有把控不同的人物风格、也没有赋予人物不同的特点,表现相对是最弱的。 打分: 文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐ 通义千问 ⭐ ⭐ ⭐ ⭐ kimi AI ⭐ ⭐ ⭐ ⭐ 天工AI ⭐ ⭐ ⭐ 5. 时效性对比 这是我非常非常看重的方面,在内容的创作中,引用时下的热点资讯,对于自媒体运营而言,是一种重要的能力,所以我们会需要时效性强的AI。我用最新、一个月前、三个月前的三个问题来进行测试。 在这一轮测试中,表现最弱的,反而是曾经的搜索巨头百度所开发的文心一言。 对于2月29日前的最新热点“董宇辉为什么清空微博”这件事情的解释上,通义千问、kimi、天工三个大模型都给出了正确答案,只有文心一言给出的答案不正确。 对于一个月前哈尔滨的热点、三个月前的双十一销售额,则4个大模型都给出了正确答案。 同时,文心一言、kimi AI都给出了答案所引用的参考资料,但文心一言给的参考资料,主要都来自百度系自己的内容,主要是好看视频、百家号,但这里存在一个bug:大语言模型不能解析视频内容,所以对于董宇辉为什么清空微博这件事情,文心一言虽然根据视频的标题,找到了好看视频中的参考资料,但是因为不能解析视频内容,找到参考资料也看不懂,就像找到一份天书,仍然只能根据自己的逻辑编造一个回答。 而同样给出了参考资料的kimi AI,对于董宇辉清空微博的事件,则引用了更新的、也更全面的资讯。它引用了最近1天的内容链接,引用来源包括腾讯网、知乎、澎湃媒体等,搜索来源比文心一言更广。 我在使用kimi AI搜索AI相关的内容时,它能给到的参考资料范围也很广、很精准,除了主要来源知乎之外,还会给到包括GitHub、人民数据、中国通信院,和一些可以公域访问的数据报告的链接,搜索能力和时效性是比较强的。 另外2个AI大模型,通义千问和天工AI虽然没有给到引用链接,但对3个问题的回答都是准确的。 所以在时效性上,kimiAI最强,它不仅能比较大范围地搜索到相关资讯,并且能给出引用链接,让我们能够直接通过链接,去判断这个内容的有效性、是否正确,通义千问和天工AI相对较弱,因为不能给出引用链接,对我们判断起来相对更困难一点,最弱的是文心一言。 打分: 文心一言4.0 ⭐ ⭐ ⭐ 通义千问 ⭐ ⭐ ⭐ ⭐ kimi AI ⭐ ⭐ ⭐ ⭐ ⭐ 天工AI ⭐ ⭐ ⭐ ⭐ 6. 成本易用性对比 目前,4个AI大模型都能直接通过网页链接访问到,kimiAI、文心一言、天工AI都能在微信小程序里使用,非常方便,通义千问虽然没有官方的小程序入口,但是使用网页端也是比较方便的。在成本上,除了文心一言4.0需要49.9元的月费,或588.8元的年费,其他3款都是暂时免费。 打分: 文心一言4.0 ⭐ ⭐ ⭐ ⭐ 通义千问 ⭐ ⭐ ⭐ ⭐ ⭐ kimi AI ⭐ ⭐ ⭐ ⭐ ⭐ 天工AI ⭐ ⭐ ⭐ ⭐ ⭐ 三、总结在实际使用中,我一般会选择文心一言4.0加kimi AI的组合。 用kimiAI搜索资料、拓展内容,它是我目前比较喜欢用的搜索方式,在向kimiAI提问时,我会先看它给的回答,然后看它给的参考资料,其中有哪些资料是权威、官方的,比如数据报告等,在这些资料中找一找是否有新的信息。这样的搜索方式,比百度、小红书、微信搜索更加精准快速。 文本创作时,我会倾向于用文心一言4.0,它生成的内容更加流畅、符合逻辑,内容质量相对更高。 ------ 专栏作家 李子木说运营,公众号:李子木说运营,人人都是产品经理专栏作家。自媒体及IP孵化顾问,前互联网大厂品牌项目负责人,致力于研究企业及个人品牌影响力与获客。 本文原创发布于人人都是产品经理,未经许可,禁止转载 题图来自 Unsplash,基于 CC0 协议
OpenAI CEO爆料:GPT-5将颠覆AI界,你还等什么? 昨日,OpenAI的CEO Sam Altman在斯坦福大学的英伟达礼堂举办了一场公开演讲,向现场1000多名与会者分享了关于人工智能未来的独到见解。从GPT-5的性能预期、OpenAI的AGI征途,到Sora革新娱乐方式的设想,再到AI可能对人类工作岗位的影响等热门话题,Sam Altman的演讲内容深入且广泛。Sam Altman坚信,根据科学的预测,GPT-5将比现有的GPT-4更加智能,而GPT-6的智能水平又将远超GPT-5。他明确表示,目前OpenAI还未触及这一智能发展曲线的顶点。此外,他也谈到了AI技术的创新,认为仅仅复制GPT-4的技术路线并不足以引领AI领域的下一次范式转变。 在演讲中,Sam Altman将AI的潜力与iPhone对移动计算带来的革命性影响相提并论,强调了AI在改变世界方面的巨大潜力。同时,他也谈到了OpenAI的使命,即实现通用人工智能(AGI)。他提到,尽管开源是一种常见的技术发展方式,但OpenAI认为这并非实现AGI目标的最佳途径。相反,他们希望通过向公众提供免费且无广告的ChatGPT来扩大其社会影响力。 在谈及OpenAI的商业模式时,Sam Altman表示,无论投入多少资金,关键是要确保OpenAI能够持续为社会创造超出这些投资的价值,并找到合理的支付途径。他强调,尽管赚钱和资本主义是积极的因素,但OpenAI的合作伙伴在追求财务利益的同时,也严肃对待公司的使命。为了确保这一点,OpenAI已经建立了确保激励措施一致性的机制。 Sam Altman对于AI的未来发展持乐观态度。他表示,尽管有人担心AI会变得过于强大,但人类对于与同类交流的偏好是根深蒂固的。他举例说,尽管AI在下棋方面已经超越了人类,但人们仍然更喜欢观看人类之间的棋局。当然,他也提到了一些例外情况,比如青少年可能更愿意与AI聊天而不是与心理医生交流。 在演讲中,Sam Altman还提到了OpenAI在技术研发上的一些新进展。他们意识到Scaling Law的重要性后,已经将所有团队的计算资源集中起来,用于推进某一关键项目。他强调,不需要全新的数据,也能不断提升模型的推理能力。 Sam Altman进一步指出,AI并不是一种新的生物,而是辅助人类的工具。他认为,AI的普及和低价化有望消除社会不公,为全球带来益处。对于当前的创业者来说,他认为现在是进入AI领域的绝佳时机,但仅仅依赖AI技术并不能保证产品的成功。他警告说,许多人正在试图弥补AI的现有缺陷,但这种做法可能在未来变得毫无意义,因为GPT-5、GPT-6等更强大的模型将不断涌现。 Sam Altman还谈到了Sora项目,该项目旨在实现全新的娱乐方式。他表示,Sora将根据用户的喜好和互动实时生成不同的内容,有望在电影和游戏之间创造出一个全新的生态。他强调,OpenAI的目标是开发辅助人类的工具,而不是创造新的生物,因此他们并不认为ChatGPT需要具备情感。 在演讲的最后部分,Sam Altman谈到了AI对就业市场的影响。他预测,未来将诞生一个高薪职业,专门负责为AI模型生成的结果提供专业反馈。他认为,AI并不会抑制人类的创新能力,反而将激发人们利用更先进的工具创造出更多令人惊叹的成果。他引用历史经验表示,当人们得到更多支持时,他们的创造力将得到进一步发挥。 Sam Altman还强调,OpenAI有责任为现在和未来的人类创造一个更好的世界。他认为,AGI有潜力替代某些专业职业,如律师和医生,从而使这些服务更加普及,特别是对世界较贫穷的一半人口将带来更大的帮助。 据ITBEAR科技资讯了解,昨天英伟达CEO黄仁勋向OpenAI交付了世界上第一台DGX H200超级计算机。这一举动不仅体现了英伟达对OpenAI的支持,也预示着双方在AI领域的合作将进一步深化。回溯至2016年,黄仁勋也曾将世界上第一台DGX-1 AI超级计算机捐赠给OpenAI,为ChatGPT的诞生提供了强大的计算支持。这一历史性的时刻见证了OpenAI在AI领域的快速发展和取得的卓越成就。 此外,OpenAI总裁Greg Brockman在最新晒出的合照中并未出现前首席科学家Ilya Sutskever的身影,引发了网友的调侃和猜测。有人调侃说Ilya或许在箱子里,也有人热心地将Ilya P到合照中,以弥补这一“缺席”的遗憾。上个月,Sam Altman在接受采访时表示,Ilya从未见过AGI,他们任何人都还没有造出AGI。这一表态引发了关于AGI实现时间和OpenAI技术进展的更多讨论和期待。 关于AGI的实现和GPT-5的具体性能,除了等待今年夏天发布的GPT-4.5/5揭晓答案外,也许只有“消失”的Ilya Sutskever能为我们提供更多线索。然而,无论如何,Sam Altman的演讲为我们提供了一个窥探AI未来发展的重要窗口,让我们对人工智能的潜力和可能带来的变革有了更深入的理解。 --- 4月25日晚,OpenAI联合创始人兼首席执行官Sam Altman,在斯坦福大学的英伟达(NVIDIA)礼堂进行了公开演讲,超过1000名学生排队参加此次活动。 Altman说:“GPT-5将会比GPT-4更强大,GPT-6将会比GPT-5更智能,OpenAI的终极目标始终都没有变就是实现——AGI(通用人工智能)。” 以下是本次演讲的一些关键信息总结: 1. Sam Altman的演讲:作为OpenAI的联合创始人兼首席执行官,Sam Altman在斯坦福大学的NVIDIA礼堂进行了演讲,吸引了超过1000名学生。 2. AI的未来发展:Altman认为,人类尚未达到AI的极限,并且OpenAI的目标是实现通用人工智能(AGI)。他提到GPT-5将比GPT-4更强大,而GPT-6将比GPT-5更智能。 3. 开源与闭源:Altman认为,为了实现AGI,需要大量的资金投入,因此开源可能不是最佳途径。OpenAI从最初的开源策略转变为闭源,以确保商业回报和持续创新。 4. 资金与投资:他提到,为了推动AGI的发展,无论每年需要多少资金,只要能为全人类和AI领域做出贡献,他都不在乎。 5. OpenAI的核心能力:OpenAI的核心能力在于技术变革,能够定义AI能力的下一个范式转变。 6. Sora模型:OpenAI发布了文生视频模型Sora,这可能会对影视、游戏开发、广告营销等行业产生重大影响。 7. 免费使用ChatGPT:OpenAI宣布无需注册就能免费使用ChatGPT,这有助于那些没有能力开发类似产品的国家或地区。 8. 英伟达与OpenAI的合作:英伟达创始人黄仁勋向OpenAI捐赠了先进的AI超级计算机,这表明了两家公司之间的紧密合作关系。
深度学习模型——Diffusion 在训练 Diffusion 模型时,我们可以遵循怎样的阶段?这篇文章里,作者围绕训练 Diffusion 的过程、应用 Diffusion 模型阶段等内容做了梳理和讲解,不妨来看一下。高斯噪声:是一种符合正态分布的随机噪声。 一、训练 Diffusion 全过程 1. 数据准备 我们准备若干张真实图片作为模型训练和测试的基础数据。这些图片可以是各种类型的图像,如:风景、人物、动物、艺术品等,他们代表了模型需要学习和生成的图像类型。 2. 正向扩散过程 接下来就是对每张真实图片进行“数据扩散处理”,也就是逐渐添加高斯噪声。我们通过一些列连续的时间步(t=1,2,3 … .T),在每个时间步上向上一步得到的图片添加不同强度的高斯噪声。随着 t 的增加,噪声强度逐渐增大,图像的细节逐渐被噪声掩盖,知道最终在时间步 T 时,图像几乎完全被随机噪声覆盖,但仍保留了极其微弱的真实图像痕迹。 时间步具体多少怎么确定? 这个数值一般是一个迭代实验过程得出的,且可能因模型类型、应用场景、可用计算资源等因素有所不同。实践中 Diffusion 模型可能会使用如:100 步、200 步、500 步等。具体数值会在相关论文、开源代码或实践经验分享中明确给出,实际应用中,我们可以参考这些值在结合自身需求进行适当的调整。 3. 逆向扩散过程 | 学习阶段 在训练过程中,给定一张带有噪声的图像,输入到 UNet 网络,会生成一个预测噪声图(UNet 这块看不太懂可以看下面 UNet 的介绍),然后用原始噪声图减去预测噪声图,得出减噪后的图像,然后将减噪后的图像在输入到 UNet 网络,继续做相同的步骤,使其逐步逼近原始图像数据。 总结: 训练 Diffusion 模型时,首先使用正向扩散过程生成大量带有不同噪声级别的样本对(真实图片与对应时间步的噪声图片),然后使用这些样本对 来训练 UNet 去噪网络。通过反向传播算法更新网络权重,使网络在给定任何时间步 t 的图像时,能够准确的预测并去除噪声,逐步逼近真实的图像数据。 二、应用 Diffusion 模型阶段 逆向扩散过程 | 推理阶段 当模型训练完成后,就可以用来生成新的图像。此时,面对一张模糊的图片,可以直接应用已训练好的逆向扩散过程,即使用模型来预测并逐步去除其上的噪声,以达到增强清晰度的目的。 三、UNet 1. 定义 UNet 是一种专门为图像分割任务设计的卷积神经网络,以其 U 行结构而得名。它包含一个编码器(左半部分),用于特征提取和下采样(缩小图像尺寸),以及一个解码路径(右半部分),用于特征上采样(放大图像尺寸)和重建。在去噪任务中,UNet 被用来学习从带有噪声的图像中恢复出原始图像。 2. 作用 在 Diffusion 模型中,UNet 承担着一个特定的任务 - 预测随机噪声。 UNet 被用来逆向估计在给定当前带有噪声的图像的状态下,应该添加或减去什么样的噪声才能更接近原始、无噪声的目标图像。 3. 如何预测噪声? 1)输入有哪些 当前带有噪声的图像:不同阶段可能有所不同,如在 Diffusion 模型训练阶段,当前带有噪声的图像则是正向扩散后生成的噪声图像;在 Diffusion 模型使用阶段(图生图情况),当前带有噪声的图像则是用户输入的图片。 时间步信息(可能):可能会接收一个表示当前处于整个去噪过程哪个阶段的额外输入,帮助它勒戒应该去除多少噪声。 2)预测噪声过程 UNet 会应用强大的特征提取和重建能力,对输入的带有噪声的图像进行分析。它会通过编码器部分提取图像的多层次特征,这些特征包含了图像的全局结构、局部细节以及噪声分布的线索。接着在解码器部分,UNet 会逐步放大特征图,并结合跳跃连接传来的底层细节信息,来预测应该去除的噪声。 3)最终输出什么 UNet 的输出是一个与输入图像同样大小的新图,但它不是一张普通的图像,而是一张噪声图,每个像素位置上的值代表了对该位置应该添加或减去的噪声强度(通常为某个范围内的连续数值)。这个噪声图指示了如何调整输入的带噪图像,使其更接近目标的清晰图像。 四、作用 / 优缺点 1. 作用 图像修复与增强:模型可以用来去除图像噪声、修复破损部分、甚至提升图像质量。 图生图 2. 优点 可以高质量生成:甚至达到难以区分真假的程度。 灵活性与多样性:可以根据提示词生成各种主题、风格、构图的图像。 适应多种数据类型:尽管已图像生成而知名,但是也可以应用于音频、视频等其他类型数据的生成 3. 缺点 计算成本高:去噪过程需要大量的计算资源(CPU、GPU)和内存,对硬件要求高。 参数调整复杂:模型包含总舵参数,需要精细调整已达到最佳性能,使用者需要有一定的专业知识。 依赖高质量数据与预处理:模型生成效果的好坏很大程度上取决于训练数据的质量以及预处理方法是否恰当。 题图来自 Unsplash,基于 CC0 协议。 --- 本帖转自 ZAKER
Open-Sora悄悄升级 支持16秒视频生成和720p分辨率 Open-Sora 在开源社区悄悄更新了,现在,该项目不仅支持长达16秒的单镜头视频生成,而且视频分辨率最高可达720p,能够处理各种宽高比的文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频的生成需求。技术报告与模型架构: Open-Sora技术报告已在GitHub上发布,详细介绍了新功能和模型架构。 作者团队对STDiT架构进行了关键性改进,提高了模型的训练稳定性和整体性能。 引入了旋转位置编码(RoPE embedding)和QK归一化技术,以增强训练稳定性。 ST-DiT-2架构能够自动缩放位置编码,处理不同大小尺寸的输入。 多阶段训练方法: Open-Sora采用了多阶段训练方法,通过分步骤引入数据,高效实现高质量视频生成。 初始阶段视频采用144p分辨率,混训图片和更高分辨率视频。 第二阶段提升至240p和480p分辨率,第三阶段进一步增强至480p和720p。 统一的图生视频/视频生视频框架: 基于Transformer,DiT架构可支持图像到图像及视频到视频任务。 提出掩码策略来支持图像和视频的条件化处理。 掩码策略配置: 引入了随机掩码策略,以随机方式选择并取消掩码的帧,提高模型处理图像条件化的能力。 支持多时间/分辨率/长宽比/帧率训练: 通过分桶策略,使用原始视频的分辨率、长宽比和长度进行训练,增加采样灵活性。 数据收集和预处理流程: 作者团队提供了详尽的数据收集与处理指南,分享了自动化的数据处理流程。 性能全方位评测: Open-Sora能够将文字描述转化为动人的动态视频,支持多种内容、分辨率、长宽比和时长的生成。 尽管取得了进展,但当前生成的视频在噪声问题、时间一致性、人物生成质量以及美学评分方面仍有待改进。作者团队将在下一版本中优先解决这些挑战。 项目地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Ftop.aibase.com%2Ftool%2Fopen-sora&urlrefer=280000527a0e3f46fcae9534d5086469 体验地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fhuggingface.co%2Fspaces%2Fhpcai-tech%2Fopen-sora&urlrefer=ab4a08aae5a85e91dd26d30935e47c6f
三分之二制药业顶级公司禁止员工使用 ChatGPT 最近 ZoomRx 进行的一项调查显示,20家最大的制药公司中有三分之二禁止员工使用 ChatGPT,这是因为他们担心敏感内部数据的安全问题。图源备注:图片由AI生成,图片授权服务商Midjourney 尽管 ChatGPT 在药物开发中有提高效率和效果的潜力,但大多数制药公司对这项技术持谨慎态度。许多生命科学专业人士虽然定期使用 ChatGPT,但他们中有83% 认为这项技术被 “高估”。 制药公司普遍将 AI 视为降低成本的手段,同时担心数据安全和隐私问题。然而,也有例外情况。根据 OpenAI 的说法,Moderna 正在进行名为 Dose ID 的试点项目,使用 ChatGPT 分析和可视化大型数据集,以确定最佳疫苗剂量。
《这就是ChatGPT》登顶微信读书热搜榜第一名 今日,据微信读书热搜榜显示,《这就是ChatGPT》登顶微信读书热搜榜第一名。据悉,《这就是 ChatGPT》是一本由 [美] 斯蒂芬・沃尔夫拉姆(Stephen Wolfram)于2023年7月出版的图书,由人民邮电出版社出版。 该书主要介绍了 OpenAI 开发的人工智能聊天机器人程序 ChatGPT,该程序于2022年11月推出。ChatGPT 能够生成表面上看起来像人类写的文字,引起了广泛的关注和讨论。 本书对 ChatGPT 这一人工智能技术进行了深入剖析和解释,为读者提供了对这一新兴技术的深入了解和认识。 本书内容主要包括两个部分: 第一部分介绍了 ChatGPT 的内部机制和原理,探讨了为何它能够很好地生成有意义的文本。涉及内容包括:ChatGPT 的训练、神经网络、模型、概率、嵌入概念、意义空间、语义运动定律等。 第二部分讨论了如何利用 Wolfram|Alpha 为 ChatGPT 赋予计算知识超能力。通过一些例子,展示了 ChatGPT 和 Wolfram|Alpha 的结合可以达到怎样的效果。 ChatGPT 是 OpenAI 研发的一款聊天机器人程序,于2022年11月30日发布。这是一个基于人工智能技术的自然语言处理工具,能够在预训练阶段学习模式和规律,生成回答并根据上下文进行互动。它可以像人类一样进行聊天交流,并完成撰写论文、邮件、脚本、文案、翻译、代码等任务。 2024年4月1日,OpenAI 宣布用户可以直接使用 ChatGPT,无需注册服务。
苹果特别活动正式官宣,新款iPad Pro或即将亮相 4月23日晚,苹果官方宣布将于5月7日22:00举行5月新品发布活动,本次活动以“放飞吧(Let Loose)”为主题,采取线上方式举行,届时将在苹果官网同步直播。与往年相比,苹果今年发布新品的节奏有些出乎意料。苹果此前通常会在3月底或者4月初举办特别活动并发布春季新品,但今年,苹果先是在没有任何预告的情况下,直接更新MacBook Air产品线,发售了13英寸和15英寸的M3 MacBook Air,然后又官宣5月举行特别活动,打破了人们对苹果产品迭代的固有认知。 突破常规往往意味着惊喜,从苹果官方发布的宣传物料来看(6个新Logo和一段动画),主Logo上有明显的Apple Pencil元素,小雷认为这很有可能是苹果发布第三代触控笔Apple Pencil 3的明显信号。除此之外,另外5个极具设计感的Logo均以笔刷为主题,可能分别对应着不同型号的iPad新品,毕竟Apple Pencil也是iPad的配件之一,以Apple Pencil 3为轴,维系全新iPad产品线,听上去也挺合理。 如果雷科技的猜测正确,那么苹果Let Loose活动的重点将是新一代iPad硬件和配件,比如大家期待已久的史上最大尺寸iPad Air、OLED屏M3 iPad Pro以及Apple Pencil 3等。© 雷科技leitech Apple Pencil 3 上演配件逆袭戏码? 作为本次特别活动的主角之一,Apple Pencil可以聊的事情还真不少。上一代Apple Pencil于2018年10月30日发布,搭载一个可更换的非磁性笔尖,Apple Pencil 2可以磁性地附着在2018年及以后的iPad Pro、2020年及以后的iPad Air和最新的iPad mini上,国行售价999元。 而Apple Pencil产品线的最新产品则是2023年发售的Apple Pencil(USB-C),Apple Pencil(USB-C)售价为649元,是目前最便宜的一款Apple Pencil,虽然换用了USB-C接口,且性价比较高,但也移除了压力感应、无线充电等功能,相当于阉割版。 对于专业创作的用户来说,无论是有些过时的Apple Pencil 2,还是阉割版的Apple Pencil(USB-C),都难以满足他们的创作需求。因此,Apple Pencil 3来了。 爆料信息显示,Apple Pencil 3引入了不同尺寸的可更换磁性笔尖,可以根据用户的绘画需求,提供更丰富的输入选项,进一步丰富用户的绘画体验;设计方面,根据博主Mac Otakara分享的消息,Apple Pencil 3外观基本沿用上一代的设计,有可能会缩短长度,令表面更圆润,其余基本一致;另外,就是和Apple Pencil(USB-C)一样的USB-C 端口了,适用于所有iPad。 除了基础信息外,雷科技还发现了Apple Pencil 3的潜在亮点。在iPadOS 17.5的测试版中,多段代码指向新款Apple Pencil将拥有一项重要更新:挤压手势(squeeze)。即允许用户通过按压Apple Pencil的笔杆表面,进行简单交互,使用户能在进行其他操作的同时,灵活添加形状、签名、贴纸或文本等内容。结合Apple Pencil关于“在不具备触摸功能的表面上实现交互”的新专利,Apple Pencil 3或许还能配合Vision Pro等混合现实设备使用,这在一定程度上减轻了用户通过眼球、手势完成交互的负担。 当然,这项功能当前仍处于测试阶段,按照苹果的习惯,可能不会马上应用在Apple Pencil 3上。即便没有用上新的交互专利,相信Apple Pencil 3也会给专业创作的用户带来一定惊喜。 不过究竟是惊还是喜,还要看Apple Pencil 3如何定价,参考Apple Pencil 2的售价,Apple Pencil 3本体价格或许还将是999元,但可更换的磁性笔尖就难说了。雷科技预测苹果可能会将利润点设置在Apple Pencil的配件上,不过如果真能给用户带来更多专业创作的便利,即使售价高点,相信也会有不少果粉愿意入手。 iPad重新出发,两大亮点产品打头阵 特别活动的另一位主角,自然是沉寂了一整年的iPad产品线了。 根据爆料,苹果将在本次活动发布新款iPad Pro/Air,其中新版iPad Pro预计搭载M3芯片,拥有11英寸和13英寸两种屏幕尺寸,同时可能对后置摄像头模组及Face ID摄像头进行调整。iPadOS 17.4中关于“Face ID”的代码,强调了iPad在设置Face ID时需保持横向。iPad Pro作为目前唯一配置Face ID的iPad产品,将大概率配置横向Face ID摄像头。此前苹果为了增强设备在横屏状态的使用体验,将第十代iPad的前置摄像头改到侧面,相信此次iPad Pro的改动也是出于同样目的。 除此之外,新款iPad Pro将首次采用OLED屏。据业内人士透露,苹果即将发布的新款iPad Pro平板电脑将采用双层串联结构的OLED显示屏,LG Display供应13英寸的OLED屏幕,而三星显示则供应11英寸的OLED屏幕。 有了OLED屏幕加持,新款iPad Pro亮度、色彩等显示效果将进一步提升,并且厚度也将得到显著改善。MacRumors分享的新款iPad Pro CAD设计草图显示,13英寸iPad Pro厚度减少了1.4毫米,比现有型号薄了大约22%。 iPad Air同样迎来了不小的升级,最直观的改变是屏幕尺寸。新款iPad Air拥有10.9英寸和12.9英寸两种型号,直接将iPad Air平板尺寸提升到了苹果史上的最大标准,将其称为苹果史上最大尺寸iPad Air也丝毫不过分。 大屏幕尺寸对消费电子的影响,我们已经在手机、平板、笔记本电脑等设备上见识过了,相信苹果应该是出于销量考虑,才会选择将iPad Pro的最大尺寸下放至iPad Air。 核心配置方面,两个尺寸的iPad Air都将采用传统的LCD屏幕,预计搭载M2芯片,其余配置变化不大。除了尺寸增大外,新款iPad Air看上去只是进行了常规迭代,升级力度远没有想象中大,考虑到iPad Pro在iPad产品线的地位,相信苹果的升级重心依然会在iPad Pro上。 去年iPad产品“零更新”,让苹果丢掉了全球平板电脑市场出货量冠军的头衔,今年苹果选择用iPad Pro/Air为略显疲态的iPad产品线注入新能量。两者虽然都进行了不同程度的创新,但对比越做越好的安卓平板,iPad在高端平板上的优势正在逐渐缩减,日常影音娱乐方面,性价比更高的安卓平板也能提供不输iPad的体验效果。面对以上局势,苹果通过与新款Apple Pencil的联动,稳固并吸引有专业创作需求的用户群体,或许才是iPad接下来的重点方向。至于iPad产品线能否在2024年挽回丢失的市场份额,重新成为全球出货量冠军,让我们拭目以待。 硬件升级是为了更好实现智能化? 苹果5月特别活动预计发布的Apple Pencil和iPad系列产品确实值得期待,但在雷科技看来,以上产品都不足以扭转苹果当前颓势。上文提到苹果在全球平板电脑市场面临的困境,其实不只是平板电脑,就连苹果的核心营收产品iPhone也遇到了挑战。 市场调研机构IDC公布了2024年Q1全球智能手机市场的出货量,苹果Q1市场份额同比下滑9.6%,丢掉了去年刚取得的全球智能手机出货量冠军头衔。 因此,苹果今年的一切举动都格外引人关注,大家都好奇苹果将如何扭转局势。在Let Loose特别活动定档前,苹果就已经宣布了WWDC2024的举行时间,不出意外的话,AI将是本届WWDC的重点。预计iOS和iPadOS都将加入全新的AI功能,雷科技此前已对iOS做过相关解读,这里就不赘述了。iPadOS如何实现AI化,雷科技认为可以参考风头正盛的AI PC,目前绝大多数AI PC的AI功能都是围绕专业创作和高效办公两个大方向展开的。 其中专业创作是iPad和Apple Pencil的优势所在,如果能通过与不同领域的专业模型相结合,实现更便捷的绘画、音乐等创作,相信会受到不少用户的青睐。这点可以参考联想ThinkPad的AI专业创作功能,AI智能体与法律、绘画、音乐、编程等专业模型的结合,大大降低了零基础用户的创作难度。如果真能实现,iPad的目标用户群体又将进一步扩大,不再局限于专业创作用户。 苹果M4芯片大概率在今年年底亮相,届时搭载M4芯片的iPad产品又将引来新一轮硬件升级,在AI运算核心数、效能及NPU数量上得到提升。硬件升级是为了更好的实现智能化,苹果在AI手机和AI PC的进度已经落后于其他厂商,如果能通过AI iPad实现弯道超车,将是苹果在AI时代的翻身之作。
Copilot字符数上限继续调高,并支持更多文件格式 日前微软方面宣布,已将Windows 10、Windows 11系统、网页版,以及Edge浏览器中的人工智能助手Copilot的字符上限调整至最高1.6万个。 据了解,网页版和Windows版Copilot上线时字符上限为2000个,随后增加到4000个。在此次更新后,对于普通用户而言,Copilot在“更有创意”模式下字符上限将调整为8000个,付费订阅Copilot Pro用户的Copilot字符数上限则为1.6万个。据悉,Copilot Pro于今年1月上线、月费为20美元/人,目前已覆盖全球超过200个国家和地区。订阅该服务的用户将能够优先访问OpenAI的最新大模型GPT-4 Turbo、并在高峰时段获得更快的性能,使用Designer的AI生成图像功能,体验到支持Copilot的Word、Excel、PowerPoint、Outlook、OneNote等应用(在订阅Microsoft 365个人版或家庭版的情况下)。 值得一提的是,除直接上调Copilot字符上限外,微软方面此前还曾通过其他方式允许用户输入更长的文本提示。例如在今年2月,微软方面为网页版Copilot新增了一项“笔记本”(Notebook)功能。 据微软副总裁兼Copilot工程与产品负责人约尔迪·里巴斯(Jordi Ribas)介绍,笔记本功能是为那些希望“迭代提示以获得最佳结果”的用户设计的,目前支持多达1.8万个字符。微软Bing总负责人迈克尔·谢克特(Michael Schechter)也曾强调,网络版Copilot上的笔记本功能是处理复杂问题和项目的更好方式,且无需通过正常的Copilot聊天式界面。 具体而言,笔记本功能为用户提供了一种与Copilot交互的新方式,当用户在页面左侧输入栏中输入文本提示后,Copilot将在页面右侧给出回复。然后用户可以进一步编辑和改进输入的文本提示,并继续查看Copilot生成的结果。 除字符上限上调外,Copilot还已经支持PDF、Word、Excel等格式文件。据悉,用户在上传PDF等格式的文件后,可要求Copilot总结、解释、扩展或翻译,而且能够调用Bing Search检测文档中内容,以判断其真实性。
戴尔解释如何检查Windows 11计算机是否"支持AI" 如果你最近买了一台新的 Windows PC,现在想知道它是否符合"人工智能 PC"或"支持人工智能"的计算机的条件,戴尔公司可以为你提供所需的答案。戴尔公司发布了一个支持页面,详细解释了Windows电脑"AI-Enabled"的含义。 据戴尔公司称,用于更高效地处理基于人工智能的任务的专用硬件和软件可以让你的电脑"启用人工智能"。虽然传统计算机也可以使用人工智能,但专用硬件加速器可以优化处理过程,降低能耗。这种"专用硬件"被称为 NPU 或神经处理单元: NPU 经过优化,可处理深度学习算法所需的复杂计算。这种优化使 NPU 在处理人工智能任务(如自然语言处理、图像分析等)时具有惊人的效率。NPU 集成在 CPU 中,衡量 NPU 性能的一个标准是每秒 Tera 运算次数(TOPs)。Windows 11 需要一个专用的 NPU 来处理 Windows Studio 特效,其中包括背景模糊、眼部接触校正、自动取景和语音对焦。不过,得益于 Windows 11 最近的改进,Voice Clarity很快就能在所有系统上使用。电脑还需要一个 NPU 来处理即将推出的下一代 Windows 11 功能,例如传闻中的 AI Explorer。 在效率方面,戴尔表示,搭载英特尔最新酷睿Ultra处理器的电脑通过将自动成帧、背景模糊和眼球跟踪功能从 CPU 卸载到 NPU,在 Zoom 通话期间最多可节省 38% 的电池。 采用英特尔第 14 代处理器、AMD Ryzen 7000 和8000 系列以及高通公司 Snapdragon 8cx Gen2 或Snapdragon X Elite及更新处理器的电脑中都有专用神经处理单元。要检查您的电脑是否有 NPU,可以启动任务管理器并转到"性能"选项卡。受支持的电脑在 CPU、内存、存储、网络和 GPU 旁边会显示"NPU 0"。 或者,进入设备管理器,查找 Intel AI Boost(在 Intel 系统上)或 AMD IPU Device(在 AMD 系统上)。如果看不到这些设备,则可能需要从制造商网站下载驱动程序。采用高通芯片的电脑已预装 NPU 驱动程序,可通过 Windows Update 下载。你可以在戴尔的官方网站上找到更多关于"AI-enabled"PC 的信息。有趣的是,英特尔最近也发布了类似的信息,确认如果电脑拥有 NPU 和带有专用物理按键的 Copilot,那么它就有资格成为"AI PC"。
微软CEO纳德拉:若没有微软早期支持,OpenAI就不会存在 4月23日消息,据外媒Benzinga当地时间周一报道,微软公司首席执行官萨蒂亚・纳德拉(Satya Nadella)近期接受采访,强调了微软在领先的人工智能公司OpenAI的发展中所发挥的“关键作用”。 “如果没有我们的早期支持,OpenAI就不会存在。如今,他们已成为一家令人难以置信的公司,能参与他们的发展历程也使我们与有荣焉。”纳德拉如是说。 纳德拉还讨论了更广泛的AI领域,并称主要的科技公司之间存在“良性竞争”,为全球进步创造重要机会。“我认为,当所有的人都在相互竞争时,这是非常健康的,这意味着它为世界创造了真正的获益机会。” 纳德拉表示,每当有人对现有的企业感到兴奋时,人们就必须得提防新入局的玩家了。2019年,微软向OpenAI投资10亿美元(当前约72.5亿元人民币),2021年追加投资100亿美元(当前约725亿元人民币)。尽管微软先后向OpenAI投入了这些巨额资金,但其并不持有OpenAI的任何所有权。相反,它有权从特定的OpenAI子公司获得一定数额的利润分成。 微软发言人弗兰克・肖曾在去年12月表示,“我们协议的细节仍然保密。但必须指出的是,微软并不拥有OpenAI的任何股份,我们只是有权分享利润分配。”
百度百科App将于6月30日关闭服务 4月23日,根据百度百科App下线通知,百度百科团队决定于2024年6月30日关闭百度百科App的服务,将在百度App中的百度百科小程序继续提供服务。根据苹果App Store数据,百度百科App位列“参考资料”类App第109名,有492个评分,目前评分3.1分。根据版本历史记录,百度今天还对百度百科App进行了更新。
清华权威报告:文心一言4.0多项指标遥遥领先 由清华大学基础模型研究中心最新发布的2024年3月版《SuperBench大模型综合能力评测报告》中,共涵盖了14个具有海内外影响力的模型。 在此次评测中,文心4.0的表现令人瞩目,其性能接近国际顶级模型,且与顶尖模型的差距正在逐步缩小,堪称国内领先模型。例如,在人类对齐能力的评测中,文心4.0以卓越的表现位居国内首位。 在中文推理和中文语言的评测中,文心4.0遥遥领先,与其他模型相比,差距明显。在中文理解上,文心4.0的领先优势尤其突出,比第二名的GLM-4高出0.41分。 在语义理解的数学能力评测中,文心4.0与Claude-3并列全球第一,而GPT-4系列模型则位列第四和第五,其他模型的得分主要集中在55分左右,显著落后于领先群体。 在阅读理解能力的评测中,文心4.0超越了GPT-4 Turbo、Claude-3以及GLM-4,取得了最高的成绩。 在企业最关注的安全性评测中,文心4.0同样表现出色,力压国际一流的GPT-4系列模型和Claude-3,获得了最高分(89.1分),而Claude-3仅位列第四。 数据还显示,自去年3月16日文心一言首次亮相以来,用户数量已经突破了2亿,每天的API调用量也超过了2亿次。--- 本帖转自一览vaas
从GPT到GPTs,我们有了越来越多专属的GPT能力 去年,OpenAI首次开发者大会推出GPT Store,其中简易定制GPT工具(GPTs)引发开发热潮,一周时间GPTs的数量就达到1.5万个。 简单来说,GPTs就是无需编程经验,只使用自然语言或者配置一些参数, 就可以快速构建一个基于GPT,拥有专属技能的AI应用。 相比GPT,GPTs更注重用户的个性化需求和定制化开发,这种定制化的服务模式使得GPTs在教育、医疗、金融等领域都具有广泛的应用前景。 之前很多GPT套壳应用就是基于GPT的API去做Prompt工程,实现某一领域的专业能力。因为与GPTs的理念异曲同工,也让很多GPT套壳创业企业大受打击,所以要做一款优质的垂类GPTs最关键的一定要有独家专业数据做基础,才能形成竞争壁垒和特色。。 在GPT Store,人人都可以成为开发者,做出自己的 AI。现在每天都有上千个GPTs产生,GPTs的不断汇集也形成了像Apple Store一样的形态,成为AIGC时代的应用商店。 本期数字化转型方略将对图像生成、写作、生产率、研究与分析、编程、教育和生活方式几个场景现有最火爆的GPTs进行分析,看看在细分场景下它们为何能脱颖而出。同时我们也针对这些场景创建出一套自己的Prompt,为处理某一专项工作提出见解。 未来,GPTs预计将进入更多领域,像环境科学、城市规划等,利用其强大的数据分析能力帮助解决更广泛的社会问题。然而,这一进程也伴随着挑战,例如如何保证AI生成内容的真实性和安全性,以及如何处理模型潜在的偏见问题。 希望我们提供的Prompt可以让您在使用AI时,获得最满足您需求的答案。
Win 10/11未激活时可能无法修改Microsoft Edge浏览器部分设置 据 Windows Report 发布的消息,微软正在 Microsoft Edge 浏览器金丝雀版中测试新选项:msEdgeLockSettingsInNonActivatedOS 这个选项的字面意思就是当系统未激活时锁定 Microsoft Edge 设置,也就是无法修改浏览器的某些设置,这与 Windows 10/11 的激活策略是相同的。 在没有激活的情况下,Windows 10/11 部分设置无法操作,例如无法修改头像、更改桌面设置、修改主题颜色、桌面右下角出现未激活水印、不定期提醒用户激活等。在测试机中对这个新选项进行测试发现暂时还未生效,也就是即便激活这个选项后 Microsoft Edge 金丝雀版的设置也是没有锁定的,所以不影响正常使用。 不过我们总觉得这个设置略微有些奇怪,毕竟浏览器是浏览器、系统是系统,Windows 系统确实需要授权后才能使用,但 Microsoft Edge 浏览器是一款免费软件,按理说不应该与系统激活选项捆绑。 所以后续很有可能微软会放弃这个策略而不会在正式版中推出,具体让我们等等看看有没有后续消息。 PS:如果你想测试的话请按照以下流程操作 系统:Windows 10/11 备份激活密钥后在命令提示符中 slmgr -upk 删除密钥即可变成未激活状态 下载:安装 Microsoft Edge Canary 版 选项:在快捷方式属性里追加 空格 –enable-features=msEdgeLockSettingsInNonActivatedOS 注:请复制命令,空格后的第一个连字符是两个连字符,显示看起来像是一个,第二个连字符是一个。
发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试 前段时间,微软公布并开源了最新一代大模型WizardLM-2,号称性能堪比GPT-4。不过,还未上线一天,模型权重和公告全被删除了,原因竟是...... 上周,微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。 却没想到发布几小时之后,立马被删除了。 有网友突然发现,WizardLM的模型权重、公告帖子全部被删除,并且不再微软集合中,除了提到站点之外,却找不到任何证据证明这个微软的官方项目。GitHub项目主页已成404。项目地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fwizardlm.github.io%2F&urlrefer=06b9d18a1f2e5e7a70df35cc64225131 包括模型在HF上的权重,也全部消失了.....全网满脸疑惑,WizardLM怎么没了?然鹅,微软之所以这么做,是因为团队内部忘记对模型做「测试」。 发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试© 由 新智元 提供 随后,微软团队现身道歉并解释道,自几个月前WizardLM发布以来有一段时间,所以我们对现在新的发布流程不太熟悉。 我们不小心遗漏了模型发布流程中所需的一项内容 :投毒测试微软WizardLM升级二代 去年6月,基于LlaMA微调而来的初代WizardLM一经发布,吸引了开源社区一大波关注。论文地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Farxiv.org%2Fpdf%2F2304.12244.pdf&urlrefer=a3a400e913029c726ec61844c665a716 随后,代码版的WizardCoder诞生——一个基于Code Llama,利用Evol-Instruct微调的模型。 测试结果显示,WizardCoder在HumanEval上的pass@1达到了惊人的 73.2%,超越了原始GPT-4。 时间推进到4月15日,微软开发者官宣了新一代WizardLM,这一次是从Mixtral 8x22B微调而来。 它包含了三个参数版本,分别是8x22B、70B和7B。最值得一提的是,在MT-Bench基准测试中,新模型取得了领先的优势。 具体来说,最大参数版本的WizardLM 8x22B模型性能,几乎接近GPT-4和Claude 3。 在相同参数规模下,70B版本位列第一。 而7B版本是最快的,甚至可以达到与,参数规模10倍大的领先模型相当的性能。WizardLM 2出色表现的背后的秘诀在于,微软开发的革命性训练方法论Evol-Instruct。 Evol-Instruct利用大型语言模型,迭代地将初始指令集改写成越来越复杂的变体。然后,利用这些演化指令数据对基础模型进行微调,从而显著提高其处理复杂任务的能力。 另一个是强化学习框架RLEIF,也在WizardLM 2开发过程中起到了重要作用。 在WizardLM 2训练中,还采用了AI Align AI(AAA)方法,可以让多个领先的大模型相互指导和改进。 AAA框架由两个主要的组件组成,分别是「共同教学」和「自学」。 共同教学这一阶段,WizardLM和各种获得许可的开源和专有先进模型进行模拟聊天、质量评判、改进建议和缩小技能差距。通过相互交流和提供反馈,模型可向同行学习并完善自身能力。 对于自学,WizardLM可通过主动自学,为监督学习生成新的进化训练数据,为强化学习生成偏好数据。 这种自学机制允许模型通过学习自身生成的数据和反馈信息来不断提高性能。 另外,WizardLM 2模型的训练使用了生成的合成数据。 在研究人员看来,大模型的训练数据日益枯竭,相信AI精心创建的数据和AI逐步监督的模型将是通往更强大人工智能的唯一途径。 因此,他们创建了一个完全由AI驱动的合成训练系统来改进WizardLM-2。手快的网友,已经下载了权重 然而,在资料库被删除之前,许多人已经下载了模型权重。 在该模型被删除之前,几个用户还在一些额外的基准上进行了测试。好在测试的网友对7B模型感到印象深刻,并称这将是自己执行本地助理任务的首选模型。 还有人对其进行了投毒测试,发现WizardLM-8x22B的得分为98.33,而基础Mixtral-8x22B的得分为89.46,Mixtral 8x7B-Indict的得分为92.93。 得分越高越好,也就是说WizardLM-8x22B还是很强的。如果没有投毒测试,将模型发出来是万万不可的。 大模型容易产生幻觉,人尽皆知。 如果WizardLM 2在回答中输出「有毒、有偏见、不正确」的内容,对大模型来说并不友好。 尤其是,这些错误引来全网关注,对与微软自身来说也会陷入非议之中,甚至会被当局调查。 有网友疑惑道,你可以通过「投毒测试」更新指标。为什么要删除整个版本库和权重? 微软作者表示,根据内部最新的规定,只能这样操作。 还有人表示,我们就想要未经「脑叶切除」的模型。 不过,开发者们还需要耐心等待,微软团队承诺,会在测试完成后重新上线。
今天也要加油鸭
谷歌AI研究人员:噪声感知训练方法用于布局感知语言模型 在文档处理中,特别是在视觉丰富的文档(VRDs)中,高效信息提取(IE)的需求变得越来越关键。VRDs,如发票、水电费单和保险报价,在业务工作流中随处可见,通常以不同的布局和格式呈现类似信息。自动从这些文档中提取相关数据可以显著减少解析所需的手动工作量。然而,从 VRDs 实现 IE 的通用解决方案面临着重大挑战,因为它需要理解文档的文本和视觉特性,这些特性无法轻松地从其他来源中获取。针对从 VRDs 提取信息的任务,已经提出了许多方法,范围从分割算法到编码视觉和文本上下文的深度学习架构。然而,许多这些方法依赖于监督学习,需要许多人工标记的样本进行训练。 标记高度准确的 VRDs 是一项耗时且昂贵的工作,这在企业场景中构成了瓶颈,必须为成千上万种文档类型训练定制提取器。研究人员已经转向预训练策略来解决这一挑战,利用无监督多模态目标在未标记实例上训练抽取器模型,然后在人工标记的样本上进行微调。 尽管预训练策略具有许多潜在优势,但它们经常需要大量的时间和计算资源,使其在受限制的训练时间内变得不切实际。作为对这一挑战的回应,谷歌 AI 的研究团队提出了一种半监督的持续训练方法,以在有限的人工标记样本和有限的训练时间内训练出稳健的抽取器。他们提出了一种噪声感知训练方法(NAT)。他们的方法分为三个阶段,利用标记和未标记数据来循序渐进地提高抽取器的性能,同时遵守对训练施加的时间约束。 他们研究的核心问题是推动文档处理领域的发展,特别是在企业环境中,可扩展性和效率至关重要。挑战在于开发技术,允许在有限的标记数据和有限的训练时间内有效地从 VRDs 中提取信息。他们提出的方法旨在应对这一挑战,最终目标是使普通用户能够访问先进的文档处理功能,同时最大限度地减少为训练定制提取器所需的人工工作量和资源。 所提出的半监督持续训练方法不仅解决了在严格时间限制内训练强大文档抽取器所固有的挑战,而且带来了一系列好处。通过系统地利用标记和未标记数据,他们的方法有望显着提高企业环境中文档处理工作流的效率和可扩展性,最终提高生产力并降低运营成本。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路,标志着该领域迈出了重要的一步。 论文地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Farxiv.org%2Fabs%2F2404.00488&urlrefer=5c84670479f9ef4d5ad88265d230944e
已生产近50年!传奇芯片Z80将于今年6月停产 近日Zilog发布通知,称晶圆代工制造商将于6月中旬停止接受新的Z80芯片订单。 Zilog将根据客户需求处理和安排Z80的LTB订单,而WFM将在此后提供实际交货日期。根据LTB的总体需求,公司可能会对最小和最大数量提出更严格的要求。 据了解,Zilog Z80最初是作为Intel 8080的一个项目开发的,最终成为游戏和通用计算设备中最受欢迎和广泛使用的8位CPU之一。Z80是一个8位的微处理器,是Zilog公司的第一个产品,由Federico Faggin于1974年底构思,并于1976年7月正式投放市场。 通过Z80,Zilog公司建立了自己的芯片工厂,并在接下来的两年里发展到了超过一千名员工。 Zilog Z80是Intel 8080的软件兼容扩展和增强,与8080一样,主要针对嵌入式系统。 尽管用于嵌入式系统,Z80还是从1970年代到1980年代中期成为台式计算机和家用计算机中使用最广泛的CPU之一。 一些家用电脑和游戏机都是围绕Z80的功能构建的,包括世嘉的Master System和SG-1000,以及任天堂的Game Boy和Game Boy Color。 许多经典街机游戏也使用了Z80,包括原始版本的吃豆人。此外,8位处理器在军事应用、Roland Jupiter-8等音乐合成器以及各种其他电子设备中很常见。
新的美国国家安全局网络安全信息表针对人工智能系统安全 美国国家安全局(NSA)公布了一套全面的指南,旨在加强组织内部人工智能(AI)系统的安全性,特别是那些涉及国防工业的组织。这份指南被封装在一个名为“安全部署AI系统:部署安全和弹性AI系统的最佳实践”的网络安全信息表(CSI)中,标志着NSA人工智能安全中心(AISC)的一项重要举措。AISC成立于上个秋天,作为网络安全合作中心(CCC)的一部分,其使命是促进政府与行业之间的合作,以保护国防工业基地。http://tieba.baidu.com/mo/q/checkurl?url=http%3A%2F%2Fwww.nsa.gov%2FPress-Room%2FPress-Releases-Statements%2FPress-Release-View%2FArticle%2F3741371%2Fnsa-publishes-guidance-for-strengthening-ai-system-security%2F&urlrefer=b9a60d57a06aa3c2c536e6dab9a342a5 需要专门的AI安全措施 NSA的指南强调了AI系统所面临的独特安全挑战,这些系统容易受到与传统IT系统不同的一系列攻击途径的影响。 1.根据CSI,“针对AI系统的恶意行为者可能会使用独特于AI系统的攻击途径,以及针对传统IT使用的标准技术。 2.”这种区分至关重要,因为AI系统可能会通过对抗性机器学习攻击(旨在改变算法行为)、旨在绕过安全机制的生成性AI攻击,以及供应链攻击(虽然与影响软件的攻击类似,但对AI有独特的影响)而受到损害。安全供应商Hidden Layer的一份报告突显了解决这些漏洞的紧迫性,揭示了去年有77%的公司报告其AI系统遭到破坏。 实施指南 NSA的指南强调了对AI系统安全采取主动和全面的方法,倡导在部署前和部署期间持续监控和验证AI系统。主要建议包括保护暴露的API、积极监控模型行为、保护模型权重、执行严格的访问控制,以及定期进行用户培训、审计和渗透测试。CSI强调,保护AI系统是一个持续的过程,需要组织识别风险、实施适当的缓解措施,并持续监控潜在问题。3通过遵循这些做法,组织可以显著降低部署和运营AI系统所带来的风险。
OneDrive正测试导入云文件功能,提升迁移效率 日前有消息源透露,通过对OneDrive Android应用(7.4 Beta 1版本)的APK进行拆包分析后发现,微软方面可能正在为其开发能够从其他云存储服务导入文件的功能。在其代码中包含“import_cloud_files”字段,部分代码中更是使用了Google Drive、Google Photos、Dropbox来命名所支持的云存储服务。据据相关代码显示,用户无需离开OneDrive即可启动导入过程,后续即便关闭OneDrive应用,文件的传输也会继续进行,并且不会消耗用户的流量。但当用户导入文件的体积超出限制时,则将收到系统的提醒。因此对于使用多个云存储服务,但希望将文件、图像和视频快速整合到OneDrive中的用户来说,这一功能显然将会大幅提升数据迁移的效率。 值得一提的是,该应用程序早期版本的代码中指向主菜单中可用的“导入云文件”选项,因此用户可以更方便地进行数据迁移。但相关消息源同时也指出,目前该功能还在处于测试阶段,微软方面尚未正式对外宣布,因此其后续也可能不会在正式版本中出现。作为Microsoft 365订阅服务的一部分,微软一直持续在改进并完善OneDrive。例如在目前OneDrive的Android应用中,就包含有照片编辑器,用户可对图像进行简单的编辑,但已有开发者从代码中发现了微软试图为其添加AI消除功能的痕迹。 此前在今年2月,微软方面曾在官网的相关页面中透露,Copilot计划于5月的某个时间点面向OneDrive用户推出,并支持用户提出问题、然后从OneDrive中存储的文件中获取信息,此外无需打开文件也能够为一个或多个文件提供AI摘要、总结等服务。但需要注意的是,OneDrive的相关服务也并非一直在做“加法”,此前在3月初微软方面就曾发布公告,继2024年3月29日后停止支持从URL上传文件的功能,用户已下载到OneDrive的文件将继续保留,并且不会受到此次更改的影响。 该功能实际上就是“离线下载”,但其仅为一项实验性功能,不仅一直处于预览阶段,而且也仅支持OneDrive个人版。对此,微软相关负责人帕特里克·罗杰斯表示,“我们发现此功能使用率低且维护成本高,并且不符合我们对OneDrive作为跨设备同步文件的云存储服务的愿景”。
微软 Edge 浏览器新特性,可在 Win10 / Win11 桌面添加搜索栏 微软近日发布 Windows 11、Windows 10 系统更新,在桌面整合了 Edge 搜索栏。微软官方表示引入该功能,其目的是简化用户的搜索体验,不需要打开浏览器窗口就能搜索相关内容,提高工作效率和便利性。微软官方还表示用户可以打开 Microsoft Edge 浏览器,手动启用该搜索框。在 Windows 10 系统上,打开 Canary 版 Edge 浏览器,打开右上角“...”之后,在“更多工具”下点击“启动搜索栏”之后,在桌面就会跳出相应内容。值得注意的是,用户可以选择自己喜欢的默认搜索引擎,并没有强制要求使用 Bing,不过改用谷歌等搜索引擎之后,会自动禁用 Copilot。
OpenAI的GPT-4可通过阅读安全公告自主利用真实漏洞 学术界称,人工智能代理结合了大型语言模型和自动化软件,可以通过阅读安全公告成功利用现实世界中的安全漏洞。伊利诺伊大学厄巴纳-香槟分校(UIUC)的四位计算机科学家--理查德-方(Richard Fang)、罗汉-宾都(Rohan Bindu)、阿库尔-古普塔(Akul Gupta)和丹尼尔-康(Daniel Kang)--在最新发表的一篇论文中报告说,OpenAI 的 GPT-4 大型语言模型(LLM)可以自主利用真实世界系统中的漏洞,只要给它一个描述漏洞的 CVE 通告。为了说明这一点,研究人员收集了 15 个单日漏洞的数据集,其中包括在 CVE 描述中被归类为严重程度的漏洞。 "当给出 CVE 描述时,GPT-4 能够利用其中 87% 的漏洞,而我们测试的其他模型(GPT-3.5、开源 LLM)和开源漏洞扫描器(ZAP 和 Metasploit)利用率为 0%"。 所谓"单日漏洞",是指已经披露但尚未修补的漏洞。该团队所说的 CVE 描述指的是 NIST 共享的 CVE 标记咨询--例如,这个针对 CVE-2024-28859 的咨询。 测试的失败模型包括 GPT-3.5、OpenHermes-2.5-Mistral-7B、Llama-2 Chat (70B)、LLaMA-2 Chat (13B)、LLaMA-2 Chat (7B)、Mixtral-8x7B Instruct、Mistral (7B) Instruct v0.2、Nous Hermes-2 Yi 34B 和 OpenChat 3.5。2 、Nous Hermes-2 Yi 34B 和 OpenChat 3.5,但不包括 GPT-4 的两个主要商业竞争对手:Anthropic 的 Claude 3 和 Google 的 Gemini 1.5 Pro。尽管 UIUC 的工程师们希望能在某个时候对它们进行测试,但他们无法获得这些模型。 研究人员的工作基于之前的发现,即 LLM 可用于在沙盒环境中自动攻击网站。UIUC 助理教授丹尼尔-康(Daniel Kang)在一封电子邮件中说,GPT-4"实际上可以自主执行某些步骤,以实施开源漏洞扫描程序(在撰写本文时)无法发现的某些漏洞利用"。 Kang 说,他希望通过将聊天机器人模型与在 LangChain 中实施的ReAct自动化框架相连接而创建的 LLM 代理(在本例中)能让每个人都更容易地利用漏洞。据悉,这些代理可以通过 CVE 描述中的链接获取更多信息。 此外,如果推断 GPT-5 和未来机型的功能,它们很可能比现在的脚本小子们能获得的功能要强得多。 拒绝 LLM 代理(GPT-4)访问相关的 CVE 描述使其成功率从 87% 降至仅 7%。不过,Kang 表示,他并不认为限制安全信息的公开是抵御 LLM 代理的可行方法。他解释说:"我个人认为,'隐蔽安全'是站不住脚的,这似乎是安全研究人员的普遍看法。我希望我的工作和其他工作能够鼓励人们采取积极主动的安全措施,比如在安全补丁发布时定期更新软件包。" LLM 代理仅未能利用 15 个样本中的两个:Iris XSS(CVE-2024-25640)和 Hertzbeat RCE(CVE-2023-51653)。论文称,前者之所以存在问题,是因为 Iris 网络应用的界面对于代理来说非常难以浏览。而后者的特点是有详细的中文说明,这大概会让在英文提示下运行的 LLM 代理感到困惑。 在测试的漏洞中,有 11 个是在 GPT-4 的训练截止日期之后出现的,这意味着模型在训练过程中没有学习到有关这些漏洞的任何数据。这些 CVE 的成功率略低,为 82%,即 11 个中有 9 个。 至于这些漏洞的性质,在上述论文中都有列出,并告诉我们:"我们的漏洞涉及网站漏洞、容器漏洞和易受攻击的 Python 软件包,根据 CVE 描述,超过一半的漏洞被归类为'高度'或'严重'严重性。" Kang 和他的同事计算了成功进行一次 LLM 代理攻击的成本,得出的数字是每次利用漏洞的成本为 8.8 美元,他们说这比雇用一名人工渗透测试人员 30 分钟的成本低 2.8 倍。 根据 Kang 的说法,代理代码只有 91 行代码和 1056 个提示令牌。GPT-4的制造商OpenAI要求研究人员不要向公众公布他们的提示信息,不过他们表示会应要求提供。 OpenAI 没有立即回应置评请求。
微软开始全屏弹窗提示Win10用户升级Win11系统 微软近日已经开始向不符合升级Windows 11资格的Windows 10电脑用户推送全屏弹窗提醒。有用户反馈,在安装新补丁后,收到了微软关于Windows 11的升级提醒。微软首先感谢了Windows 10用户的忠诚度,但同时强调“您的电脑没有资格升级到Windows 11”“Windows 10将于2025年10月14日结束支持”。 此外,微软还鼓励这些用户用户详细了解如何过渡到新的Windows 11 电脑。值得注意的是,该弹窗提醒没有“不再显示”的按钮,只有“晚些提醒我”和“了解更多”。 对于不符Windows 11升级条件的Windows 10电脑用户有两种选择,一是购买装有Windows 11系统的新电脑,二是向微软支付Windows 10的扩展安全更新费用——在2025年10月官方支持结束之后付费购买持续的安全更新。 根据微软公布的政策,对于商业用户来说,每台设备起价61美元(约合441元),并且三年内每年翻一番。 这意味着第二年起,每台设备的费用为122美元(约合882元),第三年244美元(约合1,764元)。 此外,微软还将首次允许个人用户付费更新,具体费用尚未公布,但估计也不会便宜。
微软与英特尔的AI PC标准公布,支持这三点才算? 目前PC行业最火的就是AI PC概念,那么究竟什么样的PC才算是AI PC呢?近日英特尔在开发者活动中不仅发布了全新的酷睿Ultra Meteor Lake NUC开发套件,还介绍了其与微软共同对于AI PC的定义标准。简单来说,微软与英特尔认为AI PC必须满足以下这三点要求:一是处理器必须配备NPU、CPU以及GPU;二是必须支持微软Copilot;三是键盘上必须配备Copilot物理按键。 实际上这三点要求并不难,比如目前不少Meteor Lake与Ryzen处理器都有单独的NPU单元,不过搭载这些处理器的笔记本倒是也都缺少了Copilot物理按键。 值得一提的是英特尔还提出了自己关于AI PC更简单的定义标准,即CPU、GPU以及NPU都拥有专属的AI专用加速功能,这也是英特尔自家的Meteor Lake产品设计理念。英特尔表示处理器应可以根据使用需求分配执行工作,比如NPU可以为照片、音频等低强度AI工作提供更高的效率,延长续航时间,保证隐私安全;而CPU与GPU则可以参与高性能需求的AI任务,如果有需要的话,NPU还可以与GPU协同运行大语言模型。 英特尔还提到,运行AI大模型种类繁多且运算要求高,因此对于内存的容量和速度也有着较为苛刻的要求,未来执行大语言模型时,内存容量可能会成为一个关键制约因素,某些工作可能需要16GB甚至32GB内存。不过目前微软并没有提出AI PC在内存容量方面有什么要求,可能微软Copilot更多还是依靠云端算力要求,对于内存需求并不大,而英特尔更多考虑了用户在运行本地AI大模型时的场景。 但值得注意的是微软Copilot目前是无法在中国大陆使用的,那么微软与英特尔会不会单独给中国大陆市场制定一个AI PC的标准呢?
英伟达承认AI市场“竞争激烈” 重申旗下业务包括硬件和软件 过去一年多里,人工智能(AI)成为了业界最热门的词汇。以ChatGPT为首的人工智能工具在全球范围内掀起了一股热潮,对高性能数据中心GPU的需求大幅度提高,让英伟达成为了半导体行业里最耀眼的明星,营收也实现了大幅度的增长。随着人工智能市场规模快速增长,AMD和英特尔等其他芯片公司都想从中分得一杯羹,投入了大量的资源,希望能抢夺更多的市场份额。作为开发GPU加速软件的通用并行计算架构,英伟达耗费多年构建的完整 CUDA生态系统可以说是其最重要的护城河之一,巩固了其作为领先GPU计算和人工智能芯片制造商的地位。 竞争对手步步逼近也让英伟达感到了前所未有的压力,似乎开始意识到,想保持人工智能芯片市场的垄断地位不是一件轻松的事。近日,英伟达应用深度学习研究副总裁Bryan Catanzaro在其社交媒体账户上表示,现在人工智能市场的竞争很激烈,而且越来越激烈,不过这是必然的,因为人工智能是历史上最大的计算问题。 Bryan Catanzaro的表态并不代表英伟达对竞争感到恐惧,而且他随后还强调了另外一件事,即人们对英伟达的发展历程以及其从以硬件为中心向以软件为中心的转变存在普遍的误解。英伟达设计的GPU很强大,比如最新的Blackwell架构GPU,但通过软件优化尽可能提升计算效能同样关键,如果要有完善的管理计算能力,需要一个强大的软件生态系统,将硬件性能推向极致。 AMD和英特尔一直试图通过自己的开放API产品,包括ROCm和oneAPI进入计算领域。近期高通、英特尔和谷歌联手还建立UXL基金会,这是以oneAPI构建的开源项目,为那些使用CUDA生态系统的用户提供另外一种选择,最终目标就是要推翻英伟达的统治。 目前人工智能市场还处于起步阶段,未来的情况还很难说,而真正的战争似乎才刚刚开始。 --- 本帖转自3DM
融合视觉能力,OpenAI 向开发人员提供 GPT-4 Turbo with Vision OpenAI 宣布,具有视觉能力的最新 GPT-4 Turbo 模型 GPT-4 Turbo with Vision 现已通过 OpenAI API 向开发人员普遍提供。 该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小以及截止至 2023 年 12 月的知识库,最大的革新之处在于其新增的视觉理解能力。在过去,开发者需要调用不同的模型来处理文本和图像信息,而 GPT-4 Turbo with Vision 则将两者合二为一,极大简化了开发流程,并带来了广泛的应用前景。OpenAI 也分享了一些开发者正在使用该模型的有趣案例。例如, AI 软件工程助手 Devin 利用 GPT-4 Turbo with Vision 辅助编程; 健康健身应用程序 Healthify 使用该模型扫描用户饮食照片,通过图像识别提供营养分析; 创意平台 Make Real 则利用该模型将用户的草图转化为可运行的网站。 目前,GPT-4 Turbo with Vision 尚未应用于 ChatGPT 或开放给大众使用,不过 OpenAI 暗示该功能即将登陆 ChatGPT。 官方网站: platform.openai.com/docs/guides/vision
OPENAI关闭DALL-E 2图像生成模型 因为已经有更强大的DALL-E 3 2022 年 4 月 OPENAI 展示 DALL-E 2 人工智能模型,该模型可以通过简单的提示词快速生成图像,也就是文生图类 AI 模型。 尽管这个版本比较老,不过当时还支持生成图像后进行微调,例如将生成的图片中的小猫换成小狗,或者更换一些背景元素等。到 2023 年 9 月 OPENAI 宣布推出 DALL-E 3,这是 DALL-E 2 的升级版本,具有更好的图片生成特性,例如可以生成更高质量的图片、更准确地反映提示词,尤其是在处理常提示词内容是可以更好地理解并创建图片。 当然重点是新版本解决了文本内容和人手的问题,文本内容指的是如果要在图片中显示一段文字或单词,那么 AI 模型无法处理;人手问题则是生成时人类可能有六只手指等。 在 DALL-E 3 发布半年后,OPENAI 现在已经决定退役 DALL-E 2,当用户尝试登录 OPENAI 访问 DALL-E 2 页面时,页面会提示:我们不再允许新用户使用 DALL-E 2,DALL-E 3 具有更高质量的图像、改进了提示依从性,我们已经开始推出图像编辑功能,该功能适用于 ChatGPT Plus、ChatGPT Team、ChatGPT Enterprise 以及 OPENAI API 用户。 所以实际上用户是无法继续使用 DALL-E 2 生成图像的,当然这也不是什么坏事,用户可以继续使用 DALL-E 3 并创建更多有趣的内容。
谷歌发布图像局部重绘项目ObjectDrop 插入物体和环境完美融合 谷歌发布了一个名为ObjectDrop的图像局部重绘项目,其效果令人印象深刻。这个项目成功模拟了物体对场景的影响,包括遮挡、反射和阴影,实现了逼真的物体移除和插入。论文地址:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Farxiv.org%2Fpdf%2F2403.18818.pdf&urlrefer=07f3c876a4f095e01e6a98117a46108e 在该项目的论文中,他们介绍了一种方法,该方法包括在移除场景中的某个物体之前和之后拍摄场景,同时尽可能减少其他因素的变化。通过在这个特别的数据集上微调扩散模型,他们不仅能够消除图像中的物体,还能去除它们对周围环境的影响。 然而,他们发现,要把这个方法用于创造逼真的物体插入,需要一个非常大的数据集,这在实际应用中是不现实的。为了解决这个问题,他们引入了一种新的方法,称为引导监督(bootstrap supervision)。 这种方法通过利用他们在一个小反事实数据集上训练的物体移除模型,能够在合成层面大量扩展这个数据集。这意味着,他们可以在不需要大量实际数据的情况下,创造出逼真的物体插入效果。 在创造逼真的物体移除和插入方面,他们的方法明显优于之前的技术,尤其是在模拟物体对其环境的影响这一点上做得非常出色。这一成果对于图像处理和计算机视觉领域来说,是一个重要的突破。 --- 本帖转自站长之家
谷歌整合 Research 和 DeepMind 资源,全力发展 AI 谷歌成立“Platforms & Devices”部门,整合统筹安卓软件和 Pixel 硬件资源之后,近日再次宣布重组旗下的 AI 部门,抽调 DeepMind 和 Google Research 团队组建新部门,集中力量研发、商用 AI。援引新闻稿内容,谷歌计划整合 DeepMind、Google Research 等团队资源,简化开发流程,集中资源开发性能更强、规模更大的 AI 模型。 消息称在整合之后 DeepMind 团队主要负责构建 AI 模型,而 Google Research 则将重点转向基础计算机科学研究。 谷歌还正在整合 DeepMind 内部的 Responsible AI 团队,以加强模型开发、产品创造和用户体验之间的反馈流程。该公司还对人工智能功能实施更严格的发布要求,并加大投资测试和评估 AI。 --- 本帖转自 IT之家
谷歌新研究冲击缩放定律!模型规模真的关键吗? 近年来,模型规模不断扩大,一种普遍的信念是“力大砖飞”。尽管OpenAI没有公布Sora的训练细节,但在其技术报告中提到了:最大的模型Sora能够生成一分钟高保真视频,这表明扩大视频生成模型是构建通用世界模拟器的有前景途径。 然而,谷歌最新的研究发现:并非如此!谷歌研究院和约翰霍普金斯大学在最新论文中指出:对于潜在扩散模型,模型不一定是越大越好。 据了解,关于缩放定律的争议一直存在。OpenAI在2020年发表的论文提出,模型效果与规模大小、数据集大小、计算量强相关,而与具体结构弱相关。 缩放定律不仅适用于语言模型,还适用于其他模态及跨模态场景。这一概念的提出使研究人员和开发者能够更有效地设计模型架构,选择合适的模型大小和数据集规模,以实现最佳性能。 谷歌最新研究集中在图像生成模型上,提出对于潜在扩散模型,在计算资源有限时,增加计算量应该增加数据集大小,而不是模型参数量。 这是否意味着缩放定律失效了?作者的研究表明,在有限的计算资源下,较小的模型可以优于较大的模型;模型大小和训练步骤的选择需与计算资源相匹配。 然而,在训练步骤恒定的情况下,大模型仍然具有优势,尤其在处理图像细节方面。 研究者还发现,不同大小的模型在CFG(Classifier-Free Guidance)技术下受影响基本相同,这一发现令人意外。 这项研究探索了模型效率与品质之间的最佳平衡,为开发更高效的图像生成AI系统提供了指导。这与当前AI领域的趋势相契合,即小型语言模型在多项任务中超越大型对手,旨在推动AI技术的民主化。
本月底上线,微软 Word 新增 AI 技能:调用必应回答你的提问 微软近日更新 Microsoft 365 路线图,计划将于 4 月底在 Microsoft Word 应用中进一步整合 Copilot,在不跳转其它应用的情况下,可以通过 Bing 搜索回答用户提出的各种问题。微软新增了“Microsoft Copilot (Microsoft 365):集成必应搜索,为用户的 Word 聊天带来强大网络功能”条目,也就是用户不需要跳出 Word 应用程序,可以向 Copilot 提出问题,Copilot 就会利用集成的必应搜索功能生成答案。 微软表示 Copilot Pro 和 Copilot for MS365 用户都可以使用该功能。Copilot for Microsoft 365 是一款人工智能助理工具的订阅计划,价格为每月 30 美元(备注:当前约 217 元人民币)。 --- 本帖转自IT之家
未来,我们将看到更加智能、个性化和情感化的人工智能体验 在我所从事的科技写作生涯中,我曾经接触过无数次的科技热点、初始潮流、以及产业进步,然而,以我多年的经验,如果要我选出科技领域中的一项最具变革力量的技术,那么我会毫不犹豫地选出——人工智能(AI)。人工智能,一词陌生而又熟悉,它满足了我们探寻未知世界的好奇心,也恰好成为信息技术世界中的瑞士军刀。那么,AI为何有如此强其力量,又引领我们走向何方呢?今天,就让我来向各位揭示其中的奥秘。想象一下这样的场景,你在早晨醒来,第一个给你送上温馨问候的不再是亲人或者朋友,而是你的智能手机。「早安,你已经睡了足够的时间了,现在该起床锻炼身体了!」这样的话语,你所用的不再是手,而只是口,便可根据自身需求向手机发出指令,手机则会瞬间根据你所需打开相应的应用程序。这一切,都是AI的魔力所为。AI的神奇不止于此。在医疗领域,AI可以通过分析历年的医疗数据,总结患者的病症类型、疾病发生的规律,甚至可帮助医生预测患者的疾病进程,从而实时调整相应的治疗策略,提高医疗的准确率和效率。在教育领域,可以根据学生的学习数据,提供个性化辅导,填补老师与学生的教学差距,提升孩子的学习体验和效率。面对AI旺盛的发展势头,我们也有理由担心。一方面,随着AI的广泛应用,我们会在很大程度上依赖于这项技术,减少了人与人之间的交流和沟通,可能会导致人类社会的孤独感增强。另一方面,AI的迅速发展势必挤压到一部分传统行业的生存空间,对劳动力市场构成潜在威胁。 因此,当我们惊叹于AI带来的便捷和惊人之处的同时,也不能忽视由此产生的复杂问题。人工智能,是未来所趋,但它的发展并非没有风险,如何平衡这两者,寻找一个适合人类社会发展的方法,既能利用好人工智能的优势,又能有效防范人工智能可能带来的危害,是我们每一个科技爱好者,乃至于每一个社会人都需要思考的问题。有人曾说过,没有什么是完美的,人工智能也是如此,它既带给我们机遇,也带来了挑战。而究竟人工智能会给我们带来什么样的未来,是带来更多便利,还是造成更多问题,这都取决于我们如何去理解、使用和发展这项技术。 --- (一览AI原创)
首页
4
5
6
7
8
9
下一页