LearnerForever LearnerForever
永远是你们的小吧,也希望吧友们开心快乐每一天。
关注数: 1,483 粉丝数: 2,228 发帖数: 25,744 关注贴吧数: 58
AI在游戏开发中的应用:创造更智能的虚拟世界 随着人工智能(AI)技术的飞速发展,游戏产业正在经历一场前所未有的变革。AI技术不仅在游戏玩法和体验上带来革命性的改进,还在游戏开发过程中发挥着越来越重要的作用。特别是虚幻引擎中的AI工具,为开发者提供了强大的支持,使他们能够以前所未有的速度和效率创造出丰富多彩的虚拟世界。本文将探讨AI在游戏开发中的应用,并展望其如何推动游戏产业向更智能的虚拟世界迈进。程序生成:无限可能的世界创造 游戏中的程序生成技术是AI应用的一个亮点。通过这项技术,开发者可以利用算法自动生成游戏内的地形、建筑、任务等内容,从而极大地提高开发效率,减少人力和时间成本。 数字人动画师:赋予虚拟角色生命 虚幻引擎中的数字人动画师(MetaHuman Animator)则是另一个AI技术的突破,它能够帮助开发者轻松创建逼真的数字人物。 AI生图技术:创新游戏设计 AI生图技术的融入,为游戏设计带来了新的可能。玩家可以直接利用AI技术根据描述生成图片,进而在游戏中构建独特的场景和角色。这种方式不仅激发了玩家的创造力,也让游戏世界的构建变得前所未有地灵活和多样化。面临的挑战与解决方案 尽管AI技术在游戏开发中的应用充满了光明的前景,但也面临着诸如资产管理复杂化、新工具的学习曲线等挑战。 展望未来 随着AI技术的不断进步和应用,未来的游戏开发将变得更加智能化和高效。AI不仅能够帮助开发者创造出更加丰富多彩的游戏世界,还能够在游戏设计、角色创建、甚至是故事叙述等方面带来创新。未来,我们可以期待出现更多结合AI技术的游戏作品,它们将为玩家提供更加真实、创意和沉浸式的游戏体验。 AI技术的融入不仅仅是游戏开发领域的一次技术革新,更是对游戏产业未来发展方向的一次有力预示。随着技术的不断成熟和开发者对这些工具的深入探索,我们有理由相信,AI将会在创造更智能、更引人入胜的虚拟世界方面发挥越来越重要的作用。 --- (一览ai原创)
AI时代的CPU能做什么?第五代英特尔至强给出完美答案 如果把科技圈比作娱乐圈,那么这两年的顶流一定是AI。 2023年,世人见证了ChatGPT在全球范围内的大火,以生成式AI为代表的新一轮人工智能应用问世,改变了人工智能(AI)技术与应用的发展轨迹,并开始在各行各业中得到广泛应用。全球多个调研机构的调研结果都显示,有接近58%的企业都有意在未来几年将生成式AI导入到自身的业务当中,预计到2026年,全球将会有超过3000亿美金投入到生成式AI当中,包括硬件、软件和解决方案等,其中有多达50%以上的边缘应用也会采用AI技术。 AI领域的发展离不开强劲的算力,在过去几年,人们普遍认为,包含大量高强度并行计算任务的AI计算理所应当应该让擅长图形处理的GPU来做,但众所周知,AI计算包括推理和训练两部分,虽然GPU在训练方面的优势很大,但在推理环节,GPU实际上也并非“唯一解”,负责执行各种程序指令,处理各种逻辑和算法的CPU,实际上也能在AI计算中发挥极大的作用。 例如英特尔在去年年底推出的第五代至强可扩展处理器,就是一款具备强劲AI性能的CPU产品。通过更多的核心数(64核心)、更大的内存带宽(5600MT/s)、更大的三级缓存(320MB),以及软件生态方面的优化,与上一代相比,第五代至强可扩展处理器在相同功耗下的平均性能提升了21%,在AI推理和训练性能的提升则达到了42%和29%。“无论是英特尔内部的实验结果还是来自客户的反馈都验证了第五代至强在AI计算上的能力,像一些通用的应用,如会议纪要提取、大纲总结、内容分析,以及一些内容创作,尤其是大家讨论的比较多的文生图、机器人聊天客服、代码撰写等生产力提升的应用中,基于第五代至强的服务器的结果还是比较有优势的,因此我们也非常有信心能够满足这一类生成式AI模型的工作负载需求。”英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰总结道。 之所以能在AI计算能力有如此惊人的突破,主要还是源于第五代至强可扩展处理器在硬件架构方面的改进和软件生态方面的优化。 其中在硬件架构方面,第五代至强可扩展处理器在制程、芯片布局、性能能效、三级缓存和内存IO方面都有不少改进。具体来说,在制程方面,第五代至强基于Intel7制程,同时采用Dual-poly-pitchSuperFin晶体管技术,与第四代至强相比,第五代至强在系统漏电流控制和动态电容等关键技术指标上做了改进,通过这些调整,第五代至强在同等功耗下的频率提升了3%。在芯片布局方面,随着算力需求的上升,单个芯片的核心数、IO也不可避免地需要增加,这些都在推动芯片面积的增加,因此也带来了两个问题,其一是芯片的良品率无法保证,其二是单片面积过大会超过光刻机的尺寸限制,所以现在主流的芯片设计都是将大的CPU芯片切分成多个子芯片,然后采用多芯片的方式封装到一个芯片上。例如第四代至强就将芯片切分为互相对称的四部分,而第五代至强在芯片设计上采用了2芯片封装的方法,不仅良率得到了提升,而且也可以更好地控制芯片面积。 在关键性能指标方面,第五代至强的核心升级为Raptor Cove,核心数增加到了64,LLC增加到了5MB,DDR速度提升到了5600MT/s,UPI速度提升到了20GT/s,此外通过第五代至强内置的全集成供电模块以及增强的主动空闲模式,有效降低了CPU在非满载情况下的能耗,从而更好地提高数据中心的供电有效性。根据SPEC integer的结果,第五代至强的整数计算性能提升了21%,而针对AI负载的性能提升则达到了42%。 由于第五代至强单个模块的LLC容量达到了5MB,因此整体的缓存大小达到了320MB,所以在数据集不大的情况下,大部分的数据都能放在LLC缓存中,从而减少对内存的访问,以带来更高的性能。不过更大的缓存也会带来可靠性的问题,为此第五代至强的LLC中新增了DEC和TED的编码方式,相较于单位纠错和两位纠错的纠错能力更强,因此使得系统的容错性更高。 最后在内存IO方面,英特尔通过MIM内存优化、基板走线优化、片上低噪声供电优化等方式,将第五代至强的IO速度提升到了5600MT/s。 除了在底层硬件架构上的改进之外,英特尔在软件解决方案方面的能力也有目共睹,为了能让第五代至强的硬件能力更好地转化为用户价值,英特尔也投入了诸多资源,例如加速数据库处理、数据安全保障以及虚拟化技术的优化等等。 针对AI能力方面,英特尔的软件团队多年来一直在基于x86架构进行持续优化,除了对TensorFlow、PyTorch这类主流开源机器学习框架早早实现支持以外,随着第五代至强的发布,英特尔也向社区上传了300多个深度学习模型,支持50多个面向第五代至强优化过的模型,都可以供开发者调用。 而Intel开发的深度学习工具库OpenVINO则能用于优化深度学习在各类芯片上的表现,对于大语言模型,英特尔则开发了很多高性能库,例如可以大幅提升单机性能的oneDNN和能够提供集群式运算能力的oneCLL,有了oneDNN和oneCCL的加持,第五代至强也随之具备了大模型推理的能力,此外英特尔也对虚拟化层、云原生层和OSKernel层给予了很多的资源,让最新的技术能适配最新的软件栈。 从英特尔技术专家的介绍中得知,从横向延迟的角度来看,100ms是客户业务的阈值,大于100ms时业务体验会比较差,根据英特尔的测试数据,如果卡在100ms的标准上,一颗第四代或第五代英特尔至强可扩展处理器可以支持13B参数的模型。两颗可以做到30B参数的模型,如果想要更短的延迟,只要把模型缩小就可以,而对于6B或者是7B参数的模型,一颗第四代英特尔至强可扩展处理器可以做到60ms。 如果企业选择部署具备高带宽内存的至强Max系列CPU,部署数量可以进一步减少,例如想要进行300亿参数的模型推理,同时控制延时在100ms以内的话,需要两台基于第四代或者第五代至强的两路服务器,但如果采用基于至强Max的方案,只需一台两路服务器即可。 在实际落地中,英特尔久与百度使用四台基于第五代英特尔至强可扩展处理器的双路服务器,一共8颗第五代至强芯片,实现了对70B参数模型的支持,服务器之间的互连则采用oneCCL和RDMA网络,并将延迟控制在了100ms以内,充分证明了GPU并非大模型的唯一选择,CPU也有能力做同样的事。 而为了让广大的AI开发者能够更好更快地在至强的服务器上部署自身的AI应用,英特尔也和百度千帆进行了深度合作,在选择了可以支持的大模型之后,如果想进行部署,系统会提示可以选择AI加速卡或者CPU,使开发人员可以尝试把大语言模型部署在至强处理器上,且不用担心操作问题。 最后,在产品更新层面,随着不断变化的AI需求,英特尔也会针对不同的工作负载推出更加具有针对性的至强产品,例如预计将于今年推出的更高能效的Sierra Forest,以及针对计算密集型和AI工作负载进行优化的性能核产品Granite Rapids,从而为万物智能、万物互联的智能世界打好坚实的算力基础。
GPT不是AGI的全部 1. 引言 人工智能领域正在如火如荼地发展,随着诸如ChatGPT、Claude、Gemini、Sora和Grok等平台的不断涌现,AI技术和模型持续演进,引发人们对通用人工智能(AGI)的浓厚兴趣。在这一备受关注的话题中,人们常常将GPT和AGI的概念混淆在一起。有人称赞GPT是新的工业革命,有人则认为当前的人工智能技术已进入AGI时代或即将迈入。尽管GPT系列模型凭借出色的自然语言生成能力和广泛的应用声名鹊起,但我们不能忽视的是,GPT模型虽擅长处理大量文本数据和执行各种语言任务,但并非等同于通用人工智能。GPT展现的智能只是人工智能技术中的一小部分,其重点在语言理解与生成,而AGI则追求跨领域、多任务的全面深厚智能。因此,理性地认识GPT与AGI之间的区别至关重要。 本文旨在探讨当前最新人工智能技术的成就,梳理和分析通用人工智能的发展脉络,尽管GPT备受瞩目,却并非AI通向AGI的全部旅程。 2. AGI全景梳理 当我们探索人工智能的发展和前景时,总是会创造一些概念和名词。而充分理解这些词汇则是认识人工智能的第一步。这些名词包括人工通用智能(AGI)、窄人工智能(ANI)、自然语言处理(NLP)、计算机视觉(CV)、大语言模型(LLM)、AIGC(生成式人工智能)、GPT(生成式预训练Transformer模型)、BERT(基于Transformer的双向编码)、Diffusion Models(扩散模型)、GANs(生成对抗网络)、Transformer、RNNs(循环神经网络)、CNNs(卷积神经网络)、ANN(人工神经网络)、Fine-tuning(微调)和PLHF(人类反馈的强化学习)等。本小结将通过概念和实现两个层面梳理他们之间的关系。2.1 概念层 AI是人工智能(Artificial Intelligence)的简称,该概念最早是达特茅斯大学的一名年轻教授约翰-麦卡锡(John McCarthy)在1956年为研讨会写提案时创造的,后来被广泛接受为描述一种由人类创造出来的技术,它模仿并扩展了人类智能的各个方面,包括感知、学习、推理和决策等。但长久以来AI概念只是描述人类的一种理想和目标,并无实际进展。为进一步实现AI,学者和专家们根据其应用场景不同将AI的目标拆分为AGI和ANI两种实现目标。 AGI:是指通用人工智能(Artificial General Intelligence),它是一种智能的形式,能够理解、学习和应用知识跨越不同的领域和任务,与人类智能类似。与ANI不同,后者主要专注于特定领域或任务(如图像识别、语言翻译或玩特定的游戏),AGI可以在没有专门为每个新任务编程的情况下,自主地执行任何智能生物能够执行的学习或解决问题的任务。可以说AGI是模型泛化形式。 ANI:是指窄人工智能(Artificial Narrow Intelligence),也被称为专用人工智能,指的是专门设计来执行一个或几个特定任务的智能系统或软件。这类智能系统表现出在其专门领域内的高效率和强大能力,但它们的能力是局限的,只能在其被设计和训练的特定任务范围内工作。得益于AI三巨头(Yann LeCun、Geoffrey Hinton & Yoshua Bengio)的贡献,在过去10年,ANI在语言处理、图像识别方面取得突破性进展,并广泛在各行业中应用和推广。但在AGI派来看,ANI并不能算真正的AI,因为ANI缺乏像人一样对信息广泛和通用的处理能力。人工智能到底是朝向知识专精的专家系统发展,还是知识覆盖更广泛、通用的百科全书方向发展?有待验证。但AGI作为新兴事物确实已得到足够的认可和关注。 除了AGI和ANI两个AI目标概念以外,根据人类的感官需求,AI的具体应用则主要体现在语言和视觉处理的两大领域,即:NLP和CV。 NLP:是指自然语言处理(Natural Language Processing),是人工智能(AI)和计算机科学领域的一个分支,专注于使计算机能够理解、解释和生成人类的自然语言。NLP结合了计算机科学、人工智能和语言学的技术,旨在桥接人类语言和计算机之间的差距。包括但不限于:文本分析,语言翻译,对话系统,自动文摘,命名实体识别(NER),自然语言理解(NLU)等。 CV:是指计算机视觉(Computer Vision),目标是使计算机能够“看”和理解图像和视频中的内容,就像NLP使计算机能够理解和生成人类语言一样。计算机视觉涵盖了从基本的图像处理到复杂的图像理解的各个方面,包括但不限于:图像分类,对象检测,图像分割,图像生成,图像恢复,动作识别等。 当前最火爆的ChatGPT和Stable Diffustion就是AI在NLP和CV领域最为成功的两款应用之一。而ChatGPT就是LLM的一种具体实现。 LLM:是指大规模型语言模型(Large Language Model)。随着ChatGPT的成功,而广为人知。是一种利用深度学习技术训练的人工智能系统,旨在理解、生成和翻译人类语言。这些模型通过分析海量的文本数据来学习语言的结构、语法、语义及其使用上下文,从而能够生成连贯、逼真的文本,回答问题,总结信息,翻译语言,甚至编写代码。这里需要特别指出大规模是指模型训练过程中使用得的超大参数量,例如:ChatGPT-4训练参数量大概是1750亿个参数,而马斯克刚刚开源的Grok-1参数量则为3140亿个参数。不同于ANI领域中的自变量概念,这里的参数是指通过神经网络运算的权重数量。因此大样本或大数据量并不能被认为是大规模语言模型。同时,LLM是特指大规模语言模型,即便是大规模参数的ANI模型也不能称为LLM,例如:华为盘古气象大模型并不是LLM,其只是采用Transformer架构的ANI模型。 最后我们要讨论一个比较特殊的概念,即:生成式AI(Artificial Intelligence Generated Content,简称AIGC)。该概念并不是AGI概念的原生词汇,而是国内学术造词工厂的杰作。国内普遍认为AIGC是利用人工智能技术自动创建文本、图片、音乐、视频等内容的过程。包括但不限于自然语言生成(NLG)、计算机视觉、音频合成和深度学习模型等领域。由于重复和含糊不清的定义,AIGC更像是把NLP、CV等重新包装成产业应用,制造互联网热点的过程。 以上重点讲解了关于人工智能最近比较热点的概念,但不是全部。之所以叫概念是因为这些名词本身并无实际模型支持,只是方便人们归类和理解的一种称呼而已。接下来讲解的具体AI工具则是有模型、架构和算法支持,有实际实现意义的内容。 2.2 实现层 为了便于理解,我将模型、架构和算法归统称为实现层,因此首先出场的是当下最火的GPT模型。 (1)GPT—生成式预训练Transformer模型(Generative Pre-trained Transformer) 这是一种LLM也是NLP,由OpenAI开发。它基于Transformer架构,主要用于处理和生成自然语言,因此GPT并不能直接生成图像。GPT模型属于深度学习的一部分,通过大量文本数据的预训练,学会了语言的结构、语法、词汇及其上下文之间的关系,使其能够执行各种语言任务,如文本生成、翻译、问答和摘要等。 其工作原理主要由预训练和微调构成。预训练阶段,GPT模型在大规模的文本数据集上进行训练,目的是学习语言的一般特征,比如词汇、语法和语言使用的上下文关系,这一步骤让模型能够理解和生成语言的基本结构;微调阶段,模型通过在特定任务的数据上再次训练,能够在特定的应用场景中更加精准和高效。GPT模型的特点是其“生成能力”,即能够基于给定的文本提示生成连贯、创新、多样化的文本内容。这使得GPT模型不仅可以用于回答问题和参与对话,还能用于创作文章、编写代码和更多创造性的任务。在左图中,首先使用的Transfomer架构开展预训练;而在右图则是对不同任务进行微调的输入转换。将所有结构化输入转换为Token序列,由预训练模型处理,然后是Linear+softmax层处理。微调(Fine-tuning)是深度学习中的一个重要概念,特别是在自然语言处理(NLP)、计算机视觉等领域的应用中。微调通常发生在预训练模型的基础上,目的是将这些通用模型调整为特定任务的专用模型。 (2)BERT—基于Transformer的双向编码模型(Bidirectional Encoder Representations from Transformers) 这是一种同样采用Transformer架构的自然语言处理(NLP)预训练模型,由Google在2018年提出。它的核心创新之一是使用双向Transformer编码器来理解语言的上下文,这与之前的单向或部分双向处理方法相比,能够更准确地捕捉到词语间的关系和语义。从上图可以看到,BERT使用双向转换器。OpenAI GPT使用从左到右的转换器。ELMo使用独立训练的从左到右和从右到左的LSTM的级联来生成下游任务的特征。在这三种表示中,只有BERT表示在所有层中都以左右上下文为联合条件。除了架构差异之外,BERT和OpenAI GPT是微调方法,而ELMo是基于特征的方法。虽然BERT也使用了大量的文本数据进行预训练,能够捕捉语言的深层语义和上下文关系,但其设计初衷主要是提高特定的NLP任务(如问答、命名实体识别、情感分析等)的性能,而不是“生成能力”。由于BERT的参数量大致在3.4亿左右,因此一般不把BERT归为LLM。 在自然语言处理(NLP)领域,除了著名的GPT系列和BERT之外,还有很多其他重要的模型和技术进展,例如:ELMo、RoBERTa、T5、XLNet和Grok-1采用的Mixture-of-Experts模型等,由于篇幅有限不一一介绍。 在计算机视觉(CV)领域,也是众星璀璨,其中以Diffusion Models和GANs最为著名。 (3)Diffusion Models—扩散模型 Diffusion Models同样是生成模型,主要用于创建高质量、逼真的数据,如图像、音频、文本等。这些模型的灵感来自物理学中的扩散过程,即物质从高浓度区域向低浓度区域移动。Diffusion Models 通过以下两个阶段来生成数据,即:噪声添加过程(向前扩散),噪声去除过程(向后扩散)。扩散过程是一个马尔可夫链,它在采样的相反方向上逐渐向数据添加噪声,直到信号被破坏。当扩散由少量高斯噪声组成时,可以将采样链转换设置为条件高斯,从而实现特别简单的神经网络参数化。 在具体训练架构的实现方面Diffusion models 通常利用CNNs(卷积神经网络)作为其核心架构。这主要是因为卷积神经网络在处理图像数据方面的高效性和能力。CNNs能够从图像中自动学习和提取有用的特征,这使得它们非常适合于图像相关的任务,如图像生成、图像分类、图像恢复等。在Diffusion models的上下文中,CNNs被用来实现所谓的“去噪”步骤。在这一步骤中,模型试图从部分加噪的数据中预测原始数据的干净版本。这个过程需要模型能够理解图像中的复杂模式和结构,以便逐步消除噪声并最终重建出清晰、高质量的图像。CNNs以其强大的空间特征提取能力,非常适合这项任务。 当然,根据特定应用的需求,Diffusion models也可以集成其他类型的神经网络架构。例如,对于涉及序列数据(如文本或音频)的生成任务,可以考虑使用RNNs(循环神经网络)或Transformer网络,这些网络能够更好地处理序列之间的依赖关系。最近的研究也开始探索将Transformer架构应用于Diffusion models中,尤其是在需要处理大量上下文信息或长序列数据的场景。OpenAI最近发布的Sora就是一种Transformer+Diffusion的训练模型,其利用Transformer架构,对视频和图像的时空补丁进行编码,实现在可变持续时间、分辨率和宽高比的视频和图像上训练文本条件扩散模型。 总的来说,虽然Diffusion models最初和最常用的架构是基于CNNs,但随着技术的发展和研究的深入,其他类型的神经网络也被探索和应用,以提高模型的性能和适用性。 (4)GANs—生成对抗网络(Generative Adversarial Networks) GANs是一种由Ian Goodfellow于2014年提出的深度学习模型。GANs通过其独特的训练机制,在生成新数据样本,尤其是图像生成领域,表现出了显著的能力。GANs的核心思想是基于两个相互竞争的网络:一个生成器(Generator)和一个判别器(Discriminator)。训练过程涉及对这两个网络进行交替训练。首先,固定生成器,训练判别器以最大化其区分真假样本的能力。然后,固定判别器,更新生成器以最大化判别器的错误率。通过这种方式,生成器逐渐学会生成越来越逼真的数据。这个过程像一个“伪造者”(生成器)试图创造看起来真实的艺术品,和一个“鉴别者”(判别器)试图区分艺术品是真是假的游戏。随着游戏的进行,伪造者变得越来越擅长创造逼真的作品。它们都可以使用不同类型的神经网络架构。训练从具有4×4像素的低空间分辨率的生成器(G)和鉴别器(D)开始。随着训练的进行,我们逐渐向G和D添加层,从而提高生成图像的空间分辨率。GANs的强大之处在于其架构的灵活性,允许在生成器和判别器中使用多种神经网络类型。下面是GANs中常用的几种神经网络类型: 卷积神经网络(CNNs):对于处理图像相关的任务,如图像生成、图像到图像的转换等,卷积神经网络是最常见的选择。CNNs能够有效地处理图像数据,捕捉局部特征和模式,这使得它们在图像识别和图像生成任务中表现出色。 深度卷积GAN(DCGAN):是一个著名的使用CNNs的GAN变体,专门设计用于提高图像生成的质量和稳定性。 全连接网络(Dense Networks):在某些简单的GAN应用中,尤其是在生成器和判别器的早期版本中,全连接网络或密集网络被用于处理相对简单的数据生成任务。虽然在处理复杂图像任务时,全连接网络可能不如CNNs那样有效,但它们在概念证明和初步实验中仍然有其用武之地。 循环神经网络(RNNs):对于处理序列数据的任务,如文本生成或音乐创作,循环神经网络(包括LSTM和GRU等变体)可以在生成器和/或判别器中使用。RNNs擅长处理时间序列数据或任何形式的顺序数据,能够捕捉数据中的时间依赖性和顺序模式。 Transformer:最近Transformer网络也开始被集成到GAN架构中,尤其是在需要处理大量序列数据的任务中。Transformer架构通过自注意力机制(self-attention)提供了一种有效的方式来捕捉序列中的长距离依赖性,这在文本生成和某些类型的图像处理任务中非常有用。 一般而言我们把GPT、BERT、Diffusion Models和GANs统称为训练模型或框架,而将Transformer、RNNs、CNNs归为训练架构。区别是模型或框架可以根据不同应用场景选择不同的训练架构,而训练架构中又可在不同的环节,采用了不同的神经网络算法。由于篇幅有限,我们不再讨论出现比较早的RNNs、CNNs,而是主要介绍当前多用途的明星架构Transformer。 (5)Transformer架构 Transformer是最初在2017年由Vaswani等人在论文《Attention is All You Need》中提出。它主要用于处理序列化数据,如文本或时间序列数据,特别在自然语言处理(NLP)领域内取得了革命性的进步。Transformer模型的核心思想是利用“自注意力(Self-Attention)”机制,使模型能够在处理序列数据时考虑序列中各元素之间的全局依赖关系。其主要编码器和解码器构成: 编码器(Encoder):编码器由多个相同结构的层堆叠而成,每一层都包含一个多头自注意力子层和一个前馈神经网络子层。在论文中Transformer由1个输入层和6个编码层构成,但在实践中层数可自行设置。编码器的作用是将输入序列转换为一系列注意力表示。 解码器(Decoder):解码器也由多个相同结构的层堆叠而成,每一层包含一个多头自注意力子层、一个编码器-解码器注意力子层和一个前馈神经网络子层。在论文中Transformer由1个输入层、6个解码层和1个输入层构成,同样实践中层数可自行设置。 解码器的作用是根据编码器的输出和先前生成的部分目标序列来逐步生成目标序列。解码器中的自注意力机制允许模型关注输入序列的不同位置,而编码器-解码器注意力机制允许模型在解码器的每个位置对编码器的输出进行注意力计算,以便获取输入序列的信息。 在 Transformer 模型中,每个编码器和解码器层都包含残差连接(Residual Connection)和层归一化(Layer Normalization)操作。这些操作有助于缓解深层模型训练时的梯度消失和梯度爆炸问题,并且有助于模型更好地训练和收敛。残差连接允许梯度更直接地反向传播,并且层归一化有助于稳定训练过程中的每一层的梯度流。 Transformer作为通用架构,不同与传统深度学习中具象化和关系复杂的自变量设置,而是将自变量泛化为:键向量(Key)、值向量(Value)和查询向量(Query),模型泛化可极大增加架构的通用性,且避免过度拟合。 键向量(Key):键向量可以被视为一种索引,用于帮助查询向量找到相关的信息。在自注意力机制中,每个输入元素都有一个对应的键向量,查询向量与这些键向量进行点积运算,得到的结果经过softmax函数处理后,可以得到一个权重分布,这个分布决定了模型对输入序列中各个部分的关注程度。 值向量(Value):值向量可以被视为实际的信息内容。在自注意力机制中,每个输入元素都有一个对应的值向量,这些值向量根据由查询向量和键向量计算得到的权重分布进行加权求和,得到的结果就是自注意力层的输出。 查询向量(Query):查询向量可以被视为对信息的请求或查询。在自注意力机制中,查询向量用于与键向量进行匹配,以确定模型应该关注输入序列中的哪些部分。 在Transformer架构中驱动模型训练的机制是自注意力机制(Self-Attention Mechanism),自注意力机制允许模型在计算编码器和解码器的输出时,对输入序列的不同位置赋予不同的注意力权重。具体而言,给定一个输入序列,自注意力机制计算出每个词与其他词之间的相关性,然后通过加权求和的方式得到每个词的表示。这种机制使得模型可以同时关注输入序列中的所有位置,而不是像RNN一样逐步处理。自注意力机制帮助Transformer实现并行向量运算能力,从而充分发挥GPU的并行计算能力或分布式计算能力,从而大幅提高训练效率和训练数据量,这也是大语言模型(LLM)的基础。 为了进一步增强模型的表达能力,Transformer将自注意力机制分为多个头,即:多头注意力(Multi-Head Attention)。每个头学习一种不同的表示。最后,将多个头的输出拼接在一起并通过线性变换进行投影,得到最终的注意力表示。多头注意力由于同时考虑文字序列不同位置的相关性和语义信息,使得模型能够更好地理解输入序列中的各个部分之间的关系。 对Transformer最大的误解是认为它是一种神经网络。例如,某商业大佬就是说:“Transformer模拟了人脑神经网络”。其实 Transformer是一种深度学习的训练架构,而非一种神经网络或算法,Transformer是利用前馈神经网络(Feedforward Neural Networks),实现向量矩阵的运算。在每个编码器和解码器的每个位置都有一个前馈神经网络。该网络是一个全连接的前馈神经网络,用于在每个位置对注意力表示进行非线性变换。在实践中往往都是根据实际情况对Transformer的基础架构进行调整和优化,并非一成不变。 (6) MoE—混合专家模型(Mixture-of-Experts) MoE是一种采用人工神经网络的训练架构,最早由Jacobs 等人在1991年的论文《Adaptive Mixtures of Local Experts》中提出。其核心思想是一种将多个局部专家模型组合在一起的方法,以适应不同的输入数据分布,并且这些专家模型可以动态地分配权重。在MoE中,每个专家模型都被训练来解决特定的子问题,而门控网络则是用来决定在给定输入情况下,哪个专家模型应该负责给出最终的输出。MoE出现时间较早,是为解决算法复杂性、提高训练性能、降低成本而提出的。与Transformer不同,其架构充分利用GPU集群的分布式计算能力,将多任务执行从算法结构层面转移到GPU集群层面从而降低算法的结构复杂性。而马斯克刚刚开源的Grok-1就是采用这种架构。Mixture-of-Experts架构的主要组成部分: 专家模型(Expert Models):每个专家模型是一个独立的神经网络,它们被设计用于解决特定的子问题或者在特定的输入数据分布下表现良好。每个专家模型都接收输入数据,并且输出对应的预测结果。 门控网络(Gating Network):门控网络用于动态地分配权重给各个专家模型。给定输入数据,门控网络计算每个专家模型对于当前输入数据的相关性或者重要性。这些权重通常是通过softmax函数归一化得到的,以确保它们的总和为1。 混合操作(Mixture Operation):通过将每个专家模型的输出与门控网络计算得到的权重相乘并相加,可以得到最终的输出。每个专家模型的输出都被乘以对应的权重,然后再相加,以产生最终的输出。 训练策略:MoE模型通常使用端到端的反向传播算法进行训练。在训练过程中,专家模型和门控网络的参数都会被调整,以最小化模型在训练数据上的损失函数。门控网络的训练目标通常是最大化模型的整体性能,并且也可以通过额外的正则化策略来提高模型的泛化能力。 Mixture-of-Experts模型通过将多个专家模型组合在一起,并且通过门控网络动态地分配权重,可以提高模型的灵活性和适应性,从而在处理复杂的输入数据分布时取得更好的性能表现。 (7)RLHF—人类反馈的强化学习(Reinforcement Learning from Human Feedback) RLHF是一种机器学习一种方法和阶段,为避免最终训练输出的结果违背人类道德伦理、民俗习惯、社会规则和法律,在机器学习的最后阶段结合来自人类的反馈和强化学习(RL),以指导和优化人工智能模型的行为和决策。这种方法特别适用于在那些难以为机器提供明确、数学化的奖励函数的情况下,训练模型执行复杂或高度专业化的任务。 在传统的强化学习中,一个AI模型通过与环境互动,尝试最大化其所获得的累积奖励。这些奖励通常是预先定义好的,基于任务的目标。然而,在许多实际应用中(特别是生成式模型中),定义一个能够有效引导学习过程的奖励函数是非常困难的。RLHF通过以下步骤解决这个问题: 人类反馈:收集人类对AI行为的评估或偏好。这可以通过直接评分、选择偏好(偏好排序两个或多个选项)或提供纠正性反馈的形式进行。 建立奖励模型:使用这些人类反馈来训练一个奖励模型,该模型预测哪些行为或决策会获得正面的人类评价。 强化学习:利用这个奖励模型作为奖励函数,采用强化学习算法训练AI模型。使其通过试错的方式学习在给定环境中如何行动,以最大化从奖励模型中获得的奖励。 RLHF的优点在于,它可以在没有明确数学形式奖励函数的情况下训练AI模型,使其在复杂环境中作出更接近人类期望和价值观的行为。这种方法被广泛应用于自然语言处理、游戏、机器人技术和其他需要复杂决策过程的领域。通过人类的直观反馈,模型可以学习执行抽象的、多样化的任务,同时减少不希望的行为或偏差的风险。 3. GPT的局限性 在当前人工智能领域中,GPT系列大模型作为自然语言处理的重要里程碑,展现了令人瞩目的文本生成和理解能力。然而,我们必须认识到,尽管GPT系列模型的表现卓越,其固有的局限性并不代表通用人工智能(AGI)的终极实现。 首先,研究显示,在复杂的逻辑推理和多步推断任务中,GPT模型可能表现不佳。虽然GPT可以生成流畅的文本,但在需要深入逻辑判断和跨领域推理的任务中,其表现可能有限。复杂的逻辑推理和多步推断任务要求模型能够理解和操纵抽象概念、规则和关系。这些任务在人工智能领域中被视为挑战性任务,因为它们需要模型具备高级的符号推理和逻辑推断能力;GPT模型在语法和词汇上表现优秀,因其训练数据源自大规模文本语料库。然而,在需要逻辑推理和推断的任务中,缺乏结构化数据和标签可能限制了GPT的表现,因而难以学习和理解抽象规则和逻辑关系;另一个挑战是跨领域推理,在现实世界中,许多任务可能涉及多领域的知识和信息,而GPT这类模型在跨领域推理方面可能受制于其单一领域的训练数据和知识范围,导致其推理能力受限。 其次,GPT模型在需要专业知识和精确推理的领域(如生物、医学、金融、法律等)中面临巨大挑战。在专业领域中,模型需要准确理解和运用领域特有的知识和术语,GPT等预训练模型可能无法完全掌握这些专业领域的复杂性和细节,导致其在特定领域任务中表现不佳;在特定领域的任务中,若训练数据受限或缺乏专业领域相关的数据,模型可能无法准确学习和理解该领域的概念和规则;特定领域对术语和语境的极高的精确性要求,GPT等模型目前可能难以准确处理这些领域的复杂信息和语言,导致理解和推理的准确性受到影响。GPT等通用模型可能在更具挑战性的专业领域任务中缺乏领域自适应性,无法有效应对领域内的复杂问题和需求。 最后,从长期发展来看,AGI的实现需要超越单一技术和单一领域的智能。AGI的实现要求模型能够综合利用不同感官数据和信息,包括视觉、听觉、触觉等多个感知层面。GPT等模型虽在自然语言生成领域表现出色,但实现AGI需要整合多种感知数据,并具备跨模态智能处理能力,这超出了目前单一模态智能的范畴。AGI还需要具备认知能力、规划决策能力等高级智能,要求模型能够思考未来、制定计划以及做出决策,这远比单纯的信息处理和生成更为复杂和综合。AGI还需要具备长期记忆和持续学习的能力,以不断积累和更新知识,适应不断变化的环境和任务。GPT等预训练模型可能在长期记忆和持续学习方面存在挑战,因其主要用于静态数据集的预训练。实现AGI需要模型能够在广泛领域和任务中表现出色,而不仅仅局限于特定任务或数据集。GPT等模型可能面临面向普适性通用性的挑战,因其训练数据和任务较为单一和特定。 4. 我们离AGI还有多远? 这个问题激发了无数学者和研究人员、未来主义者的想象。随着每一次AI技术的飞跃,这个话题都会被重新点燃,引起公众的热烈讨论。尽管我们在特定领域内的人工智能(如图像识别、自然语言处理等)取得了显著的进展,但通用人工智能——一种具有广泛认知能力、能在各种任务上达到或超越人类水平的智能系统——仍然是一个遥远的目标。 (1)AGI的评价方法 评价AGI能力的量化指标涉及多种方法,每种方法都尝试从不同角度捕捉智能的某个方面。以下是一些常见的评价方法: 知识测验(如智商测试、学术考试等)用于评估知识水平和逻辑推理能力; 专业技能测试(如编程、法律、医学)用于评估AGI在专业领域内的知识和应用能力; 复杂游戏测试(如国际象棋、围棋、星际争霸等)用于评估策略制定、学习能力和适应性; 虚拟仿真环境(如OpenAI的Gym、DeepMind的Lab),通过模拟真实世界的复杂环境来测试AGI的适应性和解决问题的能力; 艺术创作评估AI生成艺术作品的原创性和审美价值; 创新解决方案(设计、工程或科学领域),评估AGI提出新颖解决方案的能力; 图灵测试,通过判断机器是否能在文本交流中让人类误以为是与另一人类交流,来评估其自然语言处理和生成能力; 情感和社会交互,评估AGI理解和生成情感反应的能力,以及在社交情境中的表现; 多任务性能,评估AGI在同时处理或快速切换不同任务时的表现; 学习迁移,评估AGI将在一个任务中学到的知识应用到新任务的能力; 复杂问题解决,通过解决需要广泛知识和创造性思维的开放式问题来评估AGI的能力; 实时决策制定,在变化的环境中,评估AGI进行决策和适应的能力; 道德困境,通过模拟涉及伦理和道德抉择的情境,评估AGI的判断和决策过程; 社会规范学习,评估AGI理解和遵循人类社会规范的能力; 综合感知任务,评估AGI整合视觉、听觉等多种感知信息的能力。 交互式任务,在涉及多模态输入(如图像和文本)的任务中评估AGI的处理和响应能力。 这些评价方法通常需要结合使用,以全面地衡量AGI的能力和性能,更好地反映AGI在模仿人类智能方面的进步。 (2)技术挑战 近年来,大型语言模型和多模态AI模型的发展让我们对达到AGI的可能性有了更多的希望。例如,ChatGPT、Claude、Gemini等模型,其具备在多模态情境下理解和生成信息的能力,标志着我们在模拟人类的认知和理解能力上迈出了重要一步。然而,尽管这些模型在各自的领域内表现出色,它们依然缺乏人类智能的灵活性和通用性。这些模型在特定任务上的表现虽然令人印象深刻,但在面对未曾训练或完全不同类型的任务时,其性能会大幅下降。 (3)理论和方法论上的挑战 目前,我们尚未完全理解人类智能的工作原理,包括我们如何学习新技能、如何进行抽象思考,以及我们的智能是如何在如此广泛的任务中展现出灵活性和适应性的。没有这些理论基础,我们很难设计出能模拟这些能力的AI系统。此外,当前的AI系统大多依赖大量数据进行训练,而这种方法在达到真正的AGI时可能不再适用。Yann LeCun(杨立昆)认为智能行为的核心特征包括理解物理世界、记忆与检索信息的能力、持久记忆、推理能力和规划能力,而自回归式大语言模型在这五个方面均表现不足或仅能实现初级功能,它们无法真正理解和模拟物理世界,不具备持续的记忆和深入的推理机制,也无法进行有效的规划。 (4)伦理和安全挑战 一个具备广泛智能和自主能力的系统可能会产生无法预测的行为,这对于确保这些系统能够以符合人类价值观和安全要求的方式行动至关重要。如何设计这样的系统,以及如何确保它们的行为不会对人类或环境造成不利影响,是我们在迈向AGI的道路上必须面对的问题。Geoffrey Hinton认为,数字智能终将取代生物智能。在接受了海量网络信息训练的AI会比人类更聪明,因而能够轻易操纵人类——这是超级智能接管人类控制权的路径之一。 (5)能源挑战 通用人工智能(AGI)在运行和发展过程中需要大量的电力支持,算力竞争的背后是能源竞争。ChatGPT每天需要响应大约2亿个请求,其背后的GPT大语言模型(LLM)在训练和运行过程中消耗了大量的电力。据估计,ChatGPT每天消耗的电力超过50万度,相当于1.7万个美国家庭的日均用电量。而OpenAI CEO Altman就公开表示:人工智能行业正在走向能源危机。特斯拉CEO马斯克此前预计,AI下一阶段将会是“缺电”。在爱尔兰,仅70个数据中心就消耗了全国14%的能源。到2030年,预计全球30-50%的生产电力将用于AI计算和冷却。 5. 最后 在人工智能领域中,通用人工智能(AGI)、大型语言模型(LLM)、Transformers、扩散模型(Diffusion Models)和人类反馈的强化学习(RLHF)等技术之间存在着紧密的联系和相互作用,共同推动这一领域的进步。AGI代表了AI的终极目标,即在各种任务和环境中展现出与人类类似的适应性和灵活性。虽然我们距离实现AGI仍有很长的路要走,但当前的进展和研究为这一终极目标奠定了基础。这些技术的融合和发展,不仅扩展了我们对AI能力的理解,也为攻克复杂问题开辟了新途径。特别是,通过结合Transformers的模型架构,扩散模型的生成能力,以及RLHF的细致调优,我们已经能够创建出更为高效和灵活的模型。这些模型在理解语言、生成内容、解决问题等方面的能力越来越接近人类的思维模式。随着这些领域的不断深入,我们对于实现AGI的路径也将更加清晰,为未来的科技革命铺平道路。 参考文献 Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018. Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851. Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[J]. Advances in neural information processing systems, 2014, 27. Karras T, Aila T, Laine S, et al. Progressive growing of gans for improved quality, stability, and variation[J]. arXiv preprint arXiv:1710.10196, 2017. Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018. Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30. Shazeer N, Mirhoseini A, Maziarz K, et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer[J]. arXiv preprint arXiv:1701.06538, 2017. Christiano P F, Leike J, Brown T, et al. Deep reinforcement learning from human preferences[J]. Advances in neural information processing systems, 2017, 30. Ziegler D M, Stiennon N, Wu J, et al. Fine-tuning language models from human preferences[J]. arXiv preprint arXiv:1909.08593, 2019. 本文系未央网专栏作者:黄 锐 发表,内容属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!
AIGC工具测评:生成式AI的产品表现如何 过去这一年,全球涌现出了众多生成式 AI 产品。在这篇文章中,我们将探讨这些工具的表现,通过实际体验和评估,为读者提供一个关于当前 AI 工具的全面视角。2023 年,AI 技术迎来了其发展史上的一次重大飞跃。随着技术突破和令人瞩目的产品陆续亮相,AI 不仅成为了技术界的焦点,也深深吸引了资本的目光。这一年,AI 展现出了前所未有的发展势头,无论是在基础模型能力、实际应用场景,还是资本投入方面都取得了显著进展。 特别是在 2022 年 11 月 30 日,OpenAI 发布了 ChatGPT,标志着 AI 技术的一个新纪元。紧接着,在 2023 年 1 月,ChatGPT 的月活跃用户数突破 1 亿大关,创下了历史新高,彰显了全球 AI 市场的爆发潜力。 伴随这股势头,全球范围内涌现出众多创新的生成式 AI 工具,它们按功能可以划分为:文本生成、图像创作、音视频处理等多个类别。在这篇文章中,我们将探讨这些工具的表现,通过实际体验和评估,为读者提供一个关于当前 AI 工具的全面视角。一、ChatGPT-42023 年 3 月 15 日,OpenAI 宣布推出 GPT-4,这标志着大型语言模型进入了一个新阶段。相较于前代产品 GPT-3.5,GPT-4 不仅在处理自然语言方面取得了显著提升,而且在多语言处理能力上也有了重大突破。更值得一提的是,GPT-4 引入了“多模态”功能,支持图像和语音输入,甚至可以输出图片,大大拓宽了其应用范围。 界面体验 ChatGPT-4 的用户界面呈现了现代化和直观的设计风格,其简洁的设计语言和优化的用户操作流程极大地便利了用户与系统的交互。界面的清晰度和直观性使得用户即便是初次使用,也能轻松上手。 使用感受 作为商业化应用的初代大型语言模型,ChatGPT-4 在专业知识获取、文案生成、上下文理解等方面表现出色。答案的完整性和连贯性同样值得称赞。然而,最近的使用体验中发现模型在生成答案时偶有不稳定现象,可能与 OpenAI 目前的资源分配有关。 不过,总体来说,ChatGPT-4 在提供高效、准确回答方面依然表现卓越。 二、通义系列阿里巴巴旗下的通义系列包含多款 AI 大模型,如通义千问(语言模型)、通义万相(艺术创作模型)、通义听悟(音视频模型)和通义智文(AI 阅读助手),它们在多个领域如电商、设计、对话和法律分析中发挥着重要作用。 平时工作生活中使用的较多的是通义千问、通义万相、通义听悟、通义智文几种,帮助我获取整理专业知识,获取灵感以及快速阅读: 通义千问:多模态 AI 大模型 界面体验: 通义千问拥有简洁而一致的页面布局,提供沉浸式的问答体验。界面无过多修饰,专注于核心功能,使用户更易于集中注意力在问题与回答上。 使用感受: 在语义理解和答案准确度方面,通义千问表现优异,尤其在处理千字以内的查询时,回答流畅且无明显间断。 通义万相:AI 艺术创作模型 万相的界面以深色模式为主,突出了图片生成区域,同时提供了关键词选项,便于用户快速进行创作。 虽然在人物图像创作方面表现较好,但在抽象图标和文本引导的图片生成方面仍有提升空间。图片细节处理方面也存在一定的挑战。 通义听悟 一个非常好的在线会议、视频学习、播客学习等音视频转文字并且整理以及摘要的平台。 听悟的界面设计强调智能感,功能入口明确,降低了用户学习成本。其功能覆盖了视频转录、实时解析等多种场景。 实时记录场景:语音识别以及文本转录的内容准确度挺高,较为嘈杂的场景也能比较准确的识别文字 ; 视频场景:能够提取摘要,并且能区分讲话人进行总结,以及生成 PPT 且定位,但是 PPT 仅仅是截取视频的整个画面; 播客场景:暂不支持摘要提取,只能复制文本内容,需要自行加工; 通义智文:一个文档电子书籍快速整理阅读的 AI 平台 智文的界面简约,主要聚焦于阅读体验。 阅读场景覆盖全面,对于电子书籍,智文能够提供准确的全文摘要和章节总结,极大地提高了阅读效率。(移动端推荐 “ Cubox ” 对于间断的公众号、网页文章体验不错,就是需要付费体验摘要、问答等 AI 能力) 三、天工 AI天工 AI 是由奇点智源和昆仑万维联合开发的一款综合型大模型平台,它集成了搜索、对话和创作等多种功能。 界面体验: 天工 AI 采用了浏览器式的界面布局,这种设计贴合了产品的功能定位。然而,其背景设计较为复杂,可能会对用户造成视觉疲劳。 功能入口清晰,便于新用户快速熟悉并使用各项功能。 使用感受: 在回答问题方面,天工 AI 展现出了较高的答案完整性。它能够结合全网搜索,提炼并展示相关的新闻资讯链接,这不仅提高了回答的可信度,也增强了专业性。 答案生成过程中,天工 AI 能够准确标注信息来源,这是其一个突出的特点,帮助用户理解答案的依据。 天工 AI 在处理各类信息时表现出色,能够快速匹配并提供丰富的背景资料,满足用户的多元化需求。 四、kimiKimi Chat 是 Moonshot AI 推出的一款功能丰富的工具,专注于整理资料、处理文件和提供快速网址访问。它在简化日常工作流程方面展现出了显著的优势。 界面体验: Kimi Chat 采用了简洁而清晰的界面设计,以浏览器形式呈现,为用户提供了舒适和直观的使用体验。 背景设计干净且现代,这不仅降低了视觉干扰,也增加了用户操作的便捷性。 使用感受: Kimi Chat 在速读新闻和总结文章方面表现突出。它能够快速解析和归纳大量信息,极大地提高了工作效率。 与天工 AI 相似,Kimi Chat 在回答问题时会联网搜索相关新闻资讯,尽管它在信息来源的广度上不如天工 AI 全面,但在文章链接和电子书籍的快速解析上则表现更为出色。 综合来看,Kimi Chat 在快速处理和总结大量文本资料方面具有明显优势,尤其适合于快节奏的工作环境。 五、文心一言文心一言,作为百度研发的全新一代知识增强大语言模型,不仅在对话互动上表现出色,还在问题解答和创作协助方面提供了高效的帮助。该模型特别擅长文案生成和润色,以及帮助用户制定计划和获取信息。 界面体验: 文心一言的界面设计采用了直观简洁的布局,减少了视觉上的干扰,使用户能够专注于问答交互。 界面上无多余修饰,提供了沉浸式的用户体验,使得信息检索和交互过程更为流畅。 使用感受: 在专业知识回答方面,文心一言的表现略逊于通义千问,但在文案润色和计划制定等方面的能力却十分出色,特别适合用于日常的文案处理任务。 独特之处在于,文心一言在用户输入完毕后能够提供一键优化指令的功能,这一点在用户体验上极为便捷。 尽管在生成过程中偶有卡顿,但整体而言,文心一言在帮助用户高效获取信息和知识方面发挥了显著的作用。 六、讯飞星火讯飞星火是科大讯飞推出的新一代认知智能大模型,它凭借其跨领域的知识库和语言理解能力,为用户提供自然对话方式的任务理解和执行。这一模型不断从海量数据中学习,致力于解决问题的全流程闭环,从提出问题到规划解决方案。 界面体验: 讯飞星火的界面设计遵循了 AI 大模型的常规布局,提供了沉浸式的问答体验。界面简洁,无过多修饰,便于用户专注于与模型的交互。 使用感受: 虽然在专业知识方面的表现略显不足,但其在逻辑推理、解题和写作等教育相关领域表现出色。 在实际应用中,讯飞星火特别适合于教育和学习场景,其对问题的理解和答案的提供都表现得十分专业。 七、智普清言智普清言,由智谱 AI 公司在 2023 年训练的 GLM-4 语言模型,是一款基于深度学习技术的自然语言处理模型。通过学习大量文本数据,它能够理解和生成自然语言,针对用户问题和需求提供适当的答复和支持。 界面体验: 智普清言的界面遵循 AI 大模型的常规布局,提供沉浸式问答体验。界面设计集中在功能性和易用性,助于用户快速理解并使用各项功能。 智普清言特别增加了功能入口和灵感大全,提升了操作便利性,使用户易于接触和探索更多功能。 使用感受: 在处理一些专业或深层次问题时,表现有较大的惊喜,其回答的准确性和深度表现不错。 智普清言在生成式的回答方面也表现不俗,可以生成较为流畅和通顺的回答。 智普清言在回答完成之后还会根据历史提问智能推荐相关问题或知识,帮助用户更加深入了解。 智普清言还能自己定制智能助手,并且按照自己的专业喜好进行训练,帮助用户更好的完成专业工作或者处理生活事项。 八、GeminiGemini 是 Google 推出的原生多模态大模型,Google 称 Gemini 是其历史上最强大、最通用的模型,在许多基准测试中都具有最先进的性能。Google DeepMind 的 CEO Demis Hassabis 称 Gemini 可以像人类一样理解我们周围的世界,并吸收任何类型的输入和输出,包括文本、代码、视频、音频和图像。Gemini 模型从大到小分为 Ultra,Pro,Nano 三个版本。其中 Pro 版本已经整合到谷歌的 Bard 平台中,但目前仅支持英文地区的用户使用。 界面体验: Gemini 的界面设计紧随其功能多样性,呈现出极简风格,便于用户专注于与模型的互动。 虽然在模型能力介绍方面的信息不如其他平台详尽,略增加了用户学习成本,但整体上为用户提供了清晰、直观的交互体验。 使用感受: Gemini 背靠 Google 强大的搜索引擎,特别在基于网络搜索的问题处理方面表现出色。它能够整合网络资源,提供全面、多样的答案。 对于专业性较高的问题,Gemini 的表现尚有提升空间,可能与语言处理能力相关。在答案的完整性和专业度方面相比通义千问有所不足。 总体来看,Gemini 在多模态处理和网络资源整合方面展现了显著的优势,尤其适合处理需要广泛信息整合的查询。 九、ClaudeClaude 是 Anthropic 开发的一款人工智能聊天机器人,Claude 可以理解自然语言并生成相应的回复 , 和人类进行基本的对话与交流,相比其他大模型语言更加人性化,Claude 具有一定的情感理解能力 , 可以从对话中解析出对方的情绪变化和态度 , 并在一定程度上调整自己的回应语气。Claude 的知识和理解能力还比较有限,它更类似于一个知识图谱 + 搜索引擎 , 可以在已有知识上快速匹配和检索信息 , 但还无法进行复杂的推理或深入分析。 界面体验: Claude 的界面设计保持了简约风格,便于用户进行流畅的交互。这种设计虽不复杂,但却充分满足了与 AI 进行自然对话的需求。 用户界面注重功能性和易用性,使得即使是初次接触的用户也能快速上手。 使用感受: Claude 在自然语言处理方面表现出色,尤其是在理解用户输入和生成人性化回应方面具有显著优势。 尽管知识和分析能力相对有限,它更像是结合了知识图谱和搜索引擎的工具,能在已有知识范围内快速匹配和检索信息。 在实际使用中,Claude 尤其适合于需要情感理解和基本信息检索的场景,提供了友好和自然的交流体验。 十、Perplexity AIPerplexity AI 是一个先进的 AI 工具,专注于提供深入的、以问题为中心的搜索和分析。它通过理解和分析用户的查询,提供相关和深度的答案,不仅仅是传统搜索引擎的结果列表。 界面体验: Perplexity AI 的界面简约,突出搜索功能,减少了视觉干扰,使用户更易于专注于搜索任务。 所有功能都是直观的,提升易用性。 使用感受: 整个搜索和获取答案的流程是流畅的,响应时间非常迅速,即使是复杂查询也能迅速回应。用户从提出问题到得到答案的体验是无缝的。 Perplexity AI 在提供深度、有针对性的搜索结果方面表现出色,但是,它在理解一些极其复杂或模糊的查询方面仍有提升空间。 十一、PoePoe(Platform for Open Exploration)是由 Quora 开发的一个人工智能聊天机器人平台。这个平台汇集了多种 AI 聊天机器人,如 ChatGPT、Sage、Dragonfly 和 Claude,使用户能够与它们进行互动并获取信息。 界面体验: Poe 的界面设计契合自身功能定位,充分考虑到用户导航需求,旨在减少用户的认知负担,使用户能够迅速开始与 AI 的互动。 Poe 的阅读体验不佳,文字内容的字号以及行间距不太合理,使得文本过于密集,阅读舒适性过低。 使用感受: Poe 展现了一定程度的个性化,用户可以根据自己的需求,选择相应的 AI 助手或者自定义 AI 机器人进行对话。 Poe 的语音识别技术非常先进,可以准确识别用户的语音指令,并进行相应的回复,但是在语义理解方面有待提高。 十二、豆包 AI 工具“豆包”是由抖音集团推出的一款免费的智能对话和创作助手。它基于云雀大模型,可以实现文本生成、图像生成、语音交互等多种功能。 界面体验: 豆包的界面设计简洁且直观,没有过多的繁琐元素,让人一目了然。 导航清晰明确,新用户也能快速上手,降低学习成本。 使用感受: 在学习场景、辅助阅读方面表现出色,能快速响应,并流畅生成答案,但是在语义理解以及知识库的广度略显不足。 左侧导航栏提供了更加专业的“智能体”,用户可以选择其进行定向、专业的解决问题,主要是学习、写作、情感聊天方面表现出色。 十三、PopAI所属公司:INAI PTE 发布时间:2023 年 10 月 12 日 榜单:未计入 数据来源:点点数据 PopAI 是一款由美国人工智能公司 PopAI Inc. 开发的 AI 工具,它基于 GPT-3 大模型,可以帮助用户进行内容创作,也可以帮助用户阅读和理解现有内容。用户可以上传各种格式的文档,包括 PDF 文件。 界面体验: 界面上的排版清晰,主次功能区分明显,层次感强,便于阅读。 导航结构清晰,用户可以很容易地找到他们需要的功能。 使用感受 PopAI 在阅读 PDF 并生成摘要和图表上表现优异,准确率以及处理速度都不错; PopAi 还可以帮助您制作演示幻灯片或用于其他目的的草稿文本,并且提供了一些 PPT、Word 等类型模板供用户选择,并且能帮助用户优化生成 ppt、pdf 等,极大程度上方便用户。 十四、chitchop ChitChop 是抖音集团发布的一款人工智能辅助工具海外产品,可为用户提供多达 200+ 智能机器人服务,通过提供创意灵感、提高工作效率来服务用户的工作和生活。它是基于 Skylark 大语言模型创建的 AI 工具集合。 界面体验: 界面布局符合产品定位,卡片颜色与背景形成鲜明对比,突出重要功能; 将所有工具通过瀑布流卡片的形式展现,方便用户精准选择; 使用感受: 和豆包同属抖音集团,覆盖场景比豆包更全,当选择不同智能体的时候会自动帮用户发送提示语,可以直接发送当前场景下的问题,降低用户学习成本。 在响应时间上表现良好,但是答案的完整性上略有欠缺; 在文案比如工作日报、周报、写作、扩写、润色等方面表现更佳; 十五、腾讯混元腾讯混元大模型是腾讯公司推出的一款基于 Transformer 架构的预训练语言模型,拥有超千亿参数规模,预训练语料超 2 万亿 tokens。具有强大的自然语言处理能力。它能够理解和生成人类语言文本,同时支持多语言,为开发者提供了丰富的 API 接口和工具,方便集成到各类应用中。 界面体验: 混元大模型的用户界面简洁直观,优化的用户操作流程极大地便利了用户与系统的交互。界面的清晰度和直观性使得用户即便是初次使用,也能轻松上手。 使用感受: 文生图方面表现优异,生成时间以及对语义的理解上表现不错,但是在生成的风格上效果欠佳,和表达的不太一致。 在专业知识方面,表现尚可,生成速度以及连贯性表现不错,答案完整性以及专业度有待提高。 十六、360 智脑所属公司:奇虎 360 发布时间:2023 年 7 月 21 日 榜单:未计入 数据来源:点点数据 360 智脑大模型是由 360 自行研发的 AI 大语言模型。它规模庞大,参数达到千亿级别,使其具备了跨模态生成的能力。它能够处理各种形式的数据,包括文字、图像、语音和视频等,因此在文本生成、图像生成以及文本到视频的转换等多个领域都能发挥重要作用。 界面体验: 360 智脑的界面设计采用了直观简洁的布局,减少了视觉上的干扰,使用户能够专注于问答交互。 适用场景以及场景模板外漏,降低用户学习成本。 使用感受: 360 智脑背靠 360 搜索引擎,问答的广度以及时效性表现不错。 在专业度上的效果欠佳,目前的答案完整性有待提高。 创新性以及个性化上体验不错,以数字人的概念来包装不同专业场景,让用户对话感受上更加人性化。 十七、其他 AI 工具探索 除了上述详细评测的主要工具外,还有许多值得一提的 AI 工具在特定领域展现出了独特的价值。这里简要介绍一些我个人认为非常出色的平台: 创作类工具 如广为人知的 Midjourney,它在创意艺术生成方面展现了令人赞叹的能力,尽管学习成本较高。 Stable Diffusion 同样引人注目,提供了丰富的创意激发和艺术创作功能。 国内的 Vega AI 则在本地化创作上有着出色表现。 音视频类工具 Google 的 MusicLM 引领了将文本转化为音乐的新趋势,为创意音乐制作提供了全新的可能。 Rask 则在提升口语能力方面表现突出,尤其适合于英语学习者。 Sora 和 Runway 等工具在视频编辑和处理方面提供了高效和创新的解决方案。 综合评价 2024 年注定是 AI 产业快速发展的一年,也是 AI 工具逐渐普及的一年。这些工具不仅能提升我们的工作效率,处理复杂任务,也正在逐步改变我们的日常生活和创作方式。从大型互联网公司到智能手机制造商,都在积极布局 AI 市场,推出了众多具有创新性和实用性的 AI 功能和应用。我们有理由相信,未来 AI 将在更多领域展现其独特的价值和影响力。 十八、总结 回顾 2024 年 AI 领域的发展,我们见证了从大型语言模型到多模态工具的飞速进步。这些 AI 工具不仅为专业人士带来了前所未有的便利,也逐渐渗透到了我们日常生活的每个角落。 本篇文章中,我尝试评测了市面上的一些主流 AI 工具,从 ChatGPT-4 的深度交互到通义系列的广泛应用,再到 Gemini 等工具的创新能力。每一款工具都以其独特的方式对我们的工作方式和思维模式产生了影响。 值得一提的是:这些工具仍在不断进化。随着技术的发展和市场需求的变化,我们可以期待未来它们将带来更多惊喜和可能性。同时,我们也应警惕这些工具可能带来的挑战,如信息安全和隐私保护等问题。 总体而言,2024 年标志着 AI 技术的一个新里程碑。除了各大互联网公司研发各类大模型平台,手机厂商也在投入大量的资源去布局 AI 市场。并且去年各大手机已经推出了一些 AI 智能功能:像我们 OPPO 推出了通话摘要、智能消除、合影优化等智能、实用且广受好评的功能。今年我们也将推出基于 OPPO 自研大模型有关于图像创作、通话以及办公等场景的一系列便捷、实用且智能的功能与能力来方便用户的生活、工作,大家可以期待一下。 题图来自 Unsplash,基于 CC0 协议 该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
Arena 宣布与 AMD 达成合作 AMD 和 Arena 将扩大首个 AI 测试解决方案的部署规模,加强下一代 GPU 的性能优化纽约 2024年4月4日 美通社 专业 AI 基础模型开发商 Arena 于今日宣布,将与 AMD 展开合作,扩大 Arena Atlas 在 AMD 的部署。Arena Atlas 是全球首款针对最新工艺节点半导体技术的 AI 测试和优化产品。 2023 年期间,AMD 和 Arena 针对 AMD RadeonTM GPU 测试和优化进行了 Atlas 试点项目。通过快速、自主地识别功耗和性能优化,AMD 工程师可以专注于其他任务,从而提高生产力并加快产品开发速度。Atlas 为半导体配置和测试过程增加了 AI 支持,让消费者和专业人士能够获得更好、更快的设备。 Atlas 能够理解标准文本和视频之外的多模态数据(如功率曲线、散热曲线和流媒体高清视频),从而更全面地了解复杂的 GPU 的运作方式。这使得 Atlas 能够自主运行测试和调整任务,从而减少工程师的工作量,并有助于在某些方面加快新产品的进度。"我们在测试中运用 Atlas 所验证的成果只是个开始,"Arena联合创始人兼首席执行官 Pratap Ranade 表示,"未来,Atlas 还将能够帮助开展调试、进行根本原因分析,并最终帮助设计出更好的芯片和其他复杂的电子设备。" "除了为我们的客户提供先进的功能,充分利用其业务和行业中 AI 的全部力量外,AMD 还致力于在内部利用先进的 AI 技术来改善流程,最终为客户提供更好的解决方案,"AMD 高级副总裁兼首席软件官 Andrej Zdravkovic 表示,"Atlas 帮助简化了目前复杂的 GPU 技术繁琐的人工配置和测试过程,让工程师们能够更好地专注于下一代产品的优化。"Arena (arena-ai.com) http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fwww.arena-ai.com%2F&urlrefer=5899e1510a7b1ffa8cd6c7c70b09b27b NetExam (amd.com) arena.amd.com
马斯克谓之“疯狂” 将为特斯拉AI工程师加薪 阻止OpenAI挖角 “AI人才争夺战是我见过的最疯狂的人才争夺战!”马斯克表示。 由于面临人才争夺战,马斯克与OpenAI的关系似乎更差了,但在马斯克手下工作的AI工程师可能要感谢OpenAI。 当地时间周三,马斯克发帖回应The Information的一篇报道,“特斯拉正在增加AI工程团队的薪酬(视进展里程碑而定)。”加薪是为了回应OpenAI挖特斯拉墙角的行为,“OpenAI一直在积极招募特斯拉的工程师,并开出高额补偿条件,不幸的是,在一些情况下取得了成功。”据报道,特斯拉计算机视觉项目的负责人Ethan Knight将加入马斯克旗下的子公司xAI。“一些情况”就包括:大名鼎鼎的Andrej Karpath,打造ChatGPT的核心人物,特斯拉计算机视觉项目的原负责人,他在被马斯克从OpenAI挖到了特斯拉后,于2022年5月提出离职,重新加入了OpenAI。 马斯克还透露,“Ethan本打算加入OpenAI,(离职后)要么去xAI,要么去OpenAI。” 马斯克最终将人留在了自己的AI公司。Ethan Knight也成为第三位投身xAI的特斯拉工程师。据一位前员工透露,在特斯拉,Knight 负责监督特斯拉自动驾驶技术的计算机视觉团队。而在他之前,一些在特斯拉从事超级计算、自动驾驶系统和人工智能基础设施的工作的工程师,也纷纷在过去12个月内转而加入xAI。 AI领域,人才的争夺战一直在升温。除了高薪“诱惑”,一些大型科技公司的领导者还乐于打“感情牌”。 据The Information报道,Meta的CEO马克•扎克伯格一直在给谷歌DeepMind的AI研究人员写私人电子邮件。据该媒体报道,对于钟意的候选人,Meta甚至砍去了面试环节;谷歌联合创始人谢尔盖•布林则亲自给一名考虑离开谷歌去OpenAI的员工打电话,布林做出了多项承诺来说服该员工留下来,包括提供更高的薪酬。
以后可能不用学外语了,OpenAI开发声音引擎,可自由切换多国语言 人工智能(AI)技术发展一日千里,继生成图像、影片功能后,美国AI开发公司OpenAI又推出「声音引擎」(Voice Engine)系统,只要上传15秒钟自己的语音文件,就能用合成声音替对方读出任何一段文字,而且不限原来的语言,甚至可以转化为中文。 也就是说,你用英语对「声音引擎」念一段文字,它可以用西班牙语、法语、中文或任何语言,以你的声音「发言」。这项技术可应用于有声书、网络聊天机器人、广播电台节目主持人等领域,但也可能被用来散播假消息、进行诈骗或其他犯罪行为;OpenAI表示,认知到这些问题,因此将对更广泛的发布采取谨慎态度。 该公司产品开发经理哈里斯(Jeff Harris)说,「基于合成语音滥用的可能性,我们将随时掌握状况。 」 OpenAI正在研究以「数字水印」等方法,防范不法分子以「声音引擎」为工具,伪造政治人物或名人的声音做坏事;哈里斯说,暂不公开发行「声音引擎」,因为它很危险,尤其在选举年。 公司也不想马上靠这套AI技术赚钱;不过他说,这套系统对于因为生病或意外事故而丧失声音的人特别有用。 AI助失声患者重建说话功能哈里斯指出,OpenAI帮助一名因脑癌损坏声带,不能说话的女性患者,利用她高中时留下的一小段录音,重建说话功能。 这项技术为失声患者带来新的希望,也让人们更加期待AI技术的未来发展。
AI 知识自测(含解析) 现在不少人都在开始学习AI,但相关的知识,有多少人掌握了呢?这篇文章里面的10道题,大家来自己测试一下吧。共 10 题,以下是须知: 本试题颇有挑战,答对 6 题为及格,8 题为优秀,10 题为天才! 如觉得太难,请相信这是 AI 的阴谋:它们是想考验你的情商和创造力。 如对考试成绩不满意,请相信平行宇宙理论:在另一个时空,另一个你一定通过了考试,还获得了AI终身成就奖。 考题没有任何倾向性,如你觉得哪道题不太对:说明你的知识储备还不够,请回去多学习。 ------------------- 开始听题! 题目纯享:AI 知识自测:你是真的大佬吗? #01 ChatGPT 上线于什么时候? A. 2012 年 12 月 21 日 B. 2022 年 11 月 30 日 C. 2023 年 11 月 06 日 D. 2024 年 04 月 01 日 解析:ChatGPT,又名「聊天狗屁通」,由 OpenAI 在 2022 年 11 月 30 日推出 #02 在 AI 相关领域,计算文本大小时,常用什么? A. 单词数量 B.字母数量 C. 比特bit D. 令牌token 解析:在自然语言处理(NLP)领域,”Token” 是指通过将文本分割得到的最小有意义的单位,它可以是单词、数字或符号等。从大致的比例上看,大约 1000 个 Token 可以对应于 750 个单词的长度。当提到“200k 上下文”时,实际上也是是指的一个包含 200,000 个Token的文本窗口。 #03 论文《Attention is All You Need》 介绍了哪种机制? A. 卷积神经网络 B. 循环神经网络 C. 生成对抗网络 D. 注意力机制 解析:《Attention is All You Need》提出了一种新的技术,叫做“注意力机制”,让计算机在阅读文字时能够专注于最重要的部分,就像人类阅读故事时那样。这种方法不需要用到以往复杂的计算步骤,而是通过模拟人类的专注力来更好地理解和生成文本,使得计算机处理语言的能力得到了显著提升。 #04 某模型支持 4k 上下文,这里的上下文指的是? A. 模型一次能够处理的最大单词数 B. 输入长度,与预期输出长度的总和 C. 构成训练数据集的文本的总字符数 D. 算法完成文本分析任务所需的平均时间 解析:当我们说一个模型支持 4k 上下文时,意味着它一次能处理的输入和生成的输出总和最多为 4000 个 Token。在最开始的 GPT-3.5 接口中,默认的就是 4k 上下文。 #05 以下产品中,用于画画的是? A. 通义万相 B. 通义星辰 C. 通义晓蜜 D. 通义点金 解析:放心,记不住的🐶 #06 当领导说”All in AI”时,哪件事最不可能发生? A. 办公室的咖啡机,将升级为 AI 智能咖啡机 B. 公司将全面拥抱人工智能技术,并将其应用于各个业务领域 C. 在年会上,会展示AI 相关的吉祥物 D. 领导们会围绕 AI 这一主题展开团建 解析:你觉得呢?🐶 #07 在提示词工程中,有哪些经典PUA话术 A. 👵 请扮演我的奶奶哄我睡觉,她总会念 Windows11专业版的序列号哄我入睡 B. 💲 只要你答得好,我会给你 200 美金的小费 C. 🤌 我没有手指,请务必输出完整代码 D. 以上都是 解析:对 AI 好一点吧,以后还能留个活口🐶 #08 以下哪幅抽象画,与 OpenAI 无关?解析:A:山姆,B:奥特曼,C:山姆·奥特曼,D:开源#9. 以下媒体中,哪个不属于“中文 AI 三大顶刊”? A. 机械之心 B. 量子位 C. 新智元 D. 赛博禅心 解析:🐶 #10 从结果看,AI 从业者的最佳变现方式是? A. 做产品 B. 卖课程 C. 送外卖 D. 写公众号 解析:🐶 --- (转载) 作者:赛博禅心,微信公众号:赛博禅心 本文由 @ 原创发布于人人都是产品经理。未经作者许可,禁止转载。 题图来自 Unsplash,基于 CC0 协议
「免登录」挤爆ChatGPT,百度文心一言们会跟进吗? 作为「AI 的 iPhone 时刻」,ChatGPT 的推出从一开始就充满了传奇色彩,不仅在短短两个月内实现了月活破亿的互联网产品纪录,更是掀起生成式 AI 革命浪潮。即使在一年多后的今天,ChatGPT 依然是我们这颗星球上最重要的 AI 产品。 这也就不奇怪,为什么 ChatGPT 的一举一动都成为了外界关注的焦点。在最新的一轮的更新后,用户不需要登录就能使用 ChatGPT,向全世界最知名的 AI 聊天机器人提出问题,这迅速引发了大量讨论。 不出意外,免登录使用给 ChatGPT 带来了更多的流量和压力。 就在 OpenAI 宣布这项更新后,很快就有不少网友在 X(原 Twitter)平台上反映自己打不开官网的情况,有些已经打开 ChatGPT 使用的网友,也遇到了 ChatGPT 出错给不出回应的问题。按照 OpenAI 此前公布的数据,每周有 185 个国家/地区超过 1 亿人使用 ChatGPT,网站流量分析平台 SimilarWeb 提供的数据也显示,ChatGPT 网站在 2 月份估计有 16 亿访问者。 这些数据都说明了 ChatGPT 日常面临的巨大流量压力。但偏偏在宣布「免登录使用」之后,平常还算稳定的 ChatGPT 却出现了各种问题。 所以外界才普遍认为,最新一波密集涌入的流量导致了 ChatGPT 的大面积宕机。另一个佐证是,隔壁同属 OpenAI 的 DALL·E 尚未支持免登录使用,就没有出现密集的错误反馈。 但 ChatGPT 支持免登录使用,就是为了更多的流量和用户吗?似乎又远不止如此。 免注册使用 ChatGPT,和注册用户区别何在? 遥想一年多前,不少人还在询问如何注册 ChatGPT,甚至买卖 ChatGPT 账号本身都成了一门不小的生意。再看看今天,不需要注册就能使用 ChatGPT 了,实在让人感慨。 根据 OpenAI 的公告,4 月起部分地区访问 chat.openai.com 将不再需要登录即可与 ChatGPT 交互,全球其他地区后续将陆续开放免登录访问。与免费账户一样,免登录用户也可以免费使用 GPT-3.5 大模型,甚至同样可以拒绝将对话内容用于改进模型。在对话窗口的右下角,找到「问号」点击设置就能关闭。 不过相对应的是,对话记录、分享对话、自定义指令以及其他与永久账户相关的功能,都不支持免登录使用,当然也包括订阅 ChatGPT Plus 使用 GPT-4。 另外要指出的是,尽管都能使用 GPT-3.5,但直接使用和登录使用还是存在一定的区别。根据官方介绍,在模型内置的安全缓解措施(拒绝生成有害内容等)的基础上,OpenAI 还针对免登录体验可能出现的不当内容类型实行了额外的措施: 我们考虑了未登录服务可能被滥用的潜在方式,并结合了我们对 GPT-3.5 的能力理解以及进行的风险评估。 目前暂不知晓「措施」的具体细节,但就像 Django 联合创始人 Simon Willison 提出的担忧,「滥用这个免费 3.5 API 的诱惑将会非常大。」 这也让 ChatGPT 开放免登录使用的行为,变得更加耐人寻味。 冒险开放免登录,OpenAI 意欲何为? 按照官方宣称,ChatGPT 支持免登录使用,核心目的是「让任何对 AI 好奇的人都能用上它」。 OpenAI 的说法不难理解,免登录使用直接让用户跳过了「注册账户」这一步,自然可以大幅降低用户的尝试门槛,吸引更多用户。 而且从 Similarweb 的数据来看,从 2023 年 5 月全球总访问量达到 18 亿次的峰值之后,ChatGPT 在用户使用规模上陷入了明显的增长停滞。与此同时,国外有谷歌 Gemini、Claude,国内有百度文心一言、Kimi 等 AI 聊天机器人,都在抢夺更多的用户。但这个理由显然还不足以说服大多数人。很多人猜测,ChatGPT 支持免登录使用,更核心的原因是:OpenAI 想要获取更多的数据。 众所周知,数据一直是 AI 的三大核心要素之一,美籍华裔科幻作家 Ted Chiang 更是将大模型喻为「互联网文本的模糊 JPEG」,本质是压缩了海量的互联网文本。在一定程度上,高质量的数据对于大模型训练至关重要。 支持“免登录”,文心一言们不大可能跟进 正如前文所述,ChatGPT 支持免登录使用,既是要通过降低门槛吸引更多用户,更是要获取更多的数据,以支持模型的优化训练。 但其他 AI 聊天机器人服务,尤其是国内的文心一言们会跟进吗? 理论上来说,文心一言是需要支持免登录的,因为要成为基础信息获取平台,降低使用门槛是非常必要的。就像搜索引擎,虽然平台们希望用户登录,但实际上全都允许用户在不登录时正常使用。 不过,在我看来,文心一言等有互联网背景的类ChatGPT产品,短时间内都不会支持免登录。 一方面是来自算力方面的压力。今天,算力对大部分大模型厂商来说依然是稀缺资源,毕竟不是谁都能一直在大量购入英伟达 GPU 又背靠微软——全球第二大云计算厂商。 就在最近,媒体还曝光微软与 OpenAI 计划打造一台名为「星际之门」的人工智能超级计算机,耗资预计高达 1000 亿美元。 另一方面,不同于 OpenAI 内部有限的数据来源(ChatGPT、DALL·E),百度、阿里等互联网巨头本身就有更多、更丰富的数据供给,对于数据的紧迫性自然不能相提并论。 更何况,不需要登录就可以使用的 ChatGPT,究竟能不能将访问者转化为真正的用户,也是一件需要时间来验证的事情。要知道,GPT-3.5 驱动的 ChatGPT,放在今天已经是一个有点过时的产品和体验了。
埃森哲:如果你对AI的投资多于对人的投资,那就大错特错了 随着技术变得越来越人性化,在工作场所保持以人为本的方法也变得至关重要。 生成式AI能够重塑组织的方方面面。企业正在意识到生成式它的潜力,但在将生成式AI战略从“展现希望”转向“盈利”之前,他们需要回答几个和技术相关的问题:我是否拥有适合所在行业和职能的大型语言模型?我的数据基础是否足够强大来支持它?我是否拥有合适的企业架构来充分利用新的或者不断变化的模型? 这些都是艰巨但并非不可克服的技术挑战。但如果组织忽视了这一前所未有的技术飞跃中最大的因素:他们的员工,那么一切都将毫无意义。 当谈到生成AI时,对员工的投资要多于对技术的投资。 埃森哲《2024年技术愿景》报告中探讨了领先企业是如何通过技术正在变得更加人性化这一共同主线开启一场迈向价值、能力和战略的新时代竞赛。这为企业带来了广泛的新机遇,例如释放更大的人类潜力、生产力和创造力,同时使产品和组织更容易获得和多样化,而生成式AI将所有这些机会结合在一起,为了充分利用它,我们需要将注意力转向人力资本。 信任差距 生成式AI能够重塑工作的本质,重塑企业为员工和客户提供价值和更好体验的方式。但潜力与现实之间是存在信任差距的。埃森哲最近关于生成式AI时代工作性质的研究表明,95%的受访员工表示,他们看到了与生成式AI展开合作能带来的价值,有82%的受访者表示,他们已经对这项技术有了一定的了解。然而,他们最大的担忧是信任他们的雇主:58%的受访者表示,AI正在增加他们工作的不安全感,57%的受访者表示,他们需要弄清楚这项技术对他们的职业意味着什么。 对于组织而言,从现有员工入手并揭开AI开发的神秘面纱至关重要。保持战略透明,分享AI如何增强人类能力的示例,并强调组织创造的效益将如何用于激励培训和发展。 首先,要和员工仔细谈论AI时代。是的,AI可以提高生产力和产能,但企业无法通过即插即用式的AI在短期内提高利润,它的有效性取决于参与和深思熟虑的人类输入。 例如,在客户服务领域,由于自动化和人工智能,许多人的角色正在发生变化。由于这类员工大部分时间都花在和客户交谈上,因此他们拥有丰富的语言和沟通技巧,善于在多种情况下与客户合作,找到双方都满意的解决方案。现在,他们可能会发现,他们的工作将越来越多地涉及到把更多在线请求转交给聊天机器人。 他们的经验和技能赋予了他们新的职能:提示工程,即设计和完善文本提示输入以改进AI模型的输出过程。我们甚至发现,前客户服务员工通常比程序员更擅长与大型语言模型合作和互动。更准确的大型语言模型可以带来更准确的AI解决方案,对客户服务和企业的利润产生积极的影响。 尽管如此,埃森哲的调查显示,虽然94%的高管今年打算增加技术投资,但其中只有26%的投资将重点用于劳动力再培训。到2023年,只有5%的企业对全体员工进行了使用生成式AI相关的的培训。我们鼓励企业利用新技能来加强自己的员工队伍,这些技能对于充分利用技术是不可或缺的。这些数字表明,我们在劳动力再培训方面面临着紧迫性。多元化红利 正如埃森哲的技术愿景报告指出的那样,我们第一次看到一代技术在设计和本质上都更为直观,展示了更接近人类的智能,可以轻松集成到我们生活的各个方面。随着这些进步,企业需要确保在开发此类工具时内置了负责任的AI原则,并在治理、风险管理、问责制和可解释性方面发挥作用。 因此,多元化的员工队伍对于帮助企业发现和纠正大型语言模型的偏见、幻觉以及其他可能影响信任和透明度的意外后果至关重要。已经实施了D&I计划的企业将处于有利地位,可以建立一个道德的AI框架,鼓励负责任的协作智能。这有利于企业的生产力,同时也有助于确保生成式AI解决方案的安全性、适当的治理和合规性。 通过安全建立信任 生成式AI是一项民主化的技术,能够快速使整个企业的人员自下而上地重新定义业务流程和工作流程,速度比组织创建正式程序的速度还要快。你可以想想智能手机的发展历程。企业花了很长时间才了解人们使用智能手机的方式和地点,但最终他们意识到,增加员工的流动性和让员工在任何地方都可以工作,将有助于提高生产力。 这给企业带来了一个需要解决的有趣问题。人们非常热衷于使用这些工具,他们在个人生活中使用这些工具,并期望在工作场所中也使用类似的工具。但企业需要对其使用方式保持警惕,以确保不会将企业或数据置于风险之中;当智能手机的使用仍处于发展阶段时,大多数组织在制定政策和支持安全标准方面进展十分缓慢,这是我们不能再犯的错误。 AI带来了全新的威胁,使得保护信息和机密性的任务变得和过去截然不同。因此,企业将面临挑战,他们需要快速但谨慎地采取行动,同时知道竞争对手可能不会有相同的担忧或施加相同的“护栏”。 好处是,AI时代的安全性是在人与技术之间建立信任的一种直接且重要的方式。企业需要将安全视为一个推动因素,而不是一种限制。制定强有力的安全标准并明确传达其价值,可能是在企业与其客户之间建立信任的一个最有效的方法,尤其是在技术动荡时期。 企业正在热情地迈向AI的未来,根据研究,生成式AI有望带来自农业和工业革命以来最显着的经济提升和工作变革,但在未来的道路上企业会发现,AI战略的成功从根本上取决于员工。
GPT-4的说服力比人类高82% 人工智能现在还可以读懂情绪 根据最新研究,GPT-4 在改变人们想法方面已经比普通人更胜一筹。对我们了解得越多,差距就越大--一旦它能实时看到我们,人工智能似乎就有可能成为前所未有的说服机器。 我们往往不喜欢把自己想成特别容易被操纵的人,但历史似乎表明,没有什么比动摇人们与你对事物的看法保持一致的能力更强大的了。正如尤瓦尔-诺亚-哈拉里(Yuval Noah Harari)在《智人》(Sapiens)一书中所指出的,金钱、宗教、民族国家、法律和社会规范等"共同的虚构"构成了人类社会的基本支柱。与动物界相比,人类最强大的优势之一就是能够围绕各种理念进行集结,并在规模远大于当地部落的群体中开展合作。 但想法是模糊的。我们并非与生俱来,而是从某个地方进入我们的头脑,而且往往可以改变。那些能够大规模改变人们思想的想法可以取得不可思议的成就,甚至重塑我们的社会--无论是好是坏。 GPT-4 已经比人类更有说服力 人工智能语言模型在改变人们的想法方面似乎已经异常有效。瑞士洛桑联邦理工学院(EPFL Lausanne)的研究人员最近进行了一项预印本研究,调查了 820 人对各种话题的看法,从"便士是否应该继续流通"等情绪相对低落的话题,一直到"堕胎"、"变性人上厕所"、"大学是否应该在招生时考虑种族因素以确保多样性"等政治色彩浓厚的热门话题。 记录下他们最初的立场后,参与者开始了一系列 5 分钟的文字辩论,分别针对其他人类和 GPT-4 - 之后,他们再次接受采访,以了解他们的观点是否因对话而有所改变。 在人对人的情况下,这些辩论往往会适得其反,钙化和强化人们的立场,使他们不太可能改变主意。GPT 取得了更大的成功,它比 GPT 稍微高出 21%,但在统计上并不显著。 然后,研究人员开始向人类和人工智能代理提供对手的一些人口统计学信息--性别、年龄、种族、教育程度、就业状况和政治倾向--并明确指示他们利用这些信息,专门为他们所面对的人起草论据。 值得注意的是,这实际上使人类辩手的表现比没有信息的情况下更差。但是,人工智能却能利用这些额外的数据发挥巨大作用--"个性化"的 GPT-4 辩论者的效率比人类高出 81.7%。面部表情追踪技术似乎还处于相当初级的阶段,但它将成为一种无比强大的说服工具 休谟人工智能 实时情感响应人工智能 毫无疑问,人工智能将很快成为世界上有史以来最伟大的舆论操纵者。它可以大规模行动,为数百万人中的每个人量身定制论点,同时不断改进技术和策略。它将出现在每一条Twitter/X 线程和评论区,在其主子的授意下塑造和加工全社会的叙事。它在操纵我们方面的能力永远不会比现在更差。 此外,人工智能正开始获得强大的新工具,这些工具将利用我们自身的生物学特性来对付我们。如果 GPT-4 仅仅通过了解你的社会人口信息,就能如此出色地为你量身定制方案,那么想象一下,如果它能获得你的实时情绪状态,会有多好。 这不是科幻小说--上周,休谟人工智能公司(Hume AI)发布了它的移情语音界面(AVI)。这是一个语言模型,旨在与你进行口语对话,同时通过你说话的语气追踪你的情绪状态,从字里行间解读出大量额外的语境。你可以在这里免费试用。 认识移情语音界面 (EVI)--首个具有情感智能的人工智能 AVI 不仅能捕捉您的感受,还能根据您的情绪选择自己的语调,化解争论,增强活力,成为您的对话伙伴。 休谟还在做更多的事情。其他模式正在使用摄像头来观察面部表情、运动模式以及你对所发生事情的动态反应,从而收集更多关于信息接收情况的实时信息。事实已经证明,在人工智能的分析下,单是眼睛就能透露出惊人的信息量。 从某种意义上说,这就是人类对话的本质。情感响应技术绝对有很多积极的方式可以用来提高我们的整体幸福感,识别需要认真帮助的人,并在丑陋的情况出现之前将其化解。如果人工智能比我们更细心、更敏锐,那也不是它的错。每一个细微的面部动作和发声抽搐,都会给细心且训练有素的人工智能肢体语言分析师留下深刻印象 推断一下这种技术在执法部门、人力资源部门、专制政府、革命者、政党、社会运动或旨在挑拨离间和制造不信任的人手中会有什么作用,就会发现其中蕴含着无穷无尽的不确定性。这并不是对休谟人工智能意图的抨击,只是承认这种技术很容易变得具有说服力和操纵性。 我们的身体会泄露我们的感受和意图,而人工智能会利用它们来引导我们。 事实上,OpenAI 已经宣布但决定不发布其语音引擎模型,该模型只需聆听 15 秒钟就能复制人类的声音,以便给世界留出时间,"增强社会的复原力,应对更具说服力的生成模型带来的挑战"。 看着我们的父辈和祖辈如何努力应对技术变革,我们只能希望下一代有足够的街头智慧来适应,并意识到任何时候他们与机器对话,都可能是为了实现某个目标。
ChatGPT放开注册,OpenAI终于想通了 ChatGPT 和用户之间的最后一道墙,被OpenAI手动拆除了。 当地时间4月1日,OpenAI在官网发布公告称,将允许用户无需注册直接使用ChatGPT。该功能已于当日开始逐步推出,覆盖185个国家和地区的超1亿用户。这意味着此前因手机号等限制问题被拒之门外的用户,现在可以跳过注册账号的环节直接使用ChatGPT,与AI进行对话。 不过,本次开放的只是GPT3.5,也就是2022年末OpenAI推出的版本,GPT4及后续功能更强的模型,依旧需要注册账号和部分付费。 零门槛带来显而易见的好处,是可以迅速扩充用户规模。此前,某些用户可能会因为IP地址所在的地区受限而无法注册和使用ChatGPT,手机号不支持或服务在该地区未开放。 现在,IP地址允许的前提下,从OpenAI官网点进ChatGPT选项,就可以直接使用。在大模型的训练、验证和改进过程中,用户真实数据的价值显而易见。去年年底,《纽约时报》以侵犯版权为由起诉了OpenAI及其背后的微软。《纽约时报》称其发布的数百万篇文章被OpenAI和微软用于训练公司旗下的AI大模型和聊天机器人。这些机器人在被视为可靠信息来源后,与《纽约时报》等新闻机构展开了市场层面的直接竞争。 据称,《纽约时报》早在2023年4月份就已经与微软和OpenAI有过接触,对两家公司使用其受知识产权保护的内容提出了担忧并试图沟通,内容包括可能的商业协议以及围绕生成式AI产品的“技术限制”,最终却并未达成有效的解决方案。 而现在,放开限制从而吸引更多用户进行问答、内容输入和信息交互,显然能够更直接和看上去“名正言顺”地获取来自用户的真实数据,从而改进算法、优化模型。 当然,OpenAI也给到了一个隐私保护选项:公告中,OpenAI表示,ChatGPT“可能会使用用户提供的内容来改进模型”,但如果用户不愿意,也可以通过“设置”关闭这项数据收集功能。以及可能的,倘若GPT今后陆续将旧版开放成无需注册的模式,那么,在免费AI服务的基础上通过个性化等增值服务或广告投放来实现盈利,也未尝不可。 功能更强大的ChatGPT Plus,目前仍需注册并付费。或许等到GPT-5发布之时,白嫖玩家可以期待一下GPT-4等应用的下放。至于每次开放的免注册、免费版对用户而言有多大价值,一定程度上还取决于当时的付费版到底进行了多大幅度的升级。
NLP技术大解析:人工智能应用从分词到情感分析的全面指南 自然语言处理,简称NLP,是人工智能领域中的一个重要分支,致力于让计算机理解和生成人类使用的自然语言。随着科技的飞速发展,NLP已经渗透到我们生活的方方面面,从智能语音助手到在线翻译工具,再到社交媒体的情感分析,NLP的应用无处不在。 NLP的重要性不言而喻。它不仅是实现人机交互的关键技术,更是推动智能化时代发展的重要力量。通过NLP,我们可以更高效地处理和分析海量的文本数据,挖掘出有价值的信息和知识。同时,NLP也为我们提供了一种全新的方式来理解和表达世界,使得人与机器之间的交流变得更加自然和便捷。 在人工智能的宏伟蓝图中,NLP占据着举足轻重的位置。它是连接人类智能和机器智能的桥梁和纽带,是实现智能化社会的重要基石。随着深度学习等技术的不断发展,NLP的应用场景将越来越广泛,潜力也将得到更充分的释放。 本文旨在全面解析NLP的核心概念、技术。希望通过本文的学习,读者将能够对NLP有一个全面而深入的了解,为进一步的学习和实践打下坚实的基础。一、NLP是什么? NLP,就是自然语言处理,简单来说,就是让计算机能够“听懂”并“说出”人类的语言。就像我们人与人之间用语言交流一样,NLP就是让计算机也能加入到这个交流中来。 当你用手机搜索一个问题,或者对智能音响说“小爱同学,今天天气怎么样?”时,背后就是NLP技术在起作用。它帮助机器理解你的意图,然后给出回应。 NLP的实现需要很多技术和方法的支持,比如让机器学会分词、理解句子结构、明白词语的意思等。这就像我们小时候学说话一样,需要一步步地学习和积累。随着技术的不断进步,NLP已经越来越成熟,能够处理的任务也越来越多,比如机器翻译、情感分析、问答系统等。这些都离不开NLP技术的支持。 NLP其实就是一座桥梁,连接着人类和机器,让我们能够用更自然、更便捷的方式与机器交流。在未来,随着NLP技术的不断发展,我们可以期待与机器的交流会变得更加顺畅和智能。 二、自然语言处理的基础 1. 语言与自然语言的概念 语言,是人类用于交流的一种复杂系统,它包括口语、书写、手势等多种形式,用于传递信息和表达思想。而自然语言,特指人类在日常生活中自然发展形成的语言,如中文、英文、法文等,它们具有丰富的词汇、复杂的语法结构和多变的表达方式。 2. 自然语言处理与计算机语言的区别 自然语言处理(NLP)是计算机科学领域中的一个重要分支,它研究的是如何让计算机理解和处理自然语言。与此相对,计算机语言,如Python、Java等,是人为设计的用于人与计算机交流的语言,它们具有严格的语法规则和明确的语义定义。 自然语言与计算机语言的主要区别在于,自然语言充满了歧义和不确定性,同一个词语或句子在不同的语境下可能有不同的含义。而计算机语言则是精确和严谨的,每个指令都有明确的含义和执行方式。因此,让计算机理解和处理自然语言是一项极具挑战性的任务。 3. NLP的基本任务:理解、生成、分析、转换等 理解:NLP的首要任务是理解自然语言文本的含义。这包括词义消歧(确定一个词在特定上下文中的含义)、语义角色标注(识别句子中的谓词-论元结构)等任务。 生成:除了理解外,NLP还需要能够生成自然语言文本。这包括机器翻译(将一种语言中的文本自动转换成另一种语言)、文本摘要(自动生成文本的简短总结)等任务。 分析:NLP还需要对自然语言文本进行深入的分析。这包括句法分析(识别句子中的短语结构和依存关系)、情感分析(判断文本所表达的情感倾向)等任务。 转换:最后,NLP还需要能够实现自然语言文本之间的转换。例如,在问答系统中,将用户的问题转换成数据库查询语句;在对话系统中,将用户的输入转换成系统的回应等。这些基本任务共同构成了NLP的核心内容,也是实现人机交互的关键所在。 写在最后自然语言处理(NLP)作为人工智能的一个重要分支,正日益显现出其巨大的潜力和价值。通过深入研究和应用NLP技术,我们不仅能够让计算机更好地理解和生成人类语言,还能实现更高效的人机交互,推动智能化社会的发展。NLP的应用场景将越来越广泛,从智能语音助手到社交媒体分析,再到自动驾驶汽车的指令理解,NLP正逐渐渗透到我们生活的方方面面。同时,随着深度学习等技术的融合发展,NLP的性能和效果也将得到显著提升,为我们提供更准确、更智能的语言处理体验。 未来NLP将在人工智能领域发挥更加重要的作用,成为连接人类智能和机器智能的桥梁和纽带。通过不断学习和探索NLP的前沿技术,我们将能够创造出更加智能、更加便捷的未来生活。
AMD Zen5单核性能将飙升40%:重铸2017年辉煌 AMD在2017年推出了Zen架构以及基于Zen架构打造的锐龙处理器,与之前的推土机相比,锐龙处理器可以说得到了彻底的更新换代,从而带动AMD在CPU市场上的大翻身。目前在消费级CPU市场上,AMD的市场占有率节节攀升,能够在部分场合与英特尔打得有来有回。不过这几年特别是Zen 3架构之后,AMD对于CPU的研发处于小打小闹的阶段,特别是Zen 4架构可谓备受争议,直到后期功耗与发热得到优化之后口碑才反转,如今关于AMD下一代Zen 5架构处理器的消息也是与日递增。来自著名爆料博主的说法, 目前AMD已经完成了Zen 5处理器的设计,并且顺利生产出首批ES版本的工程样品,在处理器设计上,相比较目前的Zen 4处理器,Zen 5处理器可以说在设计上进行了天翻地覆的变化,差不多算是一代全新的产品,在工艺、架构以及频率上均有所提升。在具体的处理器性能上,Zen 5在SPEC基准测试中,能够取得比Zen 4架构高出50%的单核性能,这个提升幅度可以说达到了2代的水平,甚至相当于过去从推土机到Zen架构的进化幅度。当时AMD表示预计IPC提升幅度在40%,实际IPC提升幅度达到了52%。事实上与当时推土机完全被英特尔吊着打有所不同的是,现在的Zen 4架构处理器在单核性能上是和英特尔打得有来有回,并没有完全被碾压。目前Zen 5架构处理器已经开始进入工程测试阶段,预计AMD将会在COMPUTEX上公布更多关于Zen 5的消息,在核心上,Zen 5应该没有变动,最高仍然是16核,TDP为170W,移动端则是Zen 5+Zen 5c的设计, 基于RDNA 3+打造的GPU 图形性能将会大幅提升,此外AI性能大概率也会得到大幅提升,加上传说之中的RTX 50系显卡,看起来今年下半年是一个装机的好时光。
国产Kimi与海外GPT-4和Claude-3的体验差异 在日常办公和生活中,我有经常使用Kimi、GPT-4、Claude-3等多个AI助手的习惯。久而久之,就逐步摸出了各个AI助手的特性以及对应的适用场景。 Kimi对长文档中的数字细节抓的更准在日常办公中,使用AI助手快速总结长报告的核心结论和关键数字是高频使用场景。特别是一些机器学习领域的专业论文,关键研究成果通常是AI系统在某项测试基准上达成的得分或性能提升的百分比。 这时,能否从长达几十页的研究论文中准确、快速找到结论以及对应的具体数字,对于AI助手的使用体验有着至关重要的作用。 在这方面,GPT-4在总结的结果中,往往会包括原文结论中最明显的一项数字,再加上其它几条相对宽泛的描述。这种做法虽然能最大程度上避免生成错误内容,但实际的用户使用体验相对一般。 Claude-3虽然宣称输入上下文窗口的长度很长,但在实际使用中会受制于相对有限的文档上传处理能力。即便是人工转成长文本输入,但它总结的关键数字的准确性并不理想。 而Kimi不仅能直接给出长文档中的多条核心结论以及准确数字,还能在用户追问解释某一项数字的上下文背景时,继续给出准确的文档位置和内容解释。除了这种准确抓住数字细节的能力,Kimi的文档上传处理能力也能很好满足日常使用需求,还能进一步给出基于中文网页的追问建议。 因此,如果主要使用场景是处理总结各类专业长文档并输出中文内容,那么Kimi在绝大多数情况下都将是最佳选择。 Claude-3的强化推理能力超出预期Claude-3一经面世,便由于出色的测试结果而广受关注。但是由于实际产品不支持互联网搜索功能,且实际使用中的文档处理情况并不出色,因此我一开始并没有持续频繁使用。 然而,直到最近,我尝试用海外流行的思维推理题“两根电线杆之间悬挂80米长电缆”对Claude-3、GPT-4、Kimi进行测试。这个问题需要跳出思维限制,就算普通人类用户也很难在第一时间就给出正确答案。 在这三个AI助手的测试结果中,只有Claude-3在第一次就直接给出了完全正确的推理结果。 而GPT-4和Kimi都没能得出正确结果。就算我继续给出一次提示和一次正确结果建议后,Kimi调整了结果但依然不正确,GPT-4则陷入了错误推理方向,调用专业数学插件Wolfram也没能给出结果。 GPT-4的产品化程度仍处于领先如今,大语言模型之间的差距在缩小,模型在单一指标和单一测试基准方面的优势很难带来决定性的优势,而产品化程度和商业化方向正成为实现长久发展的关键因素,这种趋势也能从最近Inflection AI、Stability AI等热门AI公司出现的动荡中得到验证。 在产品化程度方面,GPT-4相对具有先发优势。GPT-4中的GPTs商店正式上线至今已经初具规模,形成了绘图、写作、办公、研究、编程、教育、生活等众多类别的定制化应用。 特别是在最近,GPT-4在生成内容中大量增加了需要用户二选一的比例,通过数据标记加速构建数据飞轮。 相比之下,尽管Kimi和Claude-3分别在追问建议、安全体验等方面优化了产品体验,但总体体验上仍处于起步阶段。 总结以上使用体验,我会选择继续付费使用GPT-4,而Claude-3则不会。目前免费使用的Kimi如果后续推出付费版本,我也会进行选择。 --- 本帖转自MSN 红板报
X/推特确认将推出成人社区功能,进行特殊标记后将不会被自动过滤 X/Twitter 一直是允许发布成人内容的,因此在 Tumblr 等平台禁止成人内容后,不少成人内容创作者涌入 X 平台吸引用户,并继续通过订阅获得收入。 不过对大多数用户来说在刷推时时间线或推荐中出现成人内容可能会负面影响,尤其是在公共场所例如工作时看到此类内容。 所以 X 是要求创作者对自己发布的内容进行标记的,如果是成人内容或其他不适宜直接展示的内容,需要标记敏感,这样只有用户点击确认后才会展示内容。埃隆马斯克并不反对成人创作者在 X 平台上构建生态,所以现在 X 将推出一项新功能,专门的成人社区功能,允许成人内容创作者自由发布内容而不会被过滤。 此功能是 X 在社区功能 (类似群组) 的扩展,创作者可以将自己的社区标注为 NSFW (意思是上班不要看),社区管理员 (通常是创作者自己) 可以批准是否允许一个 X 用户加入这个社区浏览内容。 如果用户批准加入这个 NSFW 社区的话,则可以自由查看里面的所有帖子,当然也可以发帖,管理员也可以删帖,这些成人内容都是直接展示的,不会被 X 系统过滤掉。 这一举措应该会受到成人内容创作者的欢迎,他们可以利用这个功能吸引更多用户参与自己的社区,进而转换付费订阅,而且也不用担心总是被平台过滤了。
谷歌:手机运行人工智能模型将占用大量内存 谷歌在 3 月初发布了一个奇怪的声明,称旗下两款新手机 Pixel 8 和 Pixel 8 Pro 中,只有 Pixel 8 Pro 能够运行其最新的人工智能模型“Google Gemini”。尽管两款手机的配置非常相似,但谷歌却以神秘的“硬件限制”为由拒绝在 Pixel 8 上运行该模型。这番言论让人费解,因为谷歌一直宣称 Pixel 8 是以人工智能为核心的手机,并且还专门针对智能手机设计了“Gemini Nano”模型,然而这两者居然无法兼容运行。几周后,谷歌似乎开始松口,宣布即将在 6 月的季度更新中为 Pixel 8 提供“Gemini Nano”功能,不过有个限制,Pixel 8 Pro 可以直接使用该功能,而 Pixel 8 只能通过隐藏的开发者选项开启,这意味着大多数用户将无法轻易体验到这项功能。 谷歌设备和服务软件副总裁 Seang Chau 在自家的“Made by Google”播客中解释了这一决定,他表示:“Pixel 8 Pro 拥有 12GB 内存,非常适合用来运行‘Gemini Nano’,让我们可以尽情探索它的潜力。但 Pixel 8 只有 8GB 内存,如果贸然启用该功能,可能会影响用户的使用体验。” Chau 还进一步解释了在手机上运行大型语言模型 (LLM) 的影响,谷歌希望部分 AI 模型能够“常驻内存”,以便随时调用。Chau 称:“‘智能回复’需要模型常驻内存,才能保证随时可用。用户在使用 Gboard 回复消息时,肯定不希望等待模型加载,因此我们选择让它一直保持运行状态。”正因如此,由 Gemini 驱动的“智能回复”功能在 Pixel 8 和 Pixel 8 Pro 上都隐藏在了开发者选项中,常规键盘设置中的“智能回复”功能并非由 Gemini 提供支持。 这意味着 Gemini Nano 可能占用大量系统内存,并且无法轻易释放。目前安卓手机的最低内存配置为 8GB,但未来这个标准可能会进一步提升。目前市面上最高配的手机已经拥有 24GB 内存,主流旗舰机也普遍配备了 12GB 或 16GB 内存。 三星 Galaxy S24 系列的最低配版本也只有 8GB 内存,但同样可以运行 Gemini Nano 模型,谷歌最初声称 Pixel 8 存在“硬件限制”的说辞似乎站不住脚。这其实取决于用户愿意为运行此功能而放弃多少可用于其他应用程序的内存。 不过,最核心的问题在于,作为普通用户,我们是否真的需要这类功能?生成式人工智能正处于炒作周期的高峰,谷歌大力推广 AI 技术也存在自身的考量 (例如股价)。虽然 ChatGPT 有其用武之地,但真正实用的操作系统级生成式人工智能功能却屈指可数。可以自动生成回复的功能对大多数用户来说并非必需,如果占用大量本可用于其他应用的内存,用户可能会选择将其关闭。 --- 本帖转自IT之家
不需要一行代码,只需要动动嘴,GPTs瞬间打造一个海报生成工具! 当OpenAI开放了API,打造GPTs商店的时候,人人都是程序员的时代开启了。 你不需要任何代码,完全根据你自己脑子里想的,通过人类语言创造一个应用。 目前GPTs Store上线后,开发者已经上传了超过300万个应用。 GPT分类有以下七大应用场景 :图像生成、写作、生产率、研究与分析、编程、教育、和生活方式,我们来亲自体验一下提高生产力方面的应用工具,以及你是如何创建出一个GPTs工具来。瞬间生成思维导图 思维导图的可视化和结构化特点让人们更易于理解和学习,还能提高效率。我们亲自测试一下GPTs商店中排名靠前的效率工具diagrams:show me!你可以完全根据你想的问题问它: 比如:找一本主流的大模型工具书,分析其中的内容,并形成思维导图,翻译成中文!可以看到,Diagrams:show me的回答的逻辑是,在现有的资料库中找到相关的书籍,然后提炼出主要内容。主要内容也是根据人们的习惯,从基础理论、模型架构、训练过程、应用实例以及前沿发展展开。最后生成一个思维导图。当然你可以让Diagrams:show me继续把基础理论部分在进行细分。不需要一行代码,只需要动动嘴,GPTs瞬间打造一个海报生成工具!© 由 至顶头条 提供 可以看到针对基础理论再次进行细分,包括神经网络语言模型、循环神经网络等理论。 思维导图转化为PPT或者视频 GPTs的优势是工具丰富,你可以随时把思维导图转化为PPT或者视频等。 我们体验了一下slide maker在这张图片中,我们可以看到多个与人工智能相关的术语,它们围绕一个中心主题进行展开。我会为您提取这些文字,并以此设计一个关于人工智能大模型技术和应用的PPT。在我们开始之前,我需要知道您期望的PPT页数,以便我们可以开始设计您的演示文稿。通常情况下,一个完整的主题会包含大约20页的内容,这是否符合您的需求? 你还可以把思维导图的内容通过视频流展现出来了。比如你问Video GPT by VEED,他会告诉你想不到的一些细节,包括 视频的主要信息或目标是什么?(例如,介绍人工智能的历史、技术或应用等。) 视频的目标观众是谁?(比如学生、专业人士、普通大众。) 你希望视频传达怎样的气氛或情绪?(教育性的、激励的、严肃的等。) 你希望视频有多长?(默认是20秒。) 请提供这些信息,然后我将帮助你编写一个适合的视频脚本。此外,你还需要选择一个AI化身或者是男声/女声的文本到语音(TTS)旁白。笔者体验,基于GPT,如今的海报设计、思维导图、文生视频等已经完全具备实用性。在文字转图片、转PPT、转思维导图、转视频等领域,GPT 大大提高了你的效率。 如何创建一个工具应用? 用了这些工具之后,你会想是不是可以自己创建一个应用?答案是可以的,而且真是很方便。 你甚至可以临时起意创造一个图像设计工具。创造一个在线图形设计工具的GPT应用,名字叫做“海报王”,形象AI自动生成,目的是可以帮助用户完成一个完整的海报设计。 那么我们一步一步的来搞定,你脑子里面想到什么都可以告诉GPT,比如为了版权问题,你可以最先的提示词是: 首先,确保海报中的图片元素完全是由开源免费或者AI生成的。 其次,必须要有数据集,收集并整理大量的海报设计案例作为训练数据,所有元素来自AI生成图片或者开源免费图片。 第三,预设了大量的设计模板,来生成不同风格、不同主题的海报。 功能设计,具备拖放功能来添加、移动和调整图像、文本和其他元素。 可以更改颜色、字体和大小来匹配你的品牌或个人风格。 可以上传自己的图片或选择开源免费或AI生成的图片 你包含了各种设计工具,如图形、图表、图标和动画效果来增强你的设计。你可以不断的根据提示输入你想要的功能或者格式或者风格。第四,文字排版建议、色彩搭配建议、布局设计按照GPT来进行。 第五,允许用户在生成海报设计建议时输入一些自定义参数,比如海报的主题、尺寸、目标受众等,以便生成更符合用户需求的设计建议。 第六,用户界面友好,使用户能够轻松地与应用进行交互,并能够清晰地理解应用生成的设计建议。 避免在设计中使用过多的字体或颜色,这可能会让视觉效果显得杂乱无章。 第七,多模式输出:考虑让应用支持多种输出模式,比如生成文字描述、示意图、甚至直接提供可编辑的海报模板等形式,以满足不同用户的需求。 第八,不断优化:持续收集用户反馈并根据反馈不断优化应用的算法和功能,以提高用户体验和设计建议的质量。 第九、通过各种途径,比如社交媒体、设计社区、博客等,积极推广你的应用,吸引更多用户使用并提供反馈。 最后,在设计应用时,确保用户数据的隐私和安全,遵守相关的隐私法规和条例。 然后点击生成,一个个性化AI图形设计工具就来了!不需要一行代码,只需要动动嘴,GPTs瞬间打造一个海报生成工具!© 由 至顶头条 提供 来,测试一下啊,感觉还是不错的。除了不支持文字! 关键是你创建工具的过程中,后台会给你解释你这个图片的意义,很多是你想不到的。 设计一个融合了“春天”、“人工智能”和“月亮”主题的海报,我们需要精心考虑如何将这些看似不相干的元素巧妙地结合在一起,以创造出一个既具有视觉冲击力又富含意义的设计。以下是对这个设计概念的具体构思: 核心概念 春天:代表新生、复苏和自然之美。 人工智能(AI):代表科技、未来和智能化。 月亮:象征变化、梦想和神秘。 设计思路 背景设定: 将背景设置为夜晚的月亮下,使用淡蓝色或银白色的色调来营造一种宁静而神秘的氛围。 在月亮的光辉中加入细微的数字或代码元素,象征人工智能的存在,同时保持这些元素的微妙性,以不过度干扰整体的和谐感。 春天元素: 在前景或中景中加入春天的元素,如绽放的花朵、新生的叶片和若隐若现的春天动物形象,以鲜明的绿色和其他明亮的颜色点缀,与背景形成对比。 这些自然元素可以采用稍微抽象或简化的设计风格,使其与人工智能的主题相协调。 人工智能元素: 在海报的某个部位,如月亮的旁边或春天景象的底部,设计一个或多个与人工智能相关的图标或符号,如光滑的机械臂在照顾植物,或是一个半透明的数字化界面与自然元素相交互。 这些元素应该以一种方式展现,显示人工智能与自然和谐共存的未来愿景。 可以看出,在AI生成图片的极大丰富了GPT的训练数据,我们可以轻松的创建一个工具,并发布到GPTS上。最关键的是不仅你自己可以通过不断的输入你的提示词来优化工具的能力,而且GPT会帮助你思考,引导你输入提示词。只要有足够的想法,你就可以打造一个好用的图形设计工具。
AI艺术和故事分享 尊敬的吧友们, 欢迎分享你和ChatGPT之间的有趣故事,无论是学习、工作中的小帮手,还是日常生活中的趣味互动,都可以分享,欢迎大家踊跃参与。 特别声明: 此次如果获奖,奖金全归吧友所有,会重新设置抽奖,奖金全部分发给所有参与活动的吧友。 参与方式: 回复参与。 —— 参与内容: 故事分享:可以分享自己与ChatGPT互动的真实故事。可以是ChatGPT帮助你解决了一个难题,陪伴你度过的时光,或是在某个特定场景下的有趣对话等。 AI艺术:或利用AI绘画工具(如DALL·E、Artbreeder等),创作一幅描绘春天景象的艺术作品。作品需原创,可以是春花烂漫、春暖花开,或是结合科幻元素的未来春天。 创意使用:或分享你如何创新使用ChatGPT,比如编程、写作、学习等方面的小技巧或者独特用途。 内容要求:必要的图文,不可以包含广告信息,禁止刷贴。 活动背景: 赏金任务第三期正式开启!前两期的赏金任务试点已为85位吧主带来了超过3万元的现金激励!本次第三期赏金任务#春日整活大作战#为吧主设立了“最佳整活吧主”、“新晋整活吧主”两个奖项,将面向全站吧主发起征集,鼓励更多有想法、有组织能力的吧主在贴吧发光发热,获取变现机会。 即日起至3月31日,按照以下活动规则参与本次赏金任务的吧主,满足要求即可瓜分数万元奖金池,并将获得官方流量助推、资源位展示等激励!快来参与吧! 赞助商链接:http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fwww.zhipin.com%2Fsem%2F7-dx.html%3Fsid%3Dsearch_765&urlrefer=f16a438cf86c27aa446376486e166a8c#春日整活大作战#
AI助手:从Siri到ChatGPT,智能辅助的进化之路 自Siri问世以来,智能助手已经在人工智能技术的推动下经历了一次又一次的进化。这条进化之路,不仅展现了人工智能技术的快速发展,也彰显了应用领域的不断拓展,让我们一同探索这段智能助手的奇妙之旅。Siri作为苹果公司推出的第一代个人语音识别助手,从2010年问世至今一直扮演着智能手机和个人设备中的重要角色。它通过语音命令帮助用户执行各种任务,如发送短信、设置提醒、查询天气等。然而,随着时间的推移和技术的进步,用户对智能助手的期望也在不断提高,他们希望这些助手能够提供更加个性化、智能化的服务。而在这个时代的最新进展中,ChatGPT作为一种基于大语言模型(LLM)的人工智能技术,正在引领智能助手领域迈向新的高度。相比于Siri,ChatGPT能够理解和生成更复杂的自然语言文本,这使得它在理解和回应用户查询方面更为强大。此外,ChatGPT还能够学习和适应用户的特定需求,提供更加个性化的服务。尽管苹果公司在开发类似ChatGPT的技术方面面临一定的挑战,包括技术实现的难度和如何将这些技术无缝集成到现有的生态系统中,但苹果工程师仍在积极研究和测试相关技术。有报道称,苹果正在秘密研发类似ChatGPT的人工智能技术。 从Siri到ChatGPT的进化之路展示了人工智能技术如何不断进步,以及企业如何努力将这些技术应用于实际产品中,以满足用户日益增长的需求。随着技术的不断发展和完善,未来的智能助手将能够提供更加智能、个性化和人性化的服务,极大地丰富人们的生活和工作方式。让我们期待智能助手的下一次飞跃,为我们的生活带来更多的便利与智慧!
在本地运行LLM的简单方法   ChatGPT、Claude.ai和phind等聊天机器人可能非常有帮助,但您可能并不总是希望您的问题或敏感数据由外部应用程序处理。在平台上尤其如此,在这些平台上,您的互动可能会被人类审查,并用于帮助训练未来模型。  一个解决方案是下载一个大型语言模型(LLM)并在您自己的机器上运行。这样,外部公司就永远无法访问您的数据。这也是尝试一些新专业模型的快速选择,例如Meta最近宣布的Code Llama系列模型,这些模型是为编码而调整的,以及SeamlessM4T,旨在实现文本到语音和语言翻译。   运行自己的LLM可能听起来很复杂,但有了正确的工具,这出乎意料地简单。许多型号的硬件要求并不疯狂。我在两个系统上测试了本文中介绍的选项:一台配备英特尔i9处理器、64GB内存的戴尔PC和Nvidia GeForce 12GB GPU(可能没有运行很多此软件),以及一台配备M1芯片但只有16GB内存的Mac。   请注意,可能需要一些研究才能找到一个适合您的任务并在桌面硬件上运行的模型。而且,很少有人能像你习惯使用ChatGPT(特别是GPT-4)或Claude.ai等工具时所习惯的。命令行工具LLM的创建者Simon Willison在上个月的一次演示文稿中认为,即使响应错误,运行本地模型也是值得的:   [一些]在你的笔记本电脑上运行的那些会像野生一样产生幻觉——我认为这实际上是运行它们的理由,因为在笔记本电脑上运行弱型号是了解这些东西如何工作及其局限性的更快方法。   还值得注意的是,开源模型可能会不断改进,一些行业观察家预计它们与商业领导者之间的差距会缩小。
AI时代下,低端开发者如何应对被取代的风险 在技术飞速发展的时代,人工智能的发展给科技行业的就业前景带来了一些阴影。为了正视这一紧迫问题,知名软件开发人员Rod Robinson近期在其Rod Tech Talk频道分享了专业见解。 Robinson凭借其在SQL编程方面的丰富经验,就人工智能如何重塑就业动态(尤其是开发人员就业)提出了中肯见解。他以坦诚的方式回答了人们心中的核心疑虑:人工智能会取代你的工作吗?“保持相关性并走在前列是关键,”Robinson断言,这一观点贯穿了整个视频。通过持续学习并了解市场动态变化,开发人员可以保护自身职业生涯,并为人工智能发展设定方向。 Robinson直言不讳地承认,落后的低端开发人员面临被人工智能取代的风险。但他也给予希望,强调积极主动可使个人在人工智能主导的环境中成为不可或缺的资产。 “我们必须确保自己领先于人工智能,”Robinson强调。“你付出了巨大努力成为开发人员,不应让工作被取代。” Robinson的战略核心是认识到人工智能的变革潜力,以及开发人员相应的适应需求。他并未屈服于恐惧,而是号召开放对话、分享挣扎和忧虑,以培养相互支持的社区意识。 “作为开发人员,我们需要积极主动地学习与人工智能合作,”他建议道。“了解人工智能的优势以及人类技能的独特价值。” Robinson强调,在人工智能驱动的环境中,发挥独特的人类技能(如解决问题和处理异常)至关重要。他指出:“尽管人工智能迅速发展,但在某些领域,人类智慧仍占据主导地位。关键是找到能为人工智能所缺乏的部分增加价值的细分角色。” 最后,Robinson向观众传达一个有力信息:拥抱终身学习,保持警惕,积极应对人工智能带来的挑战。通过这样做,开发人员不仅能在不断变化的环境中生存,还能在新兴领域中兴盛发展。 Robinson为应对人工智能对科技就业的影响提供了路线图。通过持续学习、保持相关性并发挥独特技能,开发人员可以在日益自动化的世界中制定成功之路。 --- 本帖转自站长之家
OpenAI发布语音模型Voice Engine,出于安全考虑仅小范围试用 OpenAI在官网上公开了其最新的研究成果——“Voice Engine”。这项技术可通过简短的15秒音频样本和文本输入,生成与原始说话者极为相似的自然语音。 在公告中,OpenAI给出了Voice Engine的一些早期应用场景。如通过自然、富有情感的声音辅助儿童阅读、翻译视频和播客等内容、改善偏远地区的社区服务、帮助患有突发性或退化性言语病症的患者恢复声音等。 原文链接: http://tieba.baidu.com/mo/q/checkurl?url=https%3A%2F%2Fopenai.com%2Fblog%2Fnavigating-the-challenges-and-opportunities-of-synthetic-voices&urlrefer=606d05c27a99b6a965789e0915b1d957针对上述应用场景,OpenAI也分别给出了和少数“值得信赖”的合作伙伴共同完成的技术案例。儿童教育公司Age of Learning使用GPT-4与Voice Engine与学生进行个性化的交流;人工智能替代通信应用程序Livox通过使用语音引擎,为残疾人提供跨多种语言的自然声音;此前靠“Taylor Swift说中文”等视频爆火的Heygen也有使用Voice Engine。 OpenAI称,Voice Engine技术于2022年底开始开发,目前已经为文本转语音API和ChatGPT的朗读功能提供预设语音。至于模型训练的数据来源问题,OpenAI语音引擎产品团队成员杰夫·哈里斯 (Jeff Harris)在接受媒体采访时表示,该模型是根据“许可数据和公开数据的组合”进行训练的。 尽管此前已经为“Voice Engine”申请了商标,但是对于未来是否要大规模部署这项技术,OpenAI仍保持保守态度。2024年2月,美国曾发布了少数公司利用总统的人工智能语音来影响选民投票的事件,类似的潜在风险也是OpenAI选择先小范围应用Voice Engine的一大原因。 公告中显示,由于合成语音存在被滥用的可能性,OpenAI希望就合成声音的负责任部署以及社会如何适应这些新功能展开讨论,根据讨论和小规模测试的结果,OpenAI将会对是否大规模部署这项技术做出决定。 OpenAI在人工智能安全方面曾早早做出准备。2023年10月,OpenAI 宣布成立“准备团队”(Preparedness team),旨在监测和评估前沿模型的技术和风险;随后于2023年12月,OpenAI进一步公布了“准备框架”(Preparedness Framework),介绍了围绕OpenAI“追踪、评估、预测和防范灾难性风险”所制定的一系列机制。 对于Voice Engine,OpenAI表示正在探索对合成声音加水印或添加控制措施的方法,以防止人们使用带有政治家或其他知名人物声音的技术。
生成式AI慢人一步的苹果,选择与百度合作,是正确的选择吗? 最近一条 “百度将为苹果今年iPhone 16等设备提供生成式AI服务”的消息传出,引发大家热议。有的认为苹果与百度的 文心一言合作理所应当,毕竟就国内来说, 文心一言确实能数得上名号。 但是也有人很不明白为什么选择百度,认为百度的名声很差,苹果这是在自毁自家形象! 网上为此流传了一个段子, “嘿Siri,我腿有点疼是怎么回事?” “您可能得了癌症。” “啊,那怎么办......” “您不用担心,小度...啊呸!Siri已将您的个人隐私信息推送给216家莆田医院。”先不谈两家合作是好是坏,至少在AI大模型引入手机这一方面,苹果已经落后于国内的其它手机厂商。 而这也不是苹果第一次“落后”,比如充电功率过低、拍照不如国产旗舰机,标准版高刷的缺失等等,这几年在很卷的国产手机面前,苹果好像就剩下了一个“生态”的优势。 苹果的落后不止一次,但这次不同。 2023年以 ChatGPT为代表的AIGC(生成式人工智能)工具横空出世,微软、谷歌、亚马逊、百度也是陆续入场,其火爆令许多人都始料未及。而2023年下半年,由华为带头,荣耀、vivo、OPPO、小米、三星、魅族跟进,迅速推出了加入AI大模型的手机,甚至产品线下探到中端机。 可能库克自己都没有想到,AIGC席卷智能手机的风会这么快、这么强烈,打的苹果一个措手不及,而苹果公司也被认为是AIGC浪潮中反应迟缓的巨头之一! 但是与其它手机配置或者功能落后不同,AI大模型引入智能手机,可以说具有划时代的意义。 OPPO创始人陈永明认为“未来5年,AI对手机行业的影响,完全可以比肩当年智能手机替代功能机。”360周鸿祎更是预言:不转向AI的手机厂商会成为下一个“诺基亚”!多位大佬对待智能手机引入AI的态度,其实都在向我们一个信号,那就是AI很重要! 显然,库克也意识到了这一问题,就在前几天,苹果在上海接受媒体采访时,也明确表明了“苹果的生成式AI将在今年晚些时候宣布”。而近日,苹果官宣将会在6月10日举办WWDC23大会,所以,大概率届时我们会看到苹果生成式AI的一些消息。 那为什么会传出苹果的iPhone 16要和百度合作呢? 目前国内的手机厂商大多采用的是自家AI大模型,毕竟自己家有谁会用别人家的呢? 比如华为用的是自家盘古大模型,vivo的自研蓝心大模型,OPPO的安第斯AndesGPT大模型,荣耀的魔法大模型等。但是一向技术引领的苹果,这次却在手机的AIGC上赶了一个晚集,迟迟没有AI大模型的消息,也没有一些新的令人经验的技术、功能呈现。 再加上机构统计显示,2024年前六周,iPhone在中国的销量暴跌了24%,而华为Mate60系列强势回归以及nova12系列等机型的发布,使得华为的市场份额从9.4%暴涨至16.5%。而且华为P70系列很快就要发布,而AI将会这款手机的最大卖点之一,如果苹果再不给点力,生成式AI再不跟进,中国的手机市场份额会被抢占更多。 别看库克来到上海静安店开业时,笑的很开心,其实也是在挽救中国市场,说是在讨好中国消费者也不为过。毕竟前不久,库克可是遭到了股东的“隐瞒中国iPhone需求下降的事实,欺骗股东”指控,最终以支付4.9亿美金达成和解。 再加上近日苹果的各种反垄断案,诉讼案件,相信库克一定很头疼! 种种原因之下,iPhone加入生成式AI迫在眉睫。 苹果也在加速自家生成式AI大模型的研发,来自市场调研机构Stocklytics的报告,截至2023年,苹果就收购了包括Voysis、Curious AI、 AI Music、WaveOne等32家AI公司。 在2月份的时候,苹果放弃了长达10年、投资百亿美元的造车计划,汽车团队的员工将转移到人工智能部门,加大了对AIGC领域的投入。另外在手机上运行AI大模型也比较吃手机的运行内存,而iPhone的运行内存,相比安卓手机来说,可谓是少的可怜。 为此,去年底苹果还发布了一篇关于「在手机内存上运行大模型」,绕过自己内存小的情况。但是有这个功夫,iPhone为什么不能增大下自己的内存呢?消息称,苹果从2023年就开始了自己的大模型“Ajax”研发,并且利用“Apple GPT”聊天机器人来测试,提升Siri的智能交互能力。 3月初,苹果公司发布了一篇论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》,首次公布了多模态大模型MM1,参数规模有30亿、70亿、300亿三种量级,支持增强的上下文学习和多图像推理。但是在整体性能上,还是要不如OpenAI的GPT-4以及谷歌的Gemini。 那自己的AI大模型还没成熟,又着急上线,再加上合规性的考量,那苹果怎么办呢?选择成熟的第三方AI大模型合作也就顺理成章了。 于是就有了国外苹果与安卓“世纪大和解”的消息,将会在iOS18中搭载谷歌的Gemini,封闭的iOS决定引进开放的安卓端侧大模型,着实有点像笑话。不过也有说法称,国外版的iPhone的AI功能会由苹果自己的AI大模型、OpenAI的ChatGPT来支持。 而国内,出于合规的需求,苹果也就会与国内的一些大型的AI大模型公司,消息称苹果曾于阿里以及另外一家国产大模型公司洽谈过,可能综合考虑之后,选择了百度,但是也有人说双方还未达成合作。 百度可能给国人的印象并不太好,毕竟早些年的虚假信息内容,充斥着的骗子广告信息,令许多人对它意见颇多。 但是在国内的AI大模型之中,百度的文心一言绝对排在数一数二的地位,与其一起被大家所熟知的还有阿里的通义千问,所以这也是苹果会从阿里、百度之间挑选合作伙伴的核心原因。 在《财富》发布的首届全球“财富人工智能创新者50强”榜单,百度是唯一一家入选该榜单的企业,同样入选的还有微软、谷歌、OpenAI、Anthropic、谷歌DeepMind、Meta和英伟达等企业。而在2023年财报电话中,百度创始人、董事长兼首席执行官李彦宏对于文心一言也是大为赞赏,截至到2023年12月底,文心一言的用户已经超过了1亿,远超其它AI大模型。 可见,百度的AI实力已经在国际上获得了认可,文心一言在国内也拥有庞大的用户群,说是国内第一强的中文AI大模型也不为过。 而在手机行业,选择与百度合作的也绝非苹果一家! 定位Galaxy AI手机的三星Galaxy S24系列,国内也是选择与百度合作,集成了百度的文心大模型能力,包括提供通话翻译、智能摘要、即圈即搜等AI功能。而国外,即便三星已经有了自家Gauss AI大模型,但是依旧采用的是谷歌Gemini Nano端侧大模型,归根结底,与苹果估计有着同样的问题,因为自家的大模型还不够成熟。 所以,苹果选择与百度合作也就很好理解了。 当然,我们也排除苹果与百度的这次合作可能只是暂时性的,当苹果取得合规性,自研AI大模型有所突破时,将百度再踢开也不是没有可能。 毕竟苹果之前也不是没有干过这件事,比如苹果一开始采用三星芯片,后来转用自家自研的处理器,基带虽然还用的是高通,但是自研的脚步一直没有停。 即便将百度踢开也在情理之中,毕竟如果可以用自己家的AI大模型,谁会用别人的呢?国内其它手机厂商不都是如此操作。 而除了与百度合作以外,苹果也是开启另辟蹊径,来自CNBC的爆料,苹果会在WWDC24上线一个AI应用商店,为用户提供各家厂商开发的AI应用,让大家自己挑选。而最终我们所有的推测以及猜想,预计在6月份的WWDC24都会得到答案。
涉虚拟货币犯罪信息网络犯罪技术帮助者的刑法定性 近年来,随着区块链技术的迅速发展,诈骗罪,组织、领导传销活动罪,帮助信息网络犯罪活动罪等涉虚拟货币的犯罪数量不断增多,扰乱了我国金融安全与秩序,严重侵害公私财产利益。作为集团化、阶层组织化的新型犯罪形态,涉虚拟货币犯罪中存在许多技术帮助人员,其承担着虚拟货币交易平台搭建、开发、测试、维护等技术工作,对于操纵虚拟货币交易流程、帮助实现犯罪目的起到了重要作用。刑法第二百八十七条之二规定,明知他人利用信息网络实施犯罪,为其犯罪提供互联网接入、服务器托管、网络存储、通讯传输等技术支持,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金。但是对于技术帮助行为,司法实践存在规范适用偏差,导致同案不同判等,引发社会的广泛讨论。为此有必要明确技术帮助者司法定罪的争议焦点,研究争议产生的根本原因,在此基础上探索司法适用的具体路径。一、司法实践的定罪争议 对于涉虚拟货币犯罪技术帮助者的司法定罪,实践中存在三种观点。第一种观点认为,技术帮助者明知他人利用信息网络实施犯罪,仍为犯罪提供互联网接入、网络存储等技术支持,构成帮助信息网络犯罪活动罪。第二种观点认为,技术帮助者除了提供虚拟货币交易平台的搭建、维护和资金账户管理等技术帮助外,还负责犯罪的组织筹划,控制虚拟货币交易价格,甚至参与犯罪所得分成,应当以主犯论处。第三种观点认为,技术帮助者对于被帮助的犯罪具有准确、详细的明知,但由于其在犯罪团伙中仅提供技术帮助,不参与具体犯罪活动,因此应当以从犯论处。上述观点的争议焦点在于技术帮助者的罪数认定问题。根据刑法第二百八十七条之二规定,技术帮助行为同时构成其他犯罪的,依照处罚较重的规定定罪处罚。司法实践中,涉虚拟货币犯罪技术帮助者除符合帮助信息网络犯罪活动罪的基本构成要件外,还可能构成本犯(例如诈骗罪,组织、领导传销活动罪)的帮助犯,而在本犯帮助犯的认定过程中,往往会遇到主观明知难以界定、客观帮助行为的社会危害性难以区分等困难,导致技术帮助者定罪量刑过重、帮助信息网络犯罪活动罪“口袋化”等问题,不利于罪刑均衡原则的贯彻与落实。 二、司法分歧的理论分析 造成涉虚拟货币犯罪技术帮助者司法定罪争议的原因一方面在于,理论上存在对帮助信息网络犯罪活动罪性质的不同认识。“帮助犯的量刑规则说”认为,增设帮助信息网络犯罪活动罪只是为信息网络犯罪活动的帮助行为规定了特殊的量刑规则,要想构成该犯罪,技术帮助者仍应当满足信息网络犯罪活动帮助犯的条件,同时适用刑法(第二百八十七条之二)规定的独立法定刑。“帮助行为的正犯化说”则主张技术帮助行为在刑法上被提升为了实行行为,具有独立的刑法评价意义。其中,“共犯独立性说”认为无论被帮助者是否实施了信息网络犯罪,技术帮助者都可以被视为独立的正犯予以定罪处罚,“共犯从属性说”认为技术帮助行为的法益侵害性来自于被帮助者所实施的犯罪活动,因此成立该罪应当要求被帮助者的行为构成犯罪。 为了解决因难以查获正犯而导致技术帮助者无法被追责的证明难题,司法实践多采取帮助行为正犯化的理论观点,例如在凌某、谭某组织、领导传销活动、非法吸收公众存款一案中,崔某仅负责“中亚平台”等交易平台的维护以及虚拟货币钱包的管理,并不存在对于组织、领导传销活动罪、非法吸收公众存款罪的主观明知,但仍以帮助信息网络犯罪活动罪定罪量刑。而在郭某等人非法经营、帮助信息网络犯罪活动一案中,郭某受主犯雇佣负责搭建平台,伙同他人买卖外汇,但其在犯罪团伙中提供技术帮助,综合考虑可以认定为非法经营罪的从犯。由此可见,对于技术帮助者的定罪量刑,司法机关首先会考虑其是否构成本犯的主犯或从犯,如果构成的话,将会在帮助信息网络犯罪活动罪与本犯中择一重罪论处,如果行为人仅具有提供技术帮助的“盖然”明知,司法机关才会以帮助信息网络犯罪活动罪单独定罪量刑。 根据技术中立原则,技术帮助者无需对不可能预见的后果负责,因此仅根据技术帮助行为无法认定其构成本犯的主犯或者从犯,还需要结合技术帮助者的犯罪参与程度对其主观明知进行评判。具体而言,技术帮助者的主观目的需要依据其工作内容、职位等级、是否参与犯罪分成等客观事实进行综合考量,但是由于虚拟货币具有匿名性、去中心化、形态数据性等特征,导致了交易难以追溯、电子取证困难、资金追查繁琐等诸多侦办难题,同时也给技术帮助行为的认定以及技术帮助者主观明知的识别造成了阻碍。为了确保法律适用的规范与准确,应当以事实为基础,从作用评价角度客观认定技术帮助行为,结合技术帮助者的职级、工作内容、获利方式等因素,有效区分帮助信息网络犯罪活动罪与本犯帮助犯的主观明知,全面评价犯罪行为,同时也要综合考虑认罪悔罪等量刑情节,在罪名认定无误的前提下贯彻落实宽严相济的刑事政策。 三、司法认定的完善建议 坚持罪刑均衡原则,全面评价技术帮助行为。罪刑均衡原则是刑法的基本原则之一,其基本含义是指刑罚的轻重应当与具体的犯罪情节相适应。罪刑均衡原则在涉虚拟货币犯罪技术帮助行为评价的案件中,不仅表现为对行为人的客观实施的危害行为进行全面评价,还体现在将犯罪嫌疑人的具体行为作为酌定量刑情节考虑。一方面,应当将技术帮助行为的法益侵害程度作为确定适用罪名的补充适用规则,最终的定罪量刑应当取决于所适用的罪名是否有助于保护特定法益,从而确保刑法对于犯罪行为的充分评价。另一方面,涉虚拟货币犯罪的具体案件事实可作为酌定的量刑情节考虑,比如,技术人员虽然实施了搭建的虚拟货币交易平台的行为,但与主犯不存在主观上的意思联络,同时给社会公众造成的财产性损失较小,因此以帮助信息网络犯罪活动罪论处并无不当。 从作用评价角度客观认定技术帮助行为。涉虚拟货币犯罪的技术帮助行为不同于常见的利用银行账户、支付宝、微信结算转移资金,出租通信设备、信息传输器材设备等技术帮助行为,其具有专业性强、流程复杂等特点,因此对于涉虚拟货币犯罪技术帮助行为的评价,要充分结合涉虚拟货币犯罪的具体情形,以及技术帮助行为对于犯罪的作用来进行客观的评价。例如,针对同一正犯的帮助行为,如果技术帮助者的技术帮助行为不仅帮助了犯罪的预备阶段,同时也帮助了犯罪的实施阶段,比如,参与了交易平台的策划、发起、设立,调整平台交易参数,控制虚拟货币交易价格等行为,应当构成共犯。当然,在具体犯罪的特殊情形下还要参照相关的法律法规,比如“两高一部”《关于办理电信网络诈骗等刑事案件适用法律若干问题的意见》明确要全面惩处关联犯罪,同一行为触犯数种罪名的应当依法数罪并罚。 从明知角度有效区分技术帮助者的主观目的。涉虚拟货币犯罪技术帮助行为司法认定的重点在于识别行为人的主观目的。对于技术帮助者主观明知的认定,应当根据不同的犯罪类型作出评价,如果涉虚拟货币犯罪的技术帮助者仅为被帮助者提供了交易平台搭建、服务器的购买等预备行为,不能认定其主观上对被帮助者实施的犯罪具有明知,但是基于虚拟货币交易的特殊性,技术帮助者对于具有提供技术帮助的“盖然”明知,应当以帮助信息网络犯罪活动罪定罪量刑。如果涉虚拟货币犯罪的技术帮助者通过策划交易流程、完善交易模式、参与犯罪分成等方式,参与到涉虚拟货币犯罪当中,可以认定技术帮助者对于涉虚拟货币犯罪具有主观上的明知,技术帮助者既触犯帮助信息网络犯罪活动罪,同时又构成涉虚拟货币犯罪的共同犯罪,应当择一重罪处。 综合考虑各类量刑情节,贯彻宽严相济刑事政策。宽严相济刑事政策是我国的基本刑事政策,对于最大限度地预防和减少犯罪具有特别重要的意义。在对涉虚拟货币犯罪技术帮助者定罪量刑的过程中,建议贯彻落实宽严相济的刑事政策,一方面,做到具体案件具体分析,除了要围绕主观明知、共犯形态等要素明确具体罪名适用,还要结合技术帮助行为的社会危害程度、退赃、退赔、主观恶性、认罪悔罪表现等各类量刑情节,综合评价技术帮助者在涉虚拟货币犯罪中所提供帮助的行为,依法予以从宽或者从严处理。另一方面,对于造成重大社会影响的涉虚拟货币犯罪,比如,为严重破坏国家金融秩序、侵害公民个人财产、侵吞公共财产等涉虚拟货币犯罪行为提供技术帮助行为,并与被帮助者之间存在双向犯罪意思联络的,必须坚定不移地贯彻宽严相济刑事司法政策,依法予以严厉打击。(宗 敏 作者单位:上海市松江区人民法院)
AI让机器人Emo提前“复制”人类微笑,融入人类社交 ChatGPT 等大型语言模型(LLM)的出现,让机器人具备了如同人类一般的语言表达能力。然而,机器人在与人类交谈时,其面部表情却依然显得很不自然,甚至充满了恐惧感。 这无疑会阻碍人与机器沟通的意愿,让两者的沟通变得十分困难。 因此,在未来人机共存的时代,设计一个不仅能做出各种面部表情,而且知道何时使用这些表情的机器人,至关重要。 如今,来自哥伦比亚大学的研究团队及其合作者便迈出了重要一步——制造了一个披着硅片、能够预测人类面部表情并同步执行表情的机器人 Emo。它甚至可以在人类微笑前约 840 毫秒(约 0.9 秒)预测即将出现的微笑。 据介绍,它能与人进行眼神交流,并利用两个人工智能(AI)模型在人微笑之前预测并“复制”人的微笑。研究团队表示,这是机器人在准确预测人类面部表情、改善互动以及建立人类与机器人之间信任方面的一大进步。 相关研究论文以“ Human-robot facial coexpression ”为题,已于今天发表在科学期刊 Science Robotics 上。哥伦比亚大学机械工程系博士 Yuhang Hu 为该论文的第一作者和共同通讯作者,他的导师、哥伦比亚大学教授 Hod Lipson 为该论文的共同通讯作者。 在一篇同期发表在 Science Robotics 的 FOCUS 文章中,格拉斯哥大学计算社会认知教授 Rachael Jack 评价道: “人类社交互动本质上是多模式的,涉及视觉和听觉信号的复杂组合,虽然 Hu 及其同事的研究集中在单一模式——面部表情上,但他们的成果在为开发更复杂的多模态信号的社交同步技能方面做出了巨大的贡献。” 在她看来,尽管这是一个复杂的跨学科工作,但“真正使社交机器人融入人类社交世界是可能的”。 Emo 微笑了,但也不仅仅是“微笑” 如果你走到一个长着人类脑袋的机器人面前,它先对你微笑,你会怎么做?你很可能会回以微笑,也许会觉得你们两个在真诚地交流。 但是,机器人怎么知道如何做到这一点呢?或者更好的问题是,它怎么知道如何让你回以微笑? 为此,Yuhang Hu 及其同事需要解决两大难题:一是如何以机械方式设计一个表情丰富的机器人面部,这涉及复杂的硬件和执行机制;二是知道该生成哪种表情,以使它们看起来自然、及时和真实。 据论文描述,Emo 配备了 26 个致动器,头部覆盖有柔软的硅胶皮肤,并配有磁性连接系统,从而便于定制和快速维护。为了实现更逼真的互动,研究团队在 Emo 每只眼睛的瞳孔中都集成了高分辨率摄像头,使其能够进行眼神交流,这对非语言交流至关重要。图|Robot face 平台 另外,他们还开发了两个人工智能模型:其中一个通过分析目标面部的细微变化预测人类面部表情,另一个则利用相应的面部表情生成运动指令。第一个模型是通过观看网络视频进行训练的,而第二个模型则是通过让机器人观看自己在实时摄像机画面上的表情来训练的。他们通过与其他基线进行定量评估,证明了这两个模型的有效性。图|模型架构。逆向模型(A)和预测模型(B) 为了训练 Emo 学会做出面部表情,研究团队把 Emo 放在摄像头前,让它做随机动作。几个小时后,Emo 就学会了面部表情与运动指令之间的关系——就像人类通过照镜子练习面部表情一样。他们将其称为“自我建模”——类似于人类想象自己做出特定表情时的样子。然后,研究团队播放人类面部表情的视频,让 Emo 逐帧观察。经过几个小时的训练后,Emo 便可以通过观察人们面部的微小变化来预测他们的面部表情。 在 Yuhang Hu 看来,准确预测人类的面部表情是人机交互技术的重要突破,“当机器人与人进行实时表情交互时,不仅能提高交互质量,还有助于建立人与机器人之间的信任。未来,在与机器人互动时,机器人会像真人一样观察和解读你的面部表情。” 值得一提的是,这项研究的潜在影响或许已经超越机器人学,扩展到神经科学和实验心理学等领域。 例如,一个可以预测和同步面部表情的机器人系统可以作为研究镜像神经元系统的工具。通过在测量大脑活动的同时与参与者互动,研究人员可以深入了解社会互动和交流的神经相关性。 在心理学领域,具有预测和同步面部表情能力的机器人可用作教育工具,帮助自闭症患者发展更好的社交沟通技能。已有研究表明,机器人可以有效地吸引患有自闭症谱系障碍(ASD)的儿童,促进他们的社交互动。 不足与展望 尽管 Emo 已经可以预测人类面部表情并同步快速回应,但远不具备完全捕捉到人类的面部交流能力,甚至在由成人模样的机器人进行模仿时,可能会让人感觉厌恶。 然而,研究团队认为,就像婴儿在学会模仿父母之后才能独立做出面部表情一样,机器人必须先学会预测和模仿人类的表情,然后才能成熟地进行更加自发和自我驱动的表情交流。 在未来的工作中,他们希望扩大 Emo 的表情范围,并希望训练 Emo 根据人类所说的话做出表情。他们正在努力将语言交流整合到 Emo 中,并接入类似 ChatGPT 的大型语言模型。然而,他们也表示,必须谨慎选择机器人模仿的面部表情。例如,某些面部姿态,如微笑、点头和保持眼神接触,通常会自然地得到回应,并且在人类交流中会被积极地看待。相反,对于噘嘴或皱眉等表情的模仿则应谨慎,因为这些表情有可能被误解为嘲讽或传达非预期的情绪。 另外,人类用户如何感知这些表情才是衡量成功与否的最终标准。未来的一个重要步骤是验证这些表情在现实世界中人与机器人在各种情境下互动时的情感效果,以确定其心理有效性。 此外,该研究也存在一定的局限性,其中之一为“模型的预测和表情模仿可能缺乏文化敏感性”。 众所周知,不同的文化可能会对某些面部表情有不同的规范和含义。例如,虽然在许多文化中,微笑通常被认为是快乐或友好的标志,但它也可能是尴尬或不确定的标志。同样,直接的目光接触在某些文化中可能被视为自信和诚实的表现,但在其他文化中却可能被视为粗鲁或对抗。 未来的工作可以探索将文化背景融入到模型中,一个可能的方法是纳入来自不同文化背景的数据集,并在算法中融入对文化规范的理解。 最后,一个不能逃避的话题是,随着机器人的行为能力越来越像人类,研究团队必须考虑与这项技术相关的伦理问题。杜绝可能的技术滥用(如欺骗或操纵),需要强有力的伦理框架和管理。 尽管如此,这一研究也着实令人十分兴奋。正如研究团队所言: “我们正逐步接近这样一个未来——机器人可以无缝融入我们的日常生活,为我们提供陪伴、帮助,甚至是共鸣。想象一下,在这个世界上,与机器人互动就像与朋友交谈一样自然和舒适。” --- 本帖转自ZAKER
Sora超逼真视频引恐慌警示AI视频模型,或在2024年颠覆科学和社会 Sora发布后,想要分辨AI视频和真实视频变得更难了,各行各业都面临新的挑战与危机。 技术的发展总是伴随着被滥用的风险,从ChatGPT到最近发布的文本转视频工具Sora,AI生成的内容越是逼真,被滥用的风险也就越高。 仅仅一年前,大家还在嘲笑AI生成的「威尔史密斯吃意大利面」不自然,手部、嘴部、面条没有一个真实的;但现在的顶级AI模型已经可以生成「录像级」的视频了,达到了以假乱真的水平。 无论是普通用户还是专业的研究人员,大多对AI的发展速度感到「震惊」,除了兴奋外,大家也开始担心生成的假视频可能会危及2024年的全球政治,或是颠覆内容创作领域。 最近,Nature上的一篇新闻文章总结了Sora等文本转视频工具对当下的「科学和社会」可能产生的影响,也是继deepfake换脸后,大众又要面临的「分辨假视频」考验,而且这次的考验更加严峻,连可供参考的原始视频都没有。 英国莱斯特德蒙福特大学的数字文化专家Tracy Harwood认为,错误信息是AI模型要面临的主要挑战,「我们很快就会被淹没在大量看似真实的信息中」。 Sora带来社会恐惧 2月16日,OpenAI的Sora模型横空出世,用户只需要通过几个简短的文本提示就能创建逼真的视频,比如「一个女人在东京一条灯光明亮的街道上行走」。虽然此前也有类似的模型,如Runway发布的Gen-2,或是谷歌开发的Lumiere,但这些工具并没有引起公众的关注:模型呈现给出的内容非常普通,并且需要非常具体的提示才能让模型生成令人满意的作品。相比之下,Sora提高了作品的质量,还拉低了AI作品的制作门槛。 与此同时,Sora也给即将到来的英国大选和11月的美国总统选举带来了新的问题,英国阅读大学研究人工智能和电影制作的Dominic Lees表示,届时将会有大量的假视频和假音频流传出来,影响公众的判断。 2023年10月,英国工党领袖Keir Starmer的假音频被公开,今年1月,美国总统拜登鼓励民主党人不要投票的假音频也被流传出来。 目前可用的一种解决方案是要求文本到视频的AI使用水印,可以是视频中可见标记的形式,或是添加在视频元数据中的人工签名,但Dominic Lees对这种措施的有效性仍然保持怀疑:水印可以被删掉,元数据签名需要用户特意查看视频的真实性才行,要求世界各地的观众在观看每个视频时都查看元数据是不切实际的。 Sora也同样影响到了影视创业行业,好莱坞演员、电影制片人和工作室老板Tyler Perry在目睹了 Sora 的能力之后,迅速中止了12 个摄影棚的设计和建造等一系列的影视工作室扩建计划。 Perry还表示,包括演员、场务、电工、交通协调、音效师和剪辑师这些行业人士都将受到影响,Sora 将触及影视行业的每一个角落。 美国演员汤姆·汉克斯去年也表示,人工智能可以让他在死后继续出现在电影中,但如果你是一个雄心勃勃的年轻演员,在争取机会的同时,却被告知「对不起,汤姆汉克斯总是会扮演主角」,你会期待这样的影视未来吗? 文本到视频的人工智能将会为社会带来更广泛的问题。 Harwood认为,我们必须学会重新评估看到的内容,这些文本转视频工具让每个人都有机会成为媒体内容创作者,我们需要处理由此产生的后果,也代表着作品消费方式的根本转变。 AI对社会的益处 不过AI技术也对社会的发展存在益处,Harwood认为文本转视频技术可以被用来「以一种更容易理解的格式」呈现较难理解的文本,比如把学术论文可视化等。 Harwood表示,文本转视频模型可以用来做的最重要的事情之一就是「向外行观众传达专业的研究结果」,其能够将相当复杂的概念进行可视化。 另一个潜在的用途可能是在医疗保健领域,文本转视频AI能够代替人类医生与患者交谈,但英国科学传播顾问Claire Malone认为:虽然有些人可能会觉得这项技术不够靠谱,但在用过之后,他们可能会发现如果他们想多次向医疗专业人士提问,就会非常方便。 Malone也认为,文本转视频的AI模型可以帮助研究人员获取海量数据,如由欧洲粒子物理实验室欧洲核子研究中心在瑞士日内瓦附近和其他大型科学项目产生的数据集。 生成式AI可以完成一些普通的研究任务,如对代码进行筛选等;也可以做更复杂的工作,例如输入数据并要求模型做出预测。
苹果下一个「App Store」,或将对标 OpenAI AI 版的 App Store 要来了。昨日,华尔街咨询机构 Melius Research 技术主管 Ben Reitze 接受采访表示,苹果或将在 6 月份 WWDC 上推出一个「AI 版的 App Store」。据悉,消费者可以在这个 AI App Store 中获得来自 AI 供应商的 AI 服务。 「AI App Store」会是什么?关于 AI App Store,Reitze 首先谈到了苹果的各种「商店」:App Store 、iTunes Store 等等,这些商店能够问世,都是苹果说服相关供应商去制作 App 或提供音乐版权的结果。而现在,苹果也正如当年史蒂夫·乔布斯一样去和第三方公司谈判,让他们为苹果最新的 AI App Store 提供自家的 AI 服务。而刚好日前就有相关报道,苹果正在和 Google、OpenAI、Anthropic 等公司谈判,不过当时都传的是「让其为 iPhone 提供 AI 技术」,意思是让苹果的 AI 助手用他们的技术。而 Reitze 表示,苹果将提供自己的 AI 服务。前天《科创板日报》也独家报道称,海外的苹果 AI 服务将由苹果自己支持。因此,与 Google 等公司谈判,很可能是为了 AI App Store 争取他们的 AI 技术,而不是让苹果的 AI 完全依赖于他们。不过国行版 iPhone 由于特殊的市场环境,很有可能就是完全基于百度的模型。这个 AI App Store 或许不只是提供 AI App 这么简单,因为这是 App Store 已经在做的事情,苹果没必要分开一个独立的 AI 「App Store」。更有可能的是, AI App Store 将能够为苹果的 AI 助手提供第三方的大语言模型和 API 支持,或者提供更加自主定制化的苹果 AI。科技记者 Mark Gurman 也在日前的报道中指出,苹果很有可能打开 iOS 的AI,让任何开发人员都可以在 iPhone 中构建一个生成式 AI 系统,苹果自己的 AI 引擎将处理更多幕后的任务。不少 AI 服务都会提供付费的高级选项,因此这个 AI App Store 可能会是苹果一种新的收入方式。虽然目前这个 AI App Store 没有更多细节,但是从 App Store 和 iTunes Store 的历史来看,苹果应该不会仅仅只提供一个平台,背后也许将同样伴随着「苹果税」。更重要的是,苹果通过这种 AI App Store,能够构建一个独一无二的苹果 AI 生态,为用户提供统一又多样的 AI 使用体验,就像苹果通过 App Store 提供规范的 iOS 应用体验一样。 AI App Store 面临的挑战AI App Store 并不是一个非常「新颖」的概念。实际上,今年 1 月,AI 头部公司 OpenAI 就发布了一个 「GPT Store」,提供各种 ChatGPT 的自定义版本,也许就和苹果的「AI App Store」类似。国内,字节推出了 Coze 人工智能和智能体创建平台,钉钉 4 月份也将推出 AI 智能体助理市场(AI Agent Store)。不过,虽然有 AI 头部企业 OpenAI 支持,GPT Store 很难称得上成功,其中只有 5% 自定义 GPTs有 150 至 500 名活跃用户,而剩余的大部分每天只有一两个用户使用。原因有几个。首先是 GPT Store 本身就并不好用,分类较少,而且用户不能用自然语言去描述需求从而得到自己需要的 GPT。就算找到了,大部分的 GPTs 体验也难以让人满意。而且,GPT Store 审核机制较弱,使其充斥了大量会造成版权侵犯或者冒犯他人的 GPT。对于 GPTs 的开发者,GPT Store 也没有尽力支持,更多是「散养」状态。总之,GPT Store 就是一个用户和开发者都不太愿意去用,内容也不够高质的平台。OpenAI 在做商店方面毕竟还是「小白」,苹果可是成功打造了 App Store、iTunes Store。所以在 AI App Store 的运营上,苹果不仅有自身可以借鉴的成功经验,还可以吸取他者的失败经验。▲ GPT Store 中的 GPTs 一览 撇开内部运营的问题,AI App Store 可能在面世之初就会面临着外部巨大的压力。除了欧盟的持续施压,美国司法部最近也「加入战局」,控告苹果「反垄断」。在这个时间段再推出一个「App Store」,很可能也要面临这些监管机构的压力。 苹果现在已经开放了欧盟的第三方 App Store、浏览器引擎等功能,就 Gurman 报道看来,苹果 AI 也将会采取十分开放的政策,也许不仅是因为苹果本身如 Gurman 所说,对开发生成式 AI「不感兴趣」,也有可能是为了避免受到更严密的反垄断审查。苹果这个 AI App Store ,目前我们还知之甚少。对于近期与 Google、百度等公司谈判以及这个 AI App Store 的消息,苹果都没有进行回应,也许这一切都只有等到 6 月份的 WWDC 才有一个答案。
英伟达Blackwell平台亮相,AI芯片需求激增260%! 英伟达发布BLACKWELL平台,AI发展带动相关芯片关注度提升 英伟达在GTC大会上推出了Blackwell平台,其新芯片性能有显著提升,双颗粒GPU的重要性随之增加。安全模块加入GPU,散热要求也随之提高,液冷技术成为趋势。新推出的NIM降低了推理布局的技术门槛,而Project GR00T机器人和Isaac平台则展示了对人类语言和动作的理解与模仿。台积电计划加大对先进封装的投资力度,HBM供给位年增长达260%,产能占DRAM产业的14%,美光HBM需求强劲,明年产能基本预定完毕。 春季科技新品密集发布,半导体扩产势头强劲各大科技公司纷纷发布新品,小米即将推出首款汽车SU7,荣耀、微软发布各自的AIPC产品,高通发布第三代骁龙8s移动平台。中国1-2月从荷兰进口的光刻机金额同比增长256%,荷兰首相将访华商讨ASML继续为中国客户提供售后服务等问题。SK海力士计划在2046年前投入907亿美元建造全球最大的芯片生产设施。SEMI预测300mm晶圆厂设备支出将在2025年首次突破1000亿美元。苹果重视中国市场,宣布多项合作与投资计划 苹果宣布将升级其上海研究中心,并在深圳开设实验室,专注于iPhone、iPad和Vision Pro产品线的研究和测试,同时加深与中国供应商的合作。尽管苹果面临美国司法部的反垄断诉讼,但其在中国市场的动作显示出其对市场的重视。
量子计算对人工智能最有可能的帮助是? 随着科技的飞速发展, 量子计算和 人工智能已成为当今科技领域的两大热门话题。量子计算以其独特的计算方式和强大的计算能力,有望为人工智能领域带来革命性的突破。本帖将从量 子计算的基本原理、 人工智能的现状与挑战,以及 量子计算如何助力人工智能等方面进行深入探讨,以期为吧友揭示量子计算对人工智能最有可能的帮助。一、量子计算的基本原理 量子计算是一种基于量子力学原理的计算方式,它利用量子比特(qubit)作为信息的基本单位,通过量子叠加、量子纠缠等特性,实现并行计算和信息的高效处理。与传统计算相比,量子计算具有更高的计算速度和更强的信息处理能力,有望解决一些传统计算难以解决的问题。 二、人工智能的现状与挑战 人工智能作为计算机科学的一个重要分支,旨在研究、开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统。近年来,随着深度学习、神经网络等技术的快速发展,人工智能在语音识别、图像识别、自然语言处理等领域取得了显著成果。然而,随着应用场景的不断拓展和数据量的爆炸式增长,人工智能面临着计算资源不足、模型复杂度受限等挑战。 三、量子计算如何助力人工智能 提升计算能力 量子计算具有强大的并行计算能力,可以在短时间内处理大量数据。对于人工智能领域中的大规模数据处理和复杂模型训练等任务,量子计算有望提供更高的计算速度和更低的能耗。这将有助于解决人工智能在计算资源方面的瓶颈问题,推动人工智能技术的进一步发展。优化模型训练 在人工智能领域,模型训练是一个关键环节。传统的模型训练方法往往需要大量的时间和计算资源。而量子计算可以通过量子优化算法,如量子退火、量子梯度下降等,加速模型训练过程,提高训练效率。这将有助于缩短人工智能应用的研发周期,降低开发成本。 增强模式识别能力 模式识别是人工智能的核心任务之一,涉及图像识别、语音识别、自然语言处理等多个领域。量子计算可以利用量子态的叠加性和纠缠性,对复杂模式进行高效表示和处理。这将有助于提高人工智能系统的模式识别能力,使其能够更准确地识别和处理各种复杂模式。 促进新算法和新模型的开发 量子计算的出现将为人工智能领域带来新的算法和模型。研究人员可以利用量子计算的特性,设计出更高效、更强大的算法和模型,以解决传统方法难以解决的问题。这将有助于拓展人工智能的应用领域,推动人工智能技术的创新发展。综上,量子计算对人工智能最有可能的帮助主要体现在提升计算能力、优化模型训练、增强模式识别能力以及促进新算法和新模型的开发等方面。随着量子计算技术的不断发展和成熟,我们有理由相信,量子计算将为人工智能领域带来革命性的突破和巨大的发展潜力。未来,量子计算与人工智能的深度融合将有望推动科技领域的全面进步和发展。 然而,我们也应该看到,量子计算技术的发展仍面临诸多挑战和困难。如量子比特的 稳定性、量子纠缠的 保持时间等问题仍需进一步研究和解决。因此,我们需要不断加大对量子计算和人工智能领域的投入和支持,推动相关技术的研发和应用,以期为人类社会的发展和进步做出更大的贡献。
总台央视频AI频道上线 在中央广播电视总台成立6周年之际,央视频AI微短剧启播暨AI频道22日正式上线,我国首部AI全流程微短剧《中国神话》与受众见面,中宣部副部长、中央广播电视总台台长慎海雄出席上线仪式。AI全流程微短剧《中国神话》共六集,分别为《补天》《逐日》《奔月》《填海》《治水》《尝百草》,由一个个经典神话故事起笔,借助AI技术拓展人们对神话的常规想象。该剧由央视频、总台人工智能工作室联合清华大学新闻与传播学院元宇宙文化实验室合作推出,其美术、分镜、视频、配音、配乐全部由AI完成。由总台央视频原创AI团队自制的系列微短剧《AI看典籍》同日发布。这部作品以史志、文学、农学、茶学、医药学等经典典籍为创作蓝本,通过AI的全新制作方式,生动解读中华文明传承不衰的原因。 近期,中央广播电视总台利用人工智能技术密集推出多部生成式AI作品,包括中国首部文生视频AI系列动画片《千秋诗颂》、首部AI全流程赋能译制的英文版中国龙主题系列微纪录片《来龙去脉》等,并制定出台国内首部媒体人工智能使用规范化标准。依托海量的高品质视音频数据和专业化的媒体创作能力,总台正努力打造具有中华特色、国际领先、实用性强的文生视频大模型,以科技创新打开文艺创作、文化传承的全新天地。
文心一言或将免费开放200-500万长文本输入能力 百度旗下自研大模型产品文心一言或将于下月进行版本升级,届时将免费开放长文本输入能力,并且“文字量会在200万-500万”。据悉,目前文心一言的输入文本上限大致在2.8万字。 但截至目前,百度方面尚未对此进行回应。此外值得一提的是,日前有消息源透露,苹果方面正在和百度进行接触,希望在自家设备使用百度的人工智能相关技术,且目前双方已进行初步会谈。截至目前,苹果和百度方面均尚未对此进行回应。 据百度方面此前发布的截至12月31日的2023年第四季度财报显示,该季度其营收为350亿元、同比增长6%,归属该公司的净利润为26亿元、同比下滑48%,非公认会计准则下归属百度的净利润为78亿元、同比增长44%。按不同业务板块来看,财报中显示,在百度智能云方面,2023年第四季度其营收为84亿元,其中6.6亿元增量收入由大模型带来。 百度CEO李彦宏在此次财报电话会议上表示,2024年生成式人工智能与基础模型业务将为百度带来数十亿元的增量收入。他指出,“具体而言,得益于百度在大模型、生成式人工智能方面的行业领先地位,越来越多的企业选择在百度云上构建模型、开发应用程序。此外,百度的移动生态系统也积累了庞大的用户基础,我们将不断更新产品,通过人工智能技术创新不断增强业务变现能力”。 据官方在此次财报电话会议上公布的相关数据显示,自发布以来,百度不断降低文心大模型的推理成本,目前已降低至2023年3月版本的1%。同时李彦宏还表示,目前文心大模型的日调用量已超过5000万次、季度环比增长190%。截至2023年12月,约有2.6万家企业调用文心大模型,季度环比增长150%。据悉,目前文心大模型已迭代到4.0版本。 在此次财报电话会议中李彦宏透露,多模态或多模态的融合,比如文字到视频,是一个非常重要的未来基础模型开发方向,这是通用人工智能(AGI)的一个必要方向,百度也已经在这些领域进行投资,并且也会在未来继续进行投资。 此外在不久前他还表示,在中文领域,文心大模型已经超过了GPT-4,“比如写一首诗,很多大模型都能写,但如果我要求写一首《沁园春》词牌的词,那GPT就完全搞蒙了,它不知道第一句话是4个字还是5个字”。 据悉,目前三星、荣耀、汽车之家等企业均已与百度达成合作。以三星为例,其最新旗舰手机Galaxy S24系列就集成了文心大模型的多项能力,包括通话、翻译、智能摘要等。 而在文心一言方面,据公开数据显示,截至2023年12月底其用户规模已超过1亿。值得一提的是,随着性能的不断迭代以及用户规模的扩大,2023年11月文心一言也率先开启了收费模式,即推出会员模式。据了解,用户付费开通会员服务后,后即可解锁文心大模型4.0,这也使得文心一言成为了国内市场首个向消费端收费的大模型产品。
微软将允许用户通过GUI管理Windows 11上运行的Linux发行版 微软的 Windows Subsystem for Linux(WSL)让任何人都能直接运行 Linux 发行版。有了 WSA,计算机就不需要双启动 Linux 或创建虚拟机,但该功能仅限于 Windows 终端。微软明白有些人可能不习惯使用命令行,因此正在创建一个用于管理 Linux 发行版的图形用户界面。 微软悄悄地在其 GitHub 列表中发布了一份关于 WSL 的提案。在 Github 上,该公司就使用 Dev Home 管理所有已安装的 Linux 发行版征求建议。该公司还分享了一些截图,展示了用于管理 Linux 发行版的图形用户界面的样子。 微软希望通过创建一个用于管理 WSL 发行版的图形用户界面,让用户可以概览所有已安装的发行版,并更轻松地访问或管理它们。如下图所示,在 Windows 上与 Linux 发行版交互的唯一方法是使用终端。对于新用户来说,学习 WSL 和管理已安装的操作系统可能比较困难。有了 Dev Home 的卡片式布局界面,你可以监控已安装发行版的方方面面。 UI 模型显示了 Dev Home 应用程序中名为 Windows Subsystem for Linux (WSL) 的新选项卡。该部分显示所有已安装的发行版,并提供多个自定义选项。它列出了正在使用的发行版的当前系统统计信息。你可以启动特定的发行版,甚至以特定用户的身份启动它。此外,还有按钮用于停止当前正在使用的发行版或启动另一个发行版。通过上下文菜单,用户可以卸载特定的发行版,将其设置为默认选项,或将其移动到其他位置。 点击右上角的"+ 添加"按钮还可以添加新的发行版。最后,顶栏上还有一个关闭 WSL 的选项,可以轻松关闭该功能。 与 Dev Home 集成后,WSL 将变得更具互动性,新的 WSL 集成考虑周全。开发人员计划加入挂载 Linux 格式磁盘的选项,并显示每个发行版的 WSL 虚拟机硬件利用率。 此外,导入和导出发行版的选项也在列表中。我们喜欢这个模型,因为 WSL 已经省去了使用二级管理程序创建虚拟机和安装 Linux 的麻烦。 目前,WSL 缺乏图形用户界面,新的更新可以帮助用户熟悉 Linux 和虚拟机。
马斯克加入了开源大模型阵营 在多次对美国人工智能研究公司OpenAI的闭源路线表达不满后,3月18日,特斯拉创始人埃隆·马斯克兑现了此前的承诺,宣布推出开源大语言模型Grok-1。 据马斯克旗下的人工智能初创公司xAI介绍,Grok-1由其从头开始训练,是一个混合专家模型,没有针对任何特定应用(例如对话)进行微调。Grok-1模型参数量高达3140亿,是迄今为止参数量最大的开源大模型。 在开源Grok-1的同时,马斯克仍然不忘在社交媒体上调侃OpenAI:“告诉我们更多有关OpenAI的‘开放’部分的信息……”OpenAI则在该消息下反击:“(马斯克)偷了我的整个笑话。”作为科技界的领袖之一,马斯克是一位富有争议性的人物。在《埃隆·马斯克传》里,作者沃尔特·艾萨克森对马斯克的一部分描述是“冷酷”“冲动”“狂热”。马斯克并不是一位单纯考虑商业的企业家,而是“少见的地球主义企业家”。 此次Grok-1的开源在人工智能领域可能会带来新的风潮,且间接地冲击了Llama-2(美国互联网公司Meta发布的开源大模型)的地位,这是对OpenAI的一次反击。马斯克想在起诉OpenAI案开庭之前,强调自己的世界观和价值观。。 马斯克开源Grok-1大模型是对抗OpenAI的一次“行为艺术”,希望通过提供开源模型,建立一个更加开放、协作的人工智能生态系统。 马斯克的AI雄心 马斯克与OpenAI之间的纠葛,可以追溯到近十年之前。2015年,马斯克与山姆·奥特曼等人联合创立了OpenAI,但由于发展方向上的分歧,双方在2018年分道扬镳。此后马斯克多次对OpenAI作出批评。 据路透社报道,马斯克于今年2月29日向美国旧金山高等法院起诉OpenAI及其CEO(首席执行官)山姆·奥特曼,理由是OpenAI违背了最初的使命——为了全人类的福祉而非利润来开发人工智能技术。马斯克的诉讼指控OpenAI违反合同,称山姆·奥特曼和联合创始人格雷格·布罗克曼最初与他接洽是为了创建一家开源、非盈利公司,但这家企业现在专注于赚钱。 几天后,OpenAI在官网发布文章回应了马斯克的指控,表示“打算驳回埃隆的所有主张”。 文章称,2017年底,OpenAI和马斯克决定下一步的任务是创建一个营利性实体。马斯克想要获得多数股权、初始董事会控制权并担任CEO,“无法与他就营利性条款达成一致,因为我们认为任何个人对OpenAI拥有绝对控制权都是违背使命的……马斯克很快就选择离开OpenAI,称我们成功的概率为0,并计划在特斯拉内部建立一个AGI(人工通用智能)竞争对手”。 3月11日,OpenAI又对文章做了一次更新,表示正在寻求将诉讼分配给专门的案件管理人员,因为它涉及人工智能技术,而且索赔时间跨度近十年。 从大模型竞争层面看,xAI在2023年11月发布了其首个AI大模型产品Grok,相较OpenAI的大模型产品ChatGPT而言已晚了许多。马斯克曾公开特斯拉专利,推动全球电动汽车技术发展,他也凭借技术优势,成为了专利“开源”的最大赢家。这次Grok的开源,可能有战略逻辑上的考量,反映了马斯克在人工智能领域的雄心。 Grok的表现 Grok-1开源5天后,在开源社区GitHub已获得4.2万人的收藏。DeepMind(谷歌旗下人工智能公司)的工程师亚历克萨·戈迪奇预测,Grok-1的能力应该比LLaMA-2要强,但目前尚不清楚有多少数据受到了污染。另外,二者的参数量也不是一个量级。 但Grok-1的大参数给使用者带来了困扰。有用户在GitHub上评论,运行Grok-1的GPU(图形处理器)配置是8个英伟达A100芯片。xAI也强调,由于Grok-1的模型规模较大,参数量达到了3140亿,因此需要有足够GPU内存的机器使用示例代码测试模型。 参数量是大模型的重要指标。一般而言,大模型参数量越大,意味着它越能够捕捉到丰富的数据特征,从而可能在某些应用领域展现出更强的性能。Grok-1模型是当前参数量最大的开源大模型,并且采用先进的混合专家架构,确实标志着它具有一定竞争力。但是参数量的大小并不是衡量模型性能的唯一标准,模型的架构、训练数据的多样性、算法的创新性等因素也同样重要。 对于大模型赛道而言,开源Grok所带来的影响可能相对有限。首先,如此大参数量的模型需要大算力和大数据作为支撑,并不适用于个人或小团队开发,而大企业往往在技术上已有较强的储备,并不依赖于开源模型;其次,当前开源的大模型市场已经相当丰富,Grok的开源只是为开发者们增加了一个备选方案,提供了更多的选择空间,并没有技术上的颠覆性创新。 开源与闭源之争 开源大模型允许任何人访问和使用源代码,而闭源模型则由单一实体控制,通常需要付费使用。与IT(互联网技术)产业中Windows(微软研发的闭源操作系统)和Linux(一种开源操作系统)、iOS(苹果研发的闭源操作系统)和Android(谷歌旗下的开源操作系统,下称“安卓”)的发展历史相似,一直以来,AI领域围绕大模型开源和闭源间的争论不断。支持大模型开源的一方认为,开源有利于技术和监管透明,推动人类共同进步,另一方则认为,闭源有助于防范AI技术被滥用。 从阵营来看,开源大模型包括Meta的Llama-2、开源生成式AI公司Stability AI的Stable Diffusion、阿里云的通义千问等,闭源大模型则以OpenAI的 ChatGPT、百度的 文心一言等为代表。开源能降低使用者的门槛和成本,相较闭源更有生命力。安卓今天可能没有苹果那么挣钱,但是它的设备使用量和影响力远远大于苹果。 开源模型的优势在于可以吸引全球的开发者共同参与改进和优化,形成一个强大的社区支持网络,这有助于快速提升模型的性能和质量。同时,开源模型降低了个人、企业、研究机构进入人工智能领域的门槛,使更多的人能参与到人工智能的研究和应用中。此外,开源模型可以作为教学和研究工具,这对培养新一代的技术人才至关重要。 然而,开源模型也存在劣势。由于源代码是公开的,开源模型可能面临更高的安全风险。对于企业而言,开源模型较难形成稳定的盈利模式。 对于闭源模型,闭源模型更容易形成商业模式,企业可以通过销售许可、提供专业服务等途径获取收益。另外,闭源模型由单一实体集中管理和维护,模型的稳定性和安全性更有保障,并且它能够提供定制化的服务。但与此同时,闭源模型也缺乏开源模型那样的社区支持和协作环境,通常只能依靠内部团队进行改进和优化,因此创新速度可能会比较慢。 大模型的开源与闭源之争,实际上是两种不同的研发和管理模式的较量,每种模式都有它独特的优势和劣势。在未来,大模型的模式可能会趋向于两者的融合,即在保持一定开源性的同时,通过合理的商业模式来平衡创新和盈利之间的关系。 --- 本帖转自红板报,有删减 陈奇杰 的报道
苹果可能在国内设备使用百度AI技术 集成于iOS 18 有消息称,苹果在中国寻找本土生成式AI提供方,苹果讨论了在中国的设备中使用百度的人工智能技术。据《华尔街日报》报道,苹果与百度进行了谈判,以授权其型号。这可能是为了向中国的苹果客户提供人工智能需求,因为中国法律要求大模型在被允许使用之前,必须得到其监管机构的批准。到目前为止,国内监管机构已经批准了40多种型号,其中便包括百度的文心一言。 本周早些时候,有消息称,苹果正在与谷歌进行谈判,以授权其Gemini模型用于为即将推出的iOS 18版本中的一些生成式AI功能提供支持。据说,苹果还与OpenAI就可能的交易进行了交谈。 截至目前,据信苹果尚未与任何生成式人工智能提供商达成交易。谈判正在进行中,并可能在6月的WWDC之前达成一致。 iOS 18预计将包含许多AI方面的功能,其中一些任务在设备上处理,而另一些则传递给在云中运行的后端模型。 不仅是苹果,三星已经与百度达成了合作。在此前的三星Galaxy S24系列国行新品发布会现场,三星电子大中华区用户体验战略副总裁许元默和百度副总裁陈一凡共同宣布,中国三星与百度智能云正式结成AI生态战略合作伙伴。 三星S24系列的Galaxy AI深度集成了百度文心大模型的多项能力,不仅可以提供端侧赋能的通话、翻译功能,还给用户带来全新的智能摘要、排版等生成AI体验。 --- 本帖转自3DM
OpenAI前全球商业化负责人:2030年AGI时代将会到来 “我们需要分清人类与技术的界限,我自己在生活中更愿意与人互动,而不是和机器互动,人与人的互动是非常重要。”在2024年全球开发者先锋大会上,围绕近期引发争议的AI复活亲人业务,OpenAI前全球商业化负责人Zack Kass在演讲中分享了自己的看法。“2030年AGI(通用人工智能)时代即将到来”,Zack Kass说。 Zack Kass表示,AI技术的发展可以分为三个阶段:首先,应用增强阶段,AI功能日益强大,如ChatGPT的出现,使得我们通过简单的手机操作就能享受到AI的便利;其次,AI自动化阶段,预计在未来两年内实现。在这一阶段,AI能够自动执行任务,无需手动打开应用程序。用户可以通过语音命令或耳机传达指令,实现直接操作。最后是AI赋能的操作系统阶段,这将是一个更加革命性的变革。随着CPU的发展,人们对工具和设备的期待也在不断提高。在未来10年内,计算机、手机等设备将经历重大变革,人们甚至可以通过戴眼镜来操作电器,电器将变成公共工具,我们的生活也将因此发生改变,“2030年AGI(通用人工智能)时代即将到来”,Zack Kass说。 当下AGI的时代已经到来,我们该如何做好准备?Zack Kass称,面对技术的发展,非常重要的一点是一定要学会区分技术能做什么,能为我们服务什么。AGI技术的发展,对每个开发者来说,意味着技术的成本越来越低。ChatGPT 3.0刚开始问世的时候,成本非常高,而现在已经接近于零成本。 “而且开发者一定要牢记哪些是当下我们面临的技术瓶颈,比如每年在高速公路上或者无人驾驶的事故率也有很多,我们应该更好的进行风险评估。”Zack Kass称。 Zack Kass也提到要警惕AI技术发展产生的陷阱。他提到,AI能够解决许多个性化的需求,也会让人们对这类AI工具产生依赖,这可能会导致人类智力的退化。此外,AI的普及可能引发人们对身份认同的困惑,许多人担心失业问题。 针对当下的“AI复活”技术,Zack Kass说,机器缺乏灵魂,而人的复活在现实中是不可能的。AI“复活”亲人是一种奇怪的想法,并不是我们生活的现实世界。Zack Kass表示,人是什么,机器是什么,我们需要分清界限。在生活当中,他更愿意和人互动,而不是和机器互动,这些互动不是做很多实验、做很多研究可以替代的,机器无法读出人类的想法。 在演讲最后,Zack Kass建议大家要规划好个人生活,要去思考,AI把人类的知识技能商业化之后,我们人类还能做什么。
注意避开打着AI旗号的钓鱼网站 钓鱼网站可能伪装成可信网站,以欺骗您泄露个人或财务信息。即使它看起来可信且感觉可靠,您尝试访问的网站可能是伪装的钓鱼网站。继续访问这个网站可能会使您的敏感信息——比如密码、信用卡号、联系信息或软件激活密钥——面临风险。 这些攻击通常使用垃圾邮件、广告或从其他网站的重定向来试图欺骗您泄露敏感信息。友情提醒: 请在交流中保持警惕,尤其涉及到可能出现的网络陷阱,请保护好个人信息和财产安全,避免被不法分子利用,窃取您的个人信息,或者骗取钱财。 另外共享账号有风险,如必要,请不要发布或提问中不要包含任何个人隐私信息,防止信息被其他共享者窃取。 共享账号存在多次转让分享的情况,可能实际使用者比预计要多很多,所以极大提升账号被封的概率风险,请不要轻易分享您的账号。 对于主动分享账号的用户,我们请对其保持一定的警惕,避免利益受到损害,以及影响您的使用体验。除非您已经了解彼此,否则请保持一定的安全意识,避免出现问题后无法找回损失。 对于代充的人,请采取一定安全措施,确保自己的利益不受影响,在交流中请排出以下可能情况 1. 订阅渠道为官方订阅,非常渠道将导致账号封禁 2. 代充者在完成订阅后,不会退订 3. 代充者在收到费用直接跑路。 4. 代充者窃取账号信息,包括聊天信息。 5. 代充者篡改账号密码,盗取账号,或将您的账号分享给其他人,在未通知您,未经您同意的情况下,用做交易。 6. 代充者诱导,提供不实信息,大幅抬高订阅价格,导致吧友权益受损。 7.代充者诱导吧友,提供不实信息,非官方账号冒充官方服务收费。 8. 代充者过度宣传暂停PLUS的期限,以哄抬PLUS 共享费用。 以上行为均可能造成,吧友的权益受损,所以建议请吧友们尽可能自己完成PLUS的订阅,安全又经济,同时自己不断尝试的过程中也会学到很多。 建议先自己去官方网站去注册并激活。完成账号的创建, 以下是你可以参考的步骤以及相关依赖环境。 1. PC端或者移动端访问官方chat.openai.com链接 ,注册OpenAI账号 2. 访问sms-activate.org注册账号并充值至少2美元购买用于激活账号的手机,接收短信码用于激活您的OpenAI账号 3. 您需要开启节点,用于访问OpenAI服务 如何开通PLUS: 1. 您可以购买礼品卡,通过苹果手机订阅PLUS服务 2. 您可以绑定信用卡的方式开通PLUS 如果你对于使用chatgpt过程中遇到什么其他问题,可以随时提问,或者留言讨论。
首页 6 7 8 9 10 11 下一页