kuko1028 kuko1028
关注数: 2 粉丝数: 448 发帖数: 1,466 关注贴吧数: 9
摧毁一切的Sora,将带来什么? 为什么苹果转身AI那么蹒跚迟缓,为什么推出Sora的不是巨头而是新创企业? 因为巨头的职业经理人,类似苹果CEO库克,天然就没有巨大创新的动力。守成,守住稳定的现金流,维持住苹果的高端定位,就是库克的巨大成功了。对于创始人而言,一旦创新失败,大不了重头再来;但对于职业经理人来说,任期内营收利润下滑就要首当其责,承担不了创新的巨大风险。 这还只是主观意愿。客观条件上,职业经理人也没有创始人那么大的魄力与实力,可以大刀阔斧地改革。更直观的是,职业经理人或许会有KPI的焦虑,但很难有全部身家压上所带来的绝望中寻找希望的感觉。 英伟达创始人黄仁勋近日在接受采访时就表示,自己的日常生活状态是一边绝望,一边充满希望,“我喜欢那种我们快完蛋了”的感觉,因为那会让自己更加专注(似乎抢了俞敏洪“在绝望中寻找希望”的台词)。3月1日,仁勋在参加 2024 年斯坦福经济政策研究所峰会时也再次对AGI表示乐观,“按照某些定义,通用人工智能 (AGI)可能在五年内就会到来。” 从ChatGPT 到图像生成工具 DALL-E(内嵌在GPT-4使用)再到让人们对AGI更有信心的Sora,AI的创新如同一列又一列冲向传统旧行业的高速列车,摧毁一切,同时又建构出一个全新的数字世界。
Sora一出,谁与争锋? 很多团队或者企业都在跃跃欲试,试图与Sora一较高低。 最近,北大研究团队发起了一项Sora复现计划——Open Sora,计划采用去噪扩散型Transformer等技术原理,实现可变长宽比、可变时长的视频生成。据了解,该项目在8个A100-80G显卡上进行训练,但算力资源依然不够,生成一段分辨率128×128的8帧视频需要一周时间。 正如语言大模型从最初的几百、几千token进化到32K token甚至更长,文生视频模型也在向更高分辨率、更高帧率、更高时长,更真实、精细地模拟真实物理世界进化。 Sora的训练成本,相比文本型大模型,也是指数级的增长。 当我们为了文本型大模型建设算力中心甚至一度担心算力供过于求之时,Sora这个更加耗费算力的新方向又出现了。 国内同行的类似文生视频,在时长、角色一致性、人物皮肤纹理等方面的差距,也有部分是算力的原因。 当然,大家都具备同样的缺点:无法进行人物模型或者环境背景的细节调整,无法生成连续的具备特征一致性的主角,每一次生成都需要很高的算力。 Sora是一个全新的方向,但算力的高门槛,也让初创企业更难进入,或许前期更适合巨头。 中国的文本大语言模型,不论是否真的超越GPT-4,在商业市场中,中国的科技企业,基本已经实现了对ChatGPT的平替。这至少是文本大模型上的一种成功。 中国当然也有很多ChatGPT的付费用户,但这只是C端层面。国内大模型企业的收入主要依赖B端,另外向C端收费仅有百度文心一言4.0等少数。 在文生视频大模型上,据了解,剪映旗下类似Sora的AI视频生成工具Dreamina就在开发并已经开启内测,但具体进展未知。 现在Sora生成的还只是无声视频(仅有背景音乐),更多依靠画面变动去阐述描述词中承载的意向。配合Sora倒是有另外一种创业方向——AI配音。ElevenLabs就根据Sora发布的无声视频,配上声音,从走路的脚步声,到环境的氛围声,都可以精准映射视频。 与文本和图片生成相比,视频生成是一个门槛更高的领域,但也是一个商业化方向更明确的领域,影视制作、特效生成、商业片宣传、动漫、短剧、短视频、电子游戏等众多领域,都需要一个能够帮助人们实现文生视频的工具。 对Sora来说,可能限制视频效果的,只有想象力。但对其他文生视频工具来说,现在能不能理解描述词,都是个门槛。 两艘海盗船在一杯咖啡里逐浪而行,互相战斗——我们将该描述词输入另一个文生视频工具NeverEnds,但该工具并没有理解咖啡杯,两艘船还是在大海里。
Sora有多火? 马斯克、杨立昆、贾扬清、Jim Fan、谢赛宁等各路大佬都在讨论,周鸿祎更是喊出,Sora的诞生意味着AGI(通用人工智能)的实现或从十年缩短至一两年。 不少“普通人”也提前嗅到商机,围绕Sora搞钱的生意先火了。 有媒体报道,一张网传截图显示,某机构已售出2万多份Sora培训课程,轻松到手200万。 如今,距离2月16日OpenAI发布文生视频大模型Sora已经过去快一周,但讨论依旧热烈,这实在是因为它过于优秀。 功能上,它能生成长达60秒的视频内容,远超其他文生视频工具几秒至十几秒的限额;它还能进行自我编辑和扩展,将两个不相关的内容过渡在一起,能转换主角周围的风格和环境等; 前景上,Sora不仅是视频生成工具,它更被视为世界模拟器; 创始团队上,也堪称传奇,核心成员包括12人,成立尚未超过1年,由两名刚刚毕业的博士生带队,其中还有00后。 在兴奋之余,Sora的强大也让一些内容创作者有了危机意识,有网友评价,“长短视频、游戏行业的朋友们一整年都不会快乐了。” 多位业内人士指出,以目前Sora生成视频的长度来看,它的到来最先会冲击到短视频领域。 一旦大范围推广,Sora将大大降低短视频创作门槛,丰富短视频平台的内容供给,但随之而来的问题是,AI生成内容的增多可能会影响平台的内容生态,同时Sora还会和剪映、快影等工具抢夺用户,让此前的大笔投入付诸东流。 Sora朝短视频领域扔下了一枚重磅炸弹,考验创作者和抖音快手们的时刻到了。
受Sora冲击的十类人群或须顺势而为 Sora横空出世,无异于当初ChatGPT问世引发的轰动。其以高效生成多视角、高清晰、逼真且时长达60秒的视频,几乎碾压当今世界所有的文生视频模型。它给相关行业带来机遇与挑战,也给相应从业人员带来失业的潜在风险,我们如何在新潮流中顺势而为?   当我们还沉浸在春节的欢乐时,处在地球另一边的OpenAI日前发布了首个文生视频模型Sora,这则让全网刷屏的消息再次震惊世界,无异于当初ChatGPT问世引发的轰动。   Sora横空出世之所以吸引全球的目光,是因为Sora能在复杂环境下将文字高效生成多视角、高清晰、逼真的视频,而且一键生成的视频时长达60秒,其技术几乎碾压当前世界上所有的文生视频大模型。相较其他公司的文生视频大模型仅能生成3至4秒的视频,Sora在时间和视频生成质量上均对同行产生了“降维打击”,因而业界人士惊呼其为人工智能视频领域的里程碑。   科技是把双刃剑,新的技术出现往往会对行业产生颠覆性的影响,同时也会开启一些新的机遇之门。那么,Sora的出现,可能会对哪些行业产生影响?   综合业内人士分析,首当其冲是影视行业。电影和电视制作涉及复杂的特效制作、场景搭建等多个环节,而Sora的多镜头生成能力和物理世界模拟能力,使创意构思和可视化过程变得更加便捷,制作成本有望大幅降低,可能对传统的影视制作者带来挑战。   其次,是策划和广告行业。Sora可以自动化广告视频的创意和制作过程,能够快速生成广告视频、宣传片或产品演示视频,减少了广告制作的成本和时间,可能会改变传统的广告制作方式,减少对广告创意人员和制作人的需求。   再次,可能对教育行业产生影响。因为它可以帮助教师和学生通过视频形式更生动、有趣地学习知识,从而可能会减少对教育内容创作者和教材编写者的需求。   还有内容创作行业,Sora能够更快速地生成视频内容,那些依赖于文字内容创作的行业,如新闻、杂志、博客等,可能会面临Sora这样的模型带来的挑战。   此外,Sora的出现,可能助力短视频行业再次爆发式增长。Sora可能会取代一部分人工视频编辑师的工作,从而降低制作成本和时间成本,尤其是对于一些重复性高、创意度不是特别高的视频制作任务,Sora可能会提供更加高效的解决方案。   由于Sora的问世及其技压群雄的特点,可能会给电影、短视频、医疗、教育、广告、游戏制作等行业带来AI技术利用的便利和产业变革,促进这些行业降本增效提质,但同时或将给一些视频编辑、动画师、广告制作人、内容创作者、营销活动专家、影视制作人、教育内容开发者、新闻记者和制作人、游戏开发者、剧本作家等人群带来失业冲击和风险。   试想,分钟生成媲美“大片”的视觉质量,视频拍摄者和剪辑人员是否已显得“多余”?以后演员会不会消失?   类似问题或许离现实不远。未来,随着Sora等人工智能模型的广泛应用,或许会在一夜之间“干翻”我们原有的“金饭碗”,这是不可阻挡的潮流。   当然,我们也不必过于悲观,Sora人工智能模型可能会改变传统行业的运作方式,但并不意味着它会完全淘汰这些行业。人类的创造力、情感理解和创意思维仍是人工智能无法替代的优势,而且很多行业仍然需要人类的参与和管理。   机遇与挑战并存。据业内人士预测,随着Sora及类似技术的进一步发展和应用,预计还会出现更多与AI视频生成、医疗数据处理和用户体验优化相关的工作机会,可能会催生出医疗可视化设计师、AI伦理和合规专家、医疗培训和教育顾问、研究和发展(R&D)人员、远程医疗顾问、数据科学家和分析师等新职位。这些新兴职位将要求跨学科的知识和技能,包括医学、计算机科学、数据分析、用户体验设计和伦理法律知识等。   总之,机会是为有准备的人而来,在人工智能到来的时代,我们如何未雨绸缪,顺势而为,在产业变革中寻求新的发展机遇,变被动为主动,变劣势为优势,似乎显得十分迫切。比如,适应新变化,保持开放学习的心态,不断提升自己的技能和知识。同时,创新思维,利用新技术来创新,思考如何将Sora等工具集成到工作中,提高效率和创造力。此外,也可规划新职业、谋求新发展。   革陈出新,常变才能常新。我们只有保持积极的心态,拥抱科技,不断提升自己,才能更好更从容地应对新变化新挑战。
OPEN AI SORA的五大优势 第一、人物和背景的连贯性,即使人物运动出了相机范围再回来时还保持同样特征 目前大多数AI生成视频都做不到这一点,大多数都在下一个动作之前换成另一个,这个其实可以归功于sora将视觉数据转换成 patch,同时也被证明是有效表示的依据。 第二、 自然语言的理解程度很高 与传统的视频制作相比,Sora的出现为视频制作带来了更高的效率和灵活性。利用Sora模型,用户只需通过简单的文本指令,就能够生成高质量的视频内容。这不仅降低了视频制作的门槛,也使得视频制作更加便捷和高效。 第三、可以在同一个种子下生成不同尺寸(横向竖向)的视频适配不同设备 第四、可以生成长达 1min 高清视频 据最新消息,Sora模型已经能够在Open AI公布的48个样片中展现出令人惊叹的视频生成效果。通过文本指令,Sora能够直接输出长达60秒的视频,并且这些视频包含了高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。这一创新使得Sora成为了能够理解和模拟现实世界的模型的基础,进一步推动了AI技术的发展。 第五、可以以文字、图片、视频作为控制要素控制输出结果 Sora的神奇之处还在于可以将DALL·E 图像变成动画、延长生成的视频、长程连贯性和对象永恒性等,多方面表现都很优秀,远超于同类的pika和runway这两款。同时还可以生成不同尺寸的视频并且保证其连贯性。 此外,Sora模型的发布也引发了AI芯片领域的竞争。随着全球对算力需求的激增,越来越多的科技公司开始研发自己的人工智能芯片。谷歌、微软、亚马逊等巨头企业已经推出了定制化的AI芯片,而英伟达也被曝正在组建全新业务部门,以满足这些云巨头厂商对定制化芯片的需求。 总的来说,OPEN AI Sora的发布标志着AI视频生成技术的新时代已经到来。这一创新不仅展示了AI技术在视频制作方面的巨大潜力,也为视频制作行业带来了新的机遇和挑战。我们期待着Sora在未来能够继续引领AI技术的发展,为人类生活带来更多便利和惊喜。
Sora会给人类带来哪些影响? 北京邮电大学人机交互与认知工程实验室主任刘伟表示,Sora在短期内可能会对短视频制作、影视行业以及视觉交互界面应用产生较为显著的影响;从长期来看,这项技术会为自动驾驶、数字仿真、场景模拟等领域带来改变。 中国企业资本联盟副理事长柏文喜表示,Sora作为一种强大的视频生成工具,可以极大地降低视频制作的门槛和成本,使得更多人能够轻松创建高质量的视频内容。这将对影视、广告、游戏、新闻、教育、VR\AR等诸多行业产生深远的影响,具有广泛的应用前景。 例如在影视行业,人人都是导演的时代即将来临,Sora可以快速生成逼真的场景和特效,帮助制作人员更好地实现创意,提高制作效率。在广告行业,Sora可以根据品牌需求和营销目标,快速生成高质量的广告。 内容创作的方式变革后,文学创作领域也将迎来复兴,小说可以直接生成动漫、电视剧。视频内容集中爆发,自媒体行业也将迎来重新洗牌。随着技术的不断深挖,未来Sora会将在更多领域得到推广应用。 技术的变革是把双刃剑。也许有人会问Sora的出现会对哪些岗位产生冲击? 从上述专家的分析来看,目前最容易受到影响的或许是影视行业的从业者。例如视频剪辑师、后期制作这类岗位,Sora能够自动或半自动地生成视频,这可能会导致传统的视频制作和编辑职位的需求下降。后期制作包括剪辑、特效、音效等环节,这些工作也可以通过AI技术进行自动化或半自动化处理。再比如新闻主持人这一岗位,Sora可以根据输入的文本自动生成视频新闻报道,一些简单的新闻报道任务可能会被Sora所取代。此外,游戏动画师、广告创意和设计岗位、内容创作者等岗位都有可能受到冲击。
Sora有什么特点? Sora主要有六大特点: 1、Sora模型在视频生成时长、语义理解程度、以及视频效果和稳定性等方面超出此前竞品,能生成长达60秒的视频,与当下短视频平均长度接近,这一时长远远领先此前Runway-gen2的18秒和Pika的3秒。 2、Sora制作的视频在逼真度和画面精致程度将整个AI视频行业提升到nextlevel,Sora创作的视频质量,无论是高清度还是还原度,都是可圈可点的;Sora模型采用了最新的深度学习技术,能够生成更真实、更细腻的视频。 秉承着“无图无真相”的精神,OpenAI还给出了两个时长20秒的“Sora版《我的世界》”演示视频,视频中的画面已经可以非常自然地跟随“玩家”视角变化。 3、生成的视频里有明确的主角,而且视角多样化。相比之前的文生视频工具,Sora生成的视频更加智能,并不是简单的从库里调出多段视频进行拼接。 4、Sora模型的生成效率更高,Sora模型采用了高效的算法,能够在较短的时间内生成高质量的视频。 5、Sora模型对当前世界在物理层面的理解和模仿能力较为出色。也就是说Sora不仅可以理解用户的需求,还知道这些事物在现实世界如何存在。它通过“阅读”海量真实世界的视频信息,“理解”了真实世界的物理运行规则,然后再将视频素材生成符合要求的视频。 6、Sora模型的可控性更强,Sora模型允许用户在一定程度上控制视频的生成过程,使得生成的视频更符合用户的需求。
1 下一页