通过对Spacetime Patch技术和Diffusion Transformer架构两项核心技术的突破,文生视频大模型Sora无论从生成视频时长还是质量,都远超Gen-2、Pika 1.0、VideoPoet等前期明星产品,表明AI在理解和模拟运动中的物理世界上实现了技术飞跃。

  Sora的亮相,不仅将助推AI技术落地于各种应用场景,还将重塑短视频、直播、影视、游戏等多行业,并加速产业、金融与娱乐间的融合。近5年获得超220亿美元投资的全球生成式人工智能行业,商业与投资版图也将面临冲击,大模型之争风起云涌,各领风骚数百天,唯一确定的增长则是AI算力需求相关的硬件基础。

  2024年3月13日上午,Sora概念领涨A股,短剧游戏、手机游戏、多模态AI等板块也快速拉升。盘中Sora指数大涨突破5%,因赛集团、当虹科技盘中大涨超10%,中广天择涨停,其他多股纷纷跟涨。

  2024年2月15日,美国人工智能研究公司OpenAI正式对外发布人工智能文生视频大模型Sora,其基于文本到图像生成模型DALL-E开发而成,能根据文本生成一段60秒1080P的高清视频,引起行业巨震。据官网介绍,Sora能够生成具有多个角色、特定运动、主题、背景等细节准确的复杂场景,这意味着,AI在理解和模拟运动中的物理世界方面实现了技术上的飞跃。

  更值得一提的是,在OpenAI的定义中,其并未单纯将Sora视为视频模型,而是作为“世界模拟器”,Sora的发布也被视作通往实现AGI(通用人工智能)的关键一步。

  在Sora诞生以前,已有诸多重量级玩家布局视频生成赛道,既包括明星初创企业Runway、Pika,也包括谷歌、脸书等互联网巨头。它们发布的产品Gen-2、Pika 1.0、VideoPoet等,可借助多模态功能实现文本、“文本+图片”及图片生成视频,凭借优良的视觉效果等广受用户青睐。

  但它们都存在明显不足,如Gen-2、Pika 1.0在连贯大幅动作的视频生成方面表现欠佳,具体表现为在产生大动作时,会出现明显的伪影;另一方面,生成时长较短,Runway开发的Gen-1和Gen-2生成的视频长度为4秒,谷歌团队2023年底发布的VideoPoet,因其无需特定数据便可生成视频,且克服了大动作不连贯等不足而引起轰动,但其一次生成的视频长度最长也只有10秒。

  作为行业颠覆者横空出世的Sora,无论时长还是生成视频质量,都远超前期这些明星产品。从时长来看,Sora通过文本生成的视频时长增加至60秒,比此前最长的VideoPoet增加5倍。从生成视频质量来看,Sora生成的这60秒视频,无论是镜头变化、色彩转变,还是纹理结构变化,都达到了专业摄影师水平。因此,从某种意义上说,Sora不仅仅是了解客户提出的要求,并执行其指令,更引人注目的是,它还了解物理世界中的“存在方式”,标志着人工智能实现了理解真实世界场景并与之互动的颠覆性发展。

  从技术看,Runway和Pika更多还是依靠图像转帧方式,连续性尚未验证,稳定性、一致性和商用能力较弱。而Sora的颠覆性互动要来自于Spacetime Patch(时空Patch)技术和Diffusion Transformer(DiT,或扩散型Transformer)架构两项核心技术突破,尤其是后者的突破,极大地增强了Sora的商用能力。

  Transformer是一种基于注意力机制的序列模型,最初由谷歌的研究团队2017年提出,并应用于机器翻译任务。与传统的循环神经网络(RNN)和卷积神经网络(CNN)不同,Transformer仅使用自注意力机制来处理输入序列和输出序列,因此可以并行计算,极大地提高了计算效率,并因具备学习性、扩展性、涌现能力、商业能力更佳等优势,成为AI大模型的主流架构。随着Sora对Transformer架构的不断突破,模型规模的扩展和处理序列不断变长,AI商业化深度和广度将实现指数级提升。

  作为模拟器,Sora目前还存在不能准确地模拟许多基本交互物理过程、长时间样本存在不一致性等缺点,但丝毫不影响其加速推进技术、应用场景与行业的完美融合。

  首先便是催化技术与应用场景的完美融合。以制作一个广告宣传片为例,目前需要不同人工团队分别完成创意、摄影、导演、剪辑等任务,而Sora则可以依据指令独自完成。

  未来,一旦长时间样本存在不一致性等缺陷被解决,Sora有望在客户服务、虚拟助手、智能推荐、建模、生成游戏等诸多场景应用中发挥用武之地,促进AI技术与应用场景的多重融合。

  其次,促进场景与行业之间的完美融合。视频作为一种信息和情感传递的强力媒介,其创作和制作往往需要耗费大量的时间、技术、知识和资源。而Sora可以根据用户文本指示,即创建时长达1分钟的视觉大片,对众多产业未来的发展都带来了颠覆性的改变,首当其冲的就是短视频、直播、影视、游戏、动漫、营销、线上教育等行业,此外,其也为智能机器人等新兴产业开辟了无限的可能性。

  近日,快手直播带货一哥辛巴,都表示想暂停直播,沉淀两年,去学习下AI,两年后再选新赛道重新开始,直播带货行业已经没有能让自己兴奋的东西了。

  最后,Sora还将引领跨领域、跨行业间的融合与创新。以游戏和电影间的互动为例,通过引入Sora模型,影视作品能够借助游戏引擎,实现更加丰富的视觉效果和互动性,而游戏则可以利用电影艺术的叙事技巧和视觉表现力,提升故事的吸引度和沉浸感。而若将这种融合引入现实世界,其可以帮助企业快速、低成本、高效地创建各类视频内容,例如培训视频、销售演示、内部沟通、营销推广等。

  从更恢弘的角度来看,其还有望推动工业、金融、影视制作和游戏娱乐相融合。通过引入Sora模型,可使得原本生硬的数字化服务及金融服务具有更加丰富的视觉效果和互动性,增强用户体验感的同时,打通产业、金融、娱乐之间的“信息孤岛”,实现各行业的完美融合。

  生成式人工智能(Generative AI,简称GenAI)是一种基于深度学习和自然语言处理技术的人工智能系统,它能够生成类似人类的文本、图像、音频等内容。在这一赛道,一是受算力规模约束,初创企业起步阶段即需高额资金扶持;二是马太效应显著,一家产品效果出众,即可横扫千军,获得垄断地位。布局这一赛道,可谓高风险、高收益并存。

  拥有明星产品的企业更成为资本的宠儿,如2018年于纽约创立的Runway,主要提供图片、视频的生成式AI服务,业务涵盖了图像生成、图像分割、自然语言处理、语音合成等诸多领域,并已推出Gen-1和Gen-2产品。

  成立以来,Runway获得多轮投资,更是创下150天估值提升3倍的纪录:2018年12月1日,其获得200万美元种子轮融资;2020年12月16日,A轮获得850万美元融资;2021年12月13日,B轮获得3500万美元融资;2022年12月5日,C轮获得5000万美元融资产品;2023年6月1日,包括谷歌、英伟达、Salesforce等AI领域内实力玩家联合投资Runway,金额达1.41亿美元。

  据统计,生成式人工智能行业在过去5年获得的投资累计超过220亿美元,2023年更是出现井喷,而且大部分以种子轮、A轮为主(附图)。正是在天量融资的助推下,Gen-2、Pika等多个明星爆款产品诞生。不过,Sora的横空出世,对这些初创企业及投资方或带来较强的冲击。

  ChatGPT出现后,数家AI文本生成类明星公司的用户增长陷入停滞,如面向作家和企业的生成式人工智能写作工具Jasper,用户增长连续数月下降,并下调了收入预期,其15亿美元估值或遭挑战;另一融资9000万美元的Synthesia,2023年上半年的用户增长也呈持平或下降的状态。Sora的诞生,或将再次影响部分生成式AI企业的发展及融资。

  不过,Sora能在多大程度、多长时间范围内保持技术领先,尚不可知。据最新消息,OpenAI最强竞争对手Anthropic发布的Claude 3系列模型,在多模态和语言指标等项目上,已经实现了对GPT-4的全面超越。

  唯一能确定的则是,每一轮AI算法的进阶,都需要硬件的指数级增长配合实现。随着Sora亮相,AI行业一夜间从图文生成时代跃迁至视频生成时代。追求更好的视频生成效果,势必推动多模态大模型逐步升级,数据训练规模和推理过程的迭代次数将不断提升,对算力、存储、数据传输的需求将迎来井喷式增长。

  这意味着,AI芯片、光模块等都将迎来爆发式增长。OpenAI的CEO山姆·奥特曼(Sam Altman)称,为了支持Sora的发展,光重塑全球半导体行业就需要筹集7万亿美元。

  7万亿美元,超过了全球市值最高的两家上市公司微软(2024年3月4日市值为3.08万亿美元)和苹果(2.7万亿美元)的市值之和,约等于2023年印度(3.73万亿美元)与英国(3.33万亿美元)两国GDP之和。

  借Sora东风,迭加业绩利好,全球AI芯片巨头英伟达近来股价迭创新高,2024年3月4日市值高达2.13万亿美元,超过沙特阿美,成为全球市值第三大公司,目前仅次于苹果和微软。

  Sora的出现对中国高科技行业也提出了新的挑战。不同于此前ChatGPT发布时,国内涌现出“千模大战”,眼下,能正面接招Sora的中国企业尚未出现。AI商用能力不断增强,生成式人工智能迎来爆发式发展,并赋能千行百业,刺激全球范围内的公司、行业和国家需求激增,重构全球商业与投资版图,中国何时诞生本土版Sora,并在产业链中获取有利位置,且拭目以待。