Sora横空出世，会颠覆哪些行业

2024年02月20日 13:17

: 任泽平
经济学家。清华大学经济管理学院博士后，中国人民大学经济学博士。曾担任国务院发展研究中心宏观经济研究部研究室副主任，兼任科技部国家高新区升级评审专家、中国人民大学经济研究所研究员等。

多模态模型的应用在2024将迎来黎明，影响影视、直播、媒体、广告、动漫、艺术设计等数个行业

原图 2月16日，OpenAI发布视频生成模型Sora，极大拓展AI在视频内容生成方面能力。图：IC PHOTO

　　2月16日，OpenAI发布视频生成模型Sora，极大拓展AI在视频内容生成方面能力。Sora在关键指标上大幅领先之前的一些视频生成类模型，用它生成视频，会发现其对物理世界的空间模拟能力甚至达到了逼近真实的水平。

　　Sora为什么可以堪称是AI界的新里程碑？它是如何突破AIGC即AI内容创作上限的？客观来看，当前版本的Sora还有没有什么局限性和不足？

　　Sora等视频生成类模型，未来更新迭代的方向是什么?它的出现会颠覆哪些行业？对我们每个人产生何种影响？它的背后又有什么新产业机遇？

Sora是怎么实现的？为什么是AI界的新里程碑？

　　Sora之所以是AI里程碑，是因为它再一次突破了AIGC用AI驱动内容创作的上限。此前大家已经开始使用Chatgpt等文本类辅助内容创作，辅助插图和画面生成，用虚拟人做短视频。而Sora是视频生成类大模型，通过输入文本或图片可生成、连接、扩展等多种方式编辑视频，属于多模态大模型范畴，该类模型是在GPT这类语言类大模型上进一步延伸、拓展。Sora通过一种类似于GPT-4对文本令牌进行操作的方式来处理视频“补丁”。该模型的关键创新在于将视频帧视为补丁序列，类似于语言模型中的单词令牌，使其能够有效地管理各种视频。这种方法与文本条件生成相结合，使Sora能够根据文本提示生成上下文相关且视觉上连贯的视频。