视频生成工具Sora横空出世!到底牛在哪?有哪些影响?
在2月16日的深夜,一家美国的人工智能企业OpenAI在其官方网站上公布了一款名为Sora的视频生成模型,该模型能够由AI自主生成长达1分钟的多镜头视频,其镜头运用的流畅度和电影相媲美,引起了业界的广泛关注。
紧接着,在2月17日,根据《纽约时报》和彭博社等知名媒体的报道,OpenAI完成了一项新的交易,允许其员工出售股份,这笔交易使得该公司的估值飙升至860亿美元。Sora是什么?它为何能引起如此大的关注?它又可能带来哪些影响?
Sora是一款能够生成60秒视频的模型,它对“物理规则”有着超凡的学习能力。从发布的视频来看,Sora在60秒的视频中展现了视频主体与背景之间高度的流畅性和稳定性;在一个视频中实现了多个角度镜头的切换,且切换逻辑合理、流畅;此外,Sora在处理光影反射、物体运动方式、镜头移动等细节上表现得非常出色。特别值得一提的是,在OpenAI公开的一些样片中,Sora展现了其对“物理规则”的超强学习能力,无论是飘动的毛发还是水面的波纹,Sora都能以一种符合自然规律的方式呈现出来。
OpenAI是如何实现这一点的呢?根据其官网的介绍,通过一次性为模型提供多帧的预测,他们解决了一个具有挑战性的问题。具体来说,Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构。在视觉数据处理上,OpenAI将视频和图像分解为较小的数据单元Patches,每个Patches相当于GPT中的一个token;在语言理解上,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细的描述性标题,使模型能够更准确地遵循用户的文本指令来生成视频。此外,Sora还能够将现有的静态图像转化为视频,赋予图像中的内容以生动的动作;模型还能扩展现有的视频或补全缺失的帧。 Sora的功能可以概括为“文生视频、图生视频、扩展原视频”,视频长度最高可达60秒,视频质量更高清,细节更逼真,表现力更丰富。
在Sora推出后不久,OpenAI发布了这款新工具的技术报告。经过对报告的梳理,可以总结出Sora的6大优势:
-
准确性和多样性:Sora能够准确解释长达135个单词的长提示,生成具有各种场景和人物的高质量视频剪辑,涵盖广泛的主题。
-
强大的语言理解:利用Dall-E模型的re-captioning技术,生成视觉训练数据的描述性字幕,提高文本的准确性和视频的整体质量。
-
以图/视频生成视频:Sora可以接受图像或视频作为输入提示,执行广泛的图像和视频编辑任务。
-
视频扩展功能:Sora能够根据图像创建视频或补充现有视频,沿时间线向前或向后扩展视频。
-
优异的设备适配性:Sora具备出色的采样能力,能够为各种设备生成与其原始纵横比完美匹配的内容。
-
场景和物体的一致性和连续性:Sora能够生成带有动态视角变化的视频,处理遮挡问题,确保画面主体即使暂时离开视野也能保持不变。 尽管Sora模型的生成效果仍有待观察,OpenAI官网指出,Sora可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系。
Sora的出现可能会对多个行业产生深远的影响。短期内,它可能会对短视频制作、影视行业以及视觉交互界面应用产生显著影响;长期来看,这项技术可能会为自动驾驶、数字仿真、场景模拟等领域带来变革。Sora作为一种强大的视频生成工具,可以极大地降低视频制作的门槛和成本,使得更多人能够轻松创建高质量的视频内容。这将对影视、广告、游戏、新闻、教育、VR/AR等多个行业产生深远的影响,具有广泛的应用前景。 技术的变革是一把双刃剑。Sora的出现可能会对某些岗位产生冲击,尤其是影视行业的从业者,如视频剪辑师、后期制作人员等,因为Sora能够自动或半自动地生成视频,可能会导致这些传统职位的需求下降。此外,新闻主持人、游戏动画师、广告创意和设计岗位、内容创作者等岗位也可能受到影响。 在AI领域,大模型的竞争正在加剧。与其他只能生成3至4秒视频的文生视频大模型相比,Sora模型生成的60秒视频是一个显著的提升。然而,OpenAI并非没有竞争对手,科技巨头们也在积极进入这一领域,如字节跳动的MagicVideo-V2和谷歌的Lumiere。同时,谷歌也在Sora发布的同日发布了其最新力作——Gemini 1.5 Pro,这表明大模型之间的竞争正在变得更加激烈。