华尔街日报专访OpenAI CTO穆拉蒂：Sora将于年底发布，只需几分钟可以生成一段视频-AI奇点网

首页 > 资讯 > 文章

2024-03-14 14:12

华尔街日报专访OpenAI CTO穆拉蒂：Sora将于年底发布，只需几分钟可以生成一段视频

摘要

OpenAI CTO穆拉蒂透露，Sora生成20秒时长、720P分辨率的视频只需几分钟，未来将增加语音功能。

穆拉蒂表示，OpenAI训练Sora时使用了公开可用的数据和授权数据。

OpenAI正在致力于通过红队测试来确保Sora的安全性和可靠性，或将于2024年末发布。

穆拉蒂宣称OpenAI将与电影行业合作，帮助大幅降低布景等方面的费用。

以下文章来自丨腾讯科技

据国外媒体报道，美国当地时间周三，人工智能初创公司OpenAI的CTO米拉·穆拉蒂（Mira Murati）接受《华尔街日报》专访。在访谈中，穆拉蒂详细介绍了OpenAI文本转视频人工智能工具Sora以及其发布计划，还谈了训练数据、红队测试以及与电影业合作等话题。

完整采访视频如下：

以下为WSJ报道摘要：

人工智能正在迎来下一个“魔法时刻”，在这个时代，你的话语将不再仅仅是文字，它们将被赋予生命，转化为生动逼真的视频。这正是OpenAI最新研发的Sora所带来的革命性变革，它让视频制作变得更加简单、高效。

Sora或许将在今年晚些时候与我们正式见面。然而，在此之前，OpenAI已向公众展示了其惊人之处：利用精心编写的提示和强大的处理能力，许多原本需要人工参与的视频制作环节变得轻而易举。想象一下，许多充满创意的提示，如美人鱼与她的螃蟹伙伴一同点评智能手机，或是一头牛悠然自得地漫步在瓷器店中，这些场景在Sora的魔力下都将成为可能。

当OpenAI上个月开始预览其利用生成人工智能工具制作的视频时，互联网瞬间沸腾了。此前的人工智能视频技术已经可以呈现出断断续续、分辨率较低的片段，而Sora所生成的视频却如同自然纪录片或大片级别的作品，令人叹为观止。

Sora不仅为我们所熟悉的人工智能感觉循环注入了新的活力，更引发了人们对其能力的惊叹和社会的深深忧虑。穆拉蒂在采访中保证，OpenAI在发布这一强大工具时将采取极为慎重的态度。然而，即便如此，我们也不能保证一切都会朝着好的方向发展。

穆拉蒂透露，一段20秒时长、720P分辨率的无声视频，仅仅几分钟就能制作完成。但她表示，他们计划在未来为视频增加语音功能，让内容更加完整。

Sora究竟是如何工作的？穆拉蒂解释称，Sora的人工智能模型通过大量视频数据的学习，学会了识别和理解各种物体与动作。当你给它一个文本提示时，它能够迅速勾勒出整个场景，并逐帧填充细节，从而生成出令人惊艳的视频内容。

人工智能就像黑盒子

业内观察人士和竞争对手们（包括Runway的CEO）纷纷将OpenAI在视频生成技术方面取得的成就归功于其庞大的计算能力和丰富的训练数据。然而，近期OpenAI却陷入了版权侵权诉讼的漩涡，被指控未经许可抓取内容以训练ChatGPT。

OpenAI在训练Sora时使用了哪些数据？穆拉蒂回答称：“我们使用了公开可用的数据和授权数据。”当被进一步问及是否包括YouTube、Instagram和Facebook等平台上的视频时，她表示并不清楚具体情况。不过，穆拉蒂后来证实，授权材料确实包括了来自一些摄影图片网站的内容。

对于普通用户来说，人工智能模型就像是一个黑盒子，我们只知道输入提示和输出内容，却无法窥探其中的工作机制。因此，我们永远无法确切知道为什么某些事物在生成时会呈现出特定的样子。

穆拉蒂还透露，目前利用Sora生成视频的成本远高于使用该公司图像生成器Dall-E生成图像。然而，她表示在Sora于今年年末向公众发布时，他们将努力优化算法，以降低所需的计算能力，从而使更多人能够享受到这项技术带来的便利。

在当前的早期阶段，我们如何能够识别出视频是由人工智能生成的而不是真实拍摄的呢？仔细观察Sora的作品，你会发现一些明显的痕迹。比如，有的视频中，人手上长出十根手指，穆拉蒂对此解释道：“要准确地描绘手部运动真的很难。”

在另一段视频中，创作者要求Sora展示一个机器人从电影制片人手中抢走摄像机的场景。然而，生成的视频中，原本的人类电影制片人突然变成了一个动作不自然的电影制作机器人，而且背景中的车辆也在不经意间发生了颜色的变化，从黄色出租车变成了银色轿车。穆拉蒂对此解释说，尽管该模型在保持场景连续性方面已经做得相当好，但仍有待完善。

如何识别AI生成视频？

那么，当这些技术故障被解决后，我们该如何区分真实视频和人工智能生成的视频呢？穆拉蒂提到了可能的解决方案：在视频的底部添加水印。她表示，这些视频最终将包含元数据，用以标明其来源，这有助于我们识别和追溯其生成方式。

除了技术问题，OpenAI还在致力于通过红队测试来确保Sora的安全性和可靠性。红队成员尝试使用各种提示来挑战Sora，以发现可能存在的漏洞、偏见和其他有害结果。穆拉蒂称：“这就是为什么我们实际上还没有部署这些系统的原因。我们需要先弄清楚这些问题，然后才能广泛部署它们。”

穆拉蒂透露，Sora的提示词政策可能会借鉴其图像生成器Dall-E的先例。比如，Sora将不允许生成公众人物的图像。

而关于可能涉及裸体的内容，穆拉蒂表示，公司正在与艺术家们紧密合作，探讨如何在不限制创造力的前提下，为这类内容设置适当的“护栏和限制”。

与好莱坞合作

随着像Sora这样的工具不断进步和完善，我们不禁要问：人类将如何适应这样的变革？在一个仅需文字提示就能取代无人机操作员或角色插画师的世界里，人类将扮演怎样的角色？对于好莱坞等行业来说，这种变革既带来了担忧，也带来了兴奋。

泰勒·佩里（Tyler Perry）在亲眼目睹Sora的出色表现后，决定暂停他原本计划耗资8亿美元的工作室扩建计划。他意识到，这项技术有可能大幅度减少在布景和外景拍摄上的费用，但同时也引发了人们对未来职业前景的担忧。美国动画协会主席珍妮特·莫雷诺·金（Jeanette Moreno King）认为，虽然艺术决策仍然需要人类的参与和判断，但“未来是模糊的”，充满了不确定性。

与此同时，爱德华·萨奇（Edward Saatchi）和他的人工智能视频工作室Fable正在构想着一个更加前卫的概念——一个人工智能版的Netflix。用户只需输入一个提示，系统便能生成出完整的剧集，满足观众的观看需求。

当被问及Sora对视频制作工作可能带来的影响时，穆拉蒂再次强调了OpenAI在发布这项技术时的谨慎态度。她表示，OpenAI已经让一些行业内部人士提前进入测试阶段，以便更好地了解并应对可能出现的挑战。她说：“我们希望电影界人士和世界各地的创作者都能参与进来，与我们共同探索如何进一步推动这些行业发展。”

尽管OpenAI在推进这项技术时表现得像瓷器店里的一头公牛，那么它需要小心翼翼地避免破坏现有的秩序。但不可避免的是，随着技术的不断进步和应用，它终将开始“撞碎瓷盘”，进而引发视频制作行业的深刻变革。