硅谷一线科学家：Sora惊艳，中国作为追赶者差在哪里？

　　3. 13 知识分子The Intellectual

　　图源[1]

　　编者按

　　近期，OpenAI 推出了名为 Sora 的文生视频模型，其惊艳效果引发关注和热议，在国内的人工智能（AI）领域更是掀起了基准大模型讨论的热潮。目前，Sora 可一次性生成高质量的 1 分钟视频，不仅在视频长度和质量上都超越了传统模型，视觉效果上达到了令人难以置信的真实，展示出人工智能在理解和创造动态影像方面的巨大潜力

　　为了更好地帮助了读 Sora 背后的科学原理和影响，以及在 AI 科技发展和产业中的位置，我们和在美国硅谷从事人工智能研究的科学家田渊栋博士聊了聊。田渊栋博士毕业于卡耐基梅隆大学机器人系，曾在谷歌无人驾驶汽车项目组工作，2017 年至今在 Meta AI Research（FAIR）担任研究科学家和高级经理，在深度学习领域有着丰富的经验，对于人工智能领域的前沿工作非常熟悉。

　　在一个多小时的访谈中，田渊栋带来了一线硅谷科学家的观察和思考，许多洞察值得一读，尤其是对文生视频模型的现状与未来的解读，以及中美人工智能投资与创业生态的比较。

　　以下为访谈要点，出于简洁和清晰，文字有编辑。

　　访谈｜张天祁陈晓雪

　　撰文｜张天祁

　　田渊栋，Meta AI Research（FAIR）担任研究科学家和高级经理

　　“Sora 的进展比我预期的要快”

　　《知识分子》：首先，整体评价下您对 Sora 的观感？

　　田渊栋：感谢你们对 Sora 的兴趣，最近这个方向确实很火，谈论的人很多。首先要声明我一直以来主要做优化，搜索和表示学习，还有可解释性，最近开始做一些大语言模型在训练和推理时的优化，包括算法和系统方面，并不是专业做文生图/视频的。因为 Sora 用了 Transformer 作为骨架，让我有一些兴趣，但我只是作为一个旁观的研究员看一下最近的进展，给一些比较外行的评论。

　　总体来说还是很惊喜的。过去的文生视频都比较短，但 Sora 能达到一分钟。这一分钟的视频基本上没有完全重复，包含大量视角转换，镜头拉近和拉远，以及物体的动作，动作也相当大，这是一个很大的进步。

　　在 Sora 发布之前，其他团队可能已经尝试过生成几秒钟的视频，不会太长。这几秒钟的视频通常也仅限于使用同一张照片，稍微调整镜头，让人物或物体产生一些动作，或者展示水的波浪等特效。相对而言，这种视频更像是动态图，而不是真实的视频。Sora 这次生成的视频看起来像是真正的视频，这是一个很大的区别。

　　《知识分子》：按您过去的估计，AI 生成视频达到 Sora 现在的水平需要多久？Sora 的进展比您预期的快吗？

　　田渊栋：是的，Sora 的进展比我预期的快。我原本认为按照正常速度，达到现在这个水平可能需要一两年，但他们做得很快很好，出乎意料。

　　《知识分子》：Sora 和过去的 AI 生成视频相比优势在哪里？

　　田渊栋：Sora 的优势在于它并不是简单地预测下一帧，而是一次性预测整个视频序列。这种方式其实很有趣，它与通常的预测方式有所不同。

　　过去很多 AI 生成视频的做法是先有照片，然后再预测照片的下一帧，把照片扩展成一个视频。实际上很多时候根据照片做预测效果和能力有限，而像 Sora 将整个视频通过扩散模型（Diffusion Model）一起生成，可以保证前后的连贯性和一致性达到最佳状态。

　　一致性指的是，如果视频第一帧中有一个人，最后一帧也应该有这个人，在整个时间段内这个人是连贯的。举个例子，在 Sora 的某个视频中一个女士在东京街头漫步，她的表情、特征等应该在整个过程中保持一致。

　　实现这种一致性并不容易，因为如果仅仅预测下一帧，特别是在视频很长的情况下，会出现 compounding error（累计误差），可能导致变形、失真，甚至出现画面模糊等问题，这些都是之前的模型面临的挑战。从一张照片扩展成一个视频，一定会遇到一致性的问题。另外一个问题是视频不能太长，太长的话整个视频的质量都会下降。

　　但是现在通过一次性生成整个视频，让视频的一致性有了空前的提高，这是一个空前的进步。这次 Sora 视频出来之后，虽然还不像人类做的视频那样有情节，但一致性表现得非常好。

　　《知识分子》：这是通过什么技术或原理实现的？

　　田渊栋：Sora 采用了 Transformer 架构加扩散模型进行视频生成，它的做法是将输入的三维视频先逐帧转换为潜在的 Token 表示，形成一个 Token 序列，然后用 Diffusion Transformer 结构，从随机噪音开始，逐渐生成整个视频序列的所有帧的 Latent Tokens 表示。这种做法的好处是它并不是逐帧预测，而是一次性生成整个视频序列，这种方法很有意思，现在看起来能保证整个视频长程的一致性。

　　Sora 的视频生成过程借鉴了扩散模型在图像生成领域的思路。扩散模型能够通过逐步去噪的方式，从纯噪音图像开始，通过逐步去噪并引入条件信息，让图像向着指定方向进行演化，一步步生成清晰的目标图像。视频实际上就是三维的图片，通过将视频视为三维的图像数据，Sora 采用类似的去噪过程逐渐生成整个视频。每一步生成的信息取决于给出的条件信息也就是文本描述(prompt)，文本描述不一样，视频的内容和结构也不一样。

　　这种方法生成视频不需要以具体的某张照片作为基础。这倒不是什么特别令人惊讶的事情，因为文字生成图片也是类似的过程，是根据文字提示无中生有直接生成图片。当然在训练阶段是利用了大量图片，记录了很多文字和图片结构的对应关系，才能在生成阶段从文字直接生成图片。

　　文生图片的尝试大概从 2015 到 2016 年左右就开始了。因为文字到图片有难度，图片到文字相对容易，所以那时候先训练的是图片生成文字的模型。而给定文字生成图片，用的是训练时很不稳定的 GAN，效果也在逐年提高。

　　使用人工智能生成图像的时间线。图源[1]

　　现在图片生成文字或者视频生成文字已经有了相对成熟的内部应用模型，有了这个模型之后就能把视频转化成大量的文字数据，再逆向训练文生视频。Sora 团队也利用了这些模型，这在他们的技术报告里也有体现。

　　《知识分子》：在人工智能的生态里，Sora 处于一个什么位置？

　　田渊栋：每个工作在人们心目中的地位是不同的。有些工作是基础性的，而有些工作则是在拓展边界。我觉得 Sora 属于拓展边界的工作，它让人们认识到这项工作是可以实现的，就会有更多的人愿意在上面花时间，把它做得更好。

　　Sora 起了一个非常好的示范效果，它可能有巨大的影响力，让人们相信人工智能是有前途的。人们愿意投入时间和精力来从事这项工作，资本市场也愿意进行投资，而人们也愿意购买相关产品。这当然对整个领域起到了很大推动作用。就算现在生成视频还比较贵，但我相信以后推理成本是会大幅度下降的。

　　《知识分子》：即使是不在人工智能行业的人，对于 2016 年火爆的 AlphaGo 也记忆犹新。最近出圈的大模型 ChatGPT 和 Sora，也得到了普通人的关注。作为一个从业者，对于 AI 发展的进程，您的内部观察是怎样的？

　　田渊栋：其实有很多水面下的工作没有被关注，所以大家会觉得 AlphaFold、Sora 都是技术上的爆发。实际上背后一直有许多技术工作在做，很多不错的工作也会在圈内受到关注，只是这些工作没有像 Alphafold、Sora 那么火。等到 Sora 这些成果火出圈了，大家才突然发现那些低调的技术工作对行业的贡献。

　　比如，过去已经有预测蛋白质结构的比赛了，但直到 AlphaFold 的出现，这些比赛和它的成果才真正引起轰动。AlphaFold 本身也用了 Transformer，用了类似 BERT 那样的先加噪音然后重建的损失函数，没有前人把比赛建立起来，把数据集做出来，把计算的框架和深度学习的工作都做好的话，这些成就是不可能实现的。这些工作都是逐步积累、一步步完成的，Sora 的工作也是如此。

　　Sora 用到的 Diffusion Transformer (DiT)是谢赛宁（加州大学圣地亚哥分校博士，曾是 Meta 的研究员，现任纽约大学报计算机科学助理教授）和实习生一起做的工作，主要发现是它的 scaling 的能力不错。但之前 DiT 在计算机视觉领域没有那么火。后来 DiT 的一作成为了 Sora 的核心成员，自然会想到用之前的工作，有效果之后就突然就火起来了。对圈内人来说，Sora 的技术都是有历史积淀的。

　　包括 Sora 这套方法，先把视频转化成三维 token 阵列，然后把这些 latent space 里的 token 连在一起放进 Transformer 里面，然后用 diffusion process 来从噪音开始重建。这个方法其实以前也有人试过，我们的一些过去的文章也有这种做法，不过主要的目标不是图像/视频生成，而是用来建模智能体将来可能会走的路径（也就是所谓的“世界模型”），然后来做决策，比如说最近我们在 ICLR’24 上发表的H-GAP[2]及 Diffusion World Model[3]，等等。这些方案的共同优点是能保持整条路径的长程一致性，不会因为路径很长产生 compounding error。

　　所以 Sora 利用的技术过去都有，如果没有 OpenAI 做出来，迟早也会有另外团队做出来。只是这个方式可能没有那么激进，会用一些温和的方法做出来，效果没那么好，但慢慢也能做出来。技术是一直在进展，只是说这些工作现在出圈了，让大家觉得有很厉害，但是它其实是继承在过去大量的技术积累基础上产生的。

　　OpenAI 的方案很大胆

　　《知识分子》：之前的模型没有做到这一点，是技术上无法达到，还是思路上存在盲区？

　　田渊栋：肯定有人尝试过，但 OpenAI 拥有足够的算力和大量数据，才使得这一切成为可能。我不相信大家想不到，总是有各种各样的方案，只是一些效果好，一些不好。

　　在尝试生成视频时，会遇到许多技术难题。例如，制作一个 60 秒、每秒 24 帧的高清视频需要处理大量数据，把这些数据同时放进 Transformer，会有训练不动的情况。刚开始考虑制作文生视频时，面对这么大的数据量，很多人第一反应是觉得，我要不要先减采样？把视频图片变小一点，调整一下采样率。要不要从某个已经训练好的文生图模型出发？但是这些实际上会影响最终算法的效果。

　　对于大多数人来说，OpenAI 的方案很大胆，大部分团队都会保守一点。少数团队可能拥有足够的算力和数据，可以直接进行大规模处理。但是，大部分团队一是没有资源，另外也没有这个数据。即使有资源和数据，也得考虑哪种方案更适合他们。

　　最终的成功是多个因素共同作用的结果，需要有足够的算力、数据，同时方案也需要足够大胆。在这个过程中，主要作者们付出了巨大的努力，听说他们可能一天只睡 4 个小时，搞出 Sora 花了将近一年，工作非常辛苦，另外他们也有很多很多 GPU 和数据。可以认为他们是不太计成本地去做这件事情，这就是 OpenAI，或者说 Sora 团队的魄力。

　　《知识分子》：这是 OpenAI 做事方法的成功吗？

　　田渊栋：这个完全是取决于团队的方针，团队的方针不一样，最后的结果就不一样。每个团队都有自己选择的方向，沿着这种方向做项目，某些东西他就能比别人先做出来，但另外一些东西他就可能没有办法比别人做得更好。

　　OpenAI 做的事情是集中大量资源，包括人力和算力，去突破边界，让大家来看到不一样的世界。如果想要在理论上对算法及模型的分析有突破，或者是找到一个全新的模型训练范式，肯定不会去找 OpenAI 团队，因为他们这套不适合。

　　Sora 这个项目是一个研究项目，通过展示我们可以实现电影画质而且达到一分钟长度、拥有一致性的视频，证明这个想法是可行的。一旦证明了这一点，大家就会获得巨大的动力去继续前行。因为原本这是一个不确定的领域，大家可能认为将一张图片转变成一部电影几乎不可能，可能需要花费多年时间去探索。现在他们告诉你这是可以实现的，大家就会愿意花时间花精力去实现这个目标。

　　《知识分子》：所以说 Sora 并没有带来理论上的突破？

　　田渊栋：对，他们只是做成了这件事，告诉大家这个方向是可行的。以前的 DeepMind 也有相似的做法。通过堆大量的算力和人力，把现有的工作做 scale up（增加模型、数据和算力的大小）做到极致，最后把结果做出来。

　　《知识分子》：有人评价 Sora 在文生视频上取得的成果是“因为相信所以看到”。

　　田渊栋：是的，就是说你相信这件事情能做完。OpenAI 内部的员工，他们每天工作的任务之一就是相信 AGI（通用人工智能）马上就要实现了。这是一个相当于洗脑的过程，相信它能够实现，相信调动大量数据和资源能够达到一个目标。

　　OpenAI 整个的氛围都是这样。都觉得一定要把东西堆上去，把效果做出来。每天堆算力，洗数据，把模型训练好，都是这么想的，这是他们的一个信念。

　　有这个自我实现的信念之后，慢慢这个事情就能真正地做成。确实也是这样。如果你相信这件事情是真的，每天只做一件事情，其实一年可以做很多，可以在一个方向做非常远。

　　这是个正向循环的模式。成功带来自信，你就想更多更远，有自信去做更好的东西。钱也是这样来的，你先做几个爆款的，然后大家会给你钱。有更多的钱，更多资源可以做更好的东西。

　　文生视频模型还在努力达到人类常识水平

　　《知识分子》：Sora 现在呈现的不够好的点是什么？

　　田渊栋：我看了一些视频，还是有些前后不一致的地方。你会发现在几只小狗走路的视频里，它们走到一半的时候，这些狗会慢慢融合在一起，或者说一个狗的尾巴突然变成另外一个狗的尾巴。或者一只猫在床上踩人的时候，这只猫突然会出现三只脚。

　　另一个问题，Sora 在物理上还是有比较多的细节不对。比如说一个海底的视频，里面有章鱼在游动，但章鱼的吸盘会在它手臂上移动，非常诡异。另外玻璃杯破碎这种物理过程也模拟不出来。这些奇怪情况的发生，说明这个模型并没有完全学会现实世界的一些物体的结构，或者说它们之间的一些关系。可能是因为数据不够多，它还没有学会这些。

　　《知识分子》：Sora 现在是否能够理解物理世界？

　　田渊栋：我认为这个问题的关键在于模型的理解程度。我们可能期望模型在某些情况下表现得像人类一样理解，但实际上还存在许多问题。正如我之前提到的那些情况，有些明显违反了人类的常识。

　　比人类理解物理更高级的方法，是电影制作中使用的物理模拟软件。这些软件可以提供非常详细的物理模拟，使每个水珠看起来非常真实，当然代价是需要人去设定整个场景，也需要大量算力来模拟。目前大模型的水平还远远达不到这种程度，因为需要更多的数据和生成才能实现。

　　我们可以将挑战分为两个阶段：首先是达到人类常识水平的理解，目前还未达到；其次是实现高精度的物理模拟水平，这就更加遥远了。

　　《知识分子》：如果在未来有更多数据，Sora 能够抵达您说的这两种理解程度吗？

　　田渊栋：我认为可能需要一些更具挑战性的突破，类似于自动驾驶技术。最终，模型可能会在 90% 的情况下表现良好，但总会有一些情况，例如两个物体之间的碰撞或相互作用，模型可能无法很好地处理。这是因为世界上各种物体之间的相互关系是无限的，而且总会出现一些以前从未遇到过的情况。在这种情况下，如何让模型学习这些新情况是一个挑战。

　　如果只依靠大量的计算资源和数据，实际上是相当困难的。人类之所以能够应对这些情况，是因为我们具有一些高层次的理解，可以从这些高层次的理解中推断出解决方案。然而，目前机器尚未达到这一点。让机器学会对事物进行高层次的理解，并利用这种理解快速学习新的过程，实际上是相当困难的，目前还没有找到解决方法。

　　《知识分子》：有人认为比起能够自主决策的 AlphaGo，大模型的决策能力是一种倒退，您怎么看？

　　田渊栋：这两者是互补的关系。AlphaGo 更会做决策，但需要人类先设定好决策框架把围棋规则写入程序中。人其实不依赖外界的人帮他写入规则，如果是一盘棋改了规则或者改变了初始的棋子位置，棋手马上能适应并且下出很好的棋。对于 AI 来说，这可能意味着得要重新训练一遍，所以人的能力在这方面现在优于 AI。当然现在的大语言模型也开始有一些适应的能力了，比如说 in-context learning，不用训练就能适应新的任务。现在在强化学习上已经看到一些这样的文章了。

　　大模型还可以通过学习大量已有的数据来自动学出规则，并预测未来的行动。尽管在某些情况下，大模型的效果还不好，但大模型技术至少迈出了一步，让大家知道我再也不用手写这个规则，可以让它用模型从大数据去学出来。大模型也许以后会和决策的那些方案拼起来，能得到一些更像人的决策。

　　AI 研究追赶者心态的局限

　　《知识分子》：在 Sora 出现之后，国内 AI 领域有一些反思的声音认为国内对 AI 的信念不够，在没有先例之前只敢做小规模的探索。您怎么看待这种说法？

　　田渊栋：容错性确实是个问题。追赶者往往会觉得我什么事情都要听，最好是到各种渠道听到别人怎么做的，我就跟着做，这样其实永远追不上别人。

　　另外一点是心态上的问题，国内有些的公司可能确实资源不够，但更多时候问题出在想法上。很多公司第一的想法是我一定要追上前面的人，但是这个思路其实不对的，做研究不能天天想着追上前面的人，我觉得应该换种想法，想想我能不能做出我们这边有特色的东西，

　　Sora 那几个领头的人本身就是顶刊顶会论文的一作，他们是有自己的研究方向的，做模型的时候当然会沿这个方向去想，并不会去照抄之前的那些人的工作。所以他们跳出了思维的局限，用更多的资源，一下子把整个视频生成出来，这和过去的生成视频是非常不一样的东西。

　　OpenAI 目标似乎不是赚钱，他们的目标很远大，想搞 AGI。搞 AGI 是个大方向，可以有很多发展。至于要不要赚考虑商业化，现在他们有钱，也许以后会考虑商业化。他们可以考虑提供服务，给人付费生成视频。以前拍电影需要整个团队，现在你说几句话就能做个短片，这个就效率很高了，只要成本够低，肯定会有人愿意去买。

　　《知识分子》：在美国有很多像 OpenAI 这样的公司吗？这类并不急于追求商业化，而是有着更宏大的目标，而且持续有资金支持它们的目标的公司。

　　田渊栋：是的，在美国有很多这样的公司。问他们在做什么的时候，他们会说要做 AGI。也有很多公司不缺钱，找了一些大佬来投资，之后很长时间不干预很正常。相比之下，国内可能更加希望回报快一些，给了钱就希望立刻翻倍。

　　《知识分子》：Sora 在国外的热度似乎没有国内这么高？

　　田渊栋：国内可能有一两个点特别火，突然间大家都在谈论这个问题，像 Sora 就是一个例子。相比之下，国外就比较多元，有的人就不管什么热门，他就好好做自己的，不会去跟着热点跑，所以相对来说热门不会有那么大的影响力。

　　《知识分子》：OpenAI 的成立有 9 年了，一直在烧钱。国内也有一些 AI 领域的投资机构，但很少有坚持这么久的，甚至有投资多年的机构突然解散的。这一点还挺不同的？

　　田渊栋：对，这可能是中美之间的区别。在美国，公司对自己提出的承诺应该要遵守的，这从某种程度上来说是一个招牌，会持续不断地吸引人过来。如果因为公司的一些原因，导致原来做研究的部门的员工去做产品了，那样公司的声誉就会受到影响，比如说 2014 年的时候，微软突然把硅谷研究院裁撤了，这就导致很长一段时间微软失去了信誉，很多顶级的人不愿意过去了。

　　之前在公司比较艰难的时候，我们公司也问过我们（研究组）要不要去产品组，但我们都坚持要留着做研究，公司也不能把我们怎么样。这种坚持也是会给公司带来很大收益的，比如 LLaMA 就是让公司能够在关键时刻拿出来的成果。所以不会出现上面让你干什么，你就得干什么这种情况，还是有相当的自主性的。

　　《知识分子》：在美国，公司不遵守规则你可以选择离开，还有其他的选择。在国内，研究人员好像没有这么多选项。要么就进研究机构，要么就进高校，能够支持你做基础研究的公司并不多。

　　田渊栋：国内做人工智能的机构，整体上还是没有像美国这种规模这么大，提供这么多机会。最顶尖的研究员在市场上有各种选择，公司必须顺应这些研究员的选择，因为没有他们的工作，公司的估值就会下降。如果一些公司做出出格的事情，可能就招不到好的研究员了，那公司会迅速滑落到第二甚至第三梯队，这是公司不能接受的。

　　这样的环境下，在这些最顶尖的人里面，能够坚持自己理想的人是多的，他不愿意为放弃这个理想去做其他东西。相比之下，在国内竞争激烈，个人可能会面临为了生计而不得不妥协的情况，也缺乏话语权表达自己的诉求。

　　另外，在美国，各方都在进行博弈，包括员工与老板、老板与大老板、公司与员工之间的博弈，最终会找到一个平衡点。这种平衡点有助于避免侵犯对方权利，维持良好的工作环境。我们经常会看到美国各种乱，各种公开吵架，其实正是这种博弈的体现。

　　在国内情况可能不同，因为个人可能难以形成团体，没有团结起来做一件事的能力，大家也宁愿听别人的，而不是自己去独立思考问题，尤其是从第一性原理出发去思考问题，形成独到见解和观点。这就会导致在一些问题上可能会一边倒。

　　《知识分子》：大模型和 Sora 引起了各公司和机构复刻的热潮，可以说它们指出的方向是现在 AI 研究的主流吗？

　　田渊栋：肯定有很多人愿意去做。但并不是说硅谷所有人都愿意跟这两个方向，或者说愿意跟最火的方向。大模型确实很多人在跟进（包括我自己），可以算渐渐成为主流；但要是说 Sora 是主流，估计很多人都不会赞同的。在自己的方向上坚持很多很多年，这正是创新的源泉所在。深度学习之所以能在 2012 年开始爆发，代替了以前广泛使用的特征工程和线性分类器，也是因为有“一小撮”研究员们长达十几年的坚持。

　　在人工智能领域还有许多其他方向值得做，可供选择，例如大型模型面临着多方面的挑战，包括高效训练，快速推理，还有安全性等问题；如何提升模型的安全性、推理能力，如何解决一些现有方案难以解决的多步推理问题，如何与已有的推理和求解器高效结合以达成最优决策，等等。这些我们都在做，像我们最近发布的省内存预训练方案 GaLore[4]，仅用 350M 参数进行预训练并有不错效果的 MobileLLM[5]，还有能让 Transformer 学会通过搜索和规划来解决难题，并以比传统算法更快的方式得到最优解的 Searchformer[6]，等等。

　　总的来说，最重要的是要选择符合自身背景和兴趣的方向，并且一直坚持，同时得到别人的支持，这样才能够做出好的工作来。我对深度神经网络的原理一直有兴趣，这也是我当年离开 Google 无人车组，来到 Meta AI (FAIR)的一个动因。我在知乎上也一直有一个《求道之人，不问寒暑》的博客系列。快十年过去了，这个初心还是没有变。回头看来，这十年的坚持很有意义，做出了很多不仅在理论上有意思，还在实际上有用的工作。

　　参考文献：

　　[1]https://freedomandsafety.com/en/content/blog/how-has-ai-developed-over-years-and-whats-next

　　[2]https://arxiv.org/abs/2312.02682

　　[3]https://arxiv.org/abs/2402.03570

　　[4]https://arxiv.org/abs/2403.03507

　　[5]https://arxiv.org/abs/2402.14905

　　[6]https://arxiv.org/abs/2402.14083