看完 Sora《Video generation models as world simulators》的几点感受
看完 Sora 的各种视频,确实吓到了,赶紧找来 OpenAI 的原文来看看 AI 又进化了多少。
https://openai.com/research/video-generation-models-as-world-simulators

1. 这可比 AI 视频大多了
视频效果只是结果,结果的惊艳意味着能力的突破。比视频效果更炸裂的是,模型已经从语意理解(甚是跳过语意理解)跨越到环境理解。
2. 环境视频数据是训练智能的捷径(或弯路 from Yann LeCun’s view)
引用一下最关键的一句话:
scaling video generation models is a promising path towards building general purpose simulators of the physical world. 缩放视频生成模型是建立物理世界通用模拟器的一条有前途的道路。
意料之外,情理之中。
人如何构建一个世界?如果用 unity unreal 搭过场景或游戏关卡的 level,就大概能理解 OpenAI 的思路了。
3. Transformer 架构的潜力原来还很大
之前还以为 Transformer 架构已经被研究、开发得差不多了,没想到在多模态人家还是潜力股。
Transformer 真的就是个变形金刚,万物皆可转换,可供性比我想象要大多了。
4. Sora 是 LLM 和扩散模型最成功的联姻
At a high level, we turn videos into patches by first compressing videos into a lower-dimensional latent space, and subsequently decomposing the representation into spacetime patches. 在高层次上,首先将视频压缩到低维的潜在空间中,然后将表示分解为时空补丁,从而将视频转换为补丁。”
胡乱猜想,「缩放」是不是多模态未来一段时间内的训练范式?
所谓缩放的大致过程:合成数据集 👉 降维成序列 👉 潜空间变换 👉 升维变换(突破输入数据的维度)
5. 语言依然是通往智能的捷径
正如 CLIP 模型是文生图的桥梁,连接起语意和图像。Sora 也得益于 DALL·E 3 级别的语意理解。
训练文本到视频生成系统需要大量具有相应文本字幕的视频。我们将 DALL·E3 中介绍的 re-captioning 字幕技术应用到视频中。首先训练一个高度描述性的字幕模型,然后使用它为训练集中的所有视频生成文本字幕。我们发现,对高度描述性的视频字幕进行训练可以提高文本保真度和视频的整体质量。
6. 大力出奇迹
官方展示的这三段视频对比,清楚展示了基础计算、 4 倍计算、 16 倍计算的云泥之别。
未来依然是 OpenAI 哦不,是英伟达的。
7. 还是要探索真正的大问题啊
在 Sora 身上看到了 GPT-2 的影子:发现了一个牛逼、有潜力的架构,然后 10 倍扩大它来验证是否真的的有潜力,于是有了 GPT-3.
令人有点兴奋又害怕的是,Sora 不只是压缩人类尺度的世界,而是压缩所有可能的世界。这个 world 只是 Sora 能够计算模拟的 world 之一,因为是第一个,所以又叫 hello world(?),我们跟 hello kitty 差不多,是个 hello world(?)
向 OpenAI 致敬.