Sora·创世纪·大统一模型


Sora的野心:世界模拟器


现实世界(物理世界)存在大统一理论吗?
这是爱因斯坦一辈子都在追寻的目标。

无数人类天才穷尽一生才合伙建立残缺的大统一理论(GUT):它只统一了强相互作用、弱相互作用和电磁力,引力至今无法统一到模型之中。

同理,AI世界存在大统一模型吗?
这也是很多AI工程师也在追求的目标。
此次OpenAI发布Sora,官方对它的定义就是:世界模拟器。

并且认为它是构建物理世界通用模拟器的一个可能方法。

那么,AI世界也会存在“基本粒子”吗? 为什么Sora发布会引发对AGI的思考和争议。 人类的大统一理论与AI大统一模型如何比照参考? 物理引擎和数学原理又将扮演什么角色?

随着Sora的DEMO推出,人类似乎触手可及“AI创世纪”!


AI语言大模型(LLM)的“基本粒子”


人类的终极目标之一,
就是寻找物理世界的“基本粒子”。

只有找到“基本粒子”,才有可能理解这个宇宙。 AI世界则不一样,人类现在是创世者,我们设定“基本粒子”。只有制造出“基本粒子”,才能去生成一个新世界。
回到AI人工智能的“奇点大爆炸”时代,ChatGPT作为第一个真正意义的人工通用智能,它的工作原理是什么:

ChatGPT借助Embedding将人类语言“编码”成AI能够计算的“语言颗粒”,也就是Token化,将自然语言转换为高维向量空间中的数值,通过自注意力机制权衡不同语言元素的相对重要,最终“解码”回自然语言。

大语言模型处理和生成文本的过程步骤:
1.文本Tokenization ➔ 2. Embedding映射 ➔ 3. 加入位置编码 ➔ 4. 通过自注意力机制处理 ➔ 5. 利用前馈网络进一步处理 ➔ 6. 生成预测并“解码”

具体步骤如下:
①文本Tokenization: 将原始文本分解为更小的单元(Tokens)。 "Hello, world!" ➔ ["Hello", ",", "world", "!"]

②Embedding映射: 将每个Token转换为高维空间中的向量。 ["Hello", ",", "world", "!"] ➔ [向量Hello, 向量,, 向量world, 向量!]

③加入位置编码: 为每个向量加上位置信息,保留序列中词的顺序。 [向量Hello, 向量,, 向量world, 向量!] ➔ [向量Hello_pos, 向量,_pos, 向量world_pos, 向量!_pos]

④通过自注意力机制处理: 模型计算每个词对序列中其他词的“注意力”,从而调整每个词的表示,使其包含更丰富的上下文信息。 [向量Hello_pos, 向量,_pos, 向量world_pos, 向量!_pos] ➔ [向量Hello_context, 向量,_context, 向量world_context, 向量!_context]

⑤利用前馈网络进一步处理: 对每个词的向量进行进一步的非线性变换,以学习更复杂的表示。 [向量Hello_context, 向量,_context, 向量world_context, 向量!_context] ➔ [向量Hello_final, 向量,_final, 向量world_final, 向量!_final]

⑥生成预测并“解码”: 基于最终的向量表示,模型生成下一个词的预测,并将其转换回人类可读的文本。 [向量Hello_final, 向量,_final, 向量world_final, 向量!_final] ➔ 预测下一个Token ➔ "Language"]

从以上步骤可以看出,ChatGPT技术原理的起点是将“自然语言”Token化,也就是给大语言模型提供了一个可计算可理解的“基本粒子”,然后用这些“基本粒子”去组合文本语言新世界。
不仅仅是ChatGPT,其它语言大模型基本上都将“Token”视为基本粒子,在文本大模型这个领域,创世粒子已经“尘埃落定”。


Sora中的基本粒子“spacetime patches”


与ChatGPT的技术原理很相似,Sora模型技术栈也是先将视频数据“基本粒子”化。

A、文字语言基本粒子“Token化”
B、视频数据基本粒子“ spacetime patches化”
与ChatGPT采用Token Embedding方法以实现文本数据相似,Sora模型将视频数据压缩至一个低维的潜空间(Latent Space),再将这些压缩后的数据细分为时空碎片(Spacetime Latent Patches)。 视频大模型的工程师一直都在创造基本粒子,但并不是每个基本粒子都能成为“创世粒子”。 能够得到众生认可的“创世粒子”应该具有以下特点:

1、能够高效继承原生世界的信息;
2、可以自由组合创造(生成)新世界
这次Sora模型的视频数据“时空碎片”(spacetime patches)已经被证实是一种高效且可扩展的数据块,它能够捕捉和表征各类视频数据的关键信息。成为AI时空数据建模的基石,和Token一样时空碎片spacetime patches成为AI时空建模的关键,成为视频大模型的“基本粒子”。


工程师的“创世纪”:镜像世界


工程师们眼中的Sora可不是为了给你生成一部电影,而是在虚拟环境中重现物理现实,提供不违反“物理规律”的镜像世界。
那到底该如何创世呢?这可是大神们的工作。

宇宙存在许多规则,例如能量守恒定律、热力学定律、万有引力牛顿定律等。 万事万物不能违背这些规则,苹果不能飞向月球,人类在阳光下有影子。那这些规律是如何形成的呢?存在两种可能:

1、混沌第一性原理:定律是在宇宙的发展过程中形成的;
2、定律第一性原理:宇宙从按照这些定律才发展到现在。

以上是两种“创世”规则,也决定着“镜像世界”的两种方法。
技术上现在有两种方式可以实现这样的世界模型:

1.基于物理运动的模拟(Sora)
物理规律学习:Sora通过分析大规模视频数据,使用机器学习算法提炼出物理互动的模式,如苹果落地而非悬浮,遵循牛顿的万有引力定律。
2.基于数学规则的模拟(虚幻引擎)
数学建模:虚幻引擎通过手工编码物理世界的数学模型(如光照模型、动力学方程),来精确“渲染”物理现象和互动。

很明显,基于物理运动的模拟(Sora)认可的是“混沌第一性原理”,在混乱中学习。基于数学规则的模拟(虚幻引擎)认可的是“定律第一性原理”,存在更高设计者。 以上两者都存在争议,那么这两者可以结合吗?


AI世界存在大统一模型吗?


很明显,OpenAI试图建立AI大统一模型。
它通过GPT-4.0、DALL·E 3和Sora等模型的开发,试图在语言、图像和视频等不同模态之间建立桥梁,完成大统一。

但很多人并不买账,深度学习三巨头的Yann LeCun提出的非生成式V-JEPA模型试图通过结合视觉感知和物理推理来构建更为精确的世界模型。

非生成式V-JEPA模型
AI大统一模型并非没有可能,一种新的方向已经出现: 将不同模态的数据转化为一种或多种统一的基本粒子形式,以便使用同一套算法框架进行处理和分析。

文字语言的Token基本粒子化,视频数据的Spacetime Patches基本粒子化让人看到了希望。

Sora模型其实已经让两种基本粒子Token和Spacetime Patches在进行交互,最后能统一成一种基本粒子吗?也不是不可能。
除了数据“基本粒子”化,同时也看到了四大理论逐渐成形:

1、基于Transformer架构的交互关系: 利用自注意力机制(Self-Attention Mechanism)使得模型能够捕获长距离依赖,为跨模态数据的序列对齐和时间依赖性建模提供数学框架。

2、Diffusion模型的逐步细化过程: Diffusion模型通过渐进式去噪进行连续随机的离散化表达,嵌入了随机微分方程展现了模型在处理不同数据类型时的灵活性和多样性。

3、生成对抗网络(GAN)的创新应用: 生成器生成逼真的数据样本,而判别器则努力区分真实数据和生成数据,推动模型在生成质量、多样性以及对复杂数据分布的捕捉能力方面的进步。

4、模态转换的编解码器: 通过映射和逆映射的数学操作,实现了从具体数据到统一表示空间的转换。

物理世界的大统一理论是统一四种力,以上是AI世界的四种重要理论。

AI世界会存在大统一模型吗? 如果是,那现实物理世界是不是同样如此。
如果AI世界不存在大统一模型。 那么这么多年来科学家寻找的大统一理论是不是镜花水月?

也许,人类只有去创造一个世界,才能理解创世者。


AI背后,藏着一个创世梦想


一直以来,人类在探索宇宙起源,叩问创世者。

但今天,自己有力量可以成为创世者了。
千年回顾,这是不是人类文明史划时代时刻?


这一年来,目睹了Token化的大统一设计,见证了Transformer架构开疆拓土、理解了Diffusion模型底层意义、即将体验Spacetime Patches的革命创新。
这一年来,各种大模型纷至沓来,天才创意层出不穷。产品迭代惊心动魄,一年之间可谓覆地翻天。

可对于人类天才来说,这些还不够,他们要建立一个“世界模型”,创造一个数字宇宙。同时还希望这个世界完全遵循F = ma、E=MC2这样的物理规律。
如果真能做到,那它和现实世界有何区别。

再想一想,现实世界有没有可能也是一种模拟?
如果是,你是兴奋,还是担忧?

公众号 量子学派

关注我们,阅读更多文章。

Card image cap
量子学派

专注于科普 (数理哲) 的教育平台
“典赞·2019科普中国”十大科普自媒体

  公众号文章