【Transformer 与注意力机制】47｜Diffusion + Transformer：DiT 与 Sora 为什么用 Transformer

Transformer 不只生成文字。ViT 把图像变成 patch token，多模态模型把图像 token 接入语言模型，DiT 则进一步说明：在扩散模型里，Transformer 也可以作为去噪网络的 backbone。

这件事容易被误解成“GPT 直接画图”。事实不是这样。DiT 仍然属于扩散模型：从噪声逐步去噪，生成图像或 latent。Transformer 的角色是替代 U-Net，成为预测噪声或去噪目标的网络。

本篇能让你学会三件事：

扩散模型最小必要背景；
DiT 如何把 latent patch token 输入 Transformer；
为什么视频生成让 Transformer 的长序列成本再次变成核心问题。

一、扩散模型最小背景

扩散模型的训练可以直觉理解为：先把真实样本逐步加噪，得到越来越接近纯噪声的样本；再训练模型学会反向去噪。生成时，从噪声开始，一步步去掉噪声，得到图像。

条件扩散模型还会接收文本、类别或其他条件。模型不仅要去噪，还要让结果符合条件，比如“一个红色气球在天空中”。

早期图像扩散模型常使用 U-Net。U-Net 的多尺度结构很适合图像：高分辨率细节和低分辨率语义可以通过 skip connection 结合。

二、DiT 的核心：latent patch token

DiT（Diffusion Transformer）把扩散过程放在 latent 空间中进行。图像先被编码成 latent 表示，再切成 patch token，送入 Transformer。Transformer 接收这些 token、时间步 embedding 和条件信息，输出去噪预测。

这个结构和 ViT 有连续性：图像不再是像素网格直接进入卷积网络，而是变成 token 序列。区别在于，ViT 常用于分类或表示学习，DiT 用于扩散去噪。

时间步很关键。扩散模型在不同噪声强度下要执行不同去噪任务。DiT 需要把 timestep 信息注入网络，让同一个 Transformer 知道当前处于哪一步。

三、为什么从 U-Net 转向 Transformer

U-Net 有强视觉归纳偏置，适合图像局部结构。Transformer 的优势是 scaling。DiT 论文显示，随着模型规模和计算增加，Transformer backbone 在扩散生成中也呈现良好的扩展趋势。

Transformer 还更容易统一不同模态和条件。文本、图像 patch、视频 patch 都可以被组织成 token。对于更复杂的生成任务，通用 token 处理框架有吸引力。

代价是计算成本。图像和视频 token 数量很大，full attention 很快变贵。DiT 的成功不意味着注意力成本消失，而是说明在足够工程优化和 latent 压缩下，Transformer 可以成为强大的生成 backbone。

四、conditioning 如何进入模型

扩散生成离不开条件。类别条件、文本条件、时间步条件都可以通过 embedding、cross-attention、adaptive normalization 等方式进入模型。

在 DiT 中，时间步和类别条件可以影响 Transformer block 的归一化和调制。文本到图像模型中，文本 encoder 输出也可以通过 cross-attention 或其他融合方式影响去噪。

条件设计决定了模型如何把“要生成什么”传给去噪网络。生成质量不只取决于 backbone，也取决于条件表示和训练数据。

五、视频生成中的时空 token

视频比图像更难，因为多了时间维度。一段视频可以被切成空间 patch 和时间片段，形成时空 token 序列。序列长度会迅速膨胀。

Sora 的公开材料强调了视频生成中的 patch 表示和大规模训练，但没有公开完整架构细节。因此严肃讨论只能基于公开信息：视频生成需要处理时空一致性、长时依赖、物体持久性和高昂计算成本。

Transformer 适合建模长距离关系，但视频 token 的数量也把 attention 成本推到极高。生成式视频会成为检验 Transformer 扩展能力的重要场景。

六、关键概念回顾

扩散模型：通过学习反向去噪过程生成样本。
U-Net：传统图像扩散常用的多尺度卷积 backbone。
DiT：用 Transformer 作为扩散去噪网络。
latent patch：在压缩 latent 空间中切 patch，降低 token 成本。
conditioning：类别、文本、时间步等控制生成结果的条件信息。

七、常见误解

7.1 “DiT 是 GPT 直接画图”

不是。DiT 是扩散模型中的 Transformer backbone，不是自回归文本模型直接输出像素。

7.2 “Transformer 替代 U-Net 后就没有视觉归纳偏置”

仍然有 patch、位置、latent、条件注入等设计。只是卷积式局部偏置减少了。

7.3 “Sora 的完整架构已经公开”

没有。只能讨论公开材料确认的思路，不能编造参数量、训练数据或完整结构。

八、下一步

模型最终要把内部分布变成用户看到的文本或图像。文本模型里，这一步叫解码。下一篇回到语言模型，讲从 logits 到文本的几种解码策略。

九、参考文献

Ho, J. et al. “Denoising Diffusion Probabilistic Models.” NeurIPS 2020.
Rombach, R. et al. “High-Resolution Image Synthesis with Latent Diffusion Models.” CVPR 2022.
Peebles, W. and Xie, S. “Scalable Diffusion Models with Transformers.” ICCV 2023.
OpenAI. “Video generation models as world simulators.” 2024.

← 上一篇：46｜多模态融合　|　下一篇：48｜从 logits 到文本 →

同主题继续阅读

把当前热点继续串成多页阅读，而不是停在单篇消费。

2026-04-15 · transformer