Transformer 不只生成文字。ViT 把图像变成 patch token,多模态模型把图像 token 接入语言模型,DiT 则进一步说明:在扩散模型里,Transformer 也可以作为去噪网络的 backbone。
这件事容易被误解成“GPT 直接画图”。事实不是这样。DiT 仍然属于扩散模型:从噪声逐步去噪,生成图像或 latent。Transformer 的角色是替代 U-Net,成为预测噪声或去噪目标的网络。
本篇能让你学会三件事:
- 扩散模型最小必要背景;
- DiT 如何把 latent patch token 输入 Transformer;
- 为什么视频生成让 Transformer 的长序列成本再次变成核心问题。
一、扩散模型最小背景
扩散模型的训练可以直觉理解为:先把真实样本逐步加噪,得到越来越接近纯噪声的样本;再训练模型学会反向去噪。生成时,从噪声开始,一步步去掉噪声,得到图像。
条件扩散模型还会接收文本、类别或其他条件。模型不仅要去噪,还要让结果符合条件,比如“一个红色气球在天空中”。
早期图像扩散模型常使用 U-Net。U-Net 的多尺度结构很适合图像:高分辨率细节和低分辨率语义可以通过 skip connection 结合。
二、DiT 的核心:latent patch token
DiT(Diffusion Transformer)把扩散过程放在 latent 空间中进行。图像先被编码成 latent 表示,再切成 patch token,送入 Transformer。Transformer 接收这些 token、时间步 embedding 和条件信息,输出去噪预测。
这个结构和 ViT 有连续性:图像不再是像素网格直接进入卷积网络,而是变成 token 序列。区别在于,ViT 常用于分类或表示学习,DiT 用于扩散去噪。
时间步很关键。扩散模型在不同噪声强度下要执行不同去噪任务。DiT 需要把 timestep 信息注入网络,让同一个 Transformer 知道当前处于哪一步。
三、为什么从 U-Net 转向 Transformer
U-Net 有强视觉归纳偏置,适合图像局部结构。Transformer 的优势是 scaling。DiT 论文显示,随着模型规模和计算增加,Transformer backbone 在扩散生成中也呈现良好的扩展趋势。
Transformer 还更容易统一不同模态和条件。文本、图像 patch、视频 patch 都可以被组织成 token。对于更复杂的生成任务,通用 token 处理框架有吸引力。
代价是计算成本。图像和视频 token 数量很大,full attention 很快变贵。DiT 的成功不意味着注意力成本消失,而是说明在足够工程优化和 latent 压缩下,Transformer 可以成为强大的生成 backbone。
四、conditioning 如何进入模型
扩散生成离不开条件。类别条件、文本条件、时间步条件都可以通过 embedding、cross-attention、adaptive normalization 等方式进入模型。
在 DiT 中,时间步和类别条件可以影响 Transformer block 的归一化和调制。文本到图像模型中,文本 encoder 输出也可以通过 cross-attention 或其他融合方式影响去噪。
条件设计决定了模型如何把“要生成什么”传给去噪网络。生成质量不只取决于 backbone,也取决于条件表示和训练数据。
五、视频生成中的时空 token
视频比图像更难,因为多了时间维度。一段视频可以被切成空间 patch 和时间片段,形成时空 token 序列。序列长度会迅速膨胀。
Sora 的公开材料强调了视频生成中的 patch 表示和大规模训练,但没有公开完整架构细节。因此严肃讨论只能基于公开信息:视频生成需要处理时空一致性、长时依赖、物体持久性和高昂计算成本。
Transformer 适合建模长距离关系,但视频 token 的数量也把 attention 成本推到极高。生成式视频会成为检验 Transformer 扩展能力的重要场景。
六、关键概念回顾
- 扩散模型:通过学习反向去噪过程生成样本。
- U-Net:传统图像扩散常用的多尺度卷积 backbone。
- DiT:用 Transformer 作为扩散去噪网络。
- latent patch:在压缩 latent 空间中切 patch,降低 token 成本。
- conditioning:类别、文本、时间步等控制生成结果的条件信息。
七、常见误解
7.1 “DiT 是 GPT 直接画图”
不是。DiT 是扩散模型中的 Transformer backbone,不是自回归文本模型直接输出像素。
7.2 “Transformer 替代 U-Net 后就没有视觉归纳偏置”
仍然有 patch、位置、latent、条件注入等设计。只是卷积式局部偏置减少了。
7.3 “Sora 的完整架构已经公开”
没有。只能讨论公开材料确认的思路,不能编造参数量、训练数据或完整结构。
八、下一步
模型最终要把内部分布变成用户看到的文本或图像。文本模型里,这一步叫解码。下一篇回到语言模型,讲从 logits 到文本的几种解码策略。
九、参考文献
- Ho, J. et al. “Denoising Diffusion Probabilistic Models.” NeurIPS 2020.
- Rombach, R. et al. “High-Resolution Image Synthesis with Latent Diffusion Models.” CVPR 2022.
- Peebles, W. and Xie, S. “Scalable Diffusion Models with Transformers.” ICCV 2023.
- OpenAI. “Video generation models as world simulators.” 2024.
← 上一篇:46|多模态融合 | 下一篇:48|从 logits 到文本 →
同主题继续阅读
把当前热点继续串成多页阅读,而不是停在单篇消费。
【Transformer 与注意力机制】38|GPT 系列:从 GPT-1 到 GPT-4 的路线演进
GPT 路线的关键不是某个模型名字,而是 Decoder-only Transformer、next-token prediction、规模扩展、上下文学习、指令微调和人类反馈逐步合流。本文从 GPT-1 讲到 GPT-4,只使用公开可确认信息,解释为什么自回归语言模型最终成为大语言模型时代的主线。
【Transformer 与注意力机制】39|T5:把所有 NLP 任务统一成 Text-to-Text
T5 的核心不是又发明了一种 Transformer,而是把翻译、摘要、分类、问答都改写成“输入文本到输出文本”的统一格式。本文解释 T5 为什么选择 Encoder-Decoder 架构,span corruption 和 BERT/GPT 的目标有什么差异,C4 和系统化消融实验为什么让 T5 成为迁移学习路线的重要基准。
【Transformer 与注意力机制】40|三大路线之争:为什么大模型几乎都是 Decoder-only
Transformer 不是只有一种形态。Encoder-only、Encoder-Decoder、Decoder-only 分别对应理解、条件生成和自回归生成三类信息流。本文横向比较 BERT、T5、GPT 代表的三条路线,解释为什么通用大模型时代 Decoder-only 占主流,以及为什么这不意味着另外两条路线失去价值。
【Transformer 与注意力机制】41|位置编码演进:Sinusoidal → Learned → RoPE → ALiBi
Transformer 本身没有递归和卷积,如果不注入位置信息,它只会看到一袋 token。本文从原始正弦位置编码讲到 learned embedding、相对位置、RoPE 和 ALiBi,解释位置编码为什么从“给 token 加坐标”演进到“让 attention 感知相对距离”,以及长上下文为什么让位置外推变成核心问题。