【Transformer 与注意力机制】47|Diffusion + Transformer:DiT 与 Sora 为什么用 Transformer
扩散模型早期常用 U-Net 作为去噪网络,但当图像和视频被表示成 latent patch token 后,Transformer 也可以成为扩散模型 backbone。本文解释 DiT 如何把 latent patch、时间步和条件信息送入 Transformer,为什么它有更清晰的 scaling 行为,以及视频生成为什么把序列长度问题放大到极致。