sora 标签归档 | 土法炼钢兴趣小组的算法知识备份

【Transformer 与注意力机制】47｜Diffusion + Transformer：DiT 与 Sora 为什么用 Transformer

2026-04-15 | transformer | #transformer #diffusion #dit #sora #video-generation

扩散模型早期常用 U-Net 作为去噪网络，但当图像和视频被表示成 latent patch token 后，Transformer 也可以成为扩散模型 backbone。本文解释 DiT 如何把 latent patch、时间步和条件信息送入 Transformer，为什么它有更清晰的 scaling 行为，以及视频生成为什么把序列长度问题放大到极致。