DiT简介
DiT(Diffusion Transformer)是一种基于Transformer的扩散模型技术,这种技术被用于构建Sora这样的技术产品。DiT的设计考虑了如何通过Transformer架构来处理视觉数据,特别是在处理噪声图像输入和额外的条件信息(如噪声时间步长、类标签、自然语言等)方面。DiT模型的训练过程不依赖于任何标注数据,而是利用掩码图像模型的无监督预训练方法,从而充分利用大量的无标签文档图像。此外,DiT还探索了四种transformer块变体,分别以不同方式处理条件输入。
论文地址:
https://arxiv.org/pdf/2212.09748.pdf
项目地址:
https://github.com/facebookresearch/DiT
论文主页:
https://www.wpeebles.com/DiT