PixArt-Σ - 基于扩散Transformer架构（DiT）的文生图模型

AI图片工具 AI图片工具 AI文生图

PixArt-Σ

PixArt-Σ是由华为诺亚方舟实验室、大连理工大学和香港大学的研究人员共同推出的一个基于扩散Transformer架构（DiT）的文生图模型。它专门设计用于从文本提示直接生成可达4K分辨率的……

链接直达手机查看

PixArt-Σ简介

PixArt-Σ是由华为诺亚方舟实验室、大连理工大学和香港大学的研究人员共同推出的一个基于扩散Transformer架构（DiT）的文生图模型。它专门设计用于从文本提示直接生成可达4K分辨率的高质量图像。

PixArt-Σ Github地址：https://pixart-alpha.github.io/PixArt-sigma-project/

高分辨率图像生成：PixArt-Σ能够直接生成高达3840 x 2560像素的超清大图，无需借助额外的放大器。这标志着它在图像保真度方面相比前代模型有了显著提升。

"弱到强训练"方法：通过一种新颖的"从弱到强的训练"方法，整合了更高质量的数据和高效的Token压缩，实现了高效的训练。这种方法不仅提高了模型的性能，还保持了较小的模型大小（0.6B参数）。

与文本提示的良好对齐：PixArt-Σ展现出了与文本 prompt细粒度对齐的卓越能力，这意味着它能够更好地理解和响应用户的文本提示，生成与之高度匹配的图像。

高效的训练效率：利用PixArt-α的基础预训练，PixArt-Σ通过纳入更高质量的数据，从"较弱"的基线进化到"更强"的模型，这一过程被称为"弱到强训练"。这种训练方式不仅提高了图像的质量，也提升了训练的效率。

支持多种模型和高级功能：PixArt-Σ支持多种模型，并内置控制网调节生成效果。此外，该模型还具有历史记录管理、标签提取等高级功能。

综上所述，PixArt-Σ是一个在图像生成领域具有革命性进步的模型，它通过高效的训练方法和先进的技术架构，实现了高质量、高分辨率的图像生成，同时保持了良好的文本提示对齐能力和高效的训练效率。

SuperCraft是一款集手绘草图、生成式AI技术和3D渲染于一体的设计工具，旨在帮助设计师们高效地将创意转化为实物产品。

AI绘画模型社区

AuraFlow AI 是一个开源的大型基于流的文本到图像生成模型。

Magic Clothing是一个基于AI技术开发的换装产品，它利用潜在扩散模型（LDM）构建了一个新型网络架构，专注于处理服装驱动的图像合成任务。

Hyper-SD是由字节跳动推出的一个基于扩散模型蒸馏的图像生成框架。

EasyDiffusion Online是一款基于人工智能技术的在线绘图工具，旨在通过先进的算法和用户友好的界面，简化并加速图像生成过程。