访问数:160
Stable Difussion 3
详细介绍 - Stable Difussion 3
论文简介
扩散模型通过将数据的正向路径反转为噪声来从噪声中创建数据,并已成为图像和视频等高维感知数据的强大生成建模技术。整流流是一种最新的生成模型公式,它将数据和噪声连接在一条直线上。尽管它具有更好的理论性质和概念上的简单性,但它还没有被确定为标准实践。在这项工作中,我们改进了现有的噪声采样技术,通过将整流流模型偏向感知相关的尺度来训练整流流模型。通过一项大规模的研究,我们证明了与已建立的高分辨率文本到图像合成的扩散公式相比,这种方法具有优越的性能。此外,我们提出了一种新的基于转换器的文本到图像生成架构,该架构对两种模式使用单独的权重,并实现图像和文本标记之间的双向信息流,提高了文本理解、排版和人类偏好评级。我们证明,该架构遵循可预测的缩放趋势,并通过各种指标和人工评估将较低的验证损失与改进的文本到图像合成相关联。我们最大的模型优于最先进的模型,我们将公开我们的实验数据、代码和模型权重。
Demo
其它
项目地址:stabilityai/stable-diffusion-3-medium · HF Mirror (hf-mirror.com)
论文地址:[2403.03206] Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (arxiv.org)
--文 by AixTong.com--