腾讯旗下的混元文生图大模型宣布对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
混元文生图大模型是中文原生的 DiT(Diffusion Models with transformer)架构文生图开源模型,这也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术,是一种基于 Transformer 架构的扩散模型。过去,视觉生成扩散模型主要基于 U-Net 架构,但随着参数量的提升,基于 Transformer 架构的扩散模型展现出了更好的扩展性,有助于进一步提升模型的生成质量及效率。
官方网站表示,腾讯混元文生图模型具有以下优势:
更高质量的图像创作
采用更先进的深度学习技术,生成的图像具有高质量、高清晰度和高精美度的特点,画面内容在视觉上更具吸引力,满足各行业对高质量图像的需求。
更便捷的操作体验
支持输入词智能扩写功能,提供多样化的输入词模板参考和优化灵感,让生成图片的效果更精美、质量更稳定、细节更丰富,无需专业的图像处理技能和复杂的操作步骤,大大降低使用门槛。
更强大的中文语义理解能力
准确理解中文文本,并根据描述中的关键词和语义信息生成与之相匹配的图像,这使得在描述复杂场景或者特定要求时也能得到令人满意的图像结果。
更多样的绘画风格
既支持通过prompt高度自定义风格,也提供动漫、插画、水墨、写实等多样化的绘画风格选项供一键选择,也打造统一稳定的视觉效果。
更广泛的应用场景
具备更通用、更专业图像理解与创作能力,支持人物、风景、动物、建筑、LOGO等多种类型的图像内容生成,可广泛应用于创意营销、广告设计、游戏开发、影视制作等多个领域,帮助快速生成创意图像素材或灵感,提高工作效率和创作质量。