发布首日下载量达 50 万,阿里通义详解最新 6B 小参数生图模型 Z-Image

抖音秀 热点资讯 1

11 月 28 日消息,今天下午,阿里通义大模型官方公众号发文称,最新发布的生图模型 Z-Image 上线后迅速登顶 Hugging Face 趋势榜双榜第一,模型发布首日下载量达 50 万。

官方今天发布的文章称,Z-Image 以 6B 参数的规模,实现了与参数量大一个数量级模型相媲美的照片级真实感。无论是皮肤质感、发丝细节,还是自然光影与材质纹理,都能精细还原,构图与氛围兼具美学表现。

此外,Z-Image-Turbo 能精准渲染中英文混合文本,即使在小字号、复杂排版或海报设计等高难度场景下,也能保持文字清晰、版式自然,同时不牺牲人脸真实感与整体画面美感,效果媲美当前领先的闭源模型。

附部分效果图如下:

同时,Z-Image 具备对现实世界的广泛认知,能准确生成著名地标(如埃菲尔铁塔、故宫)、知名人物及特定文化元素(如春节窗花、英式电话亭),确保画面在细节、比例与语境上符合真实常识。

通过提示词增强器(Prompt Enhancer),Z-Image 能处理“鸡兔同笼”逻辑题、古诗“小桥流水人家”可视化等复杂任务,让 AI 不只是“画图”,而是“理解后创作”。

Z-Image-Edit 可精准执行复合编辑指令,例如“让人物微笑 + 转头 + 背景换成樱花 + 添加中文标语”,并在大幅修改中保持身份、光照、风格的高度一致性,避免常见编辑模型的错位、失真问题。

通义此次发布了两个专用模型。

Z-Image-Turbo:作为 Z-Image 的蒸馏优化版本,仅需 8 步推理即可生成高质量图像,在照片级真实感和中英双语文本渲染上表现卓越。无论是日常创作、海报设计,还是快速原型生成,它都能在 16GB 显存显卡上流畅运行,做到“所想即所得”。

Z-Image-Edit:基于 Z-Image 持续训练的编辑专用模型,能精准响应复杂复合指令,同时修改表情、姿态、背景、文字等多项元素,并在大幅变动中保持身份一致、光照协调、风格统一,真正实现“逻辑可解释的智能编辑”。

Z-Image 在数据层面,构建了包含数据画像、跨模态向量引擎、世界知识图谱与主动标注系统的高效数据生态,用“对的数据”替代“多的数据”,从源头提升训练效率;架构层面:创新采用单流扩散 Transformer(S³-DiT),将文本、图像潜变量与时间步条件统一为单序列输入,实现跨模态早融合,显著提升参数利用率;训练层面:通过三阶段渐进式策略(低分辨率预训练 → 全任务泛化训练 → RLHF 对齐),系统性注入世界知识并精准对齐人类偏好;推理层面:基于上述基础,推出 Z-Image-Turbo,通过解耦式蒸馏与强化学习正则化,在仅 8 步推理下达成实时高质量生成,实现“高性能与普惠性”的统一。

各平台开源链接如下:

  • GitHub:https://github.com/Tongyi-MAI/Z-Image

  • Hugging Face:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

  • ModelScope:https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo