阿里发布Qwen-Image-2.0:图像生成新时代的到来

工具1个月前更新 小智
250 0

字节的图像生成模型刚发不到半天,阿里的新模型也来了!今天,阿里发布了新一代图像生成基础模型Qwen-Image 2.0,这一模型支持长达一千个token的超长指令、2k分辨率,并采用了更轻量的模型架构,模型尺寸远小于Qwen-Image 2.0的20B,带来更快的推理速度。

我们第一时间对阿里Qwen-Image 2.0、字节Seedream 5.0 Preview以及谷歌Nano Banana Pro三款模型进行了横向体验比较,发现Qwen-Image 2.0在长指令遵循、长文本渲染方面确实具有优势,但在图像生成的真实感上仍稍逊于Nano Banana Pro。

Qwen-Image 2.0的升级重点是文字渲染。在下方关于AB测试的官方案例中,文字的字体、排版、格式等都是由一则888个token(包含近千个中英文字词)的超长提示词精确定义的,而Qwen-Image 2.0可以做到不错的还原。

阿里发布Qwen-Image-2.0:图像生成新时代的到来

Qwen-Image 2.0还能用毛笔字渲染《兰亭集序》的全文,并且确保文字和画面的相对协调,文字没有遮挡画面的山水景色和人物。细看文字部分,虽然仍然可以找到一些渲染失败的文字,但是占比已经很低了。

阿里发布Qwen-Image-2.0:图像生成新时代的到来

Qwen-Image 2.0还支持一次性渲染属数十个子图,并保持其中主体的一致性。比如,下图就是Qwen-Image 2.0一次性生成的漫画,一共有24个画面,其中的人物、画风都较为连贯。

阿里发布Qwen-Image-2.0:图像生成新时代的到来

针对AI生图常见的“油腻感”问题,Qwen-Image 2.0也做了优化。与前一代模型相比,Qwen-Image 2.0的色彩不会过于饱和,观感更像实拍,AI味淡了一些。

阿里发布Qwen-Image-2.0:图像生成新时代的到来

▲从左到右:原图、Qwen-Image-2512、Qwen-Image 2.0

阿里在AI盲测平台AI Arena上对Qwen-Image 2.0进行了测试,数据显示,Qwen-Image 2.0在文生图和图生图基准中分别排名第三和第二,不过距离谷歌的Nano Banana Pro(图中为Gemini-3-Pro-Image-Preview)还有一定差距。此外,这一模型暂时还没有和刚发布的Seedream 5.0 Preview进行对比。

阿里发布Qwen-Image-2.0:图像生成新时代的到来

千问视觉生成负责人吴晨飞在采访中谈道,Qwen-Image项目2025年5月份项目才立项,去年8月份发布首款模型,此后主要围绕生图和编辑两个支线迭代模型,而Qwen-Image 2.0则把生图和编辑两个能力整合到了一个模型中。

阿里发布Qwen-Image-2.0:图像生成新时代的到来

目前,Qwen-Image 2.0已在阿里云百炼上已开通API邀测,用户也可通过Qwen Chat(chat.qwen.ai)免费体验新模型。千问App产品经理刘巍透露,这一模型后续将在千问App里上线。

阿里发布Qwen-Image-2.0:图像生成新时代的到来

会后,我们还与吴晨飞和千问大模型高级解决方案架构师熊撼天进行了沟通。

当我们问及Qwen-Image系列模型的未来规划时,吴晨飞称,如果用一个词作为Qwen-Image 2.0升级的核心,那就是“信息图”,而在未来一年,Qwen-Image团队会继续研究如PPT、多图海报、漫画等复杂“父图”的生成,进一步减少幻觉和错误。

此外,该团队还计划在此前发布的分层模型基础上,进一步强化模型的分层编辑能力,目标是让生成模型真正成为生产力工具。通过AI分图层,设计师可以灵活结合AI生成(如千问编辑特定层)与传统手段,或融合不同模型的专长,实现“分而治之”的复杂编辑流程。

一、阿里、字节、谷歌三款模型对决,Qwen-Image 2.0文字渲染能力突出

在超长提示词任务上,我们对Qwen-Image 2.0的官方超长提示词进行了微调,调整了部分元素的位置,看看Qwen-Image 2.0能否交付同样质量的生成结果。

提示词内容:

阿里发布Qwen-Image-2.0:图像生成新时代的到来

Qwen-Image 2.0的生成结果如下。可以看到模型还原了我们对图片布局、字体颜色的要求,内容也得到准确呈现,基本没有遗漏。

文章来源:智东西

© 版权声明

相关文章

暂无评论

none
暂无评论...