CogView4是什么
CogView4是智谱AI最新发布的开源文生图模型,标志着在AI图像生成领域的又一重大突破。该模型不仅支持中英双语提示词输入,还具备强大的复杂语义对齐和指令跟随能力,能够生成高质量、高分辨率的图像,并在画面中精准融入汉字,极大拓展了AI生成内容的应用场景。CogView4在DPG-Bench基准测试中综合评分排名第一,成为当前开源文生图模型的SOTA(最先进的)。
CogView4主要功能
- 支持中英双语提示词输入:CogView4的文本编码器升级为GLM-4,全面支持中英文输入,打破了此前开源模型仅支持英文的局限,使得中文内容创作者能够更直接、更准确地描述自己的创意需求。
- 生成高质量图像:CogView4采用先进的扩散模型和参数化线性动态噪声规划,结合混合分辨率训练技术,能够生成高质量、高分辨率的图像,满足用户在不同场景下的需求。
- 任意长度提示词支持:该模型摒弃了传统的固定长度设计,采用动态文本长度方案,支持任意长度的提示词输入,使得用户能够更自由地表达自己的创意。
- 强大的文字生成能力:CogView4是首个能在画面中生成汉字的开源文生图模型,能够在生成的图像中精准融入汉字,为广告、短视频、创意设计等领域提供了更多的可能性。
CogView4技术原理
- 文本编码器升级:CogView4将文本编码器从纯英文的T5 encoder升级为具备双语能力的GLM-4 encoder,使得模型能够支持中英双语输入。
- 混合分辨率训练:模型采用混合分辨率训练技术,结合二维旋转位置编码和内插位置表示,适应不同尺寸需求,支持生成任意分辨率的图像。
- 扩散生成建模:CogView4基于Flow-matching扩散模型和参数化的线性动态噪声规划进行图像生成,以适应不同分辨率图像的信噪比需求,进一步提升生成图像的质量和多样性。
- 多阶段训练策略:模型采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练,确保生成的图像具有高美感并符合人类偏好。
CogView4使用场景
- 广告设计:CogView4能够根据创意描述生成高质量的海报、广告图等,满足广告设计的多样化需求。
- 短视频制作:对于短视频创作者来说,CogView4可以根据脚本或创意描述生成相应的画面,提高短视频的制作效率和质量。
- 艺术创作:艺术家和设计师可以利用CogView4生成具有特定风格和意境的图像,激发创作灵感,辅助艺术作品的创作。
- 教育领域:教师可以利用CogView4生成与教学内容相关的图像,如古诗文的意境图、历史事件的场景图等,增强教学的趣味性和直观性。
- 游戏开发:游戏开发者可以根据游戏剧情和角色设定,利用CogView4生成相应的游戏画面和角色形象,提高游戏开发的效率和质量。
CogView4项目地址
GitHub项目地址:https://github.com/THUDM/CogView4
HuggingFace体验地址:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4