
CogView4
智谱AI发布的开源文生图模型,支持中英双语输入,能生成高质量图像且首个能在画面中生成汉字,广泛应用于广告、短视频、艺术创作等领域。
MIDI(Multi-Instance Diffusion)是一种创新的3D场景生成工具,能够从单张图像生成包含多个实例的精确3D场景。它通过将预训练的图像到3D对象生成模型扩展为多实例扩散模型,并引入多实例注意力机制,在生成过程中直接捕捉对象间的交互和空间一致性。
项目官网:https://huanngzh.github.io/MIDI-Page/
Github仓库:https://github.com/VAST-AI-Research/MIDI-3D
HuggingFace模型库:https://huggingface.co/VAST-AI/MIDI-3D
arXiv技术论文:https://arxiv.org/pdf/2412.03558