
Gemma 3n
Google 推出的轻量级开源大语言模型,兼具高性能与易部署,适合本地开发和多场景应用。
MIDI(Multi-Instance Diffusion)是一种创新的3D场景生成工具,能够从单张图像生成包含多个实例的精确3D场景。它通过将预训练的图像到3D对象生成模型扩展为多实例扩散模型,并引入多实例注意力机制,在生成过程中直接捕捉对象间的交互和空间一致性。
项目官网:https://huanngzh.github.io/MIDI-Page/
Github仓库:https://github.com/VAST-AI-Research/MIDI-3D
HuggingFace模型库:https://huggingface.co/VAST-AI/MIDI-3D
arXiv技术论文:https://arxiv.org/pdf/2412.03558