Meta 推出 ViewDiff 模型：文本生成多视角 3D 图像

关注+2024-04-15作者：路西蓝

4月15日消息:Meta 与德国慕尼黑工业大学研发出创新模型 ViewDiff，旨在帮助用户通过文本、图像或二者结合使用，快速生成高质量多视角3D 图像。

该模型解决了传统文本生成多视角3D 图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。通过引入一种创新架构，ViewDiff 采用文生成图模型作为先验知识和图像流生成器，再通过显式的3D 建模为图像赋予一致性和多视角能力。

为了有效捕获3D 几何和全局风格，研究人员对原有 U-Net 架构进行了创新，增强了跨帧注意力层和投影层。跨帧注意力层替换了标准自注意力层，实现跨图像风格匹配;而投影层将多视图2D 特征集成为显式的3D 体素特征，保证了输出图像的3D 几何一致性。在此基础上，ViewDiff 还开发了自回归生成模块，使其能在任意视角上生成更多的3D 一致性图像，进一步提升了模型的生成能力。

该研究的推出填补了文本生成多视角3D 图像领域的技术空白，有望为游戏开发、元宇宙等行业提供更便捷、高效的模型构建方案。该模型的推出不仅在技术层面上具有重大意义，也将为未来的3D 图像生成领域带来更多创新可能。