华为与高校合作推出WordGrow:单卡30分钟生成272m²场景
近日,华为携手上海交通大学和华中科技大学推出了世界模型WordGrow,这一创新技术能够在单张显卡上于30分钟内生成272平方米的超大室内场景。该模型不仅能生成1800平方米的场景,还能让虚拟人在其中顺畅导航,避免迷路。
WordGrow的推出标志着AI在3D场景生成领域的重大突破。与传统方法相比,WordGrow的生成场景具备连贯的几何拓扑和照片级真实感外观,而智能体的导航功能则能在复杂空间布局中自主规划路径。
WordGrow的技术创新
WordGrow通过三个核心技术实现了这一突破。首先是数据精准预处理技术,从大规模数据集中提取优质样本,并通过Blender执行场景切片,确保区块内容密度达到95%以上。同时,构建粗、细两个数据集,以确定宏观布局和保留纹理细节。
其次,3D块补全机制实现了无缝拼接。结构生成器首先确定3D结构框架,随后latent生成器重建结构化潜变量特征,确保外观风格统一。通过输入模型时的上下文信息,消除边缘断裂和纹理错位。
最后,粗到精生成策略将场景扩展变成补全缺失块的任务。通过粗结构模型确定整体规划,随后对其进行三线性插值上采样,再调用细结构生成器补全细节。
实验数据与性能表现
实验数据显示,WordGrow在3D-FRONT数据集上的几何重建指标MMD、COV均达到SOTA水平,FID低至7.52,优于SynCity、BlockFusion等主流方法。即便扩展到7×7块的超大场景,边缘质量仍然稳定。
“单张A100显卡,30分钟即可生成10×10区块(约272m²)的室内场景,速度是同类技术的6倍。”
这一性能表现不仅在生成速度上大幅领先,还在生成质量上保持了高水平。
研究团队与未来展望
该研究的主要作者为上海交通大学的李思匡和杨晨,他们在华为实习期间完成了这项研究。杨晨目前仍为华为研究实习生,专注于计算机视觉和计算机图形学,导师之一正是这项研究的通讯作者、AI专家田奇。
田奇现任华为终端BG首席科学家,国际欧亚科学院院士,ACM/IEEE Fellow。他表示,这项技术的推出不仅为3D场景生成提供了新的可能性,也为未来的智能家居、虚拟现实等领域带来了更多应用前景。
随着AI技术的不断进步,WordGrow的推出不仅展示了华为在技术研发上的实力,也为行业树立了新的标杆。未来,随着技术的进一步成熟和应用场景的扩展,WordGrow或将成为推动3D场景生成领域发展的重要力量。