华为与高校合作推出WordGrow：单卡30分钟生成272m²场景

近日，华为携手上海交通大学和华中科技大学推出了世界模型WordGrow，这一创新技术能够在单张显卡上于30分钟内生成272平方米的超大室内场景。该模型不仅能生成1800平方米的场景，还能让虚拟人在其中顺畅导航，避免迷路。

WordGrow的推出标志着AI在3D场景生成领域的重大突破。与传统方法相比，WordGrow的生成场景具备连贯的几何拓扑和照片级真实感外观，而智能体的导航功能则能在复杂空间布局中自主规划路径。

WordGrow的技术创新

WordGrow通过三个核心技术实现了这一突破。首先是数据精准预处理技术，从大规模数据集中提取优质样本，并通过Blender执行场景切片，确保区块内容密度达到95%以上。同时，构建粗、细两个数据集，以确定宏观布局和保留纹理细节。

其次，3D块补全机制实现了无缝拼接。结构生成器首先确定3D结构框架，随后latent生成器重建结构化潜变量特征，确保外观风格统一。通过输入模型时的上下文信息，消除边缘断裂和纹理错位。

最后，粗到精生成策略将场景扩展变成补全缺失块的任务。通过粗结构模型确定整体规划，随后对其进行三线性插值上采样，再调用细结构生成器补全细节。

实验数据显示，WordGrow在3D-FRONT数据集上的几何重建指标MMD、COV均达到SOTA水平，FID低至7.52，优于SynCity、BlockFusion等主流方法。即便扩展到7×7块的超大场景，边缘质量仍然稳定。

“单张A100显卡，30分钟即可生成10×10区块（约272m²）的室内场景，速度是同类技术的6倍。”

这一性能表现不仅在生成速度上大幅领先，还在生成质量上保持了高水平。

该研究的主要作者为上海交通大学的李思匡和杨晨，他们在华为实习期间完成了这项研究。杨晨目前仍为华为研究实习生，专注于计算机视觉和计算机图形学，导师之一正是这项研究的通讯作者、AI专家田奇。

田奇现任华为终端BG首席科学家，国际欧亚科学院院士，ACM/IEEE Fellow。他表示，这项技术的推出不仅为3D场景生成提供了新的可能性，也为未来的智能家居、虚拟现实等领域带来了更多应用前景。

随着AI技术的不断进步，WordGrow的推出不仅展示了华为在技术研发上的实力，也为行业树立了新的标杆。未来，随着技术的进一步成熟和应用场景的扩展，WordGrow或将成为推动3D场景生成领域发展的重要力量。