

在机器人训练与仿真领域,高质量环境构建曾是长期困扰开发者的瓶颈 —— 传统流程往往需要数周时间,且对专业技能要求极高。而这款由 AI 先驱李飞飞创办的 World Labs 推出的 Marble 工具,凭借先进的世界模型与高斯 splatting 技术,彻底改变了这一现状。它以文本和图像为核心输入,能在几分钟内生成可直接用于 Isaac Sim 的高保真合成环境,既不牺牲真实感与规模,又极大提升了开发效率,成为机器人仿真环境构建的革命性解决方案。

核心定位:世界模型驱动的快速合成环境生成
Marble 的核心优势在于其基于世界模型的推理能力,不同于传统 3D 建模工具的手动操作,它能通过解析多模态输入,自动生成结构化的高斯 splat 场景。这种场景并非简单的静态画面,而是具备空间深度与视觉真实性的 3D 环境,可直接用于机器人训练、任务验证等实际场景。其核心价值在于解决了传统环境构建的 “耗时痛点”,让开发者从繁琐的手动建模中解放,聚焦于机器人算法与任务设计。
多模态输入:文本与图像的灵活组合
Marble 支持多种输入方式,可根据不同场景需求灵活选择,且操作门槛极低,无需专业建模知识。
文本输入:只需提供详细的场景描述,工具就能精准还原核心特征。例如输入 “带有绿色橱柜和木质地板的现代化厨房,包含料理台、冰箱和餐椅”,描述越具体,生成结果越贴合预期。若描述过于简略,工具会基于通用认知进行合理补充,但可能存在一定的 interpretation 差异。

图像输入:支持单图、多图(最多 8 张)、360° 全景图及视频多种形式。单图输入适合提供基础视觉参考,工具会以此为蓝本扩展完整场景;多图输入(如东、南、西、北四个方位的照片)能提升场景完整性,尤其适合还原真实空间;360° 全景图是最便捷的完整场景输入方式,即使没有专业 360 相机,用手机原地旋转拍摄视频也能实现场景识别。

多模态融合:可结合文本与图像输入,例如用 360° 全景图确定空间布局,再通过文本指令调整风格、添加细节,实现 “基础框架 + 个性化优化” 的高效创作。
生成与优化:快速迭代 + 灵活编辑
Marble 的生成流程高效且灵活,从输入到输出仅需几分钟,完全在浏览器中完成,无需复杂安装。

生成后的场景支持多样化优化操作:通过 “生成式扩展” 功能,可针对空白区域或缺失部分,用文本或图像补充描述,实现场景扩容,甚至能逐步还原相邻房间,构建更大规模的环境;也可进行主题编辑,在保留原有布局和光照的基础上,修改场景美学风格,快速生成多个变体,满足机器人训练所需的环境多样性需求。
值得注意的是,Marble 生成的场景被称为 “数字近亲”—— 它不会 1:1 复刻真实空间,而是基于输入生成风格相似、结构合理的合成环境。这种特性使其特别适合机器人训练场景,无需绝对精准的复刻,只需保证环境的多样性与真实性即可。
导出与适配:无缝对接仿真平台
生成完成后,Marble 会输出 PLY 和 GB 格式文件,通过 Nvidia 开源工具 3D Grutt,仅需一行代码即可将其转换为 USDZ 格式,全程操作简单高效。转换后的文件可直接拖拽至 Isaac Sim 等仿真平台,无需额外适配。

在实际应用中,开发者可进一步优化场景:删除高斯 splat 中的默认资产,替换为 Lightwheel 等提供的具备物理属性的仿真资产(如精确建模了开门力曲线的冰箱、可变形的布料等),让合成环境不仅视觉真实,还能满足机器人交互的物理需求,直接用于拾取、折叠等任务训练。
优势与适用场景:聚焦快速迭代与规模生成
Marble 的核心优势集中在 “速度” 与 “多样性”:支持一天内生成数千个场景变体,适合大规模机器人训练数据集构建;无需专业硬件,普通智能手机即可完成图像采集,降低了开发成本。其 API beta 版已上线,开发者可基于此构建自定义应用,例如结合 360 图像采集 APP,批量生成专属环境库。

不过需要注意的是,Marble 并非为精确复刻场景设计 —— 其几何精度存在一定局限,例如复杂空间(如厨房中岛)可能出现重建缺口,不适合需要 1:1 还原真实场景的需求。它更适合追求快速迭代、大规模环境覆盖的场景,如机器人通用任务训练、多场景适配验证等。
总结:机器人仿真环境构建的效率革命
Marble 工具以文本和图像为桥梁,将世界模型与高斯 splatting 技术深度结合,打破了传统 3D 环境构建的效率瓶颈。它无需专业技能、生成速度快、适配性强,能为机器人训练提供海量多样化的高保真合成环境,极大推动了机器人视觉语言动作模型(VLA)的训练与落地。无论是初创团队的快速原型验证,还是大型企业的规模化训练需求,Marble 都能成为核心工具,加速机器人技术从实验室走向实际应用的进程。