作为机器人感知世界时信息密度最高、与自然人机交互最契合的模态,视觉是解锁通用机器人智能、实现仿真到真实无缝迁移的核心密钥。
但当研究者们试图沿着这条路径向前探索时,却始终需要在“看得真”和“训得快”之间做艰难取舍:
高保真视觉渲染带来了巨大计算与内存开销;人工建模总是耗时耗力低效循环;现有平台的兼容性缺陷不断限制着创新边界,严重束缚了具身智能研究的想象力。
为了攻克这些制约具身智能领域发展的核心难题,清华大学智能产业研究院(AIR)DISCOVER Lab联合谋先飞技术、原力灵机、求之科技和地瓜机器人,提出了GS-Playground通用多模态仿真框架。
作为一套专为视觉中心的机器人学习打造的新一代仿真基础设施,GS-Playground首次实现了高吞吐量并行物理仿真与高保真视觉渲染的深度融合,在保证物理仿真所需的高精度与强稳定性的同时,提供了大规模视觉驱动策略训练与仿真到现实迁移所需的渲染效率与环境支撑。
该成果已被机器人领域国际顶级学术会议RSS 2026(Robotics: Science and Systems)录用。
GS-Playground设计之初,便定位于通用型全场景具身智能仿真平台,平台核心搭载了团队自研的跨平台并行物理引擎,原生支持CPU/GPU双后端与Windows/Linux/macOS全系统运行,可无缝适配全品类机器人形态,包括市面上常见的四足机器人、 全尺寸人形机器人、多自由度工业机械臂,全部实现开箱即用的原生适配,无需额外的二次开发工作。
在此基础上,平台全面覆盖机器人运动控制、自主导航、高接触精度操作三大核心任务场景。
在接口设计上,平台API全面兼容行业通用的MuJoCo MJCF格式,可实现现有仿真项目的零摩擦快速迁移,最大程度降低研究者的适配成本。
对于视觉中心的机器人学习而言,“看得真”只是第一步,真正决定策略能否迁移到真实世界的,是仿真系统能否在复杂接触、摩擦、碰撞与多刚体耦合中,持续给出稳定、可信的物理反馈。
针对这一核心瓶颈,GS-Playground从底层自研了一套高性能并行物理引擎,采用广义坐标下的速度-冲量动力学公式,将接触与摩擦统一建模为混合互补问题(MCP),并通过投影高斯-赛德尔(PGS)求解器实现稳定求解。
相比依赖软接触正则化的传统方式,这一设计更强调静摩擦保持、高刚度约束与大时间步稳定性,尤其适合足式运动、机械臂抓取和密集多体接触等高动态任务。
前者将彼此独立的刚体交互系统拆分为多个约束岛并行求解,后者利用上一帧已收敛的接触冲量作为当前帧初值,将稳定堆叠场景中的PGS迭代次数从50次以上降低到10次以内,大幅提升复杂接触场景下的收敛效率。
在Franka Panda动态抓取摇晃测试中,GS-Playground CPU后端在0.002s与0.01s两种时间步下,均实现90/90的完整保持成功率,显著优于MuJoCo、IsaacSim与Genesis等主流方案;
在27自由度人形机器人复杂多体交互基准中,当单环境扩展到50个机器人时,GS-Playground CPU后端仍能保持1015 FPS的稳定吞吐,相比MuJoCo实现32倍加速,相比MjWarp实现约600倍提升。
数千个高保真3DGS场景同时渲染带来的内存与算力挑战,一直是制约视觉驱动机器人大规模训练的核心卡点。
该策略可将高斯点数量减少90%以上,同时峰值信噪比(PSNR)下降幅度不足0.05,视觉差异几乎无法被视觉运动策略感知。
这一技术在大幅降低显存占用的同时,几乎无损地保留了场景的视觉质量,为大规模高保真并行仿真奠定了核心基础。
在此基础上,团队研发了面向批处理深度优化的批量3DGS渲染器,实现了多场景大规模高斯渲染的并行处理。
在单张NVIDIA RTX 4090 GPU上,渲染器在640×480分辨率下可实现最高10000 FPS的突破性吞吐量,最多可同时渲染2048个场景,不仅显著提升了单位算力的渲染效率,更能完美适配大批次强化学习的训练工作流,让大规模并行训练不再受限于渲染性能。
此外,团队还提出了刚性连杆高斯运动学(RLGK)机制,将3D高斯簇与物理引擎中的对应刚体进行精准绑定,确保视觉表征与物理对象的位姿能偶实时同步更新,实现了零额外开销的状态同步。
即便是在机器人快速运动、频繁接触交互的动态场景中,渲染器依然能够实现无伪影的动态画面输出,从根源上解决了动态场景中的渲染时间一致性与视觉伪影问题,保障了训练数据的稳定性与可靠性。
无论人工建模多么精细,却始终无法完全复刻真实环境的视觉细节与物理特性,感知与物理的双重鸿沟成为了制约sim-to-real跨域迁移的核心卡点。
针对这一行业痛点,GS-Playground设计了一套全自动化的“图像到物理”Real2Sim工作流,仅需输入单张RGB图像,即可在数分钟内完成仿真就绪(Sim-Ready)数字资产的全流程创建,实现了真实场景到数字孪生的快速转换,同时保证视觉真实感与物理一致性。
基于这套成熟的自动化工作流,团队还构建了Bridge-GS数据集,在Bridge-v2数据集的基础上,补充了场景与物体级的3DGS表征、物体级网格模型、6D位姿数据与校准后的相机参数,为行业提供了标准化的高质量仿真数据集。
同时团队在InteriorGS数据集上完成了完整的泛化性验证,充分证明了该管线对不同室内场景的强适配能力与泛化性能。
基于三大核心技术的深度协同,GS-Playground完整构建了从真实场景重建、大规模并行训练,到真机部署的全链路端到端闭环,真正实现了“重建即训练、训练即部署”的研发流程革新。
在策略训练与真机迁移的核心能力上,平台可稳定支持数千个并行环境同时运行,为四足机器人、人形机器人、工业机械臂等全品类机器人,提供大规模视觉强化学习训练支撑。
仅在GS-Playground仿真环境中完成训练的视觉驱动策略,无需任何额外的微调与适配,就能直接部署到真实机器人上稳定运行:
这一系列实验结果,充分证明了平台实现了真正无壁垒的仿真到真实迁移,也验证了其在打通具身智能感知与物理跨域鸿沟上的核心价值。
GS-Playground作为行业内首个实现高吞吐量并行物理仿真与高保真批量3DGS渲染深度融合的全栈仿真框架,从根源上突破了长期制约视觉驱动机器人学习的算力、显存与资产生成三大核心瓶颈。
全维度的实验验证也充分证明,平台在足式运动、自主导航、机器人操作等机器人主流任务中,能够同时弥合物理与感知层面的仿真到现实鸿沟,实现真正的零微调真机部署。
清华大学智能产业研究院DISCOVER Lab始终致力于推动具身智能领域的前沿研究与技术创新,我们将正式开源GS-Playground的全栈框架,提供一套高性能、易使用、高泛化性的核心基础设施,助力大规模端到端视觉驱动机器人策略学习的进一步发展与产业落地。
项目主页: https://gsplayground.github.io 论文链接: https://arxiv.org/abs/2604.25459 仓库链接: https://github.com/discoverse-dev/gs_playground
量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1