在硅谷，中美具身公司聊了聊了4个问题的解法

阿菜cabbage·2026年05月02日 21:01机器人进入真实世界，越早越好。

文｜周鑫雨

编辑｜杨轩

规模化落地，今年的具身公司都在谈这个。

数字竞速，不约而同出现在具身公司的产线、招股书、出货量上——2026年4月以来，智元机器人宣布第1万台机器人量产下线，5000到10000，只用了三个多月；宇树科技的IPO招股书也摊开了激进商业化的一角：2025年营收17.07亿元，出货量超过5500台。

激进的数字背后，是“低价、高性能”的中国机器人在全球的扩张。宇树科技创始人王兴兴曾在2025年世界机器人大会上提到，过去几年，宇树的海外营收一直占总营收的50%以上。

在这些具身玩家中，魔法原子MagicLab近期提出了一个相当激进的营收目标：2036年，要实现140亿美元的营收规模。

在全球范围内打响品牌，也让这家公司，将发布会开进了硅谷。美西时间2026年4月28日，在云集Adobe、TikTok、IBM等公司的圣何塞，魔法原子发起了全球具身智能创新大会（GEIS）。

在硅谷，中美具身公司聊了聊了4个问题的解法

魔法原子机器人MagicBot Z1现场给张艺兴表演。作者拍摄

在会上，魔法原子发布了从底层模型本体的一系列新产品：

世界模型Magic-Mix：魔法原子自研的“自主进化模型”。Magix-Mix由两个引擎构成：让机器人学会理解真实世界的Magic-WAM，以及可以离线生成大批量许年数据的Magic-Creator——这意味着，Mix可以在“数据生成-模型训练-真实世界反馈-数据在生成”的闭环中持续自主迭代。

在硅谷，中美具身公司聊了聊了4个问题的解法

Magic-Mix架构。图源：魔法原子

灵巧手MagicHand H01：搭载了20 DOF（自由度，人手约24-27 DOF）和44个高分辨率三维触觉传感器，主打工业制造、服务护理等场景的精细操作。

在硅谷，中美具身公司聊了聊了4个问题的解法

MagicHand H01。图源：魔法原子

人形机器人MagicBot X1：一款身高180cm、体重70kg、全身搭载31个主动DOF、极限关节扭矩达450N·m的机器人。基于无限续航双电系统，X1可以7*24连续作业。产品分为标准版和科研版，前者商业部署效率高、开箱即用，后者则面向高校、实验室、开发者和产业伙伴，支持底层二次开发和外形定制。

在硅谷，中美具身公司聊了聊了4个问题的解法

MagicBot X1。图源：魔法原子

在会上，Openmind、PrismaX、Chestnut Roborics等来自硅谷的具身大脑和本体公司，也出现在现场。有关大脑、本体、数据的解决方案，这些公司给出了不同的解决思路。

以下是《智能涌现》关于现场讨论的整理：

用机器合成数据训练，效果会比真实世界数据更好吗？

高质量数据的稀缺，一直是掣肘具身模型训练的瓶颈。当前真机数据采集一直存在成本高、周期长、场景覆盖等问题。

机器合成数据，就是解决方案之一。然而，合成数据的局限性在于真实信息的缺失，比如摩擦系数、延迟、触觉反馈等。这也造成业界对“sim-to-real-gap”的担忧。

混合数据训练，是当下中美具身智能企业提出的主流解决方案。比如，魔法原子总裁顾诗韬介绍，魔法原子日均采集约16000条数据，再通过数据合成实现1万倍的体量扩展。她提到，由于产品迭代快、60%-70%的工序依赖人工，新能源汽车制造业，是数据采集的富矿。

判断使用真实数据，还是机器合成数据，行业的共识是：基于具体训练目的和应用场景。

亚马逊前沿AI与机器人研究院科学家Haozhi Qi提到，合成数据适用于让机器学习单一的反应基本技能，但难以让机器获得类似于做早餐之类的长程技能。此时，引入真实数据训练是有必要的，因为构建一个足够丰富的模拟环境，成本很高。

英伟达GEAR Lab高级研究科学家Zhengyi Luo则透露，团队目前采用50%的模拟数据，用于基础训练；15%的动捕数据、25%的互联网视频数据，用于理解人类的动作；同时，训练还会添加10%的高质量真实世界数据。他还提到，有些公司甚至会使用社交媒体上的数据，来指导机器人的本体设计。

VLA（视觉-语言-行动）是具身“大脑”最好的解决方案吗？

由于强大的任务泛化能力，当下VLA已经成为具身模型最主流的架构范式。

但事实上，当人类用手指旋转一个篮球时，只用依靠触觉和本体感知，并不需要视觉——这意味着，VLA在这两个感知系统上，存在短板。

在GEIS大会上，亚马逊前沿AI与机器人研究院科学家Haozhi Qi认为，VLA的流行，与硬件传感器的发展程度有关：当下，视觉传感器趋于成熟，但触觉传感器还在初级开发阶段。

因此，在他看来，具身系统需要通过其他感觉的输入，来补足不太成熟的传感系统，从而维持本体的操作。因此，通过视觉和语言补足触觉缺陷的VLA，成了当下最好的解决方案之一。不过，未来随着传感器和硬件层面的发展，算法也会随之迭代。

灵巧手的三大路线之争：连杆、腱绳与直驱

当下，有关灵巧手设计的核心迷思是：要不要像人手？围绕这一命题，诞生了连杆、腱绳、直驱三种设计方案。

其中，“连杆”最不像人手，但胜在成本低、易于控制；“腱绳”最像人手，可以做精细化操作，但成本高、控制难。“直驱”则是一种折中方案，将驱动单元直接集成在每个关节上，但成本不低，同时力传导效率和热管理上仍然面临工程层面的挑战。

混合架构路线，则是近期兴起的灵巧手技术解决方案。Chestnut Robotics创始人、前Tesla Optimus灵巧手核心成员Evan Tao介绍，当下团队已经选择了混合架构路线，以可以完成精细化操作的腱绳结构为主，辅以AI控制和自主学习系统。未来的方案，“都会在灵活度和工程可靠性之间寻求平衡。”他提到。

机器人如何真正规模化落地？

在数据层，引入真实世界数据，依然被认为是让机器人真正理解应用场景、学习复杂任务操作的关键。

比如，XGSynBot CEO Zizheng Li提到，他们采取的混合数据策略，依然引入了少量高质真实世界数据，控制成本的同时，也能提升模型能力和泛化水平。

在系统层，XGSynBot CEO Zizheng Li认为，机器人需要从“单一功能设备”向“多任务通用平台”演进，比如XGSynBot的机械臂，带有6个Quick-chage的模块化系统，这样做的好处是，一台机器人可以在不同工序间灵活切换，提高落地场景的广泛性。

最后，OpenMind创始人、斯坦福大学生物工程副教授Jan Liphardt总结：机器人进入真实世界，越早越好。

他发现，实验室环境无法模拟所有复杂的现实场景，比如过亮的光线、泥泞潮湿的地面、生锈的门铰链、多个系统同时运行的负载——这些复杂的真实场景，往往导致机器人在离开实验室后，出现系统故障。

因此，机器人落地前，不应该仅仅待在实验室中。Jan Liphardt建议，尽早让机器人在家庭、学校、机场、幼儿园和其他公共场景的实际部署中，收集交互数据，持续迭代。

本文由「阿菜cabbage」原创出品，转载或内容合作请点击转载说明；违规转载必究。

寻求报道

本文图片来自：企业授权

+117

好文章，需要你的鼓励

新锐作者0收藏+11评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部举报参与评论评论千万条，友善第一条登录后参与讨论提交评论0/1000你可能也喜欢这些文章卓驭于贝贝：向物理AI转型，是生存法则的必然选择 | 最前线从扫地机到火箭车，追觅在硅谷造了一场“瞬息全宇宙”最前线｜未来宇航发布FX锋行系列空间飞行器，切入卫星组网部署与在轨服务市场搭载华为智驾，奥迪「6系」电车上市，售价30.98万元起｜最前线最前线｜爱芯元智仇肖莘：大算力芯片将成为企业明年的主要增长引擎未岚大陆第100万台智能割草机器人下线，马来西亚产线已完成、全面启动生产｜最前线最前线｜2025年全年营收超64亿，海康机器人表示将继续推进AI融合与具身智能布局最前线｜AI+激光通信，中科天塔要用「太空智驾」体系实现卫星管理模式的三级跨越最前线｜AI收入破亿后的路径选择：微盟推行AI First战略与B端交付的挑战

新锐作者

人工智能等前沿科技摸石者，zxycai728

发表文章308篇

在硅谷，中美具身公司聊了聊了4个问题的解法

在硅谷，中美具身公司聊了聊了4个问题的解法

用机器合成数据训练，效果会比真实世界数据更好吗？

VLA（视觉-语言-行动）是具身“大脑”最好的解决方案吗？

灵巧手的三大路线之争：连杆、腱绳与直驱

机器人如何真正规模化落地？

最近内容

下一篇