一年磨一剑，今年最炸机器人Demo来了！

刚刚，Genesis AI发布首个机器人基础模型GENE-26.5，让机器人能自主打鸡蛋，拧试管盖，弹钢琴，玩魔方，切番茄。

亮相后，前1x副总裁Eric Jang，宋舒然教授等业内大佬纷纷转发评论，表示赞叹。

GENE-26.5的demo大概是机器人领域今年到目前为止最值得认真看的，咱们来速通一下。

双手切番茄，一只手调整角度，另一只手下刀。毛巾、盐磨、打蛋器、刀、铲、煎锅轮番上阵。

此前不靠专用夹具完成魔方的标杆还是2019年OpenAI那只单手，Genesis称这是通用双臂系统的首次。

汽车产业的「圣杯任务」。双手操控柔性线缆打捆、挂架、缠胶带，公认最难的工业操控任务之一。

以上大多数复杂技能，GENE只需要不到1小时的任务专属机器人数据，不到200个episode。

值得一提的是，Genesis CEO周衔在接受Business Insider采访时表示：

烹饪大多数步骤成功率在90%到95%，但单手打蛋和用刀转移切好的番茄只有50%到60%。整体操作速度大约是人类的六七成。

Genesis博客里说了一句话把整个技术思路讲透了，操控不是一个纯模型训练问题，是一个系统问题。任何一层的短板都会传导到整个系统。

Genesis在demo中使用的灵巧手，20个可反向驱动的自由度，与人手1:1尺寸匹配，手掌和手指覆盖柔软材料模拟皮肤接触力学。

值得一提的是，不少业内人士指出这双手与国内灵巧手公司舞肌科技（Wuji Tech）的产品高度相似。

Genesis官方博客将其称为Genesis Hand 1.0，但未详细说明硬件来源。

回到手的尺寸上，为什么要做到与人手1:1，是因为机器人领域存在一个叫「具身差距」的老问题，人手和机械手形态不一样，人类动作数据就没法直接迁移到机器人上。

控制栈也一并重写。Genesis把机械臂供应商的出厂控制器整个换掉，自研中间件跑在PREEMPT_RT实时内核上，EtherCAT通信500Hz，端到端延迟最低压到3毫秒。

原厂控制器画一个15厘米的圆追踪误差20毫米，换上Genesis的控制器后降到2毫米，提升一个数量级。单关节追踪延迟从80毫秒降到9毫秒。

这层的意义在于，当训练数据来自人类动作而不是机器人遥操作时，控制系统的延迟和误差会在训练信号和实际执行之间制造鸿沟。延迟越低，人类数据就越好用。

机器人手和人手尺寸一致，手套记录的手指运动可以无损映射到机器人上，不需要复杂的重定向算法。硬件成本是传统方案的百分之一，采集效率是遥操作的五倍。

手套数据提供最高保真度的手部运动和触觉信号。第一人称视频捕捉自然行为和任务多样性。第三人称互联网视频提供海量覆盖。

三层数据在质量和规模上做了帕累托分布，Genesis和合作伙伴已经收集了超过20万小时的多模态数据。

Genesis总裁Gervet对TechCrunch说了一句有意思的话，这只手套可以让实验室技术员、制造业工人在干日常工作的时候顺便采集数据，不打断工作流。

当然TechCrunch也追问了一个尖锐的问题，工人会愿意戴着手套和摄像头来训练最终可能取代自己的机器人吗？

GENE-26.5的模型目标是学一个能同时吸收语言、视觉、本体感觉、触觉和动作的统一模型。用flow matching对轨迹建模联合分布，捕捉多模态的未来可能性。

第一，支持异构、部分可观测数据的可扩展训练，第一人称视频流、手套数据、机器人控制数据、互联网视频，不需要显式对齐就能一起训练。

第二，同一个模型处理所有任务，控制、状态估计、逆动力学、目标推断都变成对联合分布的条件查询，缺失的模态通过去噪推断。

第三，可以灵活吸收预训练模型的先验，VLM提供语义理解，世界模型提供时序和物理动态。

简单说就是一个模型吃所有模态的数据，做所有类型的任务。demo里展示的几个场景，除了钢琴演奏是单独用RL训练的之外，其余全部共享同一套权重。

Genesis团队在博客里放了三张scaling曲线，透露了训练recipe的关键信息。

预训练阶段，open-loop评估显示模型规模和计算量增加时验证损失持续下降，符合经典的scaling law。

但他们强调open-loop指标对机器人来说远远不够，关键是closed-loop表现，就是模型的动作会影响后续观测的闭环场景。

这里Genesis物理引擎的老本行就派上用场了。他们用最新版Genesis World仿真器做大规模闭环评估，不需要在仿真数据上做任何co-training，仿真环境的保真度已经足够直接评估真实世界训练的模型。

每个数据点对应200个评估设置和超过150小时的机器人执行时间，整张图如果在真实世界跑需要2700个人-机器人小时。结论是预训练数据量越大，zero-shot泛化能力越强。

到fine-tuning阶段回到真实世界。他们专门构造了预训练中完全没见过的新任务，在超低数据量条件下测试，每个任务只用20到30分钟的数据。

demo里展示的那些复杂技能，大多数只需要不到1小时的任务专属机器人数据，换算下来不到200个episode。预训练规模越大，fine-tuning也越快、数据需求越少、最终表现越好。

周衔对TechCrunch说，模型迭代速度的真正瓶颈是评估，仿真帮他们大幅加速了这个循环。

这款纯Python仿真平台比英伟达Isaac Gym快10到80倍，GitHub上迅速成为最大的具身智能开源项目，吸引了20多个研究机构参与。

2025年初，Genesis AI在法国注册成立，由周衔担任CEO，总裁是Théophile Gervet，同样来自CMU，曾在具身智能独角兽Skild AI任早期研究员，后加入Mistral AI做研究科学家。

成立几个月后，团队拿到1.05亿美元种子轮，Eclipse和Khosla Ventures领投，谷歌前CEO Eric Schmidt、法国电信大亨Xavier Niel个人参投，法国国家投资银行Bpifrance也在投资方名单里。

作为参考，此前具身智能赛道最大的种子轮是Physical Intelligence的7000万美元。

今天，GENE-26.5。模型、硬件、控制栈、仿真器，一次性全部亮相。团队从创始时的几个人扩展到60人，巴黎、加州、伦敦三地办公，欧美大约四六开。已经收集了超过20万小时的多模态数据，正在与多个行业客户洽谈合作。

周衔告诉TechCrunch，接下来很快会公布第一个通用机器人，全身的，不只是手。

[1]https://x.com/gs_ai_/status/2052050956272230577

[2]https://x.com/zhou_xian_/status/2052051823742312861

[3]https://www.aol.com/articles/look-hands-genesis-ai-says-130001205.html

[4]https://github.com/Genesis-Embodied-AI/genesis-world

[5]https://www.genesis.ai/blog/gene-26-5-advancing-robotic-manipulation-to-human-level

[6]https://techcrunch.com/2026/05/06/khosla-backed-robotics-startup-genesis-ai-has-gone-full-stack-demo-shows/

量子位 QbitAI