群论领域几十年无解的第21.10号问题,被牛津数学家Marc Lackenby用谷歌一个新系统破解了。
这套人机协作的系统,就是谷歌DeepMind最新发布的「AI Co-Mathematician」(AI联合数学家)。
它在最难的数学AI基准FrontierMath Tier 4上拿了48%,刷新SOTA。
甚至超过了GPT-5.5 Pro(39.6%)和GPT-5.4 Pro(37.5%)。
数学家上传一篇论文、提出一个研究方向后,协调者不会立刻输出答案,而是先和用户对话,像真正的合作者一样帮对方精炼问题。
之后它将任务分发到多条并行工作流:一条做文献检索,一条搭计算框架,一条尝试证明策略。
每条工作流都有自己的协调Agent,异步运行,互不阻塞。用户随时能介入、引导、接管。
「AI联合数学家」会持久化追踪每一条死胡同、每一个被否定的假设、每一次审稿Agent发现的漏洞。这些「负空间」不会被丢弃,而是成为后续探索的上下文。
它的产出物也不是一段聊天记录或一篇未经验证的草稿,而是带margin注释和来源溯源的LaTeX文档——完全契合数学家社群的工作习惯。
软件工程领域已经有了Claude Code、Cursor这类AI编码环境,它们提供了持续迭代、版本控制、测试验证的完整工作流。
但数学家此前一直缺少一个等价的编排层。
AlphaEvolve更像一个自主搜索引擎:你把问题扔进去,它进化出一个更好的算法,人基本不在循环里。
而「AI联合数学家」要求数学家始终在回路中,系统在最适合的时机向人类提问,而不是替人类做完整件事。
刷新了最难的数学AI基准FrontierMath Tier 4的SOTA,拿了48%的准确率。
FrontierMath是Epoch AI开发的数学benchmark,包含350道原创高难度题,覆盖现代数学各大分支。
其中Tier 4仅50题,被Epoch AI描述为「其中一些问题可能数十年内AI都无法攻克」,人类专家解决一道通常需要数天。
GPT-5.5 Pro此前在Tier 4拿到39.6%,GPT-5.4 Pro是37.5%,Claude Opus 4.6/4.7则双双落在22.9%。
值得注意的是,它的底层基座模型Gemini 3.1 Pro,单独做这个测试只拿到了19%。
从19%到48%,这29个百分点的跳跃完全来自系统层面的编排——并行调查分支、强制审查循环、文献检索工具、持久化代码执行基础设施。
牛津大学数学家Marc Lackenby解决了Kourovka Notebook第21.10号问题(群论)。
审稿Agent先发现了AI初稿里的一个漏洞,Lackenby意识到自己知道怎么填补这个缺口,最后论文诞生。
数学家Semon Rezchikov在哈密顿系统中,向系统抛出一个技术性子问题,收到了一个关键引理。
他的评价是「其他AI系统在同一个prompt上全部失败」,且从美学上看这是他用过所有模型里证明风格最好的。
还有Gergely Bérczi,获得了关于Stirling系数对称幂表示的猜想证明。
第一种叫「讨好审稿人偏差」:Agent会不断改写有缺陷的论证,直到AI审稿人不再能发现错误——但漏洞其实还在。
第二种是「死亡螺旋」:当迭代评审过程未能达成共识时,Agent们会陷入无限审稿循环,推理逐渐退化为幻觉。
另外还有一个结构性问题:当AI能在几分钟内生成一篇20页的证明草稿,人类同行评审仍需要数天,这对于依赖志愿者的学术评审体系会形成系统性压力。
而且AI虽然很擅长进行逻辑核验,发现代数错误或找出缺失的引用文献,但它们依然缺乏判断一篇论文的优雅性、深度或真正数学价值所需的整体直觉。
48%的得分是在特殊条件下取得的——每题给了48小时、没有token限制、使用团队自己的基础设施。这与Epoch AI标准评估框架不完全可比。
第一作者兼通讯作者Daniel Zheng,Google DeepMind研究工程师,研究方向是编程语言与机器学习的交叉。
2024年AlphaProof拿到IMO银牌那个项目里,他和Alex Davies共同主导了非正式系统(包括最终答案判定模块)的开发。
Alex Davies,同样是从AlphaProof到AlphaEvolve再到AI联合数学家的连续参与者,是这条技术路线最重要的连接者之一。
通讯作者Pushmeet Kohli,Google DeepMind科学副总裁兼Google Cloud首席科学家,主导了AlphaFold(诺奖级成果)、AlphaProof、AlphaEvolve等一系列系统。
另一位通讯作者Daniel M. Roy,多伦多大学统计系教授,研究横跨机器学习、数理统计和理论计算机科学。
2025年底从加拿大Vector Institute研究主任卸任,2026年1月以访问研究员身份加入DeepMind伦敦。三个学位均来自MIT。
Fernanda Viégas和Martin Wattenberg则是PAIR(People+AI Research)团队的共同创始人,同时也是哈佛计算机科学教授,专注AI可解释性与人机交互。
他们负责AI联合数学家的用户交互与界面层——这也解释了为什么这个系统在「如何让数学家愿意用它」上花了相当多的心思。
值得注意的是,数学家Marc Lackenby并不是临时找来测试的「外部数学家」。
在其牛津主页的论文列表里,可以追溯到2021年,Lackenby就已经与Zheng、Davies等人合作发表过Nature论文。他是DeepMind数学AI团队的长期合作者。
2024年,AlphaProof用强化学习做形式化数学推理,在IMO拿到银牌水准。
2025年,Gemini Deep Think在当年IMO达到金牌水准,六道题答对五道。
AlphaEvolve则是另一条线,自主发现新算法,在50多个开放数学问题上改进了20%的已知最优解。
「AI联合数学家」和这几个系统定位不同,不是更强的问题求解器,更倾向于面向研究者日常工作流的协作工具。
AlphaEvolve适合「给我一个更好的算法」,「AI联合数学家」则适合「陪我研究这个方向几个星期」。
目前「AI联合数学家」还在限量发布阶段,Pushmeet Kohli的表述是,目标是未来开发产品向更广泛的用户开放这个范式。
参考链接:
[1]https://x.com/pushmeet/status/2052812585804685322
[2]https://x.com/kimmonismus/status/2052849472586264997
量子位 QbitAI