不好！1930年的AI都来抢程序员饭碗了

过程比想象中轻松，仅用250个训练样本，强悍的老头便解决了自己人生中的第一个编程问题——

一个连电视机都没见过的AI，现在也开始跟Claude们「学坏」，要跟程序员抢饭碗了。（bushi）

操盘手是AI研究员Nick Levine、多伦多大学副教授David Duvenaud，以及大家熟悉的那位——真·GPT系列之父Alec Radford。

而他们对老头最有趣的设计，就是其训练数据有条铁律：1931年1月1日之后的任何一个字，全部不准进！

但让全网「瘫软」的点在于，就这么个老古董，当扔给它一道Python编程题时，这个跨越近百年的「过去之灵」，竟然写出了人生第一行Python代码。

有人对Alec Radford的这个1930 vintage LLM做了微调，让它去解SWE-bench上的真实软件工程问题。

当微调时的训练数据规模扩展到大约75K条trajectory，也就是10亿token的时候，模型在SWE-bench-Verified上达到了4.5%的pass@1。

要知道，它原来在HumanEval上才4%的pass@100。这进步幅度相当可观。

事实上，团队还同时给老头训练了一个兄弟模型，叫talkie-web，这个模型是在互联网数据上预训练的。

同样的微调配方，talkie-web在SWE-bench-Verified上的成绩是5.5%的。

这不是什么穿越爽文，团队已经在GitHub上开源了项目，链接放在文章结尾，感兴趣的朋友可以去跑跑看。

如果你手头有更多算力，我们很想看到1930模型和互联网模型在后训练持续扩展时的完整scaling曲线对比。

团队并没有剖析背后的原因，但我看了不少网友在帖子下面的评论，觉得这是一个值得讨论的话题。

4.5%的pass@1，放在今天的SOTA面前当然不够看。但它证明的那件事，比任何benchmark分数都重要。

或许，当我们在Scaling路上一路狂奔的间隙，也可以稍微停一停，抬起头来跟身边人侃侃大山、扯扯淡——

GitHub：https://github.com/RicardoDominguez/talkie-coder

参考链接：[1] https://x.com/rdolmedo_/status/2050665193374732430?s=20[2] https://github.com/RicardoDominguez/talkie-coder

量子位 QbitAI