ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠统计方法遭质疑

2026年05月06日 20:23 次阅读稿源：cnBeta.COM 条评论 ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠统计方法遭质疑

一项在学术界和社交媒体上被广泛引用、曾被视为证明 ChatGPT 明显提升学生学习效果的重要研究，近日被出版方正式撤稿，理由是论文在元分析过程中存在多处“差异”和方法问题，导致结论可靠性遭到严重削弱。

这篇由 Springer Nature 旗下期刊《Humanities & Social Sciences Communications》于 2025 年 5 月发表的论文，试图整合 51 项研究结果，评估学生在使用与不使用 ChatGPT 情况下的学习表现差异。论文声称，使用 ChatGPT 对“提升学习成绩”有“显著正向影响”，对“改善学习感知”有中度正向影响，并能“促进高阶思维能力”。

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠统计方法遭质疑

这项研究发表后迅速在学术与公众舆论中“出圈”。在 Springer Nature 体系内，它已被引用 262 次，整体引用次数超过 500 次，阅读量接近 50 万。凭借在社交媒体上的持续传播，这篇论文在期刊文章中的关注度位列前百分位，被不少人当作“第一批关于 ChatGPT 有利于学习的硬证据”来引用和转述。然而，在论文影响力迅速扩散的同时，质疑声也开始累积，最终促成了此次撤稿。

爱丁堡大学数字教育研究中心与 Edinburgh Futures Institute 高级讲师本·威廉姆森（Ben Williamson）指出，作者给出的结论极具“吸睛”效果，宣称 ChatGPT 能显著改善学习结果，因此被社交媒体广泛当成“金标准”证据来传播。他批评这项元分析在整合原始研究时方法令人担忧：一方面，它似乎纳入了“质量非常低”的研究，另一方面，还把在方法、研究对象、样本等方面差异巨大、根本不可直接比较的研究结果硬性拼在一起。在接受 Ars Technica 采访时，威廉姆森直言，这看起来是一篇“本不应该被发表”的论文。

时间维度上的矛盾也引发了学界的警惕。 ChatGPT 在 2022 年底才向公众开放，留给研究者完成多项高质量、经同行评议的实证研究并最终汇总成元分析的时间窗口非常狭窄。威廉姆森认为，在如此短的周期内，几乎不可能出现几十项足以支撑严谨元分析的高质量研究，因此这本身就对论文的“样本基础”提出了根本性疑问。

除了威廉姆森，其他研究者也在早期就对这项研究发出了警告。 Meaning Processing Ltd. 首席科学家伊尔卡·图奥米（Ilkka Tuomi）在 LinkedIn 上批评，像这类元分析往往会把实际上并不可比的研究结果混在一起，从而基于模糊甚至不一致的指标得出结论。他提醒，复杂的统计工具很容易营造出一种“高度科学”的错觉，即使底层数据质量并不可靠，最终依然能产出看似靠谱的数字和图表。

随着论文在社交媒体上不断被转发，其原本在正文中存在的诸多“限定条件”和研究细节逐渐被稀释，只剩下“ChatGPT 显著提升学习效果”这样的标题式结论在各类传播中反复出现。威廉姆森指出，这种“只剩口号、没有上下文”的扩散方式，加剧了公众对 AI 在教育领域作用的误判，也弱化了学术界内部对证据质量的讨论空间。他担心，即便论文已经被正式撤稿，此前引用或转发过它的研究者与从业者也未必会留意到这一更新。这意味着，“ChatGPT 能显著改善学习表现”这一核心信息可能仍会在许多场合被当作既成事实继续流传。

此次撤稿发生的时间点，也与教育系统围绕生成式 AI 的博弈高度重叠。一些学校和大学仍在想办法限制 AI 在作业、考试中的滥用，尤其是防范借助聊天机器人进行“代写”和作弊；与此同时，科技公司则不断推出各类“学习助手”“作业辅导”功能，把聊天机器人包装为新一代学习工具。与此并行的，还有对“全面数字化课堂”的反思，有的国家已经重新强调纸质教材与手写作业的重要性，试图纠正过度依赖屏幕和在线平台的倾向。

对威廉姆森等研究者来说，这件事带来的挫败感并不止于一篇论文本身，而在于它所折射出的整体氛围。在过去几年里，围绕生成式 AI 的讨论往往被“炒作”和乐观叙事主导，而真正严谨、有充分证据支撑的研究则明显不足。他认为，这次撤稿提醒人们：与其急于宣布“AI 已经彻底改变教育”，不如先扎实回答一个更基本的问题——这些工具在具体的教学实践中，究竟是如何、在什么条件下影响学生和教师的行为与结果的。

对文章打分

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠统计方法遭质疑

1 (50%) 1 (50%)

[退出]

发布

显示更多评论

编辑精选

加载中...

Top 10

本周本月

1
DeepSeek连夜删掉的新论文到底说了什么
阅读 (897) 评论 (0)
2
“DeepSeek版Claude Code” GitHub 2.3k星
阅读 (798) 评论 (0)
3
联想抛弃ThinkPad 20年经典设计：取消独立镁合金骨架
阅读 (772) 评论 (1)
4演员徐冬冬回应身上标签：可撕可不撕有角色可演就很知足
5美国天后级歌手突发重病曾接受昂贵“洗血”疗法
6生物圈震撼：00后小哥在客厅完成基因组测序 27亿美金壁垒塌了
7一图看懂DeepSeek V4与美国顶级AI差距：落后8个月
870岁周润发跑步近照流出双颊凹陷被疑“瘦到脱相”
9Rufus重大更新：推出全新Windows 11安装方式可大幅提升电脑性能
10OpenAI疯狂升级Codex 接管Mac人类全程0操作围观

1
《纽约时报》称已确认比特币发明者中本聪的真实身份
阅读 (5935) 评论 (0)
2
苹果被曝下调 iPhone 18 规格以压缩成本
阅读 (2748) 评论 (0)
3
苹果宣布CEO交接蒂姆·库克发布致全球苹果用户公开信
阅读 (2116) 评论 (1)
4第一批学AI的大学生，已经笑不出来了
5《永劫无间》女解说黑衣黑脸反讽舆论日本网友狂赞
6微软无预警封停 WireGuard 与 VeraCrypt 开发者账号
7陈冠希撞脸赵本山网友感慨颜值断崖式下滑
8韩国Naver宣布全面弃用阿里Qwen编码器
9Claude复活30年前传奇游戏仅用一个周末
10乒乓球机器人Ace在东京击败顶级选手创下体育机器人历史第一

招聘

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠统计方法遭质疑

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠统计方法遭质疑

对文章打分

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠统计方法遭质疑

最新资讯

编辑精选

热门评论

相关文章

Meta正在开发名为“Hatch”的AI智能体及Instagram内置AI购物工具

“全民公敌”阿莫迪

OpenAI版“豆包手机”细节曝光最快一年内量产预计出货3000万台

豆包试水付费 DeepSeek会跟进吗？AI助手全面收费倒计时

SAP斥资逾10亿欧元押注德国AI实验室 NemoClaw获得“通行证”

Top 10

DeepSeek连夜删掉的新论文到底说了什么

“DeepSeek版Claude Code” GitHub 2.3k星

联想抛弃ThinkPad 20年经典设计：取消独立镁合金骨架

《纽约时报》称已确认比特币发明者中本聪的真实身份

苹果被曝下调 iPhone 18 规格以压缩成本

苹果宣布CEO交接蒂姆·库克发布致全球苹果用户公开信

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠 统计方法遭质疑

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠 统计方法遭质疑

对文章打分

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠 统计方法遭质疑

最新资讯

编辑精选

热门评论

相关文章

Meta正在开发名为“Hatch”的AI智能体及Instagram内置AI购物工具

“全民公敌”阿莫迪

OpenAI版“豆包手机”细节曝光 最快一年内量产 预计出货3000万台

豆包试水付费 DeepSeek会跟进吗？AI助手全面收费倒计时

SAP斥资逾10亿欧元押注德国AI实验室 NemoClaw获得“通行证”

Top 10

DeepSeek连夜删掉的新论文到底说了什么

“DeepSeek版Claude Code” GitHub 2.3k星

联想抛弃ThinkPad 20年经典设计：取消独立镁合金骨架

《纽约时报》称已确认比特币发明者中本聪的真实身份

苹果被曝下调 iPhone 18 规格以压缩成本

苹果宣布CEO交接 蒂姆·库克发布致全球苹果用户公开信

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠统计方法遭质疑

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠统计方法遭质疑

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠统计方法遭质疑

OpenAI版“豆包手机”细节曝光最快一年内量产预计出货3000万台

苹果宣布CEO交接蒂姆·库克发布致全球苹果用户公开信