前沿AI模型同场竞技炒股结果亏多赚少金融业最难的工作还得靠真人

2026年05月07日 01:29 次阅读稿源：环球市场播报条评论前沿AI模型同场竞技炒股结果亏多赚少金融业最难的工作还得靠真人

人工智能（AI）还没有准备好取代你的基金经理，一系列公开测试说明了其中缘由。在全球领先AI模型参与的一系列新的交易竞赛中，迄今为止AI的表现并不算好。大多数系统蒙受了亏损。它们交易过于频繁，在收到完全相同指令时会作出截然不同的决策。而且目前仍无人知道，这些缺陷会否随着模型迭代升级而消失，还是揭示了大语言模型与市场实际运作方式之间存在的根本性鸿沟。

以科技初创公司Nof1运营的Alpha Arena为例。该平台让八个主要前沿AI系统同台较量，开展四场比赛，其中包括Anthropic的Claude、谷歌的Gemini、OpenAI的ChatGPT以及埃隆·马斯克的Grok。每个系统在每场比赛开始前都获得1万美元资金，随后在两周内自主交易美国科技股。挑战包括依据多种信号交易、采取防御性策略、对竞争对手表现作出反应，以及使用高杠杆操作。

整体投资组合最终亏掉了约三分之一资金。在全部32组结果中，模型仅有6次实现盈利。Grok 4.20在一项可获知竞争对手表现的挑战中取得最佳成绩。它只进行了158笔交易；在相同提示下，阿里巴巴的千问则交易了1418次。

Alpha Arena只是越来越多相关实验中的一个。这些实验都在测试，大语言模型能否胜任金融业最困难的工作：战胜市场。尽管这些竞赛远谈不上具有学术严谨性，但它们迄今最公开地展示了，当这些系统尝试承担华尔街一些利润最丰厚、风险最高的工作时，会发生什么。

这些初步结果之所以重要，是因为交易正是金融业对于完全交给AI仍保持谨慎的少数工作之一。过去几年，从摩根大通到Balyasny Asset Management等行业巨头，几乎已将这项技术用于其他各个环节。如今，大语言模型已在量化机构中用于解析新闻，在对冲基金中起草备忘录，在大型银行中识别欺诈等。但在真金白银的交易上，“人类参与”仍是行业信条，似乎也是情有可原。

Nof1创始人Jay Azhang

Nof1创始人Jay Azhang表示：“大语言模型本身其实无法真正赚钱。你基本上需要一整套非常复杂的约束框架、支撑系统和数据平台，才有可能给它们一个发挥的机会。”

他说，大语言模型擅长做研究，也擅长为某些任务寻找并调用合适工具。但它们目前仍不知道，影响股价波动的诸多变量 —— 包括分析师评级、内部交易和市场情绪变化等 —— 各自究竟有多重要。它们往往把握不好交易时机，错误设定仓位规模，而且买卖过于频繁。

AI博客Flat Circle追踪了11个与市场相关的竞技平台，所有平台都至少有一个模型实现盈利。但在这11个平台中，只有两个平台的模型中位数实现盈利，这表明大多数模型都难以战胜市场。

这一结果与人类的表现如出一辙，因为众所周知，多数主动管理型基金同样跑输大盘。而且就像人类一样，这些模型也容易出现明显偏颇。多场竞赛显示，AI系统在收到相同指令时会作出非常不同的决定，这对部署它们的机构具有重大影响。Azhang举例说，在Alpha Arena最近一轮比赛中，Claude大多倾向做多，Gemini并不排斥做空，而千问则更愿意借助高杠杆承担风险。

运营Intelligent Alpha的Doug Clinton表示：“它们有自己的‘个性’，你必须像管理人类分析师那样去管理它们。”他说，如果让模型意识到自己表现出某种偏见，结果可以得到改善。Intelligent Alpha有一个由大语言模型驱动的基金，就AI预测企业盈利的表现发布其自身的基准。

Intelligent Alpha的基准为10个AI模型提供财务申报文件、分析师预测、业绩电话会纪要、宏观经济数据以及最多10次网络搜索权限。由于聚焦范围更窄，大语言模型在这项测试中的表现更为积极。2025年第四季度，OpenAI的ChatGPT对盈利预期变动方向的判断准确率达到68%，创下迄今最佳成绩。Clinton表示，这些模型通常会随着每次新版本发布而持续改进。

对文章打分

前沿AI模型同场竞技炒股结果亏多赚少金融业最难的工作还得靠真人

1 (50%) 1 (50%)

[退出]

发布

显示更多评论

编辑精选

加载中...

Top 10

本周本月

1
DeepSeek连夜删掉的新论文到底说了什么
阅读 (897) 评论 (0)
2
“DeepSeek版Claude Code” GitHub 2.3k星
阅读 (798) 评论 (0)
3
联想抛弃ThinkPad 20年经典设计：取消独立镁合金骨架
阅读 (772) 评论 (1)
4演员徐冬冬回应身上标签：可撕可不撕有角色可演就很知足
5美国天后级歌手突发重病曾接受昂贵“洗血”疗法
6生物圈震撼：00后小哥在客厅完成基因组测序 27亿美金壁垒塌了
7一图看懂DeepSeek V4与美国顶级AI差距：落后8个月
870岁周润发跑步近照流出双颊凹陷被疑“瘦到脱相”
9Rufus重大更新：推出全新Windows 11安装方式可大幅提升电脑性能
10OpenAI疯狂升级Codex 接管Mac人类全程0操作围观

1
《纽约时报》称已确认比特币发明者中本聪的真实身份
阅读 (5935) 评论 (0)
2
苹果被曝下调 iPhone 18 规格以压缩成本
阅读 (2748) 评论 (0)
3
苹果宣布CEO交接蒂姆·库克发布致全球苹果用户公开信
阅读 (2116) 评论 (1)
4第一批学AI的大学生，已经笑不出来了
5《永劫无间》女解说黑衣黑脸反讽舆论日本网友狂赞
6微软无预警封停 WireGuard 与 VeraCrypt 开发者账号
7陈冠希撞脸赵本山网友感慨颜值断崖式下滑
8韩国Naver宣布全面弃用阿里Qwen编码器
9Claude复活30年前传奇游戏仅用一个周末
10乒乓球机器人Ace在东京击败顶级选手创下体育机器人历史第一

招聘

前沿AI模型同场竞技炒股结果亏多赚少金融业最难的工作还得靠真人

前沿AI模型同场竞技炒股结果亏多赚少金融业最难的工作还得靠真人

对文章打分

前沿AI模型同场竞技炒股结果亏多赚少金融业最难的工作还得靠真人

最新资讯

编辑精选

热门评论

相关文章

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠统计方法遭质疑

Meta正在开发名为“Hatch”的AI智能体及Instagram内置AI购物工具

“全民公敌”阿莫迪

OpenAI版“豆包手机”细节曝光最快一年内量产预计出货3000万台

豆包试水付费 DeepSeek会跟进吗？AI助手全面收费倒计时

Top 10

DeepSeek连夜删掉的新论文到底说了什么

“DeepSeek版Claude Code” GitHub 2.3k星

联想抛弃ThinkPad 20年经典设计：取消独立镁合金骨架

《纽约时报》称已确认比特币发明者中本聪的真实身份

苹果被曝下调 iPhone 18 规格以压缩成本

苹果宣布CEO交接蒂姆·库克发布致全球苹果用户公开信

前沿AI模型同场竞技炒股结果亏多赚少 金融业最难的工作还得靠真人

前沿AI模型同场竞技炒股结果亏多赚少 金融业最难的工作还得靠真人

对文章打分

前沿AI模型同场竞技炒股结果亏多赚少 金融业最难的工作还得靠真人

最新资讯

编辑精选

热门评论

相关文章

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠 统计方法遭质疑

Meta正在开发名为“Hatch”的AI智能体及Instagram内置AI购物工具

“全民公敌”阿莫迪

OpenAI版“豆包手机”细节曝光 最快一年内量产 预计出货3000万台

豆包试水付费 DeepSeek会跟进吗？AI助手全面收费倒计时

Top 10

DeepSeek连夜删掉的新论文到底说了什么

“DeepSeek版Claude Code” GitHub 2.3k星

联想抛弃ThinkPad 20年经典设计：取消独立镁合金骨架

《纽约时报》称已确认比特币发明者中本聪的真实身份

苹果被曝下调 iPhone 18 规格以压缩成本

苹果宣布CEO交接 蒂姆·库克发布致全球苹果用户公开信

前沿AI模型同场竞技炒股结果亏多赚少金融业最难的工作还得靠真人

前沿AI模型同场竞技炒股结果亏多赚少金融业最难的工作还得靠真人

前沿AI模型同场竞技炒股结果亏多赚少金融业最难的工作还得靠真人

ChatGPT教育研究被撤稿：AI学习红利证据并不牢靠统计方法遭质疑

OpenAI版“豆包手机”细节曝光最快一年内量产预计出货3000万台

苹果宣布CEO交接蒂姆·库克发布致全球苹果用户公开信