前沿AI模型同场竞技炒股结果亏多赚少 金融业最难的工作还得靠真人

前沿AI模型同场竞技炒股结果亏多赚少 金融业最难的工作还得靠真人

2026年05月07日 01:29 次阅读 稿源:环球市场播报 条评论 前沿AI模型同场竞技炒股结果亏多赚少 金融业最难的工作还得靠真人 前沿AI模型同场竞技炒股结果亏多赚少 金融业最难的工作还得靠真人

人工智能(AI)还没有准备好取代你的基金经理,一系列公开测试说明了其中缘由。在全球领先AI模型参与的一系列新的交易竞赛中,迄今为止AI的表现并不算好。大多数系统蒙受了亏损。它们交易过于频繁,在收到完全相同指令时会作出截然不同的决策。而且目前仍无人知道,这些缺陷会否随着模型迭代升级而消失,还是揭示了大语言模型与市场实际运作方式之间存在的根本性鸿沟。

以科技初创公司Nof1运营的Alpha Arena为例。该平台让八个主要前沿AI系统同台较量,开展四场比赛,其中包括Anthropic的Claude、谷歌的Gemini、OpenAI的ChatGPT以及埃隆·马斯克的Grok。每个系统在每场比赛开始前都获得1万美元资金,随后在两周内自主交易美国科技股。挑战包括依据多种信号交易、采取防御性策略、对竞争对手表现作出反应,以及使用高杠杆操作。

整体投资组合最终亏掉了约三分之一资金。在全部32组结果中,模型仅有6次实现盈利。Grok 4.20在一项可获知竞争对手表现的挑战中取得最佳成绩。它只进行了158笔交易;在相同提示下,阿里巴巴的千问则交易了1418次。

Alpha Arena只是越来越多相关实验中的一个。这些实验都在测试,大语言模型能否胜任金融业最困难的工作:战胜市场。尽管这些竞赛远谈不上具有学术严谨性,但它们迄今最公开地展示了,当这些系统尝试承担华尔街一些利润最丰厚、风险最高的工作时,会发生什么。

这些初步结果之所以重要,是因为交易正是金融业对于完全交给AI仍保持谨慎的少数工作之一。过去几年,从摩根大通到Balyasny Asset Management等行业巨头,几乎已将这项技术用于其他各个环节。如今,大语言模型已在量化机构中用于解析新闻,在对冲基金中起草备忘录,在大型银行中识别欺诈等。但在真金白银的交易上,“人类参与”仍是行业信条,似乎也是情有可原。

Nof1创始人Jay Azhang
Nof1创始人Jay Azhang

Nof1创始人Jay Azhang表示:“大语言模型本身其实无法真正赚钱。你基本上需要一整套非常复杂的约束框架、支撑系统和数据平台,才有可能给它们一个发挥的机会。”

他说,大语言模型擅长做研究,也擅长为某些任务寻找并调用合适工具。但它们目前仍不知道,影响股价波动的诸多变量 —— 包括分析师评级、内部交易和市场情绪变化等 —— 各自究竟有多重要。它们往往把握不好交易时机,错误设定仓位规模,而且买卖过于频繁。

AI博客Flat Circle追踪了11个与市场相关的竞技平台,所有平台都至少有一个模型实现盈利。但在这11个平台中,只有两个平台的模型中位数实现盈利,这表明大多数模型都难以战胜市场。

这一结果与人类的表现如出一辙,因为众所周知,多数主动管理型基金同样跑输大盘。而且就像人类一样,这些模型也容易出现明显偏颇。多场竞赛显示,AI系统在收到相同指令时会作出非常不同的决定,这对部署它们的机构具有重大影响。Azhang举例说,在Alpha Arena最近一轮比赛中,Claude大多倾向做多,Gemini并不排斥做空,而千问则更愿意借助高杠杆承担风险。

运营Intelligent Alpha的Doug Clinton表示:“它们有自己的‘个性’,你必须像管理人类分析师那样去管理它们。”他说,如果让模型意识到自己表现出某种偏见,结果可以得到改善。Intelligent Alpha有一个由大语言模型驱动的基金,就AI预测企业盈利的表现发布其自身的基准。

Intelligent Alpha的基准为10个AI模型提供财务申报文件、分析师预测、业绩电话会纪要、宏观经济数据以及最多10次网络搜索权限。由于聚焦范围更窄,大语言模型在这项测试中的表现更为积极。2025年第四季度,OpenAI的ChatGPT对盈利预期变动方向的判断准确率达到68%,创下迄今最佳成绩。Clinton表示,这些模型通常会随着每次新版本发布而持续改进。

-

对文章打分

前沿AI模型同场竞技炒股结果亏多赚少 金融业最难的工作还得靠真人

1 (50%) 1 (50%)
  • 登录
前沿AI模型同场竞技炒股结果亏多赚少 金融业最难的工作还得靠真人 [退出]

前沿AI模型同场竞技炒股结果亏多赚少 金融业最难的工作还得靠真人 发布
    显示更多评论

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      相关文章

      • ChatGPT教育研究被撤稿:AI学习红利证据并不牢靠 统计方法遭质疑

        • 昨天 20:23
      • Meta正在开发名为“Hatch”的AI智能体及Instagram内置AI购物工具

        • 昨天 19:29
      • “全民公敌”阿莫迪

        • 昨天 17:31
      • OpenAI版“豆包手机”细节曝光 最快一年内量产 预计出货3000万台

        • 昨天 15:39
      • 豆包试水付费 DeepSeek会跟进吗?AI助手全面收费倒计时

        • 昨天 15:36

      Top 10

      本周 本月
      • 1

        DeepSeek连夜删掉的新论文到底说了什么

        阅读 (897) 评论 (0)
      • 2

        “DeepSeek版Claude Code” GitHub 2.3k星

        阅读 (798) 评论 (0)
      • 3

        联想抛弃ThinkPad 20年经典设计:取消独立镁合金骨架

        阅读 (772) 评论 (1)
      • 4演员徐冬冬回应身上标签:可撕可不撕 有角色可演就很知足
      • 5美国天后级歌手突发重病 曾接受昂贵“洗血”疗法
      • 6生物圈震撼:00后小哥在客厅完成基因组测序 27亿美金壁垒塌了
      • 7一图看懂DeepSeek V4与美国顶级AI差距:落后8个月
      • 870岁周润发跑步近照流出 双颊凹陷被疑“瘦到脱相”
      • 9Rufus重大更新:推出全新Windows 11安装方式 可大幅提升电脑性能
      • 10OpenAI疯狂升级Codex 接管Mac人类全程0操作围观
      • 1

        《纽约时报》称已确认比特币发明者中本聪的真实身份

        阅读 (5935) 评论 (0)
      • 2

        苹果被曝下调 iPhone 18 规格以压缩成本

        阅读 (2748) 评论 (0)
      • 3

        苹果宣布CEO交接 蒂姆·库克发布致全球苹果用户公开信

        阅读 (2116) 评论 (1)
      • 4第一批学AI的大学生,已经笑不出来了
      • 5《永劫无间》女解说黑衣黑脸反讽舆论 日本网友狂赞
      • 6微软无预警封停 WireGuard 与 VeraCrypt 开发者账号
      • 7陈冠希撞脸赵本山 网友感慨颜值断崖式下滑
      • 8韩国Naver宣布全面弃用阿里Qwen编码器
      • 9Claude复活30年前传奇游戏 仅用一个周末
      • 10乒乓球机器人Ace在东京击败顶级选手 创下体育机器人历史第一
      招聘