以科技始创公司Nof1运营的Alpha Arena为例。该平台让八个重要前沿AI体系同台较劲,开展四场比赛,个中包含Anthropic的Claude、谷歌的Gemini、OpenAI的ChatGPT以及埃隆·马斯克的Grok。每个体系在每场比赛开端前都获得1万美元资金,随后在两周内自立交易美国科技股。挑衅包含根据多种旌旗灯号交易、采取防御性策略、对竞争敌手表示作出反响,以及应用高杠杆操作。
整体投资组合最终亏掉落了约三分之一资金。在全部32构成果中,模型仅有6次实现盈利。Grok 4.20在一项可获知竞争敌手表示的挑衅中取得最佳成就。它只进行了158笔交易;在雷同提示下,阿里巴巴的千问则交易了1418次。
Alpha Arena只是越来越多相干实验中的一个。这些实验都在测试,大年夜说话模型可否胜任金融业最艰苦的工作:克服市场。尽管这些比赛远谈不上具有学术严谨性,但它们迄今最公开地展示了,当这些体系测验测验承担华尔街一些利润最丰富、风险最高的工作时,会产生什么。

这些初步成果之所以重要,是因为交易恰是金融业对于完全交给AI仍保持谨慎的少数工作之一。以前几年,从摩根大年夜通到Balyasny Asset Management等行业巨擘,几乎已将这项技巧用于其他各个环节。如今,大年夜说话模型已在量化机构顶用于解析消息,在对冲基金中草拟备忘录,在大年夜型银行中辨认讹诈等。但在真金白银的交易上,“人类介入”仍是行业信条,似乎也是情有可原。
Nof1开创人Jay Azhang
Nof1开创人Jay Azhang表示:“大年夜说话模型本身其实无法真正赚钱。你根本上须要一整套异常复杂的束缚框架、支撑体系和数据平台,才有可能给它们一个发挥的机会。”
他说,大年夜说话模型善于做研究,也善于为某些义务寻找并调用合适对象。但它们今朝仍不知道,影响股价波动的诸多变量 —— 包含分析师评级、内部交易和市场情感变更等 —— 各自毕竟有多重要。它们往往把握不好交易机会,缺点设定仓位范围,并且生意过于频繁。
AI博客Flat Circle追踪了11个与市场相干的竞技平台,所有平台都至少有一个模型实现盈利。但在这11个平台中,只有两个平台的模型中位数实现盈利,这注解大年夜多半模型都难以克服市场。
运营Intelligent Alpha的Doug Clinton表示:“它们有本身的‘个性’,你必须像治理人类分析师那样去治理它们。”他说,假如让模型意识到本身表示出某种成见,成果可以获得改良。Intelligent Alpha有一个由大年夜说话模型驱动的基金,就AI猜测企业盈利的表示宣布其自身的基准。
这一成果与人类的表示千篇一律,因为众所周知,多半主动治理型基金同样跑输大年夜盘。并且就像人类一样,这些模型也轻易出现明显偏颇。多场比赛显示,AI体系在收到雷同指令时会作出异常不合的决定,这对安排它们的机构具有重大年夜影响。Azhang举例说,在Alpha Arena比来一轮比赛中,Claude大年夜多偏向做多,Gemini并不排斥做空,而千问则更愿意借助高杠杆承担风险。
Intelligent Alpha的基准为10个AI模型供给财务申报文件、分析师猜测、事迹德律风会纪要、宏不雅经济数据以及最多10次收集搜刮权限。因为聚焦范围更窄,大年夜说话模型在这项测试中的表示更为积极。2025年第四时度,OpenAI的ChatGPT对盈利预期更改偏向的断定精确率达到68%,创下迄今最佳成就。Clinton表示,这些模型平日会跟着每次新版本宣布而持续改进。

发表评论 取消回复