金融AI领域迎来一场别开生面的技术较量。AFAC2026金融智能创新大赛近日开赛,与常见的刷榜Benchmark不同,这场大赛的四个赛题全部来自真实金融场景,专挑这个公认最“地狱级”的垂直领域作为训练场。出题方直言,模型发展到今天,金融垂直任务依然未能被彻底攻克,原因在于这不是简单的参数Scaling能解决的问题,而是Agent层的工程挑战。大赛的核心宣言是“全员回归基础研究,探索模型如何在真实约束下交付产业价值”,这可能是今年金融AI领域最值得关注的技术赛事之一。第一个赛题聚焦市场参与者交易行为识别与资金流向分析。在股市这片“黑暗森林”中,普通投资者永远无法确定屏幕对面那笔大单的真实意图——拉升可能是诱多,挂单可能是假象。出题人纪韩指出,资金识别从来不只是数学题,它涉及对人性、商业和社会博弈的理解。大模型的出现提供了新武器,能从高频数值数据中发现隐含模式,但挑战在于L2行情数据量极其庞大,即使支持1M上下文的模型也会因注意力机制失效而无法直接处理。参赛者必须依托harness框架设计机制,先通过规则或工具将数据处理到可观察、可理解的状态,这背后隐含了复杂的工程要求。值得注意的是,该赛题并未强调成本优化,因为如果策略有效,其潜在收益可能让成本显得微不足道。第二个赛题是复杂金融文档还原挑战,要求选手设计端到端解析系统,将金融文档图片完整、准确、有结构地转为Markdown。一份保险文档可能包含多级标题、密集表格和脚注,每项信息必须100%准确。出题人续兴中解释道,寿险产品需要精准查询表格中的具体单元格数据,但金融文档多为图片或PDF,普通OCR只能识别文字却无法理解结构。大模型能解决阅读顺序问题,但超大图可能达几亿像素点,输出长度超十几万字,直接硬吞会撑爆上下文窗口。因此需要一套端到端Agent工作流:先切分,再调用小模型分多次解析,最终拼回保真Markdown。目前前沿多模态模型在此类任务上的平均分甚至低于0.1,足见难度之大。后两个赛题同样直击产业痛点。自动化实验设计赛题要求模型在稀疏反馈下完成实验,模拟金融产品A/B测试中数据量有限的现实困境;长文本精准问答赛题则强调在控制Token成本的前提下,对金融长文档进行高效问答。这些赛题共同指向一个核心问题:金融AI落地不仅是模型能力的问题,更是Agent工程、成本与业务约束的综合博弈。对于AI从业者而言,AFAC2026提供了一个难得的实战机会,去探索如何在真实约束下交付可落地的产业价值,这或许比任何公开榜单都更具参考意义。建议有兴趣的开发者重点关注harness框架的应用和Agent工作流的设计,这些将是未来金融AI工程化的关键能力。