当最先进的通用大模型面对中国传统术数的专业选择题时,结果令人意外。在一项由DestinyLinker研究团队基于HKJFMA主办术数大赛官方题库进行的评测中,Claude、GPT等主流模型在四选一题目上的准确率清一色徘徊在23%到40%之间——而随机猜测的基线就是25%。这意味着,这些大模型在缺乏信息泄漏的专业领域,几乎等同于在蒙答案。但一个名为Tianfu Agent的系统,却以50%的截尾准确率,直逼本届赛事人类Top20选手53.5%的平均水平,引发业界关注。Tianfu Agent的核心突破在于其工程化的系统设计。研究团队借鉴了Coding Agent的成功经验,但发现仅靠编码智能体的逻辑远远不够。术数领域涉及大量数据逻辑运算、流派规则冲突以及长链路推理,通用模型容易产生偏差。为此,团队构建了200多个原子工具、3大流派规则函数库,并引入多Sub-Agent协作的渐进式发现策略。更关键的是,他们设计了一套四级可见性控制机制:自动注入型工具(如十神、星曜)无需模型选择,按需调用型(如生克关系)让模型自行判断参数,转译调用型通过翻译层消除术语歧义,触发注入型则仅特定Sub-Agent可见。这套动态工具管理有效避免了模型在大量工具面前的选择退化。在规则处理上,Tianfu Agent没有像通用Agent那样将规则写入System Prompt,而是将繁杂的术数规则封装成可调用函数。例如子平母法超过百条规则,适用条件相互耦合,流派之间甚至互相矛盾。通过函数化封装,系统保证了推理路径的可控性和可验证性。研究团队还引入了置信度量化机制,贯穿全链路,确保每一步推理都有据可查。这些设计不仅适用于术数领域,也为医疗、法律等垂直领域的Agent开发提供了可复用的工程范式——当工具数量超过模型的可靠选择阈值后,工具管理本身就成了一个独立的工程问题。从更广阔的视角看,Tianfu Agent的成果揭示了一个重要趋势:通用大模型在专业垂直领域的落地,不能仅依赖模型参数规模的提升,更需要系统化的工程适配。本次测试中,所有基线模型都获得了预计算的盘面数据,避免了计算幻觉,但推理能力依然不足。这说明,未来AI Agent的发展方向,可能是为每个专业领域构建专属的工具集、规则库和置信度评估体系。对于AI从业者而言,Tianfu Agent的工程思路——从工具分级到规则函数化,再到多Agent协作——值得在各自领域进行借鉴和迁移。毕竟,当模型本身的能力遇到天花板时,系统工程的创新往往能带来意想不到的突破。