Tianfu Agent：中国AI术数推理准确率直逼人类大师

当最先进的通用大模型面对中国传统术数的专业选择题时，结果令人意外。在一项由DestinyLinker研究团队基于HKJFMA主办术数大赛官方题库进行的评测中，Claude、GPT等主流模型在四选一题目上的准确率清一色徘徊在23%到40%之间——而随机猜测的基线就是25%。这意味着，这些大模型在缺乏信息泄漏的专业领域，几乎等同于在蒙答案。但一个名为Tianfu Agent的系统，却以50%的截尾准确率，直逼本届赛事人类Top20选手53.5%的平均水平，引发业界关注。Tianfu Agent的核心突破在于其工程化的系统设计。研究团队借鉴了Coding Agent的成功经验，但发现仅靠编码智能体的逻辑远远不够。术数领域涉及大量数据逻辑运算、流派规则冲突以及长链路推理，通用模型容易产生偏差。为此，团队构建了200多个原子工具、3大流派规则函数库，并引入多Sub-Agent协作的渐进式发现策略。更关键的是，他们设计了一套四级可见性控制机制：自动注入型工具（如十神、星曜）无需模型选择，按需调用型（如生克关系）让模型自行判断参数，转译调用型通过翻译层消除术语歧义，触发注入型则仅特定Sub-Agent可见。这套动态工具管理有效避免了模型在大量工具面前的选择退化。在规则处理上，Tianfu Agent没有像通用Agent那样将规则写入System Prompt，而是将繁杂的术数规则封装成可调用函数。例如子平母法超过百条规则，适用条件相互耦合，流派之间甚至互相矛盾。通过函数化封装，系统保证了推理路径的可控性和可验证性。研究团队还引入了置信度量化机制，贯穿全链路，确保每一步推理都有据可查。这些设计不仅适用于术数领域，也为医疗、法律等垂直领域的Agent开发提供了可复用的工程范式——当工具数量超过模型的可靠选择阈值后，工具管理本身就成了一个独立的工程问题。从更广阔的视角看，Tianfu Agent的成果揭示了一个重要趋势：通用大模型在专业垂直领域的落地，不能仅依赖模型参数规模的提升，更需要系统化的工程适配。本次测试中，所有基线模型都获得了预计算的盘面数据，避免了计算幻觉，但推理能力依然不足。这说明，未来AI Agent的发展方向，可能是为每个专业领域构建专属的工具集、规则库和置信度评估体系。对于AI从业者而言，Tianfu Agent的工程思路——从工具分级到规则函数化，再到多Agent协作——值得在各自领域进行借鉴和迁移。毕竟，当模型本身的能力遇到天花板时，系统工程的创新往往能带来意想不到的突破。

Tianfu Agent：中国AI术数推理准确率直逼人类大师

相关推荐

OpenAI前CTO新公司发布9750亿参数开放模型Inkling

Anthropic揭秘Loop：AI Agent核心机制

特斯拉供应链押注，一年造出对标宇树的机器狗

OpenAI前CTO新公司发布9750亿参数开放模型Inkling

Anthropic揭秘Loop：AI Agent核心机制

讨论 (0 条)