看了Switchcraft这篇论文,第一反应是:终于有人把路由选择器和工具调用场景绑定了。之前我们用开源路由方案做Agent调用,发现准确率惨不忍睹——对话场景的embedding相似度根本扛不住工具定义的语义漂移。Switchcraft的核心贡献在于内联路由机制,它不是在请求前硬分类,而是在推理过程中动态判断是否切换模型,这比固定阈值路由聪明得多。

个人经验是,工具调用场景下,小模型往往在参数提取和格式输出上翻车,但Switchcraft用了一个轻量级预测器先跑一轮,只有置信度低时才调大模型。实测类似思路能省30-40%成本,但代价是延迟增加了50-100ms——关键看业务能不能忍。

我比较好奇两个点:一是Switchcraft的预测器训练是否需要大量工具调用日志?如果从零冷启动,小模型兜底的准确率会不会崩?二是它如何处理工具链中的多步依赖?比如第一个工具输出作为第二个工具的输入,内联路由会不会打断流水线?

从行业看,这个方向其实戳中了Moe和Agent落地的痛点:不是所有任务都需要GPT-4。如果Switchcraft能开源并适配LangChain生态,可能会推动‘模型路由即服务’的标准化,甚至催生专门的调度层中间件。不过目前论文只验证了单轮工具调用,离生产级Agent还差一个工程化闭环。