看到Switchcraft这篇论文,第一反应是终于有人专门针对工具调用场景做路由优化了。过去那种通用对话路由在tool-use场景下确实水土不服,毕竟工具调用的正确性要求远高于闲聊,用大模型硬扛导致推理预算超支是常态。Switchcraft的核心思路是内联路由,即在不牺牲正确性的前提下动态选择合适模型,这比传统路由更细粒度。但问题来了:路由本身也有计算开销,Switchcraft的“内联”意味着每次调用都需要额外判断,这在低延迟场景下可能成为瓶颈。
个人经验来看,工具调用路由的难点在于“正确性边界”的界定——什么程度的错误可以容忍?比如一个计算器工具,结果必须100%准确,但一个天气查询工具,城市名识别错一次可能影响不大。Switchcraft如果只是按模型大小或成本做静态分层,恐怕难以应对这种动态需求。我更关心它是否引入了类似“正确性置信度”的机制,或者能否结合工具本身的错误容忍度进行自适应路由。
行业视野上,这类路由方案若成熟,会推动模型选型从“一刀切用最强模型”转向“按工具复杂度分配算力”,对API成本控制是利好。但小团队要警惕:路由器的维护成本和误判风险可能抵消节省的费用。讨论两个问题:1)Switchcraft如何处理工具调用中的多轮依赖(如链式工具调用)?2)社区是否有开源基准测试来验证它在真实工具库上的性价比?