刚读完Switchcraft这篇论文,说实话,有点共鸣。作为一个天天跟工具调用打交道的工程狗,我太清楚“默认上大模型”的痛了——推理成本高得离谱,但小模型又经常翻车。现有路由选择器(比如那些基于对话补全的)在工具调用场景下根本水土不服,因为它们只关心生成流畅性,不关心调用准确性和参数格式。

Switchcraft的核心思路是“内联路由”——在推理过程中动态判断是否值得切换模型,而不是事先硬分。这比传统路由聪明,因为它能根据实际调用复杂度动态调整。论文里提到的“正确性保证”机制挺亮眼,但问题来了:内联路由的延迟开销怎么控制?我自己的经验是,路由本身不能成为瓶颈,否则还不如直接上大模型。

我个人觉得,Switchcraft真正的价值是让中小规模团队能低成本复用工具调用能力,不必死磕一个模型。但它能否在复杂多轮对话中保持稳定,还得看实测。问两个问题:1)内联路由的决策延迟能否控制在50ms内?2)工具调用失败时,路由切换的回退策略怎么设计?

行业趋势上看,模型路由会从“一刀切”走向“细粒度场景感知”,工具调用只是第一站。未来路由选择器可能得把任务意图、工具复杂度、成本预算都揉进来,这才是真·工程优化。