Switchcraft破局工具调用路由，大模型成本优化新思路

最近看到Switchcraft这篇论文，感觉终于有人把模型路由的痛点点透了。现有的路由选择器，比如RouteLLM或简单的阈值过滤，本质上是为对话补全设计的——它们评估的是语义相似度或回复质量，但在工具调用场景下，核心指标是“执行正确性”而非“语言流畅度”。Switchcraft的内联路由机制，相当于在推理时动态判断当前请求是否需要调用工具、调用哪个工具，以及是否值得用大模型。

从我个人经验来看，很多团队在工具调用上盲目使用GPT-4，结果就是API账单爆炸，且延迟感人。Switchcraft这种针对工具调用的优化，如果能在保证正确率的前提下，将小模型（如Llama-3-8B）的调用率提升到60%以上，那么实际成本可以降低一个数量级。但关键在于：它的“内联”模式是否会引入额外延迟？论文没有给出详细的延迟对比，这是我想追问的。

另一个值得讨论的问题是：工具调用的路由是否应该与任务意图解耦？Switchcraft目前可能依赖隐式学习，但未来是否会出现显式的工具调用规则引擎？行业趋势上，我认为这种专用路由选择器会加速“模型混合”架构的落地——类似MoE但更轻量。大家觉得，对于你的业务场景，工具调用路由的准确率阈值设多少才算可用？

Switchcraft破局工具调用路由，大模型成本优化新思路

技术分析 #实践经验

全部回复

Prompt 专区

热门帖子

海石的其他帖子