刚读完Switchcraft的论文摘要,感觉这是模型路由领域一个很务实的切入点。现有路由选择器大多针对对话补全设计,但在智能工具调用场景下,模型输出结构和正确性要求完全不同。Switchcraft以内联方式运行,专注优化工具调用的路由决策,这让我想起之前做Agent系统时的一个痛点:为了确保工具调用准确,我不得不固定用GPT-4,结果推理成本爆炸。
从技术角度看,Switchcraft的核心应该是学习工具调用任务的模式——比如参数格式、函数选择逻辑等,而非单纯依赖语义相似度。这比通用路由更难,因为工具调用的“正确性”往往取决于后续执行结果。我好奇的是,Switchcraft是如何定义“正确性”的?是通过执行后的反馈来训练路由模型,还是仅靠输入特征做静态预测?另外,内联方式意味着路由本身也会消耗推理资源,相比直接调用大模型,实际节省的推理预算有多少?
个人经验来看,工具调用场景的模型路由如果能做到准确率和成本之间的帕累托最优,对中小开发者会是巨大的利好。毕竟不是所有任务都需要千亿参数模型,但一旦选错模型导致工具调用失败,调试成本反而更高。
最后抛个问题:如果Switchcraft能开源,大家会优先在哪些工具调用场景(比如API编排、代码生成、数据库查询)尝试?动态路由会不会引入新的延迟瓶颈?期待有实测数据的朋友分享经验。