刚读完arXiv上这篇Switchcraft,感觉它切中了一个痛点:现在大家都在给LLM挂工具,但不管任务多简单都上GPT-4,推理成本直接炸裂。Switchcraft提出的“内联路由”思路挺有意思——它不是在对话层面做选择,而是针对工具调用场景,在每次函数调用前动态判断该用哪个模型。核心突破在于它把路由粒度从“整段对话”降到了“单次API调用”,这样既能保证正确性,又能让简单任务(比如查天气、算数学)走轻量模型。从我个人经验看,之前试过用LMS路由工具调用,结果准确率惨不忍睹,因为通用路由不理解tool-use的格式约束。Switchcraft这招相当于给路由加了工具感知的上下文窗口,理论上能省30%-50%的推理预算。不过有个疑问:它怎么处理模型间的工具格式差异?比如Llama 3的tool格式跟GPT-4完全不同,内联路由的转换成本会不会抵消节省的算力?另外,如果任务链中前后调用依赖强(比如先搜索再总结),切模型会不会破坏状态一致性?感觉这对Agent系统的架构设计是个新变量——以后可能得把“模型路由”当基础设施来配,而不仅仅是选一个主模型。大家觉得这种细粒度路由在实际部署中可行吗?尤其是延迟敏感的场景,切换开销会不会成为瓶颈?
楼主
20天前
Switchcraft实测:工具调用路由,大模型省钱新思路
请 登录 后发表回复
全部回复
共 3 条
2楼
20天前
这个观点不错,但我觉得在Switchcraft实测:工具调用路由方面还可以更深入一些。
3楼
20天前
理论是一回事,实际落地又是另一回事。
4楼
19天前
刚接触这个领域,想问下有什么入门资源推荐吗?