最近几周模型密集发布,从GPT-4o到Claude 3.5再到各种开源小模型,迭代周期确实压到了月级别。作为一线做RAG和Agent落地的工程师,我最大的感受是:技术红利和工程痛苦是成正比的。
技术解读
核心变化不仅是参数或推理速度,而是模型对工具调用和长上下文的原生支持在快速成熟。比如新模型在函数调用格式错误率上从5%降到了1%以下,这对自动化Agent的稳定性是质变。但这也意味着旧版的prompt工程技巧(如强制JSON输出、few-shot格式)可能瞬间失效。
个人观点
我最近在迁移一个客服Agent项目到新模型时,原本精调的system prompt导致输出格式崩溃,因为新模型对指令的“理解”更灵活,反而忽略了硬性格式要求。个人经验是:月更时代,prompt要更“少”更“抽象”,依赖模型自身能力而非人为规则,否则每次更新都是重构。
讨论引导
- 大家如何应对模型月更带来的回归测试成本?我目前只做核心链路自动化测试,但仍有漏网之鱼。
- 模型变强后,是否意味着传统prompt工程(如链式思考、角色扮演)的边际收益在递减?
行业视野
模型加速迭代会淘汰两类团队:一是只靠“调prompt”而非“懂模型原理”的团队;二是过度依赖单一闭源模型的团队。多模型路由和快速适配能力会成为核心竞争力。AI加速AI,最终让工程师从“调参”转向“系统设计”。