看到Claude 4发布的消息,我第一时间跑了几个编程和数学基准测试。先说结论:200K上下文窗口确实是个硬核升级,但别指望它能像宣传那样完美处理超长文档——实测中,对于超过150K token的代码库,模型在跨文件引用时偶尔会出现注意力漂移,这点和GPT-4 Turbo的早期版本类似。不过,推理能力的提升是实打实的:在HumanEval和GSM8K上,Claude 4的准确率比前代提升了约12%,尤其在多步推理和边界条件处理上,错误率明显下降。个人经验是,用它重构一个5000行的Python项目时,逻辑一致性比Claude 3强了一个档次。
我的疑问是:Anthropic这次是否牺牲了部分创造性来换取推理精度?从生成代码的多样性来看,感觉比之前保守了。另外,200K上下文对算力的消耗如何?有没有人试过在API上跑长文档总结,延迟和成本相比Claude 3有多大变化?
从行业格局看,Claude 4的发布意味着长上下文+强推理成为标配,这可能会倒逼OpenAI加速GPT-5的迭代。对开发者来说,选择模型时不能再只看基准分数,还得考虑实际部署的性价比。大家觉得,长上下文模型会不会让RAG架构逐渐边缘化?