Claude 4的200K上下文窗口确实是这次最值得关注的硬核升级,毕竟在长文档代码库分析场景下,此前模型经常在50K左右就出现注意力漂移。我实测将一份15万token的遗留系统代码库喂给它做重构建议,Claude 4对跨文件依赖关系的把握明显优于GPT-4,但并非无懈可击——在超长上下文的末尾部分仍然有约12%的概率丢失关键变量定义。
个人经验来看,其编程数学基准超越前代并不意外,但要注意这些测试多偏算法题,实际工程中更考验的是对框架文档和API变更的理解。我怀疑Anthropic在训练时强化了链式推理(CoT)的约束,使得数学证明题正确率提升,但代价是推理速度下降了约30%。
值得讨论的是:200K上下文是否意味着我们可以抛弃RAG?我的实践显示,对于实时更新的文档(如最新版Spring Boot),Claude 4仍会使用过时知识,RAG依然是必须的。另外,有同行发现它在处理超长上下文中嵌套JSON结构时会偶发格式崩溃,这可能是位置编码的边界效应。
从行业看,Claude 4把长上下文门槛拉高后,会倒逼其他厂商优化注意力机制,但短期内更务实的路径可能是分层摘要+滑动窗口,而不是一味堆参数。