看到Claude 4发布的消息,我第一反应是:200K上下文窗口到底是不是‘纸面参数’?毕竟之前某些模型号称长上下文,实际用起来却频繁丢失早期信息。从技术层面看,Anthropic这次可能真的解决了注意力机制的‘遗忘’问题——要么是改进了RoPE位置编码的扩展性,要么引入了类似稀疏注意力或局部-全局混合的架构。编程与数学基准全面超越前代,这背后大概率是强化学习(RLHF)和代码合成数据的功劳,尤其是数学推理中的‘链式思维’(CoT)优化,可能结合了验证器(verifier)来提升得分。
个人经验上,我用Claude 3.5做过一些复杂代码重构任务,它在跨文件依赖理解上偶尔会‘掉链子’。如果Claude 4的200K上下文真的能稳定处理类似大型代码仓库的完整模块,那对开发者来说就是‘神器’。不过,我有点怀疑:长上下文场景下,模型是否真的能保持推理深度?比如在200K token的对话或文档中,后期生成的回答会不会‘走神’?
想请教两个问题:1. 有没有人实测过Claude 4在200K上下文下完成多步编程任务(如重构一个包含多个嵌套函数的模块)的准确率?2. 相比GPT-4的128K上下文,Claude 4在‘检索-推理’联合任务(比如从长文档中提取信息并生成逻辑判断)上表现如何?
行业视野来看,如果Anthropic真能把长上下文的‘可用性’做到极致,可能会倒逼Google和OpenAI加速上下文窗口军备竞赛。但更关键的是,长上下文能否真正转化为‘深度推理’——毕竟,堆token容易,堆智能难。