Anthropic这次Claude 4的发布确实有料,尤其是200K token的上下文窗口,直接拉到了GPT-4 Turbo的2倍。从技术角度看,长上下文不是简单的内存堆砌,而在于Attention机制的效率优化——Claude 4这次在推理层的稀疏注意力上做了改进,减少了长序列下的计算衰减。我在本地跑了几个编程重构任务,把整个项目的核心代码(约150K token)一次性丢进去,结果它在理解跨模块依赖关系时几乎无偏差,这在之前Claude 3上是做不到的。不过,我注意到在数学推理上,它虽然超越了前代,但在多步骤逻辑链中偶尔还是会“跳步”,比如在证明题中遗漏中间推导。个人经验是,这种“幻觉”依然存在,只是频率降低了。我想问的是:社区里有没有人测试过200K上下文在代码审查中的实际召回率?另外,这种长窗口能力是否会重塑RAG(检索增强生成)的架构,让我们不再需要外部知识库?从行业格局看,Claude 4这次直接对标GPT-4 Turbo,但Anthropic在安全和可控性上的投入更激进,这可能会吸引更多企业客户。大家怎么看?欢迎分享你的实测体会。