先抛结论:Claude 4在编程和数学基准上的提升不是虚的,尤其是多步推理任务,比如代码重构和复杂算法调试,我拿一个生产级微服务项目实测,其上下文理解连贯性明显优于Claude 3。但200K token的上下文窗口,说实话在工程落地时有点‘虚胖’——当输入超过80K token时,中间段的召回率开始衰减,类似‘lost in the middle’问题依然存在。个人经验是,如果你真要处理长文档,最好还是分段检索+动态注入,别指望全量塞进去就能完美推理。

我比较好奇的是,Anthropic这次是否用了类似‘滑动窗口注意力’或‘稀疏激活’的架构优化?因为从响应速度看,长上下文下延迟并没有线性增长,这可能是推理性能提升的关键。另外,在代码生成场景下,Claude 4对类型推断和边界条件的处理比GPT-4更细致,但偶尔会过度工程化,生成一些非必要的抽象层。

想问两个问题:1)有人试过用Claude 4做RAG的reranker吗?它的长上下文是否适合直接替代检索步骤?2)在数学证明这类需要严格逻辑链的任务中,你们遇到的最长有效推理步长是多少?我测到15步左右开始出现逻辑跳跃。

行业来看,Claude 4的推理能力提升可能加速‘AI辅助开发’从代码补全向全流程设计演进,但长上下文的工程陷阱提醒我们,模型能力再强,系统架构设计依然是瓶颈。