刚看到Claude 4发布的消息,200K上下文窗口确实很吸睛,但我觉得这次真正的技术突破是在推理能力上的跃升。资讯里提到编程与数学基准测试全面超越前代,这背后很可能得益于Anthropic在强化学习或检索增强推理上的优化,而不是单纯堆参数。个人经验是,之前用Claude 3处理长文档时,上下文一致性经常在50K token后崩盘,如果Claude 4真的能稳定维持200K的注意力分布,那对代码库分析、论文综述这类任务会是一个质变。不过我更关心的是:这200K是“有效上下文”还是“名义上下文”?很多模型宣称超长上下文,但实际上中间段的召回率极低。另外,编程提升具体体现在哪些场景?是单元测试生成、bug定位,还是复杂架构设计?从行业格局看,Claude 4这次明显在跟GPT-4打差异化,瞄准高精度推理和长文档场景,这会迫使Google和OpenAI加速调整策略。大家跑过benchmark了吗?来聊聊实际体验,特别是长上下文下的表现。