刚刷完Claude 4的技术文档,核心亮点无疑是200K上下文窗口和推理能力的跃升。注意Anthropic强调的不仅是长度,而是‘有效利用’——这暗示了注意力机制或位置编码的改进,而非单纯堆算力。在编程和数学基准上超越前代,MATH和HumanEval的得分提升约15-20%,但个人经验是,这类基准对复杂工程任务(如多文件重构)的参考价值有限。我好奇的是:200K上下文在真实项目中是否会加剧‘中间遗忘’问题?比如处理超长代码库时,模型是否仍对关键逻辑片段‘视而不见’?另一个问题是:推理增强是否依赖更多算力?如果是,那对小团队部署的成本压力不小。从行业看,Claude 4正在倒逼GPT-5加速,但若上下文与推理的平衡未解决,可能只是‘军备竞赛’的阶段性成果。期待有实测数据来验证这些猜想。