{ "title": "Claude 4的200K上下文真能实战?编程性能实测存疑", "content": "看完Claude 4的发布消息,我第一反应是兴奋,但细想后有几个技术点想和大家探讨。首先,200K token上下文窗口确实亮眼,但个人经验里,长上下文模型的‘有效注意力’一直是个坑——很多模型在长文本末尾的召回率会断崖式下跌。Anthropic这次有没有公布具体的‘检索准确率’或‘位置偏差’数据?如果没有,那200K可能只是纸面参数。其次,编程和数学超越前代,我好奇他们用的基准测试是HumanEval还是更难的SWE-bench?如果是HumanEval,那很多模型已经接近饱和,边