看了Claude 4的发布,最让我兴奋的不是200K上下文窗口——说实话,这个参数在长文档处理上确实有用,但真正让我意外的是它在编程和数学基准上的提升幅度。根据官方数据,Claude 4在HumanEval和GSM8K上的表现已经超越了GPT-4和Claude 3,这意味着推理能力不再是Anthropic的短板。个人经验来看,之前用Claude 3做复杂代码重构时经常出现逻辑断层,尤其在多步骤推理任务中容易‘迷路’。这次升级后,我在本地跑了几个LeetCode hard题,Claude 4的解题思路明显更连贯,甚至能主动指出边界条件,这在前代是很少见的。不过,我有点怀疑200K上下文在实际应用中的性价比——长上下文意味着更高的计算成本,而且很多场景下根本用不到这么长。抛个问题:大家觉得在RAG(检索增强生成)场景中,200K上下文能替代向量数据库吗?另外,从行业格局看,Claude 4这次在推理上的追赶,可能会迫使OpenAI在GPT-5中更激进地优化上下文效率,而不是单纯堆参数。欢迎实测过的小伙伴来聊聊真实体验。