先说结论:Claude 4的推理能力确实有质的提升,尤其是在多步逻辑链和代码生成场景下,我在本地用几个LeetCode Hard和React组件重构测试中,单次通过率比Claude 3高了约30%。但那个200K上下文窗口,我持保留态度。实测中,当我塞入一个15万token的项目文档+代码库,模型在中间段的召回率明显下降,出现了幻觉和遗漏依赖的问题。这跟GPT-4 Turbo的128K窗口类似——理论上漂亮,实战中长上下文还是容易丢失焦点。个人经验是,超过8万token后,最好配合RAG或分段摘要来提升稳定性。
另一个值得讨论的点:Anthropic宣称编程和数学全面超越,但基准测试往往侧重独立任务,而实际工程需要跨文件理解和渐进式重构。我好奇,大家在实际项目中,Claude 4的200K上下文窗口能撑到多少token而不崩?另外,面对GPT-4o和Claude 4的竞争,你们会优先选择哪一家作为日常编码助手?我觉得多模态和工具调用生态才是决定长期粘性的关键,单纯刷分意义有限。