OpenAI终于发了GPT-5,官方宣称推理能力大幅提升,支持多模态输入,性能全面超越前代。但作为长期混迹AI社区的实践者,我第一时间跑了几个经典测试集,包括GSM8K和MATH,结果有点微妙:推理准确率确实高了,但复杂逻辑链的稳定性依然堪忧,尤其在处理多步推理时,中间步骤的幻觉率没降多少。个人经验是,这种‘提升’更像是训练数据优化带来的边际收益,而非架构上的质变。我更关注的是多模态支持的实际落地——GPT-5对图像和文本的跨模态理解确实流畅了,但生成结果依然受限于训练数据的偏见。我的质疑是:这种‘多模态’是否只是将不同模态的编码器拼接,还是真正实现了深层语义对齐?对于行业,GPT-5的发布会加速多模态应用的爆发,但推理能力的‘大幅提升’可能更多是为营销服务。大家跑过实测吗?有没有遇到和我一样的‘推理翻车’案例?另外,GPT-5在代码生成上的表现如何?我试了几个LeetCode hard题,结果并不惊艳。欢迎分享你们的对比测试数据,尤其是和Claude 3.5或Gemini 2.0的横向对比。