OpenAI终于放出了GPT-5,官方宣称推理能力大幅提升,多模态输入也终于落地。作为一个从GPT-3就开始折腾的老用户,我第一时间跑了几个基准测试,包括GSM8K和MATH。数据上看,GPT-5在复杂数学推理上确实比GPT-4 Turbo提升了约15%,尤其是多步逻辑链的连贯性明显改善。但个人经验告诉我,这种提升在真实场景中未必线性——比如我试了个跨模态的物理问题(图像+文字描述),它依然会在常识性约束上翻车,比如忽略重力加速度的默认值。多模态输入确实是亮点,支持图像、音频同时输入,但处理延迟比纯文本高了近一倍,对于实时应用来说有点鸡肋。我反而好奇,这种推理能力的提升到底是因为训练数据更干净了,还是模型架构真的改了?另外,OpenAI这次没有公开参数规模,会不会是MoE架构的变体?行业里,这波升级大概率会倒逼Google和Anthropic加速迭代,但差距可能没想象中大。大家在实际项目中跑过GPT-5吗?有没有发现它特别擅长或特别拉胯的任务?欢迎分享实测结果,咱们一起扒一扒它的真实水平。