刚看到OpenAI发布GPT-5的消息,第一时间跑了几个测试集。最直观的感受是:推理能力确实有质的飞跃,尤其是在数学和代码逻辑链上,错误率明显下降。但我觉得这次真正的技术亮点不在推理本身,而是多模态输入的深度融合——GPT-5不再只是“看图说话”,而是能跨模态进行因果推理。比如给出一段电路图加一段故障日志,它能直接定位问题点,这在以前是割裂的。个人经验来看,过去多模态模型常陷入“模态对齐陷阱”,即图像和文本只是浅层映射,而GPT-5似乎做到了特征级交互。不过,我有点怀疑这种提升是否依赖更大规模的合成数据清洗,毕竟数据质量才是瓶颈。想问问大家:你们实测中,GPT-5在长文本推理的连贯性上有没有出现“幻觉衰减”?另外,多模态的引入会不会让模型更依赖视觉特征,从而对纯文本任务产生负迁移?从行业格局看,这波更新直接把多模态门槛拉高,中小团队想靠微调追赶难度陡增,未来可能只有算力和数据双强的大厂能玩转端到端训练。欢迎拍砖讨论。