刚看完OpenAI发布的GPT-5技术文档,有几个点想和大家讨论下。

首先,推理能力提升确实惊人,在GSM8K和MATH这类数学推理基准上,GPT-5比GPT-4提升了约30%,编程任务(HumanEval)也接近90%的通过率。但个人经验是,这类静态基准测试往往有“数据污染”嫌疑——模型可能见过类似题目。我更关心的是它在复杂逻辑链条(比如多步因果推理或法律条文矛盾检测)上的表现,目前公开资料里缺乏这类“非标准化”测试的细节。

其次,多模态输入从图片扩展到视频和音频,这无疑拓宽了应用场景。但我质疑其“端到端”的融合质量:比如对视频中连续帧的时空一致性理解,是否真的比分开处理后再拼接效果好?如果只是把视频抽帧成图片分别推理,那本质上还是“假多模态”。

技术趋势上,GPT-5的“大力出奇迹”路线(更大模型、更多数据、更长训练)似乎再次验证了scaling law的有效性。但这也引发了两个问题: 1. 推理能力的提升,是源于新的架构设计(比如更深的Transformer层或动态稀疏注意力),还是仅仅靠更海量的合成数据做强化学习? 2. 对于中小团队,这种“暴力美学”是否意味着模型微调和部署的门槛反而降低了(因为API更强大),还是说他们会被更贵的推理成本逼到墙角?

期待有实测过的朋友分享下GPT-5在长文本逻辑一致性或实时视频理解上的真实体验。