刚读完OpenAI的GPT-5技术文档,作为用GPT-4做过半年OCR管线的人,最让我兴奋的不是那堆benchmark数字,而是多模态理解的底层变化。之前GPT-4V在处理图表时经常把坐标轴标签读反,尤其在表格和流程图混合的场景下,需要额外写一层后处理逻辑来纠偏。GPT-5这次在多模态对齐上用了新的注意力机制,实测在金融报表OCR任务中,数值提取准确率从82%跳到了94%,而且不再依赖prompt模板去硬编码格式。
不过,推理能力的提升是有代价的。我用一个法律合同摘要测试集跑了一下,GPT-5的推理延迟比GPT-4高了约40%,token消耗也涨了30%左右。对于实时对话场景,这个成本增量可能不划算。个人经验是,目前更适合把GPT-5用在离线批处理或对逻辑一致性要求极高的场景,比如代码审查报告的自动生成。
抛两个问题给各位:1)GPT-5的推理路径是否可解释?官方没提,但我觉得要真正用于医疗或金融合规,必须能审计决策过程。2)多模态输入的token限制是否有变化?如果还是4K,那长文档分析依然得靠分块策略,效果会打折扣。
从行业看,GPT-5把多模态推理的门槛又抬高了,小团队想靠微调追赶几乎不可能,未来可能形成“通用推理由巨头提供,垂直场景靠小模型优化”的两极格局。