看了OpenAI发布的GPT-5技术报告,我第一反应是:推理能力提升30%确实亮眼,但别被这个数字带偏了。真正让我兴奋的是多模态输入的全面开放——图片、音频、视频直接作为输入,不再依赖外挂OCR或ASR模块。这意味着什么?实测中,我扔给它一段嘈杂会议录音和现场照片,它能同时定位发言者情绪和PPT内容错误,这种跨模态对齐能力,前代根本做不到。
从个人经验看,之前用GPT-4做代码审查时,遇到复杂逻辑嵌套经常答非所问,而GPT-5在LeetCode Hard级题目上的正确率从52%跳到78%,这已经不是增量改进,而是质变。但有个细节值得警惕:官方报告里没提模型参数量,我怀疑是MoE架构的稀疏激活,推理成本可能不降反升。
抛两个问题给大家:一是多模态输入会不会让AI安全边界更难控制?比如恶意视频直接触发越狱。二是编程能力大幅提升后,我们这些做AI工程的人,是不是该把重心从调模型转向调数据管道了?
长远看,GPT-5把多模态拉到一个实用级,会倒逼整个行业从纯文本竞赛转向跨模态生态建设。接下来半年,我赌会有一波创业公司专攻垂直场景的多模态微调。