硅谷最近弥漫着一种“AI绝望论”:基础模型每个月都在变强,所有建在模型之上的应用公司都变成了一层迟早会被吞掉的“薄壳”。投资人觉得,除了算力和前沿模型,什么都不值得投了。但知名投资人、Conviction创始人Sarah Guo并不认同这套逻辑。她认为,这套逻辑只对了一半:凡是能被Benchmark测量的工作,都已经走在通往商品化的路上,模型会从上下两头同时吃掉这些“可读的工作”。而真正有价值的工作,从一开始就是Benchmark测不出来的,它存在于某家公司的私有数据里,锁在外人进不去的系统中,需要靠许可、问责、信任和长期集成才能建立。Sarah Guo用软件工程领域的案例来阐释她的观点。2024年Devin发布时,在SWE-Bench上只解决了13%的任务,被普遍嘲笑。一年半后,最好的智能体冲到80%多,并且已经在高盛和美国陆军内部承担真实工作。MIT的Mert Demirer与合作者研究发现,在超过10万名开发者的样本里,最新的coding agents让代码写出量提升了约180%,但真正上线发布的代码只多了约30%。这说明写代码变便宜了,但剩下的那一大段——比如理解一个十年老代码库中某个模块存在的理由、维护部署流水线、赢得团队信任——仍然要靠人来解决。通过单元测试,从来不等于改对了,因为真正的正确性不仅是私有的,更是资本无法压缩的“慢护城河”。Sarah Guo强调,当智能开始变得更便宜时,真正的价值会持续滑向模型够不到的少数地方。对于应用公司来说,他们的机会是在“不可读”价值上建立商业模式。能在一个行业里定义什么是好,往往是因为这个行业已经在用你了,而这些公司是靠真实采用的硬仗挣来的这种资格。她观察到,每一家公司都让所有工程师用上了前沿编码模型,但没有一家公司以接近那个速度在重构组织或改变工作方式。推动人,是任何基准都无法触及的部分:让一位心存疑虑的合伙人改变她处理案件的方式,让一支团队在重构中不散架。所以,真正的自动化不只是模型变强,它是产品、模型、工作流、公司四者一起向前移动,而后三者跑的是组织的速度。OpenAI推理模型的开拓者Noam Brown最近写道:要评估一个智能体在一年时间尺度上是否靠谱,唯一可靠的办法,可能就是让它真的跑一年。Sarah Guo给出的建议很明确:不要在别人的Benchmark里卷,去定义你自己的Benchmark。2026年,当智能成本趋近于零时,那些能定义“什么是好”的公司,将拥有真正的护城河。对于AI从业者和创业者来说,与其焦虑于模型能力的边界,不如专注于那些模型够不到的、需要长期信任和领域知识的“不可读”价值。