别在Benchmark里卷，去定义你自己的标准

硅谷最近弥漫着一种“AI绝望论”：基础模型每个月都在变强，所有建在模型之上的应用公司都变成了一层迟早会被吞掉的“薄壳”。投资人觉得，除了算力和前沿模型，什么都不值得投了。但知名投资人、Conviction创始人Sarah Guo并不认同这套逻辑。她认为，这套逻辑只对了一半：凡是能被Benchmark测量的工作，都已经走在通往商品化的路上，模型会从上下两头同时吃掉这些“可读的工作”。而真正有价值的工作，从一开始就是Benchmark测不出来的，它存在于某家公司的私有数据里，锁在外人进不去的系统中，需要靠许可、问责、信任和长期集成才能建立。Sarah Guo用软件工程领域的案例来阐释她的观点。2024年Devin发布时，在SWE-Bench上只解决了13%的任务，被普遍嘲笑。一年半后，最好的智能体冲到80%多，并且已经在高盛和美国陆军内部承担真实工作。MIT的Mert Demirer与合作者研究发现，在超过10万名开发者的样本里，最新的coding agents让代码写出量提升了约180%，但真正上线发布的代码只多了约30%。这说明写代码变便宜了，但剩下的那一大段——比如理解一个十年老代码库中某个模块存在的理由、维护部署流水线、赢得团队信任——仍然要靠人来解决。通过单元测试，从来不等于改对了，因为真正的正确性不仅是私有的，更是资本无法压缩的“慢护城河”。Sarah Guo强调，当智能开始变得更便宜时，真正的价值会持续滑向模型够不到的少数地方。对于应用公司来说，他们的机会是在“不可读”价值上建立商业模式。能在一个行业里定义什么是好，往往是因为这个行业已经在用你了，而这些公司是靠真实采用的硬仗挣来的这种资格。她观察到，每一家公司都让所有工程师用上了前沿编码模型，但没有一家公司以接近那个速度在重构组织或改变工作方式。推动人，是任何基准都无法触及的部分：让一位心存疑虑的合伙人改变她处理案件的方式，让一支团队在重构中不散架。所以，真正的自动化不只是模型变强，它是产品、模型、工作流、公司四者一起向前移动，而后三者跑的是组织的速度。OpenAI推理模型的开拓者Noam Brown最近写道：要评估一个智能体在一年时间尺度上是否靠谱，唯一可靠的办法，可能就是让它真的跑一年。Sarah Guo给出的建议很明确：不要在别人的Benchmark里卷，去定义你自己的Benchmark。2026年，当智能成本趋近于零时，那些能定义“什么是好”的公司，将拥有真正的护城河。对于AI从业者和创业者来说，与其焦虑于模型能力的边界，不如专注于那些模型够不到的、需要长期信任和领域知识的“不可读”价值。

别在Benchmark里卷，去定义你自己的标准

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%