字节跳动的Seed模型一直处于一种微妙的尴尬中。豆包产品在C端风生水起,但作为技术基座的Seed系列却始终不温不火,甚至被戏称为糖包,成了一个形容模型平庸的梗。这次Seed 2.1 Pro的发布,字节特意强调了编程和长任务执行能力,试图补上Coding这块拼图。但根据葬AI基准测试的最新结果,这款模型依然没能摆脱平庸的重力。测试采用10轮独立的Opencode会话,让模型重构葬AI网站,由Codex调度打分。Seed 2.1 Pro的最终得分与MiniMax M3相近,略低于Kimi K2.7 Code,与国内编程第一梯队的GLM 5.2有明显差距。最致命的问题在于工程能力的不稳定:模型在10次测试中产出了3个高分产物,但低分产物同样频繁出现,导致总得分被拉低。特别是在知识图谱这类相对复杂的前端任务上,Seed有6次直接生成了空白图谱,失败率高达60%。另一个让开发者头疼的问题是速度。Seed 2.1 Pro跑完测试任务耗时128.9分钟,仅次于MiniMax M3的153.9分钟,而全场最快的DeepSeek V4 Pro仅用了46.7分钟,Qwen 3.7 Max和Step 3.7 Flash也分别只用了53.3和57.4分钟。速度慢的背后是高调用数——Seed共调用模型449次,远超GLM 5.2的321次和Qwen的218次,与Step 3.7 Flash的443次相当。这直接推高了成本,在没有折扣的火山引擎调用下,Seed完成测试花费41.3元,与GLM 5.2持平,但远高于DeepSeek、Qwen和MiniMax的20元左右。当然,字节自己发布的榜单也坦承了这一点。凯一指出,Seed的通用能力其实更好,并非编程专精模型,如果测试深度调研、数据爬取等长程任务,Seed可能反而优于GLM。但问题在于,当前模型厂商全都在卷编程,Seed这次更新也主打任务执行和编程能力,测试结果却暴露了有效产物命中率仅55.6%的短板——10轮测试中有8个无效进程,而GLM只有3个,Kimi和Step各只有2个。对于AI从业者而言,如果你需要的是稳定的编程助手,Seed 2.1 Pro目前还不是最优选;但如果你更看重通用任务执行和长程规划能力,它或许值得一试。性价比榜单上,阶跃的Step 3.7 Flash反而成为惊喜,能力得分接近DeepSeek V4 Pro,成本却更低。