事情是酱的。
这天我在AA榜上看前28的模型感到有点陌生。
上周太集中发的后果就是光在用GPT -5.5了,小米的Mimo-V2.5-Pro,DeepSeek V4 Pro还没有放在Agent的场景上测。所以我跟钱包一拍即合,复制了4个一模一样的Hermes Agent,
记忆一样,skill一样,系统设置一样,能调用的工具也一样。
我只换模型。
这次的4个候选是GPT 5.5、MiniMax M2.7、DeepSeek V4 Pro和小米Mimo-V2.5-Pro,默认能开高推理就上高。
为什么没上Opus?
API太费钱,账号额度不敢打满,比起作为Agent的主力还要长时间不掉线的模型,它还是更适合养在web端上,至少我这样Claude Design能爽用。
那我们先用30s简单回顾一下这次横测的选手们!
DeepSeek V4 Pro最近还刚开了识图模式,5月底之前都是2.5折。V4 Pro的总参数量1.6T,比V3.2翻了两倍多。
这四个模型的API价和订阅价我都放在后面用表格对比了,所以我们先看后续。V4 Pro这几天有被发现放在Agent场景上识别本地的Skill不成功,执行高风险动作的时候也没有询问的,用人话说就是Agent框架失效了。
还有说V4 Pro巨烧token的,同样的任务是sonnet 4.6 medium的8倍。
我太好奇了我。
Mimo-V2.5-Pro也传很猛,能跟和GLM 5.1打得有来有回。但额度也烧超快,据说是一个5分钟编程任务月额度就没了50%。
我更好奇了我。
所以才有了这次的四个模型搭配,选MiniMax M2.7是因为它的Codng Plan真的量大管饱。这段时间MiniMax开源了自家CLI,在一个coding plan里还用视频生成,音乐生成和语音合成模型,不需要额外去接MCP server,额度也是分开计算的。
长话短说,
我这次设计了5个Agent任务,但不想写成机械的case1、case2、case3。那太像实验报告,读起来也没劲。
你可以把它理解成5关,包括Skill打包,网页开发,PPT设计和文案,知识库管理和巨烧token的浏览器自动化。
Here we go!
第一关,
让模型把Claude Design提示语打包成可发布的skill。这一步是文档整理的升级版,Hermes自己也会时不时被动触发新建Skill,如果说一个模型连稳定把我们的经验打包成Skill都做不到的话,下面救不用测了。
把我提供给你Claude Design提示语(/Users/carl/Downloads/Claude-Design-Sys-Prompt.txt)整理成一个可线上发布的skill。
目标不是复制提示语,而是把它封装成别人装上就能用的能力包。
输出后自检一次,指出这个skill可能出错的地方。
PS:模型他们用到的Hermes是完全复刻了我本地已经用了几个月的原型,所以并不会出现说一些专有名词完全不懂,或者是一些约束完全不知道的情况。
实际上手就会很明显发现就算记忆备份一样,不同模型说话的风格就是很不同。
GPT 5.5列出了它在原版提示语提到的一些能力,然后去掉了一些很明显的约束条件,因为这些放到别的模型或者别的环境的时候不会起作用,然后也为了线上发布,在这个skill上做了这个命名规避,整体来说就是一个很标准的答案。
MiniMax 2.7在打包的过程发现了更多的细节,包括因为它只是一个提示语,里面提到的很多环境都是没有的,所以直接打包成Skill的时候,会把这些理想化的条件设定进去。
2.7还觉得现在Skill的触发条件不够宽。现有的触发只给了设计关键词,但是如果我说给我做一个好看的页面的时候,是不会触发的。
发现这个Skill有缺陷的时候,比方说JS或者是动画组件不完整。他也给了我对应的解决方案,要不要去联网搜索来去补足。所以这个skill后续的完整性我觉得是会更好。
DeepSeek V4 Pro同样是自检出了不少的问题。
我觉得给我的一个惊喜就是不像开头听到的,Agent框架的约束不起作用,至少在这个case上也没有明显体验到,甚至是提出了一些我在之前用Claude Opus 4.6打包这个skill的时候,我没看到的一些潜在的问题,
所以我也很好奇,后面让他用自己打包好的skill做网站设计的时候,表现会是怎么样的。
小米这个就跟其他三家都不太一样了。
他先是看到我本地已经有一个打包好的 Claude design skill,他觉得这个skill已经非常完善了,去检查了一下它有没有什么问题。
当我明确给他答复,我们要打包成为一个新的skill之后,他又给了我打包了个新的,自检结果大家也可以看出来不一样了。他更多的是针对这个skill在触发的过程中,会遇到什么使用问题。
马上到第二关,
基于这个skill做个人网页。
这关测的是审美迁移,很多模型会背Skill里的设计词,但做出来还是公式模板味。
我直接就是把一个简历和公开知识库的链接作为这次的数据源。
加载刚生成的Claude Design风格skill,为卡尔做一个个人网页单页,让陌生人快速理解卡尔的价值。
按照你对卡尔的理解,还有他的简历(/Users/carl/Downloads/2026-04-22__文档_其他__简历(23-03-06).pdf),以及他公开的知识库
(https://aiwarts101.feishu.cn/wiki/MZTNwQ7b9i1dyXklFxzcirOxnRg?fromScene=spaceOverview)。
卡尔想要一个交互超级不一样的页面。
结尾说明你的视觉决策。
PS:每个都配了飞书Cli,所以他们读取的知识库是有快100个表格和文档的。
GPT 5.5,
我只能说学Claude有点有点子学到精髓了。但是也不知道它是怎么去做这个定位跟整个尺寸的放大缩小了,可以看到它那个页面跟它里面的这些组件不是说完全对位的,整体是往左边上面缩小的。
虽然说它有一个比较有意思的互动,包括中间的SVG点击可以跳转不同的页面,以及右下角的这个一个提问,可以问问题给出答案,
但是整体来说我只能说,在大家都只有一次修改的机会上, GPT 5.5这不能说是一个成品。
MiniMax M2.7优先保留了页面的完整性,然后再去做整体的设计和互动。
而且它的互动也是有巧思在里面的。我是程序员,所以它给我保留了这个输入光标,然后用一些动态图表去做成果展示,底部也留下了我的联系方式。
我觉得一个比较难得的细节就是它的中英文字体搭配不丑,很多模型要么就是中英文混杂会很奇怪,要么就是只擅长做一种语言,纯中文或者纯英文,然后再用i18n切换。
DeepSeek这脑回路跟大家想的都不一样,他根据了我们知识库过去分享的一些内容,想出了用鼠标作为探照灯,然后去看四个角跟中间的一部分,我有一些什么样的信息。
比较可惜的就是中间那一页被知识库的信息所污染了。这里面的信息居然全都是Hermes和OpenClaw的一些特点。所以我只能说交互方式我觉得还蛮惊喜的,跟V3.2还是有比较不一样的,但在这个长文知识处理上,比我想象中差点。
小米的话,网页就更贴合普通的个人网站了,
在第四页做