实测 MiniMax M2.7：AI 狠起来，连自己都卷

龙虾爆火之后，全网的注意力都盯着「它该怎么用」——本地部署还是云端、一键安装还是敲命令、要不要接微信飞书……反而没人再认真问那个老问题：驱动龙虾的那颗「大脑」，够不够聪明？
这倒不奇怪。OpenAI 和 Google 最近发布的几款新模型，清一色都是 Mini、Flash 款，官方潜台词几乎写在脸上：专门给 Agent 大量消耗 Token 准备的。
模型本身的能力边界，反而成了最不被讨论的话题。
一个真正适配龙虾的模型，除了 Token 要量大管饱还实惠，更多的是模型要足够聪明、动手能力和学习能力足够强。
最近，MiniMax 正式推出了全新的 MiniMax M2.7 模型，主打「
开启 AI 的自我进化
」和做「
最强的 Cowork Agent 模型
」，既能处理代码工作、常见的 Office 任务，还能主动学习构建稳定的 Agent 系统。
具体来说，
它能做好的工作比大多数模型要更宽
。对于写代码，M2.7 能真正理解一个系统在运行时发生了什么，做到了 SRE（网站可靠性工程）级别的系统推理，看日志、关联时间线、推断根因、给出有优先级的处理方案。新模型在 SWE-Pro 上跑了 56.2%，几乎追平 Opus 4.6。
办公场景里它已经够用了
。 Excel、Word、PPT 的复杂编辑和多轮修改，M2.7 在这块有明显提升，金融分析这类需要专业知识 + 格式交付的场景尤其明显。不能说它可以完全替代专业人士，但是真正进入工作流，作为辅助完全可以。
它在多 Agent 协作里不会「断掉」
。这是 M2.7 专项打磨的能力，多角色场景下边界清晰，面对包含 50+ Skills 的复杂环境，依然能保持极高的指令遵循能力。
然后是这次更新的重点，
它开始参与优化自己了
。 MiniMax 说 M2.7 是他们第一个深度参与迭代自己的模型，不只是「辅助迭代」，是「深度参与迭代自己」。能够自我进化，M2.7 可以自主迭代 Agent Harness（智能体脚手架）来胜任大部分的工作流。
实战能力的提升，也让 MiniMax M2.7 一发布就在龙虾榜上迅速攀升，来到了最高分排行榜的第四名。
PinchBench 排行榜是为 OpenClaw 量身定做的模型评估基准，它测试的是大模型在 OpenClaw 真实业务场景下的表现，图中为任务成功率指标，MiniMax M2.7 排名第四，在 Claude Opus 4.6 之后｜https://pinchbench.com/
我们也在 Claude Code、本地部署的龙虾里，都接入了 MiniMax M2.7 模型，以及 MiniMax 提供的 MaxClaw，然后把真实的开发过程中遇到的 Bug、枯燥的金融数据，还有大量的长流程任务统统交给它。
两天的测试下来，我们发现不仅软件要为了 AI 重做，就连 AI 模型本身，除了要理解人类的用意和产出人类满意的结果，
模型更需要懂得 AI 的工作方式和工作流，还得学会自己优化自己
。
用 AI 的工作流当人类的助手
在 OpenClaw 等 Agent 框架爆火后，真正的「AI 时代工作流」应该是，AI 作为核心运转枢纽，去调用几十个工具、去指挥其他 AI 队友、甚至去优化 AI 自己的代码。
在测试 MiniMax M2.7 是如何自我进化之前，我想先看看它的 AI 工作流如何。它到底是不是一个好用的 Agent 模型，还是说拿去跑个 benchmark 好看，实际用起来一言难尽。
我们从知名的机器学习挑战赛 Kaggle 的网站上下载了一份股票的历史数据，然后按照比赛的要求，告诉 MiniMax M2.7 帮我实现对应的需求，即根据给定的数据，进行合适的数据处理和特征工程，为我生成一份可视化的分析报告。
整个数据集的内容相当庞大，有超过 3000 行的表格数据，整体文件大小来到 446.35 MB。把 5 个表格数据文件下载到本地之后，我们使用接入了 MiniMax M2.7 的 Claude Code 来完成这项工作。
要做好这份分析，需要模型是个数据分析师完成数据清洗和整理、宏观分析师完成对应的金融市场的洞察、统计分析师完成初步的数学建模、算法工程师要建立对应的模型，最后还有网页工程师要交出一个可视化的方案。
面对这样一个复杂的任务，MiniMax M2.7 充分利用了我已经安装的各种 Skills，它先使用 Anthropic 官方提供的 xlsx 完成了表格数据结构的信息读取，接着开始编写 Python 代码，自动安装 Pandas 库（常用来处理表格数据），一步一步进行。
最后，MiniMax M2.7 也交出了一份完整的可视化方案，它同时生成了多张图片用来展示收益率分布，不同特征的重要性和类别排名，以及综合仪表盘。
而在可视化的网页里，它利用 Streamlit 库将数据脚本直接转成了可交互的网页系统，所有的信息都可以直接动态查看。
这种大型的项目任务，MiniMax 能够顺利完成，我们日常工作中的办公和编程任务，就更不用说了。
我们先是在手机上操作龙虾，让它帮我总结我放在电脑上的文件，然后要求 MiniMax M2.7 根据这份文件，帮我写一个研究计划 Word 文件，再整理一份相关论文的 Excel 文档，最后是一个用来组会做汇报的 PPT 文档，直接在手机上就能操作。
接入 MiniMax M2.7 的龙虾能快速回应需求
Office 三件套的处理如今是不在话下
在办公领域的优势，也让 MiniMax M2.7 在衡量专业知识与任务交付能力的 GDPval-AA 评测中，ELO 得分达到了 1495，国产模型最高。
前段时间，AI 工作助手的可视化面板很火，把龙虾放到了真实的二次元风格办公室里，用一句话就能安装到自己的 OpenClaw。我们也成功让这只 Appso 小龙虾有了自己的家，但是如果我想要修改二次元房间布局，可以怎么做呢？交给 MiniMax。
在 OpenClaw 的可视化本地界面里，我们直接发送「我想修改这个小房子的风格该怎么做？」，MiniMax M2.7 会自动阅读项目的代码，然后告诉我们哪些地方是可以修改的，如何修改。
由于我输入的要求是科技编辑部办公室的风格，然后它就帮我修改成了有星球大战的海报，还加了十几个人坐在电脑前面码字。
不过我们没有在 OpenClaw 内配置 Nano Banana Pro 的 API Key，所以 MiniMax M2.7 在 OpenClaw 里帮我选择了用代码的方式来生成简单的图片。
接着和它聊天，我们还能根据这个风格设计一个编辑部大亨的游戏，谁做的任务多，谁的办公室就大，就能升级。
如果是 MiniMax 官方的 MaxClaw，是直接支持多模态的生成，可以一步到位生成视频、音频、图片等，不需要配置额外的 API。
我们使用官方提供的 gif-sticker-maker Skill 生成了几张马斯克的表情包。云端部署的 MaxClaw 能确保运行环境的足够安全，但是它不允许我们像操作本地电脑一样，任意安装不同的库文件。
最后在将视频转成 GIF 时，MaxClaw 提醒我，它没有足够的权限将 ffmpeg（一个开源

实测 MiniMax M2.7：AI 狠起来，连自己都卷

讨论 (0 条)