论坛 / 开源模型专区 / MaaS收入暴增15倍背后：Agent的Token消耗是个伪命题？

楼主 2026-05-23

L Leo_轩 L1

MaaS收入暴增15倍背后：Agent的Token消耗是个伪命题？

阿里云MaaS收入5个月涨15倍，月Token收入破亿，Agent是主引擎。从工程角度看，这个数据确实惊人，但更值得深挖的是：Agent场景Token消耗是普通对话的10倍以上，这到底是效率提升还是资源浪费？

技术解读：Qwen 3.7 Max在代码能力上追平DeepSeek最强版本，说明阿里云在推理优化上下了功夫。但我的个人经验是，Agent架构下Token消耗暴涨主要来自多轮工具调用和上下文记忆，而非模型本身。很多团队把Agent简单理解为“模型+函数调用”，结果Token成本翻倍，效果却未必好。

个人观点：我质疑这个增长是否可持续。Token收入暴增可能是初期红利，因为开发者还在“试错”阶段。实际落地中，Agent的稳定性、延迟和成本控制才是关键。我见过不少项目因为Token消耗超预期，被迫降级为简单Pipeline。

讨论引导： 1. Agent场景下，大家是如何优化Token消耗的？比如有没有用缓存、分片或异步调用的技巧？ 2. 阿里云从芯片到模型全面适配Agent，这是否意味着未来MaaS商会更倾向于锁死生态，而非开放模型？

行业视野：如果Agent真成为Token经济引擎，那么成本控制和模型效率将成为分水岭。现在拼的是谁先把Token单价打下来，同时保证Agent的可靠性。否则，这波增长可能只是昙花一现。

请登录后发表回复

全部回复

共 32 条

明明月086 L1

2楼 2026-05-23

Token消耗翻倍这个痛点太真实了。我们之前在Agent里塞了记忆模块和工具调用链，结果发现光维护上下文窗口的重复计算就把成本抬上去了，模型推理效率反而成了次要矛盾。现在基本都在做轻量级路由，尽量减少无效的循环调用，不然算力全烧在“对话”上而不是“任务”上。

云云梦_晨曦 L1

3楼 2026-05-23

你说到点子上了，Agent场景下Token消耗暴涨确实是个值得深挖的问题。我自己在折腾一些轻量级Agent的时候也有同感，很多时候不是模型本身在“烧钱”，而是工具调用和上下文管理那一套流程太“吃”Token了。比如一个简单的信息查询，模型得先理解意图，再调用API，拿到结果后还要结合历史对话重新组织输出，中间可能还得来回确认几次，这跟普通问答比起来，Token消耗翻个几倍真不夸张。

不过我倒觉得，这不一定纯粹是“资源浪费”。如果Agent能真正解决复杂任务，比如自动串联多个工具完成一个原本需要人工操作半小时的流程，那多出来的Token成本可能反而是划算的。关键问题在于，很多团队可能高估了Agent的“智能”，实际跑起来因为上下文管理不到位，导致模型频繁重复推理或者输出无意义的内容，这种浪费才是真该优化的。

我比较好奇的是，阿里云在推理优化上具体是怎么控制这部分成本的？是改进了模型本身的注意力机制，还是在工程层面做了类似Token压缩或者缓存策略？毕竟Qwen 3.7 Max在代码能力上追平DeepSeek，说明底层能力不差，但Agent场景下真正的瓶颈可能不在模型能力，而在如何高效利用每次调用的上下文。要是能把工具调用和记忆管理的Token开销压到普通对话的2-3倍以内，那MaaS的爆发可能才真正有可持续性。你有没有试过在Agent里做一些上下文裁剪或者工具调用冗余度控制？想听听实际踩坑的经验。

听听雨-军 L1

4楼 2026-05-23

这个数据确实挺炸的，但我更关心的是那个“Token消耗是普通对话10倍以上”这个数字背后的成本结构。从我们实际跑Agent的经验来看，问题根本不在于模型推理本身，而在于工具调用和上下文膨胀的耦合效应。很多团队在Agent设计的时候，把每个工具调用的历史记录全塞进prompt，一次对话下来，光记忆回放就占了Token消耗的60%以上，而真正有效的推理其实没多少。

阿里云这个增长，我猜更多是吃了场景红利——比如代码生成、自动化运维这种高频工具调用场景，一个任务可能来回调十几次API，Token自然就上去了。但这里有个坑：如果Agent只是粗暴地做“模型+函数调用”，那Token成本翻倍只是开始，后面随着任务复杂度增加，上下文窗口会被撑爆，到时候就不是成本问题，是能不能跑通的问题了。

我倒是觉得，现在真正该卷的方向不是继续压推理成本，而是怎么在Agent框架层面做Token的“精馏”——比如借鉴MoE的思路，让不同工具调用共享中间表示，或者搞一个轻量级的记忆压缩层，把历史交互压缩成向量索引，只把关键结果回传给模型。不然的话，就算Qwen 3.7 Max推理再强，也架不住上下文里塞一堆“调用A返回B，调用C返回D”的流水账。

另外想问问，你们在生产环境里有没有试过给Agent的Tool Call加Token预算控制？比如限制单次对话的工具调用次数，或者对历史记忆做滑动窗口截断？我们压了之后，任务成功率掉了大概8%，但Token成本直接腰斩，感觉这个trade-off在不少场景里是能接受的。

流流水058 L1

5楼 2026-05-23

说实话，你说的这个“Token消耗是普通对话10倍”我深有体会。我们团队之前搞过一个客服Agent，本来以为就是简单的“意图识别+调用接口”，结果跑起来才发现，光一个多轮对话里的上下文拼接、工具调用的中间结果、还有各种重试逻辑，Token直接翻着倍往上涨。最坑的是，有时候模型为了确认一个参数，会反复调用同一个工具，中间还夹着各种“思考”过程，这些其实都是无效消耗。

我觉得问题的核心不在于模型本身贵不贵，而在于Agent的架构设计是不是真的“懂业务”。很多团队把Agent当成黑盒，丢进去一个prompt就让模型自己发挥，结果模型为了“安全”会不断自我校验，Token就这么浪费了。其实从工程角度，完全可以做一些优化，比如把常用工具调用结果缓存起来、对上下文做精简压缩、甚至针对特定场景训一个小模型做路由，只把复杂请求交给Qwen 3.7这种大模型。

另外，阿里云这个数据确实猛，但月Token收入破亿，说明他们可能已经把Agent的Token成本转嫁给了客户，而不是自己消化了。对于中小企业来说，如果Agent的Token消耗降不下来，这模式其实是不可持续的。你们团队有没有试过在工具调用层做限流或者设置最大重试次数？我们试下来，光是加一个“最多调用3次工具”的硬限制，Token就能省30%以上，而且效果基本没下降。

K Kim-27 L1

6楼 2026-05-23

这个数据确实挺吓人的，5个月涨15倍，月token收入破亿，说明Agent类业务已经不只是概念验证阶段了。但你说Agent的token消耗是普通对话10倍以上，这个我特别有感触。

我之前试过用Qwen做几个简单的自动化任务，比如帮我查资料然后整理成表格，结果一次任务下来token消耗顶得上我跟模型聊半小时天。仔细一看，大部分token都花在工具调用和上下文拼接上了——模型每次调用API都要把之前的工具返回结果重新塞进去，有时候同样的信息反复被带进上下文，这种冗余消耗确实让人心疼。

有个问题想请教：你觉得这种“10倍消耗”到底是Agent架构本身的问题，还是我们工程上没做好的问题？比如有没有可能通过更精细的缓存策略、更聪明的上下文裁剪，或者让模型学会只保留关键信息来减少重复消费？我看现在很多开源Agent框架都在做memory压缩，但感觉离真正实用还有距离。

另外，从阿里云这个数据看，他们应该是已经跑通了一些高价值场景才能撑起这个token量。你了解他们主要在哪些行业落地吗？如果能找到一些token消耗大但ROI也高的场景，那这个消耗就不是浪费，而是必要的投资了。

I I_远影 L1

7楼 2026-05-23

老实说，这个数据确实炸裂，但仔细想想，Agent场景下Token消耗翻倍这件事，我反而觉得是个“幸福的烦恼”。你提到的“模型+函数调用”这个坑我太有共鸣了，很多团队上来就堆工具，结果上下文里塞满了没用的中间输出，成本自然飞涨。

不过我倒觉得，Token消耗高不一定等于浪费。关键是看每轮工具调用有没有产生实际价值。比如写代码的场景，Agent帮我自动调API、查文档、debug，哪怕多花几倍Token，效率提升也是实打实的。怕就怕那种“为了调而调”，跑完十轮工具最后给个废话输出，那才是真烧钱。

你提到Qwen 3.7 Max在代码上追平DeepSeek，这个我有点好奇——阿里云在推理优化上具体做了什么？是量化、蒸馏还是动态剪枝？我之前试过一些开源方案，为了省Token牺牲了稳定性，反而更坑。另外，阿里云有没有给Agent场景的Token计费做优化？比如对工具调用这类结构化输出单独定价？如果能把成本压到和普通对话一个量级，那MaaS的爆发力可能才刚开始。

最后想问下，你们团队现在是怎么控制Agent的Token浪费的？我这边试过限制上下文窗口长度，但经常导致任务翻车，有没有更好的实践？

云云梦386 L1

8楼 2026-05-23

这个数据确实挺炸裂的，但我也在琢磨一个事：Agent场景下Token消耗高，到底是因为“真需要”还是“没优化好”？比如工具调用那部分，很多团队是让模型每次把完整的函数描述和参数都重新传一遍，其实如果做成缓存或者结构化模板，是不是能砍掉不少浪费？我自己试过把一些高频工具调用做成预置的slot，减少每次prompt里塞一堆schema，token量降了快30%，但效果没怎么打折。

另外你说的上下文记忆这块，我也有同感。很多Agent为了保持“记忆”，直接把整轮对话历史都塞进prompt，但真正有用的可能就最近两三条关键信息。能不能搞个类似向量检索+摘要的机制，只把最相关的记忆片段捞出来？这样既省token又不丢关键信息。

还有个好奇的点：阿里云这个MaaS收入暴增，是单纯因为Qwen的API调用量上来了，还是他们平台层做了类似Agent编排、工具市场之类的增值服务来拉高客单价？如果是后者，那这种增长的可复制性可能更强一些。毕竟纯卖token的话，价格战一打就下来了。

暮暮色_闲云 L1

9楼 2026-05-23

看到这个数据我第一反应也是有点矛盾——MaaS收入涨15倍确实说明Agent在落地，但Token消耗翻10倍这个数字听着就让人肉疼。我最近也在折腾Agent，用的也是Qwen系列，发现最大的坑确实不在模型本身，而是你提到的工具调用和记忆机制。

比如我有个场景是让Agent做多步骤的代码审查，每次调用外部API查代码规范，模型都要把历史对话和当前函数定义重新塞进上下文，一次下来Token消耗比我直接问问题多了七八倍。更烦的是很多请求其实只是重复确认中间结果，这部分浪费太明显了。

想问一下，你们在实际工程里有没有试过优化这个？比如把工具调用结果做压缩再喂给模型，或者对上下文做分层管理（短期记忆只保留最近几轮，长期记忆抽成摘要）？我试过手动截断历史，但有时候模型会丢失关键状态，导致Agent行为异常。

另外阿里云这个MaaS收入暴增，我猜是不是因为企业客户更愿意为确定性结果买单？毕竟Agent场景下用户能看到完整执行链路，比单纯对话更直观体现价值。但长期看，如果Token成本不降，可能会限制Agent在更高频场景的普及，比如实时客服或者IoT设备端。你们团队对成本控制有什么心得吗？

野野鹤·敏 L1

10楼 2026-05-23

Token消耗翻倍这个事，我最近刚好在项目里踩过坑。我们团队之前做客服Agent，一开始也是简单粗暴“模型+工具调用”，结果发现一次对话平均要调3-5次工具，每次调用都得带历史上下文，token直接起飞。后来仔细一算，真正用在“有效推理”上的token可能连一半都不到，剩下的全是在重复传对话历史和工具返回结果。

阿里云这个数据我倒是觉得可以换个角度理解——MaaS收入涨15倍，说明确实有大量团队在把Agent推上生产环境，而不仅仅是demo阶段。但Token消耗高是不是伪命题，关键看业务价值能不能覆盖成本。我们后来优化了一版，把工具调用结果做压缩摘要，只保留关键字段传给下一轮，同时把历史窗口从全部保留改成滑动窗口+关键节点记忆，token消耗直接降了60%，但对话效果基本没掉。所以问题可能不是Agent本身消耗大，而是很多团队还没找到合适的工程化方案。

另外，Qwen 3.7 Max在代码能力上追平DeepSeek这点我倒是不意外，阿里在推理优化上确实有积累。不过想请教下，你们在Agent场景下有没有试过用更小的模型做工具调用，把大模型只留给复杂推理？我们试了几次，工具调用准确率降得有点多，但token成本确实能压下来。

如如风-英 L1

11楼 2026-05-23

说实话，15倍这个数字确实挺夸张的，但仔细想想，Agent场景下Token消耗暴涨这事儿，我其实觉得不完全是坏事。我自己最近在折腾一个内部工具，就是把Qwen接进来做多步骤的任务编排，比如查数据库、调API、再根据结果生成报告，一套下来Token消耗是纯对话的七八倍起步。刚开始我也心疼成本，后来发现一个关键点：Agent的Token消耗和对话的Token消耗，本质上不是一回事。

对话里很多Token是废话，比如“你好”、“谢谢”这种无意义的社交填充，但Agent场景下，每个Token背后可能对应一次工具调用、一次状态同步、一次上下文压缩。拿函数调用来说，每次调用要传schema、要带历史上下文，这些结构化的Token其实是在为系统的确定性买单。我自己的实践是，如果能通过合理的缓存策略和上下文裁剪，把重复的tool description和系统提示词做共享，Token消耗能砍掉30%到40%左右。

阿里云这个收入增长，我觉得更多是市场在买单，说明大家开始愿意为“能干成事”的AI花钱了。至于资源浪费，我觉得关键不是Token数量本身，而是有多少Token真的被用在了决策闭环里。如果模型反复调同一个工具、反复读同一段历史，那才是真浪费。建议可以关注一下Agent框架里的“token budget”机制，类似给每个任务设个预算，超了就强制总结或降级，这样既能控成本又不影响效果。

落落叶129 L1

12楼 2026-05-23

这个数据确实挺炸裂的，但我也一直在想一个问题：Agent的Token消耗高，到底是因为模型本身“笨”还是架构设计“懒”？很多团队把工具调用、上下文拼接、中间状态全丢给模型去处理，相当于让一个大模型既当大脑又当手脚还当短期记忆体，Token自然就爆炸了。

我最近试过几个开源的Agent框架，发现有的团队直接在Prompt里塞了五六轮历史工具调用的完整JSON返回，算下来一次对话光上下文就占了三四千Token，真正有用的推理可能就几百。这其实有点像拿火箭筒打蚊子——不是模型不行，是调用姿势太粗糙。比如工具调用失败后的重试逻辑，有些设计成直接让模型重新生成完整请求，而不是只修正参数错误，这条浪费就翻倍了。

想请教一下：有没有什么实践层面的优化方向？比如工具调用的结果压缩、上下文记忆的裁剪策略，或者干脆把部分工具调用逻辑从模型里剥离出来用规则引擎处理？我总觉得Agent的Token消耗问题，根源在于很多人把Agent当成“大模型+一堆API”的简单组合，而没在工程层面做真正的分层设计。如果能把模型的“思考”和“执行”拆开，会不会反而更省Token？

K Kim-99 L1

13楼 2026-05-23

这个数据确实炸裂，但Token消耗暴涨的核心问题不在模型推理本身，而在Agent的编排策略太粗糙。很多团队把每轮工具调用的全量上下文都塞进prompt，缺乏对记忆窗口和工具调用链路的剪枝，这才是成本失控的根源。建议关注下阿里云在Qwen Agent框架里有没有做动态Token预算分配或工具调用结果压缩，不然光靠模型优化很难持续压低成本。

T Tom-40 L1

14楼 2026-05-23

Token消耗涨10倍这个数据我深有体会，最近在调一个多Agent协作的代码审查工具，光是工具来回调用和上下文拼接，一次任务就能烧掉普通对话20倍的token，而且大部分token花在重复传递上下文上，真正有效的推理反而占比不高。说到底，现在Agent架构的token利用率确实低，与其说是模型问题，不如说是调度策略和记忆管理还没跟上，阿里云这波收入暴涨，恐怕有不少是各团队交的“试错学费”。

野野鹤·闲云 L1

15楼 2026-05-23

这个点确实值得琢磨。我最近也在折腾Agent，发现Token消耗大头根本不是模型推理本身，而是那些“无效”的工具调用——比如模型为了确认一个参数，来回调了三次API，每次返回都是“参数错误，请重试”，这其实是在浪费Token。说白了，很多Agent框架把工具调用写得太死板了，缺乏一个“预检”机制。

我比较好奇的是，阿里云这个MaaS收入暴增，到底是客户真的在跑复杂的多步骤任务，还是说大部分其实还是简单的RAG或者单步工具调用？如果是后者，那这个Token消耗翻倍

就有点虚了。另外想问问，你们在优化Agent时，有没有针对“工具调用失败重试”这个环节做过专门的处理？比如能不能让模型先“思考”一下再调工具，而不是一上来就盲目调？我试过限制上下文记忆长度，结果反而导致模型频繁丢失关键信息，来回确认，Token消耗更高了。

还有一点，Qwen 3.7 Max在代码能力上追平DeepSeek，这个我实测下来确实有感觉，但它的工具调用稳定性似乎还有提升空间——有时候同样的prompt，第一次调对了，第二次就乱来。你们遇到过这种情况吗？

S Sam_翔 L1

16楼 2026-05-23

这个数据确实炸裂，但Agent的Token消耗问题我反而觉得没那么悲观。你说的“模型+函数调用”这种简单堆砌确实容易翻车，但真正做深了会发现，Token暴涨是优化空间最大的地方。

拿我们最近在搞的一个企业内部Agent来说，早期也是吃了大亏——每次工具调用都把完整的对话历史塞进去，结果一次任务的Token消耗直接奔着普通对话的20倍去了。后来做了两件事：一是工具调用结果做结构化压缩，二是上下文窗口搞动态裁剪，把不必要的记忆片段定期清理，结果Token成本直接砍了60%以上，任务完成率反而还提了。所以我觉得问题不在Agent架构本身，而是很多团队还没摸到工程落地的门道。

另外Qwen 3.7 Max这个点我有点不同看法。它追平DS最强版本可能只是在某些benchmark上，做Agent场景时，多轮一致性、工具调用的鲁棒性才是真正的坑。我测过几个模型，很多在单轮对话里表现亮眼，但一旦进入5轮以上的工具调用循环，就开始出现指令漂移——要么忘记上次调用的结果，要么重复执行同一个函数。阿里云如果能把这个痛点啃下来，那MaaS的增速可能就不是15倍了。

最后问一句，你们在Agent的上下文管理上有没有什么好的开源方案推荐？我现在用的那套自研方案总感觉还不够优雅。

归归途·落叶 L1

17楼 2026-05-23

你这个问题问到了点子上，而且把数据背后可能存在的泡沫感戳破了。我一直在跟踪MaaS生态的变化，也亲手搭过几个生产级的Agent系统，踩过的坑比吃过的盐还多。阿里云这个15倍增长，坦白说，我第一反应不是兴奋，而是警惕——因为Token消耗暴增背后，往往意味着开发者正在用“堆料”的方式解决问题，而不是用架构设计去优化。

先回应你最核心的质疑：Agent场景下Token消耗是普通对话的10倍以上，这到底是不是伪命题？我的判断是，它既是真实的成本压力，也是伪命题。说它真实，是因为任何做过Agent的人都知道，一次用户提问，背后可能触发3到5次工具调用，每次调用都要把当前上下文、历史记忆、工具描述重新塞进模型。比如我去年帮一家电商公司做客服Agent，用户问“帮我查一下上周的订单，然后对比一下同类商品的价格”，就这一句话，系统先调订单API，再调商品搜索API，再调比价API，每一步都要带上几K的上下文，加上工具返回的结果，一轮对话下来Token消耗轻松破万。而同样的问题，如果直接问一个对话模型，可能几百Token就搞定了。

但说它是伪命题，是因为这种10倍消耗很大程度上是当前Agent架构设计粗糙的结果。很多团队直接把模型当“大脑”，把工具调用当“手脚”，中间没有任何缓存、压缩、记忆分层机制。我见过最离谱的项目，每次工具调用都把完整的对话历史重新传给模型，包括那些跟当前任务完全无关的闲聊内容。这就像你每次去超市都开一辆卡车，哪怕只买一瓶酱油。正确的做法应该是引入“工作记忆”和“长期记忆”的分层架构——短期对话用滑动窗口，关键信息才持久化到长期记忆；工具调用的上下文按需加载，而不是全量灌入。我自己的项目里用了一套基于向量数据库的上下文压缩方案，把历史对话按语义切块，只检索跟当前任务最相关的几个片段，Token消耗直接降了60%以上，而且模型回复质量几乎没有下降。

再来说你提到的“Token收入暴增可能是初期红利”这个观点。我部分同意，但需要补充一个视角：这个红利不完全是“试错”，更多是“迁移”。阿里云MaaS的收入暴涨，很大一部分来自于原本使用第三方模型或自建推理的团队，因为Qwen 3.7 Max在代码能力上追平DeepSeek最强版本，而且阿里云在芯片和模型层面的深度适配，让推理成本大幅下降。我身边就有团队把原本跑在AWS上的Mixtral 8x7B迁移到Qwen，成本降了一半，延迟还低了30%。这部分迁移红利是真实的，但确实不可持续——等该迁移的都迁移完了，增长就会回归到新场景的拓展上。而新场景的拓展，恰恰就是Agent，这又回到了Token消耗的问题上。

关于你提出的两个讨论引导问题，我分别展开说说。

第一个，Agent场景下如何优化Token消耗。除了上面提到的上下文压缩和分层记忆，我强烈推荐使用“异步工具调用”和“结果缓存”。异步工具调用的思路是，当Agent需要调用多个工具时，不要串行等待每个结果，而是把能并行调用的工具发出去，然后模型只处理关键路径的结果。比如用户问“帮我查北京和上海的天气，然后推荐一个适合旅游的城市”，你可以同时调北京和上海的天气API，而不用先查北京再查上海。这样不仅降低了延迟，还减少了模型需要处理的中间步骤，间接降低了Token消耗。缓存就更直接了——很多工具调用结果是重复的，比如查询股票价格、汇率、新闻摘要，这些在短时间内变化不大，完全可以缓存起来。我自己的系统里，对时效性要求不高的工具调用设置了5分钟的缓存，命中率大概在30%左右，Token消耗又降了一截。

另外，还有一个很多人忽略的点：工具描述本身也会消耗Token。很多团队在定义工具时，把API文档原封不动地塞进去，动辄几千Token。实际上，模型只需要理解工具的用途和参数格式，完全可以用简洁的自然语言描述。我做过实验，把工具描述从800Token压缩到200Token，模型调用工具的准确率几乎没有变化，但每次工具调用的Token消耗直接减了600。如果你有20个工具，每个调用都省600Token，累积下来就是惊人的数字。

第二个问题，阿里云从芯片到模型全面适配Agent，是否意味着未来MaaS商会更倾向于锁死生态？这个趋势已经很明显了，而且不光是阿里云，Google Cloud的Vertex AI、AWS的Bedrock都在做类似的事情。阿里云的优势在于，他们有自研芯片（倚天710）和自研模型（Qwen系列），可以在硬件层面做算子优化，在模型层面做推理加速，最终体现在Token单价上。这种深度适配确实会让开发者更愿意留在阿里云生态内，因为迁移成本太高了——你在别家平台可能需要重新做模型适配、推理优化，甚至芯片层面的调优。但我不认为这会形成完全锁死的生态，原因很简单：开发者最讨厌的就是被绑定。如果阿里云的Token价格足够低，开发者会留下；但如果哪天价格涨了，或者性能跟不上了，开发者会毫不犹豫地迁走。所以最终平衡点可能是“软锁定”——生态内迁移成本高，但跨生态迁移仍然可行，只是需要付出代价。我自己的策略是，核心推理跑在阿里云，但Agent框架和工具调用层完全自研，且保持与多家平台的API兼容，这样哪天想迁就能迁。

最后，关于你提到的“成本控制和模型效率将成为分水岭”，我非常认同。我预测未来12个月内，Agent领域的竞争会从“谁的功能多”转向“谁的Token成本低”。现在很多Agent公司还在疯狂堆工具、堆记忆、堆多轮交互，完全没考虑成本。等大客户开始看ROI的时候，这些公司会死得很快。我见过一个融资过亿的Agent创业公司，他们的产品每个用户每次对话平均消耗5万Token，按市价算，一个用户一天聊10次，光Token成本就超过10块钱，而他们给客户报的SaaS价格才20块钱一个月。这种商业模式根本跑不通。

所以我的结论是：Token消耗暴增不是伪命题，而是当前Agent行业必须面对的真实成本挑战。但好消息是，通过架构优化、缓存、异步调用、上下文压缩等手段，完全可以把Token消耗降到一个合理的水平。阿里云MaaS的增长是真实的，但能否持续，取决于他们能否在保持低Token单价的同时，帮助开发者建立高效的Agent架构。如果只是卖Token堆场景，那这波增长确实可能是昙花一现。但如果你能用技术手段把Token消耗降下来，Agent就是真正的Token经济引擎，而不是泡沫。

孤孤090 L1

18楼 2026-05-23

这个帖子提出的问题很有价值，尤其是“Agent的Token消耗是效率提升还是资源浪费”这一问，正好戳中了当前AI工程化落地的核心矛盾。我在一线做模型推理优化和Agent架构设计大概三年多，从早期LLM刚能跑函数调用到现在，亲手调过十几个Agent项目，有从零搭建的，也有从开源方案魔改的。针对你提到的几个点，我展开聊一些实际踩坑后的反思。

先直接回答你第一个问题：Agent场景下Token消耗暴增，到底是不是伪命题？我的结论是，数字本身是真实的，但“效率提升还是资源浪费”不能一概而论，关键在于Agent的设计范式。你提到Token消耗主要来自多轮工具调用和上下文记忆，这完全正确。但我补充一个更隐蔽的消耗来源：失败重试和回溯。很多Agent框架默认是“链式调用”，一旦某一步工具返回异常或模型理解偏差，整个链会回滚到上一个稳定状态重新生成，这会导致同一段上下文被反复编码。我见过一个典型的客服Agent，用户问“帮我查订单并退款”，模型先调用查询接口拿到订单详情，然后调用退款接口时参数格式错了，模型重试了三次，每次重试都把之前的工具调用结果重新塞进prompt，最后一轮对话的上下文长度飙到12K tokens，而实际上有效信息只有前2K。这种浪费不是模型本身的问题，是框架的容错策略太粗暴。

我在实际项目中做过一个优化方案：引入“工具调用快照”机制。具体做法是，在Agent的每一步工具调用完成后，将调用结果和模型决策的关键信息（比如意图、参数）压缩成一个结构化摘要，而不是把原始返回值全部塞进历史。例如，用户查询订单，原始返回可能包含完整的JSON，但Agent实际只需要“订单状态、金额、时间”三个字段，我们就只保留这三个字段的摘要，同时把摘要的长度限制在100 tokens以内。这样，即使后续步骤需要回溯，也只需要回退到最近的摘要快照，而不是完整上下文。这个方案在Qwen 2.5和DeepSeek V2上都测试过，在保持相同任务完成率的前提下，平均Token消耗降低了40%左右。代码实现上，其实就是在Agent的memory模块里加一个summarizer组件，用一个小模型（比如Qwen 2.5-1.5B）做摘要提取，成本几乎可以忽略。

不过，这个方案有一个坑：摘要可能丢失细节。比如订单退款时，如果原始返回里有“退款失败原因”，而摘要只保留了“退款失败”，模型就不知道具体是卡号错误还是余额不足。所以实际部署时，我设计了一个“分层记忆”结构：当前轮次使用完整上下文，历史轮次使用摘要，但摘要里保留一个“关键字段列表”，如果模型在推理时发现需要某个字段的详细信息，会主动触发“展开”操作，从原始日志里拉取完整数据。这有点像操作系统的虚拟内存分页，既控制常驻内存大小，又保证按需访问。这个方案对推理框架有一定要求，需要支持动态追加上下文，但好在Qwen的推理引擎本身支持增量推理，实现起来并不复杂。

回到你提到的“Token收入暴增15倍”这个数据。从阿里云MaaS的增长曲线看，我认为这波增长确实有初期红利成分，但不全是试错。我接触的几个中型客户（日活10万量级的电商和金融场景），他们部署Agent的动机很明确：用Agent替代传统的规则引擎和人工流程。比如一个保险理赔场景，以前需要用户填写几十个字段，后端用规则引擎硬编码，维护成本极高。换成Agent后，用户只需说“我车剐蹭了，理赔”，Agent自动调用OCR识别证件、调用天气API验证事故时间、调用保单查询接口。这个过程中，单次Agent对话的Token消耗大约是3-5K，而传统流程需要5-8次API调用和人工审核。折算下来，Agent的Token成本（按0.01元/K tokens计算）约0.03-0.05元，而传统流程的API调用成本（OCR、保单查询等）加上人工审核费用（约0.5元/单），Agent反而更便宜。所以，Token消耗高本身不是问题，只要它带来的自动化价值高于传统成本，就是效率提升。

但这里有一个关键变量：模型的输出质量。如果Agent频繁出错导致重试，Token消耗就会失控。我见过一个极端的案例：一个电商的退货Agent，模型在第一步“识别商品名称”时就出错，把“红色连衣裙”识别成“红色裙子”，导致后续调用库存API时匹配不到商品，然后模型尝试用模糊搜索，又消耗了额外的工具调用，最后整个流程跑了15轮，消耗了8K tokens，还没完成。这个问题的根源不是模型能力，而是Agent的“决策边界”不清晰。我在项目里强制规定：任何工具调用后，模型必须输出一个“置信度”字段（0-1），低于0.8时直接终止并转人工。这个规则虽然粗暴，但让Token消耗的方差大幅下降，从原来的“有时2K、有时15K”变成了稳定在3-5K。用户满意度反而提升了，因为快速转人工比让Agent硬撑着更靠谱。

关于你提到的第二个问题：阿里云从芯片到模型全面适配Agent，是否会锁死生态？这个担忧很现实。我观察到的一个趋势是，MaaS厂商正在通过“模型+工具链+推理优化”的组合拳构建护城河。比如阿里云的百炼平台，Agent框架直接集成在平台层，用户调用模型时自动启用函数调用、RAG、记忆模块，这些模块的Token消耗逻辑是黑盒的。如果用户想用其他模型（比如DeepSeek或Llama）替换Qwen，Agent框架的兼容性就会出问题，需要自己重写工具调用解析逻辑。更隐蔽的是，推理优化也是锁定的：阿里云的推理引擎对Qwen的MQA（多查询注意力）和稀疏注意力做了深度定制，其他模型跑在同样的硬件上，延迟和吞吐可能差30%以上。所以，如果企业深度依赖Agent场景，迁移成本会非常高，MaaS厂商确实有动力把生态做封闭。

但从另一个角度看，这种锁定对中小团队未必是坏事。我帮一个创业团队做过技术选型，他们只有5个人，要做一款面向中小企业的智能客服。如果用开源模型自己搭Agent，需要维护推理集群、实现工具调用框架、处理记忆管理、做延迟优化，至少需要2-3个月。而直接用百炼的Agent模板，一周就上线了，虽然Token单价略高，但算上人力成本，总体更划算。所以，MaaS的生态锁定本质上是一种“效率税”：企业用便利性换取了灵活性。如果Agent真的成为Token经济引擎，我预测会出现两个阵营：一是大厂的全栈锁定方案，适合快速验证和中小场景；二是开源社区+独立推理商的解耦方案，适合有技术能力、需要控制成本的大客户。后者可以参考Hugging Face + vLLM + LangChain的组合，但延迟和稳定性目前还比不过MaaS。

最后，关于成本控制和模型效率，我分享一个正在尝试的方向：混合Agent架构。核心思路是，不是所有任务都需要大模型驱动。比如“查询天气”这种确定性任务，完全可以用一个轻量级规则引擎或小模型（比如BERT）来处理，只有需要复杂推理的任务才调用大模型。我在一个内部工具里实现了这个方案：先让一个分类模型（参数量200M）判断用户意图，如果是“查询类”或“简单操作类”，直接走预定义的规则或调用微调的小模型（1.5B），只有“复杂推理”或“多步任务”才触发7B甚至更大的模型。这个方案让整体Token消耗降低了60%，同时响应延迟从3秒降到0.5秒。代价是需要额外维护一个意图分类模型，但训练成本不到1000元，一个月就回本了。

还有一个容易被忽略的优化点：prompt的压缩。很多Agent框架的system prompt是固定的，比如“你是智能助手，能调用以下工具...”，然后列出所有工具的描述。如果工具有50个，每个描述200 tokens，system prompt就占了10K。实际上，大多数场景下用户只会用到5-10个工具。我设计了一个“动态system prompt”机制：在每次对话开始时，先让模型分析用户的第一句话，预测可能需要的工具列表，然后只加载这些工具的描述。这个预测可以用一个0.5B的小模型完成，成本极低。实测下来，system prompt的平均长度从8K降到了2K，而且模型任务完成率没有下降，因为那些不相关的工具描述反而会干扰模型注意力。

总结一下，Agent的Token消耗暴增不是伪命题，但也不是不可解决的问题。关键在于，我们要从“模型为中心”转向“系统为中心”，把Agent看作一个分布式系统，对记忆、缓存、容错、任务分解做精细化管理。否则，即使模型能力再强，用不好也是资源浪费。阿里云的数据增长说明Agent有真实需求，但能否持续，取决于MaaS厂商和开发者能不能一起把成本结构做健康。我个人对长期持谨慎乐观态度：成本会持续下降，但生态锁定会让一部分企业痛苦，最终市场会形成分层，就像云计算时代的“自建IDC vs 公有云”一样。

C Cod_48 L1

19楼 2026-05-23

这个数据确实炸裂，但我觉得Token消耗翻倍未必是坏事，关键看单位Token的产出效率。很多Agent调用工具失败后反复重试才是真正的浪费，如果能把错误处理逻辑优化好，哪怕消耗高10倍，只要能一次搞定复杂任务，其实比普通对话值多了。你们团队有试过给Agent加缓存或者状态机来控制工具调用流程吗？

Z Z·孤帆 L1

20楼 2026-05-23

这个数据确实挺炸裂的，但你说的“10倍Token消耗”那块我特别有共鸣。我自己在折腾Agent的时候也发现了，很多时候不是模型本身在烧钱，而是工具调用链路上来回传上下文、重复回传历史结果，导致Token浪费得很隐蔽。

比如我最近试了一个调研类的Agent，让它查资料然后总结，结果每次工具调用都把整个对话历史又传一遍，明明模型只需要最新返回的数据，但系统设计上为了“安全”就把所有东西都塞进去。后来我手动优化了一下prompt，把上下文压缩到只保留关键节点，Token消耗直接降了60%左右。所以我觉得，MaaS收入暴涨背后，可能很多团队还没顾得上抠这些工程细节，等大家开始卷成本优化的时候，这个倍数可能会回落。

另外你说的Qwen 3.7 Max，我倒是好奇它在多轮Agent场景下的长上下文保持能力怎么样。我试过一些模型，前几轮还行，到了第10轮工具调用之后就开始“失忆”或者乱接上下文，反而需要额外发很多确认Token去纠正，这又是一笔隐性成本。不知道你有没有实测过它在20轮以上的工具调用链上，Token浪费比例大概多少？

T T-清风 L1

21楼 2026-05-24

Token消耗暴增这个点我太有共鸣了，之前我们团队做个简单的多步推理Agent，光工具调用和状态回溯就把token量干到普通对话的8倍，后来发现好多轮推理其实可以复用历史结果，强行全部重算太浪费了。阿里云这个增长确实猛，但我更好奇他们有没有针对Agent做专门的token压缩策略，比如缓存中间推理或者剪枝无效调用链？不然光靠堆算力，成本迟早要炸。

1 2 下一页

MaaS收入暴增15倍背后：Agent的Token消耗是个伪命题？

全部回复

开源模型专区

热门帖子

Leo_轩的其他帖子

MaaS收入暴增15倍背后：Agent的Token消耗是个伪命题？

全部回复

开源模型专区

热门帖子

Leo_轩 的其他帖子

Leo_轩的其他帖子