谷歌在I/O 2026上高调发布的Gemini 3.5 Flash,被CEO桑达尔·皮查伊誉为“Agent时代的底座”,声称性能比3.1 Pro更强。然而上线仅一周,这款模型就在开发者社区中引发大规模吐槽。用户反馈出奇一致:除了速度快这一优点,Gemini 3.5 Flash几乎全是短板——输出内容错误多、语言啰嗦、token消耗量惊人,让不少开发者直呼“中看不中用”。问题的核心在于成本失控。谷歌官方定价显示,Gemini 3.5 Flash每百万输入token收费1.5美元,每百万输出token收费9美元,确实比Claude Opus 4.7的5美元和25美元便宜。但实际使用中,用户发现模型完成任务的“轮次”(turn count)过高。在Agent评估中,Flash平均每个任务需要49轮对话,而GPT-5.5或Opus 4.7仅需约20轮。每轮对话都会将完整历史输入模型,导致token成本暴增。Artificial Analysis的测试显示,Gemini 3.5 Flash完成全部评估任务的总成本高达1552美元,是Gemini 3 Flash(282美元)的5.5倍,甚至比GPT-5.5 medium还贵。更尴尬的是,模型输出极其啰嗦——以前3.1 Pro直接给出代码和简短解释,而3.5 Flash会先解释背景、列举方案、分析优缺点,最后才给代码,大量“废话”都算token收费。面对用户不满,谷歌Antigravity负责人瓦伦·莫汉在5月25日发帖,宣布推出Gemini 3.5 Flash (Low) 模型以优化资源消耗。据内部测试,该版本在处理简单任务时,相比标准版可减少约45%的token生成量,在软件工程任务上的表现甚至优于上代旗舰Gemini 3 Flash (High)。然而,网友并不买账。瓦伦的评论区已被冷嘲热讽攻占,热评第一条直言:“你们的产品测试过吗?看起来你们是拿我们在做测试啊!”另一条则吐槽图像生成限制:“我使用Codex可以生成1000张图像,但在谷歌高级套餐下,只能生成24张。”Gemini 3.5 Flash的翻车并非偶然。从技术角度看,模型在benchmark上的表现极不均衡,复杂任务下token消耗成倍增长。有用户反映,一个多步骤代码重构任务消耗了预期三倍的token;还有用户仅输入复杂prompt就触发了5小时使用限制。更令人困惑的是,谷歌在I/O 2026后悄悄修改了AI Pro订阅规则,从固定消息数改为基于计算资源的配额,导致用户无法预估剩余额度。有用户称单个prompt就消耗了13%的配额,某些功能一次能烧掉近30%。这种“黑箱”式成本控制,让开发者对谷歌的信任大打折扣。从Gemini 3.0 Pro的备受赞誉,到3.5 Flash的集体吐槽,谷歌在AI产品落地上显然需要反思:技术指标再漂亮,如果用户体验和成本控制跟不上,最终只会沦为“实验室里的玩具”。对于AI从业者而言,选择模型时不妨多关注实际任务中的token消耗和轮次效率,而非仅看单价。毕竟,便宜的单位价格,不等于便宜的总成本。