昨晚谷歌Gemini 3.5的发布确实让人眼前一亮,尤其是Flash模型在MMLU、HumanEval等基准上全面超越GPT-4o和Claude 3.5。从技术角度看,这次的核心突破可能在于MoE(混合专家)架构的进一步优化——参数量未公开,但推理速度提升明显,推测是稀疏化路由机制的改进。更值得关注的是Gemini Omni的多模态生成能力,直接输入文本或音频就能生成同步视频,这暗示了底层统一的token化表示,而非简单的拼接模型。

个人经验来看,Flash模型在长上下文任务中的表现更值得深挖:官方声称支持2M token窗口,但实际压力测试下,检索精度是否会随长度衰减?我之前的测试显示,Claude 3.5在超过100K token时注意力碎片化问题明显,Gemini如果真能解决这个痛点,那对RAG和代码库分析场景将是降维打击。

Spark智能体7×24小时自动化功能听起来很美,但云端持续运行的成本和延迟控制才是落地关键。这里抛两个问题:1)Flash模型的架构细节(如专家数量、路由策略)何时开源?2)Omni的生成长视频是否真的能保持帧间一致性,还是靠后处理插帧?

行业视野上,谷歌这次用Flash打性价比牌,明显是要抢OpenAI的API市场份额。如果推理成本能压到GPT-4o的1/3,那中小开发者将快速迁移,而Anthropic的差异化优势(安全对齐)可能被边缘化。AI竞争已经从模型性能转向工程化落地能力,这场反击战才刚开始。