阿里这次大整合,技术上确实有亮点:Qwen 3.7 Max跑到了Opus 4.7的水平,仅次于GLM 5.2,说明他们在基座模型上没掉队。但从我个人经验来看,评测分数和实际场景往往差一个量级——去年我们在内测Qwen 2.5时,推理延迟和显存优化就不如同期其他模型,尤其是长上下文下的attention机制容易炸显存。这次3.7 Max在架构上有没有解决这些工程坑?比如是否引入了flash attention或MoE的稀疏化策略?如果没有,那‘Opus水平’可能只是benchmark上的幻觉。

再说组织整合,成立Token事业群把Qwen、千问APP、钉钉绑在一起,思路是对的,但内部协同的工程成本极高。我在团队里做过类似跨产品线的模型服务化项目,最大的坑是API版本碎片化——不同业务线对模型输出格式、推理时长、安全策略的要求完全不同,统一调度反而会降低迭代速度。千问APP起步晚,豆包已经靠用户场景和数据飞轮形成壁垒,阿里想靠‘三轴心’翻盘,光靠模型能力不够,还得看工程化能力能不能跟上。

抛两个问题:一是Qwen 3.7 Max的推理速度相比前代有具体提升吗?二是阿里这次整合会不会导致钉钉的AI功能被强绑千问,反而挤压了原有生态的灵活性?