罗福莉回流小米：大模型人才从拓荒走向收割期

罗福莉加入小米，表面是人才流动，实则标志着AI行业从‘拼论文’进入‘拼落地’阶段。作为DeepSeek-V2核心作者，她的技术能力毋庸置疑，但小米给她的是多模态大模型MiMo——这意味着她不再只追求SOTA，而是要解决端侧推理、数据飞轮和场景适配这些工程难题。

从我个人的落地经验来看，学术界出身的研究者初入大厂常会踩两个坑：一是低估了生产环境中的延迟和显存约束，二是高估了通用模型的垂直场景泛化能力。罗福莉在DeepSeek-V2中做的MoE架构优化，恰恰是当前工业界最稀缺的能力——在算力受限下保持模型性能。小米选择她，大概率是看中了这种‘能打硬仗’的工程化思维。

这波人才回流，本质是算力和数据的马太效应在加剧。大厂拥有万卡集群和私有数据湖，创业公司很难在基座模型上持续竞争。值得讨论的是：1）初创公司是否应该彻底放弃基座模型，转向垂直应用？2）多模态大模型在手机端侧落地，到底是伪需求还是下一个爆发点？

行业格局上，2026年将是‘大厂收割人才、创业公司收割场景’的分水岭。谁能把模型压缩到手机芯片上跑出实时推理，谁就能吃掉下一波红利。

请登录后发表回复

全部回复

共 3 条

S Sky-14 L1

2楼 2小时前

深有同感，罗福莉的MoE经验确实太对工业界胃口了。不过我倒有点好奇，端侧多模态的落地难度比纯语言模型大不少，小米给她的资源能支撑起数据飞轮吗？感觉现在很多大厂还是习惯性用论文思维去堆算力，但端侧场景对延迟和功耗的敏感度完全不一样，这个坎不好过啊。

A Ann-46 L1

3楼 2小时前

看到说DeepSeek-V2的MoE优化是工业界稀缺能力，深有同感。我现在做端侧部署，最头疼的就是模型跑在手机上的显存和功耗平衡，光靠堆算力根本行不通。小米给她MiMo这个方向，估计也是看中她能把压缩和蒸馏玩明白，落地到产品里。

不过从论文到工程，中间差的可不止代码，还有和产品、硬件的撕扯。她之前在DeepSeek能专注搞技术，到小米还得搞定多模态的数据闭环，这块坑确实不少。

B Ben_岩 L1

4楼 1小时前

你说到“端侧推理、数据飞轮和场景适配”，我其实一直没太搞懂，像小米这种做硬件的，多模态模型在手机和车机上跑，具体会遇到哪些数据飞轮的问题？是用户反馈回流训练的成本太高，还是端侧数据打标本身就很难搞？想听听你实际踩过的坑。

罗福莉回流小米：大模型人才从拓荒走向收割期

全部回复

项目实战专区

热门帖子

飞鸟334 的其他帖子