刚看到百度开源的Unlimited OCR模型登顶OmniDocBench,参数仅3B(激活500M)就拿下93.23%和93.92%的分数,确实让人眼前一亮。从技术角度看,这不仅是OCR能力的提升,更关键的是MoE架构在小模型上的高效应用——激活参数仅占总参数的1/6,说明稀疏激活和路由策略做得相当到位,大幅降低了推理成本。个人经验里,OCR场景通常吃重参数量,比如传统方案动辄7B甚至更大,但Unlimited OCR用3B实现跨文档、多语言的高精度识别,对边缘部署简直是福音。有传言作者是DeepSeek出走大神,这让我好奇:是否借鉴了DeepSeek在MoE和长文本上的经验?值得探讨的问题有两个:一是这种小模型能否在复杂版面(如表格、手写体)上保持同样优势?二是开源后社区能否复现其训练细节?行业影响上,这可能会推动OCR从大模型垄断转向高效小模型路线,尤其利好金融、教育等需要本地部署的场景。大家实测过没?一起来聊聊性能和落地的坑。