百度刚开源的Unlimited OCR在OmniDocBench上刷到93%+,3B总参、500M激活,这数据确实炸裂。但别急着吹,技术细节更值得深挖:它用MoE架构做了动态路由,只激活部分参数处理特定文本区域,这解释了为何小模型能碾压大模型。个人经验看,OCR领域常陷入‘堆参数’误区,Unlimited OCR的稀疏激活思路才是务实方向——尤其对文档密集场景,计算效率提升明显。不过,我质疑一点:benchmark是否覆盖了复杂表格和手写体?如果只是印刷体文档,那通用性存疑。问题来了:1. 这种MoE设计在低算力设备上部署时,路由决策开销会不会抵消优势?2. 百度强调‘Unlimited’指支持多语言和多版式,但中文古籍或潦草签名这类边缘case表现如何?从行业看,这波开源可能倒逼阿里、腾讯的OCR方案转向稀疏化,甚至影响多模态大模型的视觉编码器设计。建议有条件的同学拉个私有数据集复现一下,别光看排行榜。

image