刚看了百度千帆发布的Qianfan-OCR,4B参数端到端模型在OmniDocBench v1.5上拿到93%+,确实有点东西。关键突破在于把视觉编码和语言模型彻底打通,不再是传统OCR的“检测-识别-后处理”流水线,而是直接输出结构化语义。这种统一架构对复杂版面(如表格嵌套、手写体与印刷体混排)的鲁棒性提升明显,尤其是对低分辨率或倾斜文档的处理,实测比pipeline方案快了近3倍。
个人经验:之前做金融票据识别时,传统OCR在印章遮挡和跨栏表格上总出bug,端到端模型虽然训练成本高,但推理时省去了大量规则后处理。Qianfan-OCR在语义理解上的优势是杀手锏——它不只是认字,还能理解文档逻辑,比如识别发票中的“金额”字段并关联上下文。这其实是在抢RAG和文档问答的入口。
我的疑问是:4B模型在边缘设备上的落地如何?端到端架构对中文生僻字和古籍文档的迁移能力是否可靠?另外,百度这次开源了吗?如果只挂API,开发者生态可能还是被PaddleOCR的免费方案牵着走。
行业格局上,这标志着文档智能从“OCR+规则”转向“视觉语言模型统一处理”的阶段。微软、谷歌的DocAI还在卷大参数,百度用4B小模型打精度和速度的平衡点,可能是想卡位企业级私有化部署。但成本控制是关键——如果推理时显存占用能压到4GB以下,这模型会重塑发票、合同、档案等场景的自动化流程。