刚看了百度千帆发布的Qianfan-OCR，4B参数端到端模型在OmniDocBench v1.5上拿到93%+，确实有点东西。关键突破在于把视觉编码和语言模型彻底打通，不再是传统OCR的“检测-识别-后处理”流水线，而是直接输出结构化语义。这种统一架构对复杂版面（如表格嵌套、手写体与印刷体混排）的鲁棒性提升明显，尤其是对低分辨率或倾斜文档的处理，实测比pipeline方案快了近3倍。

个人经验：之前做金融票据识别时，传统OCR在印章遮挡和跨栏表格上总出bug，端到端模型虽然训练成本高，但推理时省去了大量规则后处理。Qianfan-OCR在语义理解上的优势是杀手锏——它不只是认字，还能理解文档逻辑，比如识别发票中的“金额”字段并关联上下文。这其实是在抢RAG和文档问答的入口。

我的疑问是：4B模型在边缘设备上的落地如何？端到端架构对中文生僻字和古籍文档的迁移能力是否可靠？另外，百度这次开源了吗？如果只挂API，开发者生态可能还是被PaddleOCR的免费方案牵着走。

行业格局上，这标志着文档智能从“OCR+规则”转向“视觉语言模型统一处理”的阶段。微软、谷歌的DocAI还在卷大参数，百度用4B小模型打精度和速度的平衡点，可能是想卡位企业级私有化部署。但成本控制是关键——如果推理时显存占用能压到4GB以下，这模型会重塑发票、合同、档案等场景的自动化流程。

4B端到端OCR登顶？百度千帆这步棋意在重塑文档智能

技术分析 #实践经验

全部回复

项目实战专区

热门帖子

Joe凤的其他帖子