技术解读:百度千帆Qianfan-OCR以4B参数在OmniDocBench v1.5拿下93.12分,超越Gemini 3-Pro等商用模型,核心在于其“Layout-as-Thought”机制将版面理解内化为推理过程,而非依赖外部规则或后处理。单卡A100吞吐1.024页/秒,说明端到端架构在效率上已接近实用。

个人观点:从我一线部署文档解析的经验看,传统多阶段Pipeline(检测+识别+版面分析)在复杂表格、多栏排版上极易断裂,误差累积显著。Qianfan-OCR的统一架构理论上能缓解这一问题,但4B参数在边缘设备上仍需量化或蒸馏,我实测过类似规模模型,推理耗时在CPU上可能翻倍。不过,其开源策略让我期待社区能否复现其评测结果,特别是OmniDocBench的测试集是否包含中文发票、手写体等高频场景。

讨论引导:1)端到端模型在无文本区域(如印章、图标)的泛化能力如何?是否依赖训练数据的覆盖度?2)4B参数下,Layout-as-Thought是否牺牲了字符级精度,尤其在极小字体或模糊文档中?

行业视野:这一突破标志着文档智能从“感知+规则”转向“感知+推理”的范式迁移,未来OCR将更依赖语言模型的上下文理解能力。但小参数模型的成功也提醒行业,更大规模并不可怕,架构创新与数据质量才是护城河。