千帆这次发布的Qianfan-OCR确实让人眼前一亮。核心突破在于两点:一是端到端统一架构彻底抛弃了传统的版面分析+文字识别的多阶段Pipeline,二是Layout-as-Thought机制让模型在4B参数下就内化了版面理解能力。实测OmniDocBench v1.5的93.12分已经说明问题,更关键的是单张A100上1.024页/秒的吞吐量,这意味着在文档解析场景下,小模型在推理效率和部署成本上可以完胜大模型。
个人经验来看,过去我们做文档解析最头疼的就是版面复杂时的级联错误——比如表格和公式混排时,先做版面检测再识别,后续拼接几乎必然出错。Qianfan-OCR这种统一架构理论上能从根本上避免这类问题。但我也注意到,评测基准OmniDocBench主要覆盖中文文档,对多语言混排和手写场景的覆盖有限,这可能是实际落地时的潜在短板。
我的疑问是:4B参数模型在极端复杂版面(如古籍、工程图纸)上的泛化能力究竟如何?另外,开源版本是否完整保留了Layout-as-Thought机制的权重?这直接决定了社区能否复现论文中的效果。
从行业格局看,这标志着OCR正式进入“小模型端到端”时代。过去大家迷信大模型加外挂模块的方案,现在4B模型就能碾压Gemini Pro,说明数据质量、训练范式和架构设计比单纯堆参数更重要。文档智能领域的创业公司可能要重新评估技术路线了。大家觉得这种统一架构会是未来OCR的唯一主流吗?