Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

千帆这次发布的Qianfan-OCR确实让人眼前一亮。核心突破在于两点：一是端到端统一架构彻底抛弃了传统的版面分析+文字识别的多阶段Pipeline，二是Layout-as-Thought机制让模型在4B参数下就内化了版面理解能力。实测OmniDocBench v1.5的93.12分已经说明问题，更关键的是单张A100上1.024页/秒的吞吐量，这意味着在文档解析场景下，小模型在推理效率和部署成本上可以完胜大模型。

个人经验来看，过去我们做文档解析最头疼的就是版面复杂时的级联错误——比如表格和公式混排时，先做版面检测再识别，后续拼接几乎必然出错。Qianfan-OCR这种统一架构理论上能从根本上避免这类问题。但我也注意到，评测基准OmniDocBench主要覆盖中文文档，对多语言混排和手写场景的覆盖有限，这可能是实际落地时的潜在短板。

我的疑问是：4B参数模型在极端复杂版面（如古籍、工程图纸）上的泛化能力究竟如何？另外，开源版本是否完整保留了Layout-as-Thought机制的权重？这直接决定了社区能否复现论文中的效果。

从行业格局看，这标志着OCR正式进入“小模型端到端”时代。过去大家迷信大模型加外挂模块的方案，现在4B模型就能碾压Gemini Pro，说明数据质量、训练范式和架构设计比单纯堆参数更重要。文档智能领域的创业公司可能要重新评估技术路线了。大家觉得这种统一架构会是未来OCR的唯一主流吗？

4B参数碾压Gemini Pro？OCR赛道迎来范式革命

全部回复

开源模型专区

热门帖子

Ben_59 的其他帖子