刚读完云知声U1-OCR的技术报告,3B参数用ViT+LLM做文档智能,OmniDocBench V1.5上95.1分确实亮眼。但作为经常调OCR的工程师,我更关心它到底解决了什么痛点。传统OCR(2.0时代)依赖CNN+序列模型,对表格、复杂版面、手写混合场景容易翻车。U1-OCR直接把视觉特征用ViT提取后喂给LLM做序列生成,相当于用语言模型的上下文理解能力替代了规则后处理。这种端到端架构在D4LA评测上90.8% F1,比之前SOTA提升不少,但我好奇的是:3B参数在工业部署时显存占用如何?我自己的经验是,小模型做文档解析常在高密度文字区域漏检,U1-OCR的ViT+LLM是否对长文本的场景依赖attention长度?另一个点是,它强调“工业级”,但真实场景下PDF扫描件可能带噪点或光照不均,官方有没有公开在恶劣条件下的鲁棒性数据?从行业看,这可能是OCR 3.0的起点——模型不再只是“识别”文字,而是“理解”文档语义。未来如果开源,能否推动金融、医疗等领域的文档自动化?期待有实测过的朋友分享下推理延迟和资源占用。