大量纸质文件需 OCR 识别归档,有何高效软硬件方案?

一、扫描准备

扫描仪:根据扫描量以及纸张大小,购买ADF扫描仪即可(以Epson为例)

SMB网络共享:扫描仪、电脑、OCR设备能访问即可

二、扫描步骤

① SMB内文件夹进行简单分类,方便后续处理

② 如果是带屏幕的扫描仪,扫描可以直接选择储存的网络路径;如果是无屏幕的扫描仪,可以用Document Capture Pro设置不同预设,储存至不同网络路径

③ 扫描成PDF,可以把去空白页、去阴影、纠偏等功能打开,方便OCR软件处理

三、OCR识别

设备:一台具有Nvidia独显的电脑,最好是RTX50系(推荐显存≥12G、Linux部署内存≥32G,WSL2部署内存≥48G,最新A/I家主流级CPU)

OCR软件1-PaddleOCR-VL-1.5:适合单据、手写稿等内容杂乱,手写内容较多内容

OCR软件2-MinerU(vlm-auto-engine):适合打印合同、公式/化学式多的规整文档

上述两个软件均为本地部署,可按文件夹批量进行文档OCR并输出至指定路径,企业数据比较多的话本地更有成本优势,会议纪要也不适合上传到公网。

不要考虑PDF软件自带的OCR功能,表现和PaddleOCR与MinerU相比非常差劲,如果觉得识别速度慢,可以根据任务类型适当降低精度,或使用核心性能更强的显卡和CPU(使用VLM后端时,CPU只用于文件生成排版,优先堆显卡更有助于速度提升)。

四、内容提取&校验

扫描结果输出为markdown格式,方便后续对接LLM进行进一步信息提取和校验。

五、案例参考

5080Laptop + 9955HX 笔记本电脑,使用MinerU vlm-auto-engine后端OCR识别一本443页的扫描PDF图书(251MB),计算部分耗时如下:

第一轮推理(版面分析与简单块提取):耗时 2 分 03 秒,输出速度 999 tokens/s;
第二轮推理(密集文本与复杂表格解析):耗时 2 分 28 秒,共5416 个切片,输出速度 2090.36 tokens/s;
大模型辅助标题排版(LLM aided title):耗时 36 秒;
文件 I/O 与 JSON/Markdown 生成(CPU 处理):约 1 分 11 秒。
计算总共耗时6分18秒
编辑于 2026-03-30 · 著作权归作者所有