这OCR的3B模型速度碾压7B巨头！支持跨页表格/段落合并的OCR 工具

发布时间：2025-06-28 23:16 浏览量：22

在处理 PDF 文档时，很多 OCR 工具在遇到跨页表格、跨列段落、多语言混排时常常识别混乱、结构丢失、格式错乱……

最近一款由 ChatDOC 团队开源的工具 OCRFlux 正式上线，可以原生识别跨页元素、自动合并表格/段落、输出优质 Markdown 结构文档。

OCRFlux 是一个轻量级但功能强大的多模态工具包，显著提升了 PDF 到 Markdown 的转换效果，在复杂布局处理、复杂表格解析和跨页内容合并方面表现出色。

其3B参数模型，在GTX 3090 GPU上处理速度比7B参数的基线模型还要快上3倍。

在OCRFlux-bench-single基准测试的EDS指标，中英文场景下都超过了olmOCR-7B-0225-preview、Nanonets、MonkeyOCR。

EDS：生成的Markdown与真实Markdown之间的编辑距离相似度。

准确率达到了98.3%，主要依赖其用原生结构建模方式，把复杂 PDF 文档准确转为 Markdown，特别适合结构复杂的资料型文件。

跨页元素合并：自动检测并合并跨页表格/段落，保持逻辑完整，准确率98.3%。多列布局识别：支持单列/多列复杂布局，按自然阅读顺序输出Markdown。中英双语支持：精准解析中英混排。轻量级高性能：仅 3B 参数，在 GTX 3090 上速度比 7B 模型快 3 倍。图表提取：提取图像、表格，生成带描述的Markdown嵌入。

ChatDoc 团队在线上发布了一款在线Demo，可以直接进行 OCR 文档识别。但仅支持解析上传文档的前3页。

OCRFlux 在线体验：https://ocrflux.pdfparser.io

如果想要更完美的使用OCRFlux的功能，可以通过本地源码部署或Docker部署方式进行。

1、本地源码部署

创建Python虚拟环境，克隆项目，安装依赖

conda create -n ocrflux python=3.11conda activate ocrfluxgit clone https://github.com/chatdoc-com/OCRFlux.gitcd ocrfluxpip install -e . --find-links https://flashinfer.ai/whl/cu124/torch2.5/flashinfer/

2、Docker快速部署

docker run -it --gpus all \ -v /path/to/localworkspace:/localworkspace \ -v /path/to/test_pdf_dir:/test_pdf_dir/ \ -v /path/to/OCRFlux-3B:/OCRFlux-3B \ chatdoc/ocrflux:latest /localworkspace --data /test_pdf_dir/* --model /OCRFlux-3B/

本地使用用法：

PDF转Markdown

python -m ocrflux.pipeline ./localworkspace --data test.pdf --model /model_dir/OCRFlux-3B

图像转Markdown

python -m ocrflux.pipeline ./localworkspace --data test_page.png --model /model_dir/OCRFlux-3B

批量转Markdown

python -m ocrflux.pipeline ./localworkspace --data test_pdf_dir/* --model /model_dir/OCRFlux-3B

可以设置 --skip_cross_page_merge 来跳过解析过程中的跨页合并，以加速处理，它将简单地连接每个页面的解析结果，生成文档的最终Markdown。

完整的命令管道参数使用，参考项目文档上说明的进行。

写在最后

OCRFlux 是首个在所有开源项目中支持原生跨页表格/段落合并的OCR工具，并以3B参数高效模型，革新PDF转Markdown体验。

即使存在多栏布局、图表和插图，也能转换为具有自然阅读顺序的文本，支持复杂的表格和方程，可自动移除页眉和页脚。

是处理结构复杂文档时的 Markdown 工具首选，特别适合构建知识库、RAG 系统或 AI 语义提取场景！

GitHub 项目地址：https://github.com/chatdoc-com/OCRFlux

更多免费AI功能云片AI：https://y-p.cc/?f=t

时光印记-墓碑码：https://time.y-p.cc/?f=t

标签：模型 ocr 跨页段落跨页表格

上一篇：镜报：红军为努涅斯要价7000万镑，拿波里用观望态度希望对方降价
下一篇：李圣和许姚不是亲人胜似亲人

这OCR的3B模型速度碾压7B巨头！支持跨页表格/段落合并的OCR 工具

相似文章

资讯分类

热门资讯

热门标签

热门产品