一个标星27.5k智能AI Markdown转换工具:marker
发布时间:2025-08-15 15:00 浏览量:2
将 PDF 转换为 Markdown 文件的项目。这是一个能够将 PDF、EPUB 和 MOBI 格式的文件转换为 Markdown 文件的 Python 项目。相较于 Nougat,它具有更快的速度和更高的准确度,在处理英语类内容时效果最佳,但对中文的处理就要差一些。
Marker 快速准确地将文档转换为 markdown、JSON、块和 HTML。
与 Llamaparse 和 Mathpix 等云服务以及其他开源工具相比,Marker 基准测试具有优势。在批处理模式下运行时,Marker 的速度明显更快,H100 的预计吞吐量为 25 页/秒。
您需要 python 3.10+ 和 PyTorch。
安装方式:
pip install marker-pdf如果要在 PDF 以外的文档上使用标记,则需要安装具有以下功能的其他依赖项:
marker_single /path/to/file.pdf您可以传入 PDF 或图像。
marker /path/to/input/foldermarker支持上面所有相同的选项。marker_single--workers是要同时运行的转换工作线程的数量。默认情况下,这是自动设置的,但您可以增加它以提高吞吐量,但代价是更多的 CPU/GPU 使用率。Marker 在峰值时每个工作人员将使用 5GB 的 VRAM,平均使用 3.5GB。NUM_DEVICES=4 NUM_WORKERS=15 marker_chunk_convert ../pdf_in ../md_out有关可以传递的其他参数,请参阅 class at 函数。PdfConvertermarker/converters/pdf.py
from marker.converters.extraction import ExtractionConverterfrom marker.models import create_model_dictfrom marker.config.parser import ConfigParserfrom pydantic import BaseModelclass Links(BaseModel): links: list[str] schema = Links.model_json_schemaconfig_parser = ConfigParser({ "page_schema": schema})converter = ExtractionConverter( artifact_dict=create_model_dict, config=config_parser.generate_config_dict, llm_service=config_parser.get_llm_service,)rendered = converter("FILEPATH")更多使用方式参考官方github使用文档。