PaddleOCR
Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

项目简介
PaddleOCR 是百度飞桨(PaddlePaddle)团队开源的全球领先 OCR 工具库与文档 AI 引擎,自 2020 年发布以来已收获 80000+ Star。它能把任意 PDF 和图片文档转换成结构化、可直接喂给大模型的数据(JSON / Markdown),在识别精度与轻量化之间做到业界领先。Dify、RAGFlow、MinerU、Umi-OCR、Cherry Studio 等知名项目都基于它构建,被超过 6000 个仓库依赖,是构建智能 RAG 与文档智能体应用的基石。
核心特性
- 三大王牌产品线 — PP-OCRv5 多语言文字识别、PP-StructureV3 文档版面解析、PP-ChatOCRv4 关键信息抽取,覆盖识别到理解全链路
- 文档视觉大模型 — 仅 0.9B 参数的 PaddleOCR-VL,在 OmniDocBench 等公开榜单上达到 SOTA,性能比肩百亿参数级 VLM
- 100+ 语言支持 — 单模型即可处理中文、英文、日文、拼音等多语言混排,并支持俄语、阿拉伯语、印地语等多种文字体系
- 结构化输出 — 复杂 PDF / 图片可解析为 Markdown 或 JSON,并提供表格单元格、文字坐标等细粒度信息
- 复杂场景识别 — 支持手写体、竖排文字、生僻字、印章、自然场景文字、证件、街景等多种复杂元素
- 极致效率 — PP-OCRv5 识别精度较上代提升 13%,小体积模型即可达到商用级精度
- 部署灵活 — 支持 CPU、GPU、昆仑芯 XPU 等多种硬件,可在 Paddle 与 Transformers 推理后端间自由切换,深度集成 Hugging Face 生态
- 全平台开源免费 — Apache-2.0 协议,支持 Windows / macOS / Linux,Python 3.8~3.12
安装方法
基础文字识别功能,一行命令安装:
python -m pip install paddleocr
需要文档解析、信息抽取、文档翻译等全部功能:
python -m pip install "paddleocr[all]"
命令行直接识别一张图片:
paddleocr ocr -i ./demo.png
使用场景
- 把 PDF / 扫描件转成 Markdown / JSON 喂给大模型做 RAG
- 批量识别票据、合同、表格、证件信息
- 多语言文档的文字识别与提取
- 本地离线部署,敏感数据不出门
- 构建文档智能体、知识库等 AI 应用
- 复杂版面、公式、表格的结构化解析