</>GitSoftHub
返回列表
PaddleOCR

PaddleOCR

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

PaddleOCR preview

项目简介

PaddleOCR 是百度飞桨(PaddlePaddle)团队开源的全球领先 OCR 工具库与文档 AI 引擎,自 2020 年发布以来已收获 80000+ Star。它能把任意 PDF 和图片文档转换成结构化、可直接喂给大模型的数据(JSON / Markdown),在识别精度与轻量化之间做到业界领先。Dify、RAGFlow、MinerU、Umi-OCR、Cherry Studio 等知名项目都基于它构建,被超过 6000 个仓库依赖,是构建智能 RAG 与文档智能体应用的基石。

核心特性

  • 三大王牌产品线 — PP-OCRv5 多语言文字识别、PP-StructureV3 文档版面解析、PP-ChatOCRv4 关键信息抽取,覆盖识别到理解全链路
  • 文档视觉大模型 — 仅 0.9B 参数的 PaddleOCR-VL,在 OmniDocBench 等公开榜单上达到 SOTA,性能比肩百亿参数级 VLM
  • 100+ 语言支持 — 单模型即可处理中文、英文、日文、拼音等多语言混排,并支持俄语、阿拉伯语、印地语等多种文字体系
  • 结构化输出 — 复杂 PDF / 图片可解析为 Markdown 或 JSON,并提供表格单元格、文字坐标等细粒度信息
  • 复杂场景识别 — 支持手写体、竖排文字、生僻字、印章、自然场景文字、证件、街景等多种复杂元素
  • 极致效率 — PP-OCRv5 识别精度较上代提升 13%,小体积模型即可达到商用级精度
  • 部署灵活 — 支持 CPU、GPU、昆仑芯 XPU 等多种硬件,可在 Paddle 与 Transformers 推理后端间自由切换,深度集成 Hugging Face 生态
  • 全平台开源免费 — Apache-2.0 协议,支持 Windows / macOS / Linux,Python 3.8~3.12

安装方法

基础文字识别功能,一行命令安装:

python -m pip install paddleocr

需要文档解析、信息抽取、文档翻译等全部功能:

python -m pip install "paddleocr[all]"

命令行直接识别一张图片:

paddleocr ocr -i ./demo.png

使用场景

  • 把 PDF / 扫描件转成 Markdown / JSON 喂给大模型做 RAG
  • 批量识别票据、合同、表格、证件信息
  • 多语言文档的文字识别与提取
  • 本地离线部署,敏感数据不出门
  • 构建文档智能体、知识库等 AI 应用
  • 复杂版面、公式、表格的结构化解析