GitSoftHub — 发现 GitHub 上的优质软件

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages.

项目简介

PaddleOCR 是百度飞桨（PaddlePaddle）团队开源的全球领先 OCR 工具库与文档 AI 引擎，自 2020 年发布以来已收获 80000+ Star。它能把任意 PDF 和图片文档转换成结构化、可直接喂给大模型的数据（JSON / Markdown），在识别精度与轻量化之间做到业界领先。Dify、RAGFlow、MinerU、Umi-OCR、Cherry Studio 等知名项目都基于它构建，被超过 6000 个仓库依赖，是构建智能 RAG 与文档智能体应用的基石。

核心特性

三大王牌产品线 — PP-OCRv5 多语言文字识别、PP-StructureV3 文档版面解析、PP-ChatOCRv4 关键信息抽取，覆盖识别到理解全链路
文档视觉大模型 — 仅 0.9B 参数的 PaddleOCR-VL，在 OmniDocBench 等公开榜单上达到 SOTA，性能比肩百亿参数级 VLM
100+ 语言支持 — 单模型即可处理中文、英文、日文、拼音等多语言混排，并支持俄语、阿拉伯语、印地语等多种文字体系
结构化输出 — 复杂 PDF / 图片可解析为 Markdown 或 JSON，并提供表格单元格、文字坐标等细粒度信息
复杂场景识别 — 支持手写体、竖排文字、生僻字、印章、自然场景文字、证件、街景等多种复杂元素
极致效率 — PP-OCRv5 识别精度较上代提升 13%，小体积模型即可达到商用级精度
部署灵活 — 支持 CPU、GPU、昆仑芯 XPU 等多种硬件，可在 Paddle 与 Transformers 推理后端间自由切换，深度集成 Hugging Face 生态
全平台开源免费 — Apache-2.0 协议，支持 Windows / macOS / Linux，Python 3.8~3.12

安装方法

基础文字识别功能，一行命令安装：

python -m pip install paddleocr

需要文档解析、信息抽取、文档翻译等全部功能：

python -m pip install "paddleocr[all]"

命令行直接识别一张图片：

paddleocr ocr -i ./demo.png

使用场景

把 PDF / 扫描件转成 Markdown / JSON 喂给大模型做 RAG
批量识别票据、合同、表格、证件信息
多语言文档的文字识别与提取
本地离线部署，敏感数据不出门
构建文档智能体、知识库等 AI 应用
复杂版面、公式、表格的结构化解析

PaddleOCR

下载

项目简介

核心特性

安装方法

使用场景