Concept

tesseract

2026-04-24

概述

详细说明在Linux/Windows环境下安装配置Tesseract OCR的完整流程，包含源码编译、环境变量配置及Python依赖安装方法。

Tesseract 是 Google 开源的光学字符识别（OCR）引擎，基于 Leptonica 图像处理库，支持多语言文字识别，可通过训练自定义模型识别特定字体或图像内容。

Linux：

1sudo apt install tesseract-ocr tesseract-ocr-chi-sim  # Debian/Ubuntu
2sudo yum install tesseract tesseract-lang        # CentOS

或从源码编译：

1git clone https://github.com/tesseract-ocr/tesseract.git
2cd tesseract && ./autogen.sh && ./configure && make && sudo make install

Windows：
下载预编译包（https://github.com/UB-Mannheim/tesseract/wiki），或通过 vcpkg 安装：
```
1vcpkg install tesseract
```

添加 tesseract 可执行文件路径到 PATH（如 /usr/local/bin 或 C:\Program Files\Tesseract）。
验证安装：
```
1tesseract --version
```

1pip install pytesseract pillow

确保 Python 脚本中设置 pytesseract.pytesseract_cmd 指向正确路径：

1import pytesseract
2pytesseract.pytesseract_cmd = r'C:\Program Files\Tesseract\tesseract.exe'

安装语言包：

1tesseract --list-langs  # 查看已安装语言包

自定义训练模型：
1. 准备训练图像（标注字符位置）
2. 使用 tesseract 生成 .box 文件
3. 调用 combine_langs 合并训练数据

提示：生产环境建议使用 Docker 镜像（如 johndoe/tesseract）或通过 conda 管理依赖。