Post
Tesseract OCR 安装配置与常见问题解决
在 Linux 和 Windows 环境下安装配置 Tesseract OCR 的完整指南
概述
本文详细说明在 Linux 和 Windows 系统中安装配置 Tesseract OCR 的完整流程,涵盖源码编译、环境变量设置、语言包配置及常见问题解决方法。适用于需要从零搭建 OCR 环境的开发者,尤其关注 Python 与 Tesseract 的集成场景。
系统要求与依赖准备
Python 版本建议
- 推荐版本:Python 3.8.x(避免与 opencv-python 等库的兼容性问题)
- 验证命令:
python -V && python3 -V
Tesseract 语言包
- 官方语言包下载地址:https://github.com/tesseract-ocr/tessdata
- 语言包需存放在
TESSDATA_PREFIX指定的目录中(默认/usr/local/share/tessdata)
Linux 环境安装步骤
1. 配置阿里云源(可选)
若需加速软件包下载,可添加阿里云 Kali 源:
echo "deb [https://mirrors.aliyun.com/kali](https://mirrors.aliyun.com/kali) kali-rolling main non-free contrib" | sudo tee /etc/apt/sources.list.d/kali.list
echo "deb-src [https://mirrors.aliyun.com/kali](https://mirrors.aliyun.com/kali) kali-rolling main non-free contrib" | sudo tee -a /etc/apt/sources.list.d/kali.list
sudo apt update && sudo apt upgrade
2. 安装依赖库
sudo apt install autoconf automake pkg-config libtool \
libjpeg-dev libpng-dev libtiff-dev zlib1g-dev
3. 安装 Leptonica(Tesseract 依赖)
-
下载源码:
wget https://github.com/DanBloomberg/leptonica/releases/download/1.82.0/leptonica-1.82.0.tar.gz -
编译安装:
tar -xzvf leptonica-1.82.0.tar.gz cd leptonica-1.82.0 ./configure make sudo make install -
配置环境变量: 编辑
/etc/profile,添加以下内容:export LD_LIBRARY_PATH=/usr/local/lib export LIBLEPT_HEADERSDIR=/usr/local/include export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig执行
source /etc/profile生效。 -
验证安装:
ldconfig -p | grep lept
4. 安装 Tesseract OCR
方法一:通过包管理器安装
sudo apt install tesseract-ocr
方法二:源码编译安装
-
下载源码:
wget https://github.com/tesseract-ocr/tesseract/releases/download/5.2.0/tesseract-5.2.0.tar.gz -
编译安装:
tar -xzvf tesseract-5.2.0.tar.gz cd tesseract-5.2.0 ./autogen.sh ./configure make sudo make install -
配置环境变量: 在
/etc/profile中添加:export PATH=$PATH:/usr/local/tesseract/bin export TESSDATA_PREFIX=/usr/local/share/tessdata执行
source /etc/profile生效。
5. 配置语言包
- 将下载的
tessdata目录复制到TESSDATA_PREFIX指定路径:cp -r tessdata /usr/local/share/
6. 常见问题解决
若运行 tesseract --version 报错:
“没有共享目标文件或目录 libtesseract.so”
- 检查环境变量是否配置正确。
- 确认
/usr/local/lib中存在libtesseract.so。 - 执行:
sudo ldconfig
Windows 环境安装步骤
1. 系统要求
- Python 版本:推荐 3.8.x(避免 opencv-python 兼容性问题)
- 补丁库:
2. 安装 Tesseract OCR
- 下载地址:UB Mannheim Tesseract 安装包
- 安装后配置环境变量:
- 将
tesseract-ocr安装路径(如C:\Program Files\Tesseract-OCR)添加到PATH。 - 将
tessdata路径(如C:\Program Files\Tesseract-OCR\tessdata)添加到PATH。
- 将
3. Python 依赖安装
pip install opencv-python pyperclip mss pytesseract pyautogui numpy
- Windows 置顶方案:参考 Juejin 技术博客
跨平台注意事项
环境变量配置边界
- Linux:需通过
/etc/profile或用户级.bashrc配置环境变量,确保LD_LIBRARY_PATH和PATH正确。 - Windows:需通过系统环境变量管理器添加路径,注意区分 32/64 位兼容性。
语言包适用性
- Tesseract 默认支持英文,其他语言需手动下载语言包(如
chi_sim.traineddata)并放置在TESSDATA_PREFIX目录中。
Python 集成验证
import pytesseract
print(pytesseract.image_to_string('test.png', lang='chi_sim'))
总结
本文提供了 Tesseract OCR 在 Linux 和 Windows 环境下的完整安装与配置流程,涵盖源码编译、依赖管理、环境变量设置及常见问题解决。实际部署时需根据具体需求选择安装方式,并注意 Python 版本与依赖库的兼容性。若需多语言支持,务必正确配置语言包路径。