Post

Tesseract OCR 安装配置与常见问题解决

2026-05-07

在 Linux 和 Windows 环境下安装配置 Tesseract OCR 的完整指南

概述

本文详细说明在 Linux 和 Windows 系统中安装配置 Tesseract OCR 的完整流程,涵盖源码编译、环境变量设置、语言包配置及常见问题解决方法。适用于需要从零搭建 OCR 环境的开发者,尤其关注 Python 与 Tesseract 的集成场景。


系统要求与依赖准备

Python 版本建议

  • 推荐版本:Python 3.8.x(避免与 opencv-python 等库的兼容性问题)
  • 验证命令
    python -V && python3 -V
    

Tesseract 语言包


Linux 环境安装步骤

1. 配置阿里云源(可选)

若需加速软件包下载,可添加阿里云 Kali 源:

echo "deb [https://mirrors.aliyun.com/kali](https://mirrors.aliyun.com/kali) kali-rolling main non-free contrib" | sudo tee /etc/apt/sources.list.d/kali.list
echo "deb-src [https://mirrors.aliyun.com/kali](https://mirrors.aliyun.com/kali) kali-rolling main non-free contrib" | sudo tee -a /etc/apt/sources.list.d/kali.list
sudo apt update && sudo apt upgrade

2. 安装依赖库

sudo apt install autoconf automake pkg-config libtool \
  libjpeg-dev libpng-dev libtiff-dev zlib1g-dev

3. 安装 Leptonica(Tesseract 依赖)

  1. 下载源码

    wget https://github.com/DanBloomberg/leptonica/releases/download/1.82.0/leptonica-1.82.0.tar.gz
    
  2. 编译安装

    tar -xzvf leptonica-1.82.0.tar.gz
    cd leptonica-1.82.0
    ./configure
    make
    sudo make install
    
  3. 配置环境变量: 编辑 /etc/profile,添加以下内容:

    export LD_LIBRARY_PATH=/usr/local/lib
    export LIBLEPT_HEADERSDIR=/usr/local/include
    export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
    

    执行 source /etc/profile 生效。

  4. 验证安装

    ldconfig -p | grep lept
    

4. 安装 Tesseract OCR

方法一:通过包管理器安装

sudo apt install tesseract-ocr

方法二:源码编译安装

  1. 下载源码

    wget https://github.com/tesseract-ocr/tesseract/releases/download/5.2.0/tesseract-5.2.0.tar.gz
    
  2. 编译安装

    tar -xzvf tesseract-5.2.0.tar.gz
    cd tesseract-5.2.0
    ./autogen.sh
    ./configure
    make
    sudo make install
    
  3. 配置环境变量: 在 /etc/profile 中添加:

    export PATH=$PATH:/usr/local/tesseract/bin
    export TESSDATA_PREFIX=/usr/local/share/tessdata
    

    执行 source /etc/profile 生效。

5. 配置语言包

  • 将下载的 tessdata 目录复制到 TESSDATA_PREFIX 指定路径:
    cp -r tessdata /usr/local/share/
    

6. 常见问题解决

若运行 tesseract --version 报错:

“没有共享目标文件或目录 libtesseract.so”

  1. 检查环境变量是否配置正确。
  2. 确认 /usr/local/lib 中存在 libtesseract.so
  3. 执行:
    sudo ldconfig
    

Windows 环境安装步骤

1. 系统要求

2. 安装 Tesseract OCR

  • 下载地址:UB Mannheim Tesseract 安装包
  • 安装后配置环境变量:
    1. tesseract-ocr 安装路径(如 C:\Program Files\Tesseract-OCR)添加到 PATH
    2. tessdata 路径(如 C:\Program Files\Tesseract-OCR\tessdata)添加到 PATH

3. Python 依赖安装

pip install opencv-python pyperclip mss pytesseract pyautogui numpy

跨平台注意事项

环境变量配置边界

  • Linux:需通过 /etc/profile 或用户级 .bashrc 配置环境变量,确保 LD_LIBRARY_PATHPATH 正确。
  • Windows:需通过系统环境变量管理器添加路径,注意区分 32/64 位兼容性。

语言包适用性

  • Tesseract 默认支持英文,其他语言需手动下载语言包(如 chi_sim.traineddata)并放置在 TESSDATA_PREFIX 目录中。

Python 集成验证

import pytesseract
print(pytesseract.image_to_string('test.png', lang='chi_sim'))

总结

本文提供了 Tesseract OCR 在 Linux 和 Windows 环境下的完整安装与配置流程,涵盖源码编译、依赖管理、环境变量设置及常见问题解决。实际部署时需根据具体需求选择安装方式,并注意 Python 版本与依赖库的兼容性。若需多语言支持,务必正确配置语言包路径。