快捷搜索: 王者荣耀 脱发

python爬虫学习:tesseract之实现图片里文字的识别

1. Tesseract基础

1.1 Tesseract简介

Tesseract是一个将图像翻译成文字的OCR(光学文字识别),目前由google赞助。它是目前公认最优秀、最准确的开源OCR库,具有很高的识别度,也具有很高的灵活性,可以通过训练识别任何字体

1.2 Tesseract安装

    window 安装完成后,如果想要在命令行中使用Tesseract,需要设置环境变量,在window下吧tesseract.exe所在的路径添加到path环境变量中 Mac安装,有四种方式: brew install --with-training-tools tesseract——安装tesseract, 同时安装训练工具 brew install --all-languages tesseract——安装tesseract,同时它还会安装所有语言 brew install --all-languages --with-training-tools tesseract——安装附加组件 brew install tesseract——安装tesseract,但是不安装训练工具 Mac安装brew命令 终端内输入:/usr/bin/ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)”,下载过程中需要输入电脑密码

1.3 Tesseract使用

基本命令:tesseract 图片路径 文件路径

tesseract demo.jpeg result

1.4 下载语言库

这里可以根据自己的需求来下载所需要的语言库,例如chi_sim.traineddata为简体中文: 下载地址:https://github.com/tesseract-ocr/tessdata 将chi_sim.traineddata下载后,需要将它放在tesseract安装路径下的share/tessdata目录下


2. Tesseract在Python中的使用

    安装模块:pip install pytesseract pytesseract模块要与PIL一起使用 实例
import pytesseract
from PIL import Image
# 打开图片
image = Image.open(demo2.jpeg)
# 识别结果,第一个参数是图片,第二个参数是语言
print(pytesseract.image_to_string(image, land=eng))
2V¥K
经验分享 程序员 微信小程序 职场和发展