python爬虫学习：tesseract之实现图片里文字的识别

python爬虫学习：tesseract之实现图片里文字的识别 2022-08-21 352

1. Tesseract基础

1.1 Tesseract简介

Tesseract是一个将图像翻译成文字的OCR（光学文字识别），目前由google赞助。它是目前公认最优秀、最准确的开源OCR库，具有很高的识别度，也具有很高的灵活性，可以通过训练识别任何字体

1.2 Tesseract安装

window 安装完成后，如果想要在命令行中使用Tesseract，需要设置环境变量，在window下吧tesseract.exe所在的路径添加到path环境变量中 Mac安装，有四种方式： brew install --with-training-tools tesseract——安装tesseract，同时安装训练工具 brew install --all-languages tesseract——安装tesseract，同时它还会安装所有语言 brew install --all-languages --with-training-tools tesseract——安装附加组件 brew install tesseract——安装tesseract，但是不安装训练工具 Mac安装brew命令终端内输入：/usr/bin/ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)”，下载过程中需要输入电脑密码

1.3 Tesseract使用

基本命令：tesseract 图片路径文件路径

tesseract demo.jpeg result

1.4 下载语言库

这里可以根据自己的需求来下载所需要的语言库，例如chi_sim.traineddata为简体中文：下载地址：https://github.com/tesseract-ocr/tessdata 将chi_sim.traineddata下载后，需要将它放在tesseract安装路径下的share/tessdata目录下

2. Tesseract在Python中的使用

安装模块：pip install pytesseract pytesseract模块要与PIL一起使用实例

import pytesseract
from PIL import Image
# 打开图片
image = Image.open(demo2.jpeg)
# 识别结果，第一个参数是图片，第二个参数是语言
print(pytesseract.image_to_string(image, land=eng))

2V¥K

免费搭建微信查券返利机器人来轻松赚佣金

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate117/130784.html

上一篇：通过多线程提高代码的执行效率例子

下一篇：狂神说学习——MarkDown语法