python爬虫学习:tesseract之实现图片里文字的识别
1. Tesseract基础
1.1 Tesseract简介
Tesseract是一个将图像翻译成文字的OCR(光学文字识别),目前由google赞助。它是目前公认最优秀、最准确的开源OCR库,具有很高的识别度,也具有很高的灵活性,可以通过训练识别任何字体
1.2 Tesseract安装
-
window 安装完成后,如果想要在命令行中使用Tesseract,需要设置环境变量,在window下吧tesseract.exe所在的路径添加到path环境变量中 Mac安装,有四种方式: brew install --with-training-tools tesseract——安装tesseract, 同时安装训练工具 brew install --all-languages tesseract——安装tesseract,同时它还会安装所有语言 brew install --all-languages --with-training-tools tesseract——安装附加组件 brew install tesseract——安装tesseract,但是不安装训练工具 Mac安装brew命令 终端内输入:/usr/bin/ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)”,下载过程中需要输入电脑密码
1.3 Tesseract使用
基本命令:tesseract 图片路径 文件路径
tesseract demo.jpeg result
1.4 下载语言库
这里可以根据自己的需求来下载所需要的语言库,例如chi_sim.traineddata为简体中文: 下载地址:https://github.com/tesseract-ocr/tessdata 将chi_sim.traineddata下载后,需要将它放在tesseract安装路径下的share/tessdata目录下
2. Tesseract在Python中的使用
-
安装模块:pip install pytesseract pytesseract模块要与PIL一起使用 实例
import pytesseract from PIL import Image # 打开图片 image = Image.open(demo2.jpeg) # 识别结果,第一个参数是图片,第二个参数是语言 print(pytesseract.image_to_string(image, land=eng))
2V¥K
上一篇:
通过多线程提高代码的执行效率例子
下一篇:
狂神说学习——MarkDown语法