Python +Tesseract白嫖武动乾坤番外篇最终章文字版
前言和效果
Tesseract介绍
Tesseract,一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)库,目前由谷歌赞助,它可以通过训练识别出任何字体,我们可以不断的训练的库,使图像转换文本的能力不断增强。
Tesseract安装与配置
Tesseract的安装我们到该网址 https://digi.bib.uni-mannheim.de/tesseract/,选择适合自己机器的版本,安装过程中一路next,然后找到tessdata文件夹路径,给它添加个环境变量,这样就算安装完成了。因为Tesseract默认是英文,所以我们需要下载中文语言包,这里给出下载的地址http://www.itmop.com/downinfo/268024.html,下载好后将其放到tessdata文件夹下,这样就算配置好了。 不过还得下载python的第三方库来驱动Tesseract,一个是pytesseract一个是pillow,如果没有安装PIL也把这个库装一下。
代码
小编有话说
最后,小编想说还是尽可能的支持正版吧,毕竟每个人的劳动成果都是汗水与智慧的结晶,请不要践踏!