批量识别PDF文件(图片类型)中的文字

批量识别PDF文件(图片类型)中的文字 2023-01-06 877

如何批量识别PDF图片中的文字，一直是一个效率很低，很繁琐的事情。小编为大家提供一款基于tesseract5.0 OCR版本的PDF文件(图片类型)批量识别工具，此工具的用途是批量把PDF转换成文本文件，也可以转换为双层PDF（原来PDF在前面，后面加一层文字层）。

此软件自带识别引擎，不需要其他识别引擎支持，可以在局域网等内网环境。操作非常简单，选中文件夹自动加载全部pdf文件，或者选中某几个PDF文件，点击按键即可完成识别。识别率很高在96%以上，速度也非常快，300页图片型PDF文件在3分钟内完成识别并生成新双层PDF文件。　

本系统可以实现内网环境下本地化部署，不需要把文件上传到互联网，可以保障文件安全，不会导致泄密。

　 64位windows操作系统上一键安装，没有其他环境要求。下载地址如下:

以下简单介绍一下软件使用:

打开软件，选择PDF文件或者选择一个文件夹，软件会自动加载改文件夹下全部PDF文件，点击"识别选中文件"，系统开始识别PDF文件, 如下图:

系统可以设置导出文件类型，有"双层PDF"，"合并PDF"， "文本文件"，"HOCR"等类型选择，可以设置导出默认路径。同时该软件支持多线程，能充分发挥计算机的效率。　

系统有友好的完成情况提示, 用户对进度一目了然, 软件很人性化。　

以下是识别结果对比图例:

该软件没有时间等其他限制。

文章来自:IT技术分享网
分享地址:http://www.5ityx.cn/cate100/221985.html

下一篇： .gitignore与.git/info/exclude区别