批量识别PDF文件(图片类型)中的文字
如何批量识别PDF图片中的文字,一直是一个效率很低,很繁琐的事情。小编为大家提供一款基于tesseract5.0 OCR版本的PDF文件(图片类型)批量识别工具,此工具的用途是批量把PDF转换成文本文件,也可以转换为双层PDF(原来PDF在前面,后面加一层文字层)。
此软件自带识别引擎,不需要其他识别引擎支持,可以在局域网等内网环境。操作非常简单,选中文件夹自动加载全部pdf文件,或者选中某几个PDF文件,点击按键即可完成识别。识别率很高在96%以上,速度也非常快,300页图片型PDF文件在3分钟内完成识别并生成新双层PDF文件。
本系统可以实现内网环境下本地化部署,不需要把文件上传到互联网,可以保障文件安全,不会导致泄密。
64位windows操作系统上一键安装,没有其他环境要求。 下载地址如下:
以下简单介绍一下软件使用:
打开软件, 选择PDF文件或者选择一个文件夹,软件会自动加载改文件夹下全部PDF文件,点击"识别选中文件",系统开始识别PDF文件, 如下图:
系统可以设置导出文件类型,有"双层PDF","合并PDF", "文本文件","HOCR"等类型选择,可以设置导出默认路径。同时该软件支持多线程,能充分发挥计算机的效率。
系统有友好的完成情况提示, 用户对进度一目了然, 软件很人性化。
以下是识别结果对比图例:
该软件没有时间等其他限制 。