如何使用ABBYY获取网页上的表格数据?

在一些政府公开信息分享网站或专业的数据分享机构网站,都会定期公开分享一些社会发展数据,或与当前时事相关的数据。这些数据往往会采用网页分享的形式,很少会提供文件下载。

如果直接将这些数据复制下来,将需要花费大量的时间进行数据排版。但借助ABBYY FineReader PDF 15 文字识别软件的帮助,可以快速识别为表格数据,并导出为可编辑的数据表格。接下来,一起来看看怎么操作吧。

二、使用OCR编辑器识别表格

接着,打开ABBYY FineReader PDF 15文本识别软件,并使用“在OCR编辑器中打开”功能,打开刚才在网站截取的表格数据。

图3:在OCR编辑器中打开图片

接着,待软件完成图像的文本识别。在识别过程中,为了提高文本识别的准确度,软件会对图像的分辨率或指定的OCR语言作建议。如果条件允许的话(如提高图像的分辨率),可按照建议修改相关的设置。

图4:完成OCR识别

完成了文本识别程序后,我们需要先在区域属性面板中检查表格标记的区域属性是否正确。如图5所示,可以看到,ABBYY FineReader PDF 15已正确地将该区域标记为表格区域。

图5:区域属性

接着,再看到软件的文本编辑面板。如图6所示,可以看到,文本已经呈现为电子表格的形式,可以在单元格中编辑文本。

图6:文本编辑器

三、导出为Excel表格

为了方便后续的数据处理,我们可以将识别后的电子表格另存为Excel文件。如图7所示,在文本编辑面板的上方选取Excel表格的保存格式后,就可以将当前文本导出为Excel文件。

图7:保存为Excel表格

打开导出的Excel文件,可以看到,ABBYY FineReader PDF 15不仅能准确地识别数据,而且还能将表格的格式“复制”下来,将数据很好地导出到各个单元格中。这种导出形式可以减少大量数据排版的时间。

图8:导出的Excel表格

四、小结

通过使用ABBYY文字识别软件的数据表格识别功能,我们可以快速地将图片中的表格转换为可编辑的电子表格,提高数据的使用效率。这么好用的功能,您get到了吗?

经验分享 程序员 微信小程序 职场和发展