同时对一个文件夹中的所有图像进行Python OCR识别
如果你有一个装满图片的文件夹,其中有一些文字需要提取到一个单独的文件夹中,并有相应的图片文件名或在一个单一的文件中,那么这就是你正在寻找的完美代码。
这篇文章不仅给你提供了OCR(光学字符识别)的基础,而且还帮助你为主文件夹内的每张图片创建output.txt文件,并将其保存在某个预定的方向。
需要的库 –
你还需要tesseract-oct和pytesseract库。tesseract-ocr可以从这里下载和安装,pytesseract可以用pip3 install pytesseract来安装。
下面是Python的实现-
输入图片:
image_sample1
输出 :
如果你想把所有图片中的文本存储在一个单一的输出文件中,那么代码就会有一些不同。主要的区别是,我们要写的文件的模式将改为 “+a”,以追加文本,并创建output.txt文件,如果它还没有存在的话。
输入图像:
image_sample1
image_sample2
输出:
它给出了一个从文件夹内的图像中提取所有信息后创建的单一文件的输出。该文件的格式是这样的 –