什么是tesseractOCR?
- TesseractOCR 是一款由HP实验室开发由 Google 维护的开源 OCR(Optical Character Recognition , 光学字符识别)引擎。
- 简单点说,就是用来做字符识别的,可以识别超过100种语言。也可以用来训练其他的语言。
- 听起来不错,但识别的准确率让人恼火。于是,有人训练出了自己的识别库。
这篇就讲解一下软件安装、使用自带的识别库识别常规的英文字符、英文单词、数字。
软件:pycharm
tesseract下载与安装:
1、软件下载(后面会放我自己下载好的网盘链接,可以自行下载):
这里是tesseract的下载官网,任意版本的都可以,但不要下载带有dev标识的版本。
没有速度快的梯子的话,速度会很慢。但我没有梯子,好像就下了十来分钟左右。
2、软件安装:
这里就必须强调有无梯子的事了。
双击下载好的exe文件,一路next,直到这个界面注意一下:
- 如果你对自己的梯子速度很有自信的话,请勾选上红色框出来的两项。然后不停的点击next,直到安装成功。
- 如果没有,那咱就不要勾选 。后面也是一路无障碍的安装成功。接下来,咱进入这个github链接,下载所有的文件。下载好压缩包之后,解压,将里面所有的文件都放进刚刚安装tesseract的文件夹里的tessdata里面。
3、环境变量的设置:
按顺序点击:此电脑---属性---高级系统设置---环境变量。
选中path那一行,点击“编辑”。
在弹窗内点击“新建”,将安装tesseract软件的文件夹的绝对路径放进去。我这里是D:\OpencvPython\01使用tessdoc进行文本检测\tesseract。
确定之后,在此界面点击“新建”:
输入变量名和变量值:(变量值是tesseract软件下面的tessdata文件的绝对路径)
变量名:TESSDATA_PREFIX
变量值:D:\OpencvPython\01使用tessdoc进行文本检测\tesseract\tessdata
剩下的就是不停的点击确定。环境变量设置结束。
在cmd里输入:tesseract --version
出现版本号了就是下载成功了。
这是我自己下载好的软件和压缩包的网盘链接,自行下载:
链接:https://pan.baidu.com/s/1-dP6-QauGDjBsvo8v8_Gyw
提取码:cimx
识别时所需要的库:
import cv2
import pytesseract
英文字符的识别:
1、先导入咱们安装好的tesseract软件以及所需要识别的图片。
这里注意一下:tesseract只能识别RGB格式的图片,而opencv导进来的图片是BGR格式的。
pytesseract.pytesseract.tesseract_cmd = 'D:\\OpencvPython\\01使用tessdoc进行文本检测\\tesseract\\tesseract.exe'
img = cv2.imread('eng.png')
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
图片:
2、识别。
text = pytesseract.image_to_string(img)
print(text)
结果:(挺成功的)
3、在图片上面框选出字符,并且将字符的识别结果显示在图片上。
hImg, wImg, _ = img.shape
boxes = pytesseract.image_to_boxes(img)
for b in boxes.splitlines():
b = b.split(' ')
x1, y1, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(img, (x1,hImg-y1), (x2, hImg-y2), (0, 0, 255), 2)
cv2.putText(img, b[0], (x1, hImg-y1+25), cv2.FONT_HERSHEY_SIMPLEX, 1, (50, 50, 255), 2)
结果:
来拆解一下这组代码的含义:
hImg, wImg, _ = img.shape
boxes = pytesseract.image_to_boxes(img)
img,shape输出的是原始图片img的高度、宽度、纬度
boxes如下图所示,里面包含着每个字符的识别结果和该字符所在的位置信息。
比如:H 32 58 75 99 。含义依次是左下角横坐标,左下角纵坐标,右上角横坐标,右上角纵坐标。这个位置信息需要额外注意一下:pytesseract.image_to_boxes的坐标系原点在左下角,而opencv的坐标系原点在左上角。
要想从这些字符串里面取出来数据,引入一个for循环。
for b in boxes.splitlines(): # 这里将boxes的元素一行一行地取出
for b in boxes.splitlines():
b = b.split(' ') # 这里将b里面的元素,出现空格就分开
b里面的数据:
再次强调:pytesseract.image_to_boxes的坐标系原点在左下角,而opencv的坐标系原点在左上角。
将坐标转换成opencv里面需要的坐标。
先小结一下相关变量的含义:
hImg : 图片的总高度; wImg : 图片的总宽度
x1: 字符的左下角横坐标; y1:字符的左下角纵坐标
x2: 字符的左上角横坐标; y2:字符的左上角纵坐标
大概画一张图:
根据线段长度之类的转换,很成功地得到了坐标。
使用cv2.rectangle函数,画出外框。
- 对于cv2.rectangle函数有个新发现:之前一直以为参数必须是左上角和右下角的坐标确定方框的位置,但现在通过实验验证,是通过确定对角线的方式画出矩形的。无论是主对角线还是副对角线,都可以画出来。
使用cv2.putText放置文本内容。
最后的结果为:
完整代码:
import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd = 'D:\\OpencvPython\\01使用tessdoc进行文本检测\\tesseract\\tesseract.exe'
img = cv2.imread('eng.png')
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
text = pytesseract.image_to_string(img)
print(text)
hImg, wImg, _ = img.shape
boxes = pytesseract.image_to_boxes(img)
for b in boxes.splitlines():
b = b.split(' ')
x1, y1, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(img, (x1,hImg-y1), (x2, hImg-y2), (0, 0, 255), 2)
cv2.putText(img, b[0], (x1, hImg-y1+25), cv2.FONT_HERSHEY_SIMPLEX, 1, (50, 50, 255), 2)
cv2.imshow('Result', img)
cv2.waitKey(0)
英文单词的识别:
如何做到把字符连起来形成单词的样子?
和英文字符的识别差别只在第三步。这里就放上第三步的代码。
hImg, wImg, _ = img.shape
boxes = pytesseract.image_to_data(img)
print(boxes)
for x,b in enumerate(boxes.splitlines()):
if x!=0:
b = b.split()
print(b)
if len(b)==12:
x1, y1, x2, y2 = int(b[6]), int(b[7]), int(b[8]), int(b[9])
cv2.rectangle(img, (x1,y1), (x1+x2, y1+y2), (0, 0, 255), 3)
cv2.putText(img, b[11], (x1,y1), cv2.FONT_HERSHEY_SIMPLEX, 1, (50, 50, 255), 2)
这里调用的函数是 image_to_data,前面调用的函数是image_to_boxes。
boxes = pytesseract.image_to_data(img)
这个函数输出的boxes就多样化了,但咱只需要第7、8、9、10、12列的数据。
for循环的语句里
boxes.splitlines()还是将boxes按行分开
而enumerate(a)函数会将a里的每一个元素单独拆分出来,并且加上索引,以元组的形式返回。
所以,for x,b in enumerate(boxes.splitlines()),x放的是索引号。后面再加上一个x!=0的条件句,就是为了去掉boxes里第一行的“level、page_num、block_num...”。
再看看boxes里面的十二列数据,会发现有的行只有11个数据,-1代表没有识别出东西来。而能够识别出来的都会有12个数据,咱需要的也就是有12个数据的那些行,因此又有了len(b)==12的条件句。
剩下的三行代码和识别字符一样的含义。
最后识别英文单词的结果:
完整代码:
import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd = 'D:\\OpencvPython\\01使用tessdoc进行文本检测\\tesseract\\tesseract.exe'
img = cv2.imread('eng.png')
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
text = pytesseract.image_to_string(img)
print(text)
hImg, wImg, _ = img.shape
boxes = pytesseract.image_to_data(img)
print(boxes)
for x,b in enumerate(boxes.splitlines()):
if x!=0:
b = b.split()
print(b)
if len(b)==12:
x1, y1, x2, y2 = int(b[6]), int(b[7]), int(b[8]), int(b[9])
cv2.rectangle(img, (x1,y1), (x1+x2, y1+y2), (0, 0, 255), 3)
cv2.putText(img, b[11], (x1,y1), cv2.FONT_HERSHEY_SIMPLEX, 1, (50, 50, 255), 2)
cv2.imshow('Result', img)
cv2.waitKey(0)
数字的识别:
其实在英文字符的识别里面,就可以完成对数字的识别了。
识别的结果:
使用英文字符识别的代码,既有英文又有数字的识别结果:
但你要是只想识别出数字:
那就在boxes那里加个限制条件:让oem为3,psm为6。
cong = r'--oem 3 --psm 6 outputbase digits'
boxes = pytesseract.image_to_boxes(img, config=cong)
-oem 参数控制OCR的引擎模式,控制由超正方体使用的算法类型。
oem的数值代表的模式:
-psm 参数控制tesseract使用的自动页面分割模式。
psm的数值代表的模式:
识别结果:
很明显,加上了限制条件,它确实只能够识别准确数字,其他类型的东西效果很不理想,甚至不能识别(理论上是不能识别的)。
完整代码:
import cv2
import pytesseract
pytesseract.pytesseract.tesseract_cmd = 'D:\\OpencvPython\\01使用tessdoc进行文本检测\\tesseract\\tesseract.exe'
img = cv2.imread('eng.png')
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
text = pytesseract.image_to_string(img)
print(text)
hImg, wImg, _ = img.shape
cong = r'--oem 3 --psm 6 outputbase digits'
boxes = pytesseract.image_to_boxes(img, config=cong)
for b in boxes.splitlines():
b = b.split(' ')
x1, y1, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(img, (x1,hImg-y1), (x2, hImg-y2), (0, 0, 255), 2)
cv2.putText(img, b[0], (x1, hImg-y1+25), cv2.FONT_HERSHEY_SIMPLEX, 1, (50, 50, 255), 2)
cv2.imshow('Result', img)
cv2.waitKey(0)
版权归原作者 balabalaba5 所有, 如有侵权,请联系我们删除。