经过两个下午的尝试,终于搞出来了;特记录下来备忘;
首先来看python代码识别图片,这一段较为简单;
from PIL import Image
# import tesserocr # 完全可以不用这个import pytesseract
image = Image.open(r'hahah.jpg')# 打开图片
result = pytesseract.image_to_string(image,'chi_sim')# 转化str,注意'chi_sim'是语言包库print(result)
结果输出:图片内的文字信息;
过程中各种报错;
1、安装pytesseract过程;
pip install pytesseract
安装这个在pip中没问题,但是运行时候发现缺少tesseract库;
2、下载tesseract库;
地址:tesseract下载
我电脑是64的,下载了64bit版本;
3、安装tesseract;
这里我吧地址安装到了:E:\Program Files (x86)\Tesseract;(后边要用这个)
默认情况下安装在:C:\Program Files (x86)\ 文件下;
注意:安装时候不要选择语言包,下载慢死了,我是在这里踏了个坑啊,断了好几次NNDX;
4、下载语言包;
地址:语言包地址 chi_sim
这里我只单独下载了chi_sim包,在git上下载时候,可以下全套的,只要你愿意真的大;
然后把下载好后的包,放在安装目录下的tessdata目录内即可;eng和chi_sim足矣
E:\Program Files (x86)\Tesseract\tessdata (我的地址)
5、环境变量配置(重点);
系统变量:PATH 下增加 E:\Program Files (x86)\Tesseract
系统变量: TESSDATA_PREFIX 下增加 E:\Program Files (x86)\Tesseract\tessdata
第一次没配置语言包,又报错;哎郁闷;
6、上边操作完了,验证一下tesseract的安装情况;
进入管理控制台(cmd)
tesseract -v 查询版本
tesseract --list-langs 查询语言包清单
O了,基本东西安装完成;
7、修正tesseract默认地址描述;
这里又是一坑,还报错我差点崩溃了,还好吃了个橘子稳住了(报错码我就不上了);
进入pytesseract.py文件,修正tesseract_cmd地址;
# tesseract_cmd = 'tesseract'
tesseract_cmd ='E:\Program Files (x86)\Tesseract\\tesseract.exe'
总算不报错了,但是尼玛出来的字又不对;
目前崩溃中,继续找方法!
版权归原作者 pypup 所有, 如有侵权,请联系我们删除。