您当前的位置:首页 > 计算机 > 编程开发 > 人工智能

tesserocr2.4.0安装(windows)

时间:05-23来源:作者:点击数:
tesserocr2.4.0安装(windows)
  • OCR,即Optical Character Recongnition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本,然后爬虫将识别的结果提交给服务器,便可以达到自动识别验证码的过程。
  • tesserocr是python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。
  • 因此,在windows下,首先需要下载安装tesseract(4.1.0),然后再安装tesserocr(2.4.0)
1、下载tesseract
  • 下载tesseract不带dev的exe文件:我下载的是 tesseract-ocr-w64-setup-v4.1.0.20190314.exe
    在这里插入图片描述
  • 双击tesseract的exe文件,勾选Additional language data,其余一路点击next即可
    在这里插入图片描述
  • 安装tesseract完成后,配置环境变量,添加tesseract安装路径到path环境变量;我的tesseract安装路径在D:\Software\tesseract
    在这里插入图片描述
2、下载tesserocr对应python版本whl文件
  • 下载tesserocr对应python版本whl文件:python3.7版本 tesserocr-2.4.0-cp37-cp37m-win_amd64.whl
    在这里插入图片描述
  • 安装tesserocr:cmd命令窗口执行pip install tesserocr pillow这个命令会出现报错;换成下面两个命令执行安装teserocr安装;注意whl文件路径选择你放的目录
    pip install wheel
    pip install D:\Software\Anaconda\Scripts\tesserocr-2.4.0-cp37-cp37m-win_amd64.whl
    

    在这里插入图片描述
3、验证安装

(1)保存如下图片到本地,命名为image.png

在这里插入图片描述

(2)命令窗口执行tesseract命令测试;-l指定使用的语言包,在此使用英文(eng)

cmd tesseract image.png stdout -l eng

在这里插入图片描述

(3)命令窗口执行python命令测试:

import tesserocr
print(tesserocr.file_to_text('image.png')
  • 如果出现报错:RuntimeError: Failed to init API, possibly an invalid tessdata path: D:\Software\Anaconda/tessdata/
    在这里插入图片描述
  • 需要将tesseract文件夹下的tessdata文件复制到你的报错的路径下:
    在这里插入图片描述
  • 然后在命令窗口再运行python程序,如果成功输出结果,则证明tesseract和tesserocr安装成功:
    在这里插入图片描述
    import tesserocr
    from io import BytesIO
    from PIL import Image
    import base64
    base_64 = "/9j/4AAQSkZJRgABAQEAYABgAAD/2wBDAAgGBgcGBQgHBwcJCQgKDBQNDAsLDBkSEw8UHRofHh0aHBwgJC4nICIsIxwcKDcpLDAxNDQ0Hyc5PTgyPC4zNDL/2wBDAQkJCQwLDBgNDRgyIRwhMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjIyMjL/wAARCAASAGEDASIAAhEBAxEB/8QAHwAAAQUBAQEBAQEAAAAAAAAAAAECAwQFBgcICQoL/8QAtRAAAgEDAwIEAwUFBAQAAAF9AQIDAAQRBRIhMUEGE1FhByJxFDKBkaEII0KxwRVS0fAkM2JyggkKFhcYGRolJicoKSo0NTY3ODk6Q0RFRkdISUpTVFVWV1hZWmNkZWZnaGlqc3R1dnd4eXqDhIWGh4iJipKTlJWWl5iZmqKjpKWmp6ipqrKztLW2t7i5usLDxMXGx8jJytLT1NXW19jZ2uHi4+Tl5ufo6erx8vP09fb3+Pn6/8QAHwEAAwEBAQEBAQEBAQAAAAAAAAECAwQFBgcICQoL/8QAtREAAgECBAQDBAcFBAQAAQJ3AAECAxEEBSExBhJBUQdhcRMiMoEIFEKRobHBCSMzUvAVYnLRChYkNOEl8RcYGRomJygpKjU2Nzg5OkNERUZHSElKU1RVVldYWVpjZGVmZ2hpanN0dXZ3eHl6goOEhYaHiImKkpOUlZaXmJmaoqOkpaanqKmqsrO0tba3uLm6wsPExcbHyMnK0tPU1dbX2Nna4uPk5ebn6Onq8vP09fb3+Pn6/9oADAMBAAIRAxEAPwD2u/1Wa1mmWC08+O2iE1wxk2lVOeFGDubAJwSO3PNJdajfQTQbLO1kgnlWONhdMHYHnO3y8cDJ69BTb7T7ySe6FsYPKvYhFK0jENHjI3KADu4PQkdOvNWVsn/tKGZiv2e3h2QrnJ3Hgk/QAAfVqw/eN79f8/0sdi9ioptJ6efZeff8CvY6w97qdxaqtoBA7owF1mbCnG7y9vAJx370aLrD6uruFtFRRysV15jqc8Bl2jb0PepJLW8udSt5ZhAkNtIzxvGxLvlSuCCMKOeeTnA6U1LK6uL83F6IogsDwAW8rZcMQSxOAVxt4AJxk80o+0uru+/Tf/L9RyVBxeltF1vbf776ehbu5buML9kto5mOS3mzeWoH1Csc/hjg8+ufcaxeJpseoW9jBJbyRo6LJclJCWxhQAhGSSAOaW+sL3yYbWyCSWnJmW4u5A7+i7yrnb1z+XSrMtpNcTWJkWKOGD948aMT84GFA4GVGSe3IXim3NtpXW3/AAen9eQoKlFJySe/3ednu/6uQvrA/tRbFPsnmBgsgludjEkAkIu0l8A+388JY6w97qdxaqloBA7qyi6zNhTjd5e3gE4796iuNJuXuLiKIWwtbm4S4eUsRIjLtyAMYP3Rg5GM9Djmy9reXOpW8swgSG2kZ0eNyXkypXBBGFHPPJzgdKlOpfX8v62/Epxocunbv1/4fS3TcdZ6jLdG9VrJ4pLZ9ojLqWfKhh04B59T9arXGtXFlb3hurSFJrdI3wtwTGVdioJYqCMEHPFFvBq8M+ozeRYq9wd8X+kOwVgiqARsHHGeP/r1JYW+o21tOZILX7U5DlzcM/mt33HYNoxwMA49PU5ptWu1v0+7oHJSi22k1ppf0v1237jTq832G3mSG0lkuZvKiMN0Wh6HkybPYjgHnA71c029/tCxS52bNxZSA24EgkZU9wccHuKzJdIvJImd0tZWluTPNZu58lhs27c7TnkBuV5Pboa0dLtZbOxWGZl3BmIRCSsakkhFJ5IA4HA6dB0qqbnze9tb/L/gk1o0VTvDe/8Anp/wfxLtFFFbnGFFFFABRRRQAUUUUAFFFFABRRRQAUUUUAFFFFAH/9k="
    im = Image.open(BytesIO(base64.b64decode(base_64)))
    print(tesserocr.image_to_text(im))
    
方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门