python：使用 cnocr 进行文字识别

2020-08-30 09:09:40

cnocr 是 Python 3 下的中英文OCR工具包，自带了多个训练好的识别模型（最小模型仅 4.7M），安装后即可直接使用。cnocr 主要针对的是排版简单的印刷体文字图片，如截图图片，扫描件等。目前内置的文字检测和分行模块无法处理复杂的文字排版定位。如果要用于场景文字图片的识别，需要结合其他的场景文字检测引擎使用，例如同样基于 MXNet 的文字检测引擎 cnstd 。

一、准备

安装cnstd和cnocr

>>> pip install cnstd
>>> pip install cnocr

注意：请使用Python3 (3.4, 3.5, 3.6以及之后版本应该都行)，没测过Python2下是否ok。依赖opencv，所以可能需要额外安装opencv。

二、实例

from cnstd import CnStd
from cnocr import CnOcr

std = CnStd()
cn_ocr = CnOcr()

box_info_list = std.detect('examples/taobao.jpg')

for box_info in box_info_list:
    cropped_img = box_info['cropped_img']
    ocr_res = cn_ocr.ocr_for_single_line(cropped_img)
    print('ocr result: %s' % ''.join(ocr_res))