文字识别方法和装置与流程

文档序号：11276823阅读：185来源：国知局

本发明涉及多媒体技术，尤其涉及一种文字识别方法和装置。

背景技术：

随着多媒体技术的不断发展，图片、视频等等多媒体信息素材越来越多的应用到各项技术中。在图片、视频等多媒体信息中，会配备有大量的文字信息，例如在图片中具有文字说明，在视频中具有字幕以及其他文字说明信息。在对多媒体信息进行处理的时候，需要从单张图片或者视频中的各帧图片中提取出文字，提取文字需要采用文字识别的方法。

现有技术中，对图片中的文字，在人工的确定了图片中的文字的语种之后，可以采用与该语种对应的光学字符识别(opticalcharacterrecognition，简称ocr)核心库进行而文字的识别。

然而现有技术中，在进行图片的文字识别的时候，通常都是对大量的图片进行文字识别，现有技术中需要人工的对每一个图片确定了图片中的文字的语种之后，才可以采用与各语种对应的ocr核心库进行文字识别，从而需要大量的人工操作，识别的时间较长，识别效率低。

技术实现要素：

本发明提供一种文字识别方法和装置，用以解决现有技术中需要人工的对每一个图片确定了图片中的文字的语种之后，才可以采用与各语种对应的ocr核心库进行文字识别，从而需要大量的人工操作，识别的时间较长，识别效率低的问题。

本发明的一方面是提供了一种文字识别方法，包括：

获取待识别图片；

采用至少一种语种的ocr核心库对所述待识别图片进行文字识别，生成各语种的识别结果，所述识别结果中包括了至少一个字符；

确定各语种的识别结果的有效字符比例；

根据各语种的识别结果的有效字符比例，判定所述待识别图片中的文字的语种、以及所述待识别图片中的文字的识别有效结果。

如上所述的方法中，所述确定各语种的识别结果的有效字符比例，包括：

确定各语种的识别结果中的字符个数，并确定各语种的识别结果中的各字符的字符编码；

确定各语种的识别结果中的各字符的字符编码，归属于各语种的字符编码区间内的有效字符个数；

根据各语种的识别结果的字符个数，以及各语种的识别结果的有效字符个数，确定各语种的识别结果的有效字符比例。

如上所述的方法中，所述根据各语种的识别结果的有效字符比例，判定所述待识别图片中的文字的语种、以及所述待识别图片中的文字的识别有效结果，包括：

比较各语种的识别结果的有效字符比例的大小，确定最大值有效字符比例的语种为所述待识别图片中的文字的语种，并确定最大值有效字符比例的语种的识别结果为所述待识别图片的文字的识别有效结果。

如上所述的方法中，所述采用至少一种语种的ocr核心库对所述待识别图片进行文字识别，生成各语种的识别结果，包括：

采用三种语种的ocr核心库对所述待识别图片进行文字识别，生成各语种的识别结果，其中三种语种的ocr核心库分别为中文语种的ocr核心库、英文语种的ocr核心库、藏文语种的ocr核心库；

相应的，所述根据各语种的识别结果的有效字符比例，判定所述待识别图片中的文字的语种、以及所述待识别图片中的文字的识别有效结果，包括：

若藏文语种的识别结果的有效字符比例r1大于等于预设比例，则判定所述待识别图片中的文字的语种为藏文语种、所述待识别图片中的文字的识别有效结果为藏文语种的识别结果；

若藏文语种的识别结果的有效字符比例r1小于预设比例，且藏文语种的识别结果的有效字符比例r1大于等于中文语种的识别结果的有效字符比例r2，且藏文语种的识别结果的有效字符比例r1大于等于英文语种的识别结果的有效字符比例r3，则判定所述待识别图片中的文字的语种为藏文语种、所述待识别图片中的文字的识别有效结果为藏文语种的识别结果；

若藏文语种的识别结果的有效字符比例r1小于预设比例，且藏文语种的识别结果的有效字符比例r1大于等于中文语种的识别结果的有效字符比例r2，且藏文语种的识别结果的有效字符比例r1小于英文语种的识别结果的有效字符比例r3，则判定所述待识别图片中的文字的语种为英文语种、所述待识别图片中的文字的识别有效结果为英文语种的识别结果；

若藏文语种的识别结果的有效字符比例r1小于预设比例，且藏文语种的识别结果的有效字符比例r1小于中文语种的识别结果的有效字符比例r2，且中文语种的识别结果的有效字符比例r2大于等于英文语种的识别结果的有效字符比例r3，则判定所述待识别图片中的文字的语种为中文语种、所述待识别图片中的文字的识别有效结果为中文语种的识别结果；

若藏文语种的识别结果的有效字符比例r1小于预设比例，且藏文语种的识别结果的有效字符比例r1小于中文语种的识别结果的有效字符比例r2，且中文语种的识别结果的有效字符比例r2小于英文语种的识别结果的有效字符比例r3，则判定所述待识别图片中的文字的语种为英文语种、所述待识别图片中的文字的识别有效结果为英文语种的识别结果。

本发明的另一方面是提供了一种文字识别装置，包括：

获取模块，用于获取待识别图片；

识别模块，用于采用至少一种语种的ocr核心库对所述待识别图片进行文字识别，生成各语种的识别结果，所述识别结果中包括了至少一个字符；

确定模块，用于确定各语种的识别结果的有效字符比例；

判定模块，用于根据各语种的识别结果的有效字符比例，判定所述待识别图片中的文字的语种、以及所述待识别图片中的文字的识别有效结果。

如上所述的装置中，所述确定模块，包括：

第一确定子模块，用于确定各语种的识别结果中的字符个数，并确定各语种的识别结果中的各字符的字符编码；

第二确定子模块，用于确定各语种的识别结果中的各字符的字符编码，归属于各语种的字符编码区间内的有效字符个数；

计算子模块，用于根据各语种的识别结果的字符个数，以及各语种的识别结果的有效字符个数，确定各语种的识别结果的有效字符比例。

如上所述的装置中，所述判定模块，具体用于：

如上所述的装置中，所述识别模块，具体用于：

相应的，所述判定模块，具体用于：

本发明通过获取待识别图片，采用至少一种语种的ocr核心库对待识别图片进行文字识别，生成各语种的识别结果，识别结果中包括了至少一个字符；计算出各语种的识别结果的有效字符比例，根据各语种的识别结果的有效字符比例，判定待识别图片中的文字的语种、以及待识别图片中的文字的识别有效结果。从而可以不需要人工的对待识别图片确定了图片中的文字的语种之后，再进行文字识别；可以自动的判定待识别图片中的文字的语种，同时确定待识别图片中的文字的识别结果，不需要人工操作，缩短了识别的时间，提升了识别效率。

附图说明

图1为本发明实施例一提供的文字识别方法的流程图；

图2为本发明实施例二提供的文字识别方法的流程图；

图3为本发明实施例二提供的文字识别方法中的一种待识别图片的示意图；

图4为本发明实施例二提供的文字识别方法中的图3的中文语种识别结果的示意图；

图5为本发明实施例二提供的文字识别方法中的图3的英文语种识别结果的示意图；

图6为本发明实施例二提供的文字识别方法中的图3的藏文语种识别结果的示意图；

图7为本发明实施例三提供的文字识别方法的流程图；

图8为本发明实施例四提供的文字识别装置的结构示意图；

图9为本发明实施例五提供的文字识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一提供的文字识别方法的流程图，如图1所示，本实施例的方法包括：

步骤101、获取待识别图片。

在本实施例中，具体的，在图片、视频等多媒体信息中，会配备有大量的文字信息，例如在图片中具有文字说明，在微博的图片中具有长微博文字图片、在视频中具有字幕以及其他文字说明信息。

首先获取待识别的图片，待识别的图片包括了一张图片，或者视频中的单帧图片。然后，可以对待识别图片进行分割，进而便于后续步骤对分割后的待识别图片中的文字一一进行识别；还可以对待识别图片进行图片预处理的工作，例如调整待识别图片的亮度和对比图、将待识别图片调整为黑白值的图片等。

步骤102、采用至少一种语种的ocr核心库对待识别图片进行文字识别，生成各语种的识别结果，识别结果中包括了至少一个字符。

在本实施例中，具体的，ocr识别技术具有多种语种的ocr核心库，从而可以采用至少一种语种的ocr核心库对待识别图片进行文字识别，进而生成了各语种的识别结果，在各不同的识别结果中分别包括了至少一个字符。

举例来说，可以采用中文语种的ocr核心库、英文语种的ocr核心库、藏文语种的ocr核心库、德文语种的ocr核心库、法文语种的ocr核心库等对待识别图片进行文字识别，从而可以生成中文语种的识别结果、英文语种的识别结果、藏文语种的识别结果、德文语种的识别结果、法文语种的识别结果。

步骤103、确定各语种的识别结果的有效字符比例。

在本实施例中，具体的，对于步骤102中生成的各个语种的识别结果，计算出各语种的识别结果的有效字符比例。从而得到不同的语种的识别结果的各自的有效字符比例。

步骤104、根据各语种的识别结果的有效字符比例，判定待识别图片中的文字的语种、以及待识别图片中的文字的识别有效结果。

在本实施例中，具体的，根据步骤103中生成的各语种的识别结果的有效字符比例，根据预设的判决决策来判定步骤101中的待识别图片中的文字的语种，以及哪种语种的识别结果为待识别图片中的文字的识别有效结果。

举例来说，可以对待识别图片采用至少一种语种的ocr核心库进行多次识别之后，对得到的各语种的识别结果的多次的有效字符比例，求取均值，从而确定均值最大值的语种为待识别图片中的文字的语种、确定均值最大值的识别结果为待识别图片中的文字的识别有效结果。

本实施例通过获取待识别图片，采用至少一种语种的ocr核心库对待识别图片进行文字识别，生成各语种的识别结果，识别结果中包括了至少一个字符；计算出各语种的识别结果的有效字符比例，根据各语种的识别结果的有效字符比例，判定待识别图片中的文字的语种、以及待识别图片中的文字的识别有效结果。从而可以不需要人工的对待识别图片确定了图片中的文字的语种之后，再进行文字识别；可以自动的判定待识别图片中的文字的语种，同时确定待识别图片中的文字的识别结果，不需要人工操作，缩短了识别的时间，提升了识别效率。

图2为本发明实施例二提供的文字识别方法的流程图，如图2所示，在实施例一的基础上，本实施例的方法中，步骤103，包括：

步骤1031、确定各语种的识别结果中的字符个数，并确定各语种的识别结果中的各字符的字符编码。

在本实施例中，具体的，由于各语种的识别结果都分别由多个字符构成，从而可以确定出步骤102中生成的各语种的识别结果的字符个数，同时确定出各语种的识别结果中的各字符的字符编码。

步骤1032、确定各语种的识别结果中的各字符的字符编码，归属于各语种的字符编码区间内的有效字符个数。

在本实施例中，具体的，由于在unicode编码下，不同的字符对应着不同的编码，不同语种的字符也对应着不同的字符编码区间。从而可以根据步骤1031中确定的各语种的识别结果中的各字符的字符编码，分别确定各语种的识别结果中的各字符的字符编码，归属于各语种的字符编码区间内的有效字符个数。

举例来说，图3为本发明实施例二提供的文字识别方法中的一种待识别图片的示意图，如图3所示，对图3中提供的待识别图片进行识别；可以采用中文语种的ocr核心库、英文语种的ocr核心库、藏文语种的ocr核心库分别对图3中的待识别图片进行文字识别，图4为本发明实施例二提供的文字识别方法中的图3的中文语种识别结果的示意图，图5为本发明实施例二提供的文字识别方法中的图3的英文语种识别结果的示意图，图6为本发明实施例二提供的文字识别方法中的图3的藏文语种识别结果的示意图，如图4、图5和图6所示，会生成中文语种的识别结果、英文语种的识别结果、藏文语种的识别结果；首先确定生成的中文语种的识别结果中的字符个数为6个字符，英文语种的识别结果中的字符个数为10个字符，藏文语种的识别结果中的字符个数为6个字符，并分别确定各语种的识别结果中的各字符的字符编码；中文语种的字符编码区间为0x4e00-0x9fa5，英文语种的字符编码区间为0x0000-0x00ff，藏文语种的字符编码区间为0x0f00-0x0fff；并且识别结果中的特殊字符等，并不在各语种的字符编码区间中；从而确定中文语种的识别结果中的各字符的字符编码，归属于中文语种的字符编码区间内的有效字符个数为4个；确定英文语种的识别结果中的各字符的字符编码，归属于英文语种的字符编码区间内的有效字符个数为6个；确定藏文语种的识别结果中的各字符的字符编码，归属于藏文语种的字符编码区间内的有效字符个数为6个。

步骤1033、根据各语种的识别结果的字符个数，以及各语种的识别结果的有效字符个数，确定各语种的识别结果的有效字符比例。

在本实施例中，具体的，根据步骤1031中确定出的各语种的识别结果的字符个数，以及步骤1032中计算出的各语种的识别结果的有效字符个数，可以分别计算出各语种的识别结果的有效字符比例。

举例来说，可以根据中文语种的识别结果的字符个数6，中文语种的识别结果的有效字符个数4，确定中文语种的识别结果的有效字符比例为2/3；根据英文语种的识别结果的字符个数10，英文语种的识别结果的有效字符个数6，确定英文语种的识别结果的有效字符比例为3/5；根据藏文语种的识别结果的字符个数6，藏文语种的识别结果的有效字符个数6，确定藏文语种的识别结果的有效字符比例为1/1。

步骤104具体包括：

比较各语种的识别结果的有效字符比例的大小，确定最大值有效字符比例的语种为待识别图片中的文字的语种，并确定最大值有效字符比例的语种的识别结果为待识别图片的文字的识别有效结果。

在本实施例中，具体的，在确定了各语种的识别结果的有效字符比例之后，可以比较各语种的识别结果的有效字符比例的大小，取有效字符比例的值最大的语种作为最终的语种的识别结果，从而可以确定出待识别图片的语种和文字识别的结果。准确来说，将最大值有效字符比例的语种作为待识别图片中的文字的语种，将最大值有效字符比例的语种的识别结果作为待识别图片的文字的识别有效结果。

举例来说，中文语种的识别结果的有效字符比例为67％，英文语种的识别结果的有效字符比例为60％，藏文语种的识别结果的有效字符比例为100％，从而藏文语种的识别结果的有效字符比例的值最大，可以确定待识别图片中的文字的语种为藏文，将藏文语种的识别结果作为待识别图片的文字的识别有效结果。

本实施例通过确定各语种的识别结果中的字符个数；并确定各语种的识别结果中的各字符的字符编码，归属于各语种的字符编码区间内的有效字符个数；从而可以根据各语种的识别结果的字符个数、各语种的识别结果的有效字符个数，可以分别计算出各语种的识别结果的有效字符比例；进而取最大值有效字符比例的语种为待识别图片中的文字的语种、取最大值有效字符比例的语种的识别结果为待识别图片的文字的识别有效结果。从而可以不需要人工的对待识别图片确定了图片中的文字的语种之后，再进行文字识别；可以自动的判定待识别图片中的文字的语种，同时确定待识别图片中的文字的识别结果，不需要人工操作，缩短了识别的时间，提升了识别效率。

图7为本发明实施例三提供的文字识别方法的流程图，如图7所示，在实施例一和实施例二的基础上，本实施例的方法中，步骤102具体包括：

采用三种语种的ocr核心库对待识别图片进行文字识别，生成各语种的识别结果，其中三种语种的ocr核心库分别为中文语种的ocr核心库、英文语种的ocr核心库、藏文语种的ocr核心库；

相应的，步骤104具体包括：

若藏文语种的识别结果的有效字符比例r1大于等于预设比例，则判定待识别图片中的文字的语种为藏文语种、待识别图片中的文字的识别有效结果为藏文语种的识别结果；

若藏文语种的识别结果的有效字符比例r1小于预设比例，且藏文语种的识别结果的有效字符比例r1大于等于中文语种的识别结果的有效字符比例r2，且藏文语种的识别结果的有效字符比例r1大于等于英文语种的识别结果的有效字符比例r3，则判定待识别图片中的文字的语种为藏文语种、待识别图片中的文字的识别有效结果为藏文语种的识别结果；

若藏文语种的识别结果的有效字符比例r1小于预设比例，且藏文语种的识别结果的有效字符比例r1大于等于中文语种的识别结果的有效字符比例r2，且藏文语种的识别结果的有效字符比例r1小于英文语种的识别结果的有效字符比例r3，则判定待识别图片中的文字的语种为英文语种、待识别图片中的文字的识别有效结果为英文语种的识别结果；

若藏文语种的识别结果的有效字符比例r1小于预设比例，且藏文语种的识别结果的有效字符比例r1小于中文语种的识别结果的有效字符比例r2，且中文语种的识别结果的有效字符比例r2大于等于英文语种的识别结果的有效字符比例r3，则判定待识别图片中的文字的语种为中文语种、待识别图片中的文字的识别有效结果为中文语种的识别结果；

若藏文语种的识别结果的有效字符比例r1小于预设比例，且藏文语种的识别结果的有效字符比例r1小于中文语种的识别结果的有效字符比例r2，且中文语种的识别结果的有效字符比例r2小于英文语种的识别结果的有效字符比例r3，则判定待识别图片中的文字的语种为英文语种、待识别图片中的文字的识别有效结果为英文语种的识别结果。

在本实施例中，具体的，在获取了待识别图片、对待识别图片进行了图片预处理的工作之后，可以采用采用三种语种的ocr核心库对待识别图片进行文字识别，其中，三种语种的ocr核心库分别为中文语种的ocr核心库、英文语种的ocr核心库、藏文语种的ocr核心库。从而生成各语种的识别结果：中文语种的识别结果、英文语种的识别结果、藏文语种的识别结果。

分别计算出中文语种的识别结果、英文语种的识别结果、藏文语种的识别结果各自的有效字符比例。

首先，判断藏文语种的识别结果的有效字符比例r1是否大于等于预设比例t1。若藏文语种的识别结果的有效字符比例r1大于等于预设比例t1，则判定待识别图片中的文字的语种为藏文语种、待识别图片中的文字的识别有效结果为藏文语种的识别结果。若藏文语种的识别结果的有效字符比例r1小于预设比例t1，则判断藏文语种的识别结果的有效字符比例r1是否大于等于中文语种的识别结果的有效字符比例r2。

然后，确定在藏文语种的识别结果的有效字符比例r1小于预设比例t1，且藏文语种的识别结果的有效字符比例r1大于等于中文语种的识别结果的有效字符比例r2时，再去判断藏文语种的识别结果的有效字符比例r1是否大于等于英文语种的识别结果的有效字符比例r3，若此时藏文语种的识别结果的有效字符比例r1大于等于英文语种的识别结果的有效字符比例r3，则判定待识别图片中的文字的语种为藏文语种、待识别图片中的文字的识别有效结果为藏文语种的识别结果，若此时藏文语种的识别结果的有效字符比例r1小于英文语种的识别结果的有效字符比例r3，则判定待识别图片中的文字的语种为英文语种、待识别图片中的文字的识别有效结果为英文语种的识别结果。

确定在藏文语种的识别结果的有效字符比例r1小于预设比例t1，且藏文语种的识别结果的有效字符比例r1小于中文语种的识别结果的有效字符比例r2时，再去判断中文语种的识别结果的有效字符比例r2是否大于等于英文语种的识别结果的有效字符比例r3，若此时中文语种的识别结果的有效字符比例r2大于等于英文语种的识别结果的有效字符比例r3，则判定待识别图片中的文字的语种为中文语种、待识别图片中的文字的识别有效结果为中文语种的识别结果，若此时中文语种的识别结果的有效字符比例r2小于英文语种的识别结果的有效字符比例r3，则判定待识别图片中的文字的语种为英文语种、待识别图片中的文字的识别有效结果为英文语种的识别结果。

本实施例在采用中文语种的ocr核心库、英文语种的ocr核心库、藏文语种的ocr核心库分别对待识别图片进行文字识别时，采用藏文语种的识别结果的有效字符比例、中文语种的识别结果的有效字符比例、英文语种的识别结果的有效字符比例进行相互比较的决策判别方式，最终确定出待识别图片中的文字的语种、以及识别有效结果。从而可以不需要人工的对待识别图片确定了图片中的文字的语种之后，再进行文字识别；可以自动的判定待识别图片中的文字的语种，同时确定待识别图片中的文字的识别结果，不需要人工操作，缩短了识别的时间，提升了识别效率。

图8为本发明实施例四提供的文字识别装置的结构示意图，如图8所示，本实施例提供的文字识别装置，包括：

获取模块31，用于获取待识别图片；

识别模块32，用于采用至少一种语种的ocr核心库对待识别图片进行文字识别，生成各语种的识别结果，识别结果中包括了至少一个字符；

确定模块33，用于确定各语种的识别结果的有效字符比例；

判定模块34，用于根据各语种的识别结果的有效字符比例，判定待识别图片中的文字的语种、以及待识别图片中的文字的识别有效结果。

本实施例的文字识别装置可执行本发明实施例一提供的文字识别方法，其实现原理相类似，此处不再赘述。

图9为本发明实施例五提供的文字识别装置的结构示意图，在实施例四的基础上，如图9所示，本实施例提供的文字识别装置，确定模块33，包括：

第一确定子模块331，用于确定各语种的识别结果中的字符个数，并确定各语种的识别结果中的各字符的字符编码；

第二确定子模块332，用于确定各语种的识别结果中的各字符的字符编码，归属于各语种的字符编码区间内的有效字符个数；

计算子模块333，用于根据各语种的识别结果的字符个数，以及各语种的识别结果的有效字符个数，确定各语种的识别结果的有效字符比例。

判定模块34，具体用于：

或者，识别模块32，具体用于：

相应的，判定模块34，具体用于：

本实施例的文字识别装置可执行本发明实施例一和实施例二提供的文字识别方法，其实现原理相类似，此处不再赘述。

本实施例通过确定各语种的识别结果中的字符个数；并确定各语种的识别结果中的各字符的字符编码，归属于各语种的字符编码区间内的有效字符个数；从而可以根据各语种的识别结果的字符个数、各语种的识别结果的有效字符个数，可以分别计算出各语种的识别结果的有效字符比例；进而取最大值有效字符比例的语种为待识别图片中的文字的语种、取最大值有效字符比例的语种的识别结果为待识别图片的文字的识别有效结果。并且在采用中文语种的ocr核心库、英文语种的ocr核心库、藏文语种的ocr核心库分别对待识别图片进行文字识别时，采用藏文语种的识别结果的有效字符比例、中文语种的识别结果的有效字符比例、英文语种的识别结果的有效字符比例进行相互比较的决策判别方式，最终确定出待识别图片中的文字的语种、以及识别有效结果。从而可以不需要人工的对待识别图片确定了图片中的文字的语种之后，再进行文字识别；可以自动的判定待识别图片中的文字的语种，同时确定待识别图片中的文字的识别结果，不需要人工操作，缩短了识别的时间，提升了识别效率。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张明明;杨建武;于晓明
技术所有人：北大方正集团有限公司;北京大学;北京北大方正电子有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。