字符串的识别方法和系统与流程

文档序号：11458897阅读：322来源：国知局

本公开内容涉及字符串识别领域，具体地，涉及字符串的识别方法和系统。

背景技术：

与英文字符相比，汉字种类繁多且结构复杂。在传统的字符串的识别方法中，第一步是将字符串图像进行过切分，然后，利用分类器、规则等对过切分后的图像进行字符识别。然而，传统方法对汉字字符串的识别率并不能满足需求。

因此，需要提供一种识别率更高的字符串识别方法和系统。

技术实现要素：

在下文中给出了关于本公开内容的简要概述，以便提供关于本公开内容的某些方面的基本理解。应当理解，这个概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分，也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

为解决上述问题，本公开内容提供一种字符串的识别方法和系统。

根据本公开内容的一个方面，提供一种字符串的识别方法，所述识别方法包括：将字符串图像过切分为多个连通区域；使用二类分类器对每个连通区域与邻近的预定数量的连通区域的组合进行分类，给出每个组合为字符的概率；对多个连通区域的各种组合形成的所有路径进行路径搜索，选择其中所有组合均为字符的概率最高的路径；以及使用全类分类器对所选出的路径中的组合进行字符识别。

根据本公开内容的另一个方面，提供一种字符串的识别系统，所述识别系统包括：过切分装置，用于将字符串图像过切分为多个连通区域；二类分类器，用于对每个连通区域与邻近的预定数量的连通区域的组合进行分类，给出每个组合为字符的概率；路径搜索装置，用于对多个连通区域的各种组合形成的所有路径进行路径搜索，选择其中所有组合均为字符的概率最高的路径；以及全类分类器，用于对所选出的路径中的组合进行字符识别。

与现有技术相比，本公开内容提出的方法和系统对字符串，尤其是手写汉字字符串的识别率更高。

通过以下结合附图对本公开内容的优选实施例的详细说明，本公开内容的上述以及其他优点将更加明显。

附图说明

为了进一步阐述本公开内容的以上和其他优点和特征，下面结合附图对本公开内容的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解，这些附图仅描述本公开内容的典型示例，而不应看作是对本公开内容的范围的限定。在附图中：

图1是根据本公开内容的一实施方式的字符串的识别方法的流程图；

图2是根据本公开内容的一实施方式的字符串的识别方法的示意图；

图3是在图2所示的方法中的由多个连通区域的组合形成的多种路径的示图；

图4是根据本公开内容的另一实施方式的字符串的识别方法的流程图；

图5是根据本公开内容的一实施方式的字符串的识别系统的示图；

图6是根据本公开内容的另一实施方式的字符串的识别系统的示图；

图7是根据本公开内容的变化实施方式的字符串的识别系统的示图；

图8是根据本公开内容的一实施方式的训练用于字符分类的二类分类器的方法的流程图；

图9示出了可用于实施根据本公开内容的实施方式的方法和系统的计算机的示意性框图。

具体实施方式

在下文中将结合附图对本公开内容的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开内容，在附图中仅仅示出了与根据本公开内容的方案密切相关的设备结构和/或处理步骤，而省略了与本公开内容关系不大的其他细节。

在本公开内容中提出了级联分类器来进行字符串识别的方案。下面结合附图详细描述本公开内容提出的各种字符串的识别方法和系统以及训练用于字符分类的二类分类器的方法。

首先参见图1，图1是根据本公开内容的一实施方式的字符串的识别方法的流程图。如图1所示，方法1000包括如下步骤：将字符串图像过切分为多个连通区域(步骤1001)；使用二类分类器对每个连通区域与邻近的预定数量的连通区域的组合进行分类，给出每个组合为字符的概率(步骤1002)；对多个连通区域的各种组合形成的所有路径进行路径搜索，选择其中所有组合均为字符的概率最高的路径(步骤1003)；以及使用全类分类器对所选出的路径中的组合进行字符识别(步骤1004)。

根据方法1000，首先对字符串图像进行过切分(步骤1001)。在本公开内容中，字符串可以为手写字符串，并且手写字符串可以包括汉字字符、数字字符、字母、符号或其组合。下面，以字符串包括手写汉字字符串为例进行说明。

参见图2，图2是根据本公开内容的一实施方式的字符串的识别方法的示意图。如图2所示，在本实施方式中，字符串包括手写汉字“富士通研究开发中心”以及左右引号和句号等标点符号。利用过切分技术将字符串图像过切分为多个连通区域。其中，过切分技术为本领域的成熟技术并且不属于本公开内容的重点，故在此不进行详细介绍。一般而言，过切分系根据字符串图像中的字符间空白和字符笔画特征来进行的。在图2中，以s1表征经过过切分之后的一种可能的结果。

接下来，使用二类分类器对每个连通区域与邻近的预定数量的连通区域的组合进行分类，给出每个组合为字符的概率(步骤1002)。其中，本领域的技术人员可以根据经验及具体应用场景(如特定人群的手写汉字习惯等)设置连通区域的组合中所包括的连通区域的数量上限，如可以将数量上限设置为四个或五个或者其他适当的值。

例如，如果假设一个汉字字符最多包含四个连通区域，那么每个连通区域的组合最多包含四个连通区域。在这种情况下，所述连通区域的组合可以为单个连通区域、两个相邻连通区域构成的组合、三个相邻连通区域构成的组合或者四个相邻连通区域构成的组合。

在步骤1002中所使用的二类分类器可以为二分类svm(支持向量机)分类器或二分类cnn(卷积神经网络)分类器，但不限于此。在图2所示的实施方式中，利用二分类cnn分类器对每个连通区域的组合进行分类，并给出为字符的概率。有关如何对二类分类器进行训练的内容，稍后进行详细说明。

然后，在连通区域的组合形成的所有可能的路径中选择最优路径，下面参见图3说明如何选择最优路径(步骤1003)。所有可能的路径即指过切分字符串图像形成的连通区域的所有可能的相邻组合方式，其约束条件是前述允许组合中包含的连通区域的最大数目。图3是在图2所示的实施方式中的由多个连通区域的各种组合形成的所有路径中的三种路径p1、p2和p3的示图。为简化说明，仅以该三条路径p1、p2和p3为例进行示意性说明。

在该实施方式中，在所有可能的路径中选择所有组合均为字符的概率最高的路径。所有组合均为字符的概率可以有各种可能的算法。在优选实施方式中，在每一条路径中，选择其中的各组合为字符的概率的平均值作为该路径所有组合均为字符的概率。该平均值可以是算数平均或者加权平均。例如通过如下公式(1)计算加权平均概率

其中，pi表示每个连通区域的组合为字符的概率，mi表示针对每个连通区域的组合的预设加权参数，n表示连通区域的组合的数量。

加权参数mi的设置是为了使平均概率的计算结果更为准确，例如需要考虑到各种类型的字符(比如不同人群的手写字符)之间的差异性(比如字符长度、所占面积等)。根据实际需要，mi可以被设置为每个连通区域的组合的长度或者每个连通区域的组合中的黑像素的个数。

可替换地，在不考虑手写字符之间的差异性的情况下，mi的值可以被设置为1或者可以被设置为任一固定常数。

下面以路径p3为例进行说明。如图3所示，路径p3包括12个连通区域的组合，即n的值为12，并且这些连通区域的组合中的每个组合为字符的概率(pi)从左到右依次为：0.7、0.8、0.8、0.7、0.6、0.7、0.7、0.8、0.8、0.7、0.6、0.7。

在本实施方式中，将预设加权参数mi设置为每个连通区域的组合的长度，并且在路径p3中，每个连通区域的组合的长度值从左到右依次为：7、9、6、6、12、8、8、11、6、7、4、4。

将路径p3的数据pi和mi带入上述公式(1)进行计算，得到下式：

从而，通过计算得到路径p3的平均概率为0.72。

类似地，将路径p1和路径p2的对应数据带入公式(1)进行计算，可以分别得到路径p1和路径p2的平均概率。在如图3所示的实施方式中，经计算，p1和p2的平均概率分别为0.63和0.69。由此可见，路径p3的平均概率最高，是图3所示的三条路径中的最优路径。

在大量的可能路径中，最优路径的选择通过对所有可能的路径进行路径搜索来进行，选择其中所有组合均为字符的概率(例如前述平均概率)最高的路径作为最优路径。目前有很多路径搜索的算法。在优选实施方式中，方法1000的步骤1003中的路径搜索可以利用动态规划或束搜索来进行，本公开内容不以此为限。动态规划(dynamicprograming)通常用于求解具有某种最优性质的问题，其基本思想是将待求解问题分解成若干个子问题，先求解子问题，然后从这些子问题的解得到原问题的解。其中，经分解得到的子问题往往不是互相独立的，保存已解决的子问题的答案，在需要时找出已求得的答案，这样就可以避免大量的重复计算，降低运算量而节省时间。束搜索(beamsearch)是一种启发式图搜索算法，通常用在图的解空间比较大的情况下，为了减少搜索所占用的空间和时间，在每一步深度扩展的时候，去掉质量较差的结点，保留质量较好的结点。这样减少了空间消耗，并提高了时间效率。

如图2所示，在选择了最优路径例如s2(对应于图3中的p3)之后，接下来使用全类分类器对所选出的路径s2中的组合进行字符识别(步骤1004)，得到最终识别结果。其中，所述全类分类器可以为全分类svm分类器或全分类cnn分类器，但不限于此。

现在参见图4，图4是根据本公开内容的另一实施方式的字符串的识别方法的流程图。如图4所示，字符串的识别方法4000包括步骤4001至步骤4005，其中步骤4001至步骤4004类似于图1所示的识别方法1000中的步骤1001至步骤1004。相比于识别方法1000，识别方法4000还包括对识别的结果进行优化的步骤(步骤4005)。

具体地，在步骤4005中可以利用诸如一元语言模型或二元语言模型等的语言模型对识别的结果进行优化。语言模型(统计语言模型)表示某种语言的语言单位(字或词)的分布概率，也可以将语言模型看作是生成某种语言文本的统计模型。

n元语言模型中的n代表了马尔科夫过程的阶数。当n＝1时，即为一元语言模型，它利用了每个语言单位的出现频率作为参数进行概率估计。当n＝2时，即为二元语言模型，它利用语言单位对的同现信息来进行相关参数的概率估计。

尽管在图4所示的示意性识别方法4000中包括单独的优化步骤，可替换地，在本公开内容提出的识别方法中也可以将语言模型嵌入路径搜索步骤，从而在路径搜索过程中进行优化。本领域的技术人员可以根据实际需要设置优化处理，本公开内容不以此为限。

下面介绍根据本公开内容的字符串的识别系统。

参见图5，图5是根据本公开内容的一实施方式的字符串的识别系统的示图。如图5所示，字符串的识别系统5000包括过切分装置5001、二类分类器5002、路径搜索装置5003以及全类分类器5004。

其中，过切分装置5001用于将字符串图像过切分为多个连通区域；二类分类器5002用于对每个连通区域与邻近的预定数量的连通区域的组合进行分类，给出每个组合为字符的概率；路径搜索装置5003用于对多个连通区域的各种组合形成的所有路径进行路径搜索，选择其中所有组合均为字符的概率最高的路径；全类分类器5004用于对所选出的路径中的组合进行字符识别。

在优选实施方式中，每个连通区域的组合包括不多于四个连通区域。本公开内容在此不受限，本领域的技术人员可以根据实际情况设置每个连通区域的组合所包括的连通区域的个数的上限值，例如，每个连通区域的组合可以被设置为包括不多于五个连通区域。

在优选实施方式中，二类分类器包括二分类svm分类器或二分类cnn分类器，并且全类分类器包括全分类svm分类器或全分类cnn分类器。

在优选实施方式中，字符串包括手写汉字字符串，并且所述手写字符串包括汉字字符、数字字符、字母、符号或其组合。

路径搜索装置5003可以包括动态规划单元或束搜索单元。其中，动态规划单元用于对由多个连通区域的组合形成的路径进行动态规划；束搜索单元用于对由多个连通区域的组合形成的路径进行束搜索。

参见图6，图6是根据本公开内容的另一实施方式的字符串的识别系统的示图。如图6所示，识别系统6000包括过切分装置6001、二类分类器6002、路径搜索装置6003以及全类分类器6004。

与图5所示的识别系统5000相比，识别系统6000中的路径搜索装置6003还包括计算单元6013，其他部件与识别系统5000相似。计算单元6013用于计算每条路径中的所有组合的概率的平均概率，并且路径搜索装置6003选择平均概率最高的路径。尽管在图6所示的实施方式中，计算单元6013属于路径搜索装置6003的一部分，在变化实施方式中，可以在识别系统中设置单独的计算装置，本公开内容在此不受限

在优选实施方式中，计算单元6013用于通过如前面结合方法实施方式所描述的公式(1)计算平均概率。同样地，在公式(1)中，表示所述平均概率，pi表示每个连通区域的组合为字符的概率，mi表示针对每个连通区域的组合的预设加权参数，n表示连通区域的组合的数量。在进一步优选实施方式中，mi包括以下内容中的任一项：每个连通区域的组合的长度；每个连通区域的组合中的黑像素的个数；以及固定常数。

现在参见图7，图7是根据本公开内容的变化实施方式的字符串的识别系统的示图。如图7所示，识别系统7000包括过切分装置7001、二类分类器7002、路径搜索装置7003、全类分类器7004以及优化装置7005。其中，路径搜索装置7003包括计算单元7013。与图6所示的识别系统6000相比，识别系统7000还包括优化装置7005，其他部件与识别系统6000相似。

优化装置7005用于利用语言模型对识别的结果进行优化，与前面结合方法实施方式所描述的内容相似的，可以采用一元语言模型或二元语言模型等语言模型来进行优化。尽管在图7所示的示意性识别系统7000中包括单独的优化装置7005，可替换地，在本公开内容提出的识别系统中也可以将语言模型嵌入路径搜索装置7003，即，在路径搜索装置7003中设置优化单元，从而在路径搜索过程中进行优化。本领域的技术人员可以根据实际需要设置用于优化的相关装置或部件，本公开内容不以此为限。

容易理解的是，如图7所示的优化装置7005可以根据实际需要被设置在图5所示的识别系统5000中，也可以被设置在识别系统的其他变化实施方式中。

下面介绍对本公开内容中涉及的分类器的训练。

首先，介绍对二类分类器的训练。参见图8，图8是根据本公开内容的一实施方式的训练用于字符分类的二类分类器的方法的流程图。如图8所示，方法8000包括将训练字符串图像过切分为多个连通区域(步骤8001)；将每个连通区域与邻近的预定数量的连通区域的组合分别标记为字符组合和非字符组合(步骤8002)；以及利用所述字符组合和非字符组合训练所述二类分类器(步骤8003)。

其中，训练字符串可以取自任何已知的手写字库，或者更有针对性地，可以包括当前待识别的手写字符串的作者之前所写的字符串等。本公开内容在此不受限，本领域的技术人员可以根据实际需要设置训练字符串。在训练过程中，每个连通区域的组合优选地包括不多于四个训练连通区域。本公开内容在此不受限，本领域的技术人员可以根据实际情况设置每个连通区域的组合所包括的训练连通区域的个数的上限值，例如，每个连通区域的组合可以被设置为包括不多于五个训练连通区域。

此外，对于全类分类器的训练是利用单独的汉字字符对其进行训练，例如利用casia手写汉字库等单字库对全类分类器进行训练，然后则可以用全类分类器来识别单独的字符。由于对全类分类器的训练不是本公开内容的重点内容，故在此不做赘述。

图9示出了可用于实施根据本公开内容的实施方式的方法和系统的计算机的示意性框图。

在图9中，中央处理单元(cpu)901根据只读存储器(rom)902中存储的程序或从存储部分908加载到随机存取存储器(ram)903的程序执行各种处理。在ram903中，还根据需要存储当cpu901执行各种处理等等时所需的数据。cpu901、rom902和ram903经由总线904彼此连接。输入/输出接口905也连接到总线904。

下述部件连接到输入/输出接口905：输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器，比如阴极射线管(crt)、液晶显示器(lcd)等，和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡比如lan卡、调制解调器等)。通信部分909经由网络比如因特网执行通信处理。根据需要，驱动器910也可连接到输入/输出接口905。可拆卸介质911比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器910上，使得从中读出的计算机程序根据需要被安装到存储部分908中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质911安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(cd-rom)和数字通用盘(dvd))、磁光盘(包含迷你盘(md)(注册商标))和半导体存储器。或者，存储介质可以是rom902、存储部分908中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本公开内容还提供一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行根据本公开内容的原理和构思实现的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本公开内容的范围内。所述存储介质包括但不限于软盘、光盘、闪存、磁光盘、存储卡、存储棒等。

还需要指出的是，在本公开内容的装置、方法和系统中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应该视为本公开内容的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按时间顺序执行。某些步骤可以并行或彼此独立地执行。

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上虽然结合附图详细描述了本公开内容的实施例，但是应当明白，上面所描述的实施方式只是用于说明本公开内容，而并不构成对本公开内容的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本公开内容的实质和范围。因此，本公开内容的范围仅由所附的权利要求及其等效含义来限定。

附记

附记1.一种字符串的识别方法，所述识别方法包括：

将字符串图像过切分为多个连通区域；

使用二类分类器对每个连通区域与邻近的预定数量的连通区域的组合进行分类，给出每个组合为字符的概率；

对多个连通区域的各种组合形成的所有路径进行路径搜索，选择其中所有组合均为字符的概率最高的路径；以及

使用全类分类器对所选出的路径中的组合进行字符识别。

附记2.如附记1所述的识别方法，其中，一个路径中所有组合均为字符的概率为该路径中的各个组合为字符的概率的平均概率。

附记3.如附记2所述的识别方法，其中，所述平均概率通过如下公式计算：

其中，表示所述平均概率，pi表示每个组合为字符的概率，mi表示针对每个组合的预设加权参数，n表示组合的数量。

附记4.如附记3所述的识别方法，其中，mi包括以下内容中的任一项：

每个组合的长度；

每个组合中的黑像素的个数；以及

固定常数。

附记5.如附记1所述的识别方法，其中，每个组合包括不多于四个连通区域。

附记6.如附记1-5中的任一项所述的识别方法，其中，所述二类分类器包括二分类svm分类器或二分类cnn分类器，并且所述全类分类器包括全分类svm分类器或全分类cnn分类器。

附记7.如附记1-5中的任一项所述的识别方法，其中，所述路径搜索包括动态规划或束搜索。

附记8.如附记1-5中的任一项所述的识别方法，其中，所述字符串包括汉字字符、数字字符、字母、符号或其组合的手写字符串。

附记9.如附记1-5中的任一项所述的识别方法，其中，利用所述字符串中的字符间空白和字符笔画特征来将所述字符串过切分为多个连通区域。

附记10.如附记1-5中的任一项所述的识别方法，其中，所述识别方法还包括利用语言模型在路径搜索的同时进行优化或者利用语言模型对识别的结果进行优化。

附记11.如附记10所述的识别方法，其中所述语言模型包括一元语言模型或二元语言模型。

附记12.一种字符串的识别系统，所述识别系统包括：

过切分装置，用于将字符串图像过切分为多个连通区域；

二类分类器，用于对每个连通区域与邻近的预定数量的连通区域的组合进行分类，给出每个组合为字符的概率；

路径搜索装置，用于对多个连通区域的各种组合形成的所有路径进行路径搜索，选择其中所有组合均为字符的概率最高的路径；以及

全类分类器，用于对所选出的路径中的组合进行字符识别。

附记13.如附记12所述的识别系统，其中，一个路径中所有组合均为字符的概率为该路径中的各个组合为字符的概率的平均概率。

附记14.如附记13所述的识别系统，其中，所述路径搜索装置包括计算单元，所述计算单元通过如下公式计算所述平均概率:

其中表示所述平均概率，pi表示每个的组合为字符的概率，mi表示针对每个组合的预设加权参数，n表示组合的数量。

附记15.如附记14所述的识别系统，其中，mi包括以下内容中的任一项：

每个组合的长度；

每个组合中的黑像素的个数；以及

固定常数。

附记16.如附记12所述的识别系统，其中，每个连通区域的组合包括不多于四个连通区域。

附记17.如附记12所述的识别系统，其中，所述二类分类器包括二分类svm分类器或二分类cnn分类器。并且所述全类分类器包括全分类svm分类器或全分类cnn分类器。

附记18.如附记12所述的识别系统，其中，所述字符串包括汉字字符、数字字符、字母、符号或其组合的手写字符串。

附记19.如附记12-18中的任一项所述的识别系统，其中，所述路径搜索装置包括：

动态规划单元，用于对由多个连通区域的组合形成的路径进行动态规划；或

束搜索单元，用于对由多个连通区域的组合形成的路径进行束搜索。

附记20.如附记12-18中的任一项所述的识别系统，还包括：

优化装置，用于利用语言模型对识别的结果进行优化；或

设置在路径搜索装置中的优化单元，用于在进行路径搜索的同时利用语言模型进行优化。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王淞;范伟;孙俊
技术所有人：富士通株式会社
我是此专利的发明人

上一篇：信息识别方法及装置与流程
上一篇：一种触控面板的指纹识别方法及制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。