一种文字识别方法和装置与流程

文档序号：11251414阅读：1146来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及文字识别领域，特别是涉及一种文字识别方法，一种文字识别装置，一种计算机设备，以及，一种计算机可读存储介质。

背景技术：

在文字识别领域，尤其是对包含一整串文字的文字图像的识别，通常需要将整串文字切分为多个单独的文字，针对各个文字分别进行识别。

在切分的时候，通常是按照由多个切分点组成的切分路径对图像进行切分，切分出的区域中可能包含有由多个文字所合并而成的文字，针对合并而成的文字进行识别，即可得到识别结果。

然而，目前的识别方法中，对文字的切分或合并存在较高的错误率，这样会影响到最终识别结果的准确性。即，目前的文字识别方式存在识别准确率较低的问题。

技术实现要素：

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文字识别方法、一种文字识别装置、一种计算机设备以及一种计算机可读存储介质。

依据本发明的一个方面，提供了一种文字识别方法，所述方法包括：

利用多种切分方式分别切分文字图像得到多种图像切分结果，各图像切分结果所包括的多个切分区域分别包括至少一个待识别对象；

根据所述切分区域中的待识别对象统计各图像切分结果的综合权重值，其中，所述综合权重值包括所述图像切分结果中各切分区域的文字特征匹配度和形状特征匹配度的统计值；

根据各图像切分结果的综合权重值筛选最优图像切分结果；

采用所述最优图像切分结果中各切分区域对应的目标文字作为识别结果。

可选地，所述根据所述切分区域中的待识别对象统计各图像切分结果的综合权重值的步骤包括：

根据所述图像切分结果中各切分区域的待识别对象与识别所述切分区域中的待识别对象得到的目标文字的文字特征匹配度，以及，各切分区域的待识别对象与所述目标文字对应的预设形状的形状特征匹配度，计算所述图像切分结果的综合权重值。

可选地，所述利用多种切分方式分别切分文字图像得到多种图像切分结果的步骤包括：

在所述文字图像上标记多个候选切分点；

按照选取的不同候选切分点，分别形成多个候选切分点集合；

按照各候选切分点集合，分别切分所述文字图像得到多个图像切分结果。

可选地，所述文字图像包括多个待切分对象，所述在所述文字图像上标记多个候选切分点包括如下至少一种：

在所述文字图像距离均等的多个位置上标记多个候选切分点；或者

查找所述文字图像上各个相邻但不连通的目标待切分对象，并在各目标待切分对象之间的位置上标记多个候选切分点；或者

将所述文字图像上各待切分对象投影在某方向坐标轴上得到多个投影坐标点，根据某方向坐标轴上不存在投影坐标点的坐标在所述文字图像上对应的位置标记多个候选切分点。

可选地，所述利用多种切分方式分别切分文字图像得到多种图像切分结果的步骤包括：

按照所述待识别对象在所述文字图像中的排列顺序，依次对各个待识别对象采用多个具有不同标记范围的标记窗口进行标记；

识别不同标记范围的标记窗口标记的待识别对象所对应的目标文字；

根据所述标记窗口标记的待识别对象与对应的目标文字，筛选出各个待识别对象的最优标记窗口；

按照各个待识别对象的最优标记窗口，切分所述文字图像得到所述图像切分结果。

可选地，包括：

提取所述切分区域中的待识别对象的特征向量；

在预设的文字匹配表中查找匹配于所述特征向量的文字作为所述目标文字；

计算所述切分区域中的待识别对象与所述目标文字的特征向量的余弦值，得到所述切分区域的文字特征匹配度。

可选地，包括：

查找与所述目标文字所属的文字类别对应的预设形状；

计算所述切分区域中的待识别对象与所述预设形状的宽高比的余弦值，得到所述切分区域的形状特征匹配度。

可选地，所述根据所述图像切分结果中各切分区域的待识别对象与识别所述切分区域中的待识别对象得到的目标文字的文字特征匹配度，以及，各切分区域的待识别对象与所述目标文字对应的预设形状的形状特征匹配度，计算所述图像切分结果的综合权重值的步骤包括：

针对同一图像切分结果，计算多个切分区域的文字特征匹配度的平均值和形状特征匹配度的平均值，分别作为所述图像切分结果的文字特征匹配度均值和形状特征匹配度均值；

将所述图像切分结果的文字特征匹配度均值和形状特征匹配度均值与分配的权重系数相乘，并将乘积求和得到所述图像切分结果的综合权重值。

根据本发明的另一方面，提供了一种文字识别装置，所述装置包括：

图像切分结果获取模块，用于利用多种切分方式分别切分文字图像得到多种图像切分结果，各图像切分结果所包括的多个切分区域分别包括至少一个待识别对象；

综合权重值统计模块，用于根据所述切分区域中的待识别对象统计各图像切分结果的综合权重值；所述综合权重值包括所述图像切分结果中各切分区域的文字特征匹配度和形状特征匹配度的统计值；

最优图像切分结果筛选模块，用于根据各图像切分结果的综合权重值筛选最优图像切分结果；

识别结果确定模块，用于采用所述最优图像切分结果中各切分区域对应的目标文字作为识别结果。

根据本发明的另一方面，提供了一种计算机设备，所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述文字识别方法的任意一项所述方法的步骤。

根据本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述文字识别方法的任意一项所述方法的步骤。

根据本发明实施例，针对利用多种切分方式分别切分文字图像得到的多种图像切分结果，根据所述切分区域中的待识别对象统计各图像切分结果的综合权重值，按照综合权重值筛选出的最优图像切分结果，并采用最优图像切分结果中各切分区域对应的目标文字作为识别结果，提升了文字图像的识别准确率。

根据本发明实施例，针对按照多种切分方式得到的多种图像切分结果，根据文字特征匹配度和形状特征匹配度统计各个图像切分结果的综合权重值，按照综合权重值筛选出的最优图像切分结果。在筛选的过程中引入文字特征匹配度和形状特征匹配度作为参考，既保证合并后的文字符合目标文字，又保证各个合并后的文字的形状之间偏差较小，使得筛选出的图像切分结果的文字合并错误率较低，从而提升了文字图像的识别准确率。

根据本发明实施例，针对于由过切分后动态后并和滑窗识别得到的多个图像切分结果，引入文字特征匹配度和形状特征匹配度作为图像切分结果的评价标准，将文字切分的合理性以形状特征为标准进行量化，并结合文字特征匹配度，从过切分后动态合并和滑窗识别得到的多个图像切分结果中筛选出最优图像切分结果，避免了对文字的错误合并的同时又保证了整体的文字识别准确率，从而最终提升了文字识别的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例一的一种文字识别方法的步骤流程图；

图2是本发明实施例二的一种文字识别方法的步骤流程图；

图3是本发明实施例三中的一种文字识别装置的结构框图；

图4是本发明实施例四中的一种文字识别装置的结构框图；

图5是本发明一种文字图像过切分示例的示意图；

图6是本发明一种文字图像动态合并示例的示意图；

图7是本发明一种滑窗识别方法的流程示意图；

图8是本发明一种滑窗识别的滑动识别示意图；

图9是本发明一种文字识别方法实施示例的流程图；

图10是本发明针对不同图像切分结果的排序评分的示意图；

图11是本发明图像切分结果的排序结果的示意图一；

图12是本发明图像切分结果的排序结果的示意图二。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

详细介绍本发明实施例提供的一种文字识别方法。

参照图1，示出了本发明实施例中的一种文字识别方法的步骤流程图。

步骤101，利用多种切分方式分别切分文字图像得到多种图像切分结果，各图像切分结果所包括的多个切分区域分别包括至少一个待识别对象。

上述的文字图像可以为包含文字信息的图像，所包含的文字信息可以为中文、英文、法文等多种语言的文字。

上述的切分方式可以包括多种的对文字图像中的文字进行切分的方式，例如，以一整串文字中各个文字的间隙为切分点，切分成多个文字；又例如，将以文字间隙为切分点切分得到的多个文字，按照相邻关系进行组合合并，可以得到不同的文字；又例如，设定不同尺寸的窗口，沿着文字方向按照一定移动幅度对文字图像进行扫描，以窗口的移动轨迹作为切分点将整串文字切分成多个文字。

对文字图像进行切分后，文字图像被切分成多个包括一个或多个待识别对象的切分区域，由切分区域组成上述的图像切分结果。上述的待识别对象可以为切分区域内具有文字特征的对象，文字图像被切分为多个切分区域后，每个切分区域内可能包含有一个完整的文字，也可能是文字的部分，还可能是多个文字。

实际应用中，连续的切分区域可以理解为文字图像中的切分路径，按照该切分路径进行切分，即可以得到上述的图像切分结果。

同一种切分方式可以得到多个图像切分结果，按照多种切分方式切分文字图像，可以得到分别对应于多种切分方式的多个图像切分结果。

步骤102，根据所述切分区域中的待识别对象统计各图像切分结果的综合权重值，其中，所述综合权重值包括所述图像切分结果中各切分区域的文字特征匹配度和形状特征匹配度的统计值。

具体实现中，可以针对各个切分区域所包括的待识别对象进行识别，将待识别对象识别为某个目标文字。针对切分区域的待识别对象进行识别的具体方式可以有多种，例如，可以针对文字图像中各个切分区域，提取其所包括的待识别对象的特征向量，将提取的特征向量输入到svm(supportvectormachine，支持向量机器)分类器，由svm分类器根据输入的特征向量与各个预设文字的特征向量进行比对，将特征向量接近的文字输出为目标文字。当然，本领域技术人员可以根据实际需要采用各种方式进行文字识别，例如模板匹配法、几何特征抽取法等。

针对识别得到的目标文字，可以计算切分区域所包括的待识别对象与目标文字的文字特征匹配度。文字特征匹配度可以是针对待识别对象与目标文字之间相似程度进行计算得到的数值。文字特征匹配度可以通过多种方式得到，例如，计算特征向量之间的相似度，将该相似度作为该切分区域的文字特征匹配度，文字特征匹配度越大表明文字特征之间越匹配。

识别得到的目标文字，可以具有对应的预设形状。不同的预设形状具有不同的设定形状特征，如设定的高宽比。形状特征匹配度可以是针对文字之间形状的相似程度进行计算得到的数值。例如，识别的目标文字“国”的高宽比例通常为1.25，而切分区域内的待识别对象的高宽比例为1，两者之间的比值为1.25，与1的差值为0.25，1除以0.25等于4，可以将4作为形状特征匹配度，形状特征匹配度越大表明目标文字与待识别对象之间的形状越匹配。实际应用中，可以针对各个文字设定对应的标准形状，也可以针对各种语言的文字分别设定统一高宽比的标准形状，例如，设定中文的高宽比例为1.2，设定韩文的高宽比为1.0。

实际应用中，尤其在针对验证码进行文字识别的应用场景中，由于验证码中的各个文字的形状并不标准，可以通过将验证码中的文字的形状与预设形状进行比较。例如，当某个验证码文字被识别为“国”，可以将验证码文字的高宽比与“国”的预设的高宽比进行比较，如果两者的高宽比接近，表明该验证码文字为“国”的概率越大。

可以根据各个切分区域的文字特征匹配度和形状特征匹配度，统计图像切分结果中各个切分区域的综合权重值。统计的具体方式可以有多种，例如，针对图像切分结果的全部切分区域，分别计算各个切分区域的文字特征匹配度和形状特征匹配度的平均值，针对文字特征匹配度的平均值和形状特征匹配度的平均值，分别赋予权重系数，将文字特征匹配度的平均值和形状特征匹配度的平均值的乘积进行求和，得到该图像切分结果中各个切分区域的综合权重值。

步骤103，根据各图像切分结果的综合权重值筛选最优图像切分结果。

在得到各个图像切分结果的综合权重值后，可以按照该综合权重值筛选出最优的图像切分结果。筛选的方式可以有多种，例如，按照综合权重值的大小对图像切分结果排序，将排序靠前的若干个图像切分结果作为若干最优的图像切分结果，或者，查找综合权重值最大的图像切分结果作为最优的图像切分结果。

步骤104，采用所述最优图像切分结果中各切分区域对应的目标文字作为识别结果。

具体实现中，可以针对各切分区域中的待识别对象进行文字识别得到对应的目标文字，并将各切分区域对应的目标文字作为该文字图像的识别结果。

实施例二

详细介绍本发明实施例提供的另一种文字识别方法。

参照图2，示出了本发明实施例中的另一种文字识别方法的步骤流程图。

步骤201，利用多种切分方式分别切分文字图像得到多种图像切分结果，各图像切分结果所包括的多个切分区域分别包括至少一个待识别对象。

可选地，所述步骤201可以包括以下子步骤：

子步骤s11，在所述文字图像上标记多个候选切分点。

子步骤s12，按照选取的不同候选切分点，分别形成多个候选切分点集合。

子步骤s13，按照各候选切分点集合，分别切分所述文字图像得到多个图像切分结果。

具体实现中，可以采用多种方式在文字图像上标记一系列的候选切分点。更具体地，可以采用均匀切分的标记方式，例如可以针对文字图像距离均等的多个位置上标记多个候选切分点；或者，可以采用连通域分析的标记方式，例如在文字图像上针对相邻但不连通的图像像素集群之间的位置标记候选切分点；还可以采用投影分析法的标记方式，例如将文字图像上的图像像素投影到某个坐标轴上，在坐标轴上没有投影的坐标即表明在文字图像的对应位置上不存在像素，属于文字之间的空隙，因此可以在该位置标记候选切分点。

得到多个候选切分点后，可以选取部分候选切分点形成候选切分点集合。按照选取的候选切分点不同，则可以形成多个不同的候选切分点集合。

按照多个不同的候选切分点集合对文字图像进行切分，则可以得到多个不同的图像切分结果。

实际应用中，可以将一个候选切分点集合理解为一条切分路径。从标记的多个候选切分点中选取一个或多个候选切分点形成切分路径。选取的候选切分点不同，则会形成不同的切分路径，按照不同的切分路径对文字图像进行切分，可以得到多个不同的图像切分结果。

可选地，所述文字图像包括多个待切分对象，所述子步骤s11可以包括如下至少一种：

在所述文字图像距离均等的多个位置上标记多个候选切分点。

具体实现中，可以针对文字图像距离均等的多个位置上标记多个候选切分点。例如，可以首先确定文字图像的总宽度，然后将总宽度除以设定的划分个数得到目标宽度，以目标宽度为间隔在文字图像上的多个位置分别标记候选切分点。

查找所述文字图像上各个相邻但不连通的目标待切分对象，并在各目标待切分对象之间的位置上标记多个候选切分点。

具体实现中，文字图像中可以包括有由不同的图像像素集群组成的多个待切分对象。针对各待切分对象进行连通域分析，确定相邻的待切分对象之间是否连通，即相邻的两个图像像素集群之间是否存在相互连接的图像像素。将相邻但不连通的待切分对象作为目标待切分对象，并在目标待切分对象之间的位置上标记候选切分点。

具体实现中，可以针对文字图像中文字排列方向设置一个横向或纵向的坐标轴，将文字图图像中的多个图像像素投影在坐标轴上，从而在坐标轴的多个坐标点上得到一系列的对应于各图像像素的投影点，如果某个坐标点不存在投影点，表明在文字图像的对应位置上不存在图像像素，属于文字之间的空隙，因此可以在该位置标记候选切分点。

需要说明的是，在实际应用中，可以采用上述的一种或多种的方式标记候选切分点。

在实际应用中，可以采用过切分后动态合并的方法实现上述步骤得到多个图像切分结果。具体地，可以首先对待识别对象进行过切分。针对待识别对象在文字图像中所处的位置，通过均匀切分、投影分析法以及连通域分析法标记尽可能将待识别对象切分的候选切分点，由多个候选切分点得到过切分结果。在切分过程中可以控制切分粒度，以实现将待识别对象尽可能地切分。图5示出了一种文字图像过切分示例的示意图。从图中可见，针对输入图像“广顺北大街”，各个不连通或之间存在空隙的待识别对象或待识别对象边旁被标记出候选切分点，从而得到过切分结果。

根据得到的过切分结果，可以通过动态合并得到多个图像切分结果。选择若干个候选切分点，以选择的候选切分点为基准对待识别对象进行切分，产生了由若干个文字或文字边旁合并而成的待识别对象。选择不同的候选切分点，则会产生不同的文字合并结果。由不同的文字合并结果得到多个图像切分结果。图6示出了一种文字图像动态合并示例的示意图。从图中可见，针对过切分结果，所选择的候选切分点不同，则会产生不同的动态合并结果，即得到多个的图像切分结果。

可选地，所述步骤201可以包括以下子步骤：

子步骤s21，按照所述待识别对象在所述文字图像中的排列顺序，依次对各个待识别对象采用多个具有不同标记范围的标记窗口进行标记。

子步骤s22，识别不同标记范围的标记窗口标记的待识别对象所对应的目标文字。

子步骤s23，根据所述标记窗口标记的待识别对象与对应的目标文字的文字特征匹配度，筛选出各个待识别对象的最优标记窗口。

子步骤s24，按照各个待识别对象的最优标记窗口，切分所述文字图像得到所述图像切分结果。

上述的具有标记范围的标记窗口可以是具有一定高度和宽度的窗口，用于将窗口所包括的一个或多个待识别对象进行标记。具体实现中，可以预先设置多个不同标记范围的标记窗口，按照待识别对象的排列顺序，对各个待识别对象依次进行标记。不同标记范围的标记窗口所包括的待识别对象不同，即不同标记范围的标记窗口所标记的待识别对象不同。例如，针对待识别对象“顺”，一个较大尺寸的标记窗口可以针对整个文字“顺”进行标记，而较小尺寸的标记窗口则会对待识别对象“川”和待识别对象“页”分别进行标记。

针对标记窗口中标记的待识别对象进行识别，得到对应的目标文字。针对标记的待识别对象进行识别的方法有多种，例如，提取标记窗口所包括的待识别对象的特征向量，将提取的特征向量输入到svm分类器，由svm分类器根据输入的特征向量与各个预设文字的特征向量进行比对，将特征向量接近的文字输出为目标文字。

可以计算标记的待识别对象与识别的目标文字之间的文字特征匹配度。文字特征匹配度具体的计算方法可以有多种。例如，计算目标文字与待识别对象的特征向量之间的相似度，将该相似度作为文字特征匹配度，文字特征匹配度越大表明文字特征之间越匹配。

若当前的标记窗口所标记的待识别对象与目标文字之间的文字特征匹配度大于预设阈值，或者在多个不同标记范围的标记窗口中排序靠前，可以将其作为最优标记窗口。从而，可以从多个具有不同标记范围的标记窗口中，筛选出一个或多个的最优标记窗口。按照最优标记窗口的标记范围对文字图像进行切分，得到多个图像切分结果。

在实际应用中，可以采用滑窗识别的方法实现上述步骤得到多个图像切分结果。图7示出了一种滑窗识别方法的流程示意图。从图中可见，针对作为文字图像的字符图片，可以首先确定待识别对象的排列顺序，以便按照该排列顺序作为窗口的滑动方向。实际应用中，可以按照通常的书写方式默认窗口滑动方向为从左向右。可以通过灰度投影法确定文字图像中待识别对象所处的左边界，从而可以将待识别对象的左边界作为当前位置开始滑动窗口。

窗口的基准尺寸可以通过分析整体待识别对象的宽度分布确定。实际应用中，可以设定一个文字训练样本集，根据文字训练样本集中的文字宽度的分布范围[13，35]，可以相应设定多个窗口的宽度分别为12，14，16，18，20，22，24，26，28，30，32，34，36共13档。针对不同宽度的窗口，均按照一定的滑动幅度沿从左到右的方向进行滑动，在滑动过程中，针对当前窗口内的图像进行文字识别。例如，将当前窗口区域内的图像输入到预先训练好的卷积神经网络，由其输出为提取的特征向量值。将提取的特征向量值输入至svm分类器，得到分类结果。

可以计算窗口标记的待识别对象所提取的特征向量值，与判别所属类别对应的一系列原型的特征向量值之间的余弦值，得到文字特征匹配度。

采用多个不同宽度的窗口对当前的待识别对象进行识别后，得到各个窗口对应的文字特征匹配度。按照文字特征匹配度最大的窗口进行滑动，直至滑动至待识别对象的右边界，则滑动结束并输出文字识别结果。图8示出了一种滑窗识别的滑动识别示意图。从图中可见，针对“广顺北大街”的文字，当以“广”字为起点寻找当前最优窗口时，会对不同宽度的窗口内的图像内容进行识别，根据文字特征匹配度得到标记文字“顺”的窗口为最优窗口。

实际应用中，卷积神经网络内的参数和svm分类器均可以根据标注的文字训练样本集进行优化和机器训练。其中，所属类别对应原型的特征向量值可以在机器训练过程中生成。例如，卷积神经网络可以采用大量的文字训练样本进行机器训练。其中卷积神经网络可以采用改进的le-net结构，该结构包括四个卷积层，四个池化层和两个全连接层，最后一层输出为512维的特征向量。针对于汉字识别，可以设定svm分类器的分类目标为3755类一级汉字，而用于机器训练的每一类的标注的文字训练样本为200，文字训练样本集的精度可以为99.2％。对于所属类别对应的一系列原型的特征向量值，可以首先将文字训练样本依次通过训练好的卷积神经网络生成一系列512维的特征向量值，然后对生成的特征向量值进行聚类，聚类得到的类别中心即为每一类的类别原型。对于k类问题，可以通过控制收敛参数，最终得到的每一类ci(i＝1,2……k)的原型数目ni可以不同。实际聚类中可以选择层次聚类方法。

需要说明的是，本发明实施例的文字识别方法可以根据实际需要应用于多种不同的切分方式，并不限于上述的过切分后动态合并和滑窗识别的切分方式。

步骤202，根据所述图像切分结果中各切分区域的待识别对象与识别所述切分区域中的待识别对象得到的目标文字的文字特征匹配度，以及，各切分区域的待识别对象与所述目标文字对应的预设形状的形状特征匹配度，计算所述图像切分结果的综合权重值。

可选地，所述步骤202可以包括以下子步骤：

子步骤s31，提取所述切分区域中的待识别对象的特征向量。

子步骤s32，在预设的文字匹配表中查找匹配于所述特征向量的文字作为所述目标文字。

子步骤s33，计算所述切分区域中的待识别对象与所述目标文字的特征向量的余弦值，得到所述切分区域的文字特征匹配度。

具体实现中，可以针对各个切分区域所包括的待识别对象进行特征向量的提取。特征向量可以是由待识别对象在文字图像中的位置坐标数据所构成的用于表达文字特征的一系列向量。对于提取的特征向量，可以查找特征向量与之匹配的目标文字。针对切分区域所包括的待识别对象的特征向量与查找到的目标文字的特征向量计算余弦值，将得到的余弦值该切分区域作为文字特征匹配度。

可选地，所述步骤202还可以包括以下子步骤：

子步骤s34，查找与所述目标文字所属的文字类别对应的预设形状。

子步骤s35，计算所述切分区域中的待识别对象与所述预设形状的宽高比的余弦值，得到所述切分区域的形状特征匹配度。

具体实现中，可以针对目标文字设置其所属文字类别的预设形状。预设形状可以为标准的文字宽高比，也可以是其他的用于表示文字形状的属性信息。例如可以针对汉字设置汉字类别的宽高比为0.8。针对切分区域所包括的文字的宽高比与对应的预设形状的宽高比计算余弦值，将得到的余弦值作为形状特征匹配度。

上述的文字特征匹配度和形状特征匹配度越接近1，表明文字之间的文字特征和形状特征越匹配。

可选地，所述步骤202可以包括以下子步骤：

子步骤s41，针对同一图像切分结果，计算多个切分区域的文字特征匹配度的平均值和形状特征匹配度的平均值，分别作为所述图像切分结果的文字特征匹配度均值和形状特征匹配度均值。

子步骤s42，将所述图像切分结果的文字特征匹配度均值和形状特征匹配度均值与分配的权重系数相乘，并将乘积求和得到所述图像切分结果的综合权重值。

具体实现中，针对图像切分结果的全部切分区域，分别计算各个切分区域的文字特征匹配度和形状特征匹配度的平均值。

针对文字特征匹配度的平均值和形状特征匹配度的平均值，分别乘以设定的权重系数，将文字特征匹配度的平均值和形状特征匹配度的平均值与权重系数的乘积进行求和，得到该图像切分结果中各个切分区域的综合权重值。

实际应用中，权重系数可以通过在文字训练样本集上调整参数的方式得到。可选地，文字特征匹配度和形状特征匹配度可以分别赋予权重系数0.8和0.2。

在实际应用中，采用某一个或多个候选切分点集合切分文字图像，得到某一个或多个图像切分结果之后，可以将新得到的图像切分结果与此前采用其他候选切分点集合进行切分得到的其他图像切分结果，按照文字特征匹配度或形状特征匹配度从大到小进行排序，只保留排序前m个图像切分结果。针对每次新增的图像切分结果均进行排序的更新，直至遍历所有的候选切分点集合，最终得到m个图像切分结果。

通常，过切分动态合并是基于beamsearch(集束搜索)搜索选择候选切分点并进行动态合并，若存在着n个候选切分点，则会产生2ⁿ个图像切分结果，因此可以采用上述的排序并保留前m个图像切分结果的方式实现剪枝策略。从而在根据综合权重值筛选最优图像切分结果时，无须对大量的图像切分结果进行筛选，提升了文字识别的速度。

在实际应用中，还可以将各切分区域的待识别对象的宽高比之间的余弦值与预设阈值进行比较，当余弦值小于预设阈值，可以将对应的图像切分结果滤除。当同一个图像切分结果中各个切分区域的宽高比之间的余弦值小于预设阈值，表明当前图像切分结果中对待识别对象的切分和合并存在错误，因此可以将其滤除。实际应用中，可以通过上述步骤在产生图像切分结果时增加合并限制，避免产生错误的文字合并。

通过将宽高比不符合要求的图像切分结果滤除，避免了对无效的图像切分结果进行后续的排序，提升了文字识别的速度。

步骤203，根据各图像切分结果的综合权重值筛选最优图像切分结果。

具体实现中，可以按照图像切分结果的综合权重值从大到小进行排序，将综合权重值最大的的图像切分结果作为最优图像切分结果。

步骤204，采用所述最优图像切分结果中各切分区域对应的目标文字作为识别结果。

需要说明的是，过切分后动态合并的识别方式中，针对目标文字区域，先通过一定的规则确定尽可能将对象切分的切分点，由切分点集合的任意一个子集对应于一条切分路径，按照切分路径对文字图像中的对象进行切分，将切分点内的若干个对象合并成一个待识别对象并进行识别。然而，动态合并时可能会错误地合并对象，从而导致文字识别错误，影响了文字识别的准确率。

滑窗识别的识别方式中，通常是设定多种尺寸的窗口，并沿着特定方向对文字图像进行扫描，对特定尺寸窗口扫描到的文字图像进行文字识别。当使用某种尺寸的窗口识别出文字后，则以该尺寸的窗口的边界作为切分点形成切分路径，对后续的待识别对象进行切分并识别。然而，滑窗识别仅仅按照局部最优的窗口对全部对象进行切分和合并，缺乏全局信息指导的情况下容易陷入局部最优，无法保证其他部分文字识别的准确率，影响了文字识别的准确率。

为了便于本领域技术人员深入理解本发明实施例，以下将结合具体实施示例进行说明。

图9示出了本发明一种文字识别方法实施示例的流程图。从图中可见，针对输入的图像，可以首先进行预处理。预处理可以包括有灰度化、降噪、二值化、字符切分以及归一化这些处理步骤。经过二值化后，图像只剩下两种颜色，即黑和白，其中一个是图像背景，另一个颜色就是要识别的文字。字符切分则是将图像中的文字分割成单个文字。如果文字倾斜，可以进行倾斜校正。归一化则是将单个的文字图像规整到同样的尺寸。

预处理后的图像，可以分别按照过切分后动态合并和滑窗识别的方式得到多个图像切分结果。根据文字特征匹配度和形状特征匹配度统计图像切分结果的综合权重值，根据综合权重值对多个图像切分结果进行路径排序，将排序靠前的最优图像切分结果所对应的目标文字作为识别结果。

图10示出了本发明针对不同图像切分结果的排序评分的示意图。从图中可见，针对多个图像切分结果的文字特征匹配度和形状特征匹配度，分别与设定的权重系数相乘后相加，得到综合权重值。综合权重值为0.84的图像切分结果“广顺北大街”为最优的图像切分结果，而“广川页北大街”的图像切分结果中，虽然其文字特征匹配度为0.85，但其切分的文字形状不合理，形状特征匹配度只有0.72分，其最终的综合权重值为0.82。

图11示出了本发明图像切分结果的排序结果的示意图一。从图中可见，针对文字图像“北京-西城区德外大街教”，采用过切分后动态合并得到的图像切分结果“北京-西城区德外大街教”，其综合权重值为0.86。而通过滑窗识别得到的图像切分结果“北京-西城区德夕卜大街教”，由于将合体字“外”进行了错误的切分，其综合权重值为0.83。因此可以将“北京-西城区德外大街教”作为最优图像切分结果。

图12示出了本发明图像切分结果的排序结果的示意图二。从图中可见，针对文字图像“冰室(川大”，采用过切分后动态合并得到的图像切分结果“冰室dil大”，由于其切分合并的文字形状不合理，其综合权重值为0.72。而通过滑窗识别得到的图像切分结果“冰室(川大”的综合权重值为0.88，可以将其作为最优图像切分结果。

通过上述的具体示例，可见本发明实施例可以实现对过切分后动态合并和滑窗识别两种方案的互补，既保证局部最优又能保证全局最优，同时还提升了识别效率。在实际实验中，在包含2000张中文印刷体图像的测试样本上，过切分后动态合并的识别准确率为70％，滑窗识别的识别准确率为76％，而采用本发明实施例的文字识别方式，其识别准确率为83％。

需要说明的是，对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必需的。

实施例三

详细介绍本发明实施例提供的一种文字识别装置。

参照图3，示出了本发明实施例三中的一种文字识别装置的结构框图。

所述装置可以包括：

图像切分结果获取模块301，用于利用多种切分方式分别切分文字图像得到多种图像切分结果，各图像切分结果所包括的多个切分区域分别包括至少一个待识别对象；

综合权重值统计模块302，用于根据所述切分区域中的待识别对象统计各图像切分结果的综合权重值，其中，所述综合权重值包括所述图像切分结果中各切分区域的文字特征匹配度和形状特征匹配度的统计值；

最优图像切分结果筛选模块303，用于根据各图像切分结果的综合权重值筛选最优图像切分结果；

识别结果确定模块304，用于采用所述最优图像切分结果中各切分区域对应的目标文字作为识别结果。

实施例四

详细介绍本发明实施例提供的一种文字识别装置。

参照图4，示出了本发明实施例四中的一种文字识别装置的结构框图。

所述装置可以包括：

图像切分结果获取模块401，用于利用多种切分方式分别切分文字图像得到多种图像切分结果，各图像切分结果所包括的多个切分区域分别包括至少一个待识别对象。

综合权重值计算模块402，用于根据所述图像切分结果中各切分区域的待识别对象与识别所述切分区域中的待识别对象得到的目标文字的文字特征匹配度，以及，各切分区域的待识别对象与所述目标文字对应的预设形状的形状特征匹配度，计算所述图像切分结果的综合权重值。

图像切分结果筛选模块403，用于根据各图像切分结果的综合权重值筛选最优图像切分结果。

识别结果确定模块404，用于采用所述最优图像切分结果中各切分区域对应的目标文字作为识别结果。

可选地，所述图像切分结果获取模块401包括：

候选切分点标记子模块，用于在所述文字图像上标记多个候选切分点；

候选切分点集合形成子模块，用于按照选取的不同候选切分点，分别形成多个候选切分点集合；

切分文字图像子模块，用于按照各候选切分点集合，分别切分所述文字图像得到多个图像切分结果。

可选地，所述文字图像包括多个待切分对象，所述候选切分点标记子模块包括如下至少一种：

第一候选切分点标记子单元，用于在所述文字图像距离均等的多个位置上标记多个候选切分点；

第二候选切分点标记子单元，用于查找所述文字图像上各个相邻但不连通的目标待切分对象，并在各目标待切分对象之间的位置上标记多个候选切分点；

第三候选切分点标记子单元，用于将所述文字图像上各待切分对象投影在某方向坐标轴上得到多个投影坐标点，根据某方向坐标轴上不存在投影坐标点的坐标在所述文字图像上对应的位置标记多个候选切分点。

可选地，所述图像切分结果获取模块401包括：

窗口标记子模块，用于按照所述待识别对象在所述文字图像中的排列顺序，依次对各个待识别对象采用多个具有不同标记范围的标记窗口进行标记；

目标文字识别子模块，用于识别不同标记范围的标记窗口标记的待识别对象所对应的目标文字；

最优标记窗口筛选子模块，用于根据所述标记窗口标记的待识别对象与对应的目标文字，筛选出各个待识别对象的最优标记窗口；

标记窗口切分文字图像子模块，用于按照各个待识别对象的最优标记窗口，切分所述文字图像得到所述图像切分结果。

可选地，所述综合权重值计算模块402包括：

特征向量提取子模块，用于提取所述切分区域中的待识别对象的特征向量；

目标文字查找子模块，用于在预设的文字匹配表中查找匹配于所述特征向量的文字作为所述目标文字；

第一余弦值计算子模块，用于计算所述切分区域中的待识别对象与所述目标文字的特征向量的余弦值，得到所述切分区域的文字特征匹配度。

可选地，所述综合权重值计算模块402包括：

预设形状查找子模块，用于查找与所述目标文字所属的文字类别对应的预设形状；

第二余弦值计算子模块，用于计算所述切分区域中的待识别对象与所述预设形状的宽高比的余弦值，得到所述切分区域的形状特征匹配度。

可选地，所述综合权重值计算模块402包括：

平均值计算子模块，用于针对同一图像切分结果，计算多个切分区域的文字特征匹配度的平均值和形状特征匹配度的平均值，分别作为所述图像切分结果的文字特征匹配度均值和形状特征匹配度均值；

乘积求和子模块，用于将所述图像切分结果的文字特征匹配度均值和形状特征匹配度均值与分配的权重系数相乘，并将乘积求和得到所述图像切分结果的综合权重值。

对于上述文字识别装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

实施例五

详细介绍本发明实施例提供的一种计算机设备和一种计算机可读存储介质。

所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可以实现以下步骤：

利用多种切分方式分别切分文字图像得到多种图像切分结果，各图像切分结果所包括的多个切分区域分别包括至少一个待识别对象；根据所述切分区域中的待识别对象统计各图像切分结果的综合权重值，其中，所述综合权重值包括所述图像切分结果中各切分区域的文字特征匹配度和形状特征匹配度的统计值；根据各图像切分结果的综合权重值筛选最优图像切分结果；采用所述最优图像切分结果中各切分区域对应的目标文字作为识别结果。

可选地，所述处理器执行所述程序时还可以实现以下步骤：

在所述文字图像上标记多个候选切分点；按照选取的不同候选切分点，分别形成多个候选切分点集合；按照各候选切分点集合，分别切分所述文字图像得到多个图像切分结果。

可选地，所述处理器执行所述程序时还可以实现以下步骤：

所述文字图像包括多个待切分对象，所述在所述文字图像上标记多个候选切分点包括如下至少一种：在所述文字图像距离均等的多个位置上标记多个候选切分点；或者，查找所述文字图像上各个相邻但不连通的目标待切分对象，并在各目标待切分对象之间的位置上标记多个候选切分点；或者，将所述文字图像上各待切分对象投影在某方向坐标轴上得到多个投影坐标点，根据某方向坐标轴上不存在投影坐标点的坐标在所述文字图像上对应的位置标记多个候选切分点。

可选地，所述处理器执行所述程序时还可以实现以下步骤：

按照所述待识别对象在所述文字图像中的排列顺序，依次对各个待识别对象采用多个具有不同标记范围的标记窗口进行标记；识别不同标记范围的标记窗口标记的待识别对象所对应的目标文字；根据所述标记窗口标记的待识别对象与对应的目标文字，筛选出各个待识别对象的最优标记窗口；按照各个待识别对象的最优标记窗口，切分所述文字图像得到所述图像切分结果。

可选地，所述处理器执行所述程序时还可以实现以下步骤：

提取所述切分区域中的待识别对象的特征向量；在预设的文字匹配表中查找匹配于所述特征向量的文字作为所述目标文字；计算所述切分区域中的待识别对象与所述目标文字的特征向量的余弦值，得到所述切分区域的文字特征匹配度。

可选地，所述处理器执行所述程序时还可以实现以下步骤：

查找与所述目标文字所属的文字类别对应的预设形状；计算所述切分区域中的待识别对象与所述预设形状的宽高比的余弦值，得到所述切分区域的形状特征匹配度。

可选地，所述处理器执行所述程序时还可以实现以下步骤：

针对同一图像切分结果，计算多个切分区域的文字特征匹配度的平均值和形状特征匹配度的平均值，分别作为所述图像切分结果的文字特征匹配度均值和形状特征匹配度均值；将所述图像切分结果的文字特征匹配度均值和形状特征匹配度均值与分配的权重系数相乘，并将乘积求和得到所述图像切分结果的综合权重值。

所述计算机可读存储介质存储有计算机程序，该程序被处理器执行时可以实现如下步骤：

可选地，该程序被处理器执行时还可以实现如下步骤：

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此提供的基于移动终端的电话举报方案不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造具有本发明方案的系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的文字识别方案中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：魏晓明
技术所有人：北京三快在线科技有限公司
我是此专利的发明人

上一篇：一种基于基因影像学的肿瘤影像标记物提取方法与流程
上一篇：图像辨识方法及执行该方法的电子装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。