一种文本识别中的目标区域搜索方法及其装置与流程

文档序号：14653873发布日期：2018-06-08 22:38阅读：244来源：国知局

本申请属于图像识别技术领域，具体涉及一种文本识别中的目标区域搜索方法及其装置。

背景技术：

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

在OCR技术相关的应用产品中，拍摄到的图像区域中，可能同时包含识别目标所对应的文字区域、以及其他文字区域，如图1所示。通常通过人工调整拍摄区域、或在拍摄画面中人工选取子区域，使之只包含识别的目标区域。但是，需要用户进行人工操作，操作复杂且用户体验差。

申请日为2016年3月16日的中国专利CN201610150925公开了搜题的方法、装置及智能设备其对拍摄到的图像区域中默认的最优先位置区域(如画面中心区域)进行扫描和判定，如果搜索成功，则认为该字符区域的定位成功；否则，继续尝试该字符区域最相邻的其他区域(如上下文本行)继续搜索。该类方法只能有限解决文字区域的判定问题，即使局部的文本搜索成功，也无法精确判定其他字符区域的归属；而且，只依赖局部的文本进行搜索，搜索的正确率也会下降。

申请日为2016年4月29日的中国专利CN201610286593公开了拍照搜题的方法及装置，主要依据字符区域的几何信息(如文本的行间距、段落格式)进行规则判断，以确定是否为目标题目的字符区域。但其判断是否准确，前提是识别目标的字符区域，与非识别目标的字符区域在空间和呈现形式上有较大距离和差异，否则就难以保证可信度。

因此，如何在文本识别中准确的实现目标区域的自动搜索，成为现有技术中亟需解决的技术问题。

技术实现要素：

本申请实施例解决的技术问题之一在于提供一种文本识别中的目标区域搜索方法及其装置，其能够在文本识别中准确的实现目标区域的自动搜索。

本申请实施例提供一种文本识别中的目标区域搜索方法，包括：

根据字符位置信息，将所述目标区域图像中的字符合并和/或切分为至少一字符区域；

将所述字符区域中识别出的字符，在预存的区域数据库中对每一字符区域中的字符进行搜索，获得每一字符区域与所述数据库中各字符区域的匹配值；

根据所述目标区域图像中每一字符区域与所述数据库中各字符区域的匹配值，获得所述目标区域图像与所述数据库中各区域集合的最佳匹配结果。

在本申请实施例中，所述方法还包括：

将与目标区域搜索对应的每一区域集合切分为至少一字符区域，并将所述区域集合和字符区域对应保存至所述预存的区域数据库中。

在本申请实施例中，所述根据字符位置信息，将所述目标区域图像中的字符合并和/或切分为至少一字符区域包括：

对所述目标区域图像中的各字符进行识别，合并属于同一文本行的字符；

根据相邻文本行的语义的连续性和完整性，将所述相邻文本行合并为一字符区域或者设定为不同字符区域。

在本申请实施例中，所述对所述目标区域图像中的各字符进行识别，合并属于同一文本行的字符包括：

如果相邻两字符的横向间距小于第一阈值，并且纵向重叠比例大于第二阈值，则合并两字符至同一文本行。

在本申请实施例中，所述对所述目标区域图像中的各字符进行识别，合并属于同一文本行的字符还包括：

如果相邻两字符的纵向重叠比例大于第三阈值，并且横向间距大于第四阈值，则判定两字符属于不同的文本行。

在本申请实施例中，所述相邻文本行包括：

纵向间距小于第五阈值，横向重叠比例大于第六阈值，且行之间不存在其他字符的两个文本行；

纵向重叠比例大于第三阈值，且行之间不存在其他字符的两个文本行。

在本申请实施例中，所述根据字符位置信息，将所述目标区域图像中的字符合并和/或切分为至少一字符区域还包括：

如果字符属于公式内容，则将间距小于第七阈值的相邻字符合并至同一字符区域。

在本申请实施例中，，所述如果字符属于公式内容，则将间距小于第七阈值的相邻字符合并至同一字符区域还包括：根据对公式文本的语义和语法分析，确定是否将相邻字符合并至同一字符区域。

在本申请实施例中，所述根据字符位置信息，将所述目标区域图像中的字符合并和/或切分为至少一字符区域还包括：

如果几何图形内容的几何线段的间距小于第八阈值，则将几何图形内容合并至同一字符区域。

在本申请实施例中，所述根据所述目标区域图像中每一字符区域与所述数据库中各字符区域的匹配值，获得所述目标区域图像与所述数据库中各区域集合的最佳匹配结果包括：

如果所述目标区域图像中包括一目标对象，则根据所述目标对象中每一字符区域与所述数据库中各字符区域的匹配值，获得所述目标对象与所述数据库中最佳匹配的区域集合作为最佳匹配结果；

如果所述目标区域图像中包括多于一个目标对象，则依次根据各目标对象中每一字符区域与所述数据库中各字符区域的匹配值，获得各目标对象与所述数据库中最佳匹配的区域集合作为最佳匹配结果。

在本申请实施例中，所述如果所述目标区域图像中包括多于一个目标对象，则依次根据各目标对象中每一字符区域与所述数据库中各字符区域的匹配值，获得各目标对象与所述数据库中最佳匹配的区域集合作为最佳匹配结果还包括：如果所述目标区域图像中存在与所述数据库中各区域的匹配值均低于第九阈值的字符区域，则将所述字符区域排除。

对应上述方法，本申请还提供一种文本识别中的目标区域搜索装置，包括：

区域切分模块，用于根据字符位置信息，将所述目标区域图像中的字符合并和/或切分为至少一字符区域；

区域搜索模块，用于将所述字符区域中识别出的字符，在预存的区域数据库中对每一字符区域中的字符进行搜索，获得每一字符区域与所述数据库中各字符区域的匹配值；

搜索匹配模块，用于根据所述目标区域图像中每一字符区域与所述数据库中各字符区域的匹配值，获得所述目标区域图像与所述数据库中各区域集合的最佳匹配结果。

在本申请实施例中，所述装置还包括：

数据库预存模块，用于将与目标区域搜索对应的每一区域集合切分为至少一字符区域，并将所述区域集合和字符区域对应保存至所述预存的区域数据库中。

在本申请实施例中，所述区域切分模块包括：

文本行合并单元，用于对所述目标区域图像中的各字符进行识别，合并属于同一文本行的字符；

区域合并单元，用于根据相邻文本行的语义的连续性和完整性，将所述相邻文本行合并为一字符区域或者设定为不同字符区域。

在本申请实施例中，所述文本行合并单元包括：

合并子单元，用于如果相邻两字符的横向间距小于第一阈值，并且纵向重叠比例大于第二阈值，则合并两字符至同一文本行。

在本申请实施例中，所述文本行合并单元还包括：

保留子单元，用于如果相邻两字符的纵向重叠比例大于第三阈值，并且横向间距大于第四阈值，则判定两字符属于不同的文本行。

在本申请实施例中，所述相邻文本行包括：

纵向间距小于第五阈值，横向重叠比例大于第六阈值，且行之间不存在其他字符的两个文本行；

纵向重叠比例大于第三阈值，且行之间不存在其他字符的两个文本行。

在本申请实施例中，所述区域切分模块还包括：

公式合并单元，用于如果字符属于公式内容，则将间距小于第七阈值的相邻字符合并至同一字符区域。

在本申请实施例中，所述公式合并单元还用于根据对公式文本的语义和语法分析，确定是否将相邻字符合并至同一字符区域。

在本申请实施例中，所述区域切分模块还包括：

图形合并单元，用于如果几何图形内容的几何线段的间距小于第八阈值，则将几何图形内容合并至同一字符区域。

在本申请实施例中，所述搜索匹配模块包括：

单一匹配单元，用于如果所述目标区域图像中包括一目标对象，则根据所述目标对象中每一字符区域与所述数据库中各字符区域的匹配值，获得所述目标对象与所述数据库中最佳匹配的区域集合作为最佳匹配结果；

复数匹配模块，用于如果所述目标区域图像中包括多于一个目标对象，则依次根据各目标对象中每一字符区域与所述数据库中各字符区域的匹配值，获得各目标对象与所述数据库中最佳匹配的区域集合作为最佳匹配结果。

在本申请实施例中，所述复数匹配模块还用于如果所述目标区域图像中存在与所述数据库中各区域的匹配值均低于第九阈值的字符区域，则将所述字符区域排除。

本申请实施例对所述目标区域图像进行处理，根据所述目标区域图像中的字符位置信息，将所述目标区域图像中的字符合并和/或切分为至少一字符区域。根据所述字符区域中识别出的字符，在预存的区域数据库中字符区域的字符中进行搜索，获得每一字符区域与所述数据库中各字符区域的匹配值，根据所述匹配值获得所述目标区域图像与所述数据库中各区域集合的最佳匹配结果。本申请能够在文本识别中准确的实现目标区域的自动搜索。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种文本识别中的目标区域搜索方法一实施例流程图；

图2a-图2c是本申请提供的一种文本识别中的目标区域搜索方法步骤S1的实施例流程图；

图3是本申请提供的一种文本识别中的目标区域搜索方法中属于同一文本行的相邻字符的范例示意图；

图4是本申请提供的一种文本识别中的目标区域搜索方法中不属于同一文本行的相邻字符的范例示意图；

图5是本申请相邻文本行的一范例示意图；

图6是本申请相邻文本行的另一范例示意图；

图7a是本申请公式内容字符区域的范例示意图；

图7b是本申请几何图形内容字符区域的范例示意图；

图8是本申请多个字符区域的一范例示意图；

图9a是本申请提供的一种文本识别中的目标区域搜索方法另一实施例流程图；

图9b是本申请提供的区域数据库的字符区域示意图；

图10是本申请提供的一种文本识别中的目标区域搜索方法步骤S3的实施例流程图；

图11是本申请提供的一种文本识别中的目标区域搜索方法中步骤S3的搜索匹配示意图；

图12是本申请提供的一种文本识别中的目标区域搜索装置一实施例结构图；

图13a-13c是本申请提供的一种文本识别中的目标区域搜索装置中区域切分模块一实施例结构图；

图14是本申请提供的一种文本识别中的目标区域搜索装置另一实施例结构图；

图15是本申请提供的一种文本识别中的目标区域搜索装置中搜索匹配模块一实施例结构图；

图16是本申请提供的文本识别中的目标区域搜索方法的电子设备的硬件结构示意图；

图17是本申请一具体应用场景的流程图。

具体实施方式

本申请实施例对所述目标区域图像进行处理，根据所述目标区域图像中的字符位置信息，将所述目标区域图像中的字符合并和切分为至少一字符区域。将所述字符区域中识别出的字符，在预存的区域数据库中进行搜索，获得每一字符区域与所述数据库中各区域的匹配值，根据所述匹配值获得所述目标区域图像与所述数据库中各区域集合的最佳匹配结果。本申请能够在文本识别中准确的实现目标区域的自动搜索。

尽管本申请能够具有许多不同形式的实施例，但在附图中显示并且将在本文详细描述的特定实施例，应该理解，这种实施例的公开应该被视为原理的示例，而非意图把本申请限制于显示和描述的特定实施例。在以下的描述中，相同的标号用于描述附图的几个示图中的相同、相似或对应的部分。

如本文所使用，术语“一个”或“一种”被定义为一个(种)或超过一个(种)。如本文所使用，术语“多个”被定义为两个或超过两个。如本文所使用，术语“其他”被定义为至少再一个或更多个。如本文所使用，术语“包含”和/或“具有”被定义为包括(即，开放式语言)。如本文所使用，术语“耦合”被定义为连接，但未必是直接连接，并且未必是以机械方式连接。如本文所使用，术语“程序”或“计算机程序”或类似术语被定义为设计用于在计算机系统上执行的指令序列。“程序”或“计算机程序”可包括子程序、函数、过程、对象方法、对象实现、可执行应用、小应用程序、小服务程序、源代码、目标代码、共享库/动态加载库和/或设计用于在计算机系统上执行的其它指令序列。

在整个本文件中对“一个实施例”、“某些实施例”、“实施例”或类似术语的提及表示结合实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此，在整个本说明书的各种地方的这种词语的出现不必全部表示相同的实施例。另外，所述特定特征、结构或特性可非限制性地在一个或多个实施例中以任何合适的方式组合。

如本文所使用，术语“或者”应该被解释为是包括性的或者表示任何一种或任何组合。因此，“A、B或者C”表示“下面的任何一种：A；B；C；A和B；A和C；B和C；A，B和C”。仅当元件、功能、步骤或动作的组合以某种方式固有地相互排斥时，将会发生这种定义的例外。

为了使本领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请保护的范围。

下面结合本申请附图进一步说明本申请具体实现。

参见图1，本申请一实施例提供一种文本识别中的目标区域搜索方法，包括：

S1、根据字符位置信息，将所述目标区域图像中的字符合并和/或切分为至少一字符区域。

在本申请一具体实现中，参见图2a所述步骤S1包括：

S11、对所述目标区域图像中的各字符进行识别，合并属于同一文本行的字符。

具体地，所述步骤S11包括：

如果相邻两字符的横向间距小于第一阈值，并且纵向重叠比例大于第二阈值，则合并两字符至同一文本行。

如图3所示，“在”和“复”满足横向间距小于第一阈值，并且纵向重叠比例大于第二阈值，合并两字符至同一文本行。

所述第一阈值和第二阈值由本领域技术人员根据需要设置。

所述步骤S11还包括：

如果相邻两字符的纵向重叠比例大于第三阈值，并且横向间距大于第四阈值，则判定两字符属于不同的文本行。

如图4所示，“A”和“(”满足纵向重叠比例大于第三阈值，并且横向间距大于第四阈值，则判定两字符属于不同的文本行。

所述第三阈值和第四阈值由本领域技术人员根据需要设置。

具体地，所述相邻文本行包括：

纵向间距小于第五阈值，横向重叠比例大于第六阈值，且行之间不存在其他字符的两个文本行。

所述第五阈值和第六阈值由本领域技术人员根据需要设置。

具体参见图5所示，此时方框内的两个文本行为相邻文本行。

纵向重叠比例大于第三阈值，且行之间不存在其他字符的两个文本行。

具体参见图6所示，此时方框内的两个文本行为相邻文本行。

S12、根据相邻文本行的语义的连续性和完整性，将所述相邻文本行合并为一字符区域或者设定为不同字符区域。

根据字符识别结果，可获得且对相邻文本行进行语义计算和分析，将相邻文本行的语义的连续性和完整性超过预设连续阈值和完整阈值的相邻文本行合并为同一字符区域。如图5中两个相邻文本行“…则图中表示z的共轭复数的点”、“是”，语义上连续，可合并为一个字符区域；而图6中两个相邻文本行“(A)A”、“(B)B”，语义上不连续，不进行合并。

在本申请另一具体实现中，参见图2b，所述步骤S1还包括：

S13、如果字符属于公式内容，则将间距小于第七阈值的相邻字符合并至同一字符区域。

具体地，对公式内容，对相邻字符的间距计算可采用二维坐标图的最小间距，间距小于第七阈值，则合并至同一字符区域。

所述第七阈值由本领域技术人员根据需要设置。

所述步骤S13还包括：

根据对公式文本的语义和语法分析，确定是否将相邻字符合并至同一字符区域。

具体地，如果语义和语法合理合法的相邻字符可合并至同一字符区域，否则不合并。

参见图7a所示四个不同的字符区域。

在本申请再一具体实现中，参见图2c，所述步骤S1还包括：

S14、如果几何图形内容的几何线段的间距小于第八阈值，则将几何图形内容合并至同一字符区域。

所述第八阈值由本领域技术人员根据需要设置。

参见图7b所示为一个字符区域。

参见图8，图8为将所述目标区域图像中的字符合并和/或切分成多个字符区域的一范例。

S2、将所述字符区域中识别出的字符，在预存的区域数据库中对每一字符区域中的字符进行搜索，获得每一字符区域与所述数据库中各字符区域的匹配值。

在本申请一具体实现中，参见图9a，所述方法还包括：

S0、将与目标区域搜索对应的每一区域集合切分为至少一字符区域，并将所述区域集合和字符区域对应保存至所述预存的区域数据库中。

所述区域数据库存放的是区域集合信息，每个区域集合包含若干字符区域，字符区域是指结构上可分离的文本片段，如图9b所示。

搜索匹配时，每个文本子区域可以独立进行匹配，也可组合为一段文本进行匹配。

以上所描述的是数据库中每个数据单元所存放的信息，实际使用中数据库的数据设计，例如设计为索引表、图等形式，不在此发明的范围之内，不做具体列举和描述。

具体地，以每个字符区域为单位，将其字符识别结果逐一在预存的区域数据库中对每一字符区域进行搜索。所述每一字符区域对于区域数据库中的每一字符区域都会得到一匹配得分。例如，目标图像中的目标对象有m个字符区域，区域数据库中某区域集合存有n个字符区域，则以Score(x_a,y_b)表示第x个字符区域与第y个区域数据库中字符区域的匹配值，a＝{1,2,…m}，b＝{1,2,…n}。如果区域数据库中存在与目标对象相匹配的区域集合，则应有以下匹配值结果：对于属于目标对象的字符区域x_a’，如果y_b’是与之相匹配的区域数据库中的字符区域，则Score(x_a’,y_b’)是高匹配值；而对于不属于目标对象的字符区域x_a”，所有Score(x_a”,y_b)都是低匹配值。

S3、根据所述目标区域图像中每一字符区域与所述数据库中各字符区域的匹配值，获得所述目标区域图像与所述数据库中各区域集合的最佳匹配结果。

具体地，针对区域数据库中的每个区域集合，通过所述目标区域图像中目标对象的各个字符区域的最高匹配分组合，可以得到一个最优匹配结果：Score(x₁,y₁)+Score(x₂,y₂)+…，其中的该目标区域图像中目标对象的字符区域x1对应于该区域数据库中的字符区域y₁，该目标区域图像中目标对象的字符区域x2对应于该区域数据库的字符区域y₂具体如图11所示。

可见，上例中，如果组合字符区域1、2、3、4、5、6的匹配值，则将得到最优匹配结果。

在本申请另一具体实现中，参见图10，所述步骤S3包括：

S31、如果所述目标区域图像中包括一目标对象，则根据所述目标对象中每一字符区域与所述数据库中各字符区域的匹配值，获得所述目标对象与所述数据库中最佳匹配的区域集合作为最佳匹配结果。

S32、如果所述目标区域图像中包括多于一个目标对象，则依次根据各目标对象中每一字符区域与所述数据库中各字符区域的匹配值，获得各目标对象与所述数据库中最佳匹配的区域集合作为最佳匹配结果。

同时，如果目标区域图像中包含不止一个目标对象，通过此方法，也可进一步搜索得到多个目标对象的匹配结果。如图11范例中，字符区域8、9的匹配值，会和所述数据库中8、9所对应的字符区域有最优的匹配结果。由此，可以同时返回两个目标对象的搜索匹配结果。

如果目标区域图像中所包含的某个目标对象的字符区域不完整，即只包含该个目标对象的部分字符区域，按此方法也可得到相应的部分字符区域的最优匹配结果，并返回。

本申请显示的搜索结果同时包含有多个对象的匹配结果，用户可根据自己的实际需求进行选择和确认。

所述步骤S32还包括：如果所述目标区域图像中存在与所述数据库中各区域的匹配值均低于第九阈值的字符区域，则将所述字符区域排除。

对于目标区域图像中不属于任何对象的字符区域(如图11中的区域7)，由于对数据库中所有字符区域的匹配值都低，也将被判定为非数据库字符区域文本，予以排除。

参见图12，对应上述方法，本申请另一实施例提供一种文本识别中的目标区域搜索装置，包括：

区域切分模块11，用于根据字符位置信息，将所述目标区域图像中的字符合并和/或切分为至少一字符区域。

区域搜索模块12，用于将所述字符区域中识别出的字符，在预存的区域数据库中对每一字符区域中的字符进行搜索，获得每一字符区域与所述数据库中各字符区域的匹配值。

搜索匹配模块13，用于根据所述目标区域图像中每一字符区域与所述数据库中各字符区域的匹配值，获得所述目标区域图像与所述数据库中各区域集合的最佳匹配结果。

在本申请一具体实现中，参见图13a，所述区域切分模块11包括：

文本行合并单元111，用于对所述目标区域图像中的各字符进行识别，合并属于同一文本行的字符。

区域合并单元112，用于根据相邻文本行的语义的连续性和完整性，将所述相邻文本行合并为一字符区域或者设定为不同字符区域。

具体地，所述文本行合并单元111包括：

合并子单元，用于如果相邻两字符的横向间距小于第一阈值，并且纵向重叠比例大于第二阈值，则合并两字符至同一文本行。

如图3所示，“在”和“复”满足横向间距小于第一阈值，并且纵向重叠比例大于第二阈值，合并两字符至同一文本行。

所述第一阈值和第二阈值由本领域技术人员根据需要设置。

所述文本行合并单元111还包括：

保留子单元，用于如果相邻两字符的纵向重叠比例大于第三阈值，并且横向间距大于第四阈值，则判定两字符属于不同的文本行。

如图4所示，“A”和“(”满足纵向重叠比例大于第三阈值，并且横向间距大于第四阈值，则判定两字符属于不同的文本行。

所述第三阈值和第四阈值由本领域技术人员根据需要设置。

具体地，所述相邻文本行包括：

纵向间距小于第五阈值，横向重叠比例大于第六阈值，且行之间不存在其他字符的两个文本行。

所述第五阈值和第六阈值由本领域技术人员根据需要设置。

具体参见图5所示，此时方框内的两个文本行为相邻文本行。

纵向重叠比例大于第三阈值，且行之间不存在其他字符的两个文本行。

具体参见图6所示，此时方框内的两个文本行为相邻文本行。

根据字符识别结果，可对相邻文本行进行语义计算和分析，将相邻文本行的语义的备连续性和完整性超过预设连续阈值和完整阈值的相邻文本行合并为同一字符区域。如图5中两个相邻文本行“…则图中表示z的共轭复数的点”、“是”，语义上连续，可合并为一个字符区域；而图6中两个相邻文本行“(A)A”、“(B)B”，语义上不连续，不进行合并。

在本申请另一具体实现中，参见图13b，所述区域切分模块11还包括：

公式合并单元113，用于如果字符属于公式内容，则将间距小于第七阈值的相邻字符合并至同一字符区域。

具体地，对公式内容，对相邻字符的间距计算可采用二维坐标图的最小间距，间距小于第七阈值，则合并至同一字符区域。

所述第七阈值由本领域技术人员根据需要设置。

所述公式合并单元还用于根据对公式文本的语义和语法分析，确定是否将相邻字符合并至同一字符区域。

具体地，如果语义和语法合理合法的相邻字符可合并至同一字符区域，否则不合并。

参见图7a所示四个不同的字符区域。

在本申请再一具体实现中，参见图13c，所述公式合并单元11还包括：

图形合并单元114，用于如果几何图形内容的几何线段的间距小于第八阈值，则将几何图形内容合并至同一字符区域。

所述第八阈值由本领域技术人员根据需要设置。

参见图7b所示为一个字符区域。

参见图8，图8为将所述目标区域图像中的字符合并和切分成多个字符区域的一范例。

在本申请一具体实现中，参见图14，所述装置还包括：

数据库预存模块10，用于将与目标区域搜索对应的每一区域集合切分为至少一字符区域，并将所述区域集合和字符区域对应保存至所述预存的区域数据库中。

所述区域数据库存放的是区域集合信息，每个区域集合包含若干字符区域，字符区域是指结构上可分离的文本片段，如图9b所示。

具体地，以每个字符区域为单位，将其字符识别结果逐一在预存的区域数据库中对每一字符区域进行搜索。所述每一字符区域对于区域数据库中的每一字符区域都会得到一匹配得分。例如，目标图像中的目标对象有m个字符区域，区域数据库中某区域集合存有n个字符区域，则以Score(xa,yb)表示第x个字符区域与第y个区域数据库中字符区域的匹配值，a＝{1,2,…m}，b＝{1,2,…n}。如果区域数据库中存在与目标对象相匹配的区域集合，则应有以下匹配值结果：对于属于目标对象的字符区域x_a’，如果y_b’是与之相匹配的区域数据库中的字符区域，则Score(x_a’,y_b’)是高匹配值；而对于不属于目标对象的字符区域x_a”，所有Score(x_a”,y_b)都是低匹配值。

具体地，针对区域数据库中的每个区域集合，通过所述目标区域图像中目标对象的各个字符区域的最高匹配分组合，可以得到一个最优匹配结果：Score(x₁,y₁)+Score(x₂,y₂)+…，其中的该目标区域图像中目标对象的字符区域x1对应于该区域数据库中的字符区域y1，该目标区域图像中目标对象的字符区域x2对应于该区域数据库的字符区域y2，具体如图11所示。

可见，上例中，如果组合字符区域1、2、3、4、5、6的匹配值，则将得到最优匹配结果。

在本申请另一具体实现中，参见图15，所搜索匹配模块13包括：

单一匹配单元131，用于如果所述目标区域图像中包括一目标对象，则根据所述目标对象中每一字符区域与所述数据库中各字符区域的匹配值，获得所述目标对象与所述数据库中最佳匹配的区域集合作为最佳匹配结果。

复数匹配单元132，用于如果所述目标区域图像中包括多于一个目标对象，则依次根据各目标对象中每一字符区域与所述数据库中各字符区域的匹配值，获得各目标对象与所述数据库中最佳匹配的区域集合作为最佳匹配结果。

本申请显示的搜索结果同时包含有多个对象的匹配结果，用户可根据自己的实际需求进行选择和确认。

所述复数匹配单元还用于如果所述目标区域图像中存在与所述数据库中各区域的匹配值均低于第九阈值的字符区域，则将所述字符区域排除。

图16是本申请文本识别中的目标区域搜索方法的电子设备的硬件结构示意图。根据图16所示，该设备包括：

一个或多个处理器1610以及存储器1620，图16中以一个处理器1610为例。

文本识别中的目标区域搜索方法的设备还可以包括：输入装置1630和输出装置1630。

处理器1610、存储器1620、输入装置1630和输出装置1630可以通过总线或者其他方式连接，图16中以通过总线连接为例。

存储器1620作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的文本识别中的目标区域搜索方法对应的程序指令/模块(例如，附图12所示的区域切分模块11、区域搜索模块12、搜索匹配模块16)。处理器1610通过运行存储在存储器1620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例文本识别中的目标区域搜索方法。

存储器1620可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据文本识别中的目标区域搜索装置的使用所创建的数据等。此外，存储器1620可以包括高速随机存取存储器1620，还可以包括非易失性存储器1620，例如至少一个磁盘存储器1620件、闪存器件、或其他非易失性固态存储器1620件。在一些实施例中，存储器1620可选包括相对于处理器1610远程设置的存储器1620，这些远程存储器1620可以通过网络连接至音效模式选择装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1630可接收输入的数字或字符信息，以及产生与文本识别中的目标区域搜索装置的用户设置以及功能控制有关的键信号输入。输出装置1630可包括扬声器等设备。

所述一个或者多个模块存储在所述存储器1620中，当被所述一个或者多个处理器1610执行时，执行上述任意方法实施例中的文本识别中的目标区域搜索方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(16)其他具有数据交互功能的电子装置。

下面通过本申请一具体应用场景来进一步说明本申请实现。

参见图17，将本申请应用于对图像采集获得的题目图像进行题库搜索，所述方法包括：

171、将题库中的每个题目切分为至少一字符区域，并将所述题目和字符区域对应保存至所述预存的题库中。

172、对图像采集获得的题目图像中的各字符进行识别，合并属于同一文本行的字符。

具体地，如果相邻两字符的横向间距小于第一阈值，并且纵向重叠比例大于第二阈值，则合并两字符至同一文本行。

如果相邻两字符的纵向重叠比例大于第三阈值，并且横向间距大于第四阈值，则判定两字符属于不同的文本行。

所述相邻文本行包括：

纵向间距小于第五阈值，横向重叠比例大于第六阈值，且行之间不存在其他字符的两个文本行。

纵向重叠比例大于第三阈值，且行之间不存在其他字符的两个文本行。

173、根据相邻文本行的语义的连续性和完整性，将所述相邻文本行合并为一字符区域或者设定为不同字符区域。

174、如果字符属于公式内容，则将间距小于第七阈值的相邻字符合并至同一字符区域，根据对公式文本的语义和语法分析，确定是否将相邻字符合并至同一字符区域。

175、如果几何图形内容的几何线段的间距小于第八阈值，则将几何图形内容合并至同一字符区域。

176、将所述字符区域中识别出的字符，在预存的区域数据库中对每一字符区域进行搜索，获得每一字符区域与所述数据库中各区域的匹配值。

具体地，以每个字符区域为单位，将识别结果逐一在预存的区域数据库中对每一字符区域进行搜索。所述每一字符区域对于区域数据库中的每一字符区域都会得到一匹配得分。例如，目标图像中的目标对象有m个字符区域，区域数据库中某区域集合存有n个字符区域，则以Score(x_a,y_b)表示第x个字符区域与第y个区域数据库中字符区域的匹配值，a＝{1,2,…m}，b＝{1,2,…n}。如果区域数据库中存在与目标对象相匹配的区域集合，则应有以下匹配值结果：对于属于目标对象的字符区域xa’，如果yb’是与之相匹配的区域数据库中的字符区域，则Score(x_a’,y_b’)是高匹配值；而对于不属于目标对象的字符区域x_a”，所有Score(x_a”,y_b)都是低匹配值。

177、根据所述题目图像中每一字符区域与所述题库中各区域的匹配值，获得所述题目图像与所述题库中各试题的最佳匹配结果。

具体地，针对题库中的每个试题，通过所述题目图像中目标试题的各个字符区域的最高匹配分组合，可以得到一个最优匹配结果：Score(x₁,y₁)+Score(x₂,y₂)+…，其中的该题目图像中目标试题的字符区域x₁对应于该题库中的字符区域y₁，该题目图像中目标试题的字符区域x₂对应于该题库的字符区域y₂，具体如图11所示。

可见，上例中，如果组合字符区域1、2、3、4、5、6的匹配值，则将得到最优匹配结果。

同时，如果题目图像中包含不止一个目标试题，通过此方法，也可进一步搜索得到多个目标试题的匹配结果。如图11范例中，字符区域8、9的匹配值，会和所述题库中8、9所对应的字符区域有最优的匹配结果。由此，可以同时返回两个目标试题的搜索匹配结果。

如果题目图像中所包含的某个目标试题的字符区域不完整，即只包含该个目标试题的部分字符区域，按此方法也可得到相应的部分字符区域的最优匹配结果，并返回。

本申请显示的搜索结果同时包含有多个试题的匹配结果，用户可根据自己的实际需求进行选择和确认。

如果所述题目图像中存在与所述题库中各区域的匹配值均低于第九阈值的字符区域，则将所述字符区域排除。

对于题目图像中不属于任何试题的字符区域(如图11中的区域7)，由于对题库中所有字符区域的匹配值都低，也将被判定为非字符区域文本，予以排除。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周迅溢;熊蜀光;杨镜;兴百桥;白建国;黄琰
技术所有人：北京新唐思创教育科技有限公司
我是此专利的发明人

上一篇：一种图像格式识别方法及装置与流程
上一篇：一种版面分析中的字符切分方法及其装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。