文本行识别方法及系统与流程

文档序号:11262157阅读:269来源:国知局
文本行识别方法及系统与流程

本发明涉及信息处理领域,具体涉及一种文本行识别方法及系统。



背景技术:

随着计算机科学与技术的发展,自动化信息处理能力和水平也得到了显著的提高。文档的电子化成为热潮,尤其是在教育领域,如试题电子化以及衍生出的机器自动阅卷等。文档中文本行的识别作为文档电子化中必不可少的步骤之一,一直受到相关技术研究人员的重视。

现有主流的文本行识别方法如下:首先获取待分析文本的图像,然后对所述图像进行包括降噪、对比度增强、灰度化、二值化等的预处理,接着基于二值化图得到待分析文本中各个连通体,最后设计相应特征及规则,将同一行的连通体聚成一类,得到文本行信息。所述设计的特征如计算每个连通体像素点之间的距离,所述规则如纵坐标距离超过设定阈值的连通体聚到一类。

现有的文本行识别方法需要依赖人工设定特征及规则,该方法受主观因素影响较强,且通用较差,往往只对当前设计特征和规则的场景效果较好,一旦分析场景变化,原先设计的特征及规则往往不再适用。而在现实应用中,特别是手写文档,书写多变、随意,尤其是含有数学公式的文档,情况更为复杂,采用现有的文本行识别方法效果往往不尽人意。



技术实现要素:

本发明提供一种文本行识别方法及系统,以解决现有的文本行识别因依赖人工特征及规则,存在的通用性差、受主观因素影响的问题。

为此,本发明提供如下技术方案:

一种文本行识别方法,包括:

接收待识别文本图像;

获取所述待识别文本图像的二值图;

利用所述二值图及预先构建的版面类型识别模型,得到所述待识别文本图像对应的版面类别图;

根据所述版面类别图中的文本行上下类别结构关系得到文本行信息。

优选地,所述方法还包括按以下方式构建版面类型识别模型:

收集大量包含文本行的图像,并标注所述图像中各像素点所属的版面类别;

将每张图像的像素点及其对应的版面类别作为训练数据,训练得到版面类型识别模型。

优选地,所述版面类别包括:背景、文本、行区间、以及分式线。

优选地,在根据所述版面类别图中的文本行上下类别结构关系得到文本行信息之前还包括:对所述版面类别图进行后处理,具体包括:

检查所述版面类别图中是否有粘连行,如果有,则对所述粘连行进行分割;和/或

对所述版面类别图中的断裂行进行合并。

优选地,所述检查所述版面类别图中是否有粘连行包括:

将所述版面类别图二值化,得到只含有文本行像素点的二值化图;

获取所述二值化图中的各连通体,并取所述连通体的外接矩形;

如果所述外接矩形的高度大于设定的矩形高度阈值,则确定所述连通体为粘连行;

所述对所述粘连行进行分割包括:

对于所述粘连行,从最左边开始逐步向右分析,确定各粘连不确定区域;

基于所述待识别文本图像的二值图获取所述不确定区域中的所有连通体;

计算各连通体与所述粘连行的多行区域中各已知行的行高重叠度;

根据所述行高重叠度确定各连通体所属行,实现所述粘连行的分割。

优选地,所述矩形高度阈值根据所述版面类别图中文本行高均值设定。

优选地,所述对于所述粘连行,从最左边开始逐步向右分析,确定各粘连不确定区域包括:

对于所述粘连行,依照所述版面类别图从最左边开始向右逐个像素进行检查,确定已分行区域及未分行区域;

在检查到未分行区域后,检查未分行区域内的文本行高度是否大于设定阈值,如果是,则开始记录当前像素点所在区域信息,直至检查到文本行高度小于或等于所述阈值,停止记录,并将记录的区域作为粘连不确定区域。

优选地,所述根据所述行高重叠度确定各连通体所属行,实现所述粘连行的分割包括:

对于每个连通体计算得到的与各已知行的行高重叠度,

如果其中只有一个行高重叠度大于设定的重叠度阈值,则确定该连通体属于该行高重叠度对应已知行,将该连通体合并到该已知行;

如果其中有多个行高重叠度大于所述重叠度阈值,则确定所述多个行高重叠度对应的已知行是否存在明显的上下关系;如果有,则在多行的行分割区域中根据穿透代价最小的路径对所述连通体进行分割;如果没有,则将该连通体合并到最大的行高重叠度对应的已知行;

如果其中没有行高重叠度大于所述重叠度阈值,则判断该连通体自身的大小是否小于设定的连通体高度阈值;如果是,则将该连通体和与其行高重叠度最大的已知行进行合并;否则,确定该连通体是单独成行。

优选地,路径的穿透代价根据所述路径所经过的像素点数及所述路径距离所述不确定区域中心线的距离来确定。

优选地,所述对所述版面类别图中的断裂行进行合并包括:

从所述版面类别图的最左上角开始,对每个文本行分别计算该文本行与其右、右上、右下三个方向的文本行的行高重合度;

如果计算得到的三个方向中最大行高重合度大于设定的合并重合阈值,则将所述文本与该最大行高重合度对应方向的文本行进行合并。

优选地,所述待识别文本中包含数学公式;

所述对所述版面类别图进行后处理还包括:

在检查所述版面类别图中是否有粘连行之前,滤除所述版面类别图中的分式线;

在对所述粘连行进行分割后,对所述版面类别图中的断裂行进行合并之前,将分式线上下最近的行进行合并。

优选地,所述方法还包括:在对所述版面类别图进行后处理之前,采用平滑方式去除所述版面类别图中的噪声点。

一种文本行识别系统,包括:

图像接收模块,用于接收待识别文本图像;

图像转换模块,用于获取所述待识别文本图像的二值图;

版面类别图生成模块,用于利用所述二值图及预先构建的版面类型识别模型,得到所述待识别文本图像对应的版面类别图;

文本行提取模块,用于根据所述版面类别图中的文本行上下类别结构关系得到文本行信息。

优选地,所述系统还包括用于构建版面类型识别模型的模型构建模块,所述模型构建模块包括:

图像收集单元,用于收集大量包含文本行的图像;

信息标注单元,用于标注所述图像中各像素点所属的版面类别;

训练单元,用于将每张图像的像素点及其对应的版面类别作为训练数据,训练得到版面类型识别模型。

优选地,所述系统还包括:

后处理模块,用于在所述文本行提取模块根据所述版面类别图中的文本行上下类别结构关系得到文本行信息之前,对所述版面类别图进行后处理;所述后处理模块包括:

粘连行处理单元,用于检查所述版面类别图中是否有粘连行,如果有,则对所述粘连行进行分割;和/或

断裂行处理单元,用于对所述版面类别图中的断裂行进行合并。

优选地,所述粘连行处理单元包括:粘连行检查单元和粘连行分割单元;

所述粘连行检查单元包括:

二值化子单元,用于将所述版面类别图二值化,得到只含有文本行像素点的二值化图;

第一连通体获取子单元,用于获取所述二值化图中的各连通体,并取所述连通体的外接矩形;

判断子单元,用于在所述外接矩形的高度大于设定的矩形高度阈值时,确定所述连通体为粘连行;

所述粘连行分割单元包括:

检查子单元,用于对于所述粘连行,从最左边开始逐步向右分析,确定各粘连不确定区域;

第二连通体获取子单元,用于基于所述待识别文本图像的二值图获取所述不确定区域中的所有连通体;

计算子单元,用于计算各连通体与所述粘连行的多行区域中各已知行的行高重叠度;

分割子单元,用于根据所述行高重叠度确定各连通体所属行,实现所述粘连行的分割。

优选地,所述断裂行处理单元,具体用于从所述版面类别图的最左上角开始,对每个文本行分别计算该文本行与其右、右上、右下三个方向的文本行的行高重合度;如果计算得到的三个方向中最大行高重合度大于设定的合并重合阈值,则将所述文本与该最大行高重合度对应方向的文本行进行合并。

优选地,所述待识别文本中包含数学公式;

所述后处理模块还包括:

分式处理单元,用于在所述粘连行检查单元检查所述版面类别图中是否有粘连行之前,滤除所述版面类别图中的分式线;还用于在所述粘连行分割单元对所述粘连行进行分割后,所述断裂行处理单元对所述版面类别图中的断裂行进行合并之前,将分式线上下最近的行进行合并。

优选地,所述系统还包括:

平滑处理模块,用于在所述后处理模块对所述版面类别图进行后处理之前,采用平滑方式去除所述版面类别图中的噪声点。

本发明实施例提供的文本行识别方法及系统,利用待识别文本图像的像素点及预先构建的版面类型识别模型,得到待识别文本图像对应的版面类别图,根据所述版面类别图中的文本行上下类别结构关系得到文本行信息。由于无需人工设定特征及规则,因而避免了主观因素的影响,不仅提高了文本行识别的准确性,而且通用性强,可以适应多种不同场景的变化。

进一步地,针对手写文本,书写多变、随意的特点,本发明通过对基于版面类型识别模型得到的版面类别图进行后处理,对粘连行进行分割以及对断裂行进行合并,从而消除了手写不规范带来的影响,有效地提高了手写文本图像中文本行识别效果。

进一步地,针对包含有数学公式尤其是包含分式的文本,通过对分式线及分式线上下文本的处理,使本发明方案可以更好地适应这种应用环境。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1是本发明实施例中版面类型识别模型的构建流程图;

图2是本发明实施例提供的文本行识别方法的一种流程图;

图3是本发明实施例提供的文本行识别方法的另一种流程图;

图4是本发明实施例中检查版面类别图中是否有粘连行以及进行粘连行分割的流程图;

图5是本发明实施例中待识别文本图像示例;

图6是图5所示待分析文本图像对应的版面类别图;

图7是相对于图6滤除分式线后的版面类别图;

图8是图7所示版面类别图对应的二值化图。

图9是本发明实施例文本行识别系统的一种结构示意图;

图10是本发明实施例中模型构建模块的结构示意图;

图11是本发明实施例文本行识别系统的另一种结构示意图;

图12是本发明系统中后处理模块的一种结构示意图;

图13是本发明系统中后处理模块的另一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。

针对现有的文本行识别方法因依赖人工特征及规则,存在通用性差、受主观因素影响的问题,本发明实施例提供的一种文本行识别方法及系统,利用待识别文本图像的像素点及预先构建的版面类型识别模型,得到待识别文本图像对应的版面类别图,根据所述版面类别图中的文本行上下类别结构关系得到文本行信息。

所述版面类型识别模型可以通过收集大量包含文本行的图像来构建,具体地,对所述图像中各像素点进行版面类别标注,即标注出图像中每个像素点所属的版面类别,所述版面类别包括背景、文本、行区间以及分式线,所述分式线是指数学公式中分式的分子和分母之间的线条,该线条可以是横线或斜线;然后将每张图像的像素点及每个像素点对应的版面类别作为训练数据,训练版面类型识别模型。

所述版面类型识别模型可以采用模式识别常见分类模型描述,如cnn(卷积神经网络模型)、rnn(循环神经网络)、svm(支持向量机)模型等,其输入为每张图像的像素点,输出为输入的各像素点所属的版面类别,或者输出为输入的各像素点属于各版面类别的得分,在后面这种情况下,可以取得分最高的版面类别作为相应像素点所属的版面类别。

所述版面类型识别模型的具体训练方法采用现有技术中的一些训练算法,如bp(误差反向传播)算法等。

基于上述版面类型识别模型,可以根据待识别文本图像的二值图,将所述二值图输入所述版面类型识别模型,可以得到各像素点所属的版面类别,进而得到所述待识别文本图像对应的版面类别图。

如图1所示,是本发明实施例中版面类型识别模型的构建流程图,包括以下步骤:

步骤101,收集大量包含文本行的图像。

步骤102,提取所述图像中的像素点并标注各像素点所属的版面类别。

具体地,可以对收集的各图像进行灰度化处理,得到灰度图,然后根据灰度图得到二值图,根据二值图得到所述图像中的各像素点。

步骤103,将每张图像的像素点及其对应的版面类别作为训练数据,训练得到版面类型识别模型。

如图2所示,是本发明实施例提供的文本行识别方法的一种流程图,包括以下步骤:

步骤201,接收待识别文本图像。

所述待识别文本图像可以采用扫描仪设备进行扫描,或者采用高拍仪、移动设备等获取。

步骤202,获取所述待识别文本图像的二值图。

具体地,可以先对所述图像进行256阶灰度化处理,将其变成一张灰度图,然后经过二值化得到待识别文本图像的二值图。

需要说明的是,考虑到在获取待识别文本的图像时可能出现的倾斜、旋转问题,在实际应用中,在步骤102获取所述图像的二值图之前,还可以先对所述图像进行预处理,以提高所述图像的质量,为后续文本行的提取提供有效的保障。

具体地,所述预处理可以包括:修正所述图像出现的倾斜、旋转问题。进一步地,还可以通过低通滤波器对所述图像进行降噪、对比度增强、灰度化等处理,处理方式可以采用现有技术中的一些常规处理方式,在此不再详细描述。

当然,上述各处理可以根据接收的待识别文本图像的实际情况来选用,对此本发明实施例不做限定。

步骤203,利用所述二值图及预先构建的版面类型识别模型,得到所述待识别文本图像对应的版面类别图。

具体地,将所述二值图输入版面类型识别模型,得到各像素点所属的版面类别,根据这些像素点所属的版面类别进而可以得到二值图对应的版面类别图,也即待识别文本图像对应的版面类别图。

由于各像素点所属的版面类别是基于模型预测得到的,而预测结果无法做到100%正确。因此,在利用版面类型识别模型得到的版面类别图中可能会存在一些噪声点。为此,在本发明方法另一实施例中,还可进一步对所述版面类别图进行消噪处理,即去除所述版面类别图中的噪声点。

比如,可以采用平滑方法进行噪声点消除,具体地,设平滑窗口大小为n,考虑当前像素点及其前后上下各n2个像素点属于每个版面类别的概率,计算当前像素点及其前后上下各n2个像素点属于每个版面类别概率的和,选择概率和最大的版面类别作为当前像素点所属的版面类别。

步骤204,根据所述版面类别图中的文本行上下类别结构关系得到文本行信息。

前面提到,所述版面类别包括背景、文本、行区间以及分式线,因此,根据所述版面类别图中各像素点所属的版面类别即可知道其中文本行上下类别结构关系,进而可以识别出每一行中的文本。

本发明实施例提供的文本行识别方法,利用待识别文本图像的像素点及预先构建的版面类型识别模型,得到待识别文本图像对应的版面类别图,根据所述版面类别图中的文本行上下类别结构关系得到文本行信息。由于无需人工设定特征及规则,因而避免了主观因素的影响,不仅提高了文本行识别的准确性,而且通用性强,可以适应多种不同场景的变化。

进一步地,针对手写文本,书写多变、随意的特点,在本发明方法另一实施例中,还可以通过对基于版面类型识别模型得到的版面类别图进行后处理,对粘连行进行分割以及对断裂行进行合并,以消除手写不规范对文本行识别的干扰,提高手写文本图像中文本行识别效果。

如图3所示,是本发明实施例提供的文本行识别方法的另一种流程图。

其中,步骤301至步骤303与图2所示流程中的步骤201至步骤203相同,在此不再赘述。不同的是,在本实施例中,还包括以下步骤:

步骤304,对所述版面类别图进行后处理。

所述后处理具体可以包括以下情况:

1)检查所述版面类别图中是否有粘连行,如果有,则对所述粘连行进行分割;和/或

2)对所述版面类别图中的断裂行进行合并。

相应地,在步骤305中,根据处理后的版面类别图中的文本行上下类别结构关系得到文本行信息。

需要说明的是,在图3所示实施例中,为了进一步提高基于版面类型识别模型得到的版面类别图的准确性,同样可以在步骤303和步骤304之间,包括对所述版面类别图进行消噪处理的步骤,即在对所述版面类别图进行后处理之前,去除所述版面类别图中的噪声点。具体的消噪处理过程可参照前面的描述,在此不再追赘述。

下面对上述步骤304中的两种后处理情况分别进行详细说明。

如图4所示,是本发明实施例中检查版面类别图中是否有粘连行以及进行粘连行分割的流程图,包括以下步骤:

步骤401,将版面类别图二值化,得到只含有文本行像素点的二值化图。

步骤402,获取所述二值化图中的各连通体,并取所述连通体的外接矩形。

步骤403,依次检查各外接矩形的高度是否大于设定的矩形高度阈值,如果是,则确定所述连通体为粘连行。

所述矩形高度阈值可以根据所述版面类别图中文本行高均值设定,比如取2.0*avg_h,其中,avg_h表示文本行高均值。所述文本行高均值可以根据所述版面类别图中所有文本行的行高来确定,也可以根据版面类别图中部分文本行的行高来确定,比如,根据各像素点所属的版面类别可以确定版面类别图中的文本行,统计版面类别图中各文本行的行高,并将行高从低到高排序,取行高中间数据(如60%的值)进行统计平均,得到文本行行高均值avg_h。比如,假设行高从低到高排序为:5、5、8、10、15、15、18、20、20、20,则去除前后20%的数据,取中间60%的数据,即取8、10、15、15、18、20,计算文本行高均值,得到avg_h=14.3。

步骤404,对于检查确定的各粘连行,从最左边开始逐步向右分析,确定各粘连不确定区域。

对于每个粘连行,从粘连行最左边开始向右边逐个像素点进行检查。在检查时,依照对应的版面类别图向右检查当前像素点所在区域是否已分行以及是否有多行,比如可以通过检查当前像素点上下区间内是否有行区间,如果有,则表明已分行,如果有多个行区间,则表明有多行,相应地,该像素点所在区域为多行区域;如果未分行,则检查该像素点所在的文本行高度是否大于设定阈值,该阈值可以根据前面提到的文本行高均值来设定,比如为1.5*avg_h,如果大于设定阈值,则开始记录当前像素点所在区域信息,直至检查到文本行高度小于或等于所述阈值,停止记录,将记录的区域作为粘连不确定区域。然后继续向右检查,直至粘连行最右边为止。

步骤405,基于所述待识别文本图像的二值图获取所述粘连不确定区域中的所有连通体。

步骤406,针对各连通体,计算所述连通体与所述粘连行的多行区域中各已知行的行高重叠度。

在前面进行粘连行的检查过程中,可以得到所述粘连行在哪些区域有多行,进而可以确定所述粘连行中的多行区域,这些多行区域中的连通体即可组成已知行。

连通体与多行区域中各已知行的行高重叠度可以按照以下公式计算:

行高重叠度=连通体与已知行重叠高度/连通体的高度。

其中,连通体与已知行重叠高度根据该连通体及该已知行各自的高度即可计算得到。

步骤407,根据所述行高重叠度确定各连通体所属行,实现所述粘连行的分割。

具体地,在计算得到的该连通体与粘连行的各已知行的行高重叠度中,可能存在以下三种情况:

(1)只有一个行高重叠度大于设定的重叠度阈值,则确定该连通体属于该行高重叠度对应已知行,将该连通体合并到该已知行。

(2)有多个行高重叠度大于所述重叠度阈值,在这种情况下,还需要确定所述多个行高重叠度对应的已知行是否存在明显的上下关系,具体可以通过计算已知行行高重叠度确定;如果有,则确定该连通体存在多行直接粘连,此时在多行的行分割区域(可以由已知行确定)中根据最小穿透代价的路径对该连通体进行分割;如果没有,则将该连通体合并到重叠度最大的已知行。

路径的穿透代价计算公式如下:

穿透代价=α*nβ*d;

其中,n为路径所经过的像素点数,d为路径距离不确定区域中心线的距离,α和β为权重,可以根据实际应用情况和/或大量经验、实验得到,满足α+β=1。

(3)没有行高重叠度大于重叠度阈值,在这种情况下,还需要判断该连通体自身的大小是否小于设定的连通体高度阈值;如果否,则确定该连通体是单独成行,此时不需要做任何合并操作;如果是,则将该连通体和与其行高重叠度最大的已知行进行合并。

相对于前面粘连行的检查及分割的处理,断裂行的合并处理过程相对比较简单,具体地,针对所述版面类别图中的断裂行进行合并的处理过程如下:从所述版面类别图的最左上角开始,对每个文本行分别计算该文本行与其右、右上、右下三个方向的文本行的行高重合度;如果三个方向中最大行高重合度大于设定的合并重合阈值,则将所述文本行与该最大行高重合度对应方向的文本行进行合并。

所述行高重合度的计算如下:分别计算当前文本行与三个方向中一个方向文本行的重合行高/当前文本行行高、当前文本行与三个方向中一个方向文本行的重合行高/三个方向中一个方向文本行行高。

进一步地,在本发明方法另一实施例中,还可以针对包含有数学公式尤其是包含分式的文本,通过对分式线及分式线上下文本的处理,使本发明方案可以更好地适应这种应用,提高其通用性。

需要说明的是,上述对分式线及分式线上下文本的处理可以作为对所述版面类别图进行后处理的一部分,具体地,在检查所述版面类别图中是否有粘连行之前,滤除所述版面类别图中的分式线,分式线是版面类别中的一种,顾名思义,滤除版面类别图中的分式线是指将版面类别图中的分式线去除掉;另外,在对所述粘连行进行分割后,对所述版面类别图中的断裂行进行合并之前,还需要将分式线上下最近的行进行合并,即合并分式中的分子和分母,保证分式的完整性,从而得到正确的文本行。

下面以包含分式的文本为例,结合附合对本发明方案做进一步说明。

如图5所示,是本发明实施例中待识别文本图像,该图像中包括了分式,而且从图中可以看出是手写笔迹,行间距、字间距等书写格式都存在不规范的现象。

针对图5所示的待识别文本图像,基于版面类型识别模型得到该待识别文本图像对应的版面类别图如图6所示,可以看到,图中有多条分式线60,在对版面类别图进行后处理时,需要首先滤除所述版面类别图中的分式线,滤除分式线后的版面类别图如图7所示,然后进行粘连行的判断及分割。在进行粘连行判断时,需要将图7所示滤除分式线后的版面类别图二值化,得到只含有文本行像素点的二值化图,如图8所示。在二值化图中获取连通体,取各连通体的外接矩形,根据外接矩形的高度确定所述连通体是否属于行粘连。在进行粘连行分割时,从粘连行最左边开始逐步向右分析,对于根据版面类别图已分行的进行分行,对于没分行的则判断文本行的高度是否大于设定阈值,如果是开始记录直到阈值不满足条件,这部分作为粘连不确定区域,如图8中矩形框80所示区域。对粘连不确定区域进行所属行的判断,进而实现该区域的正确分割。对所有粘连不确定区域进行分割完成后,还需要将分式线上下最近的行进行合并,即合并分式中的分子和分母,保证分式的完整性,然后再对版面类别图中的断裂行进行合并。这些全部完成后,即可根据所述版面类别图中的文本行上下类别结构关系得到相应的文本行信息。

可见,本发明实施例提供的文本行识别方法,不仅大大提高了文本行识别的准确性,而且通用性强,可以适应各种不同文本行的识别应用。

相应地,本发明实施例还提供一种文本行识别系统,如图9所示,是本发明实施例文本行识别系统的一种结构示意图。

在该实施例中,所述系统包括:

图像接收模块901,用于接收待识别文本图像;

图像转换模块902,用于获取所述待识别文本图像的二值图;

版面类别图生成模块903,用于利用所述二值图及预先构建的版面类型识别模型900,得到所述待识别文本图像对应的版面类别图;

文本行提取模块904,用于根据所述版面类别图中的文本行上下类别结构关系得到文本行信息。

需要说明的是,所述待识别文本图像可以是采用扫描仪设备进行扫描,或者采用高拍仪、移动设备等获取的图像。

另外,图像接收模块901可以从这些图像获取设备直接得到待识别文本图像,实现文本行识别的在线处理,这些图像获取设备也可以作为本发明系统的一部分;图像接收模块901也可以从一些存储设备中获取预先存储的图像,对其进行文本行识别,比如在一些不需要实时处理的应用场合。当然,所述图像接收模块901也可以由上述这些图像获取设备来代替,只需其提供相应的图像传输接口即可。

进一步地,为了保证待识别文本图像的质量,避免因图像质量对后续文本行的识别产生不利影响,在本发明系统另一实施例中,还可包括设置在上述图像接收模块901和图像转换模块902之间的预处理模块(未图示),用于在获取所述图像的二值图之前,对所述图像进行预处理。所述预处理模块的一种具体结构可以包括:修正单元、和/或降噪增强单元。其中,所述修正单元用于修正所述图像出现的倾斜、旋转;所述降噪增强单元用于对修正后的图像进行降噪及对比度增强,得到处理后的图像。

进一步地,考虑到利用版面类型识别模型得到的版面类别图中可能会存在一些噪声点,在本发明系统另一实施例中,还可包括设置在上述版面类别图生成模块903和文本行提取模块904之间的平滑处理模块(未图示),用于在文本行提取模块904根据所述版面类别图中的文本行上下类别结构关系得到文本行信息之前,采用平滑方式去除所述版面类别图中的噪声点,具体的平滑消噪方式可参照前面本发明方法实施例中的描述,在此不再赘述。

上述版面类型识别模型900可以由相应的模型构建模块通过离线方式构建,如图10所示是本发明实施例中模型构建模块的结构示意图。

所述模型构建模块包括以下各单元:

图像收集单元11,用于收集大量包含文本行的图像;

信息标注单元12,用于标注所述图像中各像素点所属的版面类别;

训练单元13,用于将每张图像的像素点及其对应的版面类别作为训练数据,训练得到版面类型识别模型。

需要说明的是,版面类型识别模型900可以采用模式识别常见分类模型描述,其输入为每张图像的像素点,输出为输入的各像素点所属的版面类别,或者输出为输入的各像素点属于各版面类别的得分,在后面这种情况下,可以取得分最高的版面类别作为相应像素点所属的版面类别。另外,在实际应用中,所述模型构建模块可以作为本发明系统的一部分,也可以独立于本发明系统之外,对此本发明实施例不做限定。

基于上述版面类型识别模型900,版面类别图生成模块903将待识别文本图像的二值图中的各像素点输入该模型,即可得到各像素点所属的版面类别,进而得到所述待识别文本图像对应的版面类别图。

可见,本发明实施例提供的文本行识别系统,利用待识别文本图像的像素点及预先构建的版面类型识别模型,得到待识别文本图像对应的版面类别图,根据所述版面类别图中的文本行上下类别结构关系得到文本行信息。由于无需人工设定特征及规则,因而避免了主观因素的影响,不仅提高了文本行识别的准确性,而且通用性强,可以适应多种不同场景的变化。

进一步地,针对手写文本,书写多变、随意的特点,在本发明方法另一实施例中,还可以通过对基于版面类型识别模型得到的版面类别图进行后处理,对粘连行进行分割以及对断裂行进行合并,以消除手写不规范对文本行识别的干扰,提高手写文本图像中文本行识别效果。

如图11所示,是本发明实施例文本行识别系统的另一种结构示意图。

与图9所示实施例不同的是,在该实施例中,所述系统还包括:后处理模块905,用于对版面类别图生成模块得到的版面类别图进行后处理,相应地,文本行提取模块904需要根据后处理模块905处理后的述版面类别图中的文本行上下类别结构关系得到文本行信息。

所述后处理模块905的一种具体结构如图12所示,包括:粘连行处理单元21,和/或断裂行处理单元22,其中:

粘连行处理单元21,用于检查所述版面类别图中是否有粘连行,如果有,则对所述粘连行进行分割;

断裂行处理单元22,用于对所述版面类别图中的断裂行进行合并。

上述粘连行处理单元21包括:粘连行检查单元和粘连行分割单元。其中,所述粘连行检查单元具体用于检查所述版面类别图中是否有粘连行,所述粘连行分割单元具体用于对所述粘连行检查单元检查出的粘连行进行分割。

所述粘连行检查单元包括以下各子单元:

二值化子单元,用于将所述版面类别图二值化,得到只含有文本行像素点的二值化图;

第一连通体获取子单元,用于获取所述二值化图中的各连通体,并取所述连通体的外接矩形;

判断子单元,用于在所述外接矩形的高度大于设定的矩形高度阈值时,确定所述连通体为粘连行;

所述粘连行分割单元包括以下各子单元:

检查子单元,用于对于所述粘连行,从最左边开始逐步向右分析,确定各粘连不确定区域;

第二连通体获取子单元,用于基于所述待识别文本图像的二值图获取所述不确定区域中的所有连通体;

计算子单元,用于计算各连通体与所述粘连行的多行区域中各已知行的行高重叠度;

分割子单元,用于根据所述行高重叠度确定各连通体所属行,实现所述粘连行的分割。

所述粘连行处理单元21对粘连行的检查及分割的具体处理过程可参照前面本发明方法实施例中的描述,在此不再赘述。

上述断裂行处理单元22具体用于从所述分割后的版面类别图的最左上角开始,对每个文本行分别计算该文本行与其右、右上、右下三个方向的文本行的行高重合度;如果计算得到的三个方向中最大行高重合度大于设定的合并重合阈值,则将所述文本与该最大行高重合度对应方向的文本行进行合并。

该实施例的文本行识别系统,通过对基于版面类型识别模型得到的版面类别图进行后处理,对粘连行进行分割以及对断裂行进行合并,可以有效消除手写不规范对文本行识别的干扰,提高手写文本图像中文本行识别效果。

在本发明系统另一实施例中,如图13所示,所述后处理模块还可进一步包括:分式处理单元23,用于在所述粘连行检查单元检查所述版面类别图中是否有粘连行之前,滤除所述版面类别图中的分式线;并且在所述粘连行分割单元对所述粘连行进行分割后,所述断裂行处理单元22对分割后的版面类别图中的断裂行进行合并之前,将分式线上下最近的行进行合并。

该实施例的文本行识别系统,通过对分式线及分式线上下文本的处理,可以更好地适应包含有数学公式尤其是包含分式的文本行的识别,保证识别效果。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1