一种从图像中提取文字行的方法及装置的制作方法

文档序号：6377391阅读：199来源：国知局

专利名称：一种从图像中提取文字行的方法及装置的制作方法
一种从图像中提取文字行的方法及装置
技术领域：
本发明涉及图像处理技术，特别涉及一种从图像中提取文字行的方法及装置。背景技术：
从图像中提取文字行，除了可应用于扫描文件的文字识别当中，也可以应用在自然场景图像的文字识别当中。文字行提取的准确与否，直接决定了文字识别的效果好坏。作为现有技术，中国发明专利申请号为201010568411. 2的专利文件公开了一种从图像中提取文字行的方法。从该专利文件中可以看出，现有技术是通过将图像二值化，然后直接在二值化图像的连通域中提取文字行来实现文字行提取的目的的。现有技术的文字行提取方法，由于没有考虑自然场景图像中存在的大量非文字区域的噪声影响，因此，在很多自然场景图像的文字行提取中，准确性较差，从而严重影响了在这些图像中进行文字识别的效果。

发明内容本发明所要解决的技术问题是提供一种从图像中提取文字行的方法及装置，以解决现有技术在从图像中提取文字行时存在的准确性差的技术问题。本发明为解决技术问题而采用的技术方案是提供一种从图像中提取文字行的方法，包括A.对图像进行二值化处理，以得到所述图像的各个连通域；B.对不满足第一统计特征的连通域进行过滤，其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征；C.从过滤后的各个连通域中提取所述图像中的文字行。根据本发明之一优选实施例，所述方法所述步骤B前进一步包括D.对不满足预设的噪声过滤规则的连通域进行过滤。根据本发明之一优选实施例，所述噪声过滤规则包括连通域的大小在预设区间，且该连通域在水平或垂直方向存在另外的至少一个满足预设大小和预设相邻距离的邻近连通域。根据本发明之一优选实施例，从过滤后的各个连通域中提取所述图像中的文字行的步骤包括从过滤后的各个连通域中提取初始文字行；将所述初始文字行作为输入文字行，并利用所述输入文字行在执行所述步骤B前的连通域中扩展召回，得到扩展文字行；对不满足第二统计特征的扩展文字行进行过滤，得到最终的文字行，其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征。根据本发明之一优选实施例，从过滤后的各个连通域中提取所述图像中的文字行的步骤包括从过滤后的各个连通域中提取初始文字行；对不满足第二统计特征的初始文字行进行过滤，得到滤后文字行，其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征；将滤后文字行作为输入文字行，并利用所述输入文字行在执行所述步骤B前的连通域中扩展召回，得到最终的文字行。
根据本发明之一优选实施例，从过滤后的各个连通域中提取初始文字行的步骤包括将水平方向上连续的连通域提取出来形成横向的连通域集合，并基于横向的连通域集合包含的连通域数目确定横向的连通域集合的权重；将垂直方向上连续的连通域提取出来形成竖向的连通域集合，并基于竖向的连通域集合包含的连通域数目确定竖向的连通域集合的权重；利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理，并将归并处理后的各个连通域集合提取出来作为图像中的初始文字行。根据本发明之一优选实施例，利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理的步骤包括将交集中的连通域保留在权重较高的连通域集合中，并将交集中的连通域从权重较低的连通域集合中删除；对被删除连通域的连通域集合进行后处理，所述后处理至少包括以下一种将空的连通域集合删除，或将由不连续的连通域构成的连通域集合拆分为至少两个由连续的连通域构成的连通域集合。根据本发明之一优选实施例，利用所述输入文字行在执行所述步骤B前的连通域中扩展召回的步骤包括从执行所述步骤B前的连通域中提取大小满足要求、与横向的输入文字行中的任意连通域在同一水平方向且相邻距离满足要求的连通域加入到横向的输入文字行；以及，从执行所述步骤B前的连通域中提取大小满足要求、与竖向的输入文字行中的任意连通域在同一垂直方向且相邻距离满足要求的连通域加入到竖向的输入文字行。本发明还提供了一种从图像中提取文字行的装置，包括二值化单元，用于对图像进行二值化处理，以得到所述图像的各个连通域；第一过滤单元，用于对不满足第一统计特征的连通域进行过滤，其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征；提取单元，用于从过滤后的各个连通域中提取所述图像中的文字行。根据本发明之一优选实施例，所述装置进一步包括第二过滤单元，用于在所述第一过滤单元进行过滤前，对不满足预设的噪声过滤规则的连通域进行过滤。根据本发明之一优选实施例，所述噪声过滤规则包括连通域的大小在预设区间，且该连通域在水平或垂直方向存在另外的至少一个满足预设大小和预设相邻距离的邻近连通域。根据本发明之一优选实施例，所述提取单元包括初始生成单元，用于从过滤后的各个连通域中提取初始文字行；召回单元，用于将所述初始文字行作为输入文字行，并利用所述输入文字行在所述第一过滤单元进行过滤前的连通域中扩展召回，得到扩展文字行；第三过滤单元，用于对不满足第二统计特征的扩展文字行进行过滤，得到最终的文字行，其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征。根据本发明之一优选实施例，所述提取单元包括初始生成单元，用于从过滤后的各个连通域中提取初始文字行；第三过滤单元，用于对不满足第二统计特征的初始文字行进行过滤，得到滤后文字行，其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征；召回单元，用于将滤后文字行作为输入文字行，并利用所述输入文字行在所述第一过滤单元进行过滤前的连通域中扩展召回，得到最终的文字行。根据本发明之一优选实施例，所述初始生成单元包括水平提取单元，用于将水平方向上连续的连通域提取出来形成横向的连通域集合，并基于横向的连通域集合包含的连通域数目确定横向的连通域集合的权重；垂直提取单元，用于将垂直方向上连续的连通域提取出来形成竖向的连通域集合，并基于竖向的连通域集合包含的连通域数目确定竖向的连通域集合的权重；归并单元，用于利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理；输出单元，用于将归并处理后的各个连通域集合提取出来作为图像中的初始文字行。根据本发明之一优选实施例，所述归并单元包括连通域归并单元，用于将交集中的连通域保留在权重较高的连通域集合中，并将交集中的连通域从权重较低的连通域集合中删除；后处理单元，用于对被删除连通域的连通域集合进行后处理，所述后处理至少包括以下一种将空的连通域集合删除，或将由不连续的连通域构成的连通域集合拆分为至少两个由连续的连通域构成的连通域集合。根据本发明之一优选实施例，所述召回单元利用所述输入文字行在所述第一过滤单元进行过滤前的连通域中扩展召回的方式包括从所述第一过滤单元进行过滤前的连通域中提取大小满足要求、与横向的输入文字行中的任意连通域在同一水平方向且相邻距离满足要求的连通域加入到横向的输入文字行；以及，从所述第一过滤单元进行过滤前的连通域中提取大小满足要求、与竖向的输入文字行中的任意连通域在同一垂直方向且相邻距离满足要求的连通域加入到竖向的输入文字行。由以上技术方案可以看出，本发明通过先利用第一统计特征对二值化图像中的连通域进行过滤，再利用充分过滤后的连通域进行文字行提取，可以有效提高从图像中提取的文字行的准确性，从而改善在图像中进行文字识别的效果。

图I为本发明中从图像中提取文字行的方法的实施例一的流程示意图；图2为本发明中连通域外切矩形的示意图；图3为本发明中连续连通域的示意图；图4a为本发明中横向连通域集合的示意图；图4b为本发明中竖向连通域集合的示意图；图5为本发明中对交集中的连通域进行归并后的示意图；图6为本发明中从图像中提取文字行的方法的实施例二的流程示意图；图7为本发明中噪声过滤规则的示意图；图8为本发明中扩展召回的示意图；图9为本发明中图像处理前的示意图；图10为本发明中图像二值化处理后的示意图；图11为本发明中图像对不满足噪声过滤规则的连通域进行过滤后的示意图；图12为本发明中图像对不满足第一统计特征的连通域进行过滤后的示意图；图13为本发明中提取的初始文字行的示意图；图14为本发明中初始文字行与完整的文字行的对比示意图；图15为本发明中扩展召回的文字行的示意图；图16为本发明中基于第二统计特征对文字行进行过滤后的示意图17为本发明中从图像中提取文字行的装置的实施例一的结构示意框图；图18为本发明中从图像中提取文字行的装置的实施例二的结构示意框图；图19a为本发明中提取单元的实施例一的结构示意框图；图19b为本发明中提取单元的实施例二的结构示意框图；图20为本发明中初始生成单元的实施例的结构示意框图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。请参考图1，图I为本发明中从图像中提取文字行的方法的实施例一的流程示意图。如图I所示,该实施例包括步骤SlOl :对图像进行二值化处理，以得到图像的各个连通域。步骤S102 :对不满足第一统计特征的连通域进行过滤。步骤S103 :从过滤后的各个连通域中提取图像中的文字行。下面对上述方法进行具体说明。步骤SlOl对图像进行二值化处理，为图像预处理中的常用技术，其目的是将图像的文字前景区域与背景区域相分离。在对图像进行二值化处理后，图像就成为由O和I组成的二值图。对图像进行二值化处理后，可以获取到潜在的文字区域。本发明中的连通域，是指由代表文字的数值形成的连通区域。二值化处理后得到的连通域中，既可能存在由单个文字或文字中的笔画构成的连通域，也可能存在与文字无关的连通域，因此，本发明通过后续的步骤S102对二值化图像进行进一步地处理。步骤S102的目的是把非文字连通域尽可能地滤除，以方便步骤S103对文字行进行提取。第一统计特征，是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征。本发明中，第一统计特征是预先获取得到的。作为一种获取方式，首先标注正样本(文字连通域样本)和负样本(非文字连通域样本)，然后从各样本中提取连通域描述特征，最后通过对提取的连通域描述特征进行统计学习，得到属于文字连通域的统计特征作为第一统计特征。作为一种实施方式，本发明中的连通域描述特征由以下至少一种特征组成连通域边界的特征、连通域的笔画特征、连通域的二值化前景比例特征、连通域的梯度方向直方图特征、连通域的空间几何分布特征。此外，连通域描述特征也可以是本领域技术人员在图像处理中熟知的其他类型的特征。作为一种实施方式，连通域的边界特征是指连通域的边界轮廓，与连通域外切矩形对应的原始图像(即二值化处理前的图像)的边界轮廓之间重叠像素点占原始图像的边界轮廓整体像素点的比例。请参考图2，图2为本发明中连通域外切矩形的示意图。作为一种实施方式，连通域的笔画特征指的是连通域外切矩形所对应的原始图像(即二值化处理前的图像)区域的笔画信息图像。计算笔画信息图像的方法可参考论文Boris Epshtein, Eyal Ofek, Yonatan WexlerDetecting, Detecting Text in NaturalScenes with Stroke Width Transform。
作为一种实施方式，连通域的二值化前景比例特征指的是连通域中代表文字的数值个数占连通域外切矩形总像素面积的比例。作为一种实施方式，连通域的梯度方向直方图特征指的是连通域外切矩形所对应的原始图像区域的梯度方向直方图特征。提取梯度方向直方图特征的方式可参考论文Navneet DalaliBill Triggs，Histograms of Oriented Gradients for Human Detection。作为一种实施方式，连通域的空间几何分布特征指的是连通域外切矩形的长宽t匕、椭圆度等特征。其中椭圆度的计算可参考论文Paul L. Rosin, Measuring Shape:ElIipticity, Rectangularity, and Triangularity。本实施例中，步骤S103包括步骤S1031 :将水平方向上连续的连通域提取出来形成横向的连通域集合，并基·于横向的连通域集合包含的连通域数目确定横向的连通域集合的权重。步骤S1032 :将垂直方向上连续的连通域提取出来形成竖向的连通域集合，并基于竖向的连通域集合包含的连通域数目确定竖向的连通域集合的权重。步骤S1033 :利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理，并将归并处理后的各个连通域集合提取出来作为图像中的文字行。可以理解，上述步骤S1031和步骤S1032不分执行的先后顺序。另外，步骤S1031和步骤S1032中提到的连续的连通域，可由相邻连通域的大小及相邻距离确定，例如将大小符合要求、彼此相邻距离符合要求的两个连通域称为连续的连通域；也可以将可以相互传递相邻关系的多个连通域作为连续的连通域，另外作为一种特殊的形式，相对独立的单一连通域也属于连续连通域所指范围。请参考图3，图3为本发明中连续连通域的示意图。对于传递相邻关系的多个连通域，可以参见图3下方展示的由3个连通域组成的连续连通域。这3个连通域左边和中间的两个连通域相邻(即连续)，中间和右边的连通域相邻(即连续)，左边和右边的连调域由于相邻距离太大并不相邻(即不连续)。但是左边和右边的连通域可以基于中间的连通域进行连续性传递，从而使得这3个连通域形成连续的连通域。请参考图4a和4b，图4a为本发明中横向连通域集合的示意图，图4b为本发明中竖向连通域集合的示意图。如图4a所示,通过步骤S1031,可以提取出连通域集合A、B、C、D。如图4b所示，通过步骤S1032，可以提取出连通域集合E、F、G、H、I。假设连通域集合的权重就是连通域集合包含的连通域数目，则上述各集合的权重与该集合包含的连通域之间的关系可见下表表I
连通域集合包含的连通域权重
~7
~ 6C1、2、3、4、55
~ 8
权利要求
1.一种从图像中提取文字行的方法，包括 A.对图像进行二值化处理，以得到所述图像的各个连通域； B.对不满足第一统计特征的连通域进行过滤，其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征； C.从过滤后的各个连通域中提取所述图像中的文字行。
2.根据权利要求I所述的方法，其特征在于，所述方法所述步骤B前进一步包括 D.对不满足预设的噪声过滤规则的连通域进行过滤。
3.根据权利要求2所述的方法，其特征在于，所述噪声过滤规则包括连通域的大小在预设区间，且该连通域在水平或垂直方向存在另外的至少一个满足预设大小和预设相邻距离的邻近连通域。
4.根据权利要求I所述的方法，其特征在于，从过滤后的各个连通域中提取所述图像中的文字行的步骤包括从过滤后的各个连通域中提取初始文字行；将所述初始文字行作为输入文字行，并利用所述输入文字行在执行所述步骤B前的连通域中扩展召回，得到扩展文字行；对不满足第二统计特征的扩展文字行进行过滤，得到最终的文字行，其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征。
5.根据权利要求I所述的方法，其特征在于，从过滤后的各个连通域中提取所述图像中的文字行的步骤包括从过滤后的各个连通域中提取初始文字行；对不满足第二统计特征的初始文字行进行过滤，得到滤后文字行，其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征；将滤后文字行作为输入文字行，并利用所述输入文字行在执行所述步骤B前的连通域中扩展召回，得到最终的文字行。
6.根据权利要求4或5所述的方法，其特征在于，从过滤后的各个连通域中提取初始文字行的步骤包括将水平方向上连续的连通域提取出来形成横向的连通域集合，并基于横向的连通域集合包含的连通域数目确定横向的连通域集合的权重；将垂直方向上连续的连通域提取出来形成竖向的连通域集合，并基于竖向的连通域集合包含的连通域数目确定竖向的连通域集合的权重；利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理，并将归并处理后的各个连通域集合提取出来作为图像中的初始文字行。
7.根据权利要求6所述的方法，其特征在于，利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理的步骤包括将交集中的连通域保留在权重较高的连通域集合中，并将交集中的连通域从权重较低的连通域集合中删除；对被删除连通域的连通域集合进行后处理，所述后处理至少包括以下一种将空的连通域集合删除，或将由不连续的连通域构成的连通域集合拆分为至少两个由连续的连通域构成的连通域集合。
8.根据权利要求4或5所述的方法，其特征在于，利用所述输入文字行在执行所述步骤B前的连通域中扩展召回的步骤包括从执行所述步骤B前的连通域中提取大小满足要求、与横向的输入文字行中的任意连通域在同一水平方向且相邻距离满足要求的连通域加入到横向的输入文字行；以及，从执行所述步骤B前的连通域中提取大小满足要求、与竖向的输入文字行中的任意连通域在同一垂直方向且相邻距离满足要求的连通域加入到竖向的输入文字行。
9.一种从图像中提取文字行的装置，包括二值化单元，用于对图像进行二值化处理，以得到所述图像的各个连通域；第一过滤单元，用于对不满足第一统计特征的连通域进行过滤，其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征；提取单元，用于从过滤后的各个连通域中提取所述图像中的文字行。
10.根据权利要求9所述的装置，其特征在于，所述装置进一步包括第二过滤单元，用于在所述第一过滤单元进行过滤前，对不满足预设的噪声过滤规则的连通域进行过滤。
11.根据权利要求10所述的装置，其特征在于，所述噪声过滤规则包括连通域的大小在预设区间，且该连通域在水平或垂直方向存在另外的至少一个满足预设大小和预设相邻距离的邻近连通域。
12.根据权利要求9所述的装置，其特征在于，所述提取单元包括初始生成单元，用于从过滤后的各个连通域中提取初始文字行；召回单元，用于将所述初始文字行作为输入文字行，并利用所述输入文字行在所述第一过滤单元进行过滤前的连通域中扩展召回，得到扩展文字行；第三过滤单元，用于对不满足第二统计特征的扩展文字行进行过滤，得到最终的文字行，其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征。
13.根据权利要求9所述的装置，其特征在于，所述提取单元包括初始生成单元，用于从过滤后的各个连通域中提取初始文字行；第三过滤单元，用于对不满足第二统计特征的初始文字行进行过滤，得到滤后文字行，其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征；召回单元，用于将滤后文字行作为输入文字行，并利用所述输入文字行在所述第一过滤单元进行过滤前的连通域中扩展召回，得到最终的文字行。
14.根据权利要求12或13所述的装置，其特征在于，所述初始生成单元包括水平提取单元，用于将水平方向上连续的连通域提取出来形成横向的连通域集合，并基于横向的连通域集合包含的连通域数目确定横向的连通域集合的权重；垂直提取单元，用于将垂直方向上连续的连通域提取出来形成竖向的连通域集合，并基于竖向的连通域集合包含的连通域数目确定竖向的连通域集合的权重；归并单元，用于利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理；输出单元，用于将归并处理后的各个连通域集合提取出来作为图像中的初始文字行。
15.根据权利要求14所述的装置，其特征在于，所述归并单元包括连通域归并单元，用于将交集中的连通域保留在权重较高的连通域集合中，并将交集中的连通域从权重较低的连通域集合中删除；后处理单元，用于对被删除连通域的连通域集合进行后处理，所述后处理至少包括以下一种将空的连通域集合删除，或将由不连续的连通域构成的连通域集合拆分为至少两个由连续的连通域构成的连通域集合。
16.根据权利要求12或13所述的装置，其特征在于，所述召回单元利用所述输入文字行在所述第一过滤单元进行过滤前的连通域中扩展召回的方式包括从所述第一过滤单元进行过滤前的连通域中提取大小满足要求、与横向的输入文字行中的任意连通域在同一水平方向且相邻距离满足要求的连通域加入到横向的输入文字行；以及，从所述第一过滤单元进行过滤前的连通域中提取大小满足要求、与竖向的输入文字行中的任意连通域在同一垂直方向且相邻距离满足要求的连通域加入到竖向的输入文字行。
全文摘要
本发明提供了一种从图像中提取文字行的方法及装置，其中从图像中提取文字行的方法包括A.对图像进行二值化处理，以得到所述图像的各个连通域；B.对不满足第一统计特征的连通域进行过滤，其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征；C.从过滤后的各个连通域中提取所述图像中的文字行。通过上述方式，本发明可以大大提高从图像中提取的文字行的准确性。
文档编号G06K9/54GK102930262SQ201210350550
公开日2013年2月13日申请日期2012年9月19日优先权日2012年9月19日
发明者韩钧宇, 刘经拓, 丁二锐申请人:北京百度网讯科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩钧宇;刘经拓;丁二锐
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：计算机通过视频图像识别车辆类型的方法
上一篇：一种树形结构中数据的处理方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。