字符提取方法和装置的制作方法

文档序号：6472081阅读：86来源：国知局

专利名称：字符提取方法和装置的制作方法
技术领域：
本发明涉及对图像中的文字进行处理的技术，尤其涉及一种对图像中的字符进行
提取的方法和装置。
背景技术：
在基于内容的视频检索中，文本是一种易于提取且和视频图像内容紧密相关的信息，为视频内容理解提供了重要线索。视频文本提取的过程分为三部分定位、分割和识别。定位是利用文本区域的边缘、纹理等特征，在视频图像中准确标识出它的位置，分割是在候选文本区域中准确标识出单个字符的边界，识别是对分割得到的单个字符图像进行正确分类。在视频文本提取系统中，如果分割时出现错误，就得不到正确的识别结果。并且，由于目前的OCR(光学字符识别)引擎多采用网格特征，字符边界上的微小偏差也会影响识别结果。因此，分割是整个系统中的重要环节。 —种字符分割算法是在生成候选分割路径时，首先对候选文本区域进行二值化和滤噪，然后对二值图像进行连通域标定和合并，通过对连通域进行轮廓分析提取候选分割点。分割路径为位于候选分割点上的直线。在确定分割序列时，采用定向搜索的方法对分割点进行组合，得到多组分割结果。随着搜索深度的增加，根据分割结果的识别代价和字典不断对分割结果进行评估，利用规则对其进行剪枝，最后得到可信度最高的分割序列。
另一种字符分割算法是首先对候选文本区域进行二值化、连通域标定和滤噪，然后对二值图像进行投影，在投影图中选取数值较小的局部极小值点作为候选分割点。在确定分割序列时，首先利用中位数估计字符宽度，然后结合候选分割点和字符宽度的估计值生成候选分割，对字符串进行识别，最后根据字典和语义规则对识别结果进行筛选。
上述两种字符分割方法的不足之处在于在生成候选分割点时，考虑的情况不完备，并且没有对候选分割点进行筛选，保留了许多错误的分割结果，影响后续字符特征的估计。这两个缺点都降低了字符分割、提取的准确性。

发明内容
有鉴于此，本发明所要解决的技术问题是提供一种字符提取方法，以提高字符分割、提取的准确性，降低字符分割、提取的计算量和难度。在一些可选的实施例中，所述字符提取方法包括针对候选文本区域图像中同一行中的所有字符，建立候选分割点集合，该集合包括左分割点的集合和右分割点的集合；以每个左分割点为基准，在一个估计区间内查找相应的右分割点，产生候选分割组；对候选分割组进行文字识别；根据候选分割组的位置，利用识别代价对候选分割组的识别结果进行过滤。本发明所要解决的另一个技术问题是提供一种字符提取装置。在一些可选的实施例中，所述字符提取装置包括第一单元，用于针对候选文本区域图像中同一行中的所有字符，建立候选分割点集合；其中，该集合包括左分割点的集合和
右分割点的集合；第二单元，用于以每个左分割点为基准，在一个估计区间内查找相应的右
分割点，产生候选分割组；字符识别单元，用于对候选分割组进行文字识别；和第三单元，
用于根据候选分割组的位置，利用识别代价对候选分割组的识别结果进行过滤。采用上述实施例所述的技术方案进行字符分割、识别时，综合考虑了投影和连通
域分析这两种途径生成候选分割点，相互补充，完整地包含了正确的字符分割点；同时，又
对识别获得的字符进行筛选，以免包含错误的字符分割点而影响对字符特性的估计。另外，
根据视频文本的特点，结合识别代价和位置关系对候选分割进行过滤，明显减少了组合分
割序列时的分枝数目，提高了查全率。说明书附图

图1是合并连通域的示意图；图2是利用直方图统计字符上下边界的示意图；图3是提取图像中的字符的一个方法实施例流程图；图4是对二值图像进行垂直投影获得第一类左右分割点的示意图；图5是生成候选分割组的示意图；图6是识别结果示意图；图7是相邻两个候选分割组之间位置关系的一个示意图；
图8是对字符过滤的示意图；图9是提取图像中的字符的一个装置实施例示意图。
具体实施例方式
在对字符进行分割、识别之前，需要对图像进行预处理。一种可选的预处理过程是首先，对接收到的图像进行二值化处理，获得二值图像。这样既能够刻画字符笔画附近的亮度变化，又不至于保留太多的背景噪声。然后，标记二值图像中的连通域。经过标定后，能够得到二值图像中每一个连通区域的位置、尺寸和像素点个数等信息。然后，根据各连通域的尺寸和位置关系进行合并，形成完整的接近字符特征的连通域，如图l所示。在文本区域的二值图像中，字符个数较多，适宜用统计的方法估计字符特性。但是，每个字符都是由多个分散的笔画构成，如果不对连通域进行合理的合并，就会使统计数据中包含过多的干扰信息，影响字符识别的正确性。因此，需要进行连通域的合并。
后文提及的任何有关对连通域的操作，都是针对合并后的连通域进行的。
最后，采用直方图统计的方法估计出字符的上下边界。一种可选的方式是根据视频文本中字符的排列规则，通过统计获得字符的上下边界。具体步骤包括
(1)分别对连通域的上下边界进行直方图统计，如图2所示。由于字符的边界不是严格统一，而是在真实值附近聚集，利用这个特点，在统计时对直方图进行模糊，能够在字符边界的位置上得到一个稳定的极大值。
(2)分别从连通域的上下边界直方图中找出最大值，该值对应的坐标即为字符上下边界的估计值。获得字符上下边界的估计值之后，也就可以得到字符高度的估计值。对图像进行预处理后，可以直接开始进行字符分割，也可以先做进一步的滤噪处
理，以去除连通域中的噪声和干扰，然后再开始进行字符分割。对图像进行预处理后先做滤
噪处理再进行字符分割，可以进一步提高字符分割的准确性，降低字符分割的计算量和难度。
图3示出了一种可选的字符提取流程。步骤ll，针对候选文本区域图像中同一行中的所有字符，建立候选分割点集合。
该候选分割点集合包括左分割点的集合和右分割点的集合。步骤12，以每个左分割点为基准，在一个估计区间内查找相应的右分割点，产生候选分割组。步骤13，对候选分割组进行文字识别。步骤14，根据候选分割组的位置，利用识别代价对候选分割组的识别结果进行过滤。进行字符分割时，需要一系列的候选分割点。确定候选分割点的方式有很多，一种可选的方式是分别通过两种方式确定分割点。例如可以通过对二值图像进行垂直投影，以二值图像的垂直投影的左、右边界作为一系列的左、右分割点，称为第一类分割点；以每个合并后的字符连通域的左、右边界作为一系列的左、右分割点，称为第二类分割点。这两类分割点之间有重叠但相互补充。在视频文本中，为了便于辨识，字符之间有一定间隔，反映在其二值图像的垂直投影上，就是一系列投影值很小的波谷，如图4所示，这些波谷的边界构成第一类分割点。
在实际情况中，字符之间可能会存在噪声，此时虽然两个相邻的字符没有粘连，但在投影图中却看不到对应的明显的波谷，如图4中方框内的区域。如果只在投影图上提取候选分割点，会漏掉一些正确的分割点。在这种情况下，字符连通域的左右边界能够作为有益的补充。但是，即使在合并之后，一个连通域并不一定是一个完整的字符，并且，连通域中仍有可能含有噪声，如果不加筛选的将连通域的边界全部考虑进去，会引入较多的错误分割点，影响对字符宽度的估计，因此，不考虑那些尺寸不合理的连通域的边界。这些边界构成第二类分割点。为减少运算量，将候选分割点划分为两类左分割点和右分割点。用PL、PR分别表示左、右分割点的集合，则 PL = {PL", PL2丄，PL12， PL22， . ， PL1迈，PL2n}
PR = {PRlp PR2p PR12， PR22， . ， PRlm， PR2n} 其中，m表示二值图像的垂直投影的个数，n表示字符连通域的个数；PLlpPR"表示第一类左、右分割点，1 G [l，m] ;PL2k、PR2k表示第二类左、右分割点，k G [l，n]。
可以用PL" PRj分别表示PL和PR中任意一个左、右分割点，每个左分割点Pl^和特定区间内的每一个右分割点PRj都可以组成一个候选分割seg(PLi， PR,。所述特定区间应视具体情况设置，一种可选的方式是将特定区间设置为[PLi+l^XH' ，PLi+b2XH']，其中，H'表示字符高度的估计值，bp、为设定的加权系数。对所有候选分割的宽度进行直方图统计，得到直方图H(k)并估计字符的宽度。
1、在所有的统计值H(k)中选取最大的值所对应的宽度k。。则k。是出现频率最高的字符宽度估计值，有可能是真正的字符宽度。为避免受到噪声干扰，可以更进一步地对k。进行验证，具体的验证步骤为 2、判断l的值是否处于合适的字符宽高比的范围内。如果是，则以k。作为字符宽
度估计值。否则，将最大的统计值H(k。)置零并丢弃k。，然后重新执行步骤l。
重复执行步骤1和2，直到可以确定字符宽度或者超出搜索次数限制为止。
根据直方图H(k)对字符宽度进行统计，并以统计出现次数最多的字符宽度作
为字符宽度估计值，这是一种获得字符宽度估计值的方式。另一种可选的方式是直接以 bXH'作为字符宽度估计值，其中，b为预先配置的加权系数。获得字符宽度估计值后，可以每个左分割点为基准，在一个字符宽度的附近查找相应的右分割点，产生候选分割组。生成候选分割组的过程如图3所示。
在图5中，A。、 B。和C。都是左分割点。以左分割点A。为例，在右分割点集合PR中查找位于范围[A。+aiXW， A。+a2XW]内的右分割点，即查找位于[A" A2]内的右分割点。如果查找到对应的右分割点，如右分割点E，则将[A。，E]作为候选分割组保存起来；如果未找到，则从下一个左分割点，如左分割点B。，继续寻找。这样，获得候选分割组s叫=[A。，E]， seg2 = [Bo， F] ， seg3 = [C。， G]。其中，W为字符宽度估计值，ai、 a2为设定的加权系数。得到候选分割组之后，即可确定单个字符的左右边界，然后根据在灰度图像上分割出单个字符的图像，送给OCR引擎进行识别。可以根据对某一个候选分割组的识别情况衡量该候选分割组的可信度。在OCR单字识别时，输出与未知字符的正确识别结果s。最近邻的N个未知字符的实际识别结果Sj根据s。和各Sj之间的距离对识别情况进行评估。
如图6所示，左图是一个正确的分割结果，右图是一个勉强识别的错误的分割结
果。"？"表示未知字符，各字符表示对未知字符的实际识别结果Sj，线段表示实际识别结果
Sj和正确识别结果s。之间的距离dist (s。， Sj)。从图6可以看出，在正确分割时，正确识别结果s。与实际识别结果Sl之间的距离
很小，与其他的实际识别结果Sj之间的距离差别较大，此时识别结果的可信度较高。在错
误分割时，s。到各Sj之间的距离都很大，即使识别，识别结果也比较勉强。这两种情况可以
用s。与Sj之间的距离和s。与各Sj之间的距离的一致性来描述。对于每个候选分割组Segi，计算其识别代价CST (Segi)的公式如下GSrOg,) = a x wDOg,) + " x ^~~^ ; 其中，a 、 |3为加权系数，N表示对未知字符的实际识别结果的个数；
mD (seg》=min {dist (s。， s》，dist (s。， s2) ，......， dist (s。， sN)}; cWOg,) = Z戸6(乂)2
8
在生成的候选分割组中，由于字符自身笔画分散和背景噪声的影响，可能存在错误的分割结果，需要结合候选分割组之间的位置关系和识别代价，进行字符串过滤。
图7示出了相邻两个候选分割组之间的一种位置关系。根据候选分割组的位置关系决定是否对识别获得的字符进行过滤，如果需要过滤，则利用识别代价对字符进行过滤，过滤后即可得到正确的字符串。具体的步骤包括
判断min(partp part2}是否大于设定的阈值9 "从而获得相邻两个候选分割组如果min {part" part2}《e ^则无需对识别获得的字符过滤。如果min(partppartj > e n则需要对字符过滤。在这种情况下，判断max {par^,
part2}是否大于设定的阈值92。如果max {part" part2} > 92且|width(segl)-width(seg2) | > 93，则保留宽度更接近字符宽度估计值的候选分割组的字符识别结果；
否则，保留识别代价较小的候选分割组的字符识别结果。按下式计算par^和Part2 :
一 =，—Og,,wg2) 其中，Overl即(segp seg2)表示相邻两个候选分割组segl和seg2重叠部分的宽
度，width(segl)和width(seg2)分别表示候选分割组segl和seg2的宽度。图8是字符过滤的示意图，左图是含有错误分割的情况，右边是较为理想的情况。
各行图像从上到下依次是灰度图像、二值图像、二值图像的垂直投影、连通域合并后的结
果和各候选分割组的字符识别结果。采用上述实施例所述的方法进行字符分割、识别时，综合考虑了投影和连通域分析这两种途径生成候选分割点，相互补充，完整地包含了正确的字符分割点；然后，对候选分割组进行筛选，以免包含错误的字符分割点而影响对字符特性的估计。另外，根据视频文本的特点，结合识别代价和位置关系对候选分割进行过滤，得到正确的字符串识别结果。
图9示出了一种提取图像中的字符的装置，该装置包括第一单元S71、第二单元 S72、第三单元S73和字符识别单元S74。第一单元S71用于针对候选文本区域图像中同一行中的所有字符，建立候选分割点集合。其中，该集合包括左分割点的集合和右分割点的集合；第二单元S72用于以每个左分割点为基准，在一个估计区间内查找相应的右分割点，产生候选分割组。字符识别单元S74，用于对候选分割组进行文字识别。第三单元S73用于根据候选分割组的位置，利用识别代价对候选分割组的识别结果进行过滤。第一单元S71、第二单元S72、第三单元S73和字符识别单元S74的具体工作流程与前文的相关说明相同，此不赘述。本领域技术人员可以明白，这里结合所公开的实施例描述的各种示例性的方法步骤和装置单元均可以电子硬件、软件或二者的结合来实现。为了清楚地示出硬件和软件之间的可交换性，以上对各种示例性的步骤和单元均以其功能性的形式进行总体上的描述。这种功能性是以硬件实现还是以软件实现依赖于特定的应用和整个系统所实现的设计约束。本领域技术人员能够针对每个特定的应用，以多种方式来实现所描述的功能性，但是这种实现的结果不应解释为背离本发明的范围。利用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程的逻辑器件、分立门或者晶体管逻辑、分立硬件组件或者他们之中的任意组合，可以实现或执行结合这里公开的实施例描述的各种示例性的单元。通用处理器可能是微处理器，但是在另一种情况中，该处理器可能是任何常规的处理器、控制器、微控制器或者状态机。处理器也可能被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或者更多结合DSP核心的微处理器或者任何其他此种结构。
结合上述公开的实施例所描述的方法的步骤可直接体现为硬件、由处理器执行的软件模块或者这二者的组合。软件模块可能存在于RAM存储器、闪存、R0M存储器、EPR0M存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其他形式的存储媒质中。一种典型存储媒质与处理器耦合，从而使得处理器能够从该存储媒质中读信息，且可向该存储媒质写信息。在替换实例中，存储媒质是处理器的组成部分。处理器和存储媒质可能存在于一个ASIC中。该ASIC可能存在于一个用户站中。在一个替换实例中，处理器和存储媒质可以作为用户站中的分立组件存在。根据所述公开的实施例，可以使得本领域技术人员能够实现或者使用本发明。对于本领域技术人员来说，这些实施例的各种修改是显而易见的，并且这里定义的总体原理也可以在不脱离本发明的范围和主旨的基础上应用于其他实施例。以上所述的实施例仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
一种提取图像中的字符的方法，其特征在于，包括针对候选文本区域图像中同一行中的所有字符，建立候选分割点集合，该集合包括左分割点的集合和右分割点的集合；以每个左分割点为基准，在一个估计区间内查找相应的右分割点，产生候选分割组；对候选分割组进行文字识别；根据候选分割组的位置，利用识别代价对候选分割组的识别结果进行过滤。
2. 如权利要求i所述的方法，其特征在于，对于位置的重叠程度大于第一阈值ej勺相邻两个候选分割组，利用识别代价对候选分割组的识别结果进行过滤。
3. 如权利要求2所述的方法，其特征在于，通过计算min(partp part2获得两个候选分割组的位置的重叠程度；其中<formula>formula see original document page 2</formula>部分的宽度，Overl即(segl， seg2)表示相邻两个候选分割组segl和seg2重width (segl)和width (seg2)分别表示候选分割组segl和seg2的宽度。
4. 如权利要求3所述的方法，其特征在于，如果<formula>formula see original document page 2</formula>且<formula>formula see original document page 2</formula>，则保留宽度更接近字符估计宽度的候选分割组的识别结果；否则，保留识别代价较小的候选分割组的识别结果；其中，92是第二阈值，93是第三阈值。
5. 如权利要求4所述的方法，其特征在于，按下式计算候选分割组segi的识别代价<formula>formula see original document page 2</formula>苴中，<formula>formula see original document page 2</formula>a、 P为加权系数；s。表示未知字符的正确识别结果；Sj表示未知字符的实际识别结果，dist(s。， Sj)表示Sj到s。的距离。
6. 如权利要求1至5任一项所述的方法，其特征在于，所述左分割点集合由第一类左分割点和第二类左分割点构成；所述右分割点集合由第一类右分割点和第二类右分割点构成。
7. 如权利要求6所述的方法，其特征在于，以二值图像的垂直投影的左、右边界作为第一类左、右分割点。
8. 如权利要求7所述的方法，其特征在于，对二值图像中的连通域进行标定、合并，以每个合并后的连通域的左、右边界作为第二类左、右分割点。
9. 如权利要求1至5任一项所述的方法，其特征在于，以左分割点为基准，在距离左分割点[aiXW， a2XW]的范围内查找相应的右分割点；其中，W为字符估计宽度，ai、 a2为加权系数。
10. 如权利要求9所述的方法，其特征在于，a、每个左分割点和设定区间内的每一个右分割点组成一个候选分割；b、对所有候选分割的宽度进行直方图统计；c、在所有的统计值中选取最大的值所对应的宽度；d、以所述宽度作为字符估计宽度。
11. 如权利要求10所述的方法，其特征在于，在步骤c、 d之间进一步包括e、判断^的值是否处于设定范围内；如果是，则执行步骤d;如果不是，则将所述最大的统计值置零并丢弃k。，转步骤C ;其中，k。表示最大的统计值所对应的宽度，H'表示字符高度的估计值。
12. —种提取图像中的字符的装置，其特征在于，包括第一单元，用于针对候选文本区域图像中同一行中的所有字符，建立候选分割点集合；其中，该集合包括左分割点的集合和右分割点的集合；第二单元，用于以每个左分割点为基准，在一个估计区间内查找相应的右分割点，产生候选分割组；字符识别单元，用于对候选分割组进行文字识别；禾口第三单元，用于根据候选分割组的位置，利用识别代价对候选分割组的识别结果进行过滤。
13. 如权利要求12所述的装置，其特征在于，第三单元对于位置的重叠程度大于第一阈值的相邻两个候选分割组，利用识别代价对候选分割组的识别结果进行过滤。
14. 如权利要求13所述的装置，其特征在于，第三单元通过计算min(par^， part2}获得两个候选分割组的位置的重叠程度；其中<formula>formula see original document page 3</formula>0verl即(segl， seg2)表示相邻两个候选分割组segl和seg2重叠部分的宽度， width (segl)和width (seg2)分别表示候选分割组segl和seg2的宽度。
15. 如权利要求14所述的装置，其特征在于，如果max {par^, part2} > e 2且 I width (segl)-width (seg2) I > 93，则保留宽度更接近字符估计宽度的候选分割组的识别结果；否则，保留识别代价较小的候选分割组的识别结果；其中，92是第二阈值，93是第三阈值。
16. 如权利要求15所述的装置，其特征在于，按下式计算候选分割组segi的识别代价 CST(seg》<formula>formula see original document page 3</formula>苴中，<formula>formula see original document page 3</formula><formula>formula see original document page 4</formula>a、 P为加权系数；s。表示未知字符的正确识别结果；Sj表示未知字符的实际识别结果，dist(s。， Sj)表示Sj到s。的距离。
17. 如权利要求12至16任一项所述的装置，其特征在于，所述左分割点集合由第一类左分割点和第二类左分割点构成；所述右分割点集合由第一类右分割点和第二类右分割点构成。
18. 如权利要求17所述的装置，其特征在于，第一单元以二值图像的垂直投影的左、右边界作为第一类左、右分割点。
19. 如权利要求18所述的装置，其特征在于，第一单元以二值图像中每个合并后的连通域的左、右边界作为第二类左、右分割点。
20. 如权利要求12至16任一项所述的装置，其特征在于，第二单元以左分割点为基准，在距离左分割点[aiXW， a2XW]的范围内查找相应的右分割点；其中，W为字符估计宽度，ai、 a2为加权系数。
21. 如权利要求20所述的装置，其特征在于，每个左分割点和设定区间内的每一个右分割点组成一个候选分割；对所有候选分割的宽度进行直方图统计；确定出现次数最多的字符宽度；以所述字符宽度作为字符估计宽度。
全文摘要
一种提取图像中的字符的方法，包括针对候选文本区域图像中同一行中的所有字符，建立候选分割点集合，该集合包括左分割点的集合和右分割点的集合；以每个左分割点为基准，在一个估计区间内查找相应的右分割点，产生候选分割组；对候选分割组进行文字识别；根据候选分割组的位置，利用识别代价对候选分割组的识别结果进行过滤。本发明还公开一种提取图像中的字符的装置。
文档编号G06K9/34GK101770576SQ20081024665
公开日2010年7月7日申请日期2008年12月31日优先权日2008年12月31日
发明者周景超, 徐成华, 苗广艺, 鲍东山申请人:北京新岸线网络技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周景超;苗广艺;徐成华;鲍东山
技术所有人：北京新岸线网络技术有限公司
我是此专利的发明人

上一篇：基于分布式内存虚拟化的numa结构的实现方法
上一篇：一种闪存块磨损平衡的方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。