训练分类器、图像中文字区域检测的方法及系统的制作方法

文档序号：6488117阅读：177来源：国知局

训练分类器、图像中文字区域检测的方法及系统的制作方法
【专利摘要】本申请公开了一种训练分类器的方法及系统、图像中文字区域检测的方法及系统，属于图像检测领域。该检测方法包括：获取经灰度处理的待检测图像；获取与所述经灰度处理的待检测图像对应的黑白二值图；根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域；根据从候选检测区域提取的图像特征和分类器确定待检测图像中的候选文字区域；根据候选文字区域获取图像中的文字区域。本申请可以快速准确地检测图像中的文字区域。
【专利说明】训练分类器、图像中文字区域检测的方法及系统
【技术领域】
[0001]本申请涉及图像检测领域，尤其涉及一种训练分类器的方法及系统、图像中文字区域检测的方法及系统。
【背景技术】
[0002]图像中文字区域的检测历来是图像检测的一个重要课题，以图像中的商标为例，商标是指生产者、经营者为使自已的商品或服务与他人的商品或服务相区别，而使用在商品或服务上的一种可视性标志。大多数商标包括文字部分，这样的商标也可以称为文字商标。对于许多网站，尤其是电子商务网站，存在各种侵犯商标专用权的行为，比如卖家发布的图像中使用了某个未经商标持有人授权的商标，这种行为对商标持有人和商品购买者都带来了很多的利益损害。如果可以在一幅图像中检测出商标的文字区域，则可以为后续的商标侵权判断提供更精准的依据。目前常用的图像中文字区域的检测方法如下:
[0003]第一、基于边缘检测的方法。该方法是利用文字区域存在较多边缘的特点，先检测待检测图像的边缘，然后利用形态学等方法定位待检测图像中的文字区域。虽然基于边缘检测的方法可以快速检测待检测图像中的文字区域，但由于文字经常直接叠加在复杂的背景中，文字区域周围的背景的边缘经常会与文字的边缘粘连在一起，从而影响待检测图像中的文字区域定位的准确性。
[0004]第二、基于区域分析的方法。该方法是利用颜色信息从待检测图像中提取连通域，再根据区域几何约束使用阈值规则从连通域中定位文字区域。但该方法的缺陷在于:在待检测图像背景复杂时很难准确地提取连通域，并且在该方法中使用的几何规则和阈值更缺乏鲁棒性，很难推广。
[0005]第三、基于机器学习的方法。该方法事先通过选取样本来对分类器进行训练，使之能在不断变化的因素中定位待检测图像的文字区域和背景区域两种模式。但该方法的难点和关键在于训练特征提取，即如何快速有效地从预处理阶段输出的信息中，提取出能代表待检测图像的文字区域的特征的有效信息，因此，训练样本的选择对于检测效果有较大影响，并且该方法处理速度慢。

【发明内容】

[0006]为了快速且准确地检测图像中文字区域，本申请提供了一种训练分类器的方法及系统、图像中文字区域检测的方法及系统。
[0007]本申请的一个方案提供了一种训练用于图像中文字区域检测的分类器的方法，包括:
[0008]获取图像样本,所述样本大小为η列*m行像素，n, m为正整数；
[0009]对所述样本进行灰度处理，得到经灰度处理的样本；
[0010]从所述经灰度处理的样本提取图像特征，所述图像特征包括梯度信息、颜色信息和连通域信息；[0011]利用提取的图像特征训练用于图像中文字区域检测的分类器。
[0012]本申请的另一个方案提供了一种图像中文字区域检测的方法，包括:
[0013]获取经灰度处理的待检测图像；
[0014]获取与所述经灰度处理的待检测图像对应的黑白二值图；
[0015]根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域；
[0016]根据从所述候选检测区域提取的图像特征和用于图像中文字区域检测的分类器确定所述经灰度处理的待检测图像中的候选文字区域，所述图像特征包括梯度信息、颜色信息和连通域信息；
[0017]根据所述候选文字区域获取图像中的文字区域。
[0018]本申请的再一个方案提供了一种训练用于图像中文字区域检测的分类器的系统，包括:
[0019]样本获取模块，用于获取图像样本，所述样本大小为η列*m行像素，n, m为正整数；
[0020]灰度处理模块，用于对所述样本进行灰度处理，得到经灰度处理的样本；
[0021]图像特征提取模块，用于从所述经灰度处理的样本提取图像特征，所述图像特征包括梯度信息、颜色信息和连通域信息；
[0022]分类器训练模块，用于利用提取的图像特征训练用于图像中文字区域检测的分类器。
[0023]本申请的再一个方案提供了一种图像中文字区域的检测系统，包括:
[0024]待检测图像获取模块，用于获取经灰度处理的待检测图像；
[0025]黑白二值图获取模块，用于获取与所述经灰度处理的待检测图像对应的黑白二值图；
[0026]候选检测区域确定模块，用于根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域；
[0027]候选文字区域确定模块，用于根据利用从所述候选检测区域提取的图像特征和用于图像中文字区域检测的分类器确定所述经灰度处理的待检测图像中的候选文字区域，所述图像特征包括梯度信息、颜色信息和连通域信息；
[0028]文字区域获取模块，用于根据所述候选文字区域获取图像中的文字区域。
[0029]根据本申请的一个优选方案，该系统还包括:多尺度变换模块，用于对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换，得到多幅不同尺度的所述经灰度处理的待检测图像和所述黑白二值图。
[0030]本申请通过获取对应于经灰度处理的待检测图像的黑白二值图，并在检测文字区域过程中，根据黑白二值图来确定经灰度处理的待检测图像中候选检测区域，从候选检测区域提取图像特征，然后利用用于图像中文字区域检测的分类器来确定检测图像中的文字区域，可以大幅度地减少图像中文字区域检测的计算量，提高了图像中文字区域检测的效率。此外，通过对经灰度处理的待检测图像和黑白二值图进行多尺度变换，进而，利用多幅不同尺度的经灰度处理的待检测图像和黑白二值图来确定待检测图像中的文字区域，可以大幅度地降低图像中文字区域检测的误检率，提高了图像中文字区域的检测准确度。
[0031]通过以下参照附图对本申请实施例的说明，本申请的上述以及其它目的、特征和优点将更加明显。
【专利附图】

【附图说明】
[0032]下面将参照所附附图来描述本申请的实施例，其中:
[0033]图1所示为实施例一提供的训练分类器的方法的流程图；
[0034]图2所示为实施例二提供的图像中文字区域检测的方法的流程图；
[0035]图3所示为实施例三提供的训练分类器的系统的方块图；
[0036]图4所示为实施例四提供的图像中文字区域检测的系统的方块图。
【具体实施方式】
[0037]下面结合附图详细描述本申请的具体实施例。应当注意，这里描述的实施例只用于举例说明，并不用于限制本申请。
[0038]实施例一
[0039]在进行图像中文字区域检测前，需要先训练用于图像中文字区域检测的分类器。在本申请中，分类器可以是支持向量机(Support Vector Machine, SVM)分类器、Adaboost分类器等，但本申请的保护范围并不限于此。为了描述简便，以下以SVM分类器为例来说明训练分类器的过程，具体如图1所示，
[0040]S100，获取图像的样本，样本的大小为η (列)*m (行)像素，其中，n, m为正整数。需要说明的是，样本的大小会影响以后的运算速度，通常η和m的取值以大于10且不超过50为宜。
[0041]其中，样本的数量可以根据实际需要进行调整，本申请实施例中样本的数量为5000。本申请为了描述简便，以样本的大小均为36 (列)*12 (行)像素为例，但本领域技术人员可以根据实际需要进行调整。需要说明的是，样本的大小并不一定要相同，但通过适当的尺度变换可以将不同大小的样本统一成相同尺寸的样本。以下以一个样本为例，对于其他样本，处理原理相同，不再赘述。
[0042]SI 10，对样本进行灰度处理，得到经灰度处理的样本。
[0043]S120，从经灰度处理的样本提取图像特征，该图像特征包括:梯度信息、颜色信息和连通域信息。
[0044]其中，图像特征提取的具体过程描述如下:
[0045](I)梯度信息的提取。
[0046]首先，对每一经灰度处理的样本进行j个方向的梯度信息计算。其中，j的取值范围为大于或等于3的整数，优选地，j取值为大于或等于4且小于或等于8的偶数。为了描述方便，在本申请实施例中，j取值为4，分别为(0°、45°、90°、135° )。在一个方向上计算一行像素中的每一像素的梯度，然后对计算的梯度进行求和，得到该行所有像素的梯度的和值。由于在本实施例中j取值为4，因此，针对每一行像素，对应于4个方向，可以得到4个梯度和值,然后取4个梯度和值的平均值作为该行像素的梯度和值。由于本实施例中经灰度处理的样本有12行像素，这样，分别对应于12行的像素可以计算出12个梯度和值。
[0047]然后，将最大和值对应的行的行号标记为LM，其中，M取值为O至12的整数。用Lm计算出2个边界值Lm/2和(Lm+12) /2，利用该2个边界值将经灰度处理的样本划分为3个子区域出1=(0，1^/2)、82=(1^/2，(Lm+12)/2)和 B3= ((Lm+12)/2，12)。例如，最大和值对应的行的行号为6，即Lm=6，M=6。然后利用L6计算两个边界值，分别为3和9。然后利用这两个边界值将经灰度处理的样本划分3个子区域:B1=(0，3)、B2=(3，9)和B3=(9，12)。需要指出的是，在本申请实施例中是用最大的和值对应的行的行号的标记Lm将经灰度处理的样本划分为3个子区域，但本领域技术人员可以理解的是，也可以用最小的和值(或中间值，或其他数值)对应的行的行号将经灰度处理的样本划分为3个子区域，本申请的保护范围并不限于上述数值。当然也可以将经灰度处理的样本随机划分3个子区域。此外，划分的子区域的数量也并不限于3个子区域，也可以是4个子区域、6个子区域等，本领域技术人员可以理解的是，可以将经灰度处理的样本划分为k个子区域，k的取值范围为大于或等于3的整数。
[0048]然后，分别计算每一子区域内的所有像素的梯度的均值和方差，这样在每一子区域得到2维特征，从而在每个方向上可以得到(2*k)维特征。这样，在j个方向上总共可以得到(2*k*j)维特征。此外，将行号标记Lm作为另一维特征，从而总共可以得到(2*k*j+l)维特征。在本申请中，由于j取值为4，k取值为3，因此，总共可以得到25维特征。
[0049]( 2 )颜色信息的提取。
[0050]具体地，对经灰度处理的样本的像素进行统计以得到颜色分布的直方图，即将O到255的灰度空间分为L (L为大于I的正整数)个组(bin，计算颜色直方图需要将颜色空间划分成若干个小的颜色区间，每个小区间称为直方图的一个bin)。在本申请实施例中，将该灰度空间均分(也可以是不均分，而是随机划分)为32 (也可以是其他数值，例如16、24、64等数值)个bin,每个bin的高度为出现在该bin内的像素个数,进而计算得到颜色分布的直方图，然后计算直方图的方差和信息熵，作为经灰度处理的样本的2维特征。其中，直
方图的方差为
【权利要求】
1.一种训练用于图像中文字区域检测的分类器的方法，其特征在于，包括: 获取图像样本，所述样本大小为η列*m行像素，n，m为正整数；对所述样本进行灰度处理，得到经灰度处理的样本；从所述经灰度处理的样本提取图像特征，所述图像特征包括梯度信息、颜色信息和连通域信息；利用提取的图像特征训练用于图像中文字区域检测的分类器。
2.根据权利要求1所述的方法，其特征在于，从所述经灰度处理的样本提取梯度信息的步骤包括: 对所述经灰度处理的样本进行j个方向的梯度信息计算，得到所述经灰度处理的样本中每行中所有像素的梯度的和值，从而得到m个和值，其中，j为大于或等于3的正整数；利用m个和值中的一和值对应的行的行号将所述经灰度处理的样本划分为k个子区域，k为大于或等于3的正整数；将m个和值中的该和值对应的行的标记作为I维特征；分别从每一方向计算每一子区域的所有像素的梯度的均值和方差，得到2*j*k维特征。
3.根据权利要求1所述的方法，其特征在于，从所述经灰度处理的样本提取颜色信息的步骤包括: 将所述经灰度处理的样本的灰度空间划分为L个bin，每个bin的高度为落入该bin的像素个数，从而得到所述经灰度处理的样本的颜色分布的直方图；计算所述直方图的方差和信息熵，作为所述经灰度处理的样本的2维特征；其中，所述直方图的方差为
4.根据权利要求1所述的方法，其特征在于，从所述经灰度处理的样本提取连通域信息的步骤包括: 采用聚类算法对所述经灰度处理的样本进行聚类运算，将经灰度处理的样本中的像素聚为两类，将同一类像素设为白色或黑色；统计所述经灰度处理的样本的4个边沿部分的所有像素的灰度，如果4个边沿部分中超过预设数量的像素的灰度为白色，则对所述经灰度处理的样本进行反色处理，从而得到文字为白色、背景为黑色的黑白二值图；从所述黑白二值图中提取白色连通域，计算所述白色连通域中心的X坐标和Y坐标的均值，得到2维特征，将所述白色连通域的大小的标准差作为另一维特征。
5.一种图像中文字区域检测的方法，其特征在于，包括: 获取经灰度处理的待检测图像；获取与所述经灰度处理的待检测图像对应的黑白二值图；根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域；根据从所述候选检测区域提取的图像特征和用于图像中文字区域检测的分类器确定所述经灰度处理的待检测图像中的候选文字区域，所述图像特征包括梯度信息、颜色信息和连通域信息；根据所述候选文字区域获取图像中的文字区域。
6.根据权利要求5所述的方法，其特征在于，在获取与所述经灰度处理的待检测图像对应的黑白二值图的步骤之后，根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域的步骤之前，还包括: 对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换，得到多幅不同尺度的经灰度处理的待检测图像和所述黑白二值图。
7.根据权利要求5所述的方法，其特征在于，根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域的步骤包括: 利用预设大小的滑动框遍历所述经灰度处理的待检测图像，判断与所述经灰度处理的待检测图像对应的所述黑白二值图中对应该滑动框的区域中的预设位置的像素是否为白色，如果是，则确定所述经灰度处理的待检测图像中对应该滑动框的区域为候选检测区域。
8.根据权利要求7所述的方法，其特征在于，还包括:如果判断与所述经灰度处理的待检测图像对应的所述黑白二值图中对应该滑动框的区域中的预设位置的像素为黑色，则以预设的步长在所述经灰度处理的待检测图像上继续滑动该滑动框。
9.根据权利要求7或8所述的方法，其特征在于，所述预设位置为所述黑白二值图中对应该滑动框的区域中的左上角、左下角、右上角、右下角或中心位置。
10.根据权利要求5所述的方法，其特征在于，根据所述候选文字区域获取图像中的文字区域的步骤包括: 针对所述经灰度处理的待检测图像，判断不同的候选文字区域间的相交面积与该滑动框的面积的比值是否大于第一预设值；如果是，则将所述不同的候选文字区域归为一类；判断归为该类的候选文字区域的数量是否小于第二预设值，如果是，则淘汰所述归为该类的候选文字区域；如果否，则保留所述归为该类的候选文字区域，所述归为该类的候选文字区域即为所述图像中的文字区域。
11.根据权利要求10所述的方法，其特征在于，当对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换时，根据所述候选文字区域获取图像中的文字区域的步骤还包括: 将经归类处理的待检测图像进行尺度还原处理；判断尺度还原处理后的待检测图像中的小的候选文字区域与大的候选文字区域的比值是否大于第三预设值；如果是，则将小的候选文字区域和大的候选文字区域合并到第三候选文字区域，所述第三候选文字区域为包括小的候选文字区域和大的候选文字区域的最小矩形区域，所述第三候选文字区域即为所述图像中的文字区域。
12.—种训练用于图像中文字区域检测的分类器的系统，其特征在于，包括: 样本获取模块，用于获取图像样本，所述样本大小为η列*m行像素，n, m为正整数；灰度处理模块，用于对所述样本进行灰度处理，得到经灰度处理的样本；图像特征提取模块，用于从所述经灰度处理的样本提取图像特征，所述图像特征包括梯度信息、颜色信息和连通域信息；分类器训练模块，用于利用提取的图像特征训练用于图像中文字区域检测的分类器。
13.根据权利要求12所述的系统，其特征在于，所述图像特征提取模块用于: 对所述经灰度处理的样本进行j个方向的梯度信息计算，得到所述经灰度处理的样本中每行中所有像素的梯度的和值，从而得到m个和值，其中，j为大于或等于3的正整数；利用m个和值中的一和值对应的行将所述经灰度处理的样本划分为k个子区域，k为大于或等于3的正整数；将m个和值中的该和值对应的行的标记作为I维特征；分别从每一方向计算每一子区域的所有像素的梯度的均值和方差，得到2*j*k维特征。
14.根据权利要求12所述的系统，其特征在于，所述图像特征提取模块用于: 将所述经灰度处理的样本的灰度空间划分为L个bin，每个bin的高度为落入该bin的像素个数，从而得到所述经灰度处理的样本的颜色分布的直方图；计算所述直方图的方差和信息熵，作为所述经灰度处理的样本的2维特征；
其中，所述直方图的方差为
15.根据权利要求12所述的系统，其特征在于，所述图像特征提取模块用于: 采用聚类算法对所述经灰度处理的样本进行聚类运算，将经灰度处理的样本中的像素聚为两类，将同一类像素设为白色或黑色；统计所述经灰度处理的样本的4个边沿部分的所有像素的灰度，如果4个边沿部分中超过预设数量的像素的灰度为白色，则对所述经灰度处理的样本进行反色处理，从而得到文字为白色、背景为黑色的黑白二值图；从所述黑白二值图中提取白色连通域，计算所述白色连通域中心的X坐标和Y坐标的均值，得到2维特征，将所述白色连通域的大小的标准差作为另一维特征。
16.一种图像中文字区域检测的系统，其特征在于，包括: 待检测图像获取模块，用于获取经灰度处理的待检测图像；黑白二值图获取模块，用于获取与所述经灰度处理的待检测图像对应的黑白二值图；候选检测区域确定模块，用于根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域；候选文字区域确定模块，用于根据从所述候选检测区域提取的图像特征和用于图像中文字区域检测的分类器确定所述经灰度处理的待检测图像中的候选文字区域，所述图像特征包括梯度信息、颜色信息和连通域信息；文字区域获取模块，用于根据所述候选文字区域获取图像中的文字区域。
17.根据权利要求16所述的系统，其特征在于，还包括:多尺度变换模块，用于对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换，得到多幅不同尺度的经灰度处理的待检测图像和所述黑白二值图；
18.根据权利要求16所述的系统，其特征在于，所述候选检测区域确定模块用于: 利用预设大小的滑动框遍历所述经灰度处理的待检测图像，判断与所述经灰度处理的待检测图像对应的所述黑白二值图中对应该滑动框的区域中的预设位置的像素是否为白色，如果是，则确定所述经灰度处理的待检测图像中对应该滑动框的区域为候选检测区域。
19.根据权利要求17所述的系统，其特征在于，还包括:继续滑动模块，用于在判断与所述经灰度处理的待检测图像对应的所述黑白二值图中对应该滑动框的区域中的预设位置的像素为黑色时，则以预设的步长在所述经灰度处理的待检测图像上继续滑动该滑动框。
20.根据权利要求18或19所述的系统，其特征在于，所述预设位置为所述黑白二值图中对应该滑动框的区域中的左上角、左下角、右上角、右下角或中心位置。
21.根据权利要求16所述的系统，其特征在于，所述文字区域获取模块用于: 针对所述经灰度处理的待检测图像，判断不同的候选文字区域间的相交面积与该滑动框的面积的比值是否大于第一预设值；如果是，则将所述不同的候选文字区域归为一类；判断归为该类的候选文字区域的数量是否小于第二预设值，如果是，则淘汰所述归为该类的候选文字区域；如果否，则保留所述归为该类的候选文字区域，所述归为该类的候选文字区域即为图像中的文字区域。
22.根据权利要求21所述的系统，其特征在于，当对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换时，所述文字区域获取模块还用于: 将经归类处理的待检测图像进行尺度还原处理；判断还原处理的待检测图像中的小的候选文字区域与大的候选文字区域的比值是否大于第三预设值；如果是，则将小的候选文字区域和大的候选文字区域合并到第三候选文字区域，所述第三候选文字区域为包括小的候选文字区域和大的候选文字区域的最小矩形区域，所述第三候选文字区域即为所述图像中的文字区域。
【文档编号】G06K9/62GK103632159SQ201210303844
【公开日】2014年3月12日申请日期:2012年8月23日优先权日:2012年8月23日
【发明者】邓宇, 陈艳琴申请人:阿里巴巴集团控股有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邓宇;陈艳琴
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。