一种基于自适应色彩聚类的自然场景文本检测的方法

文档序号：8488146阅读：306来源：国知局

一种基于自适应色彩聚类的自然场景文本检测的方法
【技术领域】
[0001] 本发明属于模式识别技术领域，涉及一种基于自适应色彩聚类的自然场景文本检测方法。
【背景技术】
[0002] 随着手机和照相设备的普及，图像和视频的数量越来越多。这些图像和视频中包含着许多的重要信息，如何提取和理解图像中的信息，显得尤为重要。文本是图像中最主要、最直接的信息，提取和识别图像中的文本，能够辅助计算机理解图像内容。目前，印刷体文本检测已经取得了巨大的进展，并且得到了广泛的应用。然而，自然场景图像中的文本，由于其字体大小和样式的变化多端，同时受到光照、阴影、拍摄角度的影响，使得其检测效果不佳。因此，自然场景文本检测仍是一项具有挑战性的工作。
[0003] 目前，已存在的自然场景文本检测方法可以分为两大类：基于滑动窗口和基于连通区域的方法。基于滑动窗口的检测方法也称为基于区域的检测方法，其工作原理是：首先，使用不同尺度的滑动窗口扫描原始图片，得到一系列的子区域；然后，提取子区域的纹理特征，如梯度直方图、小波变换等；最后，使用提取的特征训练分类器，验证子区域，得到最终检测文本。该方法通过多尺度滑动窗口提取子区域，其时间复杂度较高，并且使用手工设计的特征验证子区域，使得其检测效果不佳。近年来，基于连通区域的文本检测方法得到了相关学者的广泛关注。该方法主要包括3个步骤：1)通过像素点的色彩、笔画宽度等特征，从图像中提取连通区域；2)分析连通区域的特征，通过字符合并规则，得到文本字符串；3)验证字符串，移除非文字，得到最终文本检测结果。与基于滑动窗口的检测方法相比，基于连通区域的检测方法拥有较高的准确率，并且其时间复杂度相对较低。
[0004] 由于自然场景图像中的文本变化多端，其背景也呈现出不同的复杂程度。因此，如何从不同复杂程度的图像中，提取文本连通区域，并且合理移除非文本区域，是基于连通区域文本检测方法的关键。

【发明内容】

[0005] 本发明提供了一种基于自适应色彩聚类的自然场景文本检测方法，其目的在于克服现有技术中文本检测背景复杂时准确率不高的问题。
[0006] 一种基于自适应色彩聚类的自然场景文本检测方法，包括以下几个步骤：
[0007] 步骤1 :获取待进行文本检测图像I的边缘图像Ie;
[0008] 步骤2 :从待进行文本检测图像I中移除边缘图像Ie中的像素点，得到主色彩图像Im;
[0009] 步骤3 :初始化色彩聚类中心（y°(r)，y°(g)，y°(b));
[0010] 步骤3. 1，将主色彩图像Im中的像素点投影到三维色彩空间；
[0011] 步骤3. 2,设定步长S，将该三维色彩空间进行量化，得到（256/S)3个大小一致的子立方体；
[0012] 步骤3. 3,计算每个子立方体中的像素点的个数，作为该子立方体的密度，并找出密度最大的子立方体；
[0013] 步骤3. 4,计算密度最大的子立方体中所有像素点的色彩平均值，将该值作为初始的色彩聚类中心（y°(r)，y°(g)，y°(b));
[0014] 步骤4 :更新色彩聚类中心；
[0015] 步骤4. 1，设置更新迭代次数t的初始值为0,第t次迭代得到的色彩聚类中心为 O1(r)，y1(g)，y1(b));
[0016] 步骤4. 2,计算主色彩图像1_"中的每个像素点p到初始色彩聚类中心的距离d。，像素点P的R、G、B色彩通道值依次表示为pg及pb:
【主权项】
1. 一种基于自适应色彩聚类的自然场景文本检测方法，其特征在于，包括以下几个步骤：步骤1:获取待进行文本检测图像I的边缘图像Ie; 步骤2 :从待进行文本检测图像I中移除边缘图像中的像素点，得到主色彩图像Im; 步骤3:初始化色彩聚类中心（y°(r)，y°(g)，y°(b)); 步骤3. 1，将主色彩图像Im中的像素点投影到三维色彩空间；步骤3. 2,设定步长S，将该三维色彩空间进行量化，得到（256/S)3个大小一致的子立方体；步骤3. 3,计算每个子立方体中的像素点的个数，作为该子立方体的密度，并找出密度最大的子立方体；步骤3. 4,计算密度最大的子立方体中所有像素点的色彩平均值，将该值作为初始的色彩聚类中心U°(r)，y°(g)，y°(b)); 步骤4:更新色彩聚类中心；步骤4. 1，设置更新迭代次数t的初始值为0,第t次迭代得到的色彩聚类中心为O1(r)，y1(g)，y1(b)); 步骤4. 2,计算主色彩图像1_"中的每个像素点p到初始色彩聚类中心的距离d。，像素点P的R、G、B色彩通道值依次表示为h、pg&pb:
步骤4. 3,找出主色彩图像Im中满足条件d。〈1的所有像素点，并计算满足条件的所有像素点的色彩平均值，作为新的色彩聚类中心（yt+1(r)，yt+1(g)，yt+1(b)); 1表示色彩距离阈值，取值范围为[24,88]; 步骤 4.4,判断（VOO,i^g)，yt(b))与（yt+1(r)，yt+1(g)，yt+1(b))是否相等，若相等，则以（yt+1(r)，yt+1(g)，yt+1(b))作为最终的色彩聚类中心（y(r)，y(g)，y(b))，否贝ij，令t=t+1，返回步骤4. 2,直到色彩聚类中心的取值不发生变化；步骤5:构建色彩层图像；步骤5.1，根据步骤4中得到最终的色彩聚类中心（y(r)，y(g)，y(b))，遍历IjPIe 中所有像素点，计算每个像素点q到色彩聚类中心（u(r),y(g),y(b))的距离d; 步骤5. 2,把满足条件d〈l的像素点q组成一张色彩层图像，表示为Q，其中，i代表第i次得到的色彩层图像，同时把这些像素点从ijPIe中移除，得到新的主色彩图像和边缘图像；i的初始值取值为1 ; 步骤5. 3,步骤5. 2得到的新的主色彩图像，i=i+1，返回步骤3,直到步骤2所述的主色彩图像1">中所有像素点都分配到对应的色彩层图像中，构建出所有色彩层图像
步骤6 :对所有的色彩层图像进行二值化处理，得到对应的二值化图像，并提取所有二值化图像中的连通区域，组成连通区域集合CCs; 步骤7 :构建极限学习机分类器训练集；首先，选取ICDAR2013数据库训练集中的图像作为训练样本，将训练样本中每幅图像执行步骤1-6,得到连通区域集合CCs; 然后，将CCs中相邻的连通区域两两组成一对，如果一对中的2个连通区域在同一文本字符串中且相邻，则视相邻的连通区域为正样本；如果一对中的2个连通区域都是文本，且垂直重复率为0,即2个连通区域分布在2个不同的字符串中，或者一对中的2个连通区域，其中有一个为非文本，则视相邻的连通区域为负样本；从所有的正负样本中，随机选取10000个正样本和10000个负样本作为构建极限学习机训练集；步骤8 :用极限学习机分类器训练集中每个样本的特征向量训练分类器，得到邻域字符模型；所述每个样本的特征向量包括高度比Rh、平均笔画宽度比Rsw、垂直重叠率RV()1、水平间距D和颜色相似度CS5个特征；步骤9 :相邻字符合并；对待进行文本检测图像I对应的连通区域集合CCs中的连通区域，按照从上到下、从左至右的顺序进行编号标记，记为（CQ，CC2...CCn)，n表示连通区域的个数；利用步骤8得到的极限学习机分类器对（CQCC2. . .CCn)进行邻域字符分类，将相邻的字符进行合并，得到文本字符串，完成文本检测。
2. 根据权利要求1所述的一种基于自适应色彩聚类的自然场景文本检测方法，其特征在于，所述步骤9中利用步骤8得到的极限学习机分类器对（CQCC2. . .CCn)进行邻域字符分类，将相邻的字符进行合并，具体过程如下：步骤9. 1，选取编号最前的连通区域作为初始连通区域，表示为CQ，找出与CQ相邻的连通区域，表示为CCK，将CQ和CCK作为一组测试样本；步骤9. 2 :获取测试样本的特征向量；步骤9. 3 :使用步骤8中训练好的极限学习机分类器，根据测试样本的5个样本特征，判断CCjPCCK是否为邻域字符；步骤9. 4 :如果CCjPCCK被判定为非邻域字符，把CQ作为字符串保存，并且从CCs中删除CQ;如果CC^和CCK被判定为邻域字符，则把CC^和CCACCs中删除，并且把CC^和 CCK合并成一个连通区域，作为新的CC^ 然后，重新选取CQ的相邻连通区域CCK，得到新的测试样本，返回步骤9. 2,直到CCs集合中没有连通区域为止，得到所有合并后的字符串。
3. 根据权利要求2所述的一种基于自适应色彩聚类的自然场景文本检测方法，其特征在于，所述测试样本的特征向量包括高度比Rh、平均笔画宽度比Rsw、垂直重叠率RV()1、水平间距D和颜色相似度CS按照以下计算公式计算：
其中，CQ为连通区域对中位于左边的连通区域，CCK为连通区域对中位于右边的连通区域;V心分布代表cct和CCK的区域高度；sw^sw#布代表CCt和CCK的平均笔画宽度； Vuo心分布代表CCt和CCK之间的垂直重叠长度，水平距离长度；rpgpk分别为CCt的R、 G、B三通道的平均色彩值，rK、gK、bK分别为CC亦R、G、B三通道的平均色彩值。
4. 根据权利要求1-3任一项所述的一种基于自适应色彩聚类的自然场景文本检测方法，其特征在于，使用训练好的卷积神经网络CNN，对步骤9中的文本字符串进行第一轮验证，移除部分非文本，具体步骤如下：步骤10. 1 :通过卷积神经网络CNN计算文本字符串的置信度，表示为Score ; 步骤10. 2 :根据置信度Score，将文本字符串分为3类：High、Middle和Low，其中具体规则如下： High = {Score|Score>l. 4} Middle = {Score | 0. 6 Score 1. 4} Low = {Score|Score<0.6} 步骤10. 3 :将置信度Score属于Low类的，直接从候选文本中删除；将置信度Score属于High类的，直接作为最终检测结果输出；将置信度Score属于Middle类的，作为待识别的字符串。
5.根据权利要求4所述的一种基于自适应色彩聚类的自然场景文本检测方法，其特征在于，使用支持向量机分类器对步骤10中待识别的字符串进行验证，得到优化后的检测结果，具体过程为：对于步骤10. 3中得到的，属于Middle类别的候选字符串，提取HOG特征，构建特征向量，并采用训练好的支持向量机分类器进行字符串验证，移除非文本字符串，得到优化后的检测结果；所述支持向量机分类器的训练过程如下：步骤11. 1 :选取ICDAR2013数据库训练集中的图像作为训练样本，对于训练集中的图像，执行步骤1-10,得到候选字符串；对候选字符串分类，包含字符的作为正样本，否则，视为负样本；步骤11. 2 :对于步骤11. 1中的正负样本，提取其方向梯度直方图特征，构建特征向量，训练支持向量机分类器。
【专利摘要】本发明提出了一种基于自适应色彩聚类的自然场景文本检测的方法，该方法首先提出自适应色彩聚类方案，对于不同复杂程度的图像，该方案能聚类得到不同数目的色彩层，有效提取文本连通区域；然后，通过训练极限学习机(ELM)，构建邻域字符模型，合并形成字符串，提高了方法的鲁棒性；最后，为了进一步提高系统文本检测的性能，本方法采用卷积神经网络(CNN)和支持向量机(SVM)相结合的策略，验证文本字符串，与传统方法相比，提高了文本检测的准确性。
【IPC分类】G06K9-62
【公开号】CN104809481
【申请号】CN201510263154
【发明人】邹北骥, 吴慧, 郭建京, 赵于前
【申请人】中南大学
【公开日】2015年7月29日
【申请日】2015年5月21日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邹北骥;吴慧;郭建京;赵于前;
技术所有人：中南大学;
我是此专利的发明人

上一篇：一种基于个体学习的疲劳检测方法
上一篇：一种基于分类回归树和AdaBoost的眼底图像视网膜血管分割方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。