一种基于自适应色彩聚类的自然场景文本检测的方法

文档序号:8488146阅读:306来源:国知局
一种基于自适应色彩聚类的自然场景文本检测的方法
【技术领域】
[0001] 本发明属于模式识别技术领域,涉及一种基于自适应色彩聚类的自然场景文本检 测方法。
【背景技术】
[0002] 随着手机和照相设备的普及,图像和视频的数量越来越多。这些图像和视频中包 含着许多的重要信息,如何提取和理解图像中的信息,显得尤为重要。文本是图像中最主 要、最直接的信息,提取和识别图像中的文本,能够辅助计算机理解图像内容。目前,印刷体 文本检测已经取得了巨大的进展,并且得到了广泛的应用。然而,自然场景图像中的文本, 由于其字体大小和样式的变化多端,同时受到光照、阴影、拍摄角度的影响,使得其检测效 果不佳。因此,自然场景文本检测仍是一项具有挑战性的工作。
[0003] 目前,已存在的自然场景文本检测方法可以分为两大类:基于滑动窗口和基于连 通区域的方法。基于滑动窗口的检测方法也称为基于区域的检测方法,其工作原理是:首 先,使用不同尺度的滑动窗口扫描原始图片,得到一系列的子区域;然后,提取子区域的纹 理特征,如梯度直方图、小波变换等;最后,使用提取的特征训练分类器,验证子区域,得到 最终检测文本。该方法通过多尺度滑动窗口提取子区域,其时间复杂度较高,并且使用手 工设计的特征验证子区域,使得其检测效果不佳。近年来,基于连通区域的文本检测方法 得到了相关学者的广泛关注。该方法主要包括3个步骤:1)通过像素点的色彩、笔画宽度 等特征,从图像中提取连通区域;2)分析连通区域的特征,通过字符合并规则,得到文本字 符串;3)验证字符串,移除非文字,得到最终文本检测结果。与基于滑动窗口的检测方法相 比,基于连通区域的检测方法拥有较高的准确率,并且其时间复杂度相对较低。
[0004] 由于自然场景图像中的文本变化多端,其背景也呈现出不同的复杂程度。因此,如 何从不同复杂程度的图像中,提取文本连通区域,并且合理移除非文本区域,是基于连通区 域文本检测方法的关键。

【发明内容】

[0005] 本发明提供了一种基于自适应色彩聚类的自然场景文本检测方法,其目的在于克 服现有技术中文本检测背景复杂时准确率不高的问题。
[0006] 一种基于自适应色彩聚类的自然场景文本检测方法,包括以下几个步骤:
[0007] 步骤1 :获取待进行文本检测图像I的边缘图像Ie;
[0008] 步骤2 :从待进行文本检测图像I中移除边缘图像Ie中的像素点,得到主色彩图像Im;
[0009] 步骤3 :初始化色彩聚类中心(y°(r),y°(g),y°(b));
[0010] 步骤3. 1,将主色彩图像Im中的像素点投影到三维色彩空间;
[0011] 步骤3. 2,设定步长S,将该三维色彩空间进行量化,得到(256/S)3个大小一致的 子立方体;
[0012] 步骤3. 3,计算每个子立方体中的像素点的个数,作为该子立方体的密度,并找出 密度最大的子立方体;
[0013] 步骤3. 4,计算密度最大的子立方体中所有像素点的色彩平均值,将该值作为初始 的色彩聚类中心(y°(r),y°(g),y°(b));
[0014] 步骤4 :更新色彩聚类中心;
[0015] 步骤4. 1,设置更新迭代次数t的初始值为0,第t次迭代得到的色彩聚类中心为 O1(r),y1(g),y1(b));
[0016] 步骤4. 2,计算主色彩图像1_"中的每个像素点p到初始色彩聚类中心的距离d。,像 素点P的R、G、B色彩通道值依次表示为pg及pb:
【主权项】
1. 一种基于自适应色彩聚类的自然场景文本检测方法,其特征在于,包括以下几个步 骤: 步骤1:获取待进行文本检测图像I的边缘图像Ie; 步骤2 :从待进行文本检测图像I中移除边缘图像中的像素点,得到主色彩图像Im; 步骤3:初始化色彩聚类中心(y°(r),y°(g),y°(b)); 步骤3. 1,将主色彩图像Im中的像素点投影到三维色彩空间; 步骤3. 2,设定步长S,将该三维色彩空间进行量化,得到(256/S)3个大小一致的子立 方体; 步骤3. 3,计算每个子立方体中的像素点的个数,作为该子立方体的密度,并找出密度 最大的子立方体; 步骤3. 4,计算密度最大的子立方体中所有像素点的色彩平均值,将该值作为初始的色 彩聚类中心U°(r),y°(g),y°(b)); 步骤4:更新色彩聚类中心; 步骤4. 1,设置更新迭代次数t的初始值为0,第t次迭代得到的色彩聚类中心为O1(r),y1(g),y1(b)); 步骤4. 2,计算主色彩图像1_"中的每个像素点p到初始色彩聚类中心的距离d。,像素点P的R、G、B色彩通道值依次表示为h、pg&pb:
步骤4. 3,找出主色彩图像Im中满足条件d。〈1的所有像素点,并计算满足条件的所有 像素点的色彩平均值,作为新的色彩聚类中心(yt+1(r),yt+1(g),yt+1(b)); 1表示色彩距离阈值,取值范围为[24,88]; 步骤 4.4,判断(VOO,i^g),yt(b))与(yt+1(r),yt+1(g),yt+1(b))是否相等,若相 等,则以(yt+1(r),yt+1(g),yt+1(b))作为最终的色彩聚类中心(y(r),y(g),y(b)),否 贝ij,令t=t+1,返回步骤4. 2,直到色彩聚类中心的取值不发生变化; 步骤5:构建色彩层图像; 步骤5.1,根据步骤4中得到最终的色彩聚类中心(y(r),y(g),y(b)),遍历IjPIe 中所有像素点,计算每个像素点q到色彩聚类中心(u(r),y(g),y(b))的距离d; 步骤5. 2,把满足条件d〈l的像素点q组成一张色彩层图像,表示为Q,其中,i代表第i次得到的色彩层图像,同时把这些像素点从ijPIe中移除,得到新的主色彩图像和边缘 图像;i的初始值取值为1 ; 步骤5. 3,步骤5. 2得到的新的主色彩图像,i=i+1,返回步骤3,直到步骤2所述 的主色彩图像1">中所有像素点都分配到对应的色彩层图像中,构建出所有色彩层图像
步骤6 :对所有的色彩层图像进行二值化处理,得到对应的二值化图像,并提取所有二 值化图像中的连通区域,组成连通区域集合CCs; 步骤7 :构建极限学习机分类器训练集; 首先,选取ICDAR2013数据库训练集中的图像作为训练样本,将训练样本中每幅图像 执行步骤1-6,得到连通区域集合CCs; 然后,将CCs中相邻的连通区域两两组成一对,如果一对中的2个连通区域在同一文本 字符串中且相邻,则视相邻的连通区域为正样本;如果一对中的2个连通区域都是文本,且 垂直重复率为0,即2个连通区域分布在2个不同的字符串中,或者一对中的2个连通区域, 其中有一个为非文本,则视相邻的连通区域为负样本; 从所有的正负样本中,随机选取10000个正样本和10000个负样本作为构建极限学习 机训练集; 步骤8 :用极限学习机分类器训练集中每个样本的特征向量训练分类器,得到邻域字 符模型; 所述每个样本的特征向量包括高度比Rh、平均笔画宽度比Rsw、垂直重叠率RV()1、水平间 距D和颜色相似度CS5个特征; 步骤9 :相邻字符合并; 对待进行文本检测图像I对应的连通区域集合CCs中的连通区域,按照从上到下、从左 至右的顺序进行编号标记,记为(CQ,CC2...CCn),n表示连通区域的个数; 利用步骤8得到的极限学习机分类器对(CQCC2. . .CCn)进行邻域字符分类,将相邻的 字符进行合并,得到文本字符串,完成文本检测。
2. 根据权利要求1所述的一种基于自适应色彩聚类的自然场景文本检测方法,其特征 在于,所述步骤9中利用步骤8得到的极限学习机分类器对(CQCC2. . .CCn)进行邻域字符 分类,将相邻的字符进行合并,具体过程如下: 步骤9. 1,选取编号最前的连通区域作为初始连通区域,表示为CQ,找出与CQ相邻的 连通区域,表示为CCK,将CQ和CCK作为一组测试样本; 步骤9. 2 :获取测试样本的特征向量; 步骤9. 3 :使用步骤8中训练好的极限学习机分类器,根据测试样本的5个样本特征, 判断CCjPCCK是否为邻域字符; 步骤9. 4 :如果CCjPCCK被判定为非邻域字符,把CQ作为字符串保存,并且从CCs中 删除CQ;如果CC^和CCK被判定为邻域字符,则把CC^和CCACCs中删除,并且把CC^和 CCK合并成一个连通区域,作为新的CC^ 然后,重新选取CQ的相邻连通区域CCK,得到新的测试样本,返回步骤9. 2,直到CCs集 合中没有连通区域为止,得到所有合并后的字符串。
3. 根据权利要求2所述的一种基于自适应色彩聚类的自然场景文本检测方法,其特征 在于,所述测试样本的特征向量包括高度比Rh、平均笔画宽度比Rsw、垂直重叠率RV()1、水平间 距D和颜色相似度CS按照以下计算公式计算:
其中,CQ为连通区域对中位于左边的连通区域,CCK为连通区域对中位于右边的连通 区域;V心分布代表cct和CCK的区域高度;sw^sw#布代表CCt和CCK的平均笔画宽度; Vuo心分布代表CCt和CCK之间的垂直重叠长度,水平距离长度;rpgpk分别为CCt的R、 G、B三通道的平均色彩值,rK、gK、bK分别为CC亦R、G、B三通道的平均色彩值。
4. 根据权利要求1-3任一项所述的一种基于自适应色彩聚类的自然场景文本检测方 法,其特征在于,使用训练好的卷积神经网络CNN,对步骤9中的文本字符串进行第一轮验 证,移除部分非文本,具体步骤如下: 步骤10. 1 :通过卷积神经网络CNN计算文本字符串的置信度,表示为Score ; 步骤10. 2 :根据置信度Score,将文本字符串分为3类:High、Middle和Low,其中具体 规则如下: High = {Score|Score>l. 4} Middle = {Score | 0. 6 Score 1. 4} Low = {Score|Score<0.6} 步骤10. 3 :将置信度Score属于Low类的,直接从候选文本中删除;将置信度Score属 于High类的,直接作为最终检测结果输出;将置信度Score属于Middle类的,作为待识别 的字符串。
5.根据权利要求4所述的一种基于自适应色彩聚类的自然场景文本检测方法,其特征 在于,使用支持向量机分类器对步骤10中待识别的字符串进行验证,得到优化后的检测结 果,具体过程为: 对于步骤10. 3中得到的,属于Middle类别的候选字符串,提取HOG特征,构建特征向 量,并采用训练好的支持向量机分类器进行字符串验证,移除非文本字符串,得到优化后的 检测结果; 所述支持向量机分类器的训练过程如下: 步骤11. 1 :选取ICDAR2013数据库训练集中的图像作为训练样本,对于训练集中的图 像,执行步骤1-10,得到候选字符串;对候选字符串分类,包含字符的作为正样本,否则,视 为负样本; 步骤11. 2 :对于步骤11. 1中的正负样本,提取其方向梯度直方图特征,构建特征向量, 训练支持向量机分类器。
【专利摘要】本发明提出了一种基于自适应色彩聚类的自然场景文本检测的方法,该方法首先提出自适应色彩聚类方案,对于不同复杂程度的图像,该方案能聚类得到不同数目的色彩层,有效提取文本连通区域;然后,通过训练极限学习机(ELM),构建邻域字符模型,合并形成字符串,提高了方法的鲁棒性;最后,为了进一步提高系统文本检测的性能,本方法采用卷积神经网络(CNN)和支持向量机(SVM)相结合的策略,验证文本字符串,与传统方法相比,提高了文本检测的准确性。
【IPC分类】G06K9-62
【公开号】CN104809481
【申请号】CN201510263154
【发明人】邹北骥, 吴慧, 郭建京, 赵于前
【申请人】中南大学
【公开日】2015年7月29日
【申请日】2015年5月21日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1