一种普适性的图像文字提取方法

文档序号:9261582阅读:413来源:国知局
一种普适性的图像文字提取方法
【技术领域】
[0001] 本发明设及计算机视觉领域,特别设及一种普适性的图像文字提取方法。
【背景技术】
[0002] 文字识别该项技术已经有几十年的历史了,从早期的光学字符识别(OCR)到当下 的移动设备采集的各种图像文字信息提取,该其中的算法与技术经过了革命性的改进与提 高。计算机视觉与机器学习的快速发展给文字识别技术带来了新的力量,对于传统的印刷 书籍、文献等扫描识别已经不是当下文字识别的主要任务,如何让计算机去理解互联网中 的大量图片、视频才是新的需求。
[0003] 经典的文字识别技术只针对通过扫描得到的背景简单、分辨率和对比度高的图像 有理想的识别率。但是,现实生活中有很多带有文字的场景,比如互联网上用户上传的广告 图片、网页截图,街道两边的广告牌,超市里的各种产品宣传广告等,想要获得该些处理种 类复杂图片中的文字,传统的OCR技术并不能得到满意的识别效果。
[0004] 现在互联网中的图片根据背景的复杂度大致可W分为两类:一类是背景简单,文 字排列规则的文本屏幕截图;另一类是含有文字信息的颜色较丰富的广告和宣传图片。该 两类图片分别对应着不同的图片文字二值化技术。对于第一类图片,因为图片的底色较为 单一,所W可W选择单一阔值就可W得到很好的二值化效果;对于第二类图片,图片的颜色 种类较多,单一阔值的二值化算法并不能提取所有文字区域,所W必须用基于颜色聚类的 方法来进行多阔值二值化。但问题的关键是该两类二值化算法都不能适用于另一类情况, 所W在实际应用中,在我们并不知道是哪类图像的前提下,没有有效的二值化解决方案。

【发明内容】

[0005] 本发明的目的在于提供一种普适性的图像文字提取方法,其能够对图像中的背景 复杂度进行评估,进而自动选择对应的二值化算法进行图像文字提取。
[0006] 为实现上述目的,本发明采用W下技术方案:
[0007] 一种普适性的图像文字提取方法,包括W下步骤:
[000引 S1、对图像进行颜色空间转化;
[0009] S2、对图像进行颜色降维;
[0010] S3、对降维后的图像进行颜色直方图统计;
[0011] S4、根据颜色直方图计算图像的颜色复杂度,并根据颜色复杂度对图像划定分 类;
[0012] S5、根据图像的颜色复杂度类别对原图像进行二值化处理。
[0013] 优选地,所述步骤S1包括W下分步骤:
[0014] S11、遍历图像中的每个像素点,将每个像素点的(R、G、B)颜色矢量转换为狂、Y、 幻颜色矢量,其转换公式如下:
[0015] X= 0. 412R+0. 358G+0. 180B
[0016]Y= 0. 213R+0. 715G+0. 072B
[0017]Z= 0. 019R+0. 119G+0. 950B
[001 引 X = X/(255X0. 95)
[0019]Y = Y/255
[0020] Z = Z/(255XL089)
[0021] S12、将每个像素点的狂、Y、幻颜色矢量转换为(L、a、b)颜色矢量,
[0022] 若 Y> 0. 008856,则:
[0023] fY =yi/3
[0024] fX =Xi/3
[0025] fZ =
[0026]L=116XfY-16
[0027] 若 Y< 0. 008856,则:
[002引 fY = 7. 787Y+16/116
[0029]fX = 7. 787X+16/116
[0030] fZ = 7. 787Z+16/116
[0031]L= 903. 3Y
[0032] a和b的计算公式如下:
[0033] a = 500(fX-fY)+128
[0034] b = 200(fY-f幻+128
[0035] S13、经过颜色空间转换后,原图像中的每个点的颜色用(L、a、b)矢量表示,其中L 的取值范围为[0, 100],a和b的取值范围为[-128, 127]。
[0036] 优选地,所述步骤S2通过W下方法实现:
[0037] 设图像坐标为(xu,y。)处的颜色矢量为(IwJaoJb。),通过下式计算颜色矢量 (II,la,Ib):
[00%]
[0041] 遍历图像中的每个像素点,得到降维后的图像。
[00创优选地,所述步骤S3包括W下分步骤:
[0043] S31、建立一个长度为512的数组H,用来统计每一种可能颜色出现的次数;
[0044]S32、遍历降维后的图像中的每个像素点,对于该像素点的L油颜色矢量(L、a、b), 通过下式计算其在直方图中水平坐标的位置P:
[0045] P= 64L+8a+b
[0046] S33、对于降维后的图像中的每个像素点,根据其颜色计算得到其在直方图中对应 位置后,将数组H中对应该序号的值加1 ;
[0047]S34、步骤S33完成后,得到一个512维的数组,数组中的元素值为0的,代表该种 颜色没有在图像中出现过,将该些位置从直方图中删除,然后得到的数组即为最终求得的 颜色直方图。
[0048] 优选地,所述步骤S4包括W下分步骤:
[0049]S41、计算每种颜色像素点在图像中出现的比例,对于每种颜色,设其在图像中出 现的频率大小为F,F通过下式计算得出:
[(K)加]
[0051] 其中,M、N分别为图像的宽和高,H(c)为该种颜色像素点的个数;
[0化2] S42、对于所有颜色来说,图像的颜色分布的信息滴为:
[0化3]
[0化4] 利用求得的颜色分布的信息滴来表示图像的复杂程度,图像越复杂,信息滴越大, 图像越简单,信息滴越小。
[005引 S43、计算阔值,对于一幅MXN的图像,可能出现最多的颜色种类为K= min{MXN,512}种,所W它的信息滴的最大可能取值为:
[0化6]
[0057] 544、若£>A.Em。,,则认定图像为复杂背景类别的图像,若E<A.Em。,,则认定 图像为简单背景类别的图像。
[0058] 优选地,所述步骤S5通过W分步骤实现:
[0化9] S51、对于简单背景类别的图像,采用单一的阔值进行二值化处理,进而进行文字 提取;
[0060] S52、对于复杂背景类别的图像,先对图像颜色进行聚类,提取几种主要的颜色,再 对每一种颜色计算一种阔值,从而相当于对图像进行多次二值化,进而在不同的二值化结 果上分别查找文本区域,进行文字提取。
[0061] 优选地,所述步骤S51通过W下步骤实现:
[0062] S511、将原图像由彩色图像转换为灰度图像;
[0063] S512、采用大津法计算图像的二值化阔值;
[0064] S513、遍历灰度图像,对图像中的所有像素点进行判断,若某个像素点的灰度值大 于或等于二值化阔值,则认为该像素点为文本像素点,如果某个像素点的灰度值小于二值 化阔值,则认为该像素点为背景像素点。
[00化]优选地,所述步骤S52通过W下步骤实现:
[0066] S521、根据步骤S41中求得的每种颜色在图像中出现的频率F,选取频率F超过 0. 2的颜色作为最初的聚类中屯、,记为:
[0067]C= {Ci,C2,…,Ck,…}
[0068] S522、建立聚类条件模型对直方图中的每一种颜色c都与聚类中屯、C中的颜色值 进行比较,判断颜色C是否满足W下条件:
[0069] d(Ci,c) < T
[0070]
[007U 若满足,则说明颜色c属于聚类中屯、。,否则则说明颜色c不属于聚类中屯、中的任 何一种颜色,并将颜色C加入到聚类中屯、C中;
[0072]S523、重复步骤S522直至聚类中屯、的颜色种类数不发生变化为止,获得最终的聚 类中屯、C;
[0073]S524、多阔值二值化,针对每个颜色聚类中屯、对图像进行二值化,对于颜色聚类中 屯、其对应的二值化图像町为;
[0074]
[0075]S525;对步骤S524中得到的多个二值化结果进行组合。
[0076] 优选地,所述
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1