一种普适性的图像文字提取方法

文档序号：9261582阅读：413来源：国知局

一种普适性的图像文字提取方法
【技术领域】
[0001] 本发明设及计算机视觉领域，特别设及一种普适性的图像文字提取方法。
【背景技术】
[0002] 文字识别该项技术已经有几十年的历史了，从早期的光学字符识别（OCR)到当下的移动设备采集的各种图像文字信息提取，该其中的算法与技术经过了革命性的改进与提高。计算机视觉与机器学习的快速发展给文字识别技术带来了新的力量，对于传统的印刷书籍、文献等扫描识别已经不是当下文字识别的主要任务，如何让计算机去理解互联网中的大量图片、视频才是新的需求。
[0003] 经典的文字识别技术只针对通过扫描得到的背景简单、分辨率和对比度高的图像有理想的识别率。但是，现实生活中有很多带有文字的场景，比如互联网上用户上传的广告图片、网页截图，街道两边的广告牌，超市里的各种产品宣传广告等，想要获得该些处理种类复杂图片中的文字，传统的OCR技术并不能得到满意的识别效果。
[0004] 现在互联网中的图片根据背景的复杂度大致可W分为两类：一类是背景简单，文字排列规则的文本屏幕截图；另一类是含有文字信息的颜色较丰富的广告和宣传图片。该两类图片分别对应着不同的图片文字二值化技术。对于第一类图片，因为图片的底色较为单一，所W可W选择单一阔值就可W得到很好的二值化效果；对于第二类图片，图片的颜色种类较多，单一阔值的二值化算法并不能提取所有文字区域，所W必须用基于颜色聚类的方法来进行多阔值二值化。但问题的关键是该两类二值化算法都不能适用于另一类情况，所W在实际应用中，在我们并不知道是哪类图像的前提下，没有有效的二值化解决方案。

【发明内容】

[0005] 本发明的目的在于提供一种普适性的图像文字提取方法，其能够对图像中的背景复杂度进行评估，进而自动选择对应的二值化算法进行图像文字提取。
[0006] 为实现上述目的，本发明采用W下技术方案：
[0007] 一种普适性的图像文字提取方法，包括W下步骤：
[000引 S1、对图像进行颜色空间转化；
[0009] S2、对图像进行颜色降维；
[0010] S3、对降维后的图像进行颜色直方图统计；
[0011] S4、根据颜色直方图计算图像的颜色复杂度，并根据颜色复杂度对图像划定分类；
[0012] S5、根据图像的颜色复杂度类别对原图像进行二值化处理。
[0013] 优选地，所述步骤S1包括W下分步骤：
[0014] S11、遍历图像中的每个像素点，将每个像素点的（R、G、B)颜色矢量转换为狂、Y、幻颜色矢量，其转换公式如下：
[0015] X= 0. 412R+0. 358G+0. 180B
[0016]Y= 0. 213R+0. 715G+0. 072B
[0017]Z= 0. 019R+0. 119G+0. 950B
[001 引 X = X/(255X0. 95)
[0019]Y = Y/255
[0020] Z = Z/(255XL089)
[0021] S12、将每个像素点的狂、Y、幻颜色矢量转换为（L、a、b)颜色矢量，
[0022] 若 Y> 0. 008856,则：
[0023] fY =yi/3
[0024] fX =Xi/3
[0025] fZ =
[0026]L=116XfY-16
[0027] 若 Y< 0. 008856,则：
[002引 fY = 7. 787Y+16/116
[0029]fX = 7. 787X+16/116
[0030] fZ = 7. 787Z+16/116
[0031]L= 903. 3Y
[0032] a和b的计算公式如下：
[0033] a = 500(fX-fY)+128
[0034] b = 200(fY-f幻+128
[0035] S13、经过颜色空间转换后，原图像中的每个点的颜色用（L、a、b)矢量表示，其中L 的取值范围为[0, 100]，a和b的取值范围为[-128, 127]。
[0036] 优选地，所述步骤S2通过W下方法实现：
[0037] 设图像坐标为（xu，y。）处的颜色矢量为（IwJaoJb。)，通过下式计算颜色矢量 (II，la，Ib)：
[00%]
[0041] 遍历图像中的每个像素点，得到降维后的图像。
[00创优选地，所述步骤S3包括W下分步骤：
[0043] S31、建立一个长度为512的数组H，用来统计每一种可能颜色出现的次数；
[0044]S32、遍历降维后的图像中的每个像素点，对于该像素点的L油颜色矢量（L、a、b)，通过下式计算其在直方图中水平坐标的位置P:
[0045] P= 64L+8a+b
[0046] S33、对于降维后的图像中的每个像素点，根据其颜色计算得到其在直方图中对应位置后，将数组H中对应该序号的值加1 ;
[0047]S34、步骤S33完成后，得到一个512维的数组，数组中的元素值为0的，代表该种颜色没有在图像中出现过，将该些位置从直方图中删除，然后得到的数组即为最终求得的颜色直方图。
[0048] 优选地，所述步骤S4包括W下分步骤：
[0049]S41、计算每种颜色像素点在图像中出现的比例，对于每种颜色，设其在图像中出现的频率大小为F，F通过下式计算得出：
[(K)加]
[0051] 其中，M、N分别为图像的宽和高，H(c)为该种颜色像素点的个数；
[0化2] S42、对于所有颜色来说，图像的颜色分布的信息滴为：
[0化3]
[0化4] 利用求得的颜色分布的信息滴来表示图像的复杂程度，图像越复杂，信息滴越大，图像越简单，信息滴越小。
[005引 S43、计算阔值，对于一幅MXN的图像，可能出现最多的颜色种类为K= min{MXN，512}种，所W它的信息滴的最大可能取值为：
[0化6]
[0057] 544、若￡>A.Em。,，则认定图像为复杂背景类别的图像，若E<A.Em。,，则认定图像为简单背景类别的图像。
[0058] 优选地，所述步骤S5通过W分步骤实现：
[0化9] S51、对于简单背景类别的图像，采用单一的阔值进行二值化处理，进而进行文字提取；
[0060] S52、对于复杂背景类别的图像，先对图像颜色进行聚类，提取几种主要的颜色，再对每一种颜色计算一种阔值，从而相当于对图像进行多次二值化，进而在不同的二值化结果上分别查找文本区域，进行文字提取。
[0061] 优选地，所述步骤S51通过W下步骤实现：
[0062] S511、将原图像由彩色图像转换为灰度图像；
[0063] S512、采用大津法计算图像的二值化阔值；
[0064] S513、遍历灰度图像，对图像中的所有像素点进行判断，若某个像素点的灰度值大于或等于二值化阔值，则认为该像素点为文本像素点，如果某个像素点的灰度值小于二值化阔值，则认为该像素点为背景像素点。
[00化]优选地，所述步骤S52通过W下步骤实现：
[0066] S521、根据步骤S41中求得的每种颜色在图像中出现的频率F，选取频率F超过 0. 2的颜色作为最初的聚类中屯、，记为：
[0067]C= {Ci，C2,…，Ck，…}
[0068] S522、建立聚类条件模型对直方图中的每一种颜色c都与聚类中屯、C中的颜色值进行比较，判断颜色C是否满足W下条件：
[0069] d(Ci，c) < T
[0070]
[007U 若满足，则说明颜色c属于聚类中屯、。，否则则说明颜色c不属于聚类中屯、中的任何一种颜色，并将颜色C加入到聚类中屯、C中；
[0072]S523、重复步骤S522直至聚类中屯、的颜色种类数不发生变化为止，获得最终的聚类中屯、C;
[0073]S524、多阔值二值化，针对每个颜色聚类中屯、对图像进行二值化，对于颜色聚类中屯、其对应的二值化图像町为；
[0074]
[0075]S525;对步骤S524中得到的多个二值化结果进行组合。
[0076] 优选地，所述

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑海舟;
技术所有人：厦门翼歌软件科技有限公司;
我是此专利的发明人

上一篇：一种图片处理方法及终端的制作方法
上一篇：一种生理特征数据处理方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。