文档图像识别方法

文档序号：9826397阅读：1215来源：国知局

文档图像识别方法
【技术领域】
[0001] 本发明涉及多媒体信息处理领域，具体地说，是涉及文档图像识别方法。
【背景技术】
[0002] 图像文件中有一类图像以文字、表格等为主要内容的，这些图像是记录在纸张上、电子文档上的文字经过扫描、拍照、截图等方式转化而来的，这类图像通常被定义为文档图像。随着互联网和多媒体技术的迅速发展，文档图像以其固有的优势，一方面能提供较大的信息量，另一方面可以规避现有的采集、监测，越来越多的在互联网上呈现。
[0003] 为此，对文档图像的识别，挖掘其包含的信息、实现图像内容的监控和预警，是互联网信息挖掘及互联网信息安全规范不可避免的道路。但文档图像通常和大量的非文档图像混杂在一起，以人工方法将文档图像挑选出来，费时费力，且容易产生主观偏见，导致结果不一致；另外有一些自动识别方法，利用文档图像与非文档图像在颜色与纹理上的差异来识别，这些方法主要根据灰度值利用概率模型进行识别，对于彩色图像容易误识别，且需要配置较多的经验参数；随着光学字符识别（OCR)的发展，基于OCR的文档图像识别逐渐受重视，OCR识别虽然准确性高，但是效率比较低，无法满足海量数据时代的需求。
[0004] 为此，针对当前海量图像识别、监测、检索的实时性需求，本发明提出一种文档图像识别方法，将单个文字看作是文档图像上的一个小区域，基于聚类的思想识别图像上的连通区域，抽取每个区域上的形状特征、颜色特征，设计概率模型，实现文档图像的识别，以解决当前海量图像识别时效率低、准确性不高的问题。

【发明内容】

[0005] 本发明要解决的技术问题是提供一种基于区域特征的文档图像识别方法，提高海量图像处理的效率和准确性。
[0006] 为解决当前海量图像识别的准确性低、效率低的问题，本发明提供了一种文档图像识别方法，该方法包括： S10,图像预处理，对图像进行去噪和二值化处理； S20,获取图像连通区域，抽取图像上所有连通区域； S30,连通区域特征抽取； S40,文档图像判别。
[0007] 更进一步，图像连通区域由像素点构成，可定义如下：对于像素点PlP Pxy，如果满足i-Ι彡X彡i+Ι且j-Ι彡y彡j+Ι，则ΡιΡΡΧ?属于同一个连通区域。
[0008] 基于聚类思想，采用8连通准则，对图像上灰度为0和255的像素点分别聚类，获取连通区域&={&，R 2，…，RJ，并统计连通区域个数记为Α。
[0009] 更进一步地，S30,连通区域特征主要从连通区域的形状特征、颜色特征层面抽取。
[0010] S301，疑似字符识别；二值图像的区域填充率FR0U，定义为：区域像素点1占所有像素的比值。
[0011] 疑似字符SQ，定义为：区域长宽比AR0U小于一定阈值，且区域填充率在一定阈值区间的连通区域。疑似字符集记为SC s，可判定如下：
其中，Ri e Rs，Υ、α、β为对应的阈值，满足条件的民即为疑似字符SCp SCs包含于 Rs。记图像中疑似字符集SCsS个数为B。
[0012] S302, 一致性字符发现；一致性字符是指区域大小相似的疑似字符，区域大小可以通过区域面积来描述；每个疑似字符在图像上实际是一块块区域，这些区域具有一定的面积值，记每一块区域的面积值为SQ(S(；)，这些面积值中一定存在一个或多个面积值，出现的次数最多，则该次数记为C，这些面积值对应的区域即为一致性字符。
[0013] S303,真实字符判断；通过疑似字符的前景色和背景色的色差来判断，其判别方法如下： δ 0 (SC,) + δ ! (SC,) ^ 0. 6*ABS (E〇 (SC,) -Ei (SC,)) 其中，EJSCJ和SJSCJ为疑似字符背景色的均值和方差，EJSQ)和SJSCJ为疑似字符前景色的均值和方差。满足这个条件的疑似字符称为真实字符，其个数记为D。
[0014] 更进一步，S40,文档图像判别，本发明综合以上特征，设计概率模型来判别文档图像，其判别方法如下： P=a1*Q?)+ a2*Q(C)+ a3*Q(D)+a4*B/A+a5*C/B+ a6*D/B 其中a2, ···，&(；为经验值，且81 + 82+…+ a6=l;(2)
概率值大于一定阈值即被识别为文档图像。
[0015] 本发明技术方案提供的文档图像识别方法，挖掘文档图像的区域形状特征、颜色特征，设计文档图像判别概率模型，解决了 OCR文档图像识别效率低、常用识别方法识别准确性不高的问题，为文档图像信息抽取提供了基础技术保障。
【附图说明】
[0016] 图1为本发明实施例提供的文档图像识别方法流程图。具体实施方案
[0017] 为使本发明实施例的目的、技术方法、及优点更加清楚明白，以下结合附图对本发明实施例提供的技术方案进行详细说明。
[0018] 如图1所示为本发明实施例提供的文档图像识别方法流程图。
[0019] S10,图像预处理利用小波去噪法对图像进行去噪处理，保持图像细节，主要实现方式：对图像信号进行小波分解；对经过层次分解后的高频系统进行阈值量化；利用二维小波重构图像信号。采用基于局部均值自适应的二值化算法，以像素点局部区域的均值作为阈值，将图像上点的灰度置为〇或255,实现图像的二值化。
[0020] S20,获取图像连通区域图像的连通区域，可定义为：对于像素点PpPq，如果满足i-1 < X < i+Ι且 j-1彡y彡j+1，则ΡιΡΡΧ?属于同一个连通区域；采用区域生长算法依次完成图像上灰度为0和255的像素点的聚类，获取图像上所有连通区域札=取，R2，…，RJ，并统计联通区域个数记为Α。
[0021] S30,连通区域特征抽取主要从连通区域的形状特征、颜色特征两个层面抽取特征。
[0022] S301，疑似字符识别二值图像的区域填充率FR (民），定义为：区域像素点1占所有像素的比值；疑似字符SQ，定义为：区域的长宽比AR0U小于一定阈值，填充率达在一定阈值区间的连通区域。可判定如下：
其中，民e Rs，Υ、α、β为对应的阈值，一般Υ=2, α =〇· 1，β =〇· 9,满足条件的民即为疑似字符SQ，SCs包含于Rs。记图像中疑似字符集SCs总个数为Β。
[0023] S302, 一致性字符发现一致性字符是指区域大小相似的疑似字符，区域大小可以通过区域面积来描述；计算疑似字符的区域面积，并统计每种面积的疑似字符数量，数量最多的区域面积对应的疑似字符即为一致性字符，其个数为C。
[0024] S303,真实字符判断通过疑似字符的前景色和背景色的色差来判断，其判别方法如下： δ 0 (SC,) + δ ! (SC,) ^ 0. 6*ABS (E〇 (SC,) -Ei (SC,)) 其中，EJSCJ和SJSCJ为疑似字符背景色的均值和方差，EJSQ)和SJSCJ为疑似字符前景色的均值和方差。满足这个条件的疑似字符称为真实字符，其个数记为D。
[0025] S40,文档图像判别综合以上多特征，设计概率模型，其判别方法如下： P=a1*Q?)+ a2*Q(C)+ a3*Q(D)+a4*B/A+a5*C/B+ a6*D/B 其中：（1)31，32，*"，36为经验值，且3 1+32+*"+36=1,可取经验值为 {0. 2,0. 15,0. 1,0. 25,0. 2,0. 1} ；(2)
概率值大于一定阈值即被识别为文档图像，一般取P>〇. 5。
【主权项】
1. 文档图像识别方法，其特征在于，包括W下步骤： S10,图像预处理，对图像进行去噪和二值化处理； S20,获取图像连通区域，抽取图像上所有连通区域； S30,连通区域内特征抽取； S40,文档图像判别。2. 根据权利要求1所述的文档图像识别方法，其特征在于，图像连通区域是指，图像上的像素点PiP Pq满足i-1《X《i+1且j-1《y《j+1，则Pii、Pq属于同一个连通区域。3. 根据权利要求1和权利要求2所述的文档图像识别方法，其特征在于，基于聚类的思想，采用8连通准则，对图像上灰度为O和255的像素点分别聚类，获取连通区域，并统计连通区域个数，记为A。4. 根据权利要求1所述的文档图像识别方法，其特征在于，从区域的形状特征、颜色特征抽取连通区域特征，主要包括： S301，疑似字符识别；疑似字符是指区域的长宽比小于一定阔值，填充率在一定阔值区间的连通区域，其中填充率通过区域像素点1占所有像素的比值来描述； 5302, 一致性字符发现；一致性字符是指区域大小相似的疑似字符，区域大小可W通过区域面积来描述，一致性字符的总个数记为C ; 5303, 真实字符判断；真实字符通过区域的前景色和背景色的色差来判定。5. 如权利要求1和权利要求4所述的文档图像识别方法，其特征在于，疑似字符识别方法为：其中，氏为连通区域，AR(Ri)为区域长宽比，FR(Ri)为区域填充率，Y、a、目为对应的阔值，满足条件的Ri即为疑似字符SCi,记图像中疑似字符集总个数为B。6. 如权利要求1和权利要求4所述的文档图像识别方法，其特征在于，真实字符的判定方法为： 5。（SCi) + 5 1 (SCi)《0. 6*ABS (E〇 (SCi) -Ei (SCi)) 其中，Ee(SCi)和6 U(SCi)为疑似字符背景色的均值和方差，Ei (SCi)和Si(SCi)为疑似字符前景色的均值和方差。7. 满足送个条件的疑似字符称为真实字符，其个数记为D。8. 如权利要求1所述的文档图像识别方法，其特征在于，文档图像判别概率模型设计如下： P=ai*Q 度）+ 曰2*0(〇+ 曰3*0 值）+曰4 地/A+as*C/B+ ae*D/B 其中：（I ) a I，a 2，…，a 6为经验值，且a 1+ a 2 +…+ a 6 = I ;概率值大于一定阔值即被识别为文档图像。
【专利摘要】文档图像识别方法，包括图像预处理、获取图像连通区域、连通区域特征抽取、文档图像判别，图像连通区域的获取借助了聚类的思想，应用8连通准则，对灰度值为0和255的像素点分别聚类，准确识别连通区域。连通区域特征包括形状特征、颜色特征，主要分三种方式抽取，依次为疑似字符识别、一致性字符发现、真实字符判断，特征抽取简洁、复杂度低。实现了文档图像的准确、高效的识别，解决了文档图像识别性能低下的问题。
【IPC分类】G06K9/20, G06K9/00
【公开号】CN105590082
【申请号】CN201410563687
【发明人】施水才, 程涛
【申请人】北京拓尔思信息技术股份有限公司
【公开日】2016年5月18日
【申请日】2014年10月22日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：施水才;程涛;
技术所有人：北京拓尔思信息技术股份有限公司;
我是此专利的发明人

上一篇：光电式指纹辨识装置的制造方法
上一篇：一种射频识别标签读取系统、读写设备及读取方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。