文档图像识别方法

文档序号:9826397阅读:1215来源:国知局
文档图像识别方法
【技术领域】
[0001] 本发明涉及多媒体信息处理领域,具体地说,是涉及文档图像识别方法。
【背景技术】
[0002] 图像文件中有一类图像以文字、表格等为主要内容的,这些图像是记录在纸张上、 电子文档上的文字经过扫描、拍照、截图等方式转化而来的,这类图像通常被定义为文档图 像。随着互联网和多媒体技术的迅速发展,文档图像以其固有的优势,一方面能提供较大的 信息量,另一方面可以规避现有的采集、监测,越来越多的在互联网上呈现。
[0003] 为此,对文档图像的识别,挖掘其包含的信息、实现图像内容的监控和预警,是互 联网信息挖掘及互联网信息安全规范不可避免的道路。但文档图像通常和大量的非文档图 像混杂在一起,以人工方法将文档图像挑选出来,费时费力,且容易产生主观偏见,导致结 果不一致;另外有一些自动识别方法,利用文档图像与非文档图像在颜色与纹理上的差异 来识别,这些方法主要根据灰度值利用概率模型进行识别,对于彩色图像容易误识别,且需 要配置较多的经验参数;随着光学字符识别(OCR)的发展,基于OCR的文档图像识别逐渐受 重视,OCR识别虽然准确性高,但是效率比较低,无法满足海量数据时代的需求。
[0004] 为此,针对当前海量图像识别、监测、检索的实时性需求,本发明提出一种文档图 像识别方法,将单个文字看作是文档图像上的一个小区域,基于聚类的思想识别图像上的 连通区域,抽取每个区域上的形状特征、颜色特征,设计概率模型,实现文档图像的识别,以 解决当前海量图像识别时效率低、准确性不高的问题。

【发明内容】

[0005] 本发明要解决的技术问题是提供一种基于区域特征的文档图像识别方法,提高海 量图像处理的效率和准确性。
[0006] 为解决当前海量图像识别的准确性低、效率低的问题,本发明提供了一种文档图 像识别方法,该方法包括: S10,图像预处理,对图像进行去噪和二值化处理; S20,获取图像连通区域,抽取图像上所有连通区域; S30,连通区域特征抽取; S40,文档图像判别。
[0007] 更进一步,图像连通区域由像素点构成,可定义如下:对于像素点PlP Pxy,如果满 足i-Ι彡X彡i+Ι且j-Ι彡y彡j+Ι,则ΡιΡΡΧ?属于同一个连通区域。
[0008] 基于聚类思想,采用8连通准则,对图像上灰度为0和255的像素点分别聚类,获 取连通区域&={&,R 2,…,RJ,并统计连通区域个数记为Α。
[0009] 更进一步地,S30,连通区域特征主要从连通区域的形状特征、颜色特征层面抽取。
[0010] S301,疑似字符识别; 二值图像的区域填充率FR0U,定义为:区域像素点1占所有像素的比值。
[0011] 疑似字符SQ,定义为:区域长宽比AR0U小于一定阈值,且区域填充率在一定阈 值区间的连通区域。疑似字符集记为SC s,可判定如下:
其中,Ri e Rs,Υ、α、β为对应的阈值,满足条件的民即为疑似字符SCp SCs包含于 Rs。记图像中疑似字符集SCsS个数为B。
[0012] S302, 一致性字符发现; 一致性字符是指区域大小相似的疑似字符,区域大小可以通过区域面积来描述; 每个疑似字符在图像上实际是一块块区域,这些区域具有一定的面积值,记每一块区 域的面积值为SQ(S(;),这些面积值中一定存在一个或多个面积值,出现的次数最多,则该 次数记为C,这些面积值对应的区域即为一致性字符。
[0013] S303,真实字符判断; 通过疑似字符的前景色和背景色的色差来判断,其判别方法如下: δ 0 (SC,) + δ ! (SC,) ^ 0. 6*ABS (E〇 (SC,) -Ei (SC,)) 其中,EJSCJ和SJSCJ为疑似字符背景色的均值和方差,EJSQ)和SJSCJ为疑似 字符前景色的均值和方差。满足这个条件的疑似字符称为真实字符,其个数记为D。
[0014] 更进一步,S40,文档图像判别,本发明综合以上特征,设计概率模型来判别文档图 像,其判别方法如下: P=a1*Q?)+ a2*Q(C)+ a3*Q(D)+a4*B/A+a5*C/B+ a6*D/B 其中a2, ···,&(;为经验值,且81 + 82+…+ a6=l;(2)
概率值大于一定阈值即被识别为文档图像。
[0015] 本发明技术方案提供的文档图像识别方法,挖掘文档图像的区域形状特征、颜色 特征,设计文档图像判别概率模型,解决了 OCR文档图像识别效率低、常用识别方法识别准 确性不高的问题,为文档图像信息抽取提供了基础技术保障。
【附图说明】
[0016] 图1为本发明实施例提供的文档图像识别方法流程图。 具体实施方案
[0017] 为使本发明实施例的目的、技术方法、及优点更加清楚明白,以下结合附图对本发 明实施例提供的技术方案进行详细说明。
[0018] 如图1所示为本发明实施例提供的文档图像识别方法流程图。
[0019] S10,图像预处理 利用小波去噪法对图像进行去噪处理,保持图像细节,主要实现方式:对图像信号进行 小波分解;对经过层次分解后的高频系统进行阈值量化;利用二维小波重构图像信号。采 用基于局部均值自适应的二值化算法,以像素点局部区域的均值作为阈值,将图像上点的 灰度置为〇或255,实现图像的二值化。
[0020] S20,获取图像连通区域 图像的连通区域,可定义为:对于像素点PpPq,如果满足i-1 < X < i+Ι且 j-1彡y彡j+1,则ΡιΡΡΧ?属于同一个连通区域; 采用区域生长算法依次完成图像上灰度为0和255的像素点的聚类,获取图像上所有 连通区域札=取,R2,…,RJ,并统计联通区域个数记为Α。
[0021] S30,连通区域特征抽取 主要从连通区域的形状特征、颜色特征两个层面抽取特征。
[0022] S301,疑似字符识别 二值图像的区域填充率FR (民),定义为:区域像素点1占所有像素的比值; 疑似字符SQ,定义为:区域的长宽比AR0U小于一定阈值,填充率达在一定阈值区间 的连通区域。可判定如下:
其中,民e Rs,Υ、α、β为对应的阈值,一般Υ=2, α =〇· 1,β =〇· 9,满足条件的民即 为疑似字符SQ,SCs包含于Rs。记图像中疑似字符集SCs总个数为Β。
[0023] S302, 一致性字符发现 一致性字符是指区域大小相似的疑似字符,区域大小可以通过区域面积来描述; 计算疑似字符的区域面积,并统计每种面积的疑似字符数量,数量最多的区域面积对 应的疑似字符即为一致性字符,其个数为C。
[0024] S303,真实字符判断 通过疑似字符的前景色和背景色的色差来判断,其判别方法如下: δ 0 (SC,) + δ ! (SC,) ^ 0. 6*ABS (E〇 (SC,) -Ei (SC,)) 其中,EJSCJ和SJSCJ为疑似字符背景色的均值和方差,EJSQ)和SJSCJ为疑似 字符前景色的均值和方差。满足这个条件的疑似字符称为真实字符,其个数记为D。
[0025] S40,文档图像判别 综合以上多特征,设计概率模型,其判别方法如下: P=a1*Q?)+ a2*Q(C)+ a3*Q(D)+a4*B/A+a5*C/B+ a6*D/B 其中:(1)31,32,*",36为经验值,且3 1+32+*"+36=1,可取经验值为 {0. 2,0. 15,0. 1,0. 25,0. 2,0. 1} ;(2)
概率值大于一定阈值即被识别为文档图像,一般取P>〇. 5。
【主权项】
1. 文档图像识别方法,其特征在于,包括W下步骤: S10,图像预处理,对图像进行去噪和二值化处理; S20,获取图像连通区域,抽取图像上所有连通区域; S30,连通区域内特征抽取; S40,文档图像判别。2. 根据权利要求1所述的文档图像识别方法,其特征在于,图像连通区域是指,图像上 的像素点PiP Pq满足i-1《X《i+1且j-1《y《j+1,则Pii、Pq属于同一个连通区域。3. 根据权利要求1和权利要求2所述的文档图像识别方法,其特征在于,基于聚类的思 想,采用8连通准则,对图像上灰度为O和255的像素点分别聚类,获取连通区域,并统计连 通区域个数,记为A。4. 根据权利要求1所述的文档图像识别方法,其特征在于,从区域的形状特征、颜色特 征抽取连通区域特征,主要包括: S301,疑似字符识别; 疑似字符是指区域的长宽比小于一定阔值,填充率在一定阔值区间的连通区域,其中 填充率通过区域像素点1占所有像素的比值来描述; 5302, 一致性字符发现; 一致性字符是指区域大小相似的疑似字符,区域大小可W通过区域面积来描述,一致 性字符的总个数记为C ; 5303, 真实字符判断; 真实字符通过区域的前景色和背景色的色差来判定。5. 如权利要求1和权利要求4所述的文档图像识别方法,其特征在于,疑似字符识别方 法为:其中,氏为连通区域,AR(Ri)为区域长宽比,FR(Ri)为区域填充率,Y、a、目为对应的 阔值,满足条件的Ri即为疑似字符SCi,记图像中疑似字符集总个数为B。6. 如权利要求1和权利要求4所述的文档图像识别方法,其特征在于,真实字符的判定 方法为: 5。(SCi) + 5 1 (SCi)《0. 6*ABS (E〇 (SCi) -Ei (SCi)) 其中,Ee(SCi)和6 U(SCi)为疑似字符背景色的均值和方差,Ei (SCi)和Si(SCi)为疑似 字符前景色的均值和方差。7. 满足送个条件的疑似字符称为真实字符,其个数记为D。8. 如权利要求1所述的文档图像识别方法,其特征在于,文档图像判别概率模型设计 如下: P=ai*Q 度)+ 曰2*0(〇+ 曰3*0 值)+曰4 地/A+as*C/B+ ae*D/B 其中:(I ) a I,a 2,…,a 6为经验值,且a 1+ a 2 +…+ a 6 = I ;概率值大于一定阔值即被识别为文档图像。
【专利摘要】文档图像识别方法,包括图像预处理、获取图像连通区域、连通区域特征抽取、文档图像判别,图像连通区域的获取借助了聚类的思想,应用8连通准则,对灰度值为0和255的像素点分别聚类,准确识别连通区域。连通区域特征包括形状特征、颜色特征,主要分三种方式抽取,依次为疑似字符识别、一致性字符发现、真实字符判断,特征抽取简洁、复杂度低。实现了文档图像的准确、高效的识别,解决了文档图像识别性能低下的问题。
【IPC分类】G06K9/20, G06K9/00
【公开号】CN105590082
【申请号】CN201410563687
【发明人】施水才, 程涛
【申请人】北京拓尔思信息技术股份有限公司
【公开日】2016年5月18日
【申请日】2014年10月22日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1