基于特征加权的朴素贝叶斯扫描证书图像分类方法

文档序号:8431199阅读:351来源:国知局
基于特征加权的朴素贝叶斯扫描证书图像分类方法
【技术领域】
[0001] 本发明涉及一种图像分类方法,特别涉及的是一种扫描证书图像分类方法。
【背景技术】
[0002] 最近几年来,图像检索是一个非常受欢迎的话题,其检索对象包括海里游的,在天 空中飞翔的及地上走的。图像分类是图像检索的一个预处理过程,可以有效提高图像检索 的准确性。尽管已有针对不同种类图像数据集的众多图像分类检索系统,但是扫描证书图 像分类检索方面则关注较少,而这些扫描证书图像往往是申请奖励或公司拓展的重要辅助 材料。为了保证这类证书图像的合法利用,避免同张证书被多次利用,在特殊的扫描证书 数据集里的扫描图像查重对于某些检索系统是非常重要的,这有点类似于文件的相似性检 查。目前适用于比较流行的基于内容的图像分类检索系统的图像特征有颜色、纹理、形状以 及空间位置关系,但扫描证书图像质量低,种类繁多,版面形式多样,既包含具有特定意义 的图像标志,同时又包含对于获奖情况的简明扼要描述,因此,仅仅利用现有算法要实现从 海量图像库中查找是否存在与待测证书相似的图像文件是有困难的。因此,我们就得具体 分析扫描图像的特征,选取能更好地表述证书图像特点的特征。如何借助计算机技术快速 准确对附件证明材料一扫描图像--进行相似性检测是国家科学技术奖励评审迫切需要解 决的问题。

【发明内容】

[0003] 本发明提供一种扫描证书图像分类方法,能对证书图像进行快速有效的分类,并 可以显著提高证书图像检索的准确率。
[0004] 为实现上述目的,本发明的技术方案如下:
[0005] -种基于特征加权的朴素贝叶斯扫描证书图像分类方法,包括如下步骤:
[0006] 步骤1 :建立一个扫描证书图像不同数据组合的似然概率索引;
[0007] 步骤2 :读取待分类扫描证书图像,进行预处理;
[0008] 步骤3 :对经过预处理的证书图像利用Hough变换进行圆章定位,得到圆章外接矩 形区域,提取圆章区域的HSV颜色特征向量;
[0009] 步骤4 :对HSV颜色特征向量显著特征项进行加权;
[0010] 步骤5 :计算并记录提取圆章区域的HSV颜色特征向量中不同数据组合出现的概 率;
[0011] 步骤6 :根据待分类图像的HSV颜色特征向量、每类扫描证书图像的先验概率及 训练过程得到的扫描证书图像不同数据组合的似然概率索引,利用朴素贝叶斯算法计算待 分类图像的分类情况,返回满足设定的阈值要求的扫描证书图像作为分类的结果。本发明 的有益效果是:本发明基于特征加权的朴素贝叶斯扫描证书图像分类方法,通过对经过预 处理的证书图像利用Hough变换进行圆章定位、分割、大小调整,提取圆章区域的HSV空间 的颜色特征向量及图像长宽比;建立证书图像数据库,对数据库中的每一幅证书图像按照 上述步骤进行处理,得到数据库中每幅扫描证书图像的圆章HSV颜色特征向量及图像长宽 比,根据得到的特征向量计算证书图像数据库中不同数据组合出现的概率,加权处理后保 存数据;根据朴素贝叶斯算法及证书图像数据库中不同数据组合出现的概率计算待分类图 像最有可能的图像类别,并且该概率满足设定的阈值要求的,判断图片的分类;通过本分类 方法,能简单快速地对证书图像进行分类,有效提高证书图像检索的效率。
【附图说明】
[0012] 图1为本发明实施例图像分类方法的流程图。
【具体实施方式】
[0013] 下面结合附图及实例,对本发明做进一步说明。
[0014] 参见图1,本实施例基于特征加权的朴素贝叶斯扫描证书图像分类方法含有以下 步骤:一种基于特征加权的朴素贝叶斯扫描证书图像分类方法,包括如下步骤:
[0015] A :输入待分类扫描证书图像,进行预处理;
[0016] B :对经过预处理的证书图像利用Hough变换进行圆章定位,得到圆章外接矩形区 域,提取圆章区域的HSV颜色特征向量;
[0017] C :对HSV颜色特征向量显著特征项进行加权;
[0018] D :计算并记录提取圆章区域的HSV颜色特征向量中不同数据组合出现的概率;
[0019] 证书图像数据库中的每一幅证书图像按照上述步骤A~D进行处理,计算并记录 数据库中每类扫描证书图像的先验概率和提取圆章区域的HSV颜色特征向量中不同数据 组合出现的概率,即建立一个扫描证书图像不同数据组合的似然概率索引;
[0020] E :根据待分类图像的HSV颜色特征向量、每类扫描证书图像的先验概率及训练过 程得到的扫描证书图像不同数据组合的似然概率索引,利用朴素贝叶斯算法计算待分类图 像的分类情况,返回满足设定的阈值要求的扫描证书图像作为分类的结果;
[0021] 本方法利用的朴素贝叶斯算法如下:
【主权项】
1. 一种基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征在于,包括如下步 骤: 步骤1 :建立一个扫描证书图像不同数据组合的似然概率索引; 步骤2 :读取待分类扫描证书图像,进行预处理; 步骤3 :对经过预处理的证书图像利用Hough变换进行圆章定位,得到圆章外接矩形区 域,提取圆章区域的HSV颜色特征向量; 步骤4 :对HSV颜色特征向量显著特征项进行加权; 步骤5 :计算并记录提取圆章区域的HSV颜色特征向量中不同数据组合出现的概率; 步骤6 :根据待分类图像的HSV颜色特征向量、每类扫描证书图像的先验概率及训练过 程得到的扫描证书图像不同数据组合的似然概率索引,利用朴素贝叶斯算法计算待分类图 像的分类情况,返回满足设定的阈值要求的扫描证书图像作为分类的结果。
2. 根据权利要求1所述的基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征 在于,步骤1建立扫描证书图像不同数据组合的似然概率索引是将证书图像数据库中的每 一幅证书图像按照步骤2至5进行处理而获得的。
3. 根据权利要求1所述的基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征 在于,所述步骤2中预处理是利用现有噪声滤除和倾斜校正方法。
4. 根据权利要求1所述的基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征 在于,所述步骤3的具体操作步骤如下: 1) 利用现有圆章定位的方法,对定位得到的圆章所在的外接矩形进行分割提取,得到 圆章区域; 2) 将色度H、饱和度S及亮度V三个分量分别非均匀量化为8份、4份和4份:
这样圆章区域的HSV空间被分成LH+LS+LV个区间,LH、L s、Lv分别是H、S及V的量化级 数,得到一个十六维的颜色特征向量,加上扫描图像图片长宽比,最终提取一个十七维特征 向量; 3) 提取的十七维特征用(LM,Lkl... Lkl6)表示,取值范围为[0,9]之间的整数。
5. 根据权利要求1所述的基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征 在于,所述步骤4对特征向量显著特征项进行加权的具体操作步骤为:采用标准差来衡量 图像特征权重,W i= Iw k。,Wkl. .. WklfJ表示特征向量的权重,样本集中类别为j的第i维的标 准差Qi,其计算公式为: Iij为j类样本数,L ki为图像类别为j的第k个样本的第i维特征值,$为该维特征的 平均值,用ei表示特征重要性,e [〇, 1]为公式
从而得到每个样本每维特征
加权的计算方法关 〇
6. 根据权利要求1所述的基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征 在于,所述步骤5计算并记录提取圆章区域的特征向量中不同数据组合出现的概率的具体 操作步骤为:统计特征向量中不同数据出现的概率;得到的概率值乘以步骤4中计算出的 权重,作为不同数据组合出现的概率保存。
7. 根据权利要求1所述的基于特征加权的朴素贝叶斯扫描证书图像分类方法,其特征 在于,所述步骤6具体为:根据步骤5中得到的不同数据组合出现的概率和朴素贝叶斯算 法,计算待分类证书图像为每类图像的概率;得到证书为每一类的概率,并且最大值大于阈 值,则判断证书为概率最大的类别,阈值设定为〇. 048。
【专利摘要】本发明公开一种基于特征加权的朴素贝叶斯扫描证书图像分类方法,通过对经过预处理的证书图像利用Hough变换进行圆章定位、分割、大小调整,提取圆章区域的HSV空间的颜色特征向量及图像长宽比;建立证书图像数据库,对数据库中的每一幅证书图像按照上述步骤进行处理,得到数据库中每幅扫描证书图像的圆章HSV颜色特征向量及图像长宽比,根据得到的特征向量计算证书图像数据库中不同数据组合出现的概率,加权处理后保存数据;根据朴素贝叶斯算法及证书图像数据库中不同数据组合出现的概率计算待分类图像最有可能的图像类别,并且该概率满足设定的阈值要求的,判断图片的分类;本方法能简单快速地对证书图像分类,提高证书图像检索的效率。
【IPC分类】G06K9-62
【公开号】CN104751171
【申请号】CN201510100700
【发明人】龙军, 祝莉媛, 张昊, 刘献如
【申请人】中南大学
【公开日】2015年7月1日
【申请日】2015年3月9日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1