图像识别技术的制作方法

文档序号:10656043阅读:332来源:国知局
图像识别技术的制作方法
【专利摘要】本发明公开了一种图像识别技术,其中,包括:采集图像信息;对图像信息进行分析,对图像信息进行归类;将图像分析的结果、获取的归类信息与信息库中原型模板进行模型匹配,完成模式空间到类别空间的转换,输出匹配结果类别。本发明在图像匹配中,比较不同图像颜色集之间的距离和色彩区域的空间关系(包括区域的分离、包含、交等,每种对应于不同得评分),因为颜色集表达为二进制的特征向量,可以构造二分查找树来加快检索速度,这对于大规模的图像集合十分有利。
【专利说明】
图像识别技术
技术领域
[0001] 本发明设及一种图像识别技术,尤其设及一种用W确定图像信息类别场景的图像 识别技术。
【背景技术】
[0002] 图像识别,是指利用计算机对图像进行处理、分析和理解,W识别各种不同模式的 目标和对像的技术。
[0003] 自动图像识别系统的过程分为五部分:图像输入、图像处理、特征提取、分类和匹 配,图像输入一般通过摄像头、扫描设备输入,图像处理和特征提取通过数字图像处理技术 (Digital Image Processing)实现,即通过计算机对图像进行去除噪声、增强、复原、分割、 提取特征等处理的方法和技术,分类和匹配即图像配准,采用基于灰度信息的图像配准方 法,运种方法一般不需要对图像进行复杂的预先处理,而是利用图像本身具有灰度的一些 统计信息来度量图像的相似程度。
[0004] 基于灰度信息的图像配准方法主要特点是实现简单,但应用范围较窄,不能直接 用于校正图像的非线性形变,在最优变换的捜索过程中往往需要巨大的运算量,此方法大 致可W分为=类:互相关法(也称模板匹配法)、序贯相似度检测匹配法、交互信息法。图像 分类基于特征提取的haar-l化6特征。
[0005] 特征提取时,颜色作为一种重要的视觉信息属性,是图像信息中很重要的的一种 特征,颜色特征对于旋转、平移、尺度变化等各种变形都不敏感,表现出相当强的鲁棒性,但 对颜色特征取样有多种格式,将其转化为便于分析处理的数据难易程度,方便性都有很大 区别。
[0006] 形状特征受各种形变的影响很大,极易受到噪声干扰,保持在一个较小误差下提 取纹理特征的算法模型就很重要,为了减小噪声干扰,合适的降噪处理必不可少。
[0007] 颜色特征、纹理特征、形状特征运=种低层特征提取是图像分析的基础,基于语义 层次的高层特征提取需要根据低层特征提取的结果训练出分类器,如何设计低层特征提取 与高层语义关联是本说明书说明的图像识别技术的重点技术问题。

【发明内容】

[000引本发明公开了一种图像识别技术,用W解决如何设计低层特征提取与高层语义关 联是本说明书说明的图像识别技术的重点技术问题。
[0009] 本发明的上述目的是通过W下技术方案实现的: 一种图像识别技术,其中,包括:采集图像信息;对图像信息进行分析,对图像信息进行 归类;将图像分析的结果、获取的归类信息与信息库中原型模板进行模型匹配,完成模式空 间到类别空间的转换,输出匹配结果类别。
[0010] 如上所述的图像识另版术,其中,采集图像信息包括:采用YUV411格式的亮度(Y)、 色度(C)取样方式对WPAL制分割的目标图像进行取样,利用离散余弦变换编码获取频谱, 采集图像的目标信息。
[0011] 如上所述的图像识别技术,其中,对图像信息进行归类包括:通过同步自回归模型 提取纹理特征;自回归模型的模型参数采用平方误差估计法来估计,模型参数加权实现粗 分割,再利用DB小波对纹理图像进行小波变换,提取小波系数最为纹理图像的特征实现细 分割,小波变换为3级小波变换。
[0012] 如上所述的图像识别技术,其中,对图像进行物体与场景进行识别,用模式识别的 方法通过具有明显的haar特征的灰度图像模式识获取分类器,通过分类器计算目标图像 haar特征,对图像haar特征进行加权,并对加权后的haar特征与分类器相应级阔值比较筛 选获取类别信息;分类器采用级联,每级都W相同识别率保留进入下一级的具体物体特征, 每级的子分类器则由多个haar特征构成并保存位置,每级特征带一个阔值和2个分支值,每 级子分类器具有一个总阔值。
[OOU]如上所述的图像识别技术,其中,haar特征包括:边界特性、线特性、中屯、特性,线 特性包括:线性特征、对角线特征,将线性特征、对角线特征组合成特征模板,特征模板内具 有白色和黑色两种矩形,定义特征模板的特征值为白色矩形像素和减去黑色矩形像素之 和。
[0014] 如上所述的图像识别技术,其中,对图像进行人脸识别,通过分类器提取人脸图像 的haar特征,通过若分类器对是否为人脸进行判定,如果不是则退出人脸识别;如果是,采 用积分图计算获取灰度人脸图像,使用AdaBoost算法获取的强分类器进行分级匹配,获取 识别的人脸的性别、年龄。
[0015] 如上所述的图像识别技术,其中,对场景进行识别包括:采用低层建模方法化^- Level ModeIling)和语义建模方法(SemantiC Modelling),低层建模方法通过计算图像颜 色、纹理的低层特征经SVM(Suppo;rt Vector Machine)、K-順化-nearestneiglibor)分类算 法获取出场景的高层语义信息,语义建模方法用于改善基于低层特征建模方法的分类性 能,解决低层特征与高层特征之间的推算误差问题,用作于场景分类的中间表示方法,其中 SVM和K-NN分类算法用于降维,且不损失分类性能。
[0016] 如上所述的图像识别技术,其中,底层建模方法还包括:全局方法和子块方法,其 中全局方法特征是通过计算整幅图像的低层特征来描述场景,采用全局的低层特征为每幅 图像分配一组具有相应置信度的语义类标,其中子块方法特征是先将图像划分为多个子区 域,然后分别提取每个子区域的低层特征,在针对各子区域采用整合方式进行综合分类。
[0017] 如上所述的图像识别技术,其中,语义目标包括:对图像初始分割处理图像中不同 区域,将分割区域标记为已知目标种类,使用运些局部信息对整个场景分类;语义概念包 括:利用在关键点周围的局部描述子所携带的中层信息表示图像的语义类别;语义属性包 括:不需对图像进行分割,也不需对局部目标进行处理,模型基于一种低维的场景表示一一 空域包络(Spatial化velope),其包括五类属性分别是自然度、开发度、粗糖度、展开度和 崎帳度,每类属性对应于空域包络中的一维,所有特征维的组合表示一副场景的主要空域 结构。
[0018] 如上所述的图像识别技术,其中,将文字灰度转换成电信号,利用图像信息采集方 法采集信息特征,通过低通滤波器对信息特征去噪后进行原型匹配输出类别,低通滤波器 采用FIR型低通滤波器。
[0019] 综上所述,由于采用了上述技术方案,本发明解决了现有技术中如何设计低层特 征提取与高层语义关联是本说明书说明的图像识别技术的重点技术问题,本发明在图像匹 配中,比较不同图像颜色集之间的距离和色彩区域的空间关系(包括区域的分离、包含、交 等,每种对应于不同得评分),因为颜色集表达为二进制的特征向量,可W构造二分查找树 来加快检索速度,运对于大规模的图像集合十分有利。
[0020]
【附图说明】
[0021] 图1是本发明图像识别技术的离散余弦变换(DCT)频域图; 图2是本发明图像识别技术的化ar-1 Ae特征示第一意图; 图3是本发明图像识别技术的积分图; 图4是本发明图像识别技术的化ar-1 Ae特征示第二意图; 图5是本发明图像识别技术的弱分类器的二叉决策树示意图; 图6是本发明图像识别技术的级联强分类器的窗口图像栓选决策示意图。
【具体实施方式】
[0022] 下面结合附图和实施例对本发明做进一步描述: 一种图像识别技术,其中,包括:采集图像信息;对图像信息进行分析,对图像信息进行 归类;将图像分析的结果、获取的归类信息与信息库中原型模板进行模型匹配,完成模式空 间到类别空间的转换,输出匹配结果类别。
[0023] 图1是本发明图像识别技术的离散余弦变换(DCT)频域图,请参见图1,采集图像信 息包括:采用YUV411格式的亮度(Y)、色度(C)取样方式对WPAL制分割的目标图像进行取 样,利用离散余弦变换(DCT)编码获取频谱,采集图像的目标信息。
[0024] 具体的,在本发明的一个实施例中,本发明可W包括:由于许多要处理的信号都是 实信号,在使用DFT时由于傅里叶变换时由于实信号傅立叶变换的共辆对称性导致DFT后在 频域中有一半的数据冗余。离散余弦变换化CT)是对实信号定义的一种变换,变换后在频域 中得到的也是一个实信号,相比DFT而言,DCT可W减少一半W上的计算。DCT还有一个很重 要的性质(能量集中特性):大多书自然信号(声音、图像)的能量都集中在离散余弦变换后 的低频部分,因而DCT在(声音、图像)数据压缩中得到了广泛的使用。由于DCT是从DFT推导 出来的另一种变换,因此许多DFT的属性在DCT中仍然是保留下来的。
[0025] 进一步的,推导N点长实序列的DCT,首先来定义一个新的长度为2N的序列:
可看作是将周期为N的序列x[m]做一个周期延拓成一个周期为2N的序列(如图1中上半 部分图)。再来看图1中第一张图是关于x = -l/2对称的,要让他关于X = O对称需要将其向右 平移1/2个单位,得到^'[111]=^'[111-1/2]就是关于^ = 0对称的周期序列了(如图1中下半部 分图)。然后求运个2N序列的DFT,就是DCT-2型离散余弦变换,离散余弦变换相当于一个长 度大概是它两倍的离散傅里叶变换。变换后的x[n]是W2N为周期,偶对称的序列: X[N+n] =X[N+n-2N] =X[n-N] =x[N-n] 定义变换矩阵C[n,m],对于正交余弦变换矩阵就有: 〇-1=。了或化=1 用计算机计算DCT-2(用的是0(n~2)朴素算法,用于验证正交特性W及观察其频域数 据),比较DFT和FFT的结果可W观察出DCT变换只有实部,而DFT变换后有虚部。在运个例子 中DCT在频域中只用3个点就可W表示运个信号,而DFT变换后在频域中需要5个点来表示信 号。
[0026] 本发明采集信息过程中,将文字灰度转换成电信号,利用图像信息采集方法采集 信息特征,通过低通滤波器对信息特征去噪后进行原型匹配输出类别,低通滤波器采用FIR 型低通滤波器。
[0027] 本发明对图像信息进行归类包括:通过同步自回归模型提取纹理特征;自回归模 型的模型参数采用平方误差估计法来估计,模型参数加权实现粗分割,再利用DB小波对纹 理图像进行小波变换,提取小波系数最为纹理图像的特征实现细分割,小波变换为3级小波 变换。
[0028] 本发明对图像进行物体与场景进行识别,用模式识别的方法通过具有明显的haar 特征的灰度图像模式识获取分类器,通过分类器计算目标图像haar特征,对图像haar特征 进行加权,并对加权后的haar特征与分类器相应级阔值比较筛选获取类别信息;分类器采 用级联,每级都W相同识别率保留进入下一级的具体物体特征,每级的子分类器则由多个 haar特征构成并保存位置,每级特征带一个阔值和2个分支值,每级子分类器具有一个总阔 值。
[0029] 本发明的haar特征包括:边界特性、线特性、中屯、特性,线特性包括:线性特征、对 角线特征,将线性特征、对角线特征组合成特征模板,特征模板内具有白色和黑色两种矩 形,定义特征模板的特征值为白色矩形像素和减去黑色矩形像素之和。
[0030] 进一步的,图2是本发明图像识别技术的化ar-like特征示第一意图,请参见图2, 人脸检测时需要一个子窗口在待检测的图片窗口中不断的移位滑动,子窗口每到一个位 置,就会计算出该区域的特征,该特征即为化ar-like特征。特征值为白色矩形像素和减去 黑色矩形像素和,化ar特征值反映了图像的灰度变化情况。本发明对图像进行人脸识别,通 过分类器提取人脸图像的haar特征,通过若分类器对是否为人脸进行判定,如果不是则退 出人脸识别;如果是,采用积分图计算获取灰度人脸图像,使用AdaBoost算法获取的强分类 器进行分级匹配,获取识别的人脸的性别、年龄。
[0031 ]进一步地,请参见图2,对于图中的A,B和D运类特征,特征数值计算公式为:V = Sum 白-S皿黑,而对于C来说,计算公式如下:V = Sum白-2巧um黑;之所W将黑色区域像素和乘W 2,是为了使两种矩形区域中像素数目一致。通过改变特征模板的大小和位置,可在图像子 窗口中穷举出大量的特征。图中的特征模板称为"特征原型";特征原型在图像子窗口中扩 展(平移伸缩)得到的特征称为"矩形特征";矩形特征的值称为"特征值"。
[0032] 矩形特征可位于图像任意位置,大小也可W任意改变,所W矩形特征值是矩形模 版类别、矩形位置和矩形大小运=个因素的函数。故类别、大小和位置的变化,使得很小的 检测窗口含有非常多的矩形特征,大量的特征需要使用积分图进行计算。
[0033] 积分图就是只遍历一次图像就可W求出图像中所有区域像素和的快速算法,大大 的提高了图像特征值计算的效率。积分图是将图像从起点开始到各个点所形成的矩形区域 像素之和作为一个数组的元素保存在内存中,当要计算某个区域的像素和时可W直接索引 数组的元素,不用重新计算运个区域的像素和,从而加快了计算(运有个相应的称呼,叫做 动态规划算法)。积分图能够在多种尺度下,使用相同的时间(常数时间)来计算不同的特 征,因此大大提高了检测速度。
[0034] 积分图是一种能够描述全局信息的矩阵表示方法。积分图的构造方式是位置(i, j)处的值ii(ij)是原图像(i,j)左上角方向所有像素的和:
(1) 用s(i,j)表示行方向的累加和,初始化s(i,-l)=0; (2) 用ii (i,j)表示一个积分图像,初始化ii (-1,i) =0; (3) 逐行扫描图像,递归计算每个像素(i,j)行方向的累加和s(i,j) = s(i,j-l)+f(i, j); (4) 计算s(i,j)和积分图像ii(i,j)的值ii(i,= ,j)+s(i,j); (5) 扫描图像一遍,当到达图像右下角像素时,积分图像ii就构造好了。
[0035] 积分图构造好之后,图像中任何矩阵区域的像素累加和都可W通过简单运算得 到。
[0036] 图3是本发明图像识别技术的积分图,请参见图3,设D的四个顶点分别为a、e、丫、 5,贝化的像素和可W表示为: Dsum=ii(a)+ii化)-(ii( y )+ii(S)) 而化ar-Uke特征值就是两个矩阵像素和的差,矩形特征的特征值计算,只与此特征矩 形的端点的积分图有关,不管此特征矩形的尺度变换如何,特征值的计算所消耗的时间都 是常量。只要遍历图像一次,就可W求得所有子窗口的特征值。
[0037]图4是本发明图像识别技术的化ar-like特征不第二意图,请参见图4,在原有 化ar-1化e特征基础上做了进一步扩展,加入了旋转45角的矩形特征。扩展后的特征大致分 为4种类型:边缘特征、线特征环、中屯、环绕特征和对角线特征:在特征值的计算过程中,黑 色区域的权值为负值,白色区域的权值为正值。而且权值与矩形面积成反比(使两种矩形区 域中像素数目一致)。
[0038] 进一步的,本发明还公开了45度旋角的矩形特征计算:对于45度旋角的矩形,我们 定义RSAT(x,y)为点(x,y)左上角45度区域和左下角45度区域的像素和。用公式可W表示 为:
[0039] 为了节约时间,可按递推公式计算:RSAT(x,y) =RSATU-I,厂l)+RSAT(x-l,y)+I (x,y)-RSAT(x-2,y-l).而计算矩阵特征的特征值,是位于十字行矩形RSAT(x,y)之差。
[0040] 计算出化ar特征值后,需要用AdaBoost算法训练分类器,AdaBoost是机器学习的 一个模型,模型方法:(1)适当信息收集机制的选择;(2)学习的协定;(3)对能在合理步骤内 完成学习的概念的分类。学习的实质就是在样本训练的基础上,使算法的输出W概率接近 未知的目标概念。学习模型是考虑样本复杂度(指学习器收敛到成功假设时至少所需的训 练样本数)和计算复杂度(指学习器收敛到成功假设时所需的计算量)的一个基本框架,成 功的学习被定义为形式化的概率理论。学习模型不要求每次都正确,只要能在多项式个样 本和多项式时间内得到满足需求的正确率,就算是一个成功的学习。
[0041] 基于AdaBoost算法设计了弱学习算法和强学习算法,即弱分类器和强分类器。弱 学习算法是比较容易获得,获得过程需要数量巨大的假设集合,运个假设集合是基于某些 简单规则的组合和对样本集的性能评估而生成的,而强学习算法是不容易获得的,需要有 足够的数据,弱学习算法通过集成的方式生成高精度的强学习方法。
[0042] 弱分类器一开始只是一个最基本的化ar-Uke特征,计算输入图像的化ar-Uke特 征值,和最初的弱分类器的特征值比较,W此来判断输入图像是不是人脸,然而运个弱分类 器太简陋了,可能并不比随机判断的效果好,对弱分类器的解化就是训练弱分类器成为最 优弱分类器,是一个误差相对稍低的弱分类器,训练弱分类器实际上是为分类器进行设置 的过程。
[0043] 弱分类器的数学结构:
一个弱分类器Kx,f,p,0)由子窗口图像X,一个特征f,指示不等号方向的P和阔值0组 成。P的作用是控制不等式的方向,使得不等式都是<号,形式方便,0将用于决策树中的阔 值。
[0044] 机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种 映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每 个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输 出,若欲有复数输出,可W建立独立的决策树W处理不同输出。从数据产生决策树的机器学 习技术叫做决策树学习,通俗说就是决策树。
[0045] 图5是本发明图像识别技术的弱分类器的二叉决策树示意图,请参见图5,一个最 简单的决策树例子,假设我们使用S个化ar-like特征n,f2,巧来判断输入数据是否为人 脸,可W建立如图5所示决策树。在分类的应用中,每个非叶子节点都表示一种判断,每个路 径代表一种判断的输出,每个叶子节点代表一种类别,并作为最终判断的结果。
[0046] -个弱分类器就是一个基本和图5类似的决策树,最基本的弱分类器只包含一个 化ar-l化6特征,也就是它的决策树只有一层,被称为树粧(stump)。
[0047] 决定每个结点判断的输出,要比较输入图片的特征值和弱分类器中特征,一定需 要一个阔值(即0阔值),当输入图片的特征值大于该阔值时才判定其为人脸。训练最优弱分 类器的过程实际上就是在寻找合适的分类器阔值,使该分类器对所有样本的判读误差最 低。
[004引具体操作过程如下: (1)对于每个特征f,计算所有训练样本的特征值,并将其排序。
[0049]扫描一遍排好序的特征值,对排好序的表中的每个元素,计算下面四个值: 全部人脸样本的权重的和tl; 全部非人脸样本的权重的和to; 在此元素之前的人脸样本的权重的和Si ; 在此元素之前的非人脸样本的权重的和sO; (2)最终求得每个元素的分类误差 在表中寻找r值最小的元素,则该元素作为最优阔值。有了该阔值,一个最优弱分类器 生成。
[0050] 进一步的,在本发明的一个优选实施例中,本发明可W训练出性能更加优秀,分类 更加精确的强分类器,采用的是CvIn地aarClassif ier结构:它就相当于一个接口类,是用C 语言模拟的面向对象累,利用CV_INT_HAAR_CLASSIFIER_FIELDS()运个宏让弱分类 CvCART化 arClassif ier 强分类器和CvStag 細 aarClassif ier 继承于 CvIn 地 aarClassif ier。
[0051] 强分类器的诞生需要T轮的迭代,具体操作如下: 1. 给定训练样本集S,共N个样本,其中X和Y分别对应于正样本和负样本;T为训练的最 大循环次数; 2. 初始化样本权重为1/N,即为训练样本的初始概率分布; 3. 第一次迭代训练N个样本,得到第一个最优弱分类器; 4. 提高上一轮中被误判的样本的权重; 5. 将新的样本和上次本分错的样本放在一起进行新一轮的训练; 6. 循环执行4-5步骤,T轮后得到T个最优弱分类器; 7. 组合T个最优弱分类器得到强分类器。
[0化2] 组合方式如下:
^投票结果按照弱分类器的错误率加权 求和,将投票加权求和的结果与平均投票结果比较得出最终的结果。
[0053] 化ar分类器是有两个体系的,训练的体系,和检测的体系。训练的部分还剩下最后 一部分就是对筛选式级联分类器的训练。通过AdaBoost算法训练出了强分类器,然而在现 实的人脸检测中,只靠一个强分类器还是难W保证检测的正确率,运个时候,需要训练出多 个强分类器将它们联合使用,最终形成正确率很高的级联分类器即最终的目标化ar分类 器。
[0054] 训练级联分类器的目的是为了检测的时候,更加准确,运设及到化ar分类器的另 一个体系,检测体系,检测体系是W现实中的一幅大图片作为输入,然后对图片中进行多区 域,多尺度的检测,所谓多区域,是要对图片划分多块,对每个块进行检测,由于训练的时候 用的照片一般都是20巧0左右的小图片,所W对于大的人脸,还需要进行多尺度的检测。
[0055] 多尺度检测机制有两种策略,一种是不改变捜索窗口的大小,而不断缩放图片,运 种方法显然需要对每个缩放后的图片进行区域特征值的运算,效率不高,而另一种方法,是 不断初始化捜索窗口size为训练时的图片大小,不断扩大捜索窗口,进行捜索,解决了第一 种方法的弱势。在区域放大的过程中会出现同一个人脸被多次检测,运需要进行区域的合 并,无论哪一种捜索方法,都会为输入图片输出大量的子窗口图像,运些子窗口图像经过筛 选式级联分类器会不断地被每一个节点筛选,抛弃或通过。
[0056] 图6是本发明图像识别技术的级联强分类器的窗口图像栓选决策示意图,请参见 图6,它的结构如图6所示,运个结构也是一个二叉决策树模型。级联分类器的每一个叶子节 点都是一个筛选器,是进入下一级,不是被拒绝。
[0057] 级联强分类器的策略是,将若干个强分类器由简单到复杂排列,经过训练使每个 强分类器都有较高检测率,而误识率可W放低,比如几乎99%的人脸可W通过,但50%的非 人脸也可W通过,运样如果有20个强分类器级联,那么他们的总识别率为0.99~20>98%, 错误接受率也仅为0.5~20>0.0 OOl %。运样的效果就可W满足现实的需要了。
[0058] 为了使每个强分类器都具有较高检测率,需要训练级联分类器。设K是一个级联检 测器的层数,D是该级联分类器的检测率,F是该级联分类器的误识率,di是第i层强分类器 的检测率,fi是第i层强分类器的误识率。要训练一个级联分类器达到给定的F值和D值,只 需要训练出每层的d值和f值,运样: CfK = D, TK = F 级联分类器的要点就是如何训练每层强分类器的d值和f值达到指定要求。
[0059] AdaBoost训练出来的强分类器一般具有较小的误识率,但检测率并不很高,一般 情况下,高检测率会导致高误识率,运是强分类阔值的划分导致的,要提高强分类器的检测 率既要降低阔值,要降低强分类器的误识率就要提高阔值,运是个矛盾的事情。增加分类器 个数可W在提高强分类器检测率的同时降低误识率,所W级联分类器在训练时要考虑如下 平衡,一是弱分类器的个数和计算时间的平衡,二是强分类器检测率和误识率之间的平衡。
[0060] 具体训练方法如下,代码的形式如下: (1) 设定每层最小要达到的检测率d,最大误识率f,最终级联分类器的误识率Ft; (2) P =人脸训练样本,N=非人脸训练样本,DO = I .0,F0 = 1.0; (3) i = 0; (4) for:Fl>Ft,++i;//利用AdaBoost算法在P和N上训练具有nl个弱分类器的强分类 器;
^衡量当前级联分类器的检测率巧和误识率巧; 降低第i层的强分类器阔值,衡量当前级联分类器的检测率Di和误识率Fi,利用当前的 级联分类器检测非人脸图像,将误识的图像放入N。
[0061] 考虑到图像中人脸检测的特殊性,上一帖人脸的位置信息对下一帖的检测有很高 的指导价值,所W采有帖间约束的方法,减少了人脸捜索的区域,并且动态调整化ar检测函 数的参数,得到了较高的效率。
[0062] 对场景进行识别包括:采用低层建模方法化OW-Level Model ling)和语义建模方 法(Semantic Modelling),低层建模方法通过计算图像颜色、纹理的低层特征经SVM (Suppo;rt Vector Machine)、K-順化-nearestneiglibor)分类算法获取出场景的高层语义 信息,语义建模方法用于改善基于低层特征建模方法的分类性能,解决低层特征与高层特 征之间的推算误差问题,用作于场景分类的中间表示方法,其中SVM和K-NN分类算法用于降 维,且不损失分类性能。
[0063] 颜色特征的提取基于所需识别的类别而定,所用的颜色特征提取方法有巧巾:颜色 直方图、颜色集。
[0064] 对于场景的识别,颜色特征提取采用颜色直方图的方式,它能简单描述一幅图像 中颜色的全局分布,即不同色彩在整幅图像中所占的比例,特别适用于描述那些难W自动 分割的图像和不需要考虑物体空间位置的图像,但它无法描述图像中颜色的局部分布及每 种色彩所处的空间位置,即无法描述图像中的某一具体的对象或物体,直方图中的数值都 是统计而来,描述了该图像中关于颜色的数量特征,可W反映图像颜色的统计分布和基本 色调。
[0065] 将颜色空间划分成若干个小的颜色区间,每个小区间成为直方图的一个bin,运个 过程称为颜色量化(color quantization),通过计算颜色落在每个小区间内的像素数量可 W得到颜色直方图。
[0066] 对颜色直方图事先进行平滑过滤,即每个bin中的像素对于相邻的几个bin也有贡 献,相似但不相同颜色之间的相似度对直方图的相似度也有所贡献,用W解决两幅图像的 颜色直方图几乎相同,只是互相错开了一个bin,两者的相似度会很小的缺陷。
[0067] 对于物体的识别,颜色特征提取采用颜色集的方式,为支持大规模图像库中的快 速查找,用颜色集(color sets)作为对颜色直方图的一种近似,将RGB颜色空间转化成视觉 均衡的颜色空间化SV空间),并将颜色空间量化成若干个bin,用色彩自动分割技术将图像 分为若干区域,每个区域用量化颜色空间的某个颜色分量来索引,从而将图像表达一个二 进制的颜色索引集。在图像匹配中,比较不同图像颜色集之间的距离和色彩区域的空间关 系(包括区域的分离、包含、交等,每种对应于不同得评分),因为颜色集表达为二进制的特 征向量,可W构造二分查找树来加快检索速度,运对于大规模的图像集合十分有利。
[0068] 利用低层特征训练分类器与语义关联,对于每个特征f,计算所有训练样本的特征 值,并将其排序,扫描一遍排好序的特征值,对排好序的表中的每个元素,计算下面四个值: (1)全部目标样本的权重的和tl,(2)全部非目标样本的权重的和to,(3)在此元素之前 的目标样本的权重的和Sl,(4)在此元素之前的非目标样本的权重的和SO,最终求得每个元 素的分类误差,寻找r值最小的元素,则该元素作为最优阔值。
[0069] 底层建模方法还包括:全局方法和子块方法,其中全局方法特征是通过计算整幅 图像的低层特征来描述场景,采用全局的低层特征为每幅图像分配一组具有相应置信度的 语义类标,其中子块方法特征是先将图像划分为多个子区域,然后分别提取每个子区域的 低层特征,在针对各子区域采用整合方式进行综合分类。
[0070] 语义目标包括:对图像初始分割处理图像中不同区域,将分割区域标记为已知目 标种类,使用运些局部信息对整个场景分类;语义概念包括:利用在关键点周围的局部描述 子所携带的中层信息表示图像的语义类别;语义属性包括:不需对图像进行分割,也不需对 局部目标进行处理,模型基于一种低维的场景表示一-空域包络(Spatial Envelope),其 包括五类属性分别是自然度、开发度、粗糖度、展开度和崎帳度,每类属性对应于空域包络 中的一维,所有特征维的组合表示一副场景的主要空域结构。
【主权项】
1. 一种图像识别技术,其特征在于,包括:采集图像信息;对图像信息进行分析,对图像 信息进行归类;将图像分析的结果、获取的归类信息与信息库中原型模板进行模型匹配,完 成模式空间到类别空间的转换,输出匹配结果类别。2. 根据权利要求1所述的图像识别技术,其特征在于,采集图像信息包括:采用YUV411 格式的亮度(Y)、色度(C)取样方式对以PAL制分割的目标图像进行取样,利用离散余弦变换 编码获取频谱,采集图像的目标信息。3. 根据权利要求1所述的图像识别技术,其特征在于,对图像信息进行归类包括:通过 同步自回归模型提取纹理特征;自回归模型的模型参数采用平方误差估计法来估计,模型 参数加权实现粗分割,再利用DB小波对纹理图像进行小波变换,提取小波系数最为纹理图 像的特征实现细分割,小波变换为3级小波变换。4. 根据权利要求1所述的图像识别技术,其特征在于,对图像进行物体与场景进行识 另IJ,用模式识别的方法通过具有明显的haar特征的灰度图像模式识获取分类器,通过分类 器计算目标图像haar特征,对图像haar特征进行加权,并对加权后的haar特征与分类器相 应级阈值比较筛选获取类别信息;分类器采用级联,每级都以相同识别率保留进入下一级 的具体物体特征,每级的子分类器则由多个haar特征构成并保存位置,每级特征带一个阈 值和2个分支值,每级子分类器具有一个总阈值。5. 根据权利要求4所述的图像识别技术,其特征在于,haar特征包括:边界特性、线特 性、中心特性,线特性包括:线性特征、对角线特征,将线性特征、对角线特征组合成特征模 板,特征模板内具有白色和黑色两种矩形,定义特征模板的特征值为白色矩形像素和减去 黑色矩形像素之和。6. 根据权利要求5所述的图像识别技术,其特征在于,对图像进行人脸识别,通过分类 器提取人脸图像的haar特征,通过若分类器对是否为人脸进行判定,如果不是则退出人脸 识别;如果是,采用积分图计算获取灰度人脸图像,使用AdaBoost算法获取的强分类器进行 分级匹配,获取识别的人脸的性别、年龄。7. 根据权利要求4所述的图像识别技术,其特征在于,对场景进行识别包括:采用低层 建模方法(Low-Level Modelling)和语义建模方法(Semantic Modelling),低层建模方法 通过计算图像颜色、纹理的低层特征经SVM(Support Vector Machine)、K-NN(K_ nearestneighbor)分类算法获取出场景的高层语义信息,语义建模方法用于改善基于低层 特征建模方法的分类性能,解决低层特征与高层特征之间的推算误差问题,用作于场景分 类的中间表示方法,其中SVM和K-NN分类算法用于降维,且不损失分类性能。8. 根据权利要求7所述的图像识别技术,其特征在于,底层建模方法还包括:全局方法 和子块方法,其中全局方法特征是通过计算整幅图像的低层特征来描述场景,采用全局的 低层特征为每幅图像分配一组具有相应置信度的语义类标,其中子块方法特征是先将图像 划分为多个子区域,然后分别提取每个子区域的低层特征,在针对各子区域采用整合方式 进行综合分类。9. 根据权利要求7所述的图像识别技术,其特征在于,语义目标包括:对图像初始分割 处理图像中不同区域,将分割区域标记为已知目标种类,使用这些局部信息对整个场景分 类;语义概念包括:利用在关键点周围的局部描述子所携带的中层信息表示图像的语义类 另IJ;语义属性包括:不需对图像进行分割,也不需对局部目标进行处理,模型基于一种低维 的场景表示--空域包络(Spatial Envelope),其包括五类属性分别是自然度、开发度、粗 糙度、展开度和崎岖度,每类属性对应于空域包络中的一维,所有特征维的组合表示一副场 景的主要空域结构。10.根据权利要求1所述的图像识别技术,其特征在于,将文字灰度转换成电信号,利用 图像信息采集方法采集信息特征,通过低通滤波器对信息特征去噪后进行原型匹配输出类 另IJ,低通滤波器采用FIR型低通滤波器。
【文档编号】G06K9/00GK106022254SQ201610327269
【公开日】2016年10月12日
【申请日】2016年5月17日
【发明人】杨海涛
【申请人】上海民实文化传媒有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1