从高维非对称数据中提取分类信息的方法_2

文档序号:9288597阅读:来源:国知局
其中,四个对角阵可以选择对应原方阵的特征值构建,难点在于对角化矩阵U的计算。由 于矩阵都具有实对称特性且大小均为ηΧη,且当q<<n时,矩阵 的秩分别为1-1、1_1、1、1,均远小于维数11,而且对于一般的实对称矩 阵八1<,其对角化形式为=A1= UA Wt,式中的变换具有如下性质:
[0046] (a)改变Λ i中零特征值在对角化矩阵U中对应的特征向量,此等式依旧成立。
[0047] (b)同时互换A1中一对特征值和矩阵U中它们对应的特征向量的位置,此等式依 旧成立。
[0048] (C)直接删除A1中的零特征值和矩阵U中对应的特征向量内容和所在的列,此等 式依旧成立。
[0049] (d)在Λ i中原有特征值的后面人工添加零特征值,并在矩阵U中对应位置添加零 向量,此等式依旧成立。
[0050] 至此,可以利用上述性质和奇异值分解定理,求出矩阵£、£、、!:_ Eme所有的 0- ζ tfiij r//C' 特征值和特征向量,并利用它们的低秩特性,改变它们特征值和特征向量的位置,将其中一 个矩阵的部分零特征值对应的特征向量转换为其他三个矩阵非零特征值对应的特征向量, 最终可拼凑出满足条件的矩阵U。用矩阵U和对角化后的对角矩阵构建矩阵!后,通过矩 阵身构建降维矩阵Oni,将高维非对称数据通过降维矩阵Oni进行投影得到降维后的分类信 肩、。
[0051] 【有益效果】
[0052] 与现有技术相比,本发明提出的技术方案具有以下优点:
[0053] (1)对数量不均衡的两类样本进行降维时,通常少数类样本的冗余信息比多数类 的冗余信息更加不稳定,如果这些冗余信息剔除的不够,则会在分类时导致严重的过拟合。 多数类样本由于训练样本多,所以其冗余信息相对稳定可靠,其中还包含一部分可信的两 类差异信息。为此,本发明加大了剔除少数类样本不稳定冗余信息的力度,减小了剔除多数 类样本冗余信息的力度。本发明保留下来的主成分为"最能体现两类区别的主成分"。因此, 对于数量不均衡的两类样本数据,通过本发明提取的各主成分在区分两类样本的差异性上 会比传统PCA的更加明显,且这些主成分之间同样具有正交性,彼此之间互不相关。
[0054] (2)由于本发明的整个计算过程不会有大小超过nXn的矩阵生成和运算(其中η 为数据的初始维度),所以本发明的计算复杂度被大大降低。当处理高维的两类样本数据 时,本发明计算结果准确性高、运行速度快、稳定性好。
【附图说明】
[0055] 图1为本发明的实施例提供的从高维非对称数据中提取分类信息的方法的流程 图。
【具体实施方式】
[0056] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图,对本发明的具体 实施方式进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是 全部实施例,也不是对本发明的限制。基于本发明的实施例,本领域普通技术人员在不付出 创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
[0057] 图1为本发明实施例一提供的从高维非对称数据中提取分类信息的方法的流程 图。如图1所示,该方法包括步骤Sll至步骤S19,下面分别对上述步骤进行详细说明。
[0058] 步骤Sll :获取高维非对称数据。
[0059] 具体地,高维非对称数据由阳性样本和阴性样本组成,分析得到高维非对称数 据的维度η、高维非对称数据的总样本数量q、阳性样本的样本数量Q ci、阴性样本的样本 数量q。,设置待提取的分类信息的维数m。本实施例中,为阳性类样本,其中i = 1,2, ... q。,{4))}为阴性类样本,其中 j = 1,2, ... qc。
[0060] 步骤S12 :计算均值向量,计算得到中心化的阳性样本集合矩阵和阴性样本集合 矩阵。
[0061] 具体地,计算高维非对称样本数据的均值向量M、阳性类样本的均值向量M。、阴性 类样本的均值向量M。,分别中心化阳性样本和阴性样本得到中心化后的阳性样本集合矩阵 S。、中心化后的阴性样本集合矩阵S。。各个均值向量的求解方法已在
【发明内容】
中描述。本实 施例中,中心化后的阳性样本集合矩阵S。为5; = -MJ, 中心化后的阴性样本集合矩阵S。为:5; = (x:1) --Mf - M,.)。
[0062] 步骤S13 :分别构建矩阵X。、Xc、Xm。、XM。
[0068] 步骤S16 :拼凑出对角化矩阵U和对角阵Λ。
[0069] 步骤S16中,首先构建四个大小为nXq的对角化矩阵和四个大小为qXq的对角 阵:
[0070] _ _ /1 \ i-η\ ?·Λ I v .' 二
_ /1 % ^ y. n \ . t I \ ·_ ,. 中获取的高维非对称数据通过降维矩阵Oni进行投影得到降维后的分类信息。
[0082] 下面应用本发明实施例提供的方法进行两类样本数据的分类信息提取实验。为了 从不同的维度规模和不同的两类样本比例这两个方面对本发明实施例的性能进行验证和 比较,采用两组数据开展实验,分别称为组A数据和组B数据。其中,组A数据用于验证本 发明实施例在不同维度数据下的准确率和运算速度;组B数据用于验证本发明实施例在不 均衡样本下的类分辨能力。每组数据都包含阳性样本和阴性样本,实验数据描述如下。
[0083] 组A数据:为了达到验证本发明实施例提取不同维度数据分类信息性能的目的, 生成了组A数据。在组A数据中,阳性样本和阴性样本数分别设置为500,因此,其总样本 数为1000。其中,阳性样本所有维度的均值恒为0,第i个维度的方差为l/i°· 5。阴性样本 的均值非零且不同维度的均值不同,第j个维度的均值为lA8j)°·25,方差为lA50j)°· 25。 这样设计两类样本的理由如下:(1)保证两个类的均值和方差都存在差异,保证差异具有 全面性;(2)两类均值差异大的维度方差差异也大(主要集中在前20维),类均值差异小的 维度方差差异也小,即维度差异和方差差异不会在整体维度上呈现过于明显的分离趋势, 使得每一个维度都对正确分类有贡献,以保证总维度增长时分类准确率也会随之增长;(3) 两个类在同一维度上的均值差异和方差差异都不会过大,使得只依靠某一个或某些维度难 以分离两类,让各种方法在识别两个类时保证一定的正确率,但又不能轻易达到100%。组 A数据的总维度η以500为步长由η = 1500增长至η = 10000,由此得到性质相同、维度不 同的多个数据。
[0084] 组B数据:该数据是从MIT人脸图像库中下载的人脸和非人脸图像数据,选择其中 的1000张开展实验。实验中,固定总样本数(1000)不变,参与训练的人脸图像(阳性)样 本比例由50%变化至5%,即从450张逐渐减少至45张。两类样本数从均衡状态改变为非 均衡状态,由此得到维度相同、两类样本数不同的多个数据。
[0085] 运用本发明实施例从上述数据中提取到分类信息后,再采用改进的支持矢量机 (0DR-BSM0TE-SVM,简称0B-SVM)根据提取的分类信息进行样本分类。在OB-SVM分类器中, 核函数固定为高斯核函数,取ODR和BSMOTE的平衡参数α =0.9。所有实验的验证方法均 为十折交叉验证,分类效果用平均敏感性(Sensitivity,简称Sen)、特异性(Specificity, 简称Spe)和准确率(Accuracy,简称Acc)来评估。令FP为将阴性样本错分为阳性的数目, 而FN为将阳性样本错分为阴性样本的数目;TP和TN分别表示阳性样本和阴性样本正确分 类的数目,则敏感性、特异性和准确率定义如下。
[0086] Sensitivity = TP/(TP+FN)
[0087] Specificity = TN/(FP+TN)
[0088] Accuracy = (TP+TN)/(TP+TN+FP+TN)
[0089] 实验一:不同维度下性能和运算速度验证。
[0090] 实验一采用组A数据。每次参与训练的总样本数量q = 900 (因为是十折验证,阳 性和阴性样本各450),测试样本为100 (阳性和阴性样本各50)。总维度以500为步长由η =1500增长至η = 10000。在不同维度的组A数据上,分别执行JDPCA、APCA和PCA方法, 然后进行OB-SVM分类。其中,降维参数m固定为50,,需要说明,降维参数m即待提取的 分类信息的维数m。在各个维度下十折交叉验证得到的平均分类性能和计算时间如表1所 示。由于q。= q。= 450,两类样本数量均衡,所以JDPCA和APCA求得的协方差矩阵Σ α与 PCA求
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1