特征选择的方法及装置的制作方法

文档序号:6578887阅读:509来源:国知局
专利名称:特征选择的方法及装置的制作方法
技术领域
本发明涉及媒体分类技术领域,尤其涉及一种媒体分类中进行特征选择的方法及
直O
背景技术
一般地,在特征获取阶段,为确保提供足够的分类信息,原始特征数目比较多,其 中不可避免地存在大量冗余信息,因此就需要通过特征选择从原始特征集中剔除冗余信 息,挑选出最有效的特征。在媒体分类中,特征选择是指通过对数据的评价,从众多原始特征中挑选出用于 媒体分类的有限个特征。例如,原始特征集为F = (Fi, i = l,..., N},其中原始特征的数 目为N ;通过特征选择得到一个最优的特征子集,其中特征的数目为M,M^N0特征选择需要解决两个问题一是确定选择算法,在允许的时间内,以可以容忍的 代价找出最小的、最能描述类别的特征子集;二是确定评价标准,用以衡量所找到的特征子 集是否最优,从而得到满足特征选择操作终止条件的特征子集。特征选择过程一般分两步 进行首先产生特征子集,其中包含至少一个媒体特征;然后对特征子集进行评价;如果所 述特征子集满足终止条件则操作完毕,否则重复上述两个步骤直到条件满足为止。在现有技术中,一种重要的特征选择方法是基于遗传算法,其通过如下方式对个 体进行编码若原始特征有N个,则个体的编码长度L = N,个体的每一个基因依次对应一 个特征;具体地,对个体进行编码的方式有两种一是二进制位串编码方式,当个体中的某 一个基因为“1”时,表示该基因对应的特征项被选用;反之,当某一基因为“O”时,表示该基 因对应的特征项未被选用;二是实数编码方式,每个基因对应一个实数的权值,权值越大表 示其对应的特征项越重要;反之,权值越小表示其对应的特征项越不重要。在确定了选择算法为基于遗传算法的搜索策略,并通过该选择算法得到一组特征 子集后,就需要根据确定的评价标准对选出的特征子集进行评估。现有技术中多数都是基 于分类器精度进行特征子集的评估,其将样本集分为训练集及测试集,先利用训练集训练 分类器模型并得到相应的模型及参数,接着输入测试集并对测试结果进行评价,将得到的 分类精度作为遗传算法的适应度函数。不过,在实现本发明的过程中,发明人发现现有技术中至少存在如下问题现有技术根据分类器分类精度评价特征子集的优劣,需要构建分类器模型、训练 分类器模型并得到相应的参数,使得基于分类器分类精度进行特征子集评估的代价较高, 而且计算过程很复杂。

发明内容
本发明的实施例提供一种特征选择的方法及装置,可降低特征选择过程中对特征 子集进行评价的复杂度。为达到上述目的,本发明的实施例采用如下技术方案
一种特征选择的方法,包括生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特 征;根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。一种进行特征选择的装置,包括生成单元,用于生成至少一个特征向量,所述每个特征向量对应一个度量函数和 至少一个媒体特征;计算单元,用于根据所述特征向量对应的度量函数和媒体特征,计算该特征向量 的适应度值。本发明实施例提供的特征选择的方法及装置,在特征向量中携带度量函数和媒体 特征的信息,其中每个特征向量对应的媒体特征信息都代表着一个特征子集,根据每个特 征向量对应的度量函数来计算该特征向量的适应度值,即计算该特征向量对应的特征子集 的适应度值,进而根据得到的适应度值对特征子集进行选择;相对于现有技术,本发明实施 例提供的特征选择的方法及装置不依赖于特定分类器,没有分类器效率问题的负担,避免 了现有的基于分类器学习算法的复杂性,可以实现降低特征选择过程中对特征子集进行评 价的复杂度的目的。


图1为本发明实施例一中特征选择的方法流程图;图2为本发明实施例二中特征向量的表达方式一;图3为本发明实施例二中特征向量的表达方式二 ;图4为本发明实施例二中特征选择的方法流程示意图;图5为本发明实施例二中计算特征向量适应度值的方法流程示意图;图6为本发明实施例三中进行特征选择的装置结构示意图;图7为本发明实施例四中进行特征选择的装置结构示意图;图8为本发明实施例四中进行特征选择的装置中计算模块的结构示意图。
具体实施例方式为了降低特征选择过程中对特征子集进行评价的复杂度,本发明实施例提供了一 种特征选择的方法及装置。本发明实施例提供的特征选择的方法是基于遗传算法的,在遗 传算法编码方式上,将度量函数和媒体特征项作为等位基因编码到同一条染色体上,其中 所述染色体就是本发明实施例中提到的特征向量。下面结合附图对本发明实施例提供的特征选择的方法及装置进行详细描述。实施例一如图1所示,本发明实施例提供的特征选择的方法,包括以下步骤101、生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒 体特征。在本发明实施例中,所述特征向量对应的度量函数为可选择的度量函数中的一 个,特征向量中携带的度量函数信息即为所选度量函数对应的编码;所述至少一个媒体特征代表着一个特征子集,其可以由随机生成的数字表示,所述随机生成的数字可以是二进 制位串,也可以是实数串。102、根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。根据所述特征向量中媒体特征的编码确定样本中被选择的特征项,依据所述被选 择的特征项并结合所述特征向量所对应的度量函数计算不同样本之间的相似度,然后参考 样本之间的相似度对样本进行权重赋值,在消除了各样本的差异性对特征向量的适应度值 的影响后,即可确定所述特征向量的适应度值。上述相似度可以是通过样本之间的相似系数来描述,也可以通过样本之间的距离 来描述。本发明实施例提供的特征选择的方法,在特征向量中携带度量函数和媒体特征的 信息,其中每个特征向量对应的媒体特征信息都代表着一个特征子集,根据每个特征向量 对应的度量函数来计算该特征向量的适应度值,即计算该特征向量对应的特征子集的适应 度值,进而根据得到的适应度值对特征子集进行选择;本发明实施例提供的特征选择的方 法不依赖于特定分类器,没有分类器效率问题的负担,避免了现有的基于分类器学习算法 的复杂性。实施例二 为了能够更好地说明本发明实施例提供的特征选择的方法,现假设有如下应用场 景从含有1)个媒体特征的音乐原始特征集中选择出最好的能够表达音乐情感的特 征子集,并提供至少一个度量函数和至少两个预先标注有高层分类信息(比如情感信息) 的音乐样本用以对所选出的特征子集进行评价,其中每个音乐样本对应的特征项和情感标 注均以向量的形式表示。本发明实施例提供的特征向量同时包含一个度量函数和至少一个媒体特征的信 息,即在遗传算法中将度量函数和所有媒体特征统一编码到同一条染色体中;其中,所述特征向量包含的度量函数为可选择的至少一个度量函数中的一个,如果可供 选择的度量函数的数目为W,则在特征向量中用于描述所选度量函数的位数a要大于等于 「10§2妒],这里的“「1”为向上取整符号,例如共有3个可供选择的度量函数,采用二进制编 码方式,其编码可以分别设为01、10、11,特征向量中携带的度量函数信息即为所选度量函 数对应的编码;上述度量函数为相似性度量函数,具体地,可以是距离函数或者相似系数函 数。所述至少一个媒体特征代表着原始特征集中所有媒体特征被选择的情况,针对媒 体特征的编码方式有两种一是二进制位串编码方式,每个媒体特征的编码位数为1位, “1”表示特征被选中,“0”表示特征未被选中,二进制编码方式如图2所示;二是实数编码方 式,每个特征对应一个实数的权值,权值可以限定在0-99范围内,且权值的大小表现出其 所对应的媒体特征的重要性,权值越大表示对应的媒体特征越重要,反之权值越小表示对 应的媒体特征越不重要,实数编码方式如图3所示。在上述场景设定的基础上,本发明实施例提供的特征选择方法的具体过程,如图4 所示,包括401、生成至少一个特征向量,在每个特征向量中包含有一个度量函数和至少一个媒体特征的信息。上述至少一个特征向量即为遗传算法中的一个种群;在本发明实施例中,所生成的特征向量对应的度量函数均为可选择的多个度量函 数(比如距离函数、夹角余弦函数等相似性度量函数)中的一个,在所述特征向量中包含 所选度量函数对应的编码;所生成的特征向量中的媒体特征对应的编码则是随机生成的,可以是二进制位 串,也可以是实数串;在本实施例中,随机生成N位二进制码作为媒体特征对应的编码。下面以计算其中一个特征向量的适应度值为例,进一步介绍后续步骤402、根据所述特征向量中的媒体特征编码确定每个音乐样本中被选择的特征项。在本实施例中,所述音乐样本均预先标注有高层分类信息;所谓高层分类信息可 以是音乐样本的情感表达、或者音乐流派、或者其他信息;在本实施例中,以音乐样本中包 含情感标注为例;由于本实施例中的特征向量中包含的媒体特征编码为二进制位串,其中的“1”表 示特征被选中,“0”表示特征未被选中,因此可以根据所述特征向量中的N位媒体特征编码 对每个样本中的N个特征项进行选择。403、从包含至少两个音乐样本的样本空间中选出一个样本作为目标样本,其余的 音乐样本均为待匹配样本。所述目标样本可以是从样本空间中随机抽取的一个音乐样本,也可以是按照一定 顺序从样本空间中选取的一个音乐样本。在这里,不管是目标样本还是待匹配样本均为对其包含的N个特征项进行了选择 后的音乐样本。404、根据特征向量中的编码所指示的度量函数计算每个待匹配样本相对于目标 样本的相似度。由于每个样本均是以向量形式进行描述的,因此计算待匹配样本相对于目标样本 的相似度,即为通过所述度量函数计算两个向量之间的相似度。405、按照相似度从大到小的顺序对所述待匹配样本进行排序,得到一个序列L。所述相似度可以是通过距离函数计算得到,也可以是通过相似系数函数计算得 到。如果是距离函数,则得到的结果越小说明两个样本间的相似度越大,反之相似度越小; 如果是相似系数函数,则得到的结果越大说明两个样本间的相似度越大,反之相似度越小。406、结合样本的高层分类信息对排序后的待匹配样本进行权重赋值。如果在样本空间中与目标样本的情感标注(比如,高兴、悲伤.......)相同的待
匹配样本的数目为K,则只需对序列L中的前K个待匹配样本进行权重赋值;具体地,可以将与所述目标样本的情感标注相同且排序序号为i的待匹配样本赋 予权重为κ+l-i ;例如,序列L中的第2个样本与目标样本的情感标注相同,则给第2个样 本赋予权重K-I ;其中,i ^K5可以将与所述目标样本的高层分类信息不同的待匹配样本赋予权重为0。上述赋值方式选用的是离散赋值,在本发明实施例中当然还可以选用其他的赋值 方式。407、对上述前K个待匹配样本分别对应的权重进行归一化,得到的就是所述特征向量相对于目标样本的适应度值。具体地,所述特征向量相对于目标样本的适应度值el =(所述前K个待匹配样本 对应的权重之和)/(自然数1至K的和)。为了消除在选择一个目标样本时候造成的差异性,因此还需要更换目标样本,重 复执行步骤403至步骤407,若样本空间中共有P个音乐样本,则上述步骤需要重复执行 P-I次,从而将样本空间中的其他样本依次作为目标样本,并计算出所述特征向量相对于每 个目标样本的适应度值e2、e3、e4........408、在得到了所述特征向量相对于每个音乐样本的适应度值之后,计算上述el、 e2、e3.......的平均值,计算结果即为所述特征向量的适应度值。所述特征向量的适应度值,即染色体的适应度值,用于说明该特征向量对应的度 量函数和所选择的特征子集的优劣程度;所述适应度值越大,说明所述特征向量对应的度 量函数和所选择的特征子集越好,反之则越差。根据步骤402至步骤408所描述的方法,同样可以计算出同一种群中其他特征向
量的适应度值。409、判断上述种群中的至少一个特征向量的适应度值是否满足预设的条件;如果上述种群中存在至少一个特征向量的适应度值满足预设的终止条件,则进程 结束,满足条件的特征向量中所包含的媒体特征信息就对应着进行特征选择后的特征子 集,其包含的度量函数信息对应的相似性函数即为最佳的适用于所选特征子集的相似性度 量函数;如果上述种群中所有的特征向量均不满足预设的终止条件,则进行遗传操作,即 按照一定的概率条件,经过种群内的选择、交叉、变异操作,最终完成对上述种群中特征向 量的数据元素进行变更,得到一组新的特征向量,并跳转至步骤402,迭代执行直至找到满 足预设的终止条件的特征向量。在本发明实施例中,以上编号并不用于限定各个步骤的执行顺序。为了便于理解本发明实施例提供的特征选择的方法,下面以一个简单的实例对特 征选择过程中计算特征向量适应度值的过程进行进一步说明。首先,设定可供选择的相似性度量函数共有2个
ηγ距离函数Wi:d(x,y) = \\x-少|| = [J^ixi -χ)2]72,其编码是 01,以及
I=I夹角余弦函数W2 :cos(x,y) = ^r = , ”~,其编码是10。
MIIWI [(χ x)(y y)Y2当然上述编码还可以是函数Wl对应编码为0,函数W2对应编码为1。其次,在原始特征集中共有10个媒体特征f0、fl........f9;样本数据库中的midi样本片段共有80首,其中标注高兴情感类别的有9首,标注 悲伤情感类别的有8首,其他略;为更清晰地描述,假设样本数据库中midi样本的编号及其特征和标注的情感描 述格式如下Midil, flj0, fia, flj2, · · ·,flj9, emotionl (高兴)Midi2, f2j0, f2a, f2j2, . . .,f2j9, emotion2(悲伤)
8
Midi3, f3,0,f3a, f3j2, . . . , f3j9, emotion3 (悲伤)...Midi80, f80j0, f80a, f80j2, · · ·,f80j9, emotion80 (高兴)假设数据库中编号为1,5,8,15,23,45,52,68,73的midi样本其情感标注为高兴, 数据库中编号为2,3,13,27,48,60,67,75的midi样本其情感标注为悲伤。根据以上假设情形,现对本发明实施例提供的计算特征向量适应度值的方法展开 描述,如图5所示,包括以下步骤501、生成至少一个特征向量,其中一个特征向量Cl (染色体)为011010101100 ;其中,前两位01表示选择函数Wl作为相似性度量函数;后十位101010110为随机生成的二进制位串,对应十个媒体特征,说明f0、f2、f4、 f6、f7这五个特征被选中。502、选择样本数据库中的样本midil作为目标样本,则midi2-midi80均为待匹配样本。503、根据函数Wl计算样本midil与每个待匹配样本之间的距离。具体地,样本midil与midi2之间的距离是通过公式A,2 =_八,)2]%算
…1
向量 ml :fl70' f"l,2,f"l,4,f"l,6,f"l,7 与向量m2之间的距离;以同样的方法,可以计算出样本midil与其他待匹配样本之间的距离。504、按照距离从小到大的顺序对待匹配样本进行排序,由于与样本midil的情感 标注相同的待匹配样本共有8个,因此表1中只列出排在前面8位的待匹配样本。表 权利要求
一种特征选择的方法,其特征在于,包括生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特征;根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。
2.根据权利要求1所述的特征选择的方法,其特征在于,还包括 判断所述至少一个特征向量的适应度值是否满足预设的终止条件; 在至少一个所述特征向量的适应度值满足预设的终止条件时,进程结束;在所有特征向量的适应度值均不满足预设的终止条件时,以原有特征向量为基础生成 至少一个新的特征向量。
3.根据权利要求2所述的特征选择的方法,其特征在于,所述以原有特征向量为基础 生成至少一个新的特征向量,具体为按照预定的概率条件,对原有特征向量的数据元素进行变更,得到至少一个新的特征 向量。
4.根据权利要求1或2所述的特征选择的方法,其特征在于,所述根据所述特征向量对 应的度量函数和媒体特征,计算该特征向量的适应度值,包括根据所述媒体特征确定样本中被选择的特征项;以样本空间中所有的样本依次作为目标样本,根据所述度量函数以及所述被选择的特 征项计算所述特征向量相对于每个目标样本的适应度值;计算所述特征向量相对于每个目标样本的适应度值的平均值,作为所述特征向量的适应度值。
5.根据权利要求4所述的特征选择的方法,其特征在于,在样本空间中目标样本以外 的样本均为待匹配样本;贝U,所述根据所述度量函数以及所述被选择的特征项计算所述特征向量相对于目标样 本的适应度值,包括根据所述度量函数以及所述被选择的特征项计算每个待匹配样本相对于目标样本的 相似度;根据所述相似度对所述待匹配样本进行排序;结合样本的高层分类信息对排序后的待匹配样本进行权重赋值;对所述待匹配样本对应的权重进行归一化,得到所述特征向量相对于目标样本的适应度值。
6.根据权利要求5所述的特征选择的方法,其特征在于,在样本空间中与目标样本的 高层分类信息相同的待匹配样本的数目为K,则所述结合样本的高层分类信息对排序后的待匹配样本进行权重赋值,具体包括 为排序后的前K个待匹配样本进行权重赋值;且,与所述目标样本的高层分类信息相同且排序序号为i的待匹配样本赋予权重为 κ+l-i,其中,i ^ K ;与所述目标样本的高层分类信息不同的待匹配样本赋予权重为O。
7.根据权利要求6所述的特征选择的方法,其特征在于,所述对所述待匹配样本对应 的权重进行归一化,具体包括用所述前K个待匹配样本对应的权重之和除以自然数1至K的和。
8.一种进行特征选择的装置,其特征在于,包括生成单元,用于生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少 一个媒体特征;计算单元,用于根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适 应度值。
9.根据权利要求8所述的进行特征选择的装置,其特征在于,进一步包括 判断单元,用于判断所述至少一个特征向量的适应度值是否满足预设的终止条件; 在所述判断单元的判断结果为存在至少一个特征向量的适应度值满足预设的终止条件时,进程结束;在所述判断单元的判断结果为所有特征向量的适应度值均不满足预设的终止条件时, 所述生成单元以原有特征向量为基础生成至少一个新的特征向量。
10.根据权利要求8或9所述的进行特征选择的装置,其特征在于,所述计算单元包括确定模块,用于根据所述媒体特征确定样本中被选择的特征项; 计算模块,用于以样本空间中所有的样本依次作为目标样本,根据所述度量函数以及 所述被选择的特征项计算所述特征向量相对于每个目标样本的适应度值;平均模块,用于计算所述特征向量相对于每个目标样本的适应度值的平均值,作为所 述特征向量的适应度值。
11.根据权利要求10所述的进行特征选择的装置,其特征在于,当在样本空间中目标 样本以外的样本均为待匹配样本时,所述计算模块包括计算子模块,用于根据所述度量函数以及所述被选择的特征项计算每个待匹配样本相 对于目标样本的相似度;排序子模块,用于根据所述相似度对所述待匹配样本进行排序; 赋值子模块,用于结合样本的高层分类信息对排序后的待匹配样本进行权重赋值; 归一化子模块,用于对所述待匹配样本对应的权重进行归一化,得到所述特征向量相 对于目标样本的适应度值。
12.根据权利要求11所述的进行特征选择的装置,其特征在于,在样本空间中与目标 样本的高层分类信息相同的待匹配样本的数目为K,所述赋值子模块将与所述目标样本的高层分类信息相同且排序序号为i的待匹配样 本赋予权重为K+1-i,将与所述目标样本的高层分类信息不同的待匹配样本赋予权重为0 ; 其中,i ( K。
13.根据权利要求12所述的进行特征选择的装置,其特征在于,所述归一化子模块用 所述前K个待匹配样本对应的权重之和除以自然数1至K的和,得到所述特征向量对应于 目标样本的适应度值。
全文摘要
本发明实施例公开了一种特征选择的方法及装置,涉及媒体分类技术领域,用以降低特征选择过程中对特征子集进行评价的复杂度。本发明实施例提供的特征选择的方法,包括生成至少一个特征向量,所述每个特征向量对应一个度量函数和至少一个媒体特征;根据所述特征向量对应的度量函数和媒体特征,计算该特征向量的适应度值。本发明实施例提供的方法及装置适用于包含高层分类信息的媒体特征的选择。
文档编号G06F17/30GK101937440SQ20091015007
公开日2011年1月5日 申请日期2009年6月30日 优先权日2009年6月30日
发明者朱华, 李德旭, 王上飞 申请人:华为技术有限公司;中国科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1