基于大间隔分类准则的多示例学习特征加权方法

文档序号:6501392阅读:238来源:国知局
基于大间隔分类准则的多示例学习特征加权方法
【专利摘要】本发明公开了一种基于大间隔分类准则的多示例学习特征加权方法,其实现方案包括初始化正包代表示例和负包代表示例,构建待优化问题,以及更新待优化问题的三类未知变量共计三个步骤。通过启发式搜索方法找出正包中能够正确表示包的类别标记的代表示例,从而解决了正包中示例的类别标记模糊性问题;通过坐标上升法进行多次迭代,使得待优化问题能够收敛到一个局部最优解;根据每个特征对识别的贡献大小赋予其相对权重,采用特征加权后的数据进行识别能够获得比采用原始数据进行识别更高的识别精度。
【专利说明】基于大间隔分类准则的多示例学习特征加权方法

【技术领域】
[0001] 本发明涉及一种基于大间隔分类准则对多示例学习数据进行特征加权的方法,具 体地说是一种赋予有效判别特征以较高权重、赋予噪声和冗余特征以较低权重的数据预处 理方法。该方法能够自动地根据每个特征对识别的贡献大小来对其进行加权,然后对加权 后的数据进行识别以提高多示例学习的识别精度。

【背景技术】
[0002] 多示例学习是人工智能领域的一个重要分支,它所处理的样本不是单个示例,而 是一个包,即一系列示例的集合,并且只有包的类别标记是已知的,包中示例的类别标记是 未知的。若一个包中至少包含一个正示例,则该包被标记为正包,反之则被标记为负包。特 征加权技术是人工智能领域的一项关键技术,即通过某种准则来评估每个特征和学习任务 之间的相关性,并赋予每个特征一个权值来衡量该相关性的相对大小。大间隔分类准则是 人工智能领域一种非常重要的算法设计原则,它通过最大化异类目标样本之间的分类间隔 来提高异类目标样本之间的可分性,目前主要应用于有监督学习算法的设计工作。
[0003] 国内外学者针对多示例学习算法的设计工作已经开展了一些相关研究,但是关于 多示例学习中特征加权问题的研究尚未有人涉及。与多示例学习特征加权问题非常相近 的是多示例学习特征提取和特征选择问题,前者是指通过空间变换将多示例学习数据投影 到某个特征空间并在特征空间中进行学习,后者是指仅选取部分原始特征来进行多示例学 习。关于多示例学习特征提取和特征选择问题的国内外研究进展如下: Yunyin Sun等人提出了一种名为MIDR的多示例学习特征提取方法,该方法旨在寻找 一个使得正包和负包的类别标记为正的后验概率分别等于1和〇的特征空间,并通过梯度 下降法来对该特征空间进行迭代求解,通常仅能够收敛到局部最优解,无法获得全局最优 解。Wei Ping等人提出了一种名为MidLABS的多示例学习特征提取方法,该方法基于node 向量和edge向量来构建类间散射矩阵和类内散射矩阵,并通过最大化类间散射矩阵和类 内散射矩阵的迹熵来计算投影矩阵,其不足之处在于当正包中的正示例数目远小于该包中 的负示例数目时,容易引发样本失衡问题,从而影响学习性能。Vikas C. Raykar等人提出 了一种Bayesian-MIL方法来处理多示例学习中的特征选择问题,该方法将分类器设计和 特征选择算法设计结合在了一起,并采用贝叶斯最大后验概率准则来完成对原始特征的筛 选工作,该方法的缺点在于它仅能适用于Logistic分类器,对经过该方法特征选择后的数 据采用其它分类器进行识别时,其识别性能会有不同程度的下降。
[0004] 在上述三种方法中,前两种属于多示例学习特征提取方法,后一种属于多示例学 习特征选择方法,与本发明中设计的多示例学习特征加权方法相比具有明显不同。


【发明内容】

[0005] 针对现有多示例学习领域缺乏有效的特征加权方法的不足,本发明提供一种基于 大间隔分类准则的多示例学习特征加权方法。
[0006] 本发明上述所提供的一种基于大间隔分类准则的多示例学习特征加权方法,其所 述方法内容的实现方案是按以下步骤进行的: (1) 初始化正包代表示例和负包代表示例 就正包代表示例而言,需要在每个正包中选出一个类别标记最有可能为正的示例作为 该包的代表示例,采用概率密度函数估计法来完成上述初始化工作; 就负包代表示例而言,首先需要针对所有负包中的示例进行K均值聚类,然后选取聚 类后得到的聚类中心作为负包代表示例; (2) 构建待优化问题 待优化问题由目标函数和约束函数两大部分构成,目标函数包括两项,其中第一项为 分类间隔,第二项为所有违反分类间隔的情形引起的损失之和;约束函数包括三项,其中前 两项分别要求权向量的各元素均为非负值以及权向量的4范数等于1,最后一项则要求分 类间隔为非负值; (3) 分别更新待优化问题的三类未知变量 通过坐标上升法以迭代的方式来分别更新待优化问题中包含的三类未知变量:正包代 表示例、权向量和分类间隔,直到目标函数的相对变化小于预先设定的阈值为止;在单次更 新中,需要固定其它两类未知变量,仅就需要更新的那一类未知变量进行更新,其所述方法 是按以下步骤进行: (1)初始化正包代表示例和负包代表示例 采用非参数概率密度函数估计法一Parzen窗法来对正包代表示例进行初始化:将所 有负包中的示例视作训练样本来估计负示例概率密度函数,分别估计出给定正包中每个示 例为负示例的概率密度值,并选取概率密度值最小的那个示例作为该给定正包的代表示 例; 采用K均值聚类法来对负包代表示例进行初始化:考虑到负包中的示例不存在类别标 记模糊性问题,即负包中的所有示例均为负示例,且通常情况下负包中示例数目非常多,因 此首先针对所有负包中的示例进行K均值聚类,然后选取聚类后得到的聚类中心作为负包 代表示例;

【权利要求】
1. 一种基于大间隔分类准则的多示例学习特征加权方法,其所述方法的实现方案是按 以下步骤进行的: (1) 初始化正包代表示例和负包代表示例 就正包代表示例而言,需要在每个正包中选出一个类别标记最有可能为正的示例作为 该包的代表示例,采用概率密度函数估计法来完成上述初始化工作; 就负包代表示例而言,首先需要针对所有负包中的示例进行K均值聚类,然后选取聚 类后得到的聚类中心作为负包代表示例; (2) 构建待优化问题 待优化问题由目标函数和约束函数两大部分构成,目标函数包括两项,其中 第一项为分类间隔,第二项为所有违反分类间隔的情形引起的损失之和;约束 函数包括三项,其中前两项分别要求权向量的各元素均为非负值以及权向量的 4范数等于1,最后一项则要求分类间隔为非负值; (3) 分别更新待优化问题的三类未知变量 通过坐标上升法以迭代的方式来分别更新待优化问题中包含的三类未知变量:正包代 表示例、权向量和分类间隔,直到目标函数的相对变化小于预先设定的阈值为止;在单次更 新中,需要固定其它两类未知变量,仅就需要更新的那一类未知变量进行更新。
2. 如权利要求1所述的方法,其所述方法是按以下步骤进行的: (1)初始化正包代表示例和负包代表示例 采用非参数概率密度函数估计法一Parzen窗法来对正包代表示例进行初始化:将所 有负包中的示例视作训练样本来估计负示例概率密度函数,分别估计出给定正包中每个示 例为负示例的概率密度值,并选取概率密度值最小的那个示例作为该给定正包的代表示 例; 采用K均值聚类法来对负包代表示例进行初始化:考虑到负包中的示例不存在类别标 记模糊性问题,即负包中的所有示例均为负示例,且通常情况下负包中示例数目非常多,因 此首先针对所有负包中的示例进行K均值聚类,然后选取聚类后得到的聚类中心作为负包 代表示例;

采用坐标上升法对待优化问题(1)进行迭代求解时,在每一轮迭代中需要分别对正包 代表示例、权向量和分类间隔进行更新,并在每一轮迭代完毕之后重新计算(1)的目标函 数值;若在连续两轮迭代之后计算出的(1)的目标函数值的相对变化小于预先设定的阈 值,则可以停止迭代并结束整个优化过程。
【文档编号】G06F19/00GK104091038SQ201310110952
【公开日】2014年10月8日 申请日期:2013年4月1日 优先权日:2013年4月1日
【发明者】柴晶, 陈宏涛, 黄丽霞, 孙颖 申请人:太原理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1