一种基于文本模型的过采样算法

文档序号:6638429阅读:2114来源:国知局
一种基于文本模型的过采样算法
【专利摘要】本发明提供一种基于文本模型的过采样算法,该算法是通过计算每个样本在少数类样本中的k近邻和全体样本中的k近邻,并根据两个集合的分布情况,采取不同的处理方案进行过采样,并在过程中减小噪声,使得分类器更倾向于将不易判断类别的样本划分为少数类,进而提高少数类的查全率。
【专利说明】一种基于文本模型的过采样算法

【技术领域】
[0001] 本发明涉及文本模型不平衡数据的二分类,尤其涉及一种基于文本模型的过采样 算法

【背景技术】
[0002] 1)文本挖掘
[0003] 随着计算机技术、网络技术的发展,汹涌而来的信息有时使人无所适从,从浩如烟 海的信息海洋中迅速而准确地获取自己最需要的信息,变得非常困难。海量信息中,许多是 文本信息。于是产生了一种新的信息处理技术--文本挖掘。
[0004] 文本挖掘是从大量文本信息中,抽取出隐含的、有用的知识,这一过程也称为文本 数据库中的知识发现。它涉及到数据库、机器学习、自然语言处理、统计数据分析等多个学 科领域。研宄内容包括文本聚类、文本分类、文本摘要的生成、信息抽取等问题。
[0005] 2)文本分类
[0006] 文本分类是文本挖掘研宄中一个重要的问题,它是指在给定的分类体系下,将大 量文本划分为两个或多个类别。利用计算机进行文本分类,不仅速度快,而且准确率相对较 高。在现实生活中已经有了很多应用,例如,对Web网页进行分类,将包含相同内容的页面 归为一类。文本分类的步骤主要包括获取训练文档集、信息的预处理、特征提取、文本表示、 选择分类方法和性能评估六个步骤
[0007] 3)不平衡数据分类
[0008] 在许多实际应用中,数据集往往不平衡,即其中某个类别的样本数可能远远小于 另一个类别,而往往其中少数类的识别率更为重要。例如医疗诊断、信用卡检测等。
[0009] 在传统的分类学习中,通常倾向于对多数类有较高的识别率,儿对少数类的识别 率很低。因此解决不平衡数据集的分类问题需要对寻求新的解决办法。通常采用的方法是 通过改变训练数据的分布来消除过减弱数据的不平衡。大体策略有两种:过采样和欠采样。
[0010] 过采样是通过增加少数类样本来消除或减弱数据的不平衡,欠采样是通过减少多 数类样本来消除或减弱数据的不平衡。其中较多采用的方法是Chawla等人提出的SMOTE 算法。
[0011] 4) SMOTE 算法
[0012] SMOTE (Synthetic Minority Over-sampling Technique)算法是由 Chawla等人提 出的一种过采样方法。其核心思想是通过增加少数类样本的数目来达到使数据集趋于平衡 的目的。主要应用的方法是k近邻和线性插值:在样本点和其邻近的点之间按照一定的规 则生成新的样本,从而增大少数类样本的规模。
[0013] 算法具体描述如下:
[0014] 对于少数类中的每一个样本S,选择欧几里得距离作为距离函数,计算出S的k个 最近邻样本。一般情况下,k的值取5。
[0015] 对于少数类中的每一个样本t,从其k个最近邻中选择合适的m个样本(Lt2,… ,tm),并在S与ti(i = 1,2, ^m)之间进行随机线性插值。m的选择应参照数据集中的不 平衡比率。
[0016] 对每一个选出的近邻Xi,按照公式1,构造出新的样本。
[0017] tnew= S+rand(0, I) X (t -S)
[0018] 其中rand(0, 1)表示0到1之间的一个随机数,这种方法叫做随机线性插值
[0019] 把原始训练样本和人工合成的样本合并成一个新的训练集,然后使用新的训练集 进行学习。
[0020] SMOTE算法给出了合成样本的规则,避免了直接复制样本导致的过学习,实验表明 SMOTE算法相对于其他过采样方法能更好地提高不平衡数据分类的效果。
[0021] SMOTE算法采用k近邻的方法来找出适合于原始少数类样本协同生成新样本的样 本。所谓k近邻,就是根据某种距离计算方法,先计算样本间的距离,在选出k个最近距离 的样本,对于数值属性,距离计算方法通常采用欧几里得距离。假设X,y是两个η维样本, 则X,y之间欧几里得距离可由公式2得到。

【权利要求】
1. 一种基于文本模型的过采样算法,包括如下步骤: 第一,在文本模型中选取每个少数类样本S,分别对集合Cand(S)和Noise(S)初始化; 第二,计算S与文本模型中所有样本的欧几里得距离,并选出其中距离最近的k个样本 (k通常取5),存入集合A(S); 计算S与所有其他少数类样本的欧几里得距离,并选出其中距离最近的k个样本,存入 集合B⑶; 第三,计算集合A(S)中少数类烊太所占的比例R,
其中IA⑶ΠB(S)I表示A(S)和B(S)的交集的样本数,|A(S)I表示A(S)的样本数; 第四,根据步骤三中R的值更新集合Cand(S)和Noise(S); 第五,对步骤四中获得集合Cand(S)判断是否为空,如果集合Cand(S)不为空,则进行 随机线性插值,即从Cand中(S)随机选出m个样本,分别与样本S进行随机线性插值,m的 取值应参照样本集合不平衡比率; 第六,对步骤四获得集合Noise(S)判断是否为空,集合Noise(S)不为空,则从样本集 合中删除Noise(S)集合中包含的样本; 第七,判断文本模型中是否存在少数类样本S;如果步骤七中存在少数类样本S,则返 回步骤一循环计算;否则算法结束。
2. 根据权利要求1所述基于文本模型的过采样算法,其特征在于,所述步骤四中R= 0,令Cand(S) =null,Noise(S) =S。
3. 根据权利要求1所述基于文本模型的过采样算法,其特征在于,所述步骤四中 (KR<0.2 令Cand(S) =null,Noise(S) =null。
4. 根据权利要求1所述基于文本模型的过采样算法,其特征在于,所述步骤四中 0.2〈R〈0. 8令Cand(S) =A(S)ΠB(S),对于A(S)中的每一个多数类样本%,随机选择一 个样本S少,S少eB(S)且S少隹B(S)。计算S和S少的欧几里得距离,ISS少I,计算S多和S少的 欧几里得距离,IS多S少I,若IS多S少I〈ISS少I,则将S多加入到Noise(S)。
5. 根据权利要求1所述基于文本模型的过采样算法,其特征在于,所述步骤四中 0· 8 彡R彡 1 令Cand(S) =A(S)ΠB(S),Noise(S) =A(S)-A(S)ΠB(S) 〇
【文档编号】G06F17/30GK104462405SQ201410765212
【公开日】2015年3月25日 申请日期:2014年12月10日 优先权日:2014年12月10日
【发明者】刘江, 王浩 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1