一种基于文本模型的过采样算法

文档序号：6638429阅读：2114来源：国知局

一种基于文本模型的过采样算法
【专利摘要】本发明提供一种基于文本模型的过采样算法，该算法是通过计算每个样本在少数类样本中的k近邻和全体样本中的k近邻，并根据两个集合的分布情况，采取不同的处理方案进行过采样，并在过程中减小噪声，使得分类器更倾向于将不易判断类别的样本划分为少数类，进而提高少数类的查全率。
【专利说明】一种基于文本模型的过采样算法

【技术领域】
[0001] 本发明涉及文本模型不平衡数据的二分类，尤其涉及一种基于文本模型的过采样算法

【背景技术】
[0002] 1)文本挖掘
[0003] 随着计算机技术、网络技术的发展，汹涌而来的信息有时使人无所适从，从浩如烟海的信息海洋中迅速而准确地获取自己最需要的信息，变得非常困难。海量信息中，许多是文本信息。于是产生了一种新的信息处理技术--文本挖掘。
[0004] 文本挖掘是从大量文本信息中，抽取出隐含的、有用的知识，这一过程也称为文本数据库中的知识发现。它涉及到数据库、机器学习、自然语言处理、统计数据分析等多个学科领域。研宄内容包括文本聚类、文本分类、文本摘要的生成、信息抽取等问题。
[0005] 2)文本分类
[0006] 文本分类是文本挖掘研宄中一个重要的问题，它是指在给定的分类体系下，将大量文本划分为两个或多个类别。利用计算机进行文本分类，不仅速度快，而且准确率相对较高。在现实生活中已经有了很多应用，例如，对Web网页进行分类，将包含相同内容的页面归为一类。文本分类的步骤主要包括获取训练文档集、信息的预处理、特征提取、文本表示、选择分类方法和性能评估六个步骤
[0007] 3)不平衡数据分类
[0008] 在许多实际应用中，数据集往往不平衡，即其中某个类别的样本数可能远远小于另一个类别，而往往其中少数类的识别率更为重要。例如医疗诊断、信用卡检测等。
[0009] 在传统的分类学习中，通常倾向于对多数类有较高的识别率，儿对少数类的识别率很低。因此解决不平衡数据集的分类问题需要对寻求新的解决办法。通常采用的方法是通过改变训练数据的分布来消除过减弱数据的不平衡。大体策略有两种：过采样和欠采样。
[0010] 过采样是通过增加少数类样本来消除或减弱数据的不平衡，欠采样是通过减少多数类样本来消除或减弱数据的不平衡。其中较多采用的方法是Chawla等人提出的SMOTE 算法。
[0011] 4) SMOTE 算法
[0012] SMOTE (Synthetic Minority Over-sampling Technique)算法是由 Chawla等人提出的一种过采样方法。其核心思想是通过增加少数类样本的数目来达到使数据集趋于平衡的目的。主要应用的方法是k近邻和线性插值：在样本点和其邻近的点之间按照一定的规则生成新的样本，从而增大少数类样本的规模。
[0013] 算法具体描述如下：
[0014] 对于少数类中的每一个样本S，选择欧几里得距离作为距离函数，计算出S的k个最近邻样本。一般情况下，k的值取5。
[0015] 对于少数类中的每一个样本t，从其k个最近邻中选择合适的m个样本（Lt2，… ，tm)，并在S与ti(i = 1，2, ^m)之间进行随机线性插值。m的选择应参照数据集中的不平衡比率。
[0016] 对每一个选出的近邻Xi，按照公式1，构造出新的样本。
[0017] tnew= S+rand(0, I) X (t -S)
[0018] 其中rand(0, 1)表示0到1之间的一个随机数，这种方法叫做随机线性插值
[0019] 把原始训练样本和人工合成的样本合并成一个新的训练集，然后使用新的训练集进行学习。
[0020] SMOTE算法给出了合成样本的规则，避免了直接复制样本导致的过学习，实验表明 SMOTE算法相对于其他过采样方法能更好地提高不平衡数据分类的效果。
[0021] SMOTE算法采用k近邻的方法来找出适合于原始少数类样本协同生成新样本的样本。所谓k近邻，就是根据某种距离计算方法，先计算样本间的距离，在选出k个最近距离的样本，对于数值属性，距离计算方法通常采用欧几里得距离。假设X，y是两个η维样本，则X，y之间欧几里得距离可由公式2得到。

【权利要求】
1. 一种基于文本模型的过采样算法，包括如下步骤：第一，在文本模型中选取每个少数类样本S，分别对集合Cand(S)和Noise(S)初始化；第二，计算S与文本模型中所有样本的欧几里得距离，并选出其中距离最近的k个样本 (k通常取5)，存入集合A(S); 计算S与所有其他少数类样本的欧几里得距离，并选出其中距离最近的k个样本，存入集合B⑶；第三，计算集合A(S)中少数类烊太所占的比例R,
其中IA⑶ΠB(S)I表示A(S)和B(S)的交集的样本数，|A(S)I表示A(S)的样本数；第四，根据步骤三中R的值更新集合Cand(S)和Noise(S); 第五，对步骤四中获得集合Cand(S)判断是否为空，如果集合Cand(S)不为空，则进行随机线性插值，即从Cand中（S)随机选出m个样本，分别与样本S进行随机线性插值，m的取值应参照样本集合不平衡比率；第六，对步骤四获得集合Noise(S)判断是否为空，集合Noise(S)不为空，则从样本集合中删除Noise(S)集合中包含的样本；第七，判断文本模型中是否存在少数类样本S;如果步骤七中存在少数类样本S，则返回步骤一循环计算；否则算法结束。
2. 根据权利要求1所述基于文本模型的过采样算法，其特征在于，所述步骤四中R= 0，令Cand(S) =null，Noise(S) =S。
3. 根据权利要求1所述基于文本模型的过采样算法，其特征在于，所述步骤四中 (KR<0.2 令Cand(S) =null，Noise(S) =null。
4. 根据权利要求1所述基于文本模型的过采样算法，其特征在于，所述步骤四中 0.2〈R〈0. 8令Cand(S) =A(S)ΠB(S)，对于A(S)中的每一个多数类样本％，随机选择一个样本S少，S少eB(S)且S少隹B(S)。计算S和S少的欧几里得距离，ISS少I，计算S多和S少的欧几里得距离，IS多S少I，若IS多S少I〈ISS少I，则将S多加入到Noise(S)。
5. 根据权利要求1所述基于文本模型的过采样算法，其特征在于，所述步骤四中 0· 8 彡R彡 1 令Cand(S) =A(S)ΠB(S)，Noise(S) =A(S)-A(S)ΠB(S) 〇
【文档编号】G06F17/30GK104462405SQ201410765212
【公开日】2015年3月25日申请日期:2014年12月10日优先权日:2014年12月10日
【发明者】刘江, 王浩申请人:天津大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘江;王浩;
技术所有人：天津大学;
我是此专利的发明人

上一篇：一种提取文本模型特征进行分类算法
上一篇：基于堆栈自动编码机的合成孔径雷达图像分类方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。