一种基于非平衡样本的计算机数据挖掘方法

文档序号：9708814阅读：171来源：国知局

一种基于非平衡样本的计算机数据挖掘方法
【技术领域】
[0001] 本发明涉及计算机数据挖掘的领域，尤其是涉及一种基于非平衡样本的计算机数据挖掘方法。
【背景技术】
[0002] 近年来，随着数据采集和存储等技术的发展，信息社会的数据呈现了爆棚式增长，出现了"数据丰富，信息贫乏"的局面。海量数据不仅使得人们难以分辨出有用的数据，更大大增加了数据分析工作的复杂程度。为了解决这个问题，数据挖掘技术应运而生。数据挖掘的诞生，旨在将社会上存在的可以广泛使用的大量数据，转换成有用的知识和信息，应用于市场分析、欺诈监测、顾客保有、产品控制和科学探索等。
[0003] 在实际应用中，数据挖掘任务繁多，但通常可以分为两类:预测和播述。它涉及多个学科，比如机器学习、数理统计、棋式识别、信号处理、数据库等等，数据挖掘作为一口面向应用的技术，传统的数据挖掘算法不能适用于所有应用场景。因为在实际应用中，数据库中的数据往往不是十分理想，比如非平衡数据、多分类数据、时间序列和数据流等。
[0004] 非平衡数据集分为两种，一种是本质非平衡数据集，比如电信恶意欠费问题，实际上恶意欠费的客户样本就比较少；另一种是非本质非平衡数据集，由于部分样本数据采集成本较少。但不过哪一种非平衡数据其数据挖掘目前都还没有很好的处理方法，都有待于进一步研究。

【发明内容】

[0005] 本发明的目的是克服现有技术中存在的上述缺陷，提供一种基于非平衡样本的计算机数据挖掘方法，使其能有效处理非平衡样本数据，具有更强的泛华能力和鲁棒性，提高了数据挖掘的精度，便于高效地对非平衡样本进行筛选分类。
[0006] 为了实现上述目的，本发明提供了一种基于非平衡样本的计算机数据挖掘方法，该方法包括如下步骤：
[0007] 步骤1:输入给定非平衡样本集X，其中X= {Xi，x2，…，xn};
[0008] 步骤2:对输入样本进行特征集求解，求取其特征集为fs，其特征集fs表示为：
[0009] fs={fi,f2,---,fn};
[0010] 步骤3:采用层次分析法计算特征乜的权重系数w1;
[0011] 步骤4:建立基于权重系数Wi的线性变换加权矩阵P，其线性变换加权矩阵P表示为：
[0012]
[0013]步骤5:采用线性变换加权矩阵P改造Gauss核函数，得到基于特征加权的核函数K (父1乂」），其核函数1((乂1\)表示为：
[0014] K(Xi，Xj) = 〇(Xi)〇(Xj)，
[0015]其中，Φ表示输入空间到特征空间的映射，Xi和Xj为非平衡样本集X中的样本；
[0016] 步骤6:建立基于特征加权核函数的支持向量机分类模型f(x)，其表达式为：
[0017]
i=l j=l
[0018] 其中，yi为类标签，Xl为样本数据，ai为样本点^的拉格朗日乘子，C为惩罚参数；
[0019] 步骤7:设定需分类的分类种数m，利用Matlab编程软件对支持向量机分类模型f (X)求解，从而得到对非平衡样本的筛选分类结果。
[0020] 与现有技术相比，本发明的主要优势在于：
[0021] 本发明公开了一种基于非平衡样本的计算机数据挖掘方法，该挖掘方法通过输入给定非平衡样本集，并对输入样本进行特征集求解，再采用基于流形学习的特征加权法计算特征的权重系数，建立基于权重系数的线性变换加权矩阵，并采用线性变换加权矩阵改造Gauss核函数，得到基于特征加权的核函数，最后建立基于特征加权核函数的支持向量机分类模型，对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据，具有更强的泛化能力和鲁棒性，提高了数据挖掘的精度，便于高效地对非平衡样本进行筛选分类。
【附图说明】
[0022]图1为本发明的实现原理框图。
【具体实施方式】
[0023]以下结合附图对本发明的【具体实施方式】进行详细说明，以便本领域的技术人员更好地理解本发明。
[0024] 如图1所示，是本发明所述的一种基于非平衡样本的计算机数据挖掘方法的具体实施方式，其具体实施步骤为：
[0025] 步骤1:输入给定非平衡样本集X，其中X=㈨，X2，…，Xn};
[0026] 步骤2:对输入样本进行特征集求解，求取其特征集为fs，其特征集fs表示为：
[0027] fs= {fl,f2, ··· ,fn}；
[0028] 步骤3:采用层次分析法计算特征h的权重系数I;
[0029] 步骤4:建立基于权重系数Wi的线性变换加权矩阵P，其线性变换加权矩阵P表示为：
[0030]
[0031] 步骤5:采用线性变换加权矩阵P改造Gauss核函数，得到基于特征加权的核函数K (父1乂」），其核函数1((乂1\)表示为：
[0032] K(Xi，Xj) = 〇(Xi)〇(Xj)，
[0033] 其中，Φ表示输入空间到特征空间的映射，为非平衡样本集X中的样本；
[0034] 步骤6:建立基于特征加权核函数的支持向量机分类模型f(x)，其表达式为：
[0035]
[0036] 其中，yi为类标签，Xl为样本数据，ai为样本点^的拉格朗日乘子，C为惩罚参数；
[0037] 步骤7:设定需分类的分类种数m，利用Matlab编程软件对支持向量机分类模型f (X)求解，从而得到对非平衡样本的筛选分类结果。
[0038] 该挖掘方法通过输入给定非平衡样本集，并对输入样本进行特征集求解，再采用基于流形学习的特征加权法计算特征的权重系数，建立基于权重系数的线性变换加权矩阵，并采用线性变换加权矩阵改造Gauss核函数，得到基于特征加权的核函数，最后建立基于特征加权核函数的支持向量机分类模型，对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据，具有更强的泛化能力和鲁棒性，提高了数据挖掘的精度，便于高效地对非平衡样本进行筛选分类。
[0039]以上实施方式仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。
【主权项】
1. 一种基于非平衡样本的计算机数据挖掘方法，其特征在于，包括以下步骤：步骤1:输入给定非平衡样本集X，其中Χ={Χι，Χ2, · · ·，χη}; 步骤2:对输入样本进行特征集求解，求取其特征集为fs，其特征集fs表示为： fs={fl,f2, ? ? ? ,fn}；步骤3 :采用层次分析法计算特征h的权重系数I; 步骤4:建立基于权重系数Wi的线性变换加权矩阵P，其线性变换加权矩阵P表示为： Ψ P = 2 ·· ； V _ η _ 步骤5:采用线性变换加权矩阵Ρ改造Gauss核函数，得到基于特征加权的核函数KUi， Xj)，其核函数K(Xi，Xj)表示为： K(Xi,Xj) = ?(Xi)?(Xj), 其中，Φ表示输入空间到特征空间的映射，Xi和Xj为非平衡样本集X中的样本；步骤6:建立基于特征加权核函数的支持向量机分类模型f(x)，其表达式为： fiji) = sgn ΕΣ i：=l J=l ^ 其中，为类标签，为样本数据，ai为样本AXl的拉格朗日乘子，c为惩罚参数，步骤7:设定需分类的分类种数m，利用Matlab编程软件对支持向量机分类模型f(x)求解，从而得到对非平衡样本的筛选分类结果。
【专利摘要】本发明公开了一种基于非平衡样本的计算机数据挖掘方法，该挖掘方法通过输入给定非平衡样本集，并对输入样本进行特征集求解，再采用基于流形学习的特征加权法计算特征的权重系数，建立基于权重系数的线性变换加权矩阵，并采用线性变换加权矩阵改造Gauss核函数，得到基于特征加权的核函数，最后建立基于特征加权核函数的支持向量机分类模型，对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据，具有更强的泛化能力和鲁棒性，提高了数据挖掘的精度，便于高效地对非平衡样本进行筛选分类。
【IPC分类】G06K9/62
【公开号】CN105469122
【申请号】CN201511015488
【发明人】黄海洋, 关宏波
【申请人】郑州轻工业学院
【公开日】2016年4月6日
【申请日】2015年12月29日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄海洋;关宏波;
技术所有人：郑州轻工业学院;
我是此专利的发明人

上一篇：一种基于k平面回归的缺失数据补全方法
上一篇：一种例外点抑制的快速回归分类方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。