一种基于非平衡样本的计算机数据挖掘方法

文档序号:9708814阅读:171来源:国知局
一种基于非平衡样本的计算机数据挖掘方法
【技术领域】
[0001] 本发明涉及计算机数据挖掘的领域,尤其是涉及一种基于非平衡样本的计算机数 据挖掘方法。
【背景技术】
[0002] 近年来,随着数据采集和存储等技术的发展,信息社会的数据呈现了爆棚式增长, 出现了"数据丰富,信息贫乏"的局面。海量数据不仅使得人们难以分辨出有用的数据,更大 大增加了数据分析工作的复杂程度。为了解决这个问题,数据挖掘技术应运而生。数据挖掘 的诞生,旨在将社会上存在的可以广泛使用的大量数据,转换成有用的知识和信息,应用于 市场分析、欺诈监测、顾客保有、产品控制和科学探索等。
[0003] 在实际应用中,数据挖掘任务繁多,但通常可以分为两类:预测和播述。它涉及多 个学科,比如机器学习、数理统计、棋式识别、信号处理、数据库等等,数据挖掘作为一口面 向应用的技术,传统的数据挖掘算法不能适用于所有应用场景。因为在实际应用中,数据库 中的数据往往不是十分理想,比如非平衡数据、多分类数据、时间序列和数据流等。
[0004] 非平衡数据集分为两种,一种是本质非平衡数据集,比如电信恶意欠费问题,实际 上恶意欠费的客户样本就比较少;另一种是非本质非平衡数据集,由于部分样本数据采集 成本较少。但不过哪一种非平衡数据其数据挖掘目前都还没有很好的处理方法,都有待于 进一步研究。

【发明内容】

[0005] 本发明的目的是克服现有技术中存在的上述缺陷,提供一种基于非平衡样本的计 算机数据挖掘方法,使其能有效处理非平衡样本数据,具有更强的泛华能力和鲁棒性,提高 了数据挖掘的精度,便于高效地对非平衡样本进行筛选分类。
[0006] 为了实现上述目的,本发明提供了一种基于非平衡样本的计算机数据挖掘方法, 该方法包括如下步骤:
[0007] 步骤1:输入给定非平衡样本集X,其中X= {Xi,x2,…,xn};
[0008] 步骤2:对输入样本进行特征集求解,求取其特征集为fs,其特征集fs表示为:
[0009] fs={fi,f2,---,fn};
[0010] 步骤3:采用层次分析法计算特征乜的权重系数w1;
[0011] 步骤4:建立基于权重系数Wi的线性变换加权矩阵P,其线性变换加权矩阵P表示 为:
[0012]
[0013]步骤5:采用线性变换加权矩阵P改造Gauss核函数,得到基于特征加权的核函数K (父1乂」),其核函数1((乂1\)表示为:
[0014] K(Xi,Xj) = 〇(Xi)〇(Xj),
[0015]其中,Φ表示输入空间到特征空间的映射,Xi和Xj为非平衡样本集X中的样本;
[0016] 步骤6:建立基于特征加权核函数的支持向量机分类模型f(x),其表达式为:
[0017]
i=l j=l
[0018] 其中,yi为类标签,Xl为样本数据,ai为样本点^的拉格朗日乘子,C为惩罚参数;
[0019] 步骤7:设定需分类的分类种数m,利用Matlab编程软件对支持向量机分类模型f (X)求解,从而得到对非平衡样本的筛选分类结果。
[0020] 与现有技术相比,本发明的主要优势在于:
[0021] 本发明公开了一种基于非平衡样本的计算机数据挖掘方法,该挖掘方法通过输入 给定非平衡样本集,并对输入样本进行特征集求解,再采用基于流形学习的特征加权法计 算特征的权重系数,建立基于权重系数的线性变换加权矩阵,并采用线性变换加权矩阵改 造Gauss核函数,得到基于特征加权的核函数,最后建立基于特征加权核函数的支持向量机 分类模型,对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据,具有更强的泛 化能力和鲁棒性,提高了数据挖掘的精度,便于高效地对非平衡样本进行筛选分类。
【附图说明】
[0022]图1为本发明的实现原理框图。
【具体实施方式】
[0023]以下结合附图对本发明的【具体实施方式】进行详细说明,以便本领域的技术人员更 好地理解本发明。
[0024] 如图1所示,是本发明所述的一种基于非平衡样本的计算机数据挖掘方法的具体 实施方式,其具体实施步骤为:
[0025] 步骤1:输入给定非平衡样本集X,其中X=㈨,X2,…,Xn};
[0026] 步骤2:对输入样本进行特征集求解,求取其特征集为fs,其特征集fs表示为:
[0027] fs= {fl,f2, ··· ,fn};
[0028] 步骤3:采用层次分析法计算特征h的权重系数I;
[0029] 步骤4:建立基于权重系数Wi的线性变换加权矩阵P,其线性变换加权矩阵P表示 为:
[0030]
[0031] 步骤5:采用线性变换加权矩阵P改造Gauss核函数,得到基于特征加权的核函数K (父1乂」),其核函数1((乂1\)表示为:
[0032] K(Xi,Xj) = 〇(Xi)〇(Xj),
[0033] 其中,Φ表示输入空间到特征空间的映射,为非平衡样本集X中的样本;
[0034] 步骤6:建立基于特征加权核函数的支持向量机分类模型f(x),其表达式为:
[0035]
[0036] 其中,yi为类标签,Xl为样本数据,ai为样本点^的拉格朗日乘子,C为惩罚参数;
[0037] 步骤7:设定需分类的分类种数m,利用Matlab编程软件对支持向量机分类模型f (X)求解,从而得到对非平衡样本的筛选分类结果。
[0038] 该挖掘方法通过输入给定非平衡样本集,并对输入样本进行特征集求解,再采用 基于流形学习的特征加权法计算特征的权重系数,建立基于权重系数的线性变换加权矩 阵,并采用线性变换加权矩阵改造Gauss核函数,得到基于特征加权的核函数,最后建立基 于特征加权核函数的支持向量机分类模型,对非平衡样本进行筛选分类。本发明能有效处 理非平衡样本数据,具有更强的泛化能力和鲁棒性,提高了数据挖掘的精度,便于高效地对 非平衡样本进行筛选分类。
[0039]以上实施方式仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡 是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范 围之内。
【主权项】
1. 一种基于非平衡样本的计算机数据挖掘方法,其特征在于,包括以下步骤: 步骤1:输入给定非平衡样本集X,其中Χ={Χι,Χ2, · · ·,χη}; 步骤2:对输入样本进行特征集求解,求取其特征集为fs,其特征集fs表示为: fs={fl,f2, ? ? ? ,fn}; 步骤3 :采用层次分析法计算特征h的权重系数I; 步骤4:建立基于权重系数Wi的线性变换加权矩阵P,其线性变换加权矩阵P表示为: Ψ P = 2 ·· ; V _ η _ 步骤5:采用线性变换加权矩阵Ρ改造Gauss核函数,得到基于特征加权的核函数KUi, Xj),其核函数K(Xi,Xj)表示为: K(Xi,Xj) = ?(Xi)?(Xj), 其中,Φ表示输入空间到特征空间的映射,Xi和Xj为非平衡样本集X中的样本; 步骤6:建立基于特征加权核函数的支持向量机分类模型f(x),其表达式为: fiji) = sgn ΕΣ i:=l J=l ^ 其中,为类标签,为样本数据,ai为样本AXl的拉格朗日乘子,c为惩罚参数, 步骤7:设定需分类的分类种数m,利用Matlab编程软件对支持向量机分类模型f(x)求 解,从而得到对非平衡样本的筛选分类结果。
【专利摘要】本发明公开了一种基于非平衡样本的计算机数据挖掘方法,该挖掘方法通过输入给定非平衡样本集,并对输入样本进行特征集求解,再采用基于流形学习的特征加权法计算特征的权重系数,建立基于权重系数的线性变换加权矩阵,并采用线性变换加权矩阵改造Gauss核函数,得到基于特征加权的核函数,最后建立基于特征加权核函数的支持向量机分类模型,对非平衡样本进行筛选分类。本发明能有效处理非平衡样本数据,具有更强的泛化能力和鲁棒性,提高了数据挖掘的精度,便于高效地对非平衡样本进行筛选分类。
【IPC分类】G06K9/62
【公开号】CN105469122
【申请号】CN201511015488
【发明人】黄海洋, 关宏波
【申请人】郑州轻工业学院
【公开日】2016年4月6日
【申请日】2015年12月29日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1