基于大数据的计算机数据挖掘探索方法

文档序号:9887716阅读:138来源:国知局
基于大数据的计算机数据挖掘探索方法
【技术领域】
[0001]本发明涉及计算机数据挖掘技术的领域,尤其是涉及基于大数据的计算机数据挖掘探索方法。
【背景技术】
[0002]近年来,随着数据采集和存储等技术的发展,信息社会的数据呈现了爆棚式增长,出现了“数据丰富,信息贫乏”的局面。海量数据不仅使得人们难以分辨出有用的数据,更大大增加了数据分析工作的复杂程度。为了解决这个问题,数据挖掘技术应运而生。数据挖掘的诞生,旨在将社会上存在的可以广泛使用的大量数据,转换成有用的知识和信息,应用于市场分析、欺诈监测、顾客保有、产品控制和科学探索等。
[0003]在实际应用中,数据挖掘任务繁多,但通常可以分为两类:预测和播述。它涉及多个学科,比如机器学习、数理统计、棋式识别、信号处理、数据库等等,数据挖掘作为一口面向应用的技术,传统的数据挖掘算法不能适用于所有应用场景。因为在实际应用中,数据库中的数据往往不是十分理想,比如非平衡数据、多分类数据、时间序列和数据流等。
[0004]虽然近年来,数据挖掘技术在理论和实际应用中都取得了丰硕的成果,但由于实际工程中数据复杂、挖掘任务多样,仍有许多具有挑战性的课题亟待解决,基于大数据的挖掘就是其中一个重要问题,其运算速度和精度等都有待于进一步提高。

【发明内容】

[0005]本发明的目的是克服现有技术中存在的上述缺陷,提供一种基于大数据的计算机数据挖掘探索方法,使其能有效地处理海量数据,提高数据挖掘的运算速度和精度,能有效提取所需的探索兴趣特征数据。
[0006]为了实现上述目的,本发明提供了一种基于大数据的计算机数据挖掘探索方法,该方法包括如下步骤:
[0007]步骤1:输入给定的大数据样本集X,其中X=IX1J2,...,Xnl;
[0008]步骤2:对输入样本集进行去噪、归一化处理;
[0009]步骤3:选取m值和W=(Wi1W2,…Wm)分别作为均值聚类算法的生成簇个数和初始质的参数;
[0010]步骤4:执行均值聚类算法,得到m个簇{Ml,M2,…,Mm};
[0011 ]步骤5:将这m个簇的每个Mi作为初始簇的子簇;
[0012]步骤6:计算特征向量Y,其特征向量Y表示为:
[0013]Y= (Yi, Y2,..., Ym);
[0014]步骤7:设定探索兴趣参数cUihfd,则输出兴趣特征1,否则不做处理。
[0015]与现有技术相比,本发明的主要优势在于:
[0016]本发明公开了基于大数据的计算机数据挖掘探索方法,该计算机数据挖掘探索方法通过对输入样本集进行去噪、归一化处理,然后选取生成簇个数和初始质的参数执行均值聚类算法,并将计算结果作为初始簇的的子簇,再计算特征向量,最后设定探索兴趣参数与兴趣特征做比较,从而输出兴趣特征数据。该方法能有效地处理海量数据,提高数据挖掘的运算速度和精度,能有效提取所需的探索兴趣特征数据。
【附图说明】
[0017]图1为本发明的实现原理框图。
【具体实施方式】
[0018]以下结合附图对本发明的【具体实施方式】进行详细说明,以便本领域的技术人员更好地理解本发明。
[0019]如图1所示,是本发明所述的基于大数据的计算机数据挖掘探索方法的【具体实施方式】,其具体实施步骤为:
[0020]步骤1:输入给定的大数据样本集X,其中Χ={Χι,Χ2,...,Xnl ;
[0021 ]步骤2:对输入样本集进行去噪、归一化处理;
[0022]步骤3:选取m值和W=(Wi1W2,…Wm)分别作为均值聚类算法的生成簇个数和初始质的参数;
[0023]步骤4:执行均值聚类算法,得至Ijm个簇(M^M2,...,Μ?};
[0024]步骤5:将这m个簇的每个Mi作为初始簇的子簇;
[0025]步骤6:计算特征向量Y,其特征向量Y表示为:
[0026]Y= (Yi,Y2,...,Ym);
[0027]步骤7:设定探索兴趣参数cUihfd,则输出兴趣特征1,否则不做处理。
[0028]该计算机数据挖掘探索方法通过对输入样本集进行去噪、归一化处理,然后选取生成簇个数和初始质的参数执行均值聚类算法,并将计算结果作为初始簇的的子簇,再计算特征向量,最后设定探索兴趣参数与兴趣特征做比较,从而输出兴趣特征数据。该方法能有效地处理海量数据,提高数据挖掘的运算速度和精度,能有效提取所需的探索兴趣特征数据。
[0029]以上实施方式仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
【主权项】
1.基于大数据的计算机数据挖掘探索方法,其特征在于,该方法包括以下步骤: 步骤1:输入给定的大数据样本集X,其中X = {X1,X2,…,Xn}; 步骤2:对输入样本集进行去噪、归一化处理; 步骤3:选取m值和W= (Wi1W2,…Wm)分别作为均值聚类算法的生成簇个数和初始质的参数; 步骤4:执行均值聚类算法,得到m个簇 步骤5:将这m个簇的每个Mi作为初始簇的子簇; 步骤6:计算特征向量Y,其特征向量Y表示为: Y=(Yi,Y2,...,Ym); 步骤7:设定探索兴趣参数cUihfd,则输出兴趣特征1,否则不做处理。
【专利摘要】本发明公开了基于大数据的计算机数据挖掘探索方法,该计算机数据挖掘探索方法通过对输入样本集进行去噪、归一化处理,然后选取生成簇个数和初始质的参数执行均值聚类算法,并将计算结果作为初始簇的子簇,再计算特征向量,最后设定探索兴趣参数与兴趣特征做比较,从而输出兴趣特征数据。该方法能有效地处理海量数据,提高数据挖掘的运算速度和精度,能有效提取所需的探索兴趣特征数据。
【IPC分类】G06F17/30
【公开号】CN105653615
【申请号】
【发明人】蒋雪峰, 蒋顺恺, 石永丽
【申请人】石永丽
【公开日】2016年6月8日
【申请日】2015年12月25日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1