基于大数据的计算机数据挖掘探索方法

文档序号：9887716阅读：138来源：国知局

基于大数据的计算机数据挖掘探索方法
【技术领域】
[0001]本发明涉及计算机数据挖掘技术的领域，尤其是涉及基于大数据的计算机数据挖掘探索方法。
【背景技术】
[0002]近年来，随着数据采集和存储等技术的发展，信息社会的数据呈现了爆棚式增长，出现了“数据丰富，信息贫乏”的局面。海量数据不仅使得人们难以分辨出有用的数据，更大大增加了数据分析工作的复杂程度。为了解决这个问题，数据挖掘技术应运而生。数据挖掘的诞生，旨在将社会上存在的可以广泛使用的大量数据，转换成有用的知识和信息，应用于市场分析、欺诈监测、顾客保有、产品控制和科学探索等。
[0003]在实际应用中，数据挖掘任务繁多，但通常可以分为两类:预测和播述。它涉及多个学科，比如机器学习、数理统计、棋式识别、信号处理、数据库等等，数据挖掘作为一口面向应用的技术，传统的数据挖掘算法不能适用于所有应用场景。因为在实际应用中，数据库中的数据往往不是十分理想，比如非平衡数据、多分类数据、时间序列和数据流等。
[0004]虽然近年来，数据挖掘技术在理论和实际应用中都取得了丰硕的成果，但由于实际工程中数据复杂、挖掘任务多样，仍有许多具有挑战性的课题亟待解决，基于大数据的挖掘就是其中一个重要问题，其运算速度和精度等都有待于进一步提高。

【发明内容】

[0005]本发明的目的是克服现有技术中存在的上述缺陷，提供一种基于大数据的计算机数据挖掘探索方法，使其能有效地处理海量数据，提高数据挖掘的运算速度和精度，能有效提取所需的探索兴趣特征数据。
[0006]为了实现上述目的，本发明提供了一种基于大数据的计算机数据挖掘探索方法，该方法包括如下步骤:
[0007]步骤1:输入给定的大数据样本集X，其中X=IX1J2,...,Xnl;
[0008]步骤2:对输入样本集进行去噪、归一化处理；
[0009]步骤3:选取m值和W=(Wi1W2，…Wm)分别作为均值聚类算法的生成簇个数和初始质的参数；
[0010]步骤4:执行均值聚类算法，得到m个簇{Ml，M2，…，Mm};
[0011 ]步骤5:将这m个簇的每个Mi作为初始簇的子簇；
[0012]步骤6:计算特征向量Y，其特征向量Y表示为:
[0013]Y= (Yi, Y2,..., Ym);
[0014]步骤7:设定探索兴趣参数cUihfd，则输出兴趣特征1，否则不做处理。
[0015]与现有技术相比，本发明的主要优势在于:
[0016]本发明公开了基于大数据的计算机数据挖掘探索方法，该计算机数据挖掘探索方法通过对输入样本集进行去噪、归一化处理，然后选取生成簇个数和初始质的参数执行均值聚类算法，并将计算结果作为初始簇的的子簇，再计算特征向量，最后设定探索兴趣参数与兴趣特征做比较，从而输出兴趣特征数据。该方法能有效地处理海量数据，提高数据挖掘的运算速度和精度，能有效提取所需的探索兴趣特征数据。
【附图说明】
[0017]图1为本发明的实现原理框图。
【具体实施方式】
[0018]以下结合附图对本发明的【具体实施方式】进行详细说明，以便本领域的技术人员更好地理解本发明。
[0019]如图1所示，是本发明所述的基于大数据的计算机数据挖掘探索方法的【具体实施方式】，其具体实施步骤为:
[0020]步骤1:输入给定的大数据样本集X，其中Χ={Χι，Χ2,...,Xnl ；
[0021 ]步骤2:对输入样本集进行去噪、归一化处理；
[0022]步骤3:选取m值和W=(Wi1W2，…Wm)分别作为均值聚类算法的生成簇个数和初始质的参数；
[0023]步骤4:执行均值聚类算法，得至Ijm个簇(M^M2，...，Μ?};
[0024]步骤5:将这m个簇的每个Mi作为初始簇的子簇；
[0025]步骤6:计算特征向量Y，其特征向量Y表示为:
[0026]Y= (Yi,Y2,...,Ym);
[0027]步骤7:设定探索兴趣参数cUihfd，则输出兴趣特征1，否则不做处理。
[0028]该计算机数据挖掘探索方法通过对输入样本集进行去噪、归一化处理，然后选取生成簇个数和初始质的参数执行均值聚类算法，并将计算结果作为初始簇的的子簇，再计算特征向量，最后设定探索兴趣参数与兴趣特征做比较，从而输出兴趣特征数据。该方法能有效地处理海量数据，提高数据挖掘的运算速度和精度，能有效提取所需的探索兴趣特征数据。
[0029]以上实施方式仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。
【主权项】
1.基于大数据的计算机数据挖掘探索方法，其特征在于，该方法包括以下步骤: 步骤1:输入给定的大数据样本集X，其中X = {X1，X2，…，Xn}; 步骤2:对输入样本集进行去噪、归一化处理；步骤3:选取m值和W= (Wi1W2，…Wm)分别作为均值聚类算法的生成簇个数和初始质的参数；步骤4:执行均值聚类算法，得到m个簇步骤5:将这m个簇的每个Mi作为初始簇的子簇；步骤6:计算特征向量Y，其特征向量Y表示为: Y=(Yi,Y2,...,Ym)；步骤7:设定探索兴趣参数cUihfd，则输出兴趣特征1，否则不做处理。
【专利摘要】本发明公开了基于大数据的计算机数据挖掘探索方法，该计算机数据挖掘探索方法通过对输入样本集进行去噪、归一化处理，然后选取生成簇个数和初始质的参数执行均值聚类算法，并将计算结果作为初始簇的子簇，再计算特征向量，最后设定探索兴趣参数与兴趣特征做比较，从而输出兴趣特征数据。该方法能有效地处理海量数据，提高数据挖掘的运算速度和精度，能有效提取所需的探索兴趣特征数据。
【IPC分类】G06F17/30
【公开号】CN105653615
【申请号】
【发明人】蒋雪峰, 蒋顺恺, 石永丽
【申请人】石永丽
【公开日】2016年6月8日
【申请日】2015年12月25日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋雪峰;蒋顺恺;石永丽;
技术所有人：石永丽;
我是此专利的发明人

上一篇：电力系统主站的通信规约转换方法
上一篇：联系信息获取、提供方法及装置的制造方法