一种基于分布式结构的大数据聚类方法和装置的制造方法

文档序号：8487907阅读：167来源：国知局

一种基于分布式结构的大数据聚类方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘领域，具体涉及一种基于分布式结构的大数据聚类方法和装置。
【背景技术】
[0002] 半个世纪以来，随着计算机技术全面融入社会生活，信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息，而且其增长速度也在加快。信息爆炸的学科如天文学和基因学，创造出了 "大数据"这个概念。如今，这个概念几乎应用到了所有人类智力与发展的领域中。21世纪是数据信息大发展的时代，移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围，各种数据正在迅速膨胀并变大。互联网（社交、搜索、电商）、移动互联网（微博）、物联网（传感器，智慧地球）、车联网、GPS、医学影像、安全监控、金融（银行、股市、保险）、电信（通话、短信）都在疯狂产生着数据。地球上至今总共的数据量，在2006年个人用户才刚刚迈进TB时代，全球一共新产生了约180EB 的数据；到2011年，这个数字达到了 1.8ZB。而有市场研宄机构预测，到2020年整个世界的数据总量将会增长44倍，达到35. 2ZB ! (1ZB = 10亿TB)。
[0003] 大数据既是数据量的一个激增（从最开始的ERP/CRM数据，逐步扩大到增加互联网数据，再到物联网的传感器等相关信息数据），同时也是数据复杂性的提升。大数据可以说是量积累到一定程度后形成的规模化质变。大数据的数据类型丰富多样，既有像原有的数据库数据等结构化信息，又有文本、视频等非结构化信息，而且数据的采集和处理速度要求也越来越快。
[0004] 大数据包含了"海量数据"的含义，在内容上超越了海量数据，简而言之，大数据是 "海量数据"+复杂类型的数据。大数据包括交易和交互数据集在内的所有数据集，其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。
[0005] 大数据由三项主要技术趋势汇聚组成：
[0006] 海量交易数据：在从ERP应用程序到数据仓库应用程序的在线交易处理（OLTP)与分析系统中，传统的关系数据以及非结构化和半结构化信息仍在继续增长。随着更多的数据和业务流程移向公共和私有云，这一局面变得更加复杂。内部的经营交易信息主要包括联机交易数据和联机分析数据，是结构化的、通过关系数据库进行管理和访问的静态历史数据。通过这些数据，我们能了解过去发生了什么。
[0007] 海量交互数据：这一新生力量由源于Facebook、Twitter、Linkedln及其他来源的社交媒体数据构成。它包括了呼叫详细记录（CDR)、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输（Manage File Transfer)协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。这些数据可以告诉我们未来会发生什么。
[0008] 海量数据处理：利用多种轻型数据库来接收发自客户端的数据，并将其导入到一个集中的大型分布式数据库或者分布式存储集群，然后利用分布式数据库来对存储于其内的集中的海量数据进行普通的查询和分类汇总等，以此满足大多数常见的分析需求，同时对基于前面的查询数据进行数据挖掘，能满足高级别的数据分析需求。例如，YunTable是在传统的分布式数据库和新的NoSQL技术的基础上发展而来的新一代分布式数据库。通过它能构建一个百台级别的分布式集群来管理PB级别的海量数据。
[0009] 面对大数据的汹涌来袭，传统的数据处理方式应对起来显得越来越困难，我们在很多时候就像面对一个金矿，却没有有效的工具和手段，只能望"数据"兴叹。传统分析技术面对大数据的困惑主要有：
[0010] 由于分析手段限制，不能充分利用所有数据；
[0011] 受限于分析能力而无法获取复杂问题的答案；
[0012] 因为时限要求而不得不采用某项简单的建模技术；
[0013] 因为没有足够时间运算，对模型精度进行妥协。
[0014] 基于数据挖掘聚类研宄的现状，现有的对于大数据聚类的挖掘，采用的方法多是采用对数据的抽样，选取具有代表性的数据，实现以点代面的聚类分析。在面对大数据处理时，一般采用的是基于样本抽取概率的方法实现，但抽样方法没有考虑数据点之间或区间之间全局的相对距离以及数据分布不均匀，出现划分区间过硬的问题。虽然后来，又引入聚类、模糊概念以及云模型等对区间划分过硬问题进行了改善，也取得了很好的效果，但这些方法均没有考虑大数据数据点对知识发现任务的不同作用。因此，为使挖掘得到的聚类规则更有效，更快速，必须从充分考虑数据点的不同作用入手，对聚类分析进行更深入的研宄。而云计算正是基于现实中的大数据数据点之间的处理而提出的，这为挖掘更有效聚类规则提供了强大的理论基础。

【发明内容】

[0015] 为解决现有技术中存在的上述问题，本发明公开了一种基于分布式结构的大数据聚类方法和装置，采用MapReduce编程模型结合聚类算法实现了大数据的快速有效处理，能够不断地从数据中挖掘出有价值信息。
[0016] MapReduce是Google开发的主要用于大规模（TB级）数据文件处理的编程模型。其主要思想是通过"Map (映射）"和"Reduce (化简）"的概念来构成运算基本单元，先通过 Map程序将数据切割成不相关的区块，分配（调度）给大量计算机处理，达到分布式运算的效果，再通过Reduce程序将结果汇总输出，即可并行处理海量数据。它的一般形式如下：
[0017] Map(kl,vl)-) list(k2, v2)
[0018] Reduce(k2, list (v2) )_〉list (v2)
[0019] 简而言之，Map-Reduce编程模式将输入数据文件划分为M个独立的数据分片 (split);然后分配给多个Worker启动M个Map函数并行地执行输出到中间文件（本地写）、并将计算结果以key/value对形式输出中间结果。中间结果key/value按照key分组，执行Reduce函数，根据从Master获得的中间文件位置信息，将Reduce命令发送给中间文件所在节点执行，计算并输出最终结果，MapReduce的输出存放在R个输出文件中，可进一步减少了传送中间文件对带宽的需求。
[0020] MapReduce是依赖于HDFS实现的。通常MapReduce会将被计算的数据分为很多小块，HDFS会将每个块复制若干份以确保系统的可靠性，同时它按照一定的规则将数据块放置在集群中的不同机器上，以便MapReduce在数据宿主机器上进行最便捷的计算。HDFS 是GoogleGFS的开源版本，一个高度容错的分布式文件系统，它能够提供高吞吐量的数据访问，适合存储海量（PB级）的大文件（通常超过64M)。
[0021] 本发明利用MapReduce编程模型设计一种聚类集成算法，将大数据切块存储到云平台的分布式文件系统HDFS中，Hadoop负责管理切块数据，其key值为所属数据块Di。计算集群中的计算机对本地存储的相应切块得采用聚类算法得到基聚类结果，对同机器各聚类结果采用一致性方案进行Reduce过程（key值为机器号，value值为聚类结果）得到该机器的最终集成聚类结果，从而达到并行有效处理大数据的目的，能进一步提高的数据处理性能和效率。
[0022] 为了达到上述目的，本发明提供如下技术方案：
[0023] -种基于分布式结构的大数据聚类方法，包括：
[0024] 步骤S100,大数据预处理，通过填写缺失值、噪声数据光滑化、识别删除离群点将现实世界的数据进行清理，并将来自不同数据源的数据进行规范化处理，将其转换为标准格式的数据；
[0025] 步骤S200,大数据切分和管理：将大数据切块后，得到切分后的多个数据块，并将其存储到云平台的分布式文件系统HDFS中，Hadoop负责管理切分后的数据块；
[0026] 步骤S300,建立聚类用的超图模型，具体包括：
[0027]建立带权的超图H = (V，E)，其中，V是顶点的集合，E是超边的集合，每个超边都能够连接两个以上的顶点，用超图的顶点来表示用来聚类的数据项，用超边来表示其所连接的顶点所表示的数据项的关联情况，w(e m)是对应于E中的每一条超边em的权重，E， wGJ用来衡量由超边连接起来的多个相关数据项之间的相关程度；
[0028] 超边em的权重可以用以下两种方法来确定：
[0029] (1)用每一条超边em的关联规则的支持度作为该超边的权重；
[0030] (2)用每一条超边em的所有必要关联规则的置信度的平均值作为该超边的权重；必要关联规则是指特定的规则，其规则表达式的右边仅有一个数据项的集合，且该规则包括了超边％所关联的所有数据项。
[0031] 步骤S400,大数据映射，具体是将切分后的数据块分别映射到超图H = (V，E)，即每个数据块映射到一个超图；
[0032] 步骤S500,利用超图对每个数据块分别进行聚类处理，
[0033] 对

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马泳宇;
技术所有人：成都睿峰科技有限公司;
我是此专利的发明人

上一篇：一种基于对用户行为复合因子进行挖掘的混合推荐方法
上一篇：一种物联生活平台的信息推送方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。