一种基于分布式结构的大数据聚类方法和装置的制造方法

文档序号:8487907阅读:167来源:国知局
一种基于分布式结构的大数据聚类方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘领域,具体涉及一种基于分布式结构的大数据聚类方法和装 置。
【背景技术】
[0002] 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个 开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。 信息爆炸的学科如天文学和基因学,创造出了 "大数据"这个概念。如今,这个概念几乎应 用到了所有人类智力与发展的领域中。21世纪是数据信息大发展的时代,移动互联、社交网 络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联 网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医 学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。地球 上至今总共的数据量,在2006年个人用户才刚刚迈进TB时代,全球一共新产生了约180EB 的数据;到2011年,这个数字达到了 1.8ZB。而有市场研宄机构预测,到2020年整个世界 的数据总量将会增长44倍,达到35. 2ZB ! (1ZB = 10亿TB)。
[0003] 大数据既是数据量的一个激增(从最开始的ERP/CRM数据,逐步扩大到增加互联 网数据,再到物联网的传感器等相关信息数据),同时也是数据复杂性的提升。大数据可以 说是量积累到一定程度后形成的规模化质变。大数据的数据类型丰富多样,既有像原有的 数据库数据等结构化信息,又有文本、视频等非结构化信息,而且数据的采集和处理速度要 求也越来越快。
[0004] 大数据包含了"海量数据"的含义,在内容上超越了海量数据,简而言之,大数据是 "海量数据"+复杂类型的数据。大数据包括交易和交互数据集在内的所有数据集,其规模 或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。
[0005] 大数据由三项主要技术趋势汇聚组成:
[0006] 海量交易数据:在从ERP应用程序到数据仓库应用程序的在线交易处理(OLTP)与 分析系统中,传统的关系数据以及非结构化和半结构化信息仍在继续增长。随着更多的数 据和业务流程移向公共和私有云,这一局面变得更加复杂。内部的经营交易信息主要包括 联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态历史 数据。通过这些数据,我们能了解过去发生了什么。
[0007] 海量交互数据:这一新生力量由源于Facebook、Twitter、Linkedln及其他来源的 社交媒体数据构成。它包括了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映 射数据、通过管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web文本 和点击流数据、科学信息、电子邮件等等。这些数据可以告诉我们未来会发生什么。
[0008] 海量数据处理:利用多种轻型数据库来接收发自客户端的数据,并将其导入到一 个集中的大型分布式数据库或者分布式存储集群,然后利用分布式数据库来对存储于其内 的集中的海量数据进行普通的查询和分类汇总等,以此满足大多数常见的分析需求,同时 对基于前面的查询数据进行数据挖掘,能满足高级别的数据分析需求。例如,YunTable是 在传统的分布式数据库和新的NoSQL技术的基础上发展而来的新一代分布式数据库。通过 它能构建一个百台级别的分布式集群来管理PB级别的海量数据。
[0009] 面对大数据的汹涌来袭,传统的数据处理方式应对起来显得越来越困难,我们在 很多时候就像面对一个金矿,却没有有效的工具和手段,只能望"数据"兴叹。传统分析技 术面对大数据的困惑主要有:
[0010] 由于分析手段限制,不能充分利用所有数据;
[0011] 受限于分析能力而无法获取复杂问题的答案;
[0012] 因为时限要求而不得不采用某项简单的建模技术;
[0013] 因为没有足够时间运算,对模型精度进行妥协。
[0014] 基于数据挖掘聚类研宄的现状,现有的对于大数据聚类的挖掘,采用的方法多是 采用对数据的抽样,选取具有代表性的数据,实现以点代面的聚类分析。在面对大数据处 理时,一般采用的是基于样本抽取概率的方法实现,但抽样方法没有考虑数据点之间或区 间之间全局的相对距离以及数据分布不均匀,出现划分区间过硬的问题。虽然后来,又引入 聚类、模糊概念以及云模型等对区间划分过硬问题进行了改善,也取得了很好的效果,但这 些方法均没有考虑大数据数据点对知识发现任务的不同作用。因此,为使挖掘得到的聚类 规则更有效,更快速,必须从充分考虑数据点的不同作用入手,对聚类分析进行更深入的研 宄。而云计算正是基于现实中的大数据数据点之间的处理而提出的,这为挖掘更有效聚类 规则提供了强大的理论基础。

【发明内容】

[0015] 为解决现有技术中存在的上述问题,本发明公开了一种基于分布式结构的大数据 聚类方法和装置,采用MapReduce编程模型结合聚类算法实现了大数据的快速有效处理, 能够不断地从数据中挖掘出有价值信息。
[0016] MapReduce是Google开发的主要用于大规模(TB级)数据文件处理的编程模型。 其主要思想是通过"Map (映射)"和"Reduce (化简)"的概念来构成运算基本单元,先通过 Map程序将数据切割成不相关的区块,分配(调度)给大量计算机处理,达到分布式运算的 效果,再通过Reduce程序将结果汇总输出,即可并行处理海量数据。它的一般形式如下:
[0017] Map(kl,vl)-) list(k2, v2)
[0018] Reduce(k2, list (v2) )_〉list (v2)
[0019] 简而言之,Map-Reduce编程模式将输入数据文件划分为M个独立的数据分片 (split);然后分配给多个Worker启动M个Map函数并行地执行输出到中间文件(本地 写)、并将计算结果以key/value对形式输出中间结果。中间结果key/value按照key分 组,执行Reduce函数,根据从Master获得的中间文件位置信息,将Reduce命令发送给中间 文件所在节点执行,计算并输出最终结果,MapReduce的输出存放在R个输出文件中,可进 一步减少了传送中间文件对带宽的需求。
[0020] MapReduce是依赖于HDFS实现的。通常MapReduce会将被计算的数据分为很多 小块,HDFS会将每个块复制若干份以确保系统的可靠性,同时它按照一定的规则将数据块 放置在集群中的不同机器上,以便MapReduce在数据宿主机器上进行最便捷的计算。HDFS 是GoogleGFS的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量的数据 访问,适合存储海量(PB级)的大文件(通常超过64M)。
[0021] 本发明利用MapReduce编程模型设计一种聚类集成算法,将大数据切块存储到云 平台的分布式文件系统HDFS中,Hadoop负责管理切块数据,其key值为所属数据块Di。计 算集群中的计算机对本地存储的相应切块得采用聚类算法得到基聚类结果,对同机器各聚 类结果采用一致性方案进行Reduce过程(key值为机器号,value值为聚类结果)得到该 机器的最终集成聚类结果,从而达到并行有效处理大数据的目的,能进一步提高的数据处 理性能和效率。
[0022] 为了达到上述目的,本发明提供如下技术方案:
[0023] -种基于分布式结构的大数据聚类方法,包括:
[0024] 步骤S100,大数据预处理,通过填写缺失值、噪声数据光滑化、识别删除离群点将 现实世界的数据进行清理,并将来自不同数据源的数据进行规范化处理,将其转换为标准 格式的数据;
[0025] 步骤S200,大数据切分和管理:将大数据切块后,得到切分后的多个数据块,并将 其存储到云平台的分布式文件系统HDFS中,Hadoop负责管理切分后的数据块;
[0026] 步骤S300,建立聚类用的超图模型,具体包括:
[0027]建立带权的超图H = (V,E),其中,V是顶点的集合,E是超边的集合,每个超边都 能够连接两个以上的顶点,用超图的顶点来表示用来聚类的数据项,用超边来表示其所连 接的顶点所表示的数据项的关联情况,w(e m)是对应于E中的每一条超边em的权重,E, wGJ用来衡量由超边连接起来的多个相关数据项之间的相关程度;
[0028] 超边em的权重可以用以下两种方法来确定:
[0029] (1)用每一条超边em的关联规则的支持度作为该超边的权重;
[0030] (2)用每一条超边em的所有必要关联规则的置信度的平均值作为该超边的权重; 必要关联规则是指特定的规则,其规则表达式的右边仅有一个数据项的集合,且该规则包 括了超边%所关联的所有数据项。
[0031] 步骤S400,大数据映射,具体是将切分后的数据块分别映射到超图H = (V,E),即 每个数据块映射到一个超图;
[0032] 步骤S500,利用超图对每个数据块分别进行聚类处理,
[0033] 对
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1