基于云计算的数据挖掘rest服务平台的制作方法_2

文档序号：9238243阅读：来源：国知局

分层的架构设计，能极大提高各层逻辑的复用，同时减少模块间的依赖。
[0026] (3)本发明利用云的特殊容错机制可以采用廉价的机器来搭建云环境，而云的自动化集中式管理使得企业无需负担高昂的数据中心管理成本。云的通用性使资源的利用率较之传统系统大幅提升，企业可以充分享受云的低成本优势。
[0027] (4)本发明基于云平台的的多副本容错、多计算节点同构可互换等措施，可提供高可靠高保障的云服务。
【附图说明】
[0028] 图1是基于云计算的数据挖掘Rest服务平台架构图。
[0029] 图2是算法引擎功能模块图。
[0030] 图3是基于MapReduce的并行AP聚类方法的基本流程图。
[0031] 图4是REST的三角架构图。
[0032] 图5是查询作业状态过程图。
【具体实施方式】
[0033] 下面结合附图对本发明作进一步描述。
[0034] 参照图1~图5, 一种基于云计算的数据挖掘REST服务平台，基于Hadoop、Spark 等云计算平台的扩展性，本发明设计的数据挖掘服务平台能较好的适应海量数据的分析。同时提供了Rest风格的简易调用接口，极大降低系统间的耦合性。基于云计算的数据挖掘 REST服务平台在架构上总共分为四层（如图1):云计算集群主要提供云存储及并行计算能力；算法引擎层提供并行数据挖掘能力，提供各种并行算法库等；数据挖掘服务引擎层对外提供挖掘云服务，所有服务以Restful接口对外暴露；云挖掘服务SDK提供一种本地调用挖掘云服务的方式，通过在其他业务系统中引入云挖掘服务SDK，可以在业务系统中使用数据挖掘、数据分析等功能。
[0035] 云计算集群层：提供分布式存储、数据库存储及并行计算能力，作为算法引擎层的支撑平台。此层采用Hadoop、Spark等分布式计算平台作为运行支撑，Hadoop以HDFS作为其分布式存储系统，HDFS是根据Google提出的GFS分布式文件系统研发，已在商业和学术领域得到广泛的应用，能有效解决海量数据存储问题，同时兼备高容错、高扩展及高性能等优点。在并行计算方面Hadoop、Spark都支持MapReduce计算框架，MapReduce框架对分布式计算的一些底层细节进行了封装，例如任务并行、数据分布、负载平衡、任务调度、任务容错等，使用者无需考虑这些细节，只要关注算法的并行实现即可。Spark在提供类似 MapReduce框架外，还提供DAG的计算引擎，支持迭代式计算作业，能更好的适应需要通过迭代收敛的算法运行。
[0036] 算法引擎层：为数据挖掘服务引擎层提供算法实现，主要通过调用算法库来提供算法服务功能，算法库主要实现了基于Hadoop、Spark平台的并行关联规则分析、分类、聚类算法，调用这些算法时算法引擎层会创建一个JobClient向云计算集群提交计算作业。
[0037] 该层整体功能模块如图2,除提供基础的并行数据挖掘能力外，还包含算法的服务管理，并行算法的框架模型。算法的服务管理完成算法的添加删除及运行环境隔离等功能，并行算法框架提供生成一个并行算法作业的通用模型。该层在设计上采用分布式、可插拔的组件化设计思路，除了可使用平台自带的算法，同时支持第三方的挖掘算法工具如 Mahout、MLLib接入。
[0038] 挖掘算法的并行化技术严重影响着整个服务平台的性能，本平台主要以 MapReduce框架作为算法的基础并行模型，而MapReduce的核心思想是分而治之，下面结合 AP聚类算法（公知的AffinityPropagation聚类算法）的MapReduce并行化为例来说明本平台主要使用的并行化技术。
[0039] AP聚类的基本思想是通过数据点之间传递消息，自动发现聚类中心，并实现数据点的自动聚类，相比于传统K-Means聚类方法有一个明显的优点是，它并不在初始化阶段指定类的数目及初始的聚类中心。本平台实现的基于MapReduce框架并行AP聚类算法的计算流程如图3。
[0040] 并行AP聚类算法主要包含以下步骤：相似度矩阵计算的MapReduce并行化、吸引度矩阵计算的MapReduce并行化、归属度矩阵计算的MapReduce并行化，聚类中心计算的 MapReduce并行化。各计算步骤之间仍串行执行，每步在计算时先由MapReduce框架对数据集进行切分，在切分的后的数据分片上分别计算从而实现并行。
[0041] 数据挖掘服务引擎层将基于云的数据挖掘算法以服务的形式进行暴露，服务引擎层提供的服务被封装成Restful接口。其他业务系统可以根据数据分析的需求调用及组装不同的挖掘云服务。
[0042]REST
[0043] REST(RepresentationalStateTransfer)，StateTransfer为〃状态传输〃或〃状态转移〃，R印resentational为〃表征〃、〃具象〃，合起来就是〃表征状态传输〃或〃具象状态传输〃或〃表述性状态转移"。
[0044] REST一词出于《ArchitecturalStylesandtheDesignofNetwork-based SoftwareArchitectures》论文，从标题来看，它是一种架构样式（ArchitecturalStyles) 与软件架构（SoftwareArchitectures)，而且是以网络（Network-based)为基础，重点就是：架构样式（ArchitecturalStyles)、软件架构（SoftwareArchitectures)和网络 (Network-based)为基础。
[0045]REST本身是设计风格而不是标准。REST的三个要素一般是指唯一的资源标识，对资源的操作方法（此处方法是抽象的概念）以及资源的表示形式，如图4。
[0046] REST描述如何正确地使用Web标准，例如，HTTP和URI。了解REST最好的方式就是思索Web及其工作方式。应用程序当符合REST原则（RESTprinciples)时可称为〃Restful webservice〃，也称为〃RestfulWebAPI〃。〃_ful〃字尾强调其设计完全符合REST论文中建议的内容。
[0047] 资源的标识及表示形式
[0048] REST以资源为中心，在REST中资源（Resource)代表整个网络上的资源实体。网络提供了各式各样的资源，而这些资源由URI(统一资源标识符，UniformResource Identifier)来标识。
[0049] 资源的请求方通过URI来获取资源的具体象征（Representational)。Client取得这些具体象征使应用程序转变其状态（以浏览器而言，取得HTML、CSS、JavaScript…来生成界面），随着不断取得资源的具体象征，Client端不断地改变其状态，这样不断的反复 (iterations)过程就是所说的RepresentationalStateTransfer〇
[0050] 资源的操作方法
[0051] REST中对资源的操作通过标准的Http方法。对资源的查询行为在HTTP规范中称之为GET，也就是通过URL来GET想要的资源。另一常用的资源操作是填写表单，例如，填写表单进行系统登录动作，就必须先发送账号与密码给某一资源，此资源会验证所传送的数据是否正确，再进行后续动作。发送信息给资源的行为在HTTP规范中称为POST。在 HTTP/1. 1RFC2616第5. 1.IMethod-节定义了八大类HTTP方法，除了常用的GET与POST 之外，在REST中常用的还有PUT与DELETE。POST,GET,PUT,DELETE正好对应对资源的 CRUD(Create,Read,Update,Delete)四种数据操作。
[0052] 基于REST，本平台提供的服务接口如下表1，服务接口总共分为3大类：并行挖掘算法服务，作业运行监控服务，日志管理服务，每种服务，提供GET、POST等几种操作方法，其中GET操作对应查询操作，直接向服务层发送HTTP请求。PO

完整全部详细技术资料下载

当前第2页1 2 3 4