一种基于大数据的数据分析方法_2

文档序号：8258934阅读：来源：国知局

中完成数据提取工作，用户可通过定义不同的连接器组件来实现对不同数据源的数据提取。数据预处理包括了数据清理(去噪和去除不一致数据)、数据集成(多数据源的组合)和数据选择(定义数据过滤规则)。用户通过定义过滤、正则匹配等组件来实现该步骤。数据挖掘运用数据挖掘算法对经过预处理的数据执行挖掘算法。最后，结果展示步骤将执行结果以数据或图表的形式展示给用户。
[0028]代码生成引擎主要完成从逻辑模型到可被执行框架执行的可执行代码的转换过程，大致可分成模型解析与代码生成两步。
[0029]第一步是模型解析，主要工作是解析逻辑模型，根据数据挖掘过程模型定义的节点信息来划分操作子流程，以数据挖掘操作节点为划分点，以子流程构造任务集，并根据流程的连接顺序来定义子流程之间的依赖关系。
[0030]第二步是代码生成，根据第一步模型解析得到的子流程以及依赖关系生成代码。数据挖掘组件接收与其相连组件的输入输出类型信息。根据输入输出类型信息和组件代码模板，生成相应的代码，并将处理后的输出按照输出模式存储。组件模型包含组件ID、代码模板、用户定义参数类与组件元信息。组件ID用于标识组件的唯一性；代码模板包括了与执行平台相关的模板信息；用户自定义参数类是用户输入的参数；组件描述元信息包含了组件描述、可视化图标、模板路径等元数据。数据挖掘过程模型最终被转换成Java可执行代码。这些类包括数据操作节点类、数据连接输入输出类。最后，系统生成一个以用户定义的数据挖掘过程名称为类名的主类来控制整个数据挖掘过程，并通过配置模板提供的信息按照模型解析获得的任务依赖关系构建挖掘代码。
[0031]数据挖掘组件是系统实现挖掘、数据连接等功能的数据操作单位，组件封装了特定的数据操作逻辑。可通过用户自定义组件来扩展功能。数据挖掘组件在xml中定义符合扩展点schema规则的组件元信息。
[0032]系统通过定义组件模型来规范化组件在系统中的生命周期。组件模型定义了该组件的输入流与输出流，并通过配置接口接受用户参数。组件模型定义了组件的类型、输入接口、输出接口、组件类型等元信息。通过定义符合规则的schema，组件作为数据挖掘过程中标准组件的形式存在于系统中，并由系统对其进行加载、调用、销毁等生命周期管理。上述schema的定义没有规定组件内部的算法逻辑的实现，算法的实现主要通过每个组件各自的模板路径中的代码模板来定义。代码模板可根据组件需要实现的特定功能来实现算法，这种松耦合的架构为系统的可扩展性提供了保障。用户可通过实现自定义的代码模板来添加自定义组件。
[0033]数据挖掘算法组件封装了挖掘算法逻辑。在数据挖掘算法组件中，数据以SequenceFile类型存储。该存储方式支持压缩，可定制为基于记录或块压缩的压缩粒度。用户可通过参考系统定义的数据挖掘组件扩展点。schema将数据挖掘算法包装成数据挖掘算法组件的聚类过程分成三步:第一步实现文件的转换，为后续步骤做数据收集；第二步对数据进行分布式的Canopy算法，用于确定K均值算法初始的K个簇中心；第三步根据用户配置的参数进行K均值迭代过程。
[0034]综上所述，本发明提出了一种基于大数据的数据分析与挖掘方法，通过定义组件模型，用户可快速定义数据挖掘过程；实现对数据挖掘过程的可视化定义，以及挖掘过程到可执行代码的转换；实现了对多种数据存储系统的数据访问。
[0035]显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储平台中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。
[0036]应当理解的是，本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
【主权项】
1.一种基于大数据的数据分析方法，用于对大数据进行挖掘与分析，其特征在于，包括: 通过可视化的界面接收用户定义的数据挖掘过程，并配置相关的组件信息，实现图形化的数据流程处理；生成符合Hadoop规范的代码，用户通过参数配置界面配置需用户定义的参数；然后将用户定义的数据挖掘过程模型转换成可在Hadoop上运行的代码，该转换包括过程模型分析、依赖关系分析、代码模板解析；将数据挖掘组件连接起来构成数据挖掘过程，所述数据挖掘组件封装不同的数据操作逻辑，分成数据挖掘算法组件、连接器组件、用户自定义组件；以Hadoop提供的框架作为数据挖掘过程执行平台，向执行框架提交代码，运用云平台的并行计算能力实现挖掘过程的并行化。
2.根据权利要求1所述的方法，其特征在于，还包括: 用户通过数据挖掘过程模型组件来定义符合过程逻辑模型的数据挖掘过程，并实现逻辑模型到物理模型的转换，挖掘过程中的每一步数据操作被抽象成一个数据操作节点，称为逻辑节点，通过解析逻辑节点的输入输出信息、用户配置参数、节点对应的系统组件元信息来构建物理过程模型，逻辑模型经过系统的后台解析转换成物理模型后才能执行；用户通过模型的图形化方式来实现逻辑模型的定义，数据挖掘过程包括数据收集、数据预处理、数据挖掘和结果展示，其中在数据收集中定义一个或多个数据来源，并在执行过程中完成数据提取工作，通过定义不同的连接器组件来实现对不同数据源的数据提取；在数据预处理中包括数据清理、数据集成和数据选择，定义过滤、正则匹配组件来实现预处理；运用数据挖掘算法对经过预处理的数据执行挖掘算法，最后将执行结果以数据或图表的形式展示给用户。
3.根据权利要求2所述的方法，其特征在于，还包括:利用代码生成引擎完成从逻辑模型到可由执行框架执行的可执行代码的转换过程，该转换分成模型解析与代码生成；所述模型解析包括解析逻辑模型，根据数据挖掘过程模型定义的节点信息来划分操作子流程，以数据挖掘操作节点为划分点，以子流程构造任务集，并根据流程的连接顺序来定义子流程之间的依赖关系；所述代码生成，根据以上模型解析得到的子流程以及依赖关系生成代码，数据挖掘组件接收与其相连组件的输入输出类型信息，根据输入输出类型信息和组件代码模板，生成相应的代码，并将处理后的输出按照输出模式存储，其中组件模型包含组件ID、代码模板、用户定义参数类与组件元信息，组件ID用于标识组件的唯一性；代码模板包括了与执行平台相关的模板信息；用户自定义参数类是用户输入的参数；组件描述元信息包含组件描述、可视化图标、模板路径数据；所述数据挖掘过程模型被转换成Java可执行代码，最后生成一个以用户定义的数据挖掘过程名称为类名的主类来控制整个数据挖掘过程，并通过配置模板提供的信息按照模型解析获得的任务依赖关系构建挖掘代码。
【专利摘要】本发明提供了一种基于大数据的数据分析方法，该方法包括：接收用户定义的数据挖掘过程和组件信息，实现图形化的数据流程处理；生成符合Hadoop规范的代码，然后将用户定义的数据挖掘过程模型转换成可在Hadoop上运行的代码；将数据挖掘组件连接起来构成数据挖掘过程；以Hadoop提供的框架作为数据挖掘过程执行平台，向执行框架提交代码，运用云平台的并行计算能力实现挖掘过程的并行化。发明通过定义组件模型，使用户快速定义和可视化定义数据挖掘过程；实现了对多种数据存储系统的数据访问。
【IPC分类】G06F17-30
【公开号】CN104573063
【申请号】CN201510036086
【发明人】谢叔阳
【申请人】四川中科腾信科技有限公司
【公开日】2015年4月29日
【申请日】2015年1月23日

完整全部详细技术资料下载

当前第2页1 2