1.本发明涉及一种数据处理系统及处理方法,具体而言,涉及一种综合性的、可视化的数据处理系统及应用该系统的数据处理方法,属于大数据处理技术领域。
背景技术:2.大数据是近年来受到人们广泛关注、讨论和研究热度较高的一个概念,其主要指无法在一定时间内利用常规软件工具对其内容进行抓取、管理和处理的数据集合。而大数据技术,则是指从各种各样类型的大数据中,快速获得有价值的信息的一项技术。适用于大数据的技术包括大规模并行处理(mpp)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网以及可扩展存储系统等。
3.可以认为,目前行业内对于大数据的有效利用仍然是一项技术痛点,如何根据不同企业或同一企业不同项目的需要,对数据库中的数据进行有效地整合、利用,进而获得所期望达到的效果,是困扰着业内研究人员的一项难题。
4.在现阶段的实际应用过程中,对于大数据的处理工作一般需要由企业内的业务人员提出具体的项目需求,再由企业内的开发人员针对项目需求进行评估和系统开发,整个开发周期短则几个小时、长则几天或几周不等。一旦业务人员与开发人员之间存在沟通不畅的情况、导致开发人员理解偏差,则又需要将系统推倒重新开发。很显然,对于企业而言,上述操作流程无疑会造成资源的极大浪费、严重制约了企业的生产效率和实际产出。
5.综上所述,如何在现有技术的基础上提出一种综合性的、可视化的数据处理系统及应用该系统的数据处理方法,以克服现有技术中的诸多缺陷,也就成为了业内研究人员亟待解决的问题。
技术实现要素:6.鉴于现有技术存在上述缺陷,本发明的目的是提出一种综合性的、可视化的数据处理系统及应用该系统的数据处理方法,具体如下。
7.一种可视化的数据处理系统,用于实现对大数据的处理,包括:前台可视化操作部分,用于定义任务执行单元,依据具体的任务需求定义所述任务执行单元的执行顺序,形成任务执行规则并发送;后台数据处理部分,与所述前台可视化操作部分信号连接,用于接收所述任务执行规则,依据所述任务执行规则调用所述任务执行单元,得到任务执行结果并保存;所述前台可视化操作部分具体包括,多个清洗任务执行单元,用于定义具体的数据清洗任务操作,以模块化的形式对操作进行保存;多个建模任务执行单元,用于定义具体的数据清洗任务操作,以模块化的形式对操作进行保存,多个所述建模任务执行单元间相互独立;任务输入单元,用于依据具体的任务需求,对所述清洗任务执行单元及所述建模
任务执行单元的执行顺序进行定义,形成所述任务执行规则并发送;所述后台数据处理部分具体包括,任务接收单元,与所述任务输入单元信号连接,用于接收所述任务执行规则;任务解析和判断单元,与所述任务接收单元信号连接,用于对所述任务执行规则进行解析,判断所述任务执行规则是否有效、根据判断结果执行后续操作;任务链形成和执行单元,与所述任务解析和判断单元信号连接、还分别与多个所述清洗任务执行单元及多个所述建模任务执行单元信号连接,当所述任务解析和判断单元的判断所述任务执行规则有效时,依据所述任务执行规则按序对所述清洗任务执行单元及所述建模任务执行单元进行调用,得到所述任务执行结果并发送;任务结果保存单元,与所述任务链形成和执行单元信号连接,用于对所述任务执行规则及所述任务执行结果进行保存记录。
8.优选地,多个所述清洗任务执行单元间相互独立;每个所述清洗任务执行单元均包括,清洗对象输入模块,用于定义需要进行数据清洗的数据集对象;清洗过程定义模块,与所述清洗对象输入模块信号连接,用于定义具体的数据清洗过程;清洗结果导出模块,与所述清洗过程定义模块信号连接,用于依据所述数据清洗过程对所述数据集对象进行数据清洗,得到数据清洗结果并输出。
9.优选地,多个所述建模任务执行单元间相互独立,每个所述建模任务执行单元均包括一个模型训练子单元和一个模型应用子单元;所述模型训练子单元包括,训练集选择模块,用于对训练数据集进行选择;训练集预处理模块,与所述训练集选择模块信号连接,用于对所述训练数据集进行数据预处理操作;训练模型构建模块,与所述训练集预处理模块信号连接,用于依据预处理后的所述训练数据集,结合算法、参数,形成数据处理模型;所述模型应用子单元包括,数据集选择模块,用于对任务训练集进行选择;数据集预处理模块,与所述数据集选择模块信号连接,用于对所述任务训练集进行数据预处理操作;建模结果导出单元,与所述数据集预处理模块信号连接,用于依据预处理后的所述任务训练集,结合所述数据处理模型,得到数据建模处理结果并输出。
10.一种可视化的数据处理方法,基于如上所述一种可视化的数据处理系统,包括如下步骤:s1、定义任务执行单元,依据具体的任务需求定义具体的任务执行单元的执行顺序,形成任务执行规则;s2、依据所述任务执行规则调用相对应的所述任务执行单元,得到任务执行结果并保存;s1具体包括如下步骤,
s11、定义具体的数据清洗任务操作,以模块化的形式将操作保存至清洗任务执行单元中,并保证多个所述清洗任务执行单元间相互独立;s12、定义具体的数据建模任务操作,以模块化的形式将操作保存至建模任务执行单元中,并保证多个所述建模任务执行单元间相互独立;s13、依据具体的任务需求,对所述清洗任务执行单元及所述建模任务执行单元的执行顺序进行定义,形成所述任务执行规则并发送;s2具体包括如下步骤,s21、接收所述任务执行规则;s22、对所述任务执行规则进行解析,判断所述任务执行规则是否有效,若判断结果为所述任务执行规则有效则按需执行s23,若判断结果为所述任务执行规则无效则报错结束后续流程;s23、依据所述任务执行规则按序对所述清洗任务执行单元及所述建模任务执行单元进行调用,按序执行完操作流程后,得到所述任务执行结果并发送;s24、对所述任务执行规则及所述任务执行结果进行保存记录,若任务执行过程中涉及数据处理模型则将所述数据处理模型一并保存。
11.优选地,s11具体包括如下步骤:s111、定义需要进行数据清洗的数据集对象,所述数据集对象的来源可为文件类型数据库或关系型数据库或消息队列;s112、定义具体的数据清洗过程,所述清洗过程包括去重、均值填充、空值填充以及删除数据;s113、所述数据清洗过程对所述数据集对象进行数据清洗,可选择性地对清洗后的结果进行聚合或时空碰撞,得到数据清洗结果并输出。
12.优选地,s12包括按序进行的模型训练子步骤和模型应用子步骤;所述模型训练子步骤具体包括,s121、对训练数据集进行选择,所述训练数据集可为文件或数据库表,所述训练数据集内必须包含训练需要的特征列;s122、对所述训练数据集进行数据预处理操作;s123、依据预处理后的所述训练数据集,选择算法、设定参数,形成数据处理模型并保存,所述参数包括训练和测试数据集比例、迭代次数、树的深度、分类数量以及正则化参数;所述模型应用子步骤具体包括,s124、对任务训练集进行选择;s125、对所述任务训练集进行数据预处理操作;s126、依据预处理后的所述任务训练集,结合所述数据处理模型并根据模型选择特征列(必须和训练模型时的特征列一致)或需要处理的列,得到数据建模处理结果并输出到文件或关系型数据库中。
13.与现有技术相比,本发明的优点主要体现在以下几个方面:本发明所提出的一种可视化的数据处理系统,以一种可视化、自定义的方式,实现了对数据处理流程的有效控制,整个操作过程简单直观,不熟悉技术的业务人员也可以根
据具体的项目需求,有针对性地完成系统的搭建,极大地缩短了开发周期、节约了企业内宝贵的技术人员资源、提升了企业的生产效率和实际产出。
14.相对应的,本发明所提出的一种可视化的数据处理方法,高效地实现了对于大数据的清洗、建模工作,整个方法流程中的自动化程度和集成化程度高。而且该方法还能够充分满足不同企业或同一企业不同项目的需要,方法适用范围广泛、适配性强。
15.此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于其他关于大数据处理的技术方案中,具有十分广阔的应用前景。
16.以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
17.图1为本发明中的系统架构示意图。
具体实施方式
18.本发明提出了一种综合性的、可视化的数据处理系统及应用该系统的数据处理方法,具体方案如下。
19.如图1所示,本发明揭示了一种可视化的数据处理系统,用于实现对大数据的处理,包括:前台可视化操作部分,用于定义任务执行单元,依据具体的任务需求定义所述任务执行单元的执行顺序,形成任务执行规则并发送;后台数据处理部分,与所述前台可视化操作部分信号连接,用于接收所述任务执行规则,依据所述任务执行规则调用所述任务执行单元,得到任务执行结果并保存。
20.所述前台可视化操作部分具体包括:多个清洗任务执行单元,用于定义具体的数据清洗任务操作,以模块化的形式对操作进行保存;多个建模任务执行单元,用于定义具体的数据清洗任务操作,以模块化的形式对操作进行保存,多个所述建模任务执行单元间相互独立;任务输入单元,用于依据具体的任务需求,对所述清洗任务执行单元及所述建模任务执行单元的执行顺序进行定义,形成所述任务执行规则并发送。
21.所述后台数据处理部分具体包括:任务接收单元,与所述任务输入单元信号连接,用于接收所述任务执行规则;任务解析和判断单元,与所述任务接收单元信号连接,用于对所述任务执行规则进行解析,判断所述任务执行规则是否有效、根据判断结果执行后续操作;任务链形成和执行单元,与所述任务解析和判断单元信号连接、还分别与多个所述清洗任务执行单元及多个所述建模任务执行单元信号连接,当所述任务解析和判断单元的判断所述任务执行规则有效时,依据所述任务执行规则按序对所述清洗任务执行单元及所述建模任务执行单元进行调用,得到所述任务执行结果并发送;任务结果保存单元,与所述任务链形成和执行单元信号连接,用于对所述任务执行规则及所述任务执行结果进行保存记录。
22.需要强调的是,多个所述清洗任务执行单元间相互独立;且每个所述清洗任务执行单元均包括:清洗对象输入模块,用于定义需要进行数据清洗的数据集对象;清洗过程定义模块,与所述清洗对象输入模块信号连接,用于定义具体的数据清洗过程;清洗结果导出模块,与所述清洗过程定义模块信号连接,用于依据所述数据清洗过程对所述数据集对象进行数据清洗,得到数据清洗结果并输出。
23.同样的,多个所述建模任务执行单元间相互独立,且每个所述建模任务执行单元均包括一个模型训练子单元和一个模型应用子单元。
24.所述模型训练子单元包括:训练集选择模块,用于对训练数据集进行选择;训练集预处理模块,与所述训练集选择模块信号连接,用于对所述训练数据集进行数据预处理操作;训练模型构建模块,与所述训练集预处理模块信号连接,用于依据预处理后的所述训练数据集,结合算法、参数,形成数据处理模型。
25.所述模型应用子单元包括:数据集选择模块,用于对任务训练集进行选择;数据集预处理模块,与所述数据集选择模块信号连接,用于对所述任务训练集进行数据预处理操作;建模结果导出单元,与所述数据集预处理模块信号连接,用于依据预处理后的所述任务训练集,结合所述数据处理模型,得到数据建模处理结果并输出。
26.综上所述,本发明所提出的一种可视化的数据处理系统,以一种可视化、自定义的方式,实现了对数据处理流程的有效控制,整个操作过程简单直观,不熟悉技术的业务人员也可以根据具体的项目需求,有针对性地完成系统的搭建,极大地缩短了开发周期、节约了企业内宝贵的技术人员资源、提升了企业的生产效率和实际产出。
27.本发明还揭示了一种可视化的数据处理方法,基于如上所述的一种可视化的数据处理系统,包括如下步骤:s1、定义任务执行单元,依据具体的任务需求,以拖曳等便捷的操作方式定义具体的任务执行单元的执行顺序,形成任务执行规则;s2、依据所述任务执行规则调用相对应的所述任务执行单元,得到任务执行结果并保存。
28.s1具体包括如下步骤:s11、定义具体的数据清洗任务操作,以模块化的形式将操作保存至清洗任务执行单元中,并保证多个所述清洗任务执行单元间相互独立;s12、定义具体的数据建模任务操作,以模块化的形式将操作保存至建模任务执行单元中,并保证多个所述建模任务执行单元间相互独立;s13、依据具体的任务需求,对所述清洗任务执行单元及所述建模任务执行单元的执行顺序进行定义,形成所述任务执行规则并发送;此处可以添加数据清洗或数据建模任务,并指定任务名称、分类、任务描述等信息。
29.s2具体包括如下步骤:s21、接收所述任务执行规则;s22、对所述任务执行规则进行解析,判断所述任务执行规则是否有效,若判断结果为所述任务执行规则有效则按需执行s23,若判断结果为所述任务执行规则无效则报错结束后续流程;s23、依据所述任务执行规则按序对所述清洗任务执行单元及所述建模任务执行单元进行调用,按序执行完操作流程后,得到所述任务执行结果并发送;s24、对所述任务执行规则及所述任务执行结果进行保存记录,若任务执行过程中涉及数据处理模型则将所述数据处理模型一并保存。
30.进一步而言,s11具体包括如下步骤:s111、定义需要进行数据清洗的数据集对象,所述数据集对象的来源可为文件类型数据库或关系型数据库或消息队列;所述数据集对象内的每个算子都带有类型和具体参数信息;s112、定义具体的数据清洗过程,所述清洗过程可包括按某几列去重、某个字段均值填充、空值填充、删除列等具体清洗操作,以及每个清洗算子的依赖关系及执行顺序;s113、所述数据清洗过程对所述数据集对象进行数据清洗,可根据实际的需要,选择性地对清洗后的结果进行聚合或时空碰撞、随后得到数据清洗结果,也可以直接得到数据清洗结果并输出;此处所述数据清洗结果也可以是文件、关系型数据库或者消息队列。
31.进一步而言,s12包括按序进行的模型训练子步骤和模型应用子步骤。
32.所述模型训练子步骤具体包括:s121、对训练数据集进行选择,所述训练数据集可为文件或数据库表;需要强调的是,所述训练数据集内必须包含训练需要的特征列、可选择性地包含进行过标注的标签列;s122、对所述训练数据集进行数据预处理操作,这一步操作为可选项,在执行操作时选择需要训练的特征列和标签列(部分算法不需要标签列),建模的算法根据特征列进行特征值的提取;s123、依据预处理后的所述训练数据集,选择算法、设定参数,形成数据处理模型并保存,所述参数包括训练和测试数据集比例、迭代次数、树的深度、分类数量以及正则化参数。
33.所述模型应用子步骤具体包括:s124、对任务训练集进行选择;s125、对所述任务训练集进行数据预处理操作;s126、依据预处理后的所述任务训练集,结合所述数据处理模型,得到数据建模处理结果并输出。
34.与前述系统方案相对应的,本发明所提出的一种可视化的数据处理方法,高效地实现了对于大数据的清洗、建模工作,整个方法流程中的自动化程度和集成化程度高。而且该方法还能够充分满足不同企业或同一企业不同项目的需要,方法适用范围广泛、适配性强。
35.此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于其他关于大数据处理的技术方案中,具有十分广阔的应用前景。
36.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何标记视为限制所涉及的权利要求。
37.最后,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。