基于数据湖服务器的算法配置组合平台的制作方法

文档序号：20965552发布日期：2020-06-02 22:16阅读：222来源：国知局

本发明涉及数据处理技术领域，具体涉及基于数据湖服务器的算法配置组合平台。

背景技术：

数据库技术是现代计算机信息系统和计算机应用系统的基础和核心，是信息系统的重要组成部分。在进行数据库应用系统开发时，通常需要将数据库数据导出以用于本系统备份或与其它系统进行数据共享和交换。

数据湖或hub的概念最初是由大数据厂商提出的，表面上看，数据都是承载在基于可向外扩展的hdfs(hadoop分布式文件系统)廉价存储硬件之上的。但数据量越大，越需要各种不同种类的存储。最终，所有的企业数据都可以被认为是大数据，但并不是所有的企业数据都是适合存放在廉价的hdfs集群之上的。数据湖的一部分价值是把不同种类的数据汇聚到一起，另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的，并且可以为用户提供越来越多的实时分析。数据湖架构面向多数据源的信息存储，包括物联网在内。大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户。

目前数据湖相关的算法设计单纯依靠经验，需要反复测试修改。算法的复杂性会显著影响其泛化能力，并且消耗大量的工作时间，最后还使其缺乏可重复使用。因此简化算法设计和重用已有算法具有重要意义。

技术实现要素：

本发明提出了一种基于数据湖服务器的算法配置组合平台，以达到在该平台上设计的算法能够有效缩短时间，简化算法的设计。

为了达到以上目的，本发明通过以下技术方案实现：

一种基于数据湖服务器的算法配置组合平台，其特征包含：数据目录区，数据预处理工作台，数据预处理资源目录区，通用算法操作目录区，算法流程工作台，模型资源目录区，知识库；

在所述数据目录区中保存用户上传数据时建立的数据目录；

所述数据预处理工作台将读取若干个数据目录中存放的数据，且进行预处理工作之后形成数据预处理资源，并将已生成的数据预处理资源保存至所述数据预处理资源目录区；

所述通用算法操作目录区存放若干个算法操作，并将一个或多个算法操作传递给所述算法流程工作台；

所述算法流程工作台中选择算法操作的先后顺序，并输入算法需要的阈值；

所述数据预处理资源目录区中选择一个数据预处理资源作为第一个算法操作的训练集数据，并开始训练算法流程；

若所述算法流程是计算结果的算法流程，则其计算结果保存至所述知识库；

若所述算法流程是训练模型的算法流程，则训练模型保存至所述模型资源目录区；

所述模型资源目录区中选取已生成的训练模型，并且选取数据预处理资源目录区中未分类的数据进行计算，并将产生的计算结果保存至知识库中，将生成的模型以及与模型有关的数据，以文件形式存储在数据湖服务器中的分布式文件系统中，并在将来需要时作为数据可视化编辑展示平台的模型来源和数据来源。

优选地，计算结果的算法流程包含聚类、关联规则算法。

训练模型的算法流程包含分类、回归、人工神经网络算法和数据特征变换操作。

优选地，所述通用算法操作目录区上提供的数据特征变换操作进一步包含：降维、分箱、归一化。

优选地，所述数据预处理工作包括阈值进行数据筛选和分组求值；

所述算法流程工作台中若不输入阈值，则以缺省值来替代。

优选地，所述数据目录中存放的数据包含表、字段和数据标签。

优选地，数据拥有者在一个数据湖服务器节点通过用户名和密码登录图形化的操作界面，接入数据湖服务器管理平台，再点击按钮算法配置组合平台；

数据目录区，数据预处理工作台，数据预处理资源目录区，通用算法操作目录区，算法流程工作台，模型资源目录区，知识库，控制台均为图形化界面。

优选地，还包含控制台，执行训练算法流程的过程中出现的结果或异常结果及错误信息被打印至所述控制台并存为日志。

优选地，所述数据湖服务器包含关系型数据库、文档型数据库、分布式文件系统、图数据库构成的数据存储和管理服务平台，并提供包括数据管理、算法开发的多种功能组件；

所述管理服务平台采用分布式运算和存储架构，集成了具有数据存储以及运算功能的多种计算机单机、服务器以及计算机集群或者服务器集群。

一种基于数据湖服务器的算法配置组合平台操作方法，在算法配置组合平台中自定义算法操作流程步骤包含：

步骤3.1、用户从通用算法操作目录区中，选取若干个需要组合的算法操作，传递给算法流程工作台；

步骤3.2、所述算法流程工作台中选择算法操作的先后顺序，并输入算法需要的阈值；若不输入阈值，则以缺省值来替代，形成算法操作流程；

步骤3.3、用户从数据预处理资源目录区中选择应用于算法操作流程的训练数据源进行模型训练，获取结果或训练模型；

步骤3.4、用户如果使用的分类、回归、神经网络算法和数据特征变换操作，则可上传待预测或者分类的数据，并指定上述算法操作的训练模型进行预测或者分类。

优选地，所述步骤3.3中，若所述算法流程是计算结果的算法流程，则直接产生结果并被保存至算法配置组合平台知识库；若所述算法流程是训练模型的算法流程，则会生成模型并保存至模型资源目录区。

优选地，所述算法配置组合平台的操作流程包含：

步骤1、数据拥有者在一个数据湖服务器节点通过用户名和密码登录图形化的操作界面，接入数据湖服务器管理平台，再进入算法配置组合平台；

步骤2、数据拥有者将上传数据时建立的数据目录保存至数据目录区中，并选取一个或多个数据移动至数据预处理工作台进行预处理工作，形成数据预处理资源，并将已生成的数据预处理资源保存至所述数据预处理资源目录区；

步骤3、判断是否使用模型资源目录区中已生成的训练模型，若是则执行步骤4，若不是则执行自定义算法操作流程，包括自定义算法流程时所需的适合的建模平台和软件版本；

步骤4、模型资源目录区中选择已有训练模型，并选择数据预处理资源目录区中未分类的数据；

步骤5、执行训练模型，并将产生的计算结果保存至知识库中。

本发明具有简化算法的设计，并能够重复使用的算法设计平台等优点。

附图说明

图1是数据湖架构示意图；

图2是本发明操作流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合附图和具体实施例对本发明做进一步详细的说明，但不以任何方式限制本发明的范围。

如附图1所示，数据湖服务器包含关系型数据库、文档型数据库、分布式文件系统、图数据库构成的数据存储和管理服务平台，并提供包括数据管理、算法开发的多种功能组件；所述关系型数据库包含mariadb、mysql；

所述文档型数据库包含mongodb、couchdb；所述分布式文件系统包含hdfs、pvfs、panfs；所述图数据库包含neo4j、cayley、grapgdb；所述管理服务平台采用分布式运算和存储架构，集成了具有数据存储以及运算功能的多种计算机单机、服务器以及计算机集群或者服务器集群。

整个数据湖的数据交换管理是基于保存在mongodb中的日志记录和文件元数据。

1日志记录数据以键值对的形式存在，其字段名称和内容是：

字段"user"：保存当前操作的操作者名称；

字段"operation_type"：保存当前操作的类型，比如创建，修改，追加等；

字段"operation_record"：用来保存当前操作的内容即操作动作的执行对象。当操作类型是修改、创建、追加时，保存对应数据源的位置；当操作类型是查询时，保存对应的查询语句；

字段"operation_time"：保存当前操作的日期时间，比如："2018-06-28t03:18:58.91；

字段"operation_statue"：保存当前操作的状态，是辅助字段，用来判断当前操作是否成功；

字段"operation_source"：保存当前操作的数据类型，比如："hdfs"表示文件型数据。

2文件元数据以键值对的形式存在，其字段名称和内容主要是：

数据名称：正在处理的数据的名称；

描述：对当前数据的描述；

所属者：当前数据所属的用户；

所属组：当前数据所属的组；

存储后端：存储的目的地，指某种数据库类型；

辅助标签：数据生成的rdf；

元数据创建时间：元数据的创建时间；

元数据更新时间：元数据的更新时间。

上述的“存储后端”字段，又根据数据类型(文件类型，文档类型，表格类型，图类型)的不同，包含不同的字段。对于文件类型的数据，有以下字段：文件物理路径，文件物理名称，hdfs占用空间大小，真实文件所有者，真实文件所属组，前端显示文件路径，前端显示文件名称，文件扩展名，文件的mine类型，文件真实大小，停词表(用于rdf处理)；对于文档类型的数据(json型数据)，有以下字段：物理数据库位置，物理集合名称，显示数据库名称，显示集合名称，文档结构(json数据结构)，停词表(用于rdf处理)；对于表格类型的数据(比如来mysql的数据)，有以下字段：物理数据库名称，物理表名称，显示数据库名称，显示表名称，列名表，停词表(用于rdf处理)；对于图形类型的数据(比如来neo4j的数据)，有以下字段：neo4jid，前端显示名称，停词表(用于rdf处理)；通过上述的日志文件和元数据文件，数据管理服务平台可以高效、安全地组织管理数据文件、加快数据存储的速度。

一种基于数据湖服务器的算法配置组合平台，其特征包含：数据目录区，数据预处理工作台，数据预处理资源目录区，通用算法操作目录区，算法流程工作台，模型资源目录区，控制台，知识库。数据拥有者在一个数据湖服务器节点通过用户名和密码登录图形化的操作界面，接入数据湖服务器管理平台，再点击按钮算法配置组合平台；所述数据目录区，数据预处理工作台，数据预处理资源目录区，通用算法操作目录区，算法流程工作台，模型资源目录区，知识库，控制台均为图形化界面。

在所述数据目录区中保存用户上传数据时建立的数据目录；所述数据预处理工作台将读取若干个数据目录中存放的数据，且进行预处理工作之后形成数据预处理资源，并将已生成的数据预处理资源保存至所述数据预处理资源目录区；所述数据目录中存放的数据包含表、字段和数据标签；所述数据预处理工作包括阈值进行数据筛选和分组求值。

所述通用算法操作目录区存放若干个算法操作，并将一个或多个算法操作传递给所述算法流程工作台；所述算法流程工作台中选择算法操作的先后顺序，并输入算法需要的阈值；若不输入阈值，则以缺省值来替代；所述数据预处理资源目录区中选择一个数据预处理资源作为第一个算法操作的训练集数据，并开始训练算法流程；若所述算法流程是聚类、关联规则算法的算法流程，则其计算结果保存至所述知识库；执行训练算法流程的过程中出现的结果或异常结果及错误信息被打印至所述控制台并存为日志；若所述算法流程是分类、回归、人工神经网络算法和数据特征变换操作的算法流程，则训练模型保存至所述模型资源目录区；所述模型资源目录区中选取已生成的训练模型，并且选取数据预处理资源目录区中未分类的数据进行计算，并将产生的计算结果保存至知识库中；所述保存至知识库中是指将生成的模型以及与模型有关的数据，以文件形式存储在数据湖服务器中的分布式文件系统中，并在将来需要时作为数据可视化编辑展示平台的模型来源和数据来源。

如附图2所示，本发明实施例所述为用户使用数据湖服务器进行算法配置组合平台，最终形成算法模型，该方法包括以下步骤：

步骤1、数据拥有者在一个数据湖服务器节点通过用户名和密码登录图形化的操作界面，接入数据湖服务器管理平台，再进入算法配置组合平台；

步骤4、模型资源目录区中选择已有训练模型，并选择数据预处理资源目录区中未分类的数据；

步骤5、执行训练模型，并将产生的计算结果保存至知识库中。

所述自定义算法操作流程包含如下步骤：

步骤3.1、用户从通用算法操作目录区中，选取若干个需要组合的算法操作，传递给算法流程工作台；所述的通用算法操作目录区为用户提供了分类、聚类、关联规则、回归、神经网络几大类算法以及降维、分箱、归一化等数据特征变换操作，统称为算法操作，而用户可自定义对上述操作进行串行的组合和编排；

步骤3.2、所述算法流程工作台中选择算法操作的先后顺序，并输入算法需要的阈值；若不输入阈值，则以缺省值来替代，形成算法操作流程；

步骤3.3、用户从数据预处理资源目录区中选择应用于算法操作流程的训练数据源进行模型训练，获取结果或训练模型；若所述算法流程是计算结果的算法流程，则直接产生结果并被保存至算法配置组合平台知识库；若所述算法流程是训练模型的算法流程，则会生成模型并保存至模型资源目录区；

本发明具有简化算法的设计，并能够重复使用的算法设计平台等优点。

尽管本发明的内容已经通过上述优选实例作了详细介绍，但应当认识到上述的描述不应被认为是本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈刚
技术所有人：中云开源数据技术(上海)有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。