大数据分析挖掘管理面与业务面的关联方法及系统的制作方法_2

文档序号：8381037阅读：来源：国知局

初始加工的数据存储，是对于加工数据的第一落地点。
[0030]数据分析挖掘平台，能够基于大数据平台处理之后的初始数据，实现面向应用支撑的数据分析模型、挖掘模型的需求提出、模型定义及描述、模型建立、模型训练、模型发布等管理与业务功能，作为数据分析挖掘的管理平面。如图2所示，数据分析挖掘平台上存储有模型信息、建模人员信息、模型训练集信息，设置有模型知识库及用于沉淀结果数据的挖掘集市。
[0031]数据网关，作为大数据分析挖掘的业务服务平面，能够同步Web服务器上的数据及模型描述，建立索引；建立数据文件(或应用APP)的提取记录审计；提供用户、应用APP的合规性注册；能够开通FTP (文件传输协议)服务和Webservice服务。
[0032]如图2所示，数据网关具有如下的功能:(I)统一接入与认证服务:完成数据需求、安全设计者等人员的注册、合法性认证，并支持相关人员完成必要的管理性操作，如对于数据人员，完成人员注册，同时完成数据发布订阅、服务文件方式以及必要的参数解析；对于安全人员，完成安全规则配置以及数据审计；(2)离线任务处理:主要完成与数据分析挖掘平台的结果数据的FTP接口对接，将结果数据由该离线任务处理传递至FTP服务器(server)上；(3)执行监控:主要完成离线、在线任务的实时监控，为调度提供监控数据和依据；(4)服务代理:主要提供数据流转的协议配置，以及服务接入代理和必要的消息同步和消息触发；(5)通用管理:主要完成数据网关运行过程中的日志、权限以及审计结果的通用性的管理。
[0033]具体而言，于本实施例中，在数据分析挖掘平台开放的基础上，形成了数据分析挖掘的模型知识库。其中，数据分析挖掘模型以文件形式存储在模型知识库中。例如，以统计产品与服务解决方案(Statistical Product and Service Solut1ns，SPSS)工具建立的模型文件为Pmml文件，或者数据分析挖掘模型封装为SQL文件或Jar包。此外，数据分析挖掘的模型知识库还记录模型的关键描述，例如需求者、创建者、所需的数据、训练历史及模型的核心功能描述等信息。其中，若模型符合数据分析挖掘平台运营要求，可以变为正式的发布状态，可供对该模型认可的场景或数据应用直接调用，进入模型运行流程。
[0034]于本实施例中，若模型为周期性运行，则运行时，通过获取模型数据集信息、输入数据集及模型部署算法，再进行算法运算，生成输出数据集后将数据服务进行反馈。当数据调用方(例如，数据需求方)实时调用相应模型，数据分析挖掘平台接收服务请求进行权限鉴别和服务路由后，获取模型数据集信息、输入数据集及模型部署算法，根据上述信息进行算法运算输出数据集，然后将数据封装后进行反馈。若数据调用方的服务请求的模型为发布状态的模型，则根据请求信息从模型知识库中选择匹配的模型，获取输出数据集根据需求进行数据裁剪，再将数据封装后进行反馈。
[0035]接下来，以SPSS建立的模型为例，描述其运行的具体流程。其中，通过调用clemb命令执行模型。以下为本次命令行执行中传入的参数情况。
[0036]./clemb// 执行命令
[0037]-server//说明是在服务器端执行命令无参数
[0038]-hostname spss server//ip 例如 132.35.227.93
[0039]-port spss server/Vport 例如 28O53 (spss server 的默认端口)
[0040]-username spss server//主机访问用户名例如 mamp
[0041]-password spss server// 主机访问密码(与 mamp 配对)例如 bonclq2w3e
[0042]-P: databasenode.password = dw_mamp001// 数据库连接参数
[0043]-directory被执行文件的路径//即.str文件存放位置例如/home/mamp/upload-mamp/upload
[0044]-stream被执行文件名//例如singleCardModle.str该文件名不能为汉字，需要在程序里在上传文件时做验证和提示，让用户修改该文件名称为合理的英文名称
[0045]-execute//执行-stream参数指定的工作流文件无参数值
[0046]之后，在Java程序中调用上述命令，具体而言，首先，通过总表保持上述配置参数，然后从表中读取参数拼接字符串为可执行的命令行。例如./clemb-server-hostname132.35.227.93-port 28053-username mamp-password bonclq2w3e-P:databasenode.username = dw—mamp-P:databasenode.password = ods_mx-directory/home/mamp/upload-mamp/upLoad-stream singleCardModle.str-execute
[0047]最后，通过以下代码实现命令行的执行。
[0048]try {
[0049]Process process = Runtime.getRuntime ().exec (sb.toString ())；
[0050]exitValue = new Integer (process.waitFor ())；
[0051]}catch(1Except1n e){
[0052]e.printStackTrace ()；
[0053]}catch(InterruptedExcept1n e){
[0054]e.printStackTrace ()；
[0055]}
[0056]return exitValue = = 0 ? true:false ；
[0057]于此，用户可在数据分析挖掘平台点击【运行结果】(离线服务)或【运行并查看结果】(在线服务)触发模型运行命令行的执行。
[0058]于本实施例中，当模型运行状态完成后，模型运行的结果数据第一落地点在数据分析挖掘平台的挖掘集市中，即模型运行的结果数据当前分布在数据分析挖掘平台上。结果数据在挖掘集市沉淀后推送至数据网关。数据网关根据与数据分析挖掘平台同步的所述模型的索引信息、管理信息及结果数据建立数据输出索引。
[0059]其中，管理信息包括数据需求方标识信息、模型标识信息、建模人员信息以及模型训练集信息。索引信息包括模型标识信息、模型运行时间信息以及模型运行输入集信息。具体而言，管理信息指能够指挥该模型运行的信息，例如包括数据使用人员或组织的ID、模型的ID ;模型运行的数据集；模型的描述信息(如，该模型的功能、特征、编码等)。索引信息例如包括模型ID、该模型的运行时间、该模型运行的输入集。结果数据为该模型按照指定输入集运行得到的数据。
[0060]于此，数据输出索引建立的具体过程如下:以模型标识信息(模型的ID)为关联要素，确定该模型对应的管理信息及索引信息的关联，结果数据与模型ID及该模型运行的输入集的组合一一对应(即:采用同一个模型，运行输入集相同时结果数据相同)。基于此，可以在数据网关中完整描述该结果数据的完整信息。即，数据网关通过建立数据输出索引，确定了模型、模型运行的结果数据、数据需求方之间的正确关联关系，从而保证正确的数据需求方，按照允许的模型规则，及时获取该模型所运行的结果数据。即，将目标开放的数据准确开放给具备权限的数据需求方。
[0061]于本实施例中，安全管理人员可在数据网关完成安全规则的配置(比如，结果数据的过滤、脱敏及合规检查等具体配置)。例如，根据数据需求方在数据网关的注册等级，确定数据需求方能够获取的结果数据的完整程度。
[0062]若数据网关根据建立的数据输出索引中的模型的管理信息的数据需求方标识信息，判断当前希望使用该模型的结果数据的用户对该模型没有使用权限，则数据网关不会向该用户输出该模型的结果数据。若当前的数据需求方具有相应

完整全部详细技术资料下载

当前第2页1 2 3