数据分析方法及装置与流程

文档序号:11177549阅读:600来源:国知局
数据分析方法及装置与流程

本发明属于数据处理领域,尤其涉及一种数据分析方法及装置。



背景技术:

数据分析过程中往往包含大量的数据清洗、特征平滑、特征规范化、特征提炼、特征选择等处理节点。在传统数据分析中,对于每一个处理节点,都会产生对应的中间数据,生成的中间数据需要进行落地处理,由于中间数据用于作为下一个处理节点的上游数据依赖,下一个数据节点需要加载上一个数据节点落地后的中间数据作为其输入。

在传统数据分析中,上下两个处理节点通过落地的中间数据进行链接,数据每经过一个处理节点就需要做一次数据加载和落地,对于海量数据或者复杂的数据分析过程来说,中间数据的数据量巨大,不仅导致计算资源、输入输出(io)的资源浪费,而且数据加载和落地也会严重影响数据分析的效率。



技术实现要素:

本发明提供一种数据分析方法及装置,用于解决现有数据分析中数据每经过一个处理节点就需要做一次数据加载和落地,不仅导致资源费,且影响数据分析的效率的问题。

为了实现上述目的,本发明提供了一种数据分析方法,包括:

构建数据分析流程中各处理节点对应的处理模型;

将各处理模型按照依赖关系依次连接生成处理模块;

利用连接后的处理模型对待处理的原始数据进行处理以得到目标数据。

为了实现上述目的,本发明提供了一种数据分析装置,包括:

构建模块,用于构建数据分析流程中各处理节点对应的处理模型;

连接模块,用于将各处理模型按照依赖关系进行连接;

处理模块,用于利用连接后的处理模型对待处理的原始数据进行以处理以得到目标数据。

本发明提供的数据分析方法及装置,通过构建数据分析流程中各处理节点对应的处理模型,将各处理模型按照依赖关系依次连接,利用连接后的处理模型对待处理的原始数据进行处理以得到目标数据。本发明中各处理模型按照依赖关系直接连接,上一个处理模型的输出可以直接输入到下一个处理模型中,中间数据不再进行落地,节省资源,并且省略中间数据的加载过程,提高了数据分析效率。

附图说明

图1为本发明实施例一的数据分析方法的流程示意图;

图2为本发明实施例二的数据分析方法的流程示意图;

图3为本发明实施例二的dag图;

图4为本发明实施例二的数据分析方法的应用示例示意图之一;

图5为本发明实施例三的数据分析方法的流程示意图;

图6为本发明实施例四的数据分析装置的结构示意图;

图7为本发明实施例五的数据分析装置的结构示意图。

具体实施方式

下面结合附图对本发明实施例提供的评估指标获取方法及装置进行详细描述。

实施例一

如图1所示,其为本发明实施例一的数据分析方法的流程示意图。该数据分析方法包括以下步骤:

s101、构建数据分析流程中各处理节点对应的处理模型。

首先,对设定的数据分析流程进行分析,获取每个数据分析流程中各处理节点,在获取到各处理节点后,能够依据各处理节点的功能,构 建每个处理节点相应的处理模型。

例如,该数据分析流程中包括有特征平滑、特征归一化、特征提取、特征选择等处理节点,这些处理节点都有特定的处理功能,这些处理节点能够对输入的数据进行处理以得到一个相应的结果,这个结果在数据分析流程中就是中间数据。例如特征归一化用于将原始数据基于每个特征的均值和标准差进行归一化处理,归一化处理后的数据就是该特征归一化的中间数据。本实施例中,为了避免产生中间数据,将特征归一化这个处理节点进行模型化,特征归一化处理模型对输入的数据具有数据转换功能,该处理模型能够记录每个特征均值和标准差,能够对原始数据进行转换。

s102、将各处理模型按照依赖关系进行连接。

在对数据分析流程进行分析时,需要获取到各处理模型的依赖关系,当构建出各处理节点对应的处理模型后,按照处理节点之间的依赖关系,将各处理模型依次有序地串联起。为了使各处理模型能够直接连接,需要设置有数据接口,本实施例中,各处理模型的数据接口是统一的,经过数据接口依据依赖关系将各处理模型进行顺次连接后,数据分析流程就可以转换成一个有序的执行逻辑。

s103、利用连接后的处理模型对待处理的原始数据进行处理以得到目标数据。

当各处理模型的连接后,将能够有序地执行逻辑,可以将待处理的原始数据输入到连接后的各处理模型中,原始数据首先进入处于执行逻辑顶端的处理模型中,然后经过处理模型后的数据依次进入下一个处理模型,直到进入到处于执行逻辑尾部的处理模型中,该处理模型最后输出的数据就是目标数据。

本实施例提供的数据分析方法,将处理模型按照依赖关系连接,上一个处理模型的输出可以直接通过数据接口输入到下一个处理模型中,中间数据不再进行落地,节省资源,而且由于上一个处理模型生成的中间数据直接进入下一个处理模型,避免了中间数据的加载过程,提高了数据分析效率。

实施例二

如图2所示,其为本发明实施例二的数据分析方法的流程示意图。该数据分析方法包括以下步骤:

s201、获取数据分析流程的无回路有向dag图。

数据分析流程是由一系列的处理节点组成的,对数据分析流程进行特征分析,能够获取到该数据分析流程的无回路有向图(directedacyclicgraph,简称dag图),dag图可以串联出一系列有序的处理节点。

s202、解析dag图获取数据分析流程的相关信息。

其中,所述相关信息中包括:处理节点的逻辑功能、处理节点之间的依赖关系以及各处理模型存储地址。

对dag图进行解析获取到该数据分析流程的相关信息,其中,该相关信息中包括数据分析流程中包括的处理节点的逻辑功能、处理节点之间的依赖关系和各处理模型存储地址。相关信息中还可以包括输入数据信息、输出数据信息以及用户配置参数等。这些相关信息可以生成一个具有节点依赖关系的可扩展标记语言(extensiblemarkuplanguage,简称xml)文件,将该xml文件保存到数据库备份中并提交到后台。

s203、根据所述相关信息中每个处理节点的逻辑功能构建对应的处理模型。

在获取到每个处理节点的逻辑功能后,根据处理节点的逻辑功能构建对应的处理模型。例如,一个数据缩放处理节点用于将大于设定范围的数据进行缩小,将小于预设范围的数据进行放大,根据这个处理节点的逻辑功能就可以构建相应的数据缩放模型。

s204、根据所述相关信息中处理节点之间的依赖关系将各处理模型通过数据接口连接。

在生成各处理节点对应的处理模型后,根据所述相关信息中处理节点之间的依赖关系,将各处理模型通过数据接口直接连接。具体地,后台接收到对dag图解析得到的xml文件后,能够获取到分析dag图中处理节点之间的依赖关系。后台根据处理节点之间的依赖关系对各处理模型的代码程序自动组装,即后台根据处理节点之间的依赖关系对各 处理模型的代码程序进行dag化,将组装后的代码程序保存并编译成可运行文件。然后基于已经设计好的数据接口,将各处理模块的代码依次组装,组成完成后,对每个处理模型进行初始化。为了实现处理模型的直接连接,对数据接口进行了统一化处理,从而可以方便地把一系列的代码组合起来,在根据依赖关系进行串联后,数据分析流程转换成程序层面的一个有序的执行逻辑。

一般情况下,代码程序的重新组合会引入新的程序缺陷(bug),导致部署时风险较大,并且需要进行再次测试,导致资源的重复。本实施例中,将数据分析流程在代码层面进行了dag化,能够减少程序缺陷的数量,可以一体化将各处理模型的可运行代码程序打包直接部署到线上环境,这将极大的减少线上部署的风险。

s205、根据所述相关信息中各处理模型存储地址将各处理模型进行落地存储。

在生成处理模型后,为了避免处理模型的重复计算,可以根据相关信息中各处理模型的存储地址,将各处理模型进行落地存储,提高处理模型的复用率。实际应用中,处理模型的大小规模远远小于中间数据的大小,不仅能够节省资源,而且有利于数据分析的效率。

s206、将待处理的原始数据输入到连接后的处理模型中进行处理以得到目标数据。

在生成将处理模型进行连接后,将待处理原始数据进行输入,经过连接后的处理模型的处理,得到最终的目标数据。本实施例中,对原始数据进行处理的过程在内存中完成,进而不用落地每个处理模型的中间数据。

为了更好地理解上述本实施例提供的数据分析方法,下面举例进行说明:

对原始数据的数据分析流程包括以下处理节点:数据规范、数据缩放和数据平滑。对该数据分析流程进行分析,得到该数据分析流程的dag图,如图3所示,在该dag图中每个处理节点输出的数据为中间数据,例如数据缩放处理节点输出的中间数据为缩放后数据,数据平滑处理节 点输出的中间数据为平滑后数据。

对dag图进行解析,可以获取到该数据分析流程中各处理节点之间的相关信息,其中相关信息中包括:处理节点的逻辑功能、处理节点之间的依赖关系以及各处理模型存储地址。在该示例中,处理节点之间的依赖关系为:数据规范依赖数据平滑,数据平滑依赖数据缩放。

为了在数据分析过程中不再产生中间数据,避免中间数据的落地和加载,根据数据分析流程中各处理节点的逻辑功能,为每个处理节点构建对应的处理模型,这些处理模型具有相应的数据转换功能。具体包括:数据缩放模型、数据平滑模型和数据规范模型。进一步地,按照处理节点之间的依赖关系,将各处理模型通过数据接口连接起来,如图4所示。在将处理模型连接后,形成了一个有序的执行逻辑,将原始数据输入到连接后的处理模型中,这样上述连接后的处理模型构成的执行逻辑就开始对原始数据进行处理,得到最终的目标数据。各处理模型对原始数据的处理过程可以在内存中完成,避免产生中间数据。进一步地,可以将构建的这些处理模型进行落地,可以根据用户配置的存储地址进行存储,以便于这些处理模型的复用。

本实施例提供的数据分析方法,通过获取数据分析流程的dag图,对dag图进行解析,根据解析结果构建各处理模型,以及将各处理模型按照依赖关系连接,利用连接后的处理模型对待处理的原始数据进行处理以得到目标数据。本实施例中处理模型之间直接连接,上一个处理模型的输出可以直接输入到下一个处理模型中,中间数据不再进行落地,节省资源,并且省略中间数据的加载过程,提高了数据分析效率。

实施例三

如图5所示,其为本发明实施例三的数据分析方法的流程示意图。在上述实施例的基础之上,利用连接后的处理模型对待处理原始数据进行处理以得到目标数据包括以下步骤:

s301、对原始数据进行数据校验。

在获取到原始数据后,需要对原始数据进行数据校验,首先检测用户是否存有相应的处理模型,如果存储有相应的处理模型,判断该原始 数据是否未做过更改,具体地,根据相关信息中的输入数据信息和输出数据信息,如果原始数据未做过更改,说明不需要对已存储的处理模型进行更新,只需要直接获取到存储的各处理模型,则执行步骤s302,否则执行步骤s303。

s302、当原始数据通过数据校验时,依据所述相关信息中各处理模型的存储地址获取各处理模型。

当原始数据通过数据校验时,说明存储的处理模型不需要更新,则可以根据相关信息中各处理模型的存储地址获取到各处理模型

s303、当原始数据未通过数据校验时,重新构建各处理模型。

在对原始数据进行数据校验时,当判断出原始数据做过更改时,需要对存储的各处理模型进行更新,如果未检测到已存储的处理模型,则对原始数据的数据分析流程进行分析,构建相应的处理模型。

s304、将各处理模型按照依赖关系进行连接。

将各处理模型按照处理节点之间的依赖关系进行连接,形成一个有序地执行逻辑。

s305、将原始数据进行格式转换得到输入数据。

为了保证数据接口的统一性,需要对原始数据机械能格式转换,生成格式统一的输入数据,本实施例中,将原始数据统一转换成向量(vector)或者矩阵(matrix)格式的输入数据。

s306、将输入数据输入到连接后的处理模型中得到目标数据。

将处理模型按照依赖关系进行连接,形成了一个有序的执行逻辑,将原始数据输入到连接后的处理模型中,这样上述由连接的处理模型构成的执行逻辑就开始对原始数据进行处理,得到最终的目标数据。

s307、根据预设的效果验证条件对目标数据进行效果验证。

用户可以根据自身的需求,预设一定的效果验证条件,根据设定的效果验证条件对目标数据的处理效果进行验证。例如,提供数据处理前后的效果对比,用户能够非常直观地看到数据在处理前和处理后的效果对比。

实施例四

如图6所示,其为本发明实施例四的数据分析装置的结构示意图。该数据分析装置包括:构建模块11、连接模块12和处理模块13。

其中,构建模块11,用于构建数据分析流程中各处理节点对应的处理模型。

连接模块12,用于将各处理模型按照依赖关系进行连接。

处理模块13,用于利用连接后的处理模型对待处理的原始数据进行处理以得到目标数据。

本实施例提供的数据分析装置,将处理模型按照依赖关系连接,上一个处理模型的输出可以直接通过数据接口输入到下一个处理模型中,中间数据不再进行落地,节省资源,而且由于上一个处理模型生成的中间数据直接进入下一个处理模型,避免了中间数据的加载过程,提高了数据分析效率。

实施例五

如图7所示,其为本发明实施例五的数据分析装置的结构示意图。该数据分析装置除了包括上述实施例四中的构建模块11、连接模块12和处理模块13之外,还包括:获取模块14、解析模块15、效果验证模块16和落地模块17。

获取模块14,用于获取所述数据分析流程的无回路有向dag图;

解析模块15,用于解析所述dag图获取数据分析流程的相关信息。

其中,所述相关信息中包括:处理节点的逻辑功能、处理节点之间的依赖关系以及各处理模型存储地址。

本实施例中处理模块一种可选的结构方式包括:数据校验单元131、获取单元132、格式转换单元133和处理单元134。

其中,数据校验单元131,用于对所述原始数据进行数据校验。

获取单元132,用于当原始数据通过校验时依据所述相关信息中各处理模型的存储地址获取各处理模型。

格式转换单元133,用于将所述原始数据进行格式转换得到输入数据。

处理单元134,用于将输入数据依次输入到连接后的处理模型中进行处理以得到所述目标数据。

进一步地,数据分析装置还包括:效果验证模块16。

效果验证模块16,用于根据预设的效果验证条件对目标数据进行效果验证。

构建模块11,具体用于根据所述相关信息中每个处理节点的所述逻辑功能构建对应的所述处理模型。

连接模块12,具体用于根据所述相关信息中处理节点之间的依赖关系将各处理模型通过数据接口连接。

进一步地,数据分析装置还包括:落地模块17。

落地模块17,用于根据所述相关信息中各处理模型存储地址将各处理模型进行落地存储。

本实施例中,通过获取数据分析流程的dag图,对dag图进行解析,根据解析结果构建各处理模型,以及将各处理模型按照依赖关系连接,利用连接后的处理模型对待处理的原始数据进行处理以得到目标数据。本实施例中处理模型之间直接连接,上一个处理模型的输出可以直接输入到下一个处理模型中,中间数据不再进行落地,节省资源,并且省略中间数据的加载过程,提高了数据分析效率。

进一步地,可以将构建的这些处理模型进行落地,可以根据用户配置的存储地址进行存储,以便于这些处理模型的复用。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1