数据分析方法、数据分析装置、电子设备及存储介质与流程

文档序号:23651856发布日期:2021-01-15 13:48阅读:149来源:国知局
数据分析方法、数据分析装置、电子设备及存储介质与流程

本申请涉及大数据技术领域,尤其涉及一种数据分析方法、数据分析装置、电子设备及计算机可读存储介质。



背景技术:

如今,由于宏观经济形势的变化及互联网金融公司的接连爆雷,导致金融案件处于高发态势。对于金融案件来说,其涉案当事人往往数量较多、群众挽损迫切。检察院在审查起诉阶段,往往会面临庞杂的卷宗和复杂的账目,并从中对案件进行分析。

面对复杂的交易、海量的信息和繁琐的分析工作,传统的分析图谱仅仅作为一种数据导入工具,在人工选择下对部分或全部的案件进行分析,可能导致所获得的分析结果较为分散,难以获得场景化及系统化的分析结果。



技术实现要素:

有鉴于此,本申请实施例提供了一种数据分析方法、数据分析装置、电子设备及计算机可读存储介质,可在分析前去除冗余数据,增强待分析的数据的关联性,以此提升数据分析的效率及准确率。

本申请实施例的第一方面提供了一种数据分析方法,包括:

通过预设的数据平台,获取至少一个原始数据流;

根据数据类别对各个原始数据流进行分类;

对分类后的上述原始数据流进行清洗,得到有效数据流;

调用预设的分析工具,根据各个有效数据流之间的关联关系提取出目标有效数据,并对上述目标有效数据进行分析,以得到待分析维度下的分析图谱。

本申请实施例的第二方面提供了一种数据分析装置,包括:

获取单元,用于通过预设的数据平台,获取至少一个原始数据流;

分类单元,用于根据数据类别对各个原始数据流进行分类;

清洗单元,用于对分类后的上述原始数据流进行清洗,得到有效数据流;

分析单元,用于调用预设的分析工具,根据各个有效数据流之间的关联关系提取出目标有效数据,并对上述目标有效数据进行分析,以得到待分析维度下的分析图谱。

本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在上述存储器中并可在电子设备上运行的计算机程序,上述处理器执行上述计算机程序时实现第一方案提供的数据分析方法的各步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现第一方案提供的数据分析方法的各步骤。

通过实施本申请实施例提供的数据分析方法,首先通过预设的数据平台,获取至少一个原始数据流,然后根据数据类别对各个原始数据流进行分类,并对分类后的上述原始数据流进行清洗,得到有效数据流,再调用预设的分析工具,根据各个有效数据流之间的关联关系提取出目标有效数据,并对上述目标有效数据进行分析,以得到待分析维度下的分析图谱。上述过程中,通过对原始数据的分类操作,将原始数据流中所包含的原始数据进行归纳整理,使得原本无序的原始数据得以有序化;通过对原始数据的清洗操作,能够筛除掉无用的数据,使得清洗后仅保留对后续分析操作有意义的有效数据;且在数据分析前,基于有效数据流之间的关联关系提取出目标有效数据作为待分析的数据,可去除数据冗余,以此提升数据分析效率,获得场景化及结构化的分析结果。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的数据分析方法的实现流程图;

图2是本申请实施例提供的数据分析方法中步骤102的实现流程图;

图3是本申请实施例提供的数据分析方法中步骤104的实现流程图;

图4是本申请实施例提供的数据分析方法中步骤104的另一实现流程图;

图5是本申请实施例提供的数据分析方法中的资金交易关系网络图的实例图;

图6是本申请实施例提供的一种数据分析装置的结构框图;

图7是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例所涉及的数据分析方法,可以应用于服务器、台式电脑、手机、平板电脑、可穿戴设备、车载设备、增强现实(augmentedreality,ar)/虚拟现实(virtualreality,vr)设备、笔记本电脑、超级移动个人计算机(ultra-mobilepersonalcomputer,umpc)、上网本、个人数字助理(personaldigitalassistant,pda)等电子设备上,本申请实施例对电子设备的具体类型不作任何限制。

请参阅图1,图1示出了本申请实施例提供的一种数据分析方法的实现流程图。如图1所示,本实施例提供的数据分析方法可以包括:

步骤101,通过预设的数据平台,获取至少一个原始数据流。

在本实施例中,电子设备可集成有数据分析系统,该数据分析系统可接入预设的数据平台。其中,数据平台指的是以存储、运算及展现作为目的平台,可提供针对某些特定数据类别的数据接入、数据处理及数据存储等服务。示例性地,每一数据平台已设定好各自的访问接口;之后,电子设备即可通过该访问接口访问各个数据平台中的数据,获得至少一个原始数据流。

在一些实施例中,上述预设的数据平台的数量可以是一个、两个或多个,此处不对数据平台的数量作出限定。基于此,上述数据分析系统也可以采用分布式框架,以提高数据分析的并发。

仅作为示例,本实施例中的原始数据流可以基于法院中的待分析案件,例如金融案件来获得,此处不作限定。其中,不同数据平台可基于同一待分析案件导入不同的原始数据流,例如,数据平台1可导入金融案件1的银行流水数据流;数据平台2可导入金融案件1的涉案人员数据流,此处不对不同数据平台所可以导入的原始数据流作出限定。

在一些实施例中,电子设备可以在通过各个数据平台导入原始数据流后,对所获得的原始数据流作归纳整理。例如,将同属于一个金融案件的两条或多条原始数据流整合到一起,形成一条新的原始数据流。

步骤102,根据数据类别对上述各个原始数据流进行分类。

在本实施例中,原始数据流中所包含的数据即为原始数据。在一条原始数据流中,可能包含有属于不同类别的多项原始数据。仅作为示例,针对金融案件所获取到的银行流水数据流,其可包含有资金流出方、资金流入方、资金金额及资金流动时间等各项原始数据;这其中,资金流出方及资金流入方均属于涉案机构主体类别,资金金额属于交易金额类别,资金流动时间属于交易时间类别。由于各个原始数据流可能来源于不同的数据平台,而不同的原始数据流所包含的原始数据的数据类别会有所区别,导致原始数据流中的原始数据较为无序;基于此,本实施例中,可以对各个原始数据流所包含的原始数据进行分类,使得原本无序的原始数据得以有序化,得到各个原始数据所属的数据类别,以实现对原始数据流的分类。

在一些实施例中,数据分析系统已预先划分有若干个数据类别。示例性地,上述数据类别通常基于实词来进行划分,例如,所设定的数据类别可以包括两大类:数字类及非数字类;这其中,数字类又可细分为:涉案人员年龄类别、交易金额类别及交易时间类别等;非数字类又可细分为:涉案人员主体类别、涉案机构主体类别及交易地区类别等;此处不对数据类别的划分方式作出限定。基于此,请参阅图2,上述步骤102可以具体包括:

步骤1021,分别对各个原始数据流中所包含的实词进行提取,得到各个原始数据流所包含的原始数据;

其中,考虑到数据类别通常基于实词进行分类,因而此处为了提升数据分析的效率,仅提取各个原始数据流中所包含的实词,所提取出的实词即为各个原始数据流所包含的原始数据。

步骤1022,针对每个原始数据流,将上述原始数据流中所包含的各个原始数据分别与预设的至少一个数据类别进行匹配;

其中,每一数据类别均有其对应的格式和/或规则。举例来说,对于交易时间类别,其要求对应的数据必然包含日期信息,而日期信息有着其固有格式,例如日/月/年,或者年/月/日,或者月/日/年等;且交易时间类别所对应的数据也可能包含时刻信息,而时刻信息也有其固有格式,例如时:分:秒。基于此,对于任一原始数据流,均可将该原始数据流与任一数据类别所关联的格式和/或规则进行匹配,若匹配成功,则认为该原始数据流属于该数据类别;否则,继续将该原始数据流与下一数据类别所关联的格式和/或规则进行匹配,直至匹配成功为止,以此来确定各个原始数据所属的数据类别。

步骤1023,根据匹配结果,各个原始数据所属的数据类别,以实现对原始数据流的分类。

其中,虽然已经可以根据匹配结果确定各个数据类别下的原始数据,但对于各个原始数据来说,其仍与所来源的原始数据流相关联。举例来说,可对分类后的各个原始数据进行标记,具体为标记各个原始数据的来源位置,该来源位置用于指示原始数据所属的原始数据流。

在一些实施例中,考虑到对金融案件进行分析的目的是抓捕到金融案件案件的犯罪嫌疑人,因而,可以在涉案人员主体类别下,通过特征提取操作确定关键原始数据(也即关键涉案人员主体),并对关键原始数据进行标记;该特征提取操作可以为:针对每个原始数据(也即涉案人员主体),根据上述原始数据所属的原始数据流,检测上述原始数据在预设时间段内与第三方的资金往来;若与第三方的资金往来超过预设的资金阈值,则将上述原始数据确定为关键原始数据。举例来说,涉案人员主体类别下有a、b及c三个涉案人员主体(原始数据),通过与a相关联的银行流水数据流,可知a在半年内与第三方的资金往来为x1,通过与b相关联的银行流水数据流,可知b在半年内与第三方的资金往来为x2,通过与c相关联的银行流水数据流,可知c在半年内与第三方的资金往来为x3,其中,只有x2超过了预设的资金阈值;因而,此时可以确定b为关键涉案人员主体(关键原始数据),可以通过高亮的方式将b及与b相关联的所有原始数据流均进行标记,以便于用户查阅时能抓住重点。

步骤103,对分类后的上述原始数据流进行清洗,得到有效数据流。

在本申请实施例中,考虑到往往是通过人工的方式或光学字符识别(opticalcharacterrecognition,ocr)的方式来将原始数据录入至数据平台中,而这两种方式无法保证百分百的录入准确率,这将导致原始数据中可能存在无效数据。而由于同一数据类别下的原始数据的数据格式及所要遵循的数据规律往往相同,因而,可以对分类后的上述原始数据流进行清洗,所得到的清洗后的数据流即为有效数据流。

在一些实施例中,上述清洗操作主要为针对属于数字类的数据类别下的原始数据所进行的操作,基于此,可以先在预设的至少一个数据类别中,筛选出属于数字类的数据类别,作为待清洗数据类别,然后针对每个待清洗数据类别,对上述待清洗数据类别下的原始数据进行清洗操作,得到上述待清洗数据类别下的有效数据。其中,上述清洗操作包括但不限于空白数据填充操作、噪声数据去除操作和/或非法数据去除操作。

在一种应用场景下,上述清洗操作包括空白数据填充操作;则上述步骤103具体表现为;针对每个待清洗数据类别,检测上述待清洗数据类别下是否存在空白数据;若存在空白数据,则计算上述待清洗数据类别下的原始数据均值,并将上述原始数据均值填充至上述空白数据处。举例来说,在涉案人员年龄类别下,存在一空缺的年龄数据;则电子设备可计算在涉案人员年龄类别下的原始数据均值(也即涉案人员年龄均值),并将该均值填充进该空缺的年龄数据中。

在另一种应用场景下,上述清洗操作包括噪声数据去除操作;则上述步骤103具体表现为;针对每个待清洗数据类别,数据分析系统中已预先设定有所对应的噪声数据区间;随后在需要进行清洗操作时,检测上述待清洗数据类别下是否存在属于对应的噪声数据区间内的数据(也即噪声数据);若存在噪声数据,则将所噪声数据剔除。举例来说,在涉案人员年龄类别下,考虑到实际生活中较少有未成年儿童及耄耋老人犯下金融案件,因而,数据分析系统可设定两个噪声数据区间,分别为小于16及大于80(单位为周岁);则在对涉案人员年龄类别下的原始数据进行清洗操作时,若检测到有原始数据为8,则该原始数据即为属于小于16这一噪声数据区间内的异常数据,此时该原始数据可以被剔除。

在又一种应用场景下,上述清洗操作包括非法数据去除操作;则上述步骤103具体表现为;针对每个待清洗数据类别,数据分析系统中已预先设定有所对应的非法数据区间;随后在需要进行清洗操作时,检测上述待清洗数据类别下是否存在属于对应的非法数据区间内的数据(也即非法数据);若存在非法数据,则将上述非法数据剔除。举例来说,在交易时间类别下,可能发生由于操作系统的异常或病毒的攻击而导致录入的原始数据(也即交易时间)为“1900年x月y日”,这显然为一非法的时间。则在对交易时间类别的下的原始数据进行清洗操作时,需要将“1900年x月y日”这一非法数据剔除,以保证剩余的原始数据均为合法数据。

在一些实施例中,考虑到噪声数据及非法数据均为需要被剔除的数据,因而,针对每个待清洗数据类别,电子设备可以对噪声数据区间及非法数据区间取并集后得到一异常数据区间,使得在每个待清洗数据类别所对应的异常数据区间内的原始数据可以被剔除;也即,将噪声数据及非法数据统称为异常数据,将噪声数据去除操作和/或非法数据去除糅合成一个异常数据去除操作。

步骤104,调用预设的分析工具,根据各个有效数据流之间的关联关系提取出目标有效数据,并对上述目标有效数据进行分析,以得到待分析维度下的分析图谱;

在本实施例中,数据分析系统中已预先配置有若干个分析维度,其中,每一分析维度关联有至少一项数据类别。在确定了本次分析操作所关心的分析维度,也即待分析维度后,即可基于该待分析维度调用预设的分析工具,以提取出目标有效数据,并对上述目标有效数据进行分析,获得该待分析维度下的分析图谱。需要注意的是,此处不对上述待分析维度的数量作出限定。示例性地,上述分析维度可以包括:账户分析维度、多维团伙分析维度及资金穿透分析维度等,此处不作限定。并且,每一分析维度下还可包含多个子分析维度,例如,针对账户分析维度来说,其下可包含:资金出入笔数子分析维度、资金出入金额子分析维度及异常交易频次子分析维度等,此处不作限定。

在本实施例中,分析工具可先确定待分析维度所要输出的分析图谱的表现形式,并基于该表现形式绘制对应的分析图谱,以获得可视化结果。示例性地,上述分析图谱的表现形式有多种。例如,针对账户分析维度来说,其资金出入笔数子分析维度的分析图谱可表现为圆饼图,资金出入金额子分析维度可表现为柱状图,异常交易频次子分析维度可表现为柱状图和/或曲线图,此处不对各个分析维度及其子分析维度所采用的分析图谱的表现形式作出限定。

在一些实施例中,分析工具还可基于待分析维度所对应的报告模板,确定各个分析图谱的显示比例尺;之后再基于对应的显示比例尺及对应的表现形式绘制生成图形元素,并基于目标有效数据对图形元素进行文字填充,得到分析图谱。

在一些实施例中,请参阅图3,分析工具可通过预设的聚类分析模型获得各个有效数据流之间的关联关系,并提取出对应的目标有效数据,以减少数据分析时的数据冗余,则上述调用预设的分析工具,根据各个有效数据流之间的关联关系提取出目标有效数据的步骤可以具体包括:

步骤1041,对上述有效数据流进行向量化处理,得到有效数据流向量。

电子设备可以预先配置多个向量维度,每一向量维度用于指示一数据类别;通过已配置的多个向量维度,对各个有效数据流进行向量化处理,得到有效数据流的向量化表达,也即有效数据流向量。仅作为示例,向量维度可以包括有涉案机构主体类别a,交易金额类别b,交易时间类别c等构成;考虑到一条数据流中可能所包含的原始数据可能有多项,因而,基于有效数据流所生成的有效数据流向量中,各个维度下可能有多项元素。

步骤1042,基于预设的聚类算法构建聚类分析模型,并将上述有效数据流向量输入至上述聚类分析模型中,得到至少一个群组,每个群组包括至少一个有效数据流向量。

在本申请实施例中,可以将所得到的各个有效数据流向量投入至向量空间中,并对各个有效数据流向量进行聚类处理。具体地,电子设备可预先基于一给定的聚类算法(例如k-means算法或其它算法)构建得到聚类分析模型,通过该聚类分析模型实现聚类的操作。所得到的聚类结果为至少一个群组,可以将每个群组视作为一个聚类,这样一来,每个群组中将至少存在有一个有效数据流向量。可以认为,处于同一群组中的有效数据流向量具有一定的关联性;也即,处于同一群组中的有效数据流向量所对应的有效数据流具有一定的关联性。

步骤1043,根据上述至少一个群组,提取出目标有效数据。

在本申请实施例中,可以在聚类所得到的至少一个群组中选择部分群组作为目标群组,并将与该目标群组中的有效数据流向量相关联的有效数据流确定为目标有效数据。具体地,通过聚类算法,可以确定出多个群组中互斥的群组(也即相关度低于预设的相关度下限值的群组),记为互斥群组;以及多个群组中关联的群组(也即相关度高于预设的相关度上限值的群组),记为关联群组。根据已确定的关联群组及互斥群组,可以在上述至少一个群组中确定目标群组。例如,假定目前得到了群组1、2、3、4、5,其中,群组1与群组2为关联群组;群组4及群组5为关联群组;群组2与群组5为互斥群组;则电子设备可以将群组1、群组2和/或群组3确定为目标群组;也可以将群组3、群组4和/或群组5确定为目标群组;而群组1、2及群组4、5无法同时被确定为目标群组。也即,目标群组遵循已得到的互斥及关联的关系而确定,无法将互斥的群组同时确定为目标群组,且推荐将关联的群组同时确定为目标群组。在确定目标群组后,电子设备即可将与上述目标群组中的有效数据流向量相关联的有效数据流下的有效数据确定为目标有效数据,也即待分析的数据。可以理解的是,两个群组之间的相关度,可以根据这两个群组的平均向量的距离计算而得。

在一些实施例中,为了实现针对化的数据分析,电子设备可基于与待分析维度相关联的数据类别对待分析的数据进行进一步筛选。例如,假定与上述目标群组中的有效数据流向量相关联的有效数据流为数据流1及2,则电子设备可以提取出数据流1及2中属于目标数据类别(也即与待分析维度相关联的数据类别)下的有效数据,作为目标有效数据。也即,电子设备可以在与上述目标群组中的有效数据流向量相关联的有效数据流中进行进一步筛选,仅保留该有效数据流中属于该目标数据类别的有效数据作为目标有效数据。

在一些实施例中,请参阅图4,针对金融案件,若待分析维度为资金穿透分析维度,则上述步骤104可以具体包括:

步骤1044,基于上述目标有效数据,生成资金交易关系网络图。

与资金穿透分析维度相关的目标数据类别包括但不限于涉案人员主体类别、交易金额类别及涉案机构主体类别。通过这些目标数据类别及其下的目标有效数据,可分析得到借贷方向;因而可基于涉案人员主体(也即涉案人员主体下的目标有效数据)、交易金额(交易金额类别下的目标有效数据)及借贷方向(基于涉案机构主体类别下的目标有效数据进行表示),生成资金交易关系网络。

在该资金交易关系网络图中,节点为涉案人员或涉案机构;节点之间基于借贷方向进行连线,用以表示资金流向。示例性地,可以基于节点之间的交易金额对节点之间的连线进行标注。例如,若两个节点间的交易金额处于预设的第一金额区间中,则将这两个节点间的连线标注为绿色;若两个节点间的交易金额处于预设的第二金额区间中,则将这两个节点间的连线标注为黄色;若两个节点间的交易金额处于预设的第三金额区间中,则将这两个节点间的连线标注为红色。其中,第一金额区间的最大值小于或等于第二金额区间的最小值;第二金额区间的最大值小于或等于第三金额区间的最小值。通过上述连线标注操作,可快速查找出异常资金的流向。或者,也可以基于借贷方向对节点之间的连线进行标注。例如,在选定目标节点后,流入该目标节点的资金被标注为蓝色,流出该目标节点的资金被标注为红色,以此快速获知单个节点的资金流入/流出状态。

步骤1045,监测是否接收到基于上述资金交易关系网络图所输入的用户指令。

电子设备可在生成资金交易关系网络图后,将该资金交易关系网络图显示于其屏幕上,以供用户进行查阅。用户可基于该资金交易关系网络图,输入用户指令,以实现对资金交易关系网络图的各项操作。仅作为示例,上述用户指令可以包括:编辑指令及查看指令,其中,查看指令又包括点击查看指令及悬浮查看指令。

步骤1046,若监测到上述用户指令,则在上述用户指令的指示下对上述资金交易关系网络图进行相应处理。

当电子设备接收到用户指令时,可基于该用户指令对资金交易关系网络图进行处理。此处以用户通过电脑进行操作为例,对上述步骤1053作出解释及说明:

针对查看指令:用户可通过放置光标或鼠标左键点击来向电子设备输入查看指令。

若电子设备接收到基于资金交易关系网络图及光标放置操作而输入的悬浮查看指令,则确定光标的放置位置;若放置位置在节点上,则电子设备可通过悬浮框形式来显示节点所包含的账户明细;若放置位置在节点间连线上,则电子设备可通过悬浮框形式来显示节点间所关联的合计交易金额。

若电子设备接收到基于资金交易关系网络图及鼠标左键点击操作而输入的点击查看指令,则确定鼠标左键点击操作的点击位置;若点击位置为节点,则电子设备可以选中该节点,并高亮显示该已被选中的节点的名称;若再次接收到基于该点击位置所输入的查看指令,则隐藏该节点的名称。

针对编辑指令:编辑指令包括对单个节点的编辑指令,及两个以上节点的编辑指令。

对于单个节点的编辑指令,用户可先鼠标左键点击选中节点,再右键点击已被选中的节点来呼出功能菜单,该功能菜单中包括有“编辑”选项,通过点击该编辑选项来编辑节点的相关信息。该相关信息包括:节点名称、节点颜色、节点显示尺寸和/或节点图标。可选地,通过“编辑”选项还可呼出编辑面板,该编辑面板中显示有icon,用于代表节点类型;仅作为示例,数据分析系统预先已设置有多个节点类型,例如,交易对手可编辑的节点类型包括:房地产、普通个人、高端消费、汽车服务、一般消费、餐饮、酒店、旅行、股票、期货、信托、理财产品、消费金融、货币、证券、银行、保险、资本市场、衍生证券、投资理财、基金(私募、公募)、国际收支、财政管理、贸易金融、地产金融、外汇管理及风险管理等,此处不作限定。

对于两个以上节点的编辑指令,用户可以通过按下键盘上的控制按键(control,ctrl)案件,同时以鼠标左键点击两个以上节点,来选中被编辑节点;或者,直接通过鼠标左键滑动框选一片节点区域,来选中被编辑节点。电子设备可以高亮显示已选中的被编辑节点。用户通过再次点击鼠标右键来呼出功能菜单,该功能菜单中包括有“合并”选项。用户通过鼠标左键按下该“合并”选项,资金交易关系网络图就会对被编辑选项进行合并处理。电子设备可以选择以虚化效果对合并后的节点进行渲染。

在一些实施例中,如图5所示,电子设备还可在对被编辑节点的合并处理完成后,在屏幕的指定区域(例如右下角区域)以悬浮窗形式展示合并前的节点,实现节点合并前后对比。

在一些实施例中,用户还可人工对资金交易关系网络图进行色块和/或特征的标注,数据分析系统可针对标注的节点,将其参数传递到数据系统的后台,使后台进行同类数据的机器学习,形成训练集的学习数据,可作为数据集合依托为后续的数据分析操作提供更精准的聚类和界面智能提示。其中,上述后台可以为hadoop平台。

在一些实施例中,在上述步骤104之后,为了实现数据分析结果的结构化输出,上述数据分析方法还可以包括:

查将上述分析图谱输出至上述待分析维度所对应的报告模板,得到分析报告;

在本实施例中,电子设备针对每一可能的分析维度均预先设置有对应的报告模板,其中,报告模板中设置有待填充内容(也即空白内容)。基于此前所得的分析图谱对报告模板中的待填充内容进行填充,即可得到完整的分析报告。仅作为示例,报告模板可以为“案,涉案主体人,涉案账户户,交易期间,累计交易人民币元,涉及对手个自然人,个企业。”,上述下划线部分①-⑧均为待填充内容,可通过查询各个待分析维度(及其子分析维度)下所输出的分析图谱得到目标数据,并将目标数据填入对应的待填充内容的位置。通过报告模板,以条理化的语言串联起对应分析维度下所要展示的分析结果,便于用户进行分析结果的查阅。

在一些实施例中,上述数据分析方法还包括:

将上述有效数据流、上述分析图谱和/或上述分析报告上传至区块链中(blockchain)。

其中,为了保证数据的安全性和对用户的公正透明性,可以将各个有效数据流、上述分析图谱和/或上述分析报告上传至区块链进行存证。用户随后即可通过各自的设备从区块链中下载获得有效数据流、上述分析图谱和/或上述分析报告,以便查证这些数据是否被篡改。本实施例所指区块链是采用分布式数据存储、点对点传输、共识机制及加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上可以看出,本实施例提供的一种数据分析方法,通过预设的数据平台,获取至少一个原始数据流,然后根据数据类别对上述各个原始数据流进行分类,并对分类后的上述原始数据流进行清洗,得到有效数据流,再调用预设的分析工具,根据各个有效数据流之间的关联关系提取出目标有效数据,并对上述目标有效数据进行分析,以得到待分析维度下的分析图谱。上述过程中,通过对原始数据的分类操作,将原始数据流中所包含的原始数据进行归纳整理,使得原本无序的原始数据得以有序化;通过对原始数据的清洗操作,能够筛除掉无用的数据,使得清洗后仅保留对后续分析操作有意义的有效数据;且在数据分析前,基于有效数据流之间的关联关系提取出目标有效数据作为待分析的数据,可去除数据冗余,获得场景化及结构化的分析结果;最后以报告的形式输出分析结果,可为用户提供更有条理及针对性的分析结果。

请参阅图6,图6是本申请实施例提供的一种数据分析装置的结构框图。本实施例中该电子设备包括的各单元用于执行上述数据分析方法实施例中的各步骤,具体请参阅上述数据分析方法所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。

参见图6,数据分析装置6包括:

获取单元601,用于通过预设的数据平台,获取至少一个原始数据流;

分类单元602,用于根据数据类别对各个原始数据流进行分类;

清洗单元603,用于对分类后的上述原始数据流进行清洗,得到有效数据;

分析单元604,用于调用预设的分析工具,根据各个有效数据之间的关联关系提取出目标有效数据,并对上述目标有效数据进行分析,以得到待分析维度下的分析图谱。

作为本申请一实施例,上述分类单元602,包括:

实词提取子单元,用于分别对各个原始数据流中所包含的实词进行提取,得到各个原始数据流所包含的原始数据;

数据匹配子单元,用于针对每个原始数据流,将上述原始数据流中所包含的各个原始数据分别与预设的至少一个数据类别进行匹配;

类别确定子单元,用于根据匹配结果,确定各个原始数据所属的数据类别,以实现对原始数据流的分类。

作为本申请一实施例,上述分析单元604,包括:

向量化子单元,用于对上述有效数据进行向量化处理,得到有效数据向量;

聚类子单元,用于基于预设的聚类算法构建聚类分析模型,并将上述有效数据向量输入至上述聚类分析模型中,得到至少一个群组,每个群组包括至少一个有效数据向量;

提取子单元,用于根据上述至少一个群组,提取出目标有效数据。

作为本申请一实施例,上述提取子单元,包括:

群组关系确定子单元,用于根据上述聚类分析模型确定上述至少一个群组中的互斥群组及关联群组;

目标群组确定子单元,用于基于上述互斥群组及上述关联群组,在上述至少一个群组中确定目标群组;

目标有效数据确定子单元,用于将与上述目标群组中的有效数据向量相关联的有效数据确定为目标有效数据。

作为本申请一实施例,上述清洗单元603,包括:

数据类别筛选子单元,用于在预设的至少一个数据类别中,筛选出属于数字类的数据类别,作为待清洗数据类别;

原始数据清洗子单元,用于针对每个待清洗数据类别,对上述待清洗数据类别下的原始数据进行清洗操作,得到上述待清洗数据类别下的有效数据。

作为本申请一实施例,上述清洗操作包括:空白数据填充操作、噪声数据去除操作和/或非法数据去除操作。

作为本申请一实施例,若上述待分析维度为资金穿透分析维度,则上述分析单元604,包括:

网络图生成子单元,用于基于上述目标有效数据,生成资金交易关系网络图;

指令监测子单元,用于监测是否接收到基于上述资金交易关系网络图所输入的用户指令;

网络图处理子单元,用于若监测到上述用户指令,则在上述用户指令的指示下对上述资金交易关系网络图进行处理。

作为本申请一实施例,上述用户指令包括编辑指令及悬浮查看指令,上述网络图处理子单元,包括:

网络图编辑子单元,用于若接入到基于上述资金交易关系网络图所输入的编辑指令,则在上述编辑指令的指示下,确定上述资金交易关系网络图中的待编辑节点,并在上述资金交易关系网络图中对上述待编辑节点执行节点框选和/或节点合并操作;

网络图查看子单元,用于若接入到基于上述资金交易关系网络图所输入的悬浮查看指令,则在上述悬浮查看指令的指示下,以悬浮框形式显示与上述悬浮查看指令所指向的节点相关的各个目标有效数据。

作为本申请一实施例,上述数据分析装置6还包括:

上传单元,用于将上述有效数据和/或上述分析图谱上传至区块链中。

本申请实施例中,数据分析装置通过预设的数据平台,获取至少一个原始数据流,然后根据数据类别对各个原始数据流进行分类,并对分类后的上述原始数据流进行清洗,得到有效数据流,再调用预设的分析工具,根据各个有效数据流之间的关联关系提取出目标有效数据,并对上述目标有效数据进行分析,以得到待分析维度下的分析图谱。上述过程中,通过对原始数据的分类操作,将原始数据流中所包含的原始数据进行归纳整理,使得原本无序的原始数据得以有序化;通过对原始数据的清洗操作,能够筛除掉无用的数据,使得清洗后仅保留对后续分析操作有意义的有效数据;且在数据分析时,基于有效数据流之间的关联关系提取出目标有效数据作为待分析的数据,可去除数据冗余,获得场景化及结构化的分析结果;最后以报告的形式输出分析结果,可为用户提供更有条理及针对性的分析结果。

需要说明的是,上述单元之间的信息交互及执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。

图7是本申请另一实施例提供的一种电子设备的结构框图。如图7所示,该实施例的电子设备7包括:处理器71、存储器72以及存储在上述存储器72中并可在上述处理器71上运行的计算机程序73,例如数据分析方法的程序。处理器71执行上述计算机程序73时实现上述各个数据分析方法各实施例中的步骤,例如图1所示的步骤101至104。或者,上述处理器71执行上述计算机程序73时实现上述图5对应的实施例中各单元的功能,例如,图5所示的单元501至504的功能,具体请参阅图5对应的实施例中的相关描述,此处不赘述。

示例性的,上述计算机程序73可以被分割成一个或多个单元,上述一个或者多个单元被存储在上述存储器72中,并由上述处理器71执行,以完成本申请。上述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述上述计算机程序73在上述电子设备70中的执行过程。例如,上述计算机程序73可以被分割成获取单元、分类单元、清洗单元及分析单元,各单元具体功能如上所述。

上述电子设备可包括,但不仅限于,处理器71、存储器72。本领域技术人员可以理解,图7仅仅是电子设备7的示例,并不构成对电子设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如上述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器71可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器72可以是上述电子设备7的内部存储单元,例如电子设备7的硬盘或内存。上述存储器72也可以是上述电子设备7的外部存储设备,例如上述电子设备7上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,上述存储器72还可以既包括上述电子设备7的内部存储单元也包括外部存储设备。上述存储器72用于存储上述计算机程序以及上述电子设备所需的其他程序和数据。上述存储器72还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例中,上述处理器70执行上述计算机程序72以实现上述任意各个数据分析方法实施例中的步骤时,数据分析装置通过预设的数据平台,获取至少一个原始数据流,然后根据数据类别对各个原始数据流进行分类,并对分类后的上述原始数据流进行清洗,得到有效数据流,再调用预设的分析工具,根据各个有效数据流之间的关联关系提取出目标有效数据,并对上述目标有效数据进行分析,以得到待分析维度下的分析图谱。上述过程中,通过对原始数据的分类操作,将原始数据流中所包含的原始数据进行归纳整理,使得原本无序的原始数据得以有序化;通过对原始数据的清洗操作,能够筛除掉无用的数据,使得清洗后仅保留对后续分析操作有意义的有效数据;且在数据分析时,基于有效数据流之间的关联关系提取出目标有效数据作为待分析的数据,可去除数据冗余,获得场景化及结构化的分析结果;最后以报告的形式输出分析结果,可使得用户对分析结果的查阅更有条理及针对性。

本申请实施例还提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现可实现上述各个数据分析方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时实现可实现上述各个数据分析方法实施例中的步骤。

以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1