数据流通系统及方法与流程

文档序号:12596470阅读:1463来源:国知局
数据流通系统及方法与流程

本发明涉及数据流通领域,尤其涉及一种数据流通系统及方法。



背景技术:

在数据流通领域,数据流通是指数据供应方向数据需求方提供数据的行为,其中,所述数据是数据供应方经过沉淀、购买、抓取或其他合法手段获得的。

首先,在数据流通领域,普遍存在海量非结构化的数据结构难以统一和没有规范标的物的问题,不同的数据提供方的数据结构不同。在数据流通和数据管理过程中,由于流通数据的数据结构不统一,需要对流通数据进行规约、整合、分类。

其次,数据的收集、处理、交易及应用都面临着违法的风险。如何在隐私保护基础上促进数据资源的流动,是目前面临的现实问题,亟需开展理论研究。在数据流通监管的层面,亟需通过技术手段减小数据流通监测的计算量和成本。



技术实现要素:

本发明解决的技术问题是如何减小数据流通监测的计算量和成本。

为解决上述技术问题,本发明实施例提供一种数据流通系统,所述数据流通系统包括:

数据标签定义模块,适于接收运营方对流通数据的维度主键和标签值的定义,所述流通数据具有多个第一维度,所述多个第一维度包括所述维度主键和所述标签值;流通数据挂牌模块,适于接收供应方选择的所述标签值以及基于所述多个第一维度填写的所述流通数据;流通数据查询模块,适于接收需求方的查询条件,并基于所述查询条件对所述流通数据进行查询和筛选,确定所需流通数据;电子合同生成模块,适于在确定所述所需流通数据后,生成电子合同,所述电子合同包括所述所需流通数据且具备多个第二维度,所述多个第二维度包括所述所需流通数据的多个第一维度。

可选的,所述数据流通系统还包括:合同分类统计模块,适于基于所述多个第二维度对所述电子合同进行统计,以实现对所述流通数据的监测。

可选的,所述多个第一维度还包括主体标识、流通限制条件、时间约束条件和价格约束条件。

可选的,所述多个第二维度还选自:所述电子合同的生成时间、订单数量、所述所需流通数据的供应方信息以及所述所需流通数据的需求方信息。

可选的,所述流通数据查询模块在所述查询条件与所述流通数据的主体标识、维度主键、标签值、流通限制条件、时间约束条件和价格约束条件相匹配时,将所述流通数据作为所述所需流通数据。

可选的,所述流通限制条件可以包括以下一种或多种:对象描述、关键词、语种、来源行业、加工方式、敏感度、可识别性、授权方式、应用场景、遍历方式约束、覆盖度、成员约束、行业约束、企业性质约束、数据来源、质量评分、安全评分、风险评分。

可选的,所述合同分类统计模块包括:合同获取子模块,适于基于预设条件选取待统计数据,所述待统计数据包括多个电子合同,每一电子合同对应一个数据集;聚类子模块,适于基于所述多个第二维度对多个数据集进行聚类,得到聚类结果,所述聚类结果包括多个数据集合,每一数据集合包括至少一个数据集;筛选子模块,适于在所述多个数据集合中筛选出异常集合。

可选的,所述筛选子模块计算所述聚类结果中所有数据集合中数据集数量的平均值以及标准差,并在当前数据集合的数据集数量与所述平均值的差值与所述标准差比值小于设定阈值时,判定所述当前数据集合为所述异常集合。

可选的,所述聚类子模块包括:选取子模块,适于从所述待统计数据中选取设定数量的所述数据集作为初始聚类中心;第一计算子模块,适于计算其他数据集与所述初始聚类中心的距离;划分子模块,适于将所述其他数据集划分至距离最近的所述初始聚类中心所在的集合;迭代子模块,适于迭代更新每一集合的聚类中心,并计算所述其他数据集与所述聚类中心的距离并划分至距离最近的所述聚类中心所在的集合,直至所有集合收敛,得到聚类结果。

可选的,所述聚类子模块采用K-prototypes算法进行聚类。

为解决上述技术问题,本发明实施例还公开了一种数据流通方法,数据流通方法包括:接收运营方对流通数据的维度主键和标签值的定义,所述流通数据具有多个第一维度,所述多个第一维度包括所述维度主键和标签值;接收供应方选择的所述标签值以及基于所述多个第一维度填写的所述流通数据;接收需求方的查询条件,并基于所述查询条件对所述流通数据进行查询和筛选,确定所需流通数据;在确定所述所需流通数据后,生成电子合同,所述电子合同包括所述所需流通数据且具备多个第二维度,所述多个第二维度包括所述所需流通数据的多个第一维度。

可选的,所述数据流通方法还包括:基于所述多个第二维度对所述电子合同进行统计,以实现对所述流通数据的监测。

可选的,所述多个第一维度还包括主体标识、流通限制条件、时间约束条件和价格约束条件。

可选的,所述多个第二维度还选自:所述电子合同的生成时间、订单数量、所述所需流通数据的供应方信息以及所述所需流通数据的需求方信息。

可选的,在所述查询条件与所述流通数据的主体标识、维度主键、标签值、流通限制条件、时间约束条件和价格约束条件相匹配时,将所述流通数据作为所述所需流通数据。

可选的,所述流通限制条件可以包括以下一种或多种:对象描述、关键词、语种、来源行业、加工方式、敏感度、可识别性、授权方式、应用场景、遍历方式约束、覆盖度、成员约束、行业约束、企业性质约束、数据来源、质量评分、安全评分、风险评分。

可选的,所述基于所述多个第二维度对所述电子合同进行统计包括:基于预设条件选取待统计数据,所述待统计数据包括多个电子合同,每一电子合同对应一个数据集;基于所述多个第二维度对多个数据集进行聚类,得到聚类结果,所述聚类结果包括多个数据集合,每一数据集合包括至少一个数据集;在所述多个数据集合中筛选出异常集合。

可选的,所述在所述多个数据集合中筛选出异常集合包括:计算所述聚类结果中所有数据集合中数据集数量的平均值以及标准差;在当前数据集合的数据集数量与所述平均值的差值与所述标准差比值小于设定阈值时,判定所述当前数据集合为所述异常集合。

可选的,所述基于所述多个第二维度对多个数据集进行聚类包括:从所述待统计数据中选取设定数量的所述数据集作为初始聚类中心;计算其他数据集与所述初始聚类中心的距离;将所述其他数据集划分至距离最近的所述初始聚类中心所在的集合;迭代更新每一集合的聚类中心,并计算所述其他数据集与所述聚类中心的距离并划分至距离最近的所述聚类中心所在的集合,直至所有集合收敛,得到聚类结果。

可选的,采用K-prototypes算法进行聚类。

与现有技术相比,本发明实施例的技术方案具有以下有益效果:

本发明技术方案的数据流通系统包括数据标签定义模块、流通数据挂牌模块、流通数据查询模块和电子合同生成模块。本发明技术方案首先通过数据标签定义模块对流通数据的维度主键和标签值进行定义;然后通过流通数据挂牌模块基于所述多个第一维度填写所述流通数据,至此,流通数据可以进行流通。然后通过流通数据查询模块接收需求方的查询条件,并基于所述查询条件和对流通数据进行查询和筛选,确定所需流通数据;也就是说,需求方根据其查询条件在流通数据中获得了所需流通数据,通过使用规范的数据结构进行查询和筛选,可以实现流通数据的分级分类管理,以及各类流通数据的标准化的数据挂牌和数据流通,使得数据流通的挂牌和流通环节可查询和可追溯;最后通过电子合同生成模块生成电子合同,保证供应方和需求方之间数据流通的合法性。由于流通数据在流通中的各个环节均基于规范的多个第一维度进行,无需进行复杂的转换、整合等处理,有利于限制计算量和成本。

进一步地,数据流通系统还包括合同分类统计模块,合同分类统计模块适于基于所述多个第二维度对所述电子合同进行统计,以实现对所述流通数据的监测。本发明技术方案实现了在海量数据流通的场景中,确定与常规行为不一致的异常数据流通行为,或者确定可能发生风险的异常数据流通行为;通过对异常数据的挖掘,进而实现对流通数据的监管。

进一步,所述合同分类统计模块可以包括:合同获取子模块,适于基于预设条件选取待统计数据,所述待统计数据包括多个电子合同,每一电子合同对应一个数据集;聚类子模块,适于基于所述多个第二维度对多个数据集进行聚类,得到聚类结果,所述聚类结果包括多个数据集合,每一数据集合包括至少一个数据集;筛选子模块,适于在所述多个数据集合中筛选出异常集合。本发明技术方案通过聚类子模块对电子合同进行聚类,并通过筛选子模块进行筛选,从而确定异常集合,也就是确定异常流通数据,实现了对流通数据的监测。

附图说明

图1是本发明实施例一种数据流通系统的结构示意图;

图2是本发明实施例另一种数据流通系统的结构示意图

图3是图2所示的合同分类统计单元的结构示意图;

图4是本发明实施例一种数据流通方法的流程图。

具体实施方式

如背景技术中所述,在数据流通领域,普遍存在海量非结构化的数据结构难以统一和没有规范标的物的问题,不同的数据提供方的数据结构不同。在数据流通和数据管理过程中,由于流通数据的数据结构不统一,需要对流通数据进行转换、整合、分类等处理,导致计算量和成本增加。

本发明实施例首先通过数据标签定义模块对流通数据的维度主键和标签值进行定义;然后通过流通数据挂牌模块基于所述多个第一维度填写所述流通数据。然后通过流通数据查询模块接收需求方的查询条件,并基于所述查询条件对流通数据进行查询和筛选,确定所需流通数据;也就是说,需求方根据其查询条件在流通数据中获得了所需流通数据,通过使用规范的数据结构进行查询和筛选,可以实现流通数据的分级分类管理,以及各类流通数据的标准化的数据挂牌和数据流通,使得数据流通的挂牌和流通环节可查询和可追溯;最后通过电子合同生成模块生成电子合同,保证供应方和需求方之间数据流通的合法性。由于流通数据在流通中的各个环节均基于规范的多个第一维度进行,无需进行复杂的转换、整合等处理,有利于限制计算量和成本。

为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种数据流通系统的结构示意图。

图1所示的数据流通系统10可以包括数据标签定义模块101、流通数据挂牌模块102、流通数据查询模块103和电子合同生成模块104。

其中,数据标签定义模块101适于接收运营方对流通数据的维度主键和标签值的定义,所述流通数据具有多个第一维度,所述多个第一维度包括所述维度主键和所述标签值;流通数据挂牌模块102适于接收供应方选择的所述标签值,并基于所述多个第一维度填写所述流通数据;流通数据查询模块103适于接收需求方的查询条件,并基于所述查询条件和对所述流通数据进行查询和筛选,确定所需流通数据;电子合同生成模块104适于在确定所述所需流通数据后,生成电子合同,所述电子合同包括所述所需流通数据且具备多个第二维度,所述多个第二维度包括所述所需流通数据的多个第一维度。

具体实施中,数据标签定义模块101可以集成于运营方终端,可以接收运营方的流通数据标准,流通数据标准可以包括运营方定义的流通数据的维度主键和标签值,其中,标签值可以是维度主键下的多个可选值。具体而言,可以定义维度主键的名称、维度主键的分类、标签值的类型和标签值的数值。具体地,维度主键可以作为流通数据的标签,那么标签值与维度主键相对应,标签值可以是维度主键的值。例如,在维度主键为年龄时,标签值为年龄值或年龄所在的数值范围。

具体实施中,流通数据挂牌模块102可以集成于供应方终端,可以接收供应方的操作数据,操作数据可以包括供应方选择的标签值,以及供应方基于所述多个第一维度填写的流通数据。至此,流通数据可用于流通,以供需求方进行查询和选择。

具体实施中,流通数据查询模块103可以集成于需求方终端,可以接收需求方的操作数据,操作数据可以包括需求方查询条件,并基于查询条件和多个第一维度在所有流通数据中进行查询和筛选;在流通数据满足查询条件时,则该流通数据为需求方需要的所需流通数据。

具体实施中,电子合同生成模块104可以集成于运营方终端和监管方终端,还可以集成于供应方终端和需求方终端,电子合同生成模块104可以在确定所述所需流通数据后,生成电子合同。其中,所述电子合同包括所述所需流通数据,所述电子合同具备多个第二维度,所述多个第二维度包括所述所需流通数据的多个第一维度。在供应方和需求方接收到电子合同并签订后,流通数据可以在供应方和需求方之间进行流通。具体而言,供应方可以将流通数据提交给数据配送装置进行数据配送。更近一步地,还可以对数据流通的日志进行存储。

本发明实施例的数据流通系统中,需求方根据其查询条件和所述多个第一维度在流通数据中获得了所需流通数据,通过使用规范的数据结构进行查询和筛选,可以实现流通数据的分级分类管理,以及各类流通数据的标准化的数据挂牌和数据流通,使得数据流通的挂牌和流通环节可查询和可追溯;最后通过电子合同生成模块生成电子合同,保证供应方和需求方之间数据流通的合法性。由于流通数据在流通中的各个环节均基于规范的多个第一维度进行,无需进行复杂的转换、整合等处理,有利于限制计算量和成本。

本发明一具体实施例中,所述多个第一维度可以对应流通数据的多个维度。所述多个第一维度可以包括主体标识、所述维度主键、所述标签值、流通限制条件、时间约束条件和价格约束条件。具体而言,流通限制条件、时间约束条件和价格约束条件可以用以约束数据供应方和数据需求方的数据流通;也就是说,只有在流通限制条件、时间约束条件和价格约束条件约束的范围内,数据供应方和数据需求方才可以进行数据流通。

需要说明的是,所述多个第一维度可以根据实际的应用环境进行适应性的配置,本发明实施例对此不做限制。

进一步地,主体标识可以表示流通数据的唯一标识,例如手机号、身份证、银行卡号、国际移动设备标识号等。

进一步地,维度主键可以包括维度主键名称、维度主键的分类和标签描述。维度主键的分类可以包括:属性、行为、关系、评价等;标签描述可以表示流通数据的标签描述信息和约束条件。

进一步地,标签值可以表示流通数据维度主键的赋值。标签值的类型可以包括单值列表、多值列表、分段、命中、数据项等。

进一步地,流通限制条件可以包括流通对象条件、流通遍历条件、数据应用范围、数据用途、数据应用方式、数据应用时限。

进一步地,时间约束条件可以包括更新频率、供应周期和数据留存期限。具体地,更新频率表示流通数据的更新频率,例如30日;统计周期可以表示流通数据的统计时间范围,例如30日;数据留存期限可以表示供应方允许需求方在接收到流通数据后,留存数据的时间,例如60日。

进一步地,价格约束条件可以包括计费方式和挂牌价格。具体地,不同形式的流通数据可以具备不同的计费方式。计费方式可以包括:按次计费、阶梯式计费、包月计费、包月阶梯式计费等;挂牌价格可以包括:供应方和需求方的挂牌价格,例如1元。

优选地,所述流通限制条件可以包括以下一种或多种:对象描述、关键词、语种、来源行业、加工方式、敏感度、可识别性、授权方式、应用场景、遍历方式约束、覆盖度、成员约束、行业约束、企业性质约束、数据来源、质量评分、安全评分、风险评分。

具体而言,对象描述可以表示流通数据的描述性信息;关键词可以表示流通数据的关键词语;语种可以表示流通数据的所采用的语种;来源行业可以表示流通数据来源的国民经济行业;加工方式可以表示供应方对流通数据的加工方式的约束性描述,影响数据质量和数据价值,例如,直接计算和间接计算;敏感度可以表示流通数据的主体标识的敏感程度,例如可以分类为敏感数据和普通数据;可识别性可以表示流通数据的标签赋值关联到个体的程度,例如,直接识别,间接识别;授权方式可以表示流通数据的用户的验证方式,例如可以分类为无须授权和一般授权;应用场景可以表示流通数据的应用场景约束;遍历方式约束可以用于供应方对流通数据及所对应个体的数据隐私安全风险进行约束,对单一需求方对流通数据遍历方式进行约束;覆盖度可以表示流通数据的覆盖度的描述;成员约束可以表示供应方对需求方成员的约束;行业约束可以表示供应方对需求方行业的约束;企业性质约束可以表示供应方对需求方企业性质的约束;数据来源可以表示供应方数据来源的约束性描述,影响质量评分和数据价值,例如,沉淀的数据、购买的数据、抓取的数据、其他合法手段获得的数据;质量评分可以表示对流通数据的质量评分,例如,供应方自评,第三方评估,需求方后评估;安全评分可以表示对流通数据的安全评分;风险评分可以表示对流通数据的风险评分。

作为一个非限制性的例子,数据标签定义模块101可以接收运营方定义的维度主键的名称、维度主键的分类、标签值的类型和标签值。

流通数据挂牌模块102确定的流通数据可以包括主体标识、所述维度主键、所述标签值、流通限制条件、时间约束条件和价格约束条件。

流通数据查询模块103接收到的查询条件中,可以包括主体标识、所述维度主键、所述标签值、流通限制条件、时间约束条件和价格约束条件的一种或多种。

电子合同生成模块104在需求方查询流通数据并且匹配成功后,生成电子合同,电子合同可以包括流通数据的主体标识、所述维度主键、所述标签值、流通限制条件、时间约束条件和价格约束条件。

进一步而言,流通数据挂牌模块102还可以对流通数据进行维护。具体地,可以是新增流通数据、修改流通数据、删除流通数据和导出流通数据。在新增流通数据时,流通数据挂牌模块102可以接收供应方填写的流通数据的主体标识、维度主键、标签值、流通限制条件、时间约束条件和价格约束条件。修改流通数据时,流通数据挂牌模块102可以接收供应方修改的已挂牌流通数据的主体标识、维度主键、标签值、流通限制条件、时间约束条件和价格约束条件。导出流通数据时,流通数据挂牌模块102可以用于供应方将已挂牌流通数据的主体标识、维度主键、标签值、流通限制条件、时间约束条件和价格约束条件以文件形式导出并下载。

图2是本发明实施例另一种数据流通系统的结构示意图。

图2所示的数据流通系统20可以包括数据标签定义模块201、流通数据挂牌模块202、流通数据查询模块203、电子合同生成模块204和合同分类统计模块205。

其中,数据标签定义模块201适于接收运营方对流通数据的维度主键和标签值的定义,所述流通数据具有多个第一维度,所述多个第一维度包括所述维度主键和所述标签值;流通数据挂牌模块202适于接收供应方选择的所述标签值,并基于所述多个第一维度填写所述流通数据;流通数据查询模块203适于接收需求方的查询条件,并基于所述查询条件对流通数据进行查询和筛选,确定所需流通数据;电子合同生成模块204适于在确定所述所需流通数据后,生成电子合同,所述电子合同包括所述所需流通数据且具备多个第二维度,所述多个第二维度包括所述所需流通数据的多个第一维度。

本实施例中数据标签定义模块201、流通数据挂牌模块202、流通数据查询模块203和电子合同生成模块204的具体实施方式,可参照图1所示的数据标签定义模块101、流通数据挂牌模块102、流通数据查询模块103和电子合同生成模块104,此处不再赘述。

本实施例中,合同分类统计模块205可以集成于监管方终端,还可以集成于运营方终端、供应方终端和需求方终端。合同分类统计模块205可以用以基于所述多个第二维度对所述电子合同进行统计,以实现对所述流通数据的监测。

本实施例中,合同分类统计单元205可以统计所有电子合同,基于电子合同的多个维度,也即从不同层面进行统计,确定有异常行为的流通数据,进行统计和监管。例如,统计出每个地域、行业或企业等层面的异常流通数据。

具体实施中,请参照图3,合同分类统计单元205可以包括合同获取子模块301、聚类子模块302和筛选子模块303。合同获取子模块301适于基于预设条件选取待统计数据,所述待统计数据包括多个电子合同,每一电子合同对应一个数据集;聚类子模块302适于基于所述多个第二维度对多个数据集进行聚类,得到聚类结果,所述聚类结果包括多个数据集合,每一数据集合包括至少一个数据集;筛选子模块303适于在所述多个数据集合中筛选出异常集合。

具体地,筛选子模块303计算所述聚类结果中所有数据集合中数据集数量的平均值以及标准差,并在当前数据集合的数据集数量与所述平均值的差值与所述标准差比值小于设定阈值时,判定所述当前数据集合为所述异常集合。

进一步而言,聚类子模块302可以包括选取子模块3021、第一计算子模块3022、划分子模块3023和迭代子模块3024。

其中,选取子模块3021适于从所述待统计数据中选取设定数量的所述数据集作为初始聚类中心;第一计算子模块3022适于计算其他数据集与所述初始聚类中心的距离;划分子模块3023适于将所述其他数据集划分至距离最近的所述初始聚类中心所在的集合;迭代子模块3024适于迭代更新每一集合的聚类中心,并计算所述其他数据集与所述聚类中心的距离并划分至距离最近的所述聚类中心所在的集合,直至所有集合收敛,得到聚类结果。

具体而言,合同获取子模块301在存储有电子合同的数据库中,根据预设条件选择待统计数据。具体而言,可以根据数据约束条件(将所述数据约束条件表示为Cdata)和层约束条件(将所述层约束条件表示为Clevel)进行选取;数据约束条件Cdata可以对应流通数据的标签值,层约束条件Clevel可以表示电子合同的维度的粒度。例如,数据约束条件Cdata为“行业=广告”,Clevel为“level地域=市,level时间=月”,那么,数据集(将所述数据集表示为Ci)Ci=Cdata∩Clevel表示选取的待统计数据为广告行业的流通数据,并且是在地域上按照地级市的粒度,在时间上按照月的粒度来选取的。

在待统计数据中,合同分类统计单元205可以从海量数据中确定流通数据的异常流通行为。例如,筛选子模块在海量广告行业的流通数据中可能会确定敏感数据的孤立点,而孤立点可以代表异常的数据流通行为,因此可以通过对异常点进行抽样监督,来监测数据流通过程。

本发明一具体实施例中,聚类子模块302可以采用K-prototypes算法进行聚类,并基于聚类结果找到孤立点。

具体实施中,对于待统计数据中的多个数据集,包括多个维度。具体而言,多个维度可以包括无序的标称属性和有序的数值属性。例如,标称属性可以包括:主体标识分类={手机号、身份证、银行卡……}、维度主键分类={属性、行为、关系、评价}、标签赋值类型={单值列表、多值列表、分段、命中、数据项目}、来源行业={金融、汽车、旅游……}、加工方式={直接计算、间接计算}、应用场景={征信、营销、智慧城市、行业资讯……}、覆盖度={上海、北京、广州……}、授权方式={无须授权、一般授权}、敏感性={高、中、低}、可识别性={直接识别、间接识别}、计价方式={按次计费、阶梯式计费、包月计费、包月阶梯式计费}等;数值属性可以包括:统计周期(日)、更新频率(日)、挂牌价格(元),订单数量(个)。

具体地,待统计数据X中可以包括n个数据集,n为大于0的正整数,Xi表示n个数据集中的第i个数据集;数据集Xi={Xi1,Xi2,…,Xis,Xi(s+1),Xi(s+2),…,Xit},其中,Xi1,Xi2,…,Xis表示数据集Xi的标称属性,Xi(s+1),Xi(s+2),…,Xit表示数据集Xi的数值属性,s为大于0的正整数,t为大于0的正整数。

具体地,在待统计数据中随机选择p个数据集作为初始聚类中心,记为{V1,V2,V3…Vp},p为大于0的正整数。每一初始聚类中心Vl可以包括多个属性Vl={Vl1,Vl2,…,Vls,Vl(s+1),Vl(s+2),…,Vlt};每一初始聚类中心对应一个类,记为C={C1,C2,C3…Cp}。计算剩余数据集与各个类中初始聚类中心{V1,2,V3…Vp}的距离,将剩余数据集划分到距离最小的类集合中。进一步地,在计算距离时,为了避免将标称属性有序化,设d种不同值的标称属性为一个d维正交向量,d为大于0的正整数。标称属性的距离计算公式为其中,δ(Xij,Vlj)表示标称属性Xij到标称属性Vlj向量分量概率的曼哈顿距离。数值属性的距离测量公式为:数据集Xi与初始聚类集合中心Vi的距离d(Xi,Vl),计算公式如下:其中,γ为设定系数。

具体地,在对剩余数据集划分完成后,更新各个类集合中的初始聚中心。更新初始聚类中心时,对于数值属性,计算各个类集合中所有数据集的均值;对标称属性,取各个类中所有数据集出现概率最高的值;选取数值属性为均值,标称属性为概率最高的值对应的数据集作为新的聚类中心。然后重新计算剩余数据集到当前聚类中心的距离,并将剩余数据集划分到该聚类中心对应的类集合。

重复上述过程,直到类集合收敛,得到聚类结果,也即类集合C={C1,C2,C3…Cp}。至此,聚类过程结束。

具体地,筛选子模块在聚类结果中确定异常集合,也即孤立点。更具体地,计算所有数据集合中数据集的数量|Ci|的均值μ和方差σ2,确定的数据集C′={C′1,C′2,…C′e},其中,ε为设定阈值;该数据集C′为孤立点。基于此,可以做抽样调查对数据流通进行监管。

本发明实施例可以基于存储电子合同的数据库,从不同层面,统计出每个地域、行业或公司的异常交易情况,以进行实时监管。

图4是本发明实施例一种数据流通方法的流程图。

图4所示的数据流通方法可以包括以下步骤:

步骤S401:接收运营方对流通数据的维度主键和标签值的定义;

步骤S402:接收供应方选择的所述标签值以及基于所述多个第一维度填写的所述流通数据;

步骤S403:接收需求方的查询条件,并基于所述查询条件对所述流通数据进行查询和筛选,确定所需流通数据;

步骤S404:在确定所述所需流通数据后,生成电子合同。

其中,所述流通数据具有多个第一维度,所述多个第一维度包括所述维度主键和标签值;所述电子合同包括所述所需流通数据且具备多个第二维度,所述多个第二维度包括所述所需流通数据的多个第一维度。

具体实施中,所述多个第一维度还可以包括主体标识、流通限制条件、时间约束条件和价格约束条件。具体而言,所述流通限制条件可以包括以下一种或多种:对象描述、关键词、语种、来源行业、加工方式、敏感度、可识别性、授权方式、应用场景、遍历方式约束、覆盖度、成员约束、行业约束、企业性质约束、数据来源、质量评分、安全评分、风险评分。

具体实施中,多个第二维度还可以选自:所述电子合同的生成时间、订单数量、所述所需流通数据的供应方信息以及所述所需流通数据的需求方信息。

具体实施中,在步骤S403中,在所述查询条件与所述流通数据的主体标识、维度主键、标签值、流通限制条件、时间约束条件和价格约束条件相匹配时,将所述流通数据作为所述所需流通数据。

优选地,所述数据流通方法还可以包括以下步骤:基于所述多个第二维度对所述电子合同进行统计,以实现对所述流通数据的监测。具体而言,上述步骤还可以包括以下步骤:基于预设条件选取待统计数据,所述待统计数据包括多个电子合同,每一电子合同对应一个数据集;基于所述多个第二维度对多个数据集进行聚类,得到聚类结果,所述聚类结果包括多个数据集合,每一数据集合包括至少一个数据集;在所述多个数据集合中筛选出异常集合。进一步而言,计算所述聚类结果中所有数据集合中数据集数量的平均值以及标准差;在当前数据集合的数据集数量与所述平均值的差值与所述标准差比值小于设定阈值时,判定所述当前数据集合为所述异常集合。

具体实施中,基于所述多个第二维度对多个数据集进行聚类可以包括以下步骤:从所述待统计数据中选取设定数量的所述数据集作为初始聚类中心;计算其他数据集与所述初始聚类中心的距离;将所述其他数据集划分至距离最近的所述初始聚类中心所在的集合;迭代更新每一集合的聚类中心,并计算所述其他数据集与所述聚类中心的距离并划分至距离最近的所述聚类中心所在的集合,直至所有集合收敛,得到聚类结果。

更近一步地,可以采用K-prototypes算法进行聚类。通过采用K-prototypes算法可以实现数据集中数值数据之间距离的计算,以及非数值数据之间距离的计算,进而实现数据集之间的聚类。

需要说明的是,也可以采用其他任意可实施的算法实现聚类过程,本发明实施例对此不做限制。

本发明实施例的具体实施方式可参照图1至图3所示的实施例,此处不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于以计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1