多数据集的数据聚合方法

文档序号:9564591阅读:614来源:国知局
多数据集的数据聚合方法
【技术领域】
[0001]本发明涉及数据聚合技术,更具体地说,涉及一种多数据集的数据聚合方法。
【背景技术】
[0002]随着信息化的发展,数据的种类以及内容越来越多,为更好进行个体数据的全方位分析,需要进行不同数据集之间的数据聚合。在进行数据聚合的过程中,一般需要在不同的两个数据集之间确定一个唯一标识,比如面向个人的身份证号码、手机号、银行卡号、邮箱、住址等,通过该唯一标识进行数据的关联聚合。
[0003]目前,以智能手机等为媒介的金融交易行为和移动通信行为时时处处地发生,金融交易数据来源于银行等金融机构、移动通信数据来源于移动服务提供商,两者之前的融合很不方便,但基于安全等因素,这种数据融合已成为一种需要。
[0004]金融交易数据的主体是卡号,而移动通信数据的主体是手机号,两个数据集之间无法找到一个可以关联的唯一标识,就不能够完成数据信息的关联,致使两数据集之间无法直接进行有效的关联聚合。
[0005]因此,本领域技术人员期望获得一种可靠、易实现的多数据集的数据聚合方法。

【发明内容】

[0006]本发明的目的在于提供一种多数据集的数据聚合方法。
[0007]为实现上述目的,本发明提供一种技术方案如下:
一种多数据集的数据聚合方法,其中数据集至少包括第一数据集和第二数据集,各数据集分别记录有多个行为主体的各至少一条行为记录,行为记录具有至少一个行为属性,第一数据集中的行为记录与第二数据集中的行为记录具有至少一个共同行为属性,方法包括如下步骤:a)、分别提取第一、第二数据集中各行为记录的共同行为属性对应的特征值,形成第一、第二特征值集合;b)、将第一特征值集合与第二特征值集合进行比对,确定第一数据集中各行为记录与第二数据集中各行为记录之间的第一对应关系;c)、基于第一对应关系,确定第一数据集的各行为主体与第二数据集的各行为主体之间的第二对应关系。
[0008]优选地,步骤b)具体包括:对于第一行为主体的第一行为记录,在第二数据集中寻找一条或多条第二行为记录,以使第一行为记录的第一共同行为属性的特征值与该一条或多条第二行为记录中任一个的第一共同行为属性的特征值间的相似度小于设定阈值;其中,第一行为主体为第一数据集中任一行为主体,第一行为记录为该第一行为主体的任一行为记录,第一共同行为属性为共同行为属性中的任一个;确定第一行为记录与第二行为记录之间的第一对应关系。
[0009]优选地,步骤c)具体包括:cl)、在一条或多条第二行为记录中统计第二数据集的各行为主体出现的次数,并将出现次数最多的第二数据集的行为主体确定为第二行为主体;c2)、确定第一行为主体与第二行为主体之间的第二对应关系。
[0010]优选地,共同行为属性包括时间属性和/或地点属性。
[0011]优选地,时间属性的特征值之间的相似度以时间差来衡量,地点属性的特征值之间的相似度以地点的接近程度来衡量。
[0012]本发明还提供一种多数据集的数据聚合装置,其中数据集至少包括第一数据集和第二数据集,各数据集分别记录有多个行为主体的各至少一条行为记录,行为记录具有至少一个行为属性,第一数据集中的行为记录与第二数据集中的行为记录具有至少一个共同行为属性,数据聚合装置包括:特征值提取单元,其分别提取第一、第二数据集中各行为记录的共同行为属性对应的特征值并输出第一、第二特征值集合;第一对应关系确定单元,其接收特征值提取单元的输出,并将第一特征值集合与第二特征值集合进行比对,以确定第一数据集中各行为记录与第二数据集中各行为记录之间的第一对应关系;以及,第二对应关系确定单元,其与第一对应关系确定单元连接,基于第一对应关系确定第一数据集的各行为主体与第二数据集的各行为主体之间的第二对应关系。
[0013]本发明所提供的多数据集的数据聚合方法及装置,在无法将金融交易数据集和移动通信数据集通过唯一标识进行关联的情况下,通过对两数据集中行为记录的行为属性的特征值进行比对来实现两数据集之中行为记录个体之间的关联,并进一步确定金融交易数据集和移动通信数据集中行为主体之间的对应关系。其可拓展到不同行业、不同领域中使用,准确实现不具有共同唯一标识的数据集间的数据聚合。且随着数据集的不断补充更新,聚合结果将更加准确。该方法实现简单、可靠,便于在行业内推广应用。
【附图说明】
[0014]图1示出本发明第一实施例提供的多数据集的数据聚合方法的流程示意图;
图2示出本发明第二实施例提供的多数据集的数据聚合装置的结构示意图。
【具体实施方式】
[0015]需要说明的是,本发明的任一实施例均采用如下定义:数据集至少包括第一数据集和第二数据集,各数据集分别记录有多个行为主体的各至少一条行为记录,行为记录具有至少一个行为属性,第一数据集中的行为记录与第二数据集中的行为记录具有至少一个共同行为属性;第一特征值集合由第一数据集中各行为记录的共同行为属性的特征值组成,第二特征值集合由第二数据集中各行为记录的共同行为属性的特征值组成。
[0016]如图1所示,本发明第一实施例所提供的多数据集的数据聚合方法,包括如下步骤:
步骤S10、分别提取第一、第二数据集中各行为记录的共同行为属性对应的特征值,形成第一、第二特征值集合。
[0017]步骤S11、将第一特征值集合与第二特征值集合进行比对,确定第一数据集中各行为记录与第二数据集中各行为记录之间的第一对应关系。
[0018]具体地,该步骤S11可分为两个分步骤:
步骤S110、对于第一行为主体的第一行为记录,在第二数据集中寻找一条或多条第二行为记录,以使第一行为记录的第一共同行为属性的特征值与该一条或多条第二行为记录中任一个的第一共同行为属性的特征值间的相似度小于设定阈值;
其中,第一行为主体为第一数据集中任一行为主体,第一行为记录为该第一行为主体的任一行为记录,第二行为记录来自于第二数据集,第一共同行为属性为一个或多个共同行为属性中的任一个。
[0019]步骤S111、确定第一行为记录与第二行为记录之间的第一对应关系。
[0020]步骤S12、基于第一对应关系,确定第一数据集的各行为主体与第二数据集的各行为主体之间的第二对应关系。
[0021]具体地,该步骤S12也可分为两个分步骤:
步骤S120、在步骤S110所得到的一条或多条第二行为记录中统计第二数据集的各行为主体出现的次数,并将出现次数最多的第二数据集的行为主体确定为第二行为主体;步骤S121、确定第一行为主体与第二行为主体之间的第二对应关系。
[0022]根据本发明另一改进实施例,步骤S121又具体包括:
若某一第一行为主体与多个第二行为主体对应(即第二对应关系为一对多),则将该第一行为主体与该多个第二行为主体标记为待定对应关系;
更新第一、第二数据集,循环执行上述实施例中的步骤S10、S11和S121,以使得待定对应关系被更改为该第一行为主体与所述第二行为主体之间的一对一的对应关系。
[0023]根据该改进实施例,在第二对应关系为一对多的情况下,可在后续向数据集新增或更新数据的情况下进行上述步骤S10、S11和S121的循环执行,最终形成一对一的第二对应关系。在数据量越大的情况下,第一、第二数据集的聚合效果将会越好。
[0024]根据本发明又一改进实施例,步骤S121又具体包括:
若某一第一行为主体不与任一第二行为主体对应(即第二对应关系为一对零),则将该第一行为主体标记为待定对应主体;
更新第一、第二数据集,循环执行上述实施例中的步骤S10、S11和S121,以使得待定对应主体与唯一第二行为主体对应(即第二对应关系最终变为一对一)。
[0025]进一步地,上述各实施例中,第一数据集来自金融交易数据,其记录多个交易卡号(例如银行卡号)的各至少一条交易记录;第二数据集来自移动通信数据,其记录多个手机号的各至少一条用户联网操作记录(例如联网进行的电子交易)。第一数据集与第二数据集的数据聚合的结果为,对于来自第一数据集的每一银行卡号都能在第二数据集中找到唯一对应的手机号。
[0026
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1