数据匹配的方法和装置与流程

文档序号：15686528发布日期：2018-10-16 21:07阅读：290来源：国知局

本发明涉及数据处理
技术领域：
，特别涉及一种数据融合的方法和装置。
背景技术：
：随着互联网、物联网、社交网络等新兴技术的发展，产生数据的数据源如雨后春笋般增长。在各种数据源的数据中，往往存在敏感数据项。为了保证敏感数据项不被公开，该数据源在数据输出中会将敏感数据项进行脱敏处理，以使数据用户不会获得敏感数据。然而对于两个数据源的数据，每个数据源的数据中均将敏感数据项为数据id(identity，标识)的情形，由于其id进行了脱敏处理，不能根据脱敏后的id将不同的数据放在一起进行匹配操作，所以不能实现两个id被脱敏的数据源的数据匹配。技术实现要素：为了解决现有技术的问题，本发明实施例提供了一种数据匹配的方法和装置。所述技术方案如下：第一方面，提供了一种数据匹配的方法，所述方法包括：获取第一数据源的第一数据和第二数据源的第二数据，所述第一数据包括第一伪标识id和第一记录时间，所述第二数据包括第二伪id和第二记录时间，不同第一数据的第一伪id相同或不同，不同第二数据的第二伪id相同或不同；根据第一伪id将所述第一数据分类，同类的第一数据的第一伪id相同；针对任一类第一数据，确定其对应的第二数据，根据第二伪id将对应的第二数据分类，统计各类对应的第二数据的数量，根据各类对应的第二数据的数量确定所述任一类第一数据与各类对应的第二数据之间的可信度，按照可信度将所述任一类第一数据与对应的第二数据匹配；其中，对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差。第二方面，提供了一种数据匹配的装置，所述装置包括：获取模块，用于获取第一数据源的第一数据和第二数据源的第二数据，所述第一数据包括第一伪标识id和第一记录时间，所述第二数据包括第二伪id和第二记录时间，不同第一数据的第一伪id相同或不同，不同第二数据的第二伪id相同或不同；分类模块，用于根据第一伪id将所述第一数据分类，同类的第一数据的第一伪id相同；匹配模块，用于针对任一类第一数据，确定其对应的第二数据，根据第二伪id将对应的第二数据分类，统计各类对应的第二数据的数量，根据各类对应的第二数据的数量确定所述任一类第一数据与各类对应的第二数据之间的可信度，按照可信度将所述任一类第一数据与对应的第二数据匹配；其中，对应的第二数据的第二记录时间与所述任一类第一数据的第一记录时间的差的绝对值小于预设时间差；其中，所述第一数据源为任一银行的银行卡数据源，所述第二数据源为通信运营商数据源，且所述第二数据与所述任一银行相关；所述装置，还包括：清洗模块，用于清洗所述第一数据和第二数据；所述清洗模块，用于根据所述第一记录时间，确定各第一数据所属月份，各第一数据所属月份为同一月份或不同月份；若各第一数据所属月份为同一月份，则将预先设置的各第一数据所属月份对应的第一数据阈值作为第一清洗阈值，若各第一数据所属月份为不同月份，则预先设置的各第一数据所属各月份对应的第一数据阈值的和作为第一清洗阈值；若包括任一第一伪id的第一数据总量>第一清洗阈值，则删除包括任一第一伪id的所有第一数据；所述清洗模块，用于根据所述第二记录时间，确定各日的第二数据及各第二数据所属月份，各第二数据所属月份为同一月份或不同月份；根据各日的第二数据，确定各日的第二数据量以及日平均数据量，若任一日的第二数据量<第一预设数量*日平均数据量，则删除所述任一日的所有第二数据；若任一日包括任一第二伪id的第二数据总量>预设的日数据阈值，则删除所述任一日包括任一第二伪id的所有第二数据；若各第二数据所属月份为同一月份，则将预先设置的各第二数据所属月份对应的第二数据阈值作为第二清洗阈值，若各第二数据所属月份为不同月份，则预先设置的各第二数据所属各月份对应的第二数据阈值的和作为第二清洗阈值；若包括任一第二伪id的第二数据总量>第二清洗阈值，则删除包括任一第二伪id的所有第二数据id的第二数据总量>第二清洗阈值，则删除包括任一第二伪id的所有第二数据。本发明实施例提供的技术方案带来的有益效果是：获取第一数据和第二数据，根据第一伪id将第一数据分类，针对任一类第一数据，确定其对应的第二数据，根据第二伪id将对应的第二数据分类，统计各类对应的第二数据的数量，根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度，按照可信度将任一类第一数据与对应的第二数据匹配，实现了两个id被脱敏的数据源的数据匹配。附图说明为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。图1是本发明实施例提供的一种数据匹配的方法流程图；图2是本发明另一实施例提供的另一种数据匹配的方法流程图；图3是本发明另一实施例提供的另一种数据匹配的方法流程图；图4是本发明另一实施例提供的一种数据匹配的装置结构示意图；图5是本发明另一实施例提供的另一种数据匹配的装置结构示意图；图6是本发明另一实施例提供的另一种数据匹配的装置结构示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。随着互联网、物联网、社交网络等新兴技术的发展，产生数据的数据源如雨后春笋般增长。在各种数据源的数据中，往往存在敏感数据项。为了保证敏感数据项不被公开，该数据源在数据输出中会将敏感数据项进行脱敏处理，以使数据用户不会获得敏感数据。然而对于两个数据源的数据，每个数据源的数据中均将敏感数据项为数据id的情形，由于其id进行了脱敏处理，不能根据脱敏后的id将不同的数据放在一起进行匹配操作，所以不能实现两个id被脱敏的数据源的数据匹配。基于上述情况，本发明提供了一种数据匹配的方法和装置，可以获取第一数据和第二数据，根据第一伪id将第一数据分类，针对任一类第一数据，确定其对应的第二数据，根据第二伪id将对应的第二数据分类，统计各类对应的第二数据的数量，根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度，按照可信度将任一类第一数据与对应的第二数据匹配，实现了两个id被脱敏的数据源的数据匹配。参见图1，本实施例提供了一种数据匹配的方法，本实施例提供的方法流程具体如下：101，获取第一数据源的第一数据和第二数据源的第二数据，第一数据包括第一伪标识id和第一记录时间，第二数据包括第二伪id和第二记录时间，不同第一数据的第一伪id相同或不同，不同第二数据的第二伪id相同或不同。102，根据第一伪id将第一数据分类，同类的第一数据的第一伪id相同。103，针对任一类第一数据，确定其对应的第二数据，根据第二伪id将对应的第二数据分类，统计各类对应的第二数据的数量，根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度，按照可信度将任一类第一数据与对应的第二数据匹配。其中，对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差。可选地，第一数据源为任一银行的银行卡数据源，第二数据源为通信运营商数据源，且第二数据与任一银行相关；获取第一数据源的第一数据和第二数据源的第二数据之后，还包括：清洗第一数据和第二数据；清洗第一数据，包括：根据第一记录时间，确定各第一数据所属月份，各第一数据所属月份为同一月份或不同月份；若各第一数据所属月份为同一月份，则将预先设置的各第一数据所属月份对应的第一数据阈值作为第一清洗阈值，若各第一数据所属月份为不同月份，则预先设置的各第一数据所属各月份对应的第一数据阈值的和作为第一清洗阈值；若包括任一第一伪id的第一数据总量>第一清洗阈值，则删除包括任一第一伪id的所有第一数据；清洗第二数据，包括：根据第二记录时间，确定各日的第二数据及各第二数据所属月份，各第二数据所属月份为同一月份或不同月份；根据各日的第二数据，确定各日的第二数据量以及日平均数据量，若任一日的第二数据量<第一预设数量*日平均数据量，则删除任一日的所有第二数据；若任一日包括任一第二伪id的第二数据总量>预设的日数据阈值，则删除任一日包括任一第二伪id的所有第二数据；若各第二数据所属月份为同一月份，则将预先设置的各第二数据所属月份对应的第二数据阈值作为第二清洗阈值，若各第二数据所属月份为不同月份，则预先设置的各第二数据所属各月份对应的第二数据阈值的和作为第二清洗阈值；若包括任一第二伪id的第二数据总量>第二清洗阈值，则删除包括任一第二伪id的所有第二数据。可选地，预设时间差为60秒。可选地，存储有如下数据：第一数据源的第一历史数据、第二数据源的第二历史数据、各类第一历史数据对应的第二历史数据的数量，同类的第一历史数据的第一伪id相同，第一历史数据与第一数据不同，第二历史数据与第二数据不同，第一历史数据的任一第一伪id与第一数据的任一第一伪id相同或者不同，第二历史数据的任一第二伪id与第二数据的任一第二伪id相同或者不同；针对任一类第一数据，根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度，包括：确定第一历史数据中是否包括任一类第一数据的相似历史数据，相似历史数据的第一伪id与任一类第一数据的第一伪id相同；若有相似历史数据，则确定相似历史数据所在类对应的第二历史数据的数量，根据各类对应的第二数据的数量与相似历史数据所在类对应的第二历史数据的数量之和，确定任一类第一数据与各类对应的第二数据之间的可信度，相似历史数据所在类的相同第一伪id为相似历史数据的第一伪id。可选地，根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度，包括：若任一类对应的第二数据的数量≥绝对可信区阈值，则确定任一类第一数据与任一类对应的第二数据之间的可信度为绝对可信；若疑似可信区间阈值≤任一类对应的第二数据的数量<绝对可信区阈值，则确定任一类第一数据与任一类对应的第二数据之间的可信度为疑似可信；若任一类对应的第二数据的数量<疑似可信区间阈值，则确定任一类第一数据与任一类对应的第二数据之间的可信度为不可信。可选地，根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度之前，还包括：获取第一数据源的第一样本数据和第二数据源的第二样本数据，第一样本数据中具有相同的任一第一伪id的数据量为第三预设数量；根据第一伪id将第一样本数据分类，同类的第一样本数据的第一伪id相同；针对任一类第一样本数据，确定其对应的第二样本数据，根据第二伪id将对应的第二样本数据分类，统计各类对应的第二样本数据的数量；若任一类对应的第二样本数据的数量≥第四预设阈值，则将任一类第一样本数据作为正样本；若任一类对应的第二样本数据的数量<第四预设阈值，则将任一类第一样本数据作为负样本；在第一样本数据中，将所有正样本记为原始正样本，并选择预设比例的正样本和负样本；将选择的正样本和负样本通过决策树算法进行训练，得到样本选择规则；在第一样本数据中，确定满足样本选择规则的第一样本；若满足样本选择规则的第一样本中非正样本的数量≥第五预设数量，则将满足样本选择规则的第一样本作为正样本，将不满足样本选择规则的第一样本作为负样本，重复执行将选择的正样本和负样本通过决策树算法进行训练，得到样本选择规则，在第一样本数据中，确定满足样本选择规则的第一样本的步骤；若满足样本选择规则的第一样本中非正样本的数量<第五预设数量，则将满足样本选择规则的第一样本对应的第二样本数据量的平均值确定为绝对可信区阈值，将满足样本选择规则但非原始正样本的第一样本对应的第二样本数据量的平均值确定为疑似可信区间阈值。可选地，将选择的正样本和负样本通过决策树算法进行训练，得到样本选择规则之前，还包括：针对任一类第一样本数据，确定其对应的各第二样本数据的第二记录时间与任一类第一样本数据的第一记录时间的差的平均值；将选择的正样本和负样本通过决策树算法进行训练，得到样本选择规则，包括：将选择的正样本和负样本、各类第一样本数据的时间差平均值、各类第一样本数据对应的第二样本数据的数量，通过决策树算法进行训练，得到样本选择规则；样本选择规则，包括对应第二样本数据的数量规则和时间差规则。可选地，第三预设数量为10，第四预设阈值为4，预设比例为5:1。可选地，第一数据还包括第一金额，第二数据还包括第二金额；对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外，对应的第二数据的第二金额与任一类第一数据的第一金额相同。可选地，第一数据还包括后四位卡号，第二数据还包括含后四位卡号的短信内容；对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外，对应的第二数据的后四位卡号与任一类第一数据的后四位卡号相同。可选地，第一数据还包括第一金额和后四位卡号，第二数据还包括第二金额和含后四位卡号的短信内容；对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外，对应的第二数据的第二金额与任一类第一数据的第一金额相同，并且，对应的第二数据的后四位卡号与任一类第一数据的后四位卡号相同。可选地，将选择的正样本和负样本通过决策树算法进行训练，得到样本选择规则之前，还包括：针对任一类第一样本数据，确定其对应的各第二样本数据的第二金额的平均值；将选择的正样本和负样本通过决策树算法进行训练，得到样本选择规则，包括：将选择的正样本和负样本、各类第一样本数据对应的时间差平均值、各类第一样本数据对应的第二样本数据的数量、各类第一样本数据对应的第二金额的平均值，通过决策树算法进行训练，得到样本选择规则；样本选择规则，包括对应第二样本数据的数量规则、时间差规则和金额规则。本实施例提供的方法，获取第一数据和第二数据，根据第一伪id将第一数据分类，针对任一类第一数据，确定其对应的第二数据，根据第二伪id将对应的第二数据分类，统计各类对应的第二数据的数量，根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度，按照可信度将任一类第一数据与对应的第二数据匹配，实现了两个id被脱敏的数据源的数据匹配。为了更加清楚地阐述上述实施例提供的一种数据匹配的方法，结合上述实施例的内容，以图2所示的实施例为例，对一种数据匹配的方法进行详细说明。在本实施例中，以首次通过本实施例提供的数据匹配的方法进行数据匹配为例。对于非首次通过本实施例提供的数据匹配的方法进行数据匹配的情况，可以重复执行图2所示的流程，也可以参见后续图3所示的流程。另外，为了清楚地对图2所示的流程执行过程进行说明，本实施例以第一数据源为任一银行的银行卡数据源，如银行a的银行卡数据源，第一数据为任一银行的银行卡数据，如银行a的银行卡数据，第二数据源为通信运营商数据源，第二数据与该任一银行相关，如银行a相关的短信数据。参见图2，本实施例提供的方法流程具体如下：201，获取第一数据源的第一数据和第二数据源的第二数据。其中，第一数据源和第二数据源均包括敏感数据项，且第一数据源和第二数据源包括的敏感数据项均为其id。为了保证敏感数据项不可视，因此，第一数据源将其敏感数据项(id)脱敏为第一伪id，例如，敏感项显示为*，仅前四位和后四位正常显示的银行卡号。第二数据源将其敏感数据项(id)脱敏为第二伪id，例如敏感项显示为*，仅前三位和后四位正常显示的电话号码，使得第一数据包括第一伪id和第一记录时间，第二数据包括第二伪id和第二记录时间，不同第一数据的第一伪id相同或不同，不同第二数据的第二伪id相同或不同。除此之外，第一数据还包括第一金额、电话号码、交易地点，第二数据还包括第二金额和含后四位电话号码的短信内容。另外，第一数据和第二数据可能存在噪声，因此，在执行本步骤获取第一数据和第二数据后，还会清洗第一数据和第二数据。第一数据的清洗方法有多种，包括但不限于：根据第一记录时间，确定各第一数据所属月份，各第一数据所属月份为同一月份或不同月份；若各第一数据所属月份为同一月份，则将预先设置的各第一数据所属月份对应的第一数据阈值作为第一清洗阈值，若各第一数据所属月份为不同月份，则预先设置的各第一数据所属各月份对应的第一数据阈值的和作为第一清洗阈值；若包括任一第一伪id的第一数据总量>第一清洗阈值，则删除包括任一第一伪id的所有第一数据。例如，根据第一记录时间，确定各第一数据所属月份均为2017年2月，则将预先设置的2017年2月对应的第一数据阈值1000条作为第一清洗阈值，在所有第一数据中，若包括任一第一伪id(6225********0003)的第一数据总量>1000条，则删除包括6225********0003的所有第一数据。再例如，根据第一记录时间，确定各第一数据所属月份为2017年1月和2017年2月，则将预先设置的2017年1月对应的第一数据阈值1000条和2017年2月对应的第一数据阈值1000条的和2000条作为第一清洗阈值，在所有第一数据中，若包括任一第一伪id(6225********0004)的第一数据总量>2000条，则删除包括6225********0004的所有第一数据。其中，本实施例不对各第一数据所属月份对应的第一数据阈值进行限定，各第一数据所属各月份对应的第一数据阈值之间可以相同，也可以不同。第二数据的清洗方法有多种，包括但不限于：根据第二记录时间，确定各日的第二数据量及各第二数据所属月份，各第二数据所属月份为同一月份或不同月份。在确定各日的第二数据量及各第二数据所属月份之后，依次进行3次清洗。第一次清洗，根据各日的第二数据量进行清洗。具体的，(1)根据各日的第二数据，确定各日的第二数据量以及日平均数据量，(2)若任一日的第二数据量<第一预设数量*日平均数据量，则删除任一日的所有第二数据。执行至此，会以日为清洗维度，将每日的数据分别清洗。第二次清洗，根据各日包括各第二伪id的第二数据总量与预设的日数据阈值之间的关系进行清洗。若任一日包括任一第二伪id的第二数据总量>预设的日数据阈值，则删除任一日包括任一第二伪id的所有第二数据。执行至此，会以第二伪id为清洗维度，将包括每个第二伪id的第二数据以日为单位分别清洗。第三次清洗，根据包括各第二伪id的第二数据总量进行清洗。具体的，若各第二数据所属月份为同一月份，则将预先设置的各第二数据所属月份对应的第二数据阈值作为第二清洗阈值，若各第二数据所属月份为不同月份，则预先设置的各第二数据所属各月份对应的第二数据阈值的和作为第二清洗阈值；若包括任一第二伪id的第二数据总量>第二清洗阈值，则删除包括任一第二伪id的所有第二数据。其中，本实施例不对第一预设数量的具体取值进行限定。只要保证删除任一日的第一数据的条件为：任一日的数据量明显小于日平均数据量即可。本实施例也不对各第二数据所属月份对应的第二数据阈值进行限定，各第二数据所属各月份对应的第二数据阈值之间可以相同，也可以不同。202，根据第一伪id将第一数据分类。其中，同类的第一数据的第一伪id相同。通过本步骤的执行，第一数据会分成n类，其中n为第一数据中不同第一伪id的数量。每一类中的第一数据的第一伪id相同。不同类中的第一数据的第一伪id不同。203，将第一数据与第二数据匹配。针对任一类第一数据，将其与第二数据匹配具体实现方法为：步骤1.1，确定任一类第一数据对应的第二数据。步骤1.1可以根据预设的对应关系确定任一类第一数据对应的第二数据。其中，预设的对应关系可以为如下三种的一种：第一种对应关系，对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差。本实施例不对预设时间差的值进行限定，例如，预设时间差为60秒。例如，任一类第一数据如表1所示，第二数据如表2所示，预设时间差为60秒，则对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差在±60秒内，即对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于60秒，根据第一种对应关系，任一类第一数据对应的第二数据如表3所示。表1第一伪id金额后四位卡号第一记录时间6225********000110000012017-2-510:25:306225********000111000012017-2-610:25:306225********000212000022017-2-710:25:306225********000213000022017-2-810:25:30表2第二伪id金额第二记录时间短信内容139****00011002017-2-510:25:33aaa0001139****00021102017-2-610:25:25aaa0003139****00031202017-2-710:26:33aaa0002139****00041352017-2-810:25:36aaa0002表3除了上述任一类第一数据与对应的第二数据之间的对应关系之外，如果第一数据还包括第一金额，第二数据还包括第二金额，则任一类第一数据与对应的第二数据之间的第二种对应关系为：对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差，且对应的第二数据的第二金额与任一类第一数据的第一金额相同。例如，任一类第一数据如表1所示，第二数据如表2所示，预设时间差为60秒，则根据第二种对应关系，任一类第一数据对应的第二数据如表4所示。表4第二伪id金额第二记录时间短信内容139****00011002017-2-510:25:33aaa0001139****00021102017-2-610:25:25aaa0003如果第一数据还包括后四位卡号，第二伪id包括含后四位卡号的短信内容，则任一类第一数据与对应的第二数据之间的第三种对应关系为：对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差，且对应的第二数据的后四位卡号与任一类第一数据的后四位卡号相同。例如，任一类第一数据如表1所示，第二数据如表2所示，预设时间差为60秒，则根据第三种对应关系，任一类第一数据对应的第二数据如表5所示。表5第二伪id金额第二记录时间短信内容139****00011002017-2-510:25:33aaa0001139****00041352017-2-810:25:36aaa0002如果第一数据还包括第一金额和后四位卡号，第二数据还包括第二金额和含后四位卡号的短信内容，则任一类第一数据与对应的第二数据之间的第四种对应关系为：对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差，且对应的第二数据的第二金额与任一类第一数据的第一金额相同，同时，对应的第二数据的后四位卡号与任一类第一数据的后四位卡号相同。例如，任一类第一数据如表1所示，第二数据如表2所示，预设时间差为60秒，则根据第三种对应关系，任一类第一数据对应的第二数据如表6所示。表6第二伪id金额第二记录时间短信内容139****00011002017-2-510:25:33aaa0001步骤1.2，根据第二伪id将对应的第二数据分类。其中，同类的对应的第二数据的第二伪id相同。通过步骤1.2的执行，对应的第二数据会分成m类，其中m为对应的第二数据中不同第二伪id的数量。每一类中的对应的第二数据的第二伪id相同。不同类中的对应的第二数据的第二伪id不同。步骤1.3，统计各类对应的第二数据的数量。步骤1.4，根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度。本步骤中，1)若任一类对应的第二数据的数量≥绝对可信区阈值，则确定任一类第一数据与任一类对应的第二数据之间的可信度为绝对可信；2)若疑似可信区间阈值≤任一类对应的第二数据的数量<绝对可信区阈值，则确定任一类第一数据与任一类对应的第二数据之间的可信度为疑似可信；3)若任一类对应的第二数据的数量<疑似可信区间阈值，则确定任一类第一数据与任一类对应的第二数据之间的可信度为不可信。其中，绝对可信区阈值和疑似可信区间阈值的确定方法，可以通过如下步骤实现。步骤0.1，获取第一数据源的第一样本数据和第二数据源的第二样本数据。步骤0.1中的第一样本数据也为第一数据源数据，因此，第一样本数据中包括的内容与步骤201中获取的第一数据包括的内容相同。同样，步骤0.1中的第二样本数据也为第二数据源数据，因此，第二样本数据中包括的内容与步骤201中获取的第二数据包括的内容相同。其中，第一样本数据中具有相同的任一第一伪id的数据量为第三预设数量。本实施例不对第三预设数量的具体值进行限定，例如，第三预设数量为10。即若在步骤0.1中，获取第一数据源的第一样本数据中包括i个不同的第一伪id，在第一样本数据中包括任一第一伪id的数据数量为10个。步骤0.2，根据第一伪id将第一样本数据分类。其中，同类的第一样本数据的第一伪id相同。通过步骤0.2的执行，第一样本数据会分成i类，其中i为第一样本数据中不同第二伪id的数量。每一类中的第一样本数据的第一伪id相同。不同类中的第一样本数据的第一伪id不同。步骤0.3，针对任一类第一样本数据，确定其对应的第二样本数据，根据第二伪id将对应的第二样本数据分类，统计各类对应的第二样本数据的数量。对于确定任一类第一样本数据对应的第二样本数据的实现过程，可以参见步骤203中的步骤1.1，此处不再赘述。对于根据第二伪id将对应的第二样本数据分类的实现过程，可以参见步骤203中的步骤1.2，此处不再赘述。对于统计各类对应的第二样本数据的数量的实现过程，可以参见步骤203中的步骤1.3，此处不再赘述。步骤0.4，若任一类对应的第二样本数据的数量≥第四预设阈值，则将任一类第一样本数据作为正样本；若任一类对应的第二样本数据的数量<第四预设阈值，则将任一类第一样本数据作为负样本。本实施例不对第四预设阈值进行限定，例如，第四预设阈值为4。步骤0.5，在第一样本数据中，将所有正样本记为原始正样本，并选择预设比例的正样本和负样本。本实施例不低预设比例进行限定，例如，预设比例为5:1。例如，第一样本数据包括：第一样本数据1、第一样本数据2、第一样本数据3、第一样本数据4、第一样本数据5、第一样本数据6、第一样本数据7、第一样本数据8、第一样本数据9、第一样本数据10、第一样本数据11、第一样本数据12、第一样本数据13，第一样本数据14。其中，所有正样本为第一样本数据1、第一样本数据2、第一样本数据3、第一样本数据4、第一样本数据5、第一样本数据6、第一样本数据7、第一样本数据8、第一样本数据9、第一样本数据10、第一样本数据11，则将第一样本数据1、第一样本数据2、第一样本数据3、第一样本数据4、第一样本数据5、第一样本数据6、第一样本数据7、第一样本数据8、第一样本数据9、第一样本数据10、第一样本数据11记为原始正样本。并选择5:1比例的正样本和负样本，如，正样本为：第一样本数据1、第一样本数据2、第一样本数据3、第一样本数据4、第一样本数据5、第一样本数据6、第一样本数据7、第一样本数据8、第一样本数据9、第一样本数据10作为正样本。负样本为：第一样本数据12和第一样本数据13。步骤0.6，将选择的正样本和负样本通过决策树算法进行训练，得到样本选择规则。由于同一数据在不同维度上会有不同的分类规律，因此为了更准确的确定最终的绝对可信区阈值和疑似可信区间阈值，步骤0.6中，可以考虑不同的维度。具体的，在将选择的正样本和负样本通过决策树算法进行训练，得到样本选择规则之前，先针对任一类第一样本数据，确定其对应的各第二样本数据的第二记录时间与任一类第一样本数据的第一记录时间的差的平均值，然后再执行步骤0.6将选择的正样本和负样本、各类第一样本数据的时间差平均值、各类第一样本数据对应的第二样本数据的数量，通过决策树算法进行训练，得到样本选择规则；其中，样本选择规则，包括对应第二样本数据的数量规则和时间差规则。例如，选择规则为对应第二样本数据的数量≤165，且时间差位于(7.99,9.98)内。除此之外，如果第一数据包括第一金额，第二数据包括第二金额，则在将选择的正样本和负样本通过决策树算法进行训练，得到样本选择规则之前，还可以，先针对任一类第一样本数据，确定其对应的各第二样本数据的第二记录时间与任一类第一样本数据的第一记录时间的差的平均值，确定任一类第一样本数据对应的各第二样本数据的第二金额的平均值，然后再执行步骤0.6，将选择的正样本和负样本、各类第一样本数据对应的时间差平均值、各类第一样本数据对应的第二样本数据的数量、各类第一样本数据对应的第二金额的平均值，通过决策树算法进行训练，得到样本选择规则；其中，样本选择规则，包括对应第二样本数据的数量规则、时间差规则和金额规则。步骤0.7，在第一样本数据中，确定满足样本选择规则的第一样本。步骤0.8，若满足样本选择规则的第一样本中非正样本的数量≥第五预设数量，则将满足样本选择规则的第一样本作为正样本，将不满足样本选择规则的第一样本作为负样本，重复执行步骤0.6和步骤0.7。若满足样本选择规则的第一样本中非正样本的数量<第五预设数量，则将满足样本选择规则的第一样本对应的第二样本数据量的平均值确定为绝对可信区阈值，将满足样本选择规则但非原始正样本的第一样本对应的第二样本数据量的平均值确定为疑似可信区间阈值。本实施例不对第五预设数量进行限定。只要满足样本选择规则的第一样本中非正样本的数量较少即可，即前后2次通过决策树算法进行训练得到的样本选择规则选择出的正样本数量变化不大。例如，如果步骤0.5中原始正样本为：第一样本数据1、第一样本数据2、第一样本数据3、第一样本数据4、第一样本数据5、第一样本数据6、第一样本数据7、第一样本数据8、第一样本数据9、第一样本数据10。步骤0.8中，当满足样本选择规则的第一样本中非正样本的数量<第五预设数量成立时，满足样本选择规则的第一样本为：第一样本数据1、第一样本数据2、第一样本数据3、第一样本数据4、第一样本数据5、第一样本数据6、第一样本数据7、第一样本数据8、第一样本数据9、第一样本数据10和第一样本数据12。则，绝对可信区阈值＝(第一样本数据1对应的第二样本数据量+第一样本数据2对应的第二样本数据量+第一样本数据3对应的第二样本数据量+第一样本数据4对应的第二样本数据量+第一样本数据5对应的第二样本数据量+第一样本数据6对应的第二样本数据量+第一样本数据7对应的第二样本数据量+第一样本数据8对应的第二样本数据量+第一样本数据9对应的第二样本数据量+第一样本数据10对应的第二样本数据量+第一样本数据12对应的第二样本数据量)/11。将满足样本选择规则但非原始正样本的第一样本(第一样本数据12)对应的第二样本数据量的平均值确定为疑似可信区间阈值。步骤0.1至步骤0.8执行完毕后会获得绝对可信区阈值和疑似可信区间阈值，因此，步骤0.1至步骤0.8可以在每次执行本实施例提供的方法时均执行一次，以获得当前最准确的绝对可信区阈值和疑似可信区间阈值，也可以满足执行的触发条件时执行，本实施例不对步骤0.1至步骤0.8的触发执行条件进行限定。步骤1.5，按照可信度将任一类第一数据与对应的第二数据匹配。本步骤的具体实现方式可以有多种，例如，存储任一类第一数据与对应的第二数据匹配及其之间的可信度，也可以将任一类第一数据与对应的第二数据融合为一条数据，并记录可信度。执行步骤201至步骤205后，实现了两个id被脱敏的数据源的数据匹配。例如，第一数据为第一伪id为6225********0007的一类数据，通过执行步骤201至步骤205，可得到其对应的第二数据包括2类，第一类为第二伪id为139****0007的第二数据，第二类为第二伪id为139****0008的第二数据。第一伪id为6225********0007的一类数据与第二伪id为139****0007的第二数据之间的可信度为绝对可信，第一伪id为6225********0008的一类数据与第二伪id为139****0007的第二数据之间的可信度为疑似可信。此种情况如现实生活中的，用户在数据统计期间内更换了电话号码，导致两个电话号码与该用户的银行数据源的6225********0007数据匹配，且前电话号码与6225********0007呈现绝对可信关系，后电话号码与6225********0007呈现疑似可信关系。此处的疑似可信并非不可信，需要后续再分析。另外，为了数据的复用，还可以在执行上述步骤201至步骤205的同时，记录中间数据。例如，记录步骤201中获取的第一数据和第二数据，作为第一历史数据和第二历史数据，记录步骤202中的第一数据分类结果，记录步骤203中的各类第一数据对应的第二数据、对应的第二数据的分类结果、各类对应的第二数据的数量、任一类第一数据与各类对应的第二数据之间的可信度、任一类第一数据与对应的第二数据匹配结果等。上述图2所示的流程描述了本实施例提供的方法首次使用的过程。由于数据源数据会不断更新，因此首次执行本实施例提供的方法后，还需要再次执行本实施例提供的方法，以确定最新的匹配关系。例如，每隔1个月，执行本实施例提供的方法进行跨数据源的数据匹配。非首次使用时，可以重复执行步骤201至步骤205，仅步骤201中获取的第一数据和第二数据为更新的数据。也可以按照图3所示的流程进行处理。301，获取第一数据源的第一数据和第二数据源的第二数据。本步骤中的第一数据和第二数据均为更新的数据，与之前执行本实施例提供的方法所获得的第一历史数据和第二历史数据均不同，但本次获取的第一数据的第一伪id可以与第一历史数据的第一伪id完全相同、部分相同、或完全不同，本次获取的第二数据的第二伪id可以与第二历史数据的第二伪id完全相同、部分相同、或完全不同。即第一历史数据与第一数据不同，第二历史数据与第二数据不同，第一历史数据的任一第一伪id与第一数据的任一第一伪id相同或者不同，第二历史数据的任一第二伪id与第二数据的任一第二伪id相同或者不同302，根据第一伪id将第一数据分类。本步骤的执行过程详见步骤202，此处不再赘述。303，将第一数据与第二数据匹配。针对任一类第一数据，将其与第二数据匹配具体实现方法为：步骤2.1，确定任一类第一数据对应的第二数据。本步骤的执行过程详见步骤203中的步骤1.1，此处不再赘述。步骤2.2，根据第二伪id将对应的第二数据分类。本步骤的执行过程详见步骤203中的步骤1.2，此处不再赘述。步骤2.3，统计各类对应的第二数据的数量。本步骤的执行过程详见步骤203中的步骤1.3，此处不再赘述。步骤2.4，根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度。本步骤中，确定第一历史数据中是否包括任一类第一数据的相似历史数据，相似历史数据的第一伪id与任一类第一数据的第一伪id相同。若有相似历史数据，则确定相似历史数据所在类对应的第二历史数据的数量，根据各类对应的第二数据的数量与相似历史数据所在类对应的第二历史数据的数量之和，确定任一类第一数据与各类对应的第二数据之间的可信度，其中，相似历史数据所在类的相同第一伪id为相似历史数据的第一伪id。具体的，1)若各类对应的第二数据的数量与相似历史数据所在类对应的第二历史数据的数量之和≥绝对可信区阈值，则确定任一类第一数据以及相似历史数据所在类对应的第二历史数据与任一类对应的第二数据之间的可信度为绝对可信；2)若疑似可信区间阈值≤各类对应的第二数据的数量与相似历史数据所在类对应的第二历史数据的数量之和<绝对可信区阈值，则确定任一类第一数据以及相似历史数据所在类对应的第二历史数据与任一类对应的第二数据之间的可信度为疑似可信；3)若各类对应的第二数据的数量与相似历史数据所在类对应的第二历史数据的数量之和<疑似可信区间阈值，则确定任一类第一数据以及相似历史数据所在类对应的第二历史数据与任一类对应的第二数据之间的可信度为不可信。若未有相似历史数据，则根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度。具体的，1)若任一类对应的第二数据的数量≥绝对可信区阈值，则确定任一类第一数据与任一类对应的第二数据之间的可信度为绝对可信；2)若疑似可信区间阈值≤任一类对应的第二数据的数量<绝对可信区阈值，则确定任一类第一数据与任一类对应的第二数据之间的可信度为疑似可信；3)若任一类对应的第二数据的数量<疑似可信区间阈值，则确定任一类第一数据与任一类对应的第二数据之间的可信度为不可信。其中，绝对可信区阈值和疑似可信区间阈值的确定方法，可以通过步骤0.1至步骤0.8实现。步骤2.5，按照可信度将任一类第一数据与对应的第二数据匹配。匹配后将步骤301中获取的第一数据和第二数据，作为第一历史数据和第二历史数据，记录步骤302中的第一数据分类结果，记录步骤303中的各类第一数据对应的第二数据、对应的第二数据的分类结果、各类对应的第二数据的数量、任一类第一数据与各类对应的第二数据之间的可信度、任一类第一数据与对应的第二数据匹配结果等增加存储至对应的历史数据中。通过图3所示的方法，仅对增量数据进行处理，对于历史数据可以直接使用存储的结果，减少了资源效果，提升了方法执行效率。本实施例提供的方法，获取第一数据和第二数据，根据第一伪id将第一数据分类，针对任一类第一数据，确定其对应的第二数据，根据第二伪id将对应的第二数据分类，统计各类对应的第二数据的数量，根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度，按照可信度将任一类第一数据与对应的第二数据匹配，实现了两个id被脱敏的数据源的数据匹配。参见图4，本实施例提供了一种数据匹配的装置，该装置用于执行上述图1、图2、图3所提供的数据匹配的方法，该装置包括：获取模块401，用于获取第一数据源的第一数据和第二数据源的第二数据，第一数据包括第一伪标识id和第一记录时间，第二数据包括第二伪id和第二记录时间，不同第一数据的第一伪id相同或不同，不同第二数据的第二伪id相同或不同；分类模块402，用于根据第一伪id将第一数据分类，同类的第一数据的第一伪id相同；匹配模块403，用于针对任一类第一数据，确定其对应的第二数据，根据第二伪id将对应的第二数据分类，统计各类对应的第二数据的数量，根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度，按照可信度将任一类第一数据与对应的第二数据匹配；其中，对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差；其中，第一数据源为任一银行的银行卡数据源，第二数据源为通信运营商数据源，且第二数据与任一银行相关；参见图5，该装置，还包括：清洗模块404，用于清洗第一数据和第二数据；清洗模块404，用于根据第一记录时间，确定各第一数据所属月份，各第一数据所属月份为同一月份或不同月份；若各第一数据所属月份为同一月份，则将预先设置的各第一数据所属月份对应的第一数据阈值作为第一清洗阈值，若各第一数据所属月份为不同月份，则预先设置的各第一数据所属各月份对应的第一数据阈值的和作为第一清洗阈值；若包括任一第一伪id的第一数据总量>第一清洗阈值，则删除包括任一第一伪id的所有第一数据；清洗模块404，用于根据第二记录时间，确定各日的第二数据及各第二数据所属月份，各第二数据所属月份为同一月份或不同月份；根据各日的第二数据，确定各日的第二数据量以及日平均数据量，若任一日的第二数据量<第一预设数量*日平均数据量，则删除任一日的所有第二数据；若任一日包括任一第二伪id的第二数据总量>预设的日数据阈值，则删除任一日包括任一第二伪id的所有第二数据；若各第二数据所属月份为同一月份，则将预先设置的各第二数据所属月份对应的第二数据阈值作为第二清洗阈值，若各第二数据所属月份为不同月份，则预先设置的各第二数据所属各月份对应的第二数据阈值的和作为第二清洗阈值；若包括任一第二伪id的第二数据总量>第二清洗阈值，则删除包括任一第二伪id的所有第二数据。可选地，匹配模块403，用于若任一类对应的第二数据的数量≥绝对可信区阈值，则确定任一类第一数据与任一类对应的第二数据之间的可信度为绝对可信；若疑似可信区间阈值≤任一类对应的第二数据的数量<绝对可信区阈值，则确定任一类第一数据与任一类对应的第二数据之间的可信度为疑似可信；若任一类对应的第二数据的数量<疑似可信区间阈值，则确定任一类第一数据与任一类对应的第二数据之间的可信度为不可信；参见图6，该装置，还包括：确定模块405，用于获取第一数据源的第一样本数据和第二数据源的第二样本数据，第一样本数据中具有相同的任一第一伪id的数据量为第三预设数量；根据第一伪id将第一样本数据分类，同类的第一样本数据的第一伪id相同；针对任一类第一样本数据，确定其对应的第二样本数据，根据第二伪id将对应的第二样本数据分类，统计各类对应的第二样本数据的数量；若任一类对应的第二样本数据的数量≥第四预设阈值，则将任一类第一样本数据作为正样本；若任一类对应的第二样本数据的数量<第四预设阈值，则将任一类第一样本数据作为负样本；在第一样本数据中，将所有正样本记为原始正样本，并选择预设比例的正样本和负样本；将选择的正样本和负样本通过决策树算法进行训练，得到样本选择规则；在第一样本数据中，确定满足样本选择规则的第一样本；若满足样本选择规则的第一样本中非正样本的数量≥第五预设数量，则将满足样本选择规则的第一样本作为正样本，将不满足样本选择规则的第一样本作为负样本，重复执行将选择的正样本和负样本通过决策树算法进行训练，得到样本选择规则，在第一样本数据中，确定满足样本选择规则的第一样本的步骤；若满足样本选择规则的第一样本中非正样本的数量<第五预设数量，则将满足样本选择规则的第一样本对应的第二样本数据量的平均值确定为绝对可信区阈值，将满足样本选择规则但非原始正样本的第一样本对应的第二样本数据量的平均值确定为疑似可信区间阈值；其中，确定模块405，用于针对任一类第一样本数据，确定其对应的各第二样本数据的第二记录时间与任一类第一样本数据的第一记录时间的差的平均值；将选择的正样本和负样本、各类第一样本数据的时间差平均值、各类第一样本数据对应的第二样本数据的数量，通过决策树算法进行训练，得到样本选择规则；样本选择规则，包括对应第二样本数据的数量规则和时间差规则；其中，第三预设数量为10，第四预设阈值为4，预设比例为5:1；若第一数据还包括第一金额，第二数据还包括第二金额；对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外，对应的第二数据的第二金额与任一类第一数据的第一金额相同；若第一数据还包括后四位卡号，第二数据还包括含后四位卡号的短信内容；对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外，对应的第二数据的后四位卡号与任一类第一数据的后四位卡号相同；若第一数据还包括第一金额和后四位卡号，第二数据还包括第二金额和含后四位卡号的短信内容；对应的第二数据的第二记录时间与任一类第一数据的第一记录时间的差的绝对值小于预设时间差之外，对应的第二数据的第二金额与任一类第一数据的第一金额相同，并且，对应的第二数据的后四位卡号与任一类第一数据的后四位卡号相同；其中，预设时间差为60秒。本实施例提供的装置，获取第一数据和第二数据，根据第一伪id将第一数据分类，针对任一类第一数据，确定其对应的第二数据，根据第二伪id将对应的第二数据分类，统计各类对应的第二数据的数量，根据各类对应的第二数据的数量确定任一类第一数据与各类对应的第二数据之间的可信度，按照可信度将任一类第一数据与对应的第二数据匹配，实现了两个id被脱敏的数据源的数据匹配。需要说明的是：本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马俊;李程
技术所有人：大有秦鼎（北京）科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。