数据记录处理方法、装置、电子设备及存储介质与流程

文档序号:16430611发布日期:2018-12-28 20:07阅读:151来源:国知局
数据记录处理方法、装置、电子设备及存储介质与流程

本公开涉及数据处理技术领域,具体地,涉及一种数据记录处理方法、装置、电子设备及存储介质。

背景技术

在各个企业的经营过程中,一般会产生大量的数据,例如用户数据、业务数据等。随着时间的推移,这些数据逐渐积累成企业的数据资源。不同企业对其拥有的数据资源可能采用不同的方式进行处理,然后将处理后得到的数据记录存储到数据库中,以为企业经营者做商业决策时提供参考。

然而,随着企业对数据资源的处理需求日益复杂,可能存在将基于不同于处理方式的数据库中的数据记录进行匹配的需求。相关技术中,通过人工处理的方式对基于不同于处理方式的数据库中的数据记录进行匹配,这种方式匹配效率较低。



技术实现要素:

本公开的目的是提供一种数据记录处理方法、装置、电子设备及存储介质,以提高数据记录的匹配效率。

为了实现上述目的,本公开实施例第一方面提供一种数据记录处理方法,所述方法包括:

获得用于描述相同对象集的第一数据库和第二数据库;

按照预设的匹配规则,确定所述第一数据库中的第一数据记录与所述第二数据库中各个待匹配的数据记录的匹配值,所述第一数据记录用于描述所述对象集中的第一对象;

根据所述第二数据库中各个待匹配的数据记录对应的匹配值,从所述第二数据库中确定用于描述所述第一对象的第二数据记录。

可选地,从所述第二数据库中确定用于描述所述第一对象的第二数据记录,包括:

对所述第二数据库中各个待匹配的数据记录对应的匹配值进行排序;

确定最高匹配值与次高匹配值之间的差值;

在所述差值大于预设阈值的情况下,将对应的匹配值最高的数据记录确定为所述第二数据记录。

可选地,所述方法还包括:

在所述差值不大于所述预设阈值的情况下,输出提示信息,所述提示信息用于提示用户从对应的匹配值最高的数据记录和对应的匹配值次高的数据记录中选择一个数据记录;

从所述第二数据库中确定用于描述所述第一对象的第二数据记录,包括:

将所述用户选择的数据记录确定为所述第二数据记录。

可选地,所述预设的匹配规则包括多个子匹配规则;按照预设的匹配规则,确定所述第一数据库中的第一数据记录与所述第二数据库中任一待匹配的数据记录的匹配值,包括:

按照各子匹配规则,确定所述第一数据记录与所述第二数据库中任一待匹配的数据记录的匹配初值;

根据各子匹配规则对应的匹配初值和各子匹配规则的权重值,确定所述第二数据库中该待匹配的数据记录对应的匹配值。

可选地,在从所述第二数据库中确定用于描述所述第一对象的第二数据记录之后,所述方法还包括:

将所述第一数据记录、所述第二数据记录以及所述第一数据记录与所述第二数据记录之间的匹配关系,存储到用于描述所述对象集的第三数据库。

可选地,所述方法还包括:

在检测到针对所述第一对象的数据记录获取请求时,从所述第三数据库中获取所述第一数据记录和/或所述第二数据记录。

可选地,所述预设的匹配规则包括:

通用匹配规则,或,基于所述对象集中对象的特征参数配置的专用匹配规则,或,所述通用匹配规则与所述专用匹配规则的组合,其中,所述通用匹配规则包括:模糊匹配规则、或等值匹配规则、或两者的组合。

可选地,所述对象集中对象的特征参数是地理位置;所述专用匹配规则包括经纬度匹配规则;和/或行政区域等级匹配规则。

本公开实施例第二方面提供一种数据记录处理装置,所述装置包括:

获得模块,用于获得用于描述相同对象集的第一数据库和第二数据库;

匹配值确定模块,用于按照预设的匹配规则,确定所述第一数据库中的第一数据记录与所述第二数据库中各个待匹配的数据记录的匹配值,所述第一数据记录用于描述所述对象集中的第一对象;

数据记录确定模块,用于根据所述第二数据库中各个待匹配的数据记录对应的匹配值,从所述第二数据库中确定用于描述所述第一对象的第二数据记录。

可选地,所述数据记录确定模块包括:

排序子模块,用于对所述第二数据库中各个待匹配的数据记录对应的匹配值进行排序;

第一确定子模块,用于确定最高匹配值与次高匹配值之间的差值;

第二确定子模块,用于在所述差值大于预设阈值的情况下,将对应的匹配值最高的数据记录确定为所述第二数据记录。

可选地,所述装置还包括:

输出模块,用于在所述差值不大于所述预设阈值的情况下,输出提示信息,所述提示信息用于提示用户从对应的匹配值最高的数据记录和对应的匹配值次高的数据记录中选择一个数据记录;

所述数据记录确定模块包括:

第三确定子模块,用于将所述用户选择的数据记录确定为所述第二数据记录。

可选地,所述匹配规则包括多个子匹配规则;所述匹配值确定模块包括:

匹配初值确定子模块,用于按照各子匹配规则,确定所述第一数据记录与所述第二数据库中任一待匹配的数据记录的匹配初值;

匹配值确定子模块,用于根据各子匹配规则对应的匹配初值和各子匹配规则的权重值,确定所述第二数据库中该待匹配的数据记录对应的匹配值。

可选地,所述装置还包括:

存储模块,用于将所述第一数据记录、所述第二数据记录以及所述第一数据记录与所述第二数据记录之间的匹配关系,存储到用于描述所述对象集的第三数据库。

可选地,所述装置还包括:

获取模块,用于在检测到针对所述第一对象的数据记录获取请求时,从所述第三数据库中获取所述第一数据记录和/或所述第二数据记录。

可选地,所述预设的匹配规则包括:

通用匹配规则,或,基于所述对象集中对象的特征参数配置的专用匹配规则,或,所述通用匹配规则与所述专用匹配规则的组合,其中,所述通用匹配规则包括:模糊匹配规则、或等值匹配规则、或两者的组合。

可选地,所述对象集中对象的特征参数是地理位置;所述专用匹配规则包括:经纬度匹配规则和/或行政区域等级匹配规则。

本公开实施例第三方面提供一种电子设备,包括处理器;用于存储处理器可执行指令的存储器;其中,所述处理器用于执行上述数据记录处理方法的步骤。

本公开实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序指令,所述程序指令被处理器执行时实现上述数据记录方法的步骤。

通过上述技术方案,在获得用于描述相同对象集的多个数据库之后,按照预设的匹配规则,确定多个数据库中的一个数据库中的数据记录与除该数据库之外的其他数据库中的数据记录的匹配值,最后根据确定出的匹配值,确定多个数据库中用于描述对象集中同一对象的数据记录。如此,实现了自动化匹配多个数据库中的数据记录,无需人工匹配,提高了匹配效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1为本公开实施例提供的一种数据记录处理方法的流程图。

图2为本公开实施例提供的一种数据记录处理方法的另一流程图。

图3为本公开实施例提供的一种数据记录处理装置的示意图。

图4为本公开实施例提供的一种数据记录处理装置的另一示意图。

图5为本公开实施例提供的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。

本公开实施例提供一种数据记录处理方法,该方法在获得用于描述相同对象集的多个数据库之后,按照预设的匹配规则,确定多个数据库中的一个数据库中的数据记录与除该数据库之外的其他数据库中的数据记录的匹配值,最后根据确定出的匹配值,确定多个数据库中用于描述对象集中同一对象的数据记录。如此,实现了自动化匹配多个数据库中的数据记录,无需人工匹配,提高了匹配效率。

下面结合具体的实施例对本公开实施例提供的数据记录处理方法进行详细说明。

参考图1,图1为本公开实施例提供的一种数据记录处理方法的流程图,如图1所示,该方法包括以下步骤:

步骤s11:获得用于描述相同对象集的第一数据库和第二数据库;

步骤s12:按照预设的匹配规则,确定所述第一数据库中的第一数据记录与所述第二数据库中各个待匹配的数据记录的匹配值,所述第一数据记录用于描述所述对象集中的第一对象;

步骤s13:根据所述第二数据库中各个待匹配的数据记录对应的匹配值,从所述第二数据库中确定用于描述所述第一对象的第二数据记录。

其中,对象集是多个对象的集合,对象集中的多个对象属于同一类型,具有相同的特征参数,对象集中的不同对象具有的特征参数的值不同。示例地,对象集是城市的集合,包括:北京、上海、成都等各个城市,对象集中的每个城市具有相同的特征参数,包括:名称、定义、邮编、经纬度、行政区域等级等。对象集中不同城市的名称、定义、邮编、经纬度、行政区域等级不同。示例地,北京这一城市的名称是:北京,定义是:中国首都,邮编是:100000,经纬度的值是:北纬n39°54′11.97″东经e116°24′3.52″,行政区域等级是:直辖市;成都这一城市的名称是:成都,定义是:西南最大的省会城市,邮编是:610000,经纬度的值是:北纬n30°34′21.63″东经e104°03′44.20″,行政区域等级是:省(属于四川省)。

数据库是数据记录的集合,一个数据记录用于描述对象集中的一个对象。

示例地,第一数据库中的一个数据记录如下:

名称:成都,定义:西南最大的省会城市,邮编:610000,经纬度的值:北纬n30°34′21.63″东经e104°03′44.20″,行政区域等级:省(成都市属于四川省)。

示例地,第二数据库中的一个数据记录如下:

名称:成都(cd),定义:西南的一个省会城市,以休闲慢节奏闻名,邮编:610000,经纬度的值:北纬n30°34′21.63″东经e104°03′44.20″,行政区域等级:省(属于四川省)。

在实际应用场景中,可能会存在多个数据库均描述相同的对象集。示例地,对象集是城市的集合,多个电商类企业的数据库均用于描述该对象集;又如,对象集是门店的集合,多个外卖类企业的数据库均用于描述该对象集。

可以理解的是,用于描述相同对象集的数据库的数量可能是多个,为了匹配多个数据库中的数据记录,可以将多个数据库中的一个数据库作为第一数据库,将多个数据库中除该数据库(即第一数据库)之外的其他任一数据库作为第二数据库,基于此,执行本公开实施例提供的数据记录处理方法,以实现两个数据库中的数据记录的匹配,反复执行本公开实施例提供的数据记录处理方法,进而可以实现多个数据库中的数据记录的匹配。

针对多个数据库中用于描述同一对象的数据记录不一致的情况,本公开实施例提出按照预设的匹配规则,对不同数据库中的数据记录进行匹配。所述预设的匹配规则包括:通用匹配规则,或,基于所述对象集中对象的特征参数配置的专用匹配规则,或,所述通用匹配规则与所述专用匹配规则的组合,其中,所述通用匹配规则包括:模糊匹配规则、或等值匹配规则、或两者的组合。可选地,所述对象集中对象的特征参数是地理位置;所述专用匹配规则包括:经纬度匹配规则和/或行政区域等级匹配规则。

本公开实施例中,通用匹配规则适用于对描述任何对象集的数据库中的数据记录进行匹配。

示例地,对象集是城市的集合,企业a的数据库和企业b的数据库均用于描述该对象集,在从企业b的数据库中确定与企业a中的一个数据记录匹配的数据记录的过程中,可以将通用匹配规则作为预设的匹配规则;对象集是门店的集合,企业c的数据库和企业d的数据库均用于描述该对象集,在从企业d的数据库中确定与企业c中的一个数据记录匹配的数据记录的过程中,同样可以将通用匹配规则作为预设的匹配规则。

通用匹配规则包括:模糊匹配规则、或等值匹配规则、或两者的组合。模糊匹配规则适用于数据记录中文本类型的数据项,等值匹配规则适用于数据记录中数值类型的数据项。如果数据记录仅包括文本类型的数据项,则可以仅选择模糊匹配规则作为通用匹配规则;同理,如果数据记录仅包括数值类型的数据项,则可以仅选择等值匹配规则作为通用匹配规则;类似地,如果数据记录既包括文本类型的数据项又包括数值类型的数据项,则可以将模糊匹配规则和等值匹配规则均作为通用匹配规则。

示例地,第一数据库中的一个数据记录如下:名称:成都,定义:西南最大的省会城市,邮编:610000。第二数据库中的一个数据记录如下:名称:成都(cd),定义:西南的一个省会城市,以休闲慢节奏闻名,邮编:610000。由于名称和描述这两个数据项是属于文本类型的数据项,邮编这个数据项是属于数值类型的数据项,所以将模糊匹配规则和等值匹配规则均作为通用匹配规则。

本公开实施例中,专用匹配规则(或个性规则)针对描述特定对象集的数据库,根据数据库所描述的对象集中的对象的特征参数(对象的特征参数可参考前文的说明,在此不再赘述),专门建立的匹配规则。针对描述不同对象集的数据库,由于不同对象集中对象的特征参数不同,所以描述不同对象集的数据库各自适用的专用匹配规则不同。

示例地,对象集是城市的集合,对象集中的每个城市具有相同的特征参数,包括:名称、描述、邮编、经纬度、行政区域等级等,建立针对该对象集的专用匹配规则包括:经纬度匹配规则和行政区域等级匹配规则,企业a的数据库和企业b的数据库均用于描述该对象集,确定企业a的数据库与企业b的数据库之间的匹配规则为经纬度匹配规则和行政区域等级匹配规则。

示例地,对象集是门店的集合,对象集中的每个城市具有相同的特征参数,包括:poi(pointofinterest,兴趣点,每个poi包含四方面信息,名称、类别、坐标、分类),商家联系电话、联系人、品牌等,建立针对该对象集的专用匹配规则包括:poi匹配规则、商家联系电话匹配规则、联系人匹配规则以及品牌匹配规则,企业c的数据库和企业d的数据库均用于描述该对象集,确定企业c的数据库与企业d的数据库之间的匹配规则为:poi匹配规则、商家联系电话匹配规则、联系人匹配规则以及品牌匹配规则。

可见,由于企业a的数据库和企业b的数据库均用于描述城市的集合,而企业c的数据库和企业d的数据库均用于描述门店的集合,由于城市的特征参数与门店的特征参数不同,导致企业a的数据库与企业b的数据库之间适用的专用匹配规则,不同于企业c的数据库与企业d的数据库之间适用的专用匹配规则。

在一种实施方式中,可以将通用匹配规则和专用匹配规则结合,即预设的匹配规则包括通用匹配规则和专用匹配规则,一方面由于匹配规则数量的增多,匹配准确度大幅提高;另一方面,随着数据记录所描述的对象的不同,可以设置不同的专用匹配规则,提高了数据记录匹配的灵活性。

示例地,企业a的数据库和企业b的数据库均用于描述城市的集合,在从企业b的数据库中确定与企业a中的一个数据记录匹配的数据记录的过程中,将以下规则作为预设的匹配规则:

1)通用匹配规则,包括模糊匹配规则(用于对城市的名称和城市的定义进行匹配)和等值匹配规则(用于对城市的邮编进行匹配);

2)专用匹配规则,包括经纬度匹配规则(用于对城市的经纬度的值进行匹配)和行政区域等级匹配规则(用于对城市的行政区域等级进行匹配)。

本公开实施例中,虽然第一数据库和第二数据库均用于描述相同的对象集,但是第一数据库中的一个数据记录(例如:第一数据记录)所描述的对象(例如:第一对象),在第二数据库中是哪一个数据记录对该对象进行描述,是未知的,因而需要应用上述预设的匹配规则,将第一数据库中的第一数据记录与第二数据库中的各个待匹配的数据记录逐一比较,确定第一数据记录与第二数据库中的各个待匹配的数据记录的匹配值,然后从第二数据库中确定用于描述第一对象的数据记录(即第二数据记录)。

其中,待匹配的数据记录是指未匹配成功的数据记录。示例地,在第一次从第二数据库中确定与第一数据库中的一个数据记录(例如第一数据记录)匹配的数据记录的过程中,待匹配的数据记录即为第二数据库中所有的数据记录,在从第二数据库中确定与第一数据记录匹配的数据记录是第二数据记录之后,第二数据记录即为匹配成功的数据记录,在第二次从第二数据库中确定与第一数据库中的另一个数据记录(例如第三数据记录)匹配的数据记录的过程中,待匹配的数据记录即为第二数据库中除第二数据记录之外剩余的数据记录。

可选地,从所述第二数据库中确定用于描述所述第一对象的第二数据记录,包括:

对所述第二数据库中各个待匹配的数据记录对应的匹配值进行排序;

确定最高匹配值与次高匹配值之间的差值;

在所述差值大于预设阈值的情况下,将对应的匹配值最高的数据记录确定为所述第二数据记录;

在所述差值不大于所述预设阈值的情况下,输出提示信息,所述提示信息用于提示用户从对应的匹配值最高的数据记录和对应的匹配值次高的数据记录中选择一个数据记录;将所述用户选择的数据记录确定为所述第二数据记录。

本公开实施例中,可以将第二数据库中对应的匹配值最高的数据记录作为与第一记录匹配的数据记录(即第二数据记录),该数据记录是第二数据库中用于描述第一对象的数据记录。

或者,可以对第二数据库中的各个待匹配的数据记录对应的匹配值进行排序,确定最高匹配值和次高匹配值,然后确定两者的差值,如果两者的差值大于预设阈值,则说明对应的匹配值最高的数据记录和对应的匹配值次高的数据记录差异明显,所以直接将对应的匹配值最高的数据记录作为第二数据记录;如果两者的差值不大于预设阈值,则说明对应的匹配值最高的数据记录和对应的匹配值次高的数据记录差异微弱,两个数据记录均有可能是与第一数据记录匹配的数据记录,为了提高匹配准确度,避免误判,在此情况下可以提示用户人工从这两个数据记录中选择一个数据记录,然后将用户选择的数据记录作为第二数据记录。

可以理解的是,第一数据库中的数据记录的数量可能是多个,可以将第一数据库中的一个数据记录作为第一数据记录,将第一数据记录与第二数据库中的所有数据记录比较,执行步骤s12-s13,直到从第二数据库中确定与第一数据记录匹配的数据记录(即第二数据记录),如此,完成第一数据库中的第一数据记录与第二数据库中的第二数据记录的匹配。类似地,将第一数据库中除第一数据记录外的一个数据记录作为新的第一数据记录,将新的第一数据记录与第二数据库中除第二数据记录外的剩余数据记录比较,执行步骤s12-s13,直到从第二数据库中确定与新的第一数据记录匹配的数据记录。

在一种实施方式中,所述预设的匹配规则包括多个子匹配规则;相应地,步骤s12包括:

按照各子匹配规则,确定所述第一数据记录与所述第二数据库中的数据记录的匹配初值;

根据各子匹配规则对应的匹配初值和各子匹配规则的权重值,得到所述匹配值。

本公开实施例中,预设的匹配规则可能是通用匹配规则,也可能是专用匹配规则,或者可能是通用匹配规则与专用匹配规则的结合。通用匹配规则的数量可能是多个,专用匹配规则的数量也可能是多个,如此,预设的匹配规则的数量是多个,每个匹配规则为一个子匹配规则。

示例地,预设的匹配规则包括四个子匹配规则:①模糊匹配规则、②等值匹配规则、③经纬度匹配规则以及④行政区域等级匹配规则。

不同的子匹配规则是从不同的角度评估来自不同数据库的两个数据记录之间的匹配程度,因而在确定来自不同数据库的两个数据记录之间的匹配值时,有必要为不同的子匹配规则赋予不同的权重值,各个子匹配规则的权重值的大小可以是默认的,也可以是根据每个子匹配规则的可信度确定的,一个子匹配规则的可信度可以通过神经网络学习得到。

针对每个子匹配规则,确定第一数据库中的第一记录与第二数据库中某一个记录的匹配初值,如此,应用多个子匹配规则,得到多个匹配初值。然后,将每个匹配初值与该匹配初值所基于的子匹配规则的权重值相乘,得到乘积,对应多个子匹配规则,得到多个乘积,最后将多个乘积相加,即可得到第一数据库中的第一记录与第二数据库中某一个记录的匹配值。

示例地,预设的匹配规则包括四个子匹配规则:①模糊匹配规则、②等值匹配规则、③经纬度匹配规则以及④行政区域等级匹配规则,权重值分别为a1、a2、a3以及a4。针对企业a的数据库中的数据记录a与企业b的数据库中的数据记录b,应用模糊匹配规则,确定的匹配初值是score1;应用等值匹配规则,确定的匹配初值是score2;应用经纬度匹配规则,确定的匹配初值是score3;应用行政区域等级匹配规则,确定的匹配初值是score4。则企业a的数据库中的数据记录a与企业b的数据库中的数据记录b之间的匹配值score=score1*a1+score2*a2+score3*a3+score4*a4。

下面以一个完整的示例说明如何从第二数据库中确定与第一数据库中的第一数据记录匹配的数据记录。

企业a的数据库和企业b的数据库均用于描述城市的集合,预设的匹配规则包括四个子匹配规则:①模糊匹配规则、②等值匹配规则、③经纬度匹配规则以及④行政区域等级匹配规则,权重值分别为a1、a2、a3以及a4。

企业a的数据库中的数据记录a如下:

名称:成都,定义:西南最大的省会城市,邮编:610000,经纬度的值:北纬n30°34′21.63″东经e104°03′44.20″,行政区域等级:省(属于四川省)。

企业b的数据库中的数据记录b如下:

名称:成都(cd),定义:西南的一个省会城市,以休闲慢节奏闻名,邮编:610000,经纬度的值:北纬n30°34′21.63″东经e104°03′44.20″,行政区域等级:省(属于四川省)。

企业b的数据库中的数据记录b1如下:

名称:北京,定义:中国首都,邮编:100000,经纬度的值:北纬n39°54′11.97″东经e116°24′3.52″,行政区域等级:直辖市。

针对企业a的数据库中的数据记录a与企业b的数据库中的数据记录b以及数据记录b1,应用模糊匹配规则,确定的匹配初值分别是score1和score1’;应用等值匹配规则,确定的匹配初值分别是score2和score2’(score2’为零,因为成都的邮编与北京的邮编不同);应用经纬度匹配规则,确定的匹配初值是score3和score3’;应用行政区域等级匹配规则,确定的匹配初值是score4和score4’(score4’为零,因为行政区域等级不匹配,省和直辖市是不同的两个行政区域等级)。则企业a的数据库中的数据记录a与企业b的数据库中的数据记录b之间的匹配值score=score1*a1+score2*a2+score3*a3+score4*a4;企业a的数据库中的数据记录a与企业b的数据库中的数据记录b1之间的匹配值score’=score1’*a1+score2’*a2+score3’*a3+score4’*a4。

比较score和score’,由于score大于score’,则企业b的数据库中的数据记录b相较于数据记录b1而言与企业a的数据库中的数据记录a匹配。

如图2所示,图2为本公开实施例提供的一种数据记录处理方法的另一流程图。参考图2,在一种实施方式中,本公开实施例提供的数据记录处理方法还包括以下步骤:

步骤s14:将所述第一数据记录、所述第二数据记录以及所述第一数据记录与所述第二数据记录之间的匹配关系存储到第三数据库。

可选地,如图2所示,本公开实施例提供的数据记录处理方法还包括以下步骤:

步骤s15:在检测到针对所述第一对象的数据记录获取请求时,从所述第三数据库中获取所述第一数据记录和/或所述第二数据记录。

本公开实施例中,考虑到将基于不同处理方式的数据库中的数据记录进行融合进而得到新的数据库的需求,提出在将不同数据库中的数据记录一一匹配之后,将相匹配的两个或多个数据记录以及相匹配的各个数据记录之间的匹配关系存储到第三数据库(不同于第一数据库和第二数据库的另一个数据库),以此实现融合并统一多个数据库中的数据记录的目的,此后如果检测到针对该对象集中的对象(例如:第一对象)的数据记录获取请求,即可调用第三数据库,从第三数据库中读取用于描述该对象的数据记录,可以仅从第三数据库中读取第一数据记录,也可以仅从第三数据库中读取第二数据记录,或者,从第三数据库中读取第一数据记录和第二数据记录。

示例地,在确定企业b的数据库中的数据记录b与企业a的数据库中的数据记录a匹配之后,新建一个数据记录,该新建的数据记录包括:数据记录a和数据记录b以及两者之间的匹配关系。然后将新建的数据记录存储到另一个数据库中。

此后,如果用户想要知道企业b的数据库中是如何描述成都这一城市的,可以从该另一个数据库中获取新建的数据记录,进而提取出数据记录b,同理,如果用户想要知道企业a的数据库中是如何描述成都这一城市的,可以从该另一个数据库中获取新建的数据记录,进而提取出数据记录a。

或者,如果用户已经知道企业b的数据库中用数据记录b,想知道企业a的数据库中与数据记录b匹配的数据记录是哪一个,可以从上述另一个数据库中获取新建的数据记录,进而提取出数据记录b与数据记录a之间的匹配关系。

或者,当需要同时将描述成都这一城市的各个数据记录实时与其他数据融合时,可以从上述另一个数据库中获取新建的数据记录,进而一次性提取出数据记录a和数据记录b,并实时与其他数据融合。

基于同一发明构思,本公开实施例还提供一种数据记录处理装置。参考图3,图3是本公开实施例提供的数据记录处理装置的示意图。如图3所示,本公开实施例提供的数据记录处理装置300包括:

获得模块301,用于获得用于描述相同对象集的第一数据库和第二数据库;

匹配值确定模块302,用于按照预设的匹配规则,确定所述第一数据库中的第一数据记录与所述第二数据库中各个待匹配的数据记录的匹配值,所述第一数据记录用于描述所述对象集中的第一对象;

数据记录确定模块303,用于根据所述第二数据库中各个待匹配的数据记录对应的匹配值,从所述第二数据库中确定用于描述所述第一对象的第二数据记录。

可选地,所述数据记录确定模块包括:

排序子模块,用于对所述第二数据库中各个待匹配的数据记录对应的匹配值进行排序;

第一确定子模块,用于确定最高匹配值与次高匹配值之间的差值;

第二确定子模块,用于在所述差值大于预设阈值的情况下,将对应的匹配值最高的数据记录确定为所述第二数据记录。

可选地,所述装置还包括:

输出模块,用于在所述差值不大于所述预设阈值的情况下,输出提示信息,所述提示信息用于提示用户从对应的匹配值最高的数据记录和对应的匹配值次高的数据记录中选择一个数据记录;

所述数据记录确定模块包括:

第三确定子模块,用于将所述用户选择的数据记录确定为所述第二数据记录。

可选地,所述匹配规则包括多个子匹配规则;所述匹配值确定模块包括:

匹配初值确定子模块,用于按照各子匹配规则,确定所述第一数据记录与所述第二数据库中任一待匹配的数据记录的匹配初值;

匹配值确定子模块,用于根据各子匹配规则对应的匹配初值和各子匹配规则的权重值,确定所述第二数据库中该待匹配的数据记录对应的匹配值。

可选地,图4是本公开实施例提供的数据记录处理装置的示意图。如图4所示,本公开实施例提供的数据记录处理装置300还包括:

存储模块304,用于将所述第一数据记录、所述第二数据记录以及所述第一数据记录与所述第二数据记录之间的匹配关系,存储到用于描述所述对象集的第三数据库。

可选地,如图4所示,本公开实施例提供的数据记录处理装置300还包括:

获取模块305,用于在检测到针对所述第一对象的数据记录获取请求时,从所述第三数据库中获取所述第一数据记录和/或所述第二数据记录。

可选地,所述预设的匹配规则包括:

通用匹配规则,或,基于所述对象集中对象的特征参数配置的专用匹配规则,或,所述通用匹配规则与所述专用匹配规则的组合,其中,所述通用匹配规则包括:模糊匹配规则、或等值匹配规则、或两者的组合。

可选地,所述对象集中对象的特征参数是地理位置;所述专用匹配规则包括:经纬度匹配规则和/或行政区域等级匹配规则。

需要说明的是,关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图5是本公开实施例提供的一种电子设备的框图。例如,电子设备100可以被提供为一数据处理服务器。参照图5,电子设备100包括处理器1122,其数量可以为一个或多个,以及存储器1132,用于存储可由处理器1122执行的计算机程序。存储器1132中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1122可以被配置为执行该计算机程序,以执行上述的数据记录处理方法。

另外,电子设备100还可以包括电源组件1126和通信组件1150,该电源组件1126可以被配置为执行电子设备100的电源管理,该通信组件1150可以被配置为实现电子设备100的通信,例如,有线或无线通信。此外,该电子设备100还可以包括输入/输出(i/o)接口1158。电子设备100可以操作基于存储在存储器1132的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm等等。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的数据记录处理方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1132,上述程序指令可由电子设备100的处理器1122执行以完成上述的数据记录处理方法。

以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。另外,需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1