面向异构数据的数据关联方法和装置与流程

文档序号:17476505发布日期:2019-04-20 06:09阅读:258来源:国知局
面向异构数据的数据关联方法和装置与流程

本申请涉及计算机技术领域,具体而言,涉及一种面向异构数据的数据关联方法和装置。



背景技术:

在金融领域中,需要对许多金融数据进行关联,以便对金融数据进行统计或归类,但是由于金融数据的来源不同,从而导致具有关联关系的金融数据的记录方式不同,例如,对于金融数据的名称,有些金融数据记录的是全称,有些金融数据记录的是简称,还有一些金融数据记录的是英文简写,从而导致金融数据不能进行有效关联,上述问题目前尚未提出有效的解决方法。



技术实现要素:

本申请的主要目的在于提供一种面向异构数据的数据关联方法和装置,以对金融数据进行关联。

为了实现上述目的,本申请提供了一种面向异构数据的数据关联方法,包括:

对至少两个待关联金融数据进行两两比对,以确定进行比对的待关联金融数据中是否存在相同的属性;

将具有相同属性的待关联金融数据进行关联。

可选地,对至少两个待关联金融数据进行两两比对,以确定进行比对的待关联金融数据中是否存在相同的属性包括:

确定进行比对的待关联金融数据中的属性的语义和语法的相似度;

判断所述相似度是否大于指定阈值;

当所述相似度大于或等于所述指定阈值时,确定进行比对的待关联金融数据中存在相同的属性。

可选地,

当所述相似度小于所述指定阈值时,确定进行比对的待关联金融数据中不存在相同的属性。

可选地,在对至少两个待关联金融数据进行两两比对之后,在将具有相同属性的待关联金融数据进行关联之前,所述方法还包括:

利用度量学习得到的模型,对所述相似度大于或等于所述指定阈值的进行比较的待关联金融数据进行筛选;

将符合所述模型的要求的进行比较的待关联金融数据确定为具有相同属性的待关联金融数据。

可选地,在将具有相同属性的待关联金融数据进行关联之后,所述方法还包括:

对具有相同属性的待关联金融数据进行合并。

为了实现上述目的,本申请提供了一种面向异构数据的数据关联装置,包括:

比较单元,用于对至少两个待关联金融数据进行两两比对,以确定进行比对的待关联金融数据中是否存在相同的属性;

关联单元,用于将具有相同属性的待关联金融数据进行关联。

可选地,在所述比较单元用于对至少两个待关联金融数据进行两两比对,以确定进行比对的待关联金融数据中是否存在相同的属性时,用于:

确定进行比对的待关联金融数据中的属性的语义和语法的相似度;

判断所述相似度是否大于指定阈值;

当所述相似度大于或等于所述指定阈值时,确定进行比对的待关联金融数据中存在相同的属性。

可选地,

所述比较单元,还用于当所述相似度小于所述指定阈值时,确定进行比对的待关联金融数据中不存在相同的属性。

可选地,所述装置还包括:

筛选单元,用于在对至少两个待关联金融数据进行两两比对之后,在将具有相同属性的待关联金融数据进行关联之前,利用度量学习得到的模型,对所述相似度大于或等于所述指定阈值的进行比较的待关联金融数据进行筛选;

确定单元,用于将符合所述模型的要求的进行比较的待关联金融数据确定为具有相同属性的待关联金融数据。

可选地,所述装置还包括:

合并单元,用于在将具有相同属性的待关联金融数据进行关联之后,对具有相同属性的待关联金融数据进行合并。

本申请的实施例提供的技术方案可以包括以下有益效果:

在本申请中,对至少两个待关联的金融数据进行两两比对,以确定进行比对的待关联金融数据中是否存在相同的属性,通过上述方法,可以使一个待关联的金融数据与其余待关联的金融数据进行比对,从而可以确定出该其余待关联金融数据中与该待关联的金融数据具有相同属性的待关联金融数据,即通过遍历手段对所有待关联的金融数据进行比对,从而使得确定出的具有相同属性的待关联金融数据的全面性较高,在将具有相同属性的待关联金融数据进行关联后,有利于提高关联结果的准确性(即可以对所有具有关联关系的待关联金融数据进行关联),因此,通过上述方法,可以将具有关联关系的金融数据进行关联,从而便于对金融数据进行统计或归类。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请提供的一种面向异构数据的数据关联方法的流程示意图;

图2为本申请提供的另一种面向异构数据的数据关联方法的流程示意图;

图3为本申请提供的另一种面向异构数据的数据关联方法的流程示意图;

图4为本申请提供的一种面向异构数据的数据关联装置的结构示意图;

图5为本申请提供的另一种面向异构数据的数据关联装置的结构示意图;

图6为本申请提供的另一种面向异构数据的数据关联装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。

并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。

此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1为本申请提供的一种面向异构数据的数据关联方法的流程示意图,如图1所示,该方法包括以下步骤:

101、对至少两个待关联金融数据进行两两比对,以确定进行比对的待关联金融数据中是否存在相同的属性。

以用户名称为张三的金融数据进行举例说明,张三在金融公司1进行投资,金融公司1对张三的投资行为进行统计形成张三在金融公司1的金融数据,其中,统计形成的金融数据的名称为投资金额,并且,张三在金融公司2也进行了投资,金融公司2对张三的投资行为进行统计形成张三在金融公司2的金融数据,统计形成的金融数据的名称为投资数额,在现有技术中,由于上述形成的两个金融数据的名称不同,从而无法进行关联,在本申请中,可以对上述两个金融数据(都为待关联金融数据)进行比对,以确定进行比对的待关联金融数据中是否存在相同的属性,当存在相同属性时,表示上述两个金融数据存在关联,当不存在相同的属性时,表示上述两个金融数据不存在关联。

需要注意的是,关于具体的比对方式可以根据实际需要和场景进行设定,在此不做具体限定。

102、将具有相同属性的待关联金融数据进行关联。

在本申请中,对至少两个待关联的金融数据进行两两比对,以确定进行比对的待关联金融数据中是否存在相同的属性,通过上述方法,可以使一个待关联的金融数据与其余待关联的金融数据进行比对,从而可以确定出该其余待关联金融数据中与该待关联的金融数据具有相同属性的待关联金融数据,即通过遍历手段对所有待关联的金融数据进行比对,从而使得确定出的具有相同属性的待关联金融数据的全面性较高,在将具有相同属性的待关联金融数据进行关联后,有利于提高关联结果的准确性(即可以对所有具有关联关系的待关联金融数据进行关联),因此,通过上述方法,可以将具有关联关系的金融数据进行关联,从而便于对金融数据进行统计或归类。

在一个可行的实施方案中,图2为本申请提供的另一种面向异构数据的数据关联方法的流程示意图,如图2所示,在执行步骤101时,可以通过以下步骤实现:

201、确定进行比对的待关联金融数据中的属性的语义和语法的相似度。

202、判断所述相似度是否大于指定阈值。

203、当所述相似度大于或等于所述指定阈值时,确定进行比对的待关联金融数据中存在相同的属性。

具体的,当属性的语义和语法相似度较高时,表示该两个待关联的金融数据能够进行关联的程度较高,当属性的语义和语法相似度较低时,表示该两个待关联的金融数据能够进行关联的程度较低,因此通过对待关联金融数据中的属性的语义和语法的相似度进行比较,可以确定出具有相似程度较高的属性,即可以确定出关联程度较高的待关联金融数据,因此将相似度大于或等于指定阈值的待关联金融数据确定为具有相同属性的待关联金融数据,可以使得确定结果准确率相对较高。

需要注意的是,关于语义和语法的分析方式和指定阈值的具体数值可以根据实际需要进行设定,在此不做具体限定。

在一个可行的实施方案中,在执行完步骤202之后,当所述相似度小于所述指定阈值时,确定进行比对的待关联金融数据中不存在相同的属性。

在一个可行的实施方案中,图3为本申请提供的另一种面向异构数据的数据关联方法的流程示意图,如图3所示,在执行完步骤101之后,且在执行步骤102之前,该方法还包括以下步骤:

301、利用度量学习得到的模型,对所述相似度大于或等于所述指定阈值的进行比较的待关联金融数据进行筛选。

302、将符合所述模型的要求的进行比较的待关联金融数据确定为具有相同属性的待关联金融数据。

具体的,通过语义和语法相似度的比较确定出来的是相似度较高的属性,即进行比对的待关联金融数据中具有相同属性的可能性较高,为了进一步提高确定出来的具有关联关系的金融数据的准确度,需要利用度量学习得到的模型对相似度大于或等于指定阈值的进行比较的待关联金融数据进行筛选,通过上述筛选可以对相似度大于或等于指定阈值的进行比较的待关联金融数据进行第二次判断,从而有利于提高判断结果的准确性,然后将符合该模型的要求的进行比较的待关联金融数据确定为具有相同属性的待关联金融数据,通过相似度的比较,可以实现快速筛选的过程,有利于提高数据关联的处理效率,然后通过该模型进行筛选可以提高数据关联关系的准确率。

需要注意的是,利用度量学习得到模型的具体方式可以根据实际需要进行设定,在此不做具体限定,以及利用该模型对相似度大于或等于指定阈值的进行比较的待关联金融数据进行筛选的方式也可以根据实际需要进行设定,在此也不做具体限定。

在一个可行的实施方案中,在执行步骤步骤102之后,可以对具有相同属性的待关联金融数据进行合并。

具体的,通过合并,可以将相同属性的金融数据进行整合,从而有利于对金融数据进行统计、分析或归类。

图4为本申请提供的一种面向异构数据的数据关联装置的结构示意图,如图4所示,该装置包括:

比较单元41,用于对至少两个待关联金融数据进行两两比对,以确定进行比对的待关联金融数据中是否存在相同的属性;

关联单元42,用于将具有相同属性的待关联金融数据进行关联。

在一个可行的实施方案中,在所述比较单元41用于对至少两个待关联金融数据进行两两比对,以确定进行比对的待关联金融数据中是否存在相同的属性时,用于:

确定进行比对的待关联金融数据中的属性的语义和语法的相似度;

判断所述相似度是否大于指定阈值;

当所述相似度大于或等于所述指定阈值时,确定进行比对的待关联金融数据中存在相同的属性。

在一个可行的实施方案中,所述比较单元41,还用于当所述相似度小于所述指定阈值时,确定进行比对的待关联金融数据中不存在相同的属性。

在一个可行的实施方案中,图5为本申请提供的另一种面向异构数据的数据关联装置的结构示意图,如图5所示,所述装置还包括:

筛选单元43,用于在对至少两个待关联金融数据进行两两比对之后,在将具有相同属性的待关联金融数据进行关联之前,利用度量学习得到的模型,对所述相似度大于或等于所述指定阈值的进行比较的待关联金融数据进行筛选;

确定单元44,用于将符合所述模型的要求的进行比较的待关联金融数据确定为具有相同属性的待关联金融数据。

在一个可行的实施方案中,图6为本申请提供的另一种面向异构数据的数据关联装置的结构示意图,如图6所示,所述装置还包括:

合并单元45,用于在将具有相同属性的待关联金融数据进行关联之后,对具有相同属性的待关联金融数据进行合并。

关于上述实施例中各单元的执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

在本申请中,对至少两个待关联的金融数据进行两两比对,以确定进行比对的待关联金融数据中是否存在相同的属性,通过上述方法,可以使一个待关联的金融数据与其余待关联的金融数据进行比对,从而可以确定出该其余待关联金融数据中与该待关联的金融数据具有相同属性的待关联金融数据,即通过遍历手段对所有待关联的金融数据进行比对,从而使得确定出的具有相同属性的待关联金融数据的全面性较高,在将具有相同属性的待关联金融数据进行关联后,有利于提高关联结果的准确性(即可以对所有具有关联关系的待关联金融数据进行关联),因此,通过上述方法,可以将具有关联关系的金融数据进行关联,从而便于对金融数据进行统计或归类。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1