一种多源数据融合方法和装置与流程

文档序号:12906156阅读:578来源:国知局
一种多源数据融合方法和装置与流程

本公开涉及网络技术领域,特别涉及一种多源数据融合方法和装置。



背景技术:

在对一个实体进行数据分析时,需要获取到描述该实体的大量属性数据,这些属性数据可以包括多种来源,例如,来源于用户自己输入的信息,或者来源于网络爬虫采集,或者来源于多家不同的渠道商。不同来源的数据可以具有不同的数据标准,对于同一个实体的描述可能不同,比如,假设两个数据来源实际上是对同一实体的描述,但是这两个来源的描述中对该实体的名称描述不同或者地址描述不同。

在对实体进行数据分析时,可以将描述同一实体的大量属性数据都关联至该实体,即进行该实体的多源数据融合,然后再根据这些多源数据对该实体进行分析。需要提供能够更准确的将同一实体的多源数据进行融合的方案。



技术实现要素:

有鉴于此,本说明书实施例提供一种多源数据融合方法和装置,以准确快速的进行多源数据融合。

具体地,本公开是通过如下技术方案实现的:

第一方面,提供一种多源数据融合方法,所述方法用于由数据集中获取属于同一实体的数据,所述数据集包括属于多个实体的数据,每个实体的数据包括至少一个实体属性;所述方法包括:

对于任一个实体,分别获取每个实体属性的至少一个关联属性;

获得两个实体的所述关联属性的属性相似度;

若所述属性相似度大于相似度阈值,则确定所述两个实体是同一实体,将所述两个实体的实体属性均关联至所述同一实体。

第二方面,提供一种多源数据融合装置,所述装置用于由数据集中获取属于同一实体的数据,所述数据集包括属于多个实体的数据,每个实体的数据包括至少一个实体属性;所述装置包括:

属性获取模块,用于对于任一个实体,分别获取每个实体属性的至少一个关联属性;

相似度计算模块,用于获得两个实体的所述关联属性的属性相似度;

关联处理模块,用于若所述属性相似度大于相似度阈值,则确定所述两个实体是同一实体,将所述两个实体的实体属性均关联至所述同一实体。

本说明书实施例提供的多源数据融合方法和装置,通过基于实体属性的关联属性构建相似度计算方式,用以衡量两个实体之间的相似性关系,使得实体属性描述的不同不会影响相同实体的识别,可以快速准确的完成对同一实体的多源数据的获取;对于数据格式不同的多源数据之间有了一种有效的衡量方式,能够实现同一实体数据的识别与融合,从而使得实体的数据更加完善。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的图数据库的部分示意图;

图2为本说明书一个或多个实施例提供的多源数据融合方法的流程示意图;

图3为本说明书一个或多个实施例提供的多源数据融合装置的结构示意图;

图4为本说明书一个或多个实施例提供的多源数据融合装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。

在数据分析时,经常涉及到采集来源于多种渠道的同一实体的数据,根据这些数据对该实体进行较为准确的业务分析。实际实施中,上述多种来源的数据即使都是对同一实体的特征描述,也可能描述方式不同。例如,同一个实体门店,在来源l1中的名称是m,在来源l2中的名称是n,其实名称m和n都是指代同一个门店,只是字面描述不同;又例如,上述同一个实体门店,在来源l1和来源l2中对门店地址的描述也可能不同。

在进行多源数据融合时,需要获取到属于同一实体的数据,并将这些数据都关联至该同一实体,以备根据这些数据对实体进行分析。然而上述例子中提到的不同来源的数据,由于对实体的描述方式不一致,导致可能无法关联至同一实体。本说明书一个或多个实施例提供的多源数据融合方法,将用于解决这一问题,使得即使实体描述方式不同也能够将同一实体的数据进行关联。

本说明书一个或多个实施例的多源数据融合方法中,将涉及到“实体属性”和“关联属性”。其中,实体属性即由各个数据来源中采集到的一个实体的直接属性,而关联属性可以是与实体属性相关的其他属性。如下举例:

例如,一个实体属性可以是某个实体门店的地址。而该“地址”对应的“经纬度坐标”是“地址”的关联属性,或者,“地址所属的省市区信息”也是“地址”的关联属性。

又例如,一个实体属性可以是某个实体门店的联系电话。而该“联系电话对应的号码所属省份”是“联系电话”的关联属性;或者,“该联系电话对应的常用收货人姓名”也是“联系电话”的关联属性;又或者,“该联系电话对应的联系邮箱”也是“联系电话”的关联属性。

关联属性的获取方式可以有多种,可以是其他实体的实体属性,或者可以是由历史收集的大数据信息中得到,比如,可以由收集存储的历史交易数据中,得到某个联系电话对应的常用收货地址、或者常用收货人姓名等信息。一个实体属性对应的关联属性的数量可以是至少一个。

为了后续处理中获取关联属性的快速和方便,可以预先建立一个图数据库。图1示例了图数据库的一部分,图数据库中可以包括多个属性节点,例如图1中的属性节点11、属性节点12、属性节点13和属性节点14等。并且,存在关联关系的属性节点之间以边连接,例如,属性节点11和属性节点12之间以边连接,表示号码所归省份与号码是有关系的;没有关联关系的属性节点之间可以不以边连接。

图数据库中用于连接属性节点的边,可以辅助快速查找某一个属性节点相关联的属性节点,应用于关联属性的查找中。例如,假设属性节点11是一个实体属性,那么可以根据节点连接关系,将与属性节点11边连接的至少一个属性节点对应的属性,都确定为联系电话的关联属性,比如,号码所归省份、号码对应的常用收货人姓名等,都是联系电话的关联属性。图数据库的建立,即可以应用其他实体的实体属性或者历史收集的大数据信息来构建。

在上述说明“实体属性”和“关联属性”的基础上,如下结合图2描述本说明书一个或多个实施例的多源数据融合方法,在该方法中,将基于不同实体之间的“关联属性”的相似度的计算,来衡量实体之间的相似性。如前面提到的,不同实体的描述方式可能不同(这里的不同实体只是用于表示不同的数据来源,实际可能是同一实体),这种不同通常是实体的“实体属性”的描述不同,而本例子的方法中的实体相似性判断不依据实体属性而是依据关联属性,从而实体属性的不同描述不会导致实体差异的误判,而实体相似通常会有更高的关联属性相似度。

在步骤202中,将数据集中的数据进行数据格式统一化处理。

对多源异构数据集,可以进行标准化和结构化预处理,以便规范化实体的描述属性。由于数据来源不同,信息的描述方式可能不同,数据的格式标准也可能不同,例如英文字母大小写、分隔符、简繁体等,需要进行统一处理,提升数据质量。对于实体信息可以进行相应的数据模型构建,例如,对于门店可以确定门店的标准属性范围,例如电话、营业执照、地址等信息,尽可能多的提取有价值的信息。

在步骤204中,将符合预定条件的不同实体的数据,分入同一数据集。

为了避免后续相似度计算造成的笛卡尔积导致数据计算量膨胀,可以对数据集进行一个初步分类,将实体相似的可能性更高的数据聚集在一起,这一过程可以称为数据分桶。例如,对于唯一特征完全一致的实体可以直接判定为同一实体,例如门店名称、营业执照号等。而对于剩余未被直接认定一致的数据可以通过强规则分类桶进行初步分类,比如,可以将符合预定条件的不同实体的数据,分入同一数据集,例如,被分到同一个数据集内的门店实体所在城市一致,座机号码区域一致,或者门店服务类型(美食、服务、购物)一致。

而强规则分类桶的多个预定条件,可以分批次执行,例如,在具体实施中,可以先按照门店所在城市一致划分一个数据集,对该数据集执行步骤206至210的处理,提取出同一实体的数据;而后对该数据集的剩余数据,可以再按照座机号码区域一致得到一个子数据集,对该子数据集再次执行步骤206至210的处理,提取出同一实体的数据。

在步骤206中,对于任一个实体,分别获取每个实体属性的至少一个关联属性。本步骤可以在图1示例的图数据库中,根据属性节点之间的连接关系,查找与实体属性相关的至少一个关联属性。比如,可以先在图数据库中找到某一个实体属性,该实体属性是图数据库中的其中一个属性节点,再将与该实体属性边连接的至少一个属性节点的属性,作为其关联属性。

在步骤208中,获得两个实体的所述关联属性的属性相似度。

例如,假设实体a分别有属性a0,a1…an,实体b有属性b0,b1…bn。通常,a0和b0可以是相同的属性只是取值不同,比如,都是手机号,只是手机号码不同。同样,a1和b1也是相同的属性,比如,两者都是门店地址,只是具体的地址信息不同。本例子中,可以将类似“a0和b0”、“a1和b1”的属性对称为两个实体的“对应实体属性”,即指代的是同一实体属性。

再以其中一个对应实体属性为例,“a0和b0”,假设属性a0的关联属性包括:α0,α1,…αn;属性b0的关联属性包括:β0,β1,…βn。类似的,α0和β0可以是相同的属性只是取值不同,比如,都是手机号关联的邮箱,只是邮箱不同。本例子可以将类似“α0和β0”的属性对称为“对应关联属性”,即指代的是同一关联属性,并且“α0和β0”是“对应实体属性”“a0和b0”的其中一个“对应关联属性”。

基于上述的“对应实体属性”和“对应关联属性”的概念,如下说明如何计算两个实体的属性相似度。

可以分别计算任两个对应关联属性之间的属性相似度,计算公式可以如下面的公式(1)所示。αi与βi是两个对应关联属性,当αi不等于βi时,相似度为0,当αi=βi时,相似度e-n/θ。其中,e为自然底数,n为该对应关联属性关联的其他属性值个数,例如,a0,b0为手机号,α0,β0为该手机号关联的邮箱,当α0=β0时,发现该邮箱有4个手机号与其有关系,则n=4。θ为集中度调节参数,对于热点数据,例如手机对应的城市信息,一个城市可能对应非常多关联手机号,则θ值可以设置的较大,反之,如邮箱等数据重复可能性不高则θ值可设置较小。

对于任一对应实体属性的任一对应关联属性,都可以按照公式(1)进行计算。比如,对于其中一对应实体属性“a0和b0”,可以计算α0和β0的属性相似度,可以计算α1和β1的属性相似度,等。

接着,可以根据对应关联属性之间的属性相似度、以及对应实体属性的属性权重,得到两个实体的属性相似度。

比如,可以参见公式(2)所示,示例的是实体a与实体b的属性相似度sim(a,b)的计算。其中,m为a,b的有效属性个数,即对应属性都有值。上述的例子中,实体a分别有属性a0,a1…an,实体b有属性b0,b1…bn。假设a1和b1至少一个没有获取到属性值,那么这个属性是无效属性,a0和b0均能获取到属性值,则为有效属性,最多n个有效属性。对于其中一对“对应实体属性”(例如,a0和b0)来说,n为该对应实体属性的有效对应关联属性的个数,同理,假设属性a0的关联属性包括:α0,α1,…αn;属性b0的关联属性包括:β0,β1,…βn,最多有n个有效的对应关联属性。

ωj为“对应关联属性”(例如,“αi,βi”)关联的“对应实体属性”(例如,a0和b0)的属性权重,对于重要的对应实体属性可以设置权重较高,对于非重要的对应实体属性可以设置权重较低。表示某一“对应实体属性”关联的“对应关联属性”的属性相似度的平均值。

在步骤210中,若所述属性相似度大于相似度阈值,则确定所述两个实体是同一实体,将所述两个实体的实体属性均关联至所述同一实体。

例如,当sim(a,b)的值大于阈值σ时,可以认为两者是同一实体。识别到两个是同一实体后,可以将这两个实体的实体属性均关联至同一实体。

本例子的多源数据融合方法,通过基于实体属性的关联属性构建相似度计算方式,用以衡量两个实体之间的相似性关系,使得实体属性描述的不同不会影响相同实体的识别,可以快速准确的完成对同一实体的多源数据的获取;对于数据格式不同的多源数据之间有了一种有效的衡量方式,能够实现同一实体数据的识别与融合,从而使得实体的数据更加完善。

上述图2所示流程中的各个步骤,其执行顺序不限制于流程图中的顺序。此外,各个步骤的描述,可以实现为软件、硬件或者其结合的形式,例如,本领域技术人员可以将其实现为软件代码的形式,可以为能够实现所述步骤对应的逻辑功能的计算机可执行指令。当其以软件的方式实现时,所述的可执行指令可以存储在存储器中,并被设备中的处理器执行。

例如,对应于上述方法,本说明书一个或多个实施例同时提供一种数据处理设备,该设备可以包括处理器、存储器、以及存储在存储器上并可在处理器上运行的计算机指令,所述处理器通过执行所述指令,用于实现如下步骤:对于任一个实体,分别获取每个实体属性的至少一个关联属性;获得两个实体的所述关联属性的属性相似度;若所述属性相似度大于相似度阈值,则确定所述两个实体是同一实体,将所述两个实体的实体属性均关联至同一实体。

本说明书一个或多个实施例还提供了一种多源数据融合装置,该装置可以应用于实现本说明书一个或多个实施例的多源数据融合方法。如图3所示,该装置可以包括:属性获取模块31、相似度计算模块32和关联处理模块33。

属性获取模块31,用于对于任一个实体,分别获取每个实体属性的至少一个关联属性;

相似度计算模块32,用于获得两个实体的所述关联属性的属性相似度;

关联处理模块33,用于若所述属性相似度大于相似度阈值,则确定所述两个实体是同一实体,将所述两个实体的实体属性均关联至所述同一实体。

在一个例子中,属性获取模块31,具体用于:由预先建立的图数据库中获取所述实体属性,所述实体属性是所述图数据库中的其中一个属性节点,所述图数据库中包括多个属性节点,存在关联关系的属性节点之间以边连接;将与所述实体属性边连接的至少一个属性节点对应的属性,确定为所述实体属性的关联属性。

在一个例子中,相似度计算模块32,具体用于:对于两个实体的对应实体属性,确定所述对应实体属性的对应关联属性;分别计算任两个对应关联属性之间的属性相似度;根据所述对应关联属性之间的属性相似度、以及所述对应实体属性的属性权重,得到所述两个实体的所述属性相似度。

在一个例子中,如图4所示,该装置还可以包括:数据分类模块34,用于将符合预定条件的不同实体的数据,分入同一数据集。

在一个例子中,如图4所示,该装置还可以包括:数据预处理模块35,用于将所述数据集中的数据进行数据格式统一化处理。

上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白,本说明书的一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书的一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书的一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书一个或多个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书一个或多个实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1