数据处理方法、装置、存储介质和电子装置与流程

文档序号:18192973发布日期:2019-07-17 05:40阅读:124来源:国知局
数据处理方法、装置、存储介质和电子装置与流程
本发明涉及计算机领域,具体而言,涉及一种数据处理方法、装置、存储介质和电子装置。
背景技术
:目前,在数据处理中,数据融合在不同领域有不同称谓,早在数据库领域,找出不同数据集的相同对象被称为记录链接(recordlinkage)或记录匹配(recordmatching)。近年来,在知识图谱领域,数据融合也被称为实体对齐,是判断不同知识库中的两个实体是否指向同一对象的过程。很多实体对齐的算法已被提出。比如,基于概率模型,利用实体对之间的属性的相似度,来判断两个实体是匹配、可能匹配,还是不匹配。后续有许多其它算法建立在上述基于概率模块匹配的研究基础上,这类算法思想简单,但是没有考虑实体与实体之间结构上的相似度,因此,只适用于特定领域的实体对齐,其算法召回率和应用范围都具有一定的局限性。随着统计学习以及机器学习的发展,很多机器学习算法被应用到实体匹配中。比如,将算法划分为有监督或半监督机器学习、基于主动学习以及无监督机器学习这三类。这类基于机器学习的算法,通常需要较多的参数,并且容易出现过拟合的问题。如果是单机版,往往效率较低,只适用较小的数据集。另外,在对两个数据集做数据融合时,如果每两个实体都计算它们的相似度,那么算法的复杂度将是数据集大小的平方级别,不仅低效,并且很多计算也是不必要的。因而,有很多索引技术被提出,一种基本的分区索引技术是直接选择实体属性作为索引键值进行构建,然后将具有相同索引键值的实体分配到同一区块,使得相似度匹配只在同一区块中进行。但是目前还没有从工程角度,完整地给出数据融合的整个系统的实现过程,数据融合的效率低。针对上述的数据融合的效率低的问题,目前尚未提出有效的解决方案。技术实现要素:本发明实施例提供了一种数据处理方法、装置、存储介质和电子装置,以至少解决相关技术数据融合的效率低的技术问题。根据本发明实施例的一个方面,提供了一种数据处理方法。该方法包括:获取至少两个数据集合,其中,至少两个数据集合中的数据来自不同的数据源;将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果,其中,相似度用于指示两个数据集合中数据的属性之间的相关程度,第一融合结果中的数据均用于指示目标对象、且第一融合结果包括的数据不重复;将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果,其中,第二融合结果中的数据均用于指示目标对象、且第二融合结果包括的数据不重复;合并第一融合结果和第二融合结果中的数据,得到目标融合结果。根据本发明实施例的另一方面,还提供了一种数据处理装置。该装置包括:获取单元,用于获取至少两个数据集合,其中,至少两个数据集合中的数据来自不同的数据源;第一融合单元,用于将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果,其中,相似度用于指示两个数据集合中数据的属性之间的相关程度,第一融合结果中的数据均用于指示目标对象、且第一融合结果包括的数据不重复;第二融合单元,用于将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果,其中,第二融合结果中的数据均用于指示目标对象、且第二融合结果包括的数据不重复;合并单元,用于合并第一融合结果和第二融合结果中的数据,得到目标融合结果。在本发明实施例中,获取至少两个数据集合,其中,至少两个数据集合中的数据来自不同的数据源;将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果;将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果;合并第一融合结果和第二融合结果中的数据,得到目标融合结果。由于针对多源(两个以上)数据集,首先基于数据的属性相似度进行第一步的融合,在得到第一融合结果后,进一步基于数据之间的目标关系进入第二步的融合,克服了传统算法主要针对两个数据集的融合,没有基于数据之间关系进行数据融合的难题,从而确保数据融合的准确度,达到了提高数据融合的效率的技术效果,解决了数据融合的效率低的技术问题。附图说明此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是根据本发明实施例的一种数据处理方法的硬件环境的示意图;图2是根据本发明实施例的一种数据处理方法的流程图;图3是根据本发明实施例的一种数据融合的示意图;图4是根据本发明实施例的一种数据融合系统的示意图;图5是根据本发明实施例的一种数据获取的示意图;图6是根据本发明实施例的一种基于实体关系合并的示意图;图7是根据本发明实施例的一种数据校验的方法的流程图;图8是根据本发明实施例的一种数据处理装置的示意图;以及图9是根据本发明实施例的一种电子装置的结构框图。具体实施方式为了使本
技术领域
的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本发明实施例的一个方面,提供了一种数据处理方法的实施例。可选地,在本实施例中,上述数据处理方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。图1是根据本发明实施例的一种数据处理方法的硬件环境的示意图。如图1所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于pc、手机、平板电脑等。本发明实施例的数据处理方法可以由服务器102来执行,也可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本发明实施例的数据处理方法也可以是由安装在其上的客户端来执行。图2是根据本发明实施例的一种数据处理方法的流程图。如图2所示,该方法可以包括以下步骤:步骤s202,获取至少两个数据集合。在本申请上述步骤s202提供的技术方案中,获取至少两个数据集合,其中,至少两个数据集合中的数据来自不同的数据源。在该实施例中,至少两个数据集合中的数据可以来自多种数据源,也即,该实施例针对多源据集,比如,数据源为网站,至少两个数据集合中的数据可以来自不同网站,其中,数据可以为实体数据。可选地,至少两个数据集合中的数据用于指示人物的属性、人物与人物之间的关系、人物与参演作品之间的关系等。可选地,在构建视频领域的知识图谱的过程中,获取至少两个数据集合,以对至少两个数据集合进行融合。可选地,该实施例从外站抓取数据,将抓取到的数据整理成具有统一schema形式的记录,其中,schema是用于描述和规范可扩展标记语言的文档的逻辑结构的一种语言,它最大的作用就是验证可扩展标记语言的文档的逻辑结构的正确性,schema可以为数据库对象的集合,从数据库对象的集合中获取至少两个数据集合。步骤s204,将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果。在本申请上述步骤s204提供的技术方案中,将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果,其中,相似度用于指示两个数据集合中数据的属性之间的相关程度,第一融合结果中的数据均用于指示目标对象、且第一融合结果包括的数据不重复。在获取至少两个数据集合之后,可以获取至少两个数据集合中的两个第一数据集合,该两个第一数据集合可以为至少两个数据集合中的任意两个数据集合。获取两个第一数据集合之间的相似度,该两个第一数据集合之间的相似度用于指示两个第一数据集合中数据的属性的相关程度,其中,数据的属性可以为出生日期、名字、性别、星座、出生地、血型、身高、体重、职业、作品等属性,此处不做任何限制。数据的属性可以通过属性字段来表示。判断两个第一数据集合之间的相似度是否符合第一条件,目的是为了确定两个第一数据集合是否相匹配,该第一条件是用于确定两个第一数据集合可以进行融合的条件。如果第一数据集合之间的相似度符合第一条件,则对两个第一数据集合进行融合,得到第一融合结果,比如,如果两个第一数据集合之间的相似度为大于等于1的正整数,则确定两个第一数据集合之间的相似度符合第一条件,也即,只要两个第一数据集合之间的相似度为大于等于1的正整数,则这两个数据集合之间的相似度就满足可以将这两个第一数据集合进行融合的条件,对两个第一数据集合进行融合,得到第一融合结果,从而实现基于属性相似度得到匹配的结果,该第一融合结果中的数据均用于指示目标对象,也即,第一融合结果中的数据都是针对同一对象的,并且第一融合结果中的数据都是经去重之后的数据,不包括重复的数据,因而,第一融合结果中的数据量小于两个第一数据集合中的数据量之和。可选地,在该实施例的至少两个数据集合中,任意两个数据集合之间的相似度均符合第一条件,数据集合的相似性具有传递性,比如,数据集合a和数据集合b之间的相似度符合第一条件,且数据集合a和数据集合c之间的相似度符合第一条件,则数据集合b和数据集合c之间的相似度符合第一条件。因此,在处理至少两个数据集合(比如,总共有k个数据集合)的数据融合时,不需要对任意两个数据集合中的数据都进行融合,只需进行k-1对数据集中的数据进行数据融合,这样算法复杂度就从o(k^2)降到o(k),有效地降低了数据计算的复杂度,提高了数据融合的效率。该实施例可以先融合上述数据集合a和数据集合b中的数据,得到的融合结果也为一个数据集合,然后将得到的数据集合中的数据和数据集合b中的数据进行融合,以此类推,实现至少一个数据集合中的数据的融合。可选地,两个数据集合中数据的属性具有属性字段,为属性字段分别设计一个匹配函数,该匹配函数的设计原则可以为:当两个第一数据集合中的数据的属性之间的相似度的返回值为-1时,则表示该两个第一数据集合中数据的属性字段不匹配,当两个第一数据集合中的数据的属性之间的相似度的返回值为0时,则两个第一数据集合中的数据的属性字段至少有一个属性字段为空,为空的属性字段不用于决定实体是否匹配,当两个第一数据集合中的数据的属性之间的相似度的返回值为大于等于1的正整数时,表示两个第一数据集合中的数据的属性字段相匹配的程度。可选地,针对单值的属性字段,返回值为1表示该属性字段相同,针对多值的属性字段,返回值可以用于表示两个第一数据集合在属性字段上的交集的大小。举例而言,当两个第一数据集合中的星座属性字段、性别属性字段的匹配函数的返回值为-1时,则确定星座属性字段、性别属性字段不匹配,因为对于不可能出错的属性字段,当它们的属性值不同时,可以确定两个第一数据集合是不相同的;当两个第一数据集合的名字属性字段超过3个相同时,则直接认为名字属性字段相匹配,也即,两个第一数据集合可以用于指示同一对象;当上述两条件都不满足时,需要计算所有属性字段的匹配函数的返回值,分别累计属性字段相匹配的返回值和属性字段不匹配的返回值,然后再依照属性字段相匹配的返回值和属性字段不匹配的返回值做最后的判断。该实施例可以允许单值的属性字段最多有一个不匹配情况,因为有些数据源会有一定的错误发生,也可以允许多值属性字段(如,职业和作品列表)没有交集的情况发生。可选地,该实施例可以基于spark分布式框架,该spark分布式框架是专为大规模数据处理而设计的快速通用的计算引擎,为一种开源集群计算环境。首先用spark分布式框架中的flatmap函数将每个第一数据集合中的实体p按照名字展成多个<p.name,p>的kv对,其中,spark分布式框架中的flatmap函数可以用于实现数据按照一定格式展开。然后用spark分布式框架中的reducebykey方法将具有相同名字的实体对应的数据聚到一起,其中,reducebykey方法用于实现数据按照一定格式聚合。上述已经达到了建立索引的目的,属性字段的属性值相同的实体可以被全部聚到一起,实体对象可以是人。可选地,只有人名和各种别名具有区分性,因此只对人名和别名建索引,不对其它属性字段的属性值创建索引。计算至少两个数据集合中的数据是否匹配,只输出结果为匹配的情况,比如,输出内容匹配的两个数据集合的实体的id,可以通过文件来存放结果。步骤s206,将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果。在本申请上述步骤s206提供的技术方案中,将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果,其中,第二融合结果中的数据均用于指示目标对象、且第二融合结果包括的数据不重复。在该实施例中,在至少两个数据集合中,会存在数据集合中的数据实际指向同一对象,但通过判断两个数据集合中的属性的相似度是否符合第一条件,无法判断出的情况。出现这样的情况主要有以下几点因素:属性值错误,比如,有些数据集合中的数据的属性值在原始网站上就是错误的,从而导致该属性不相同;属性分布不同,比如,两个第一数据集合中的数据有属性值的字段之间没有交集,导致没有足够的证据表明这两个数据集合中的数据用于指示同一对象;有些字段难以规范化,比如,出生地字段,在通过判断两个数据集合中的属性的相似度是否符合第一条件时,就会存在误判。在该实施例中,数据之间的目标关系,也即,数据关系信息,数据的结构信息。数据之间的目标关系可以包括以下至少之一:数据所指示的多个对象的名称相关联的关系,其中,多个对象包括目标对象;数据所指示的多个对象的名称不相关联的关系;数据所指示的多个对象的属性相同的关系;数据所指示的多个对象的属性不相同的关系。可选地,上述多个对象包括多个人物,目标关系可以为人物与人物之间的关系。在抓取每个网站的人物信息时,可以同时获取人物与人物之间的关系,数据之间的目标关系可以包括以下至少之一:数据所指示的人物与人物之间的名称相关联的关系,比如,人物与人物之间同名;数据所指示的人物与人物之间的名称不相关联的关系,比如,人物与人物之间不同名;数据所指示的人物与人物之间的属性相匹配的关系,比如,a人物的属性为作家,b人物的属性为作曲家,则a人物与b人物之间的属性相匹配;数据所指示的人物与人物之间的属性不相匹配的关系,比如,a人物的属性为作家,b人物的属性为企业家,则a人物与b人物之间的属性不匹配。可选地,上述多个对象包括人物、作品,目标关系可以为人物与作品之间的关系,数据之间的目标关系可以包括以下至少之一:数据所指示的人物与作品的名称相关联的关系,比如,a人物与a′作品的名称相关联的关系;数据所指示的人物与作品的名称不相关联的关系,比如,a人物与b′作品的名称不相关联的关系;数据所指示的人物与作品的属性相关联的关系,比如,a人物的属性为作家,a′作品的属性为文章,则a人物与a′作品的属性相关联;数据所指示的人物与作品的属性不相关联的关系,比如,a人物的属性为作家,b′作品的属性为建筑,则a人物与b′作品的属性不相关联。该实施例的第二条件是用于确定两个第二数据集合可以进行融合的条件,比如,至少两个数据集合中的数据所指示的对象具有相同的名称,且该数据集合中的数据所指示的对象的属性相匹配,则确定数据之间的目标关系符合第二条件,也即,只要至少两个数据集合中的数据所指示的对象具有相同的名称,且该数据集合中的数据所指示的的属性相匹配,则数据之间的目标关系就符合第二条件。此时,将至少两个数据集合中,相似度不符合第一条件,但是数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果,从而基于数据的结构,也即,基于数据之间的目标关系得到匹配结果。该第二融合结果中的数据都是针对同一对象的,并且第二融合结果中的数据都是经去重之后的数据,不包括重复的数据,因而,第二融合结果中的数据量小于第二数据集合中的数据量之和。可选地,在与一个人名或作品名有关系的所有数据中,如果两个数据的名称相同,则这两个数据很有可能指示同一对象,通过进一步检查这两个数据是否有严重不匹配的属性,如果没有严重不匹配的属性,则这两个数据指示同一对象。在具体实现上,可以分为两个阶段进行。可以先汇总数据,再校验。比如,依次读取各网站的每条记录,同时记录与同一个人名或同一个作品有关系的所有数据,这些数据又可以按照名字进行分组,每组都很有可能用于指示同一对象。由于有些关系可能有错误,因而对数据进行校验过程,比如,可以校验性别、出生日期、星座和地区这四个字段是否有不一致的字段,如果有不一致的字段,则认为这组数据不是用于指示同一对象,否则,这组数据用于指示同一对象,可以进行融合,从而实现了基于结构的实体匹配过程。步骤s208,合并第一融合结果和第二融合结果中的数据,得到目标融合结果。在本申请上述步骤s208提供的技术方案中,合并第一融合结果和第二融合结果中的数据,得到目标融合结果。在基于属性相似度的实体匹配和基于结构的实体匹配之后,合并得到第一融合结果和第二融合结果,从而从不同维度,在确保数据融合准确度的前提下,尽量将所有可能指向同一个对象的数据都合并在一起,以提高数据融合的效率。通过上述步骤s202至步骤s208,获取至少两个数据集合,其中,至少两个数据集合中的数据来自不同的数据源;将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果,其中,相似度用于指示两个数据集合中数据的属性之间的相关程度,第一融合结果中的数据均用于指示目标对象、且第一融合结果包括的数据不重复;将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果,其中,第二融合结果中的数据均用于指示目标对象、且第二融合结果包括的数据不重复;合并第一融合结果和第二融合结果中的数据,得到目标融合结果。由于针对多源(两个以上)数据集,首先基于数据的属性相似度进行第一步的融合,在得到第一融合结果后,进一步基于数据之间的目标关系进入第二步的融合,克服了传统算法主要针对两个数据集的融合,没有基于数据之间关系进行数据融合的难题,从而确保数据融合的准确度,达到了提高数据融合的效率的技术效果,解决了数据融合的效率低的技术问题。作为一种可选的实施方式,步骤s204,将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果包括:分别获取两个第一数据集合的属性字段;获取与属性字段对应的目标函数,其中,目标函数的返回值用于指示两个第一数据集合之间的相似度是否符合第一条件;在目标函数的返回值指示两个第一数据集合之间的相似度符合第一条件的情况下,将两个第一数据集合进行融合,得到第一融合结果。在该实施例中,至少两个数据集合中的数据的属性具有属性字段,该属性字段包括单值字段和多值字段,比如,名字属性字段,为主名和别名被整合的字段,属于多值字段),性别属性字段为单值字段,星座属性字段,为单值字段、出生日期属性字段,为单值字段、出生地属性字段,为单值字段、血型属性字段,为单值字段、身高属性字段,为单值字段,体重属性字段,为单值字段、职业属性字段,为多值字段、作品列表属性字段,为多值字段。在将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果时,可以分别获取两个第一数据集合的属性字段。该实施例的属性字段对应一个目标函数,该目标函数可以为匹配函数,其返回值可以用于指示两个第一数据集合之间的相似度是否符合第一条件,也即,用于指示两个第一数据集合是否相匹配,以进行数据融合。在目标函数的返回值指示两个第一数据集合之间的相似度符合第一条件的情况下,比如,在目标函数的返回值为大于等于1的正整数,则第一数据集合之间的相似度符合第一条件,可以将第一数据集合进行融合,得到第一融合结果,实现了基于属性相似度的实体匹配,确保数据融合的准确性,进而将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果,合并第一融合结果和第二融合结果中的数据,得到目标融合结果,提高了数据融合的效率。作为一种可选的实施方式,在获取与属性字段对应的目标函数之后,该方法还包括:在目标函数的返回值为第一值或者第二值的情况下,确定两个第一数据集合之间的相似度不符合第一条件,其中,第一值用于指示两个第一数据集合的属性字段不匹配,第二值用于指示至少一个第一数据集合的属性字段为空;在目标函数的返回值为大于等于第三值的正整数的情况下,确定两个第一数据集合之间的相似度符合第一条件,其中,大于等于第三值的正整数用于指示两个第一数据集合的属性字段相匹配的匹配程度。在该实施例中,与属性字段对应的函数会有返回值,返回值可以为大于等于-1的正整数。在目标函数的返回值为第一值或者第二值的情况下,确定两个第一数据集合之间的相似度不符合第一条件,该第一值可以为-1,用于指示两个第一数据集合的属性字段不匹配,两个第一数据集合之间的相似度不符合第一条件,则不能对两个第一数据集合进行融合。第二值可以为0,用于指示至少一个第一数据集合的属性字段为空,则属性字段为空的第一数据集合不用于决定两个第一数据集合是否相匹配,两个第一数据集合之间的相似度不符合第一条件,也不能对两个第一数据集合进行融合。在目标函数的返回值为大于等于第三值的正整数的情况下,确定两个第一数据集合之间的相似度符合第一条件,比如,第三值为1,返回值为大于等于第三值的正整数可以用于指示两个第一数据集合的匹配程度,两个第一数据集合之间的相似度符合第一条件,可以对两个第一数据集合进行融合,得到第一融合结果。可选地,针对单值的属性字段,返回值为1表示两个第一数据集合的属性字段相同,针对多值的属性字段,返回值为两个第一数据集合在该属性字段的交集的大小。举例而言,两个第一数据集合包括星座属性字段、性别属性字段,当星座、性别的匹配函数返回值为-1时,则直接返回两个第一数据集合不匹配。由于对于不可能出错的属性字段,当属性字段不同时,可以说明两个第一数据集合是不相同的;当两个第一数据集合和第二数据集合中的名字属性字段中超过3个相同时,则直接认为这两个第一数据集合相匹配,也即,两个第一数据集合中的数据用于指示同一对象;当上述都不满足时,需要计算所有属性字段对应的目标函数,分别累计两个第一数据集合相匹配时目标函数的返回值和两个第一数据集合不相匹配时目标函数的返回值,然后再依照这两个返回值做最后的判断。该实施例可以允许单值属性字段最多有一个不匹配的情况,因为有些数据源会有一定的错误发生,可以允许多值属性字段(职业和作品列表)存在没有交集的情况。作为一种可选的实施方式,将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果包括:分别获取两个第一数据集合的属性字段;在两个第一数据集合的属性字段相同的情况下,确定相似度符合第一条件;将两个第一数据集合进行融合,得到第一融合结果。在该实施例中,分别获取两个第一数据集合的属性字段之后,在两个第一数据集合的属性字段相同的情况下,可以确定两个第一数据集合中的数据的属性的相似度符合第一条件。该实施例可以基于spark分布式框架,首先用flatmap方法将每个实体p按照名字展成多个<p.name,p>的kv对,然后用reducebykey方法将具有相同名字的属性字段聚到一起。上述已经达到了创建索引的目的,字段属性相同的两个数据集合中的数据可以被全部聚到一起。可选地,该实施例的实体对象是人,在这种情况下,可以只有人名及各种别名具有区分性,因此只对人名和别名创建索引,不对其它字段属性创建索引。最后计算至少两个数据集合中的两个数据集合是否匹配,只输出结果为匹配的情况,比如,输出内容为匹配的两实体的id,可以用文件存放结果。作为一种可选的实施方式,在将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果时,方法还包括:在两个第一数据集合中的一个第一数据集合,与至少两个数据集合中的第三数据集合之间的相似度符合第一条件的情况下,确定两个第一数据集合中的另一个第一数据集合,与第三数据集合之间的相似度符合第一条件。在该实施例中,由于基于属性的匹配算法较严格,数据集合之间的相似性可以传递。在两个第一数据集合中的一个第一数据集合,与至少两个数据集合中的第三数据集合之间的相似度符合第一条件的情况下,比如,第一数据集合中的一个a数据集合与至少两个数据集合中的b数据集合之间的相似度符合第一条件,则确定两个第一数据集合中的另一个第一数据集合,与第三数据集合之间的相似度符合第一条件,比如,确定两个第一数据集合中的另一个数据集合c,与数据集合b之间的相似度符合第一条件。因此,在处理多源知识库(假定总共有k个数据库)的数据融合时,不需要对任意两个数据库进行数据融合,只需对k-1对数据库进行数据融合,这样算法复杂度就从o(k^2)降低到o(k),有效地降低计算复杂度,减少了索引过程,提高了数据融合的效率。作为一种可选的实施方式,在步骤s206,将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果之前,该方法还包括:在至少两个数据集合中的数据所指示的对象具有相同的名称、且数据所指示的对象的属性相匹配的情况下,确定数据之间的目标关系符合第二条件。在该实施例中,在将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果之前,判断至少两个数据集合中的数据所指示的对象是否具有相同的名称,如果判断出至少两个数据集合中的数据所指示的对象具有相同的名称,则进一步判断该数据集合中的数据所指示的对象的属性是否相匹配,如果上述数据集合中的数据所指示的对象的属性相匹配,则确定数据之间的目标关系符合第二条件,进而将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果。比如,在与一个人名或作品名有关系的所有实体中,如果两个实体满足同名条件,那么这两个实体极有可能是同一个实体,通过进一步检查这两个实体是否有严重不匹配的属性,如果没有,则这两个实体则最终被认定是一个实体,符合第二条件,可以进行融合。作为一种可选的实施方式,步骤s206,将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果包括:在相似度不符合第一条件的数据集合中,获取与第一目标数据具有目标关系的第二目标数据,其中,第二数据集合包括第一目标数据和第二目标数据;在目标关系符合所述第二条件的情况下,校验第一目标数据的字段和第二目标数据的字段;在第一目标数据的字段和第二目标数据的字段相同的情况下,合并第一目标数据和第二目标数据,得到第二融合结果。在该实施例中,在将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果时,可以对数据进行先汇总再校验,在相似度不符合第一条件的数据集合中,获取与第一目标数据具有目标关系的第二目标数据,比如,第一目标数据为人名或作品,可以使用python语言,其中,python语言是一种面向对象、解释型计算机程序设计语言,依次读取各网站的每条记录,同时记录与同一个人名或同一个作品有关系的所有实体,这些实体又按照名字进行分组,每组都极有可能是同一个实体。由于与第一目标数据具有目标关系的第二目标数据可能会有错误,所以该实施例在所述目标关系符合所述第二条件的情况下,校验第一目标数据的字段和第二目标数据的字段,比如,校验第一目标数据和第二目标数据中的性别字段、出生日期字段、星座字段和地区字段是否有不一致的字段。在第一目标数据的字段和第二目标数据的字段相同的情况下,合并第一目标数据和第二目标数据,得到第二融合结果,在第一目标数据的字段和第二目标数据的字段不相同的情况下,则第一目标数据和第二目标数据所指示的对象并非同一个实体对象。作为一种可选的实施方式,步骤s202,获取至少两个数据集合包括:将来源于至少两个目标网站上的数据生成为至少两条记录,其中,每条记录由一个目标网站的网站名和目标网站的地址信息进行标识;按照目标网站的网站名和目标网站的地址信息获取与至少两条记录对应的至少两个数据集合。在该实施例中,对数据进行预处理,以将不同网站的异构数据预处理成具有统一schema架构形式的数据,便于后续做数据融合/实体匹配。可选地,将不同网站的异构数据映射到统一字段,确保抓取到外站全量的数据。scrapy可以用于数据挖掘、监测和自动化测试框架,分别从不同网站抓取人名页面的属性信息,以及一些关系信息,该实施例可以基于scrapy[7]scrapy,python开发的一个快速、高层次的屏幕抓取和网页(web)抓取框架,用于抓取web站点并从页面中提取结构化的数据。该实施例的属性信息包括人名、别名、性别、星座、出生日期、出生地、血型、升高、体重、职业、作品列表等,关系信息主要是人与人的关系,人与参演作品的关系等。该实施例可以针对不同网站需要实现不同的解析逻辑。为了确保抓取到外站的全量数据,将来源于至少两个目标网站上的数据生成为至少两条记录,其中,每条记录由一个目标网站的网站名和目标网站的地址信息进行标识,每条记录具有对应的数据集合,这样每条记录与一个目标网站的网站名和目标网站的地址信息具有对应关系。比如,遍历网站标识信息(identification,简称为id),当发现新的有效统一资源定位符(uniformresourcelocator,简称为url)时,在解析具体每个页面时,将新发现的有效url追加到url表,根据url表将网站id设为唯一索引,这样每个有效url只会有一条记录存在于表中。在获取至少两个数据集合时,可以按照目标网站的网站名和目标网站的地址信息,获取与至少两条记录对应的至少两个数据集合。由于互联网的开放性,人人都可以是互联网数据的生产者,因此互联网数据具有以下特点:数据量大;描述同一话题/知识的网页或者数据源有多个;每种数据源的知识具有不完整性,而不同数据源彼此成互补作用。该实施例可以为一种对多源知识进行融合去重的方法,目标是生成一份更一致、更完整、更有用的新知识,可以解决对多源知识融合与去重的问题。该实施例可以融合来自多个网站的明星知识为具体的应用背景,为一种提出可复用、具有实践意义的解决方案;利用spark,将潜在是同一个实体的候选数据聚合到一起,减少索引过程,有效地降低计算复杂度;传统算法主要针对两个数据集的融合,该实施例针对多源(两个以上)数据集,更符合实际应用;该实施例为分步式的融合过程,首先基于数据的属性相似度进行第一步的融合,在得到融合结果后,进一步基于数据之间的目标关系进入第二阶段的知识融合,通过这种分步式地融合,即确保准确度又能尽量将是同一个实体的数据合并在一起,提高了数据融合的效率。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。下面结合优选的实施例对本发明的技术方案进行举例说明。该实施例的技术方案属于数据挖掘中数据预处理的技术范围,可以在构建视频领域的知识图谱过程中,将来自多种数据源的数据进行融合,以实现不同数据源之间的数据融合。图3是根据本发明实施例的一种数据融合的示意图。如图3所示,获取来自第一网站、第二网站以及第三网站中的数据,其中,第一网站、第二网站和第三网站中的数据分别由图3所示的第一网站、第二网站和第三网站中的图形表示。可选地,获取来自第一网站、第二网站、以及第三网站中的用于指示人物的属性信息、人物与人物之间的关系信息以及人物与参演作品之间的关系信息等的数据。在得到大量的这些数据后,经过该实施例的数据融合方法,将实际指向同一人物的多种异构数据进行融合、汇总,从而得到最后完整的人名知识。图4是根据本发明实施例的一种数据融合系统的示意图。如图4所示,首先是从外站抓取数据,可以将从外站抓取数据整理成具有统一schema形式的记录,每条记录由来源的网站名和其url中的id进行唯一标识,所有记录都可以存储在关系型数据库(mysql)中。比如,从第一网站、第二网站和第三网站抓取关于人名信息的数据,将各个网站抓取到的数据分别存储在人名库1、人名库2和人名库3中。然后读取各库记录,同时用spark中的map数据结构记录与同一个人名或同一个作品有关系的所有实体,通过spark中的reducebykey方法将具有相同名字的实体聚到一起,基于属性相似性判断每个两个库中的数据是否用于指示同一个人。该实施例可以求库中所有数据的连通子图,每个连通子图表示该子图中所有实体都指向相同的人,合并连通子图内所有点,而没在图中出现的其它实体则单独表示一个实体,到这步就得到了基于属性相似度的所有人名库的实体匹配结果,然后基于实体关系进一步挖掘指向同一个人的候选实体,进一步合并,并输出,从而实现了数据的融合。下面对该实施例的数据预处理过程进行介绍。该实施例的数据预处理的目标,是将不同网站的异构数据预处理成具有统一schema架构形式的数据,便于后续做数据融合/实体匹配工作。这包括异构数据需要映射到统一字段,以及确保抓取到外站全量的数据。可选地,该实施例可以基于scrapy[7]scrapy,python开发一个快速、高层次的屏幕抓取和web站点抓取框架,用于抓取web站点并从页面中提取结构化的数据。其中,scrapy可以用于数据挖掘、监测和自动化测试框架,分别从不同网站抓取人名页面的属性信息,以及一些关系信息。表1人名信息表表名xxx_people备注类型siteid网站名+该数据在来源网站的唯一idvarchar(50)name姓名varchar(400)english_names更多外文名varchar(400)chinese_names更多中文名varchar(400)gender性别varchar(50)constellations星座varchar(50)date_of_birth出生日期datetimeregion_of_birth出生地varchar(400)blood血型varchar(10)hight身高varchar(10)weight体重varchar(10)occupation职业varchar(400)family_members家庭成员及各种关系varchar(1000)works作品列表mediumtextco_workers合作两次以上的影人以及合作作品mediumtextsummary简介mediumtext该实施例的人名信息如表1所示,每个网站的人名信息可以单独存成一张表。属性信息可以包括人名、别名、性别、星座、出生日期、出生地、血型、身高、体重、职业、家庭成员及各种关系、作品列表、合作两次以上的影人以及合作作品、简介等信息,分别对应表名和类型。关系信息主要包括人与人之间的关系信息,人与参演作品之间的关系信息等。该实施例可以针对不同网站需要实现不同的解析逻辑,图5是根据本发明实施例的一种数据获取的示意图。如图5所示,为了确保抓取到外站的全量数据,该实施例一方面通过遍历网站id的方式,发现新的有效url逻辑,另一方面在解析具体页面时,将新发现的有效url追加到url表中和人物(people)表中。需要说明的是,url表将网站id设为唯一索引,这样每个有效url只会有一条记录存在于表中。该实施例可以先给出基于属性计算两实体的相似度算法,然后再给出基于属性相似度的实体匹配系统。下面对本发明实施例的基于属性计算两实体的相似度的方法进行说明。给定两条数据库记录p1和p2,它们的属性字段如表1所示。属性字段的值可以是空,有些字段是单值字段,比如,出生日期,有些字段为多值字段,比如,作品列表。为了确保每一次实体匹配都是准确的,该实施例采用比较严格的相似度算法。首先对名字(主名和别名被整合的字段,多值字段)、性别(单值字段)、星座(单值字段)、出生日期(单值字段)、出生地(单值字段)、血型(单值字段)、身高(单值字段)、体重(单值字段)、职业(多值字段)、作品列表(多值字段)这些属性字段分别设计一个匹配函数。上述匹配函数的设计原则如下:函数的返回值为大于等于-1的整数,其中,-1用于表示p1和p2的属性字段不匹配,0用于表示p1和p2中至少有一个属性字段为空,则为空的该属性字段不决定实体是否匹配,正整数用于表示该属性字段的匹配程度。针对单值的字段,返回值为1用于表示该属性字段相同,针对多值的字段,返回值为p1、p2在该字段的交集的大小(前提是p1和p2在该属性字段均有值,否则根据前面的设定返回值为0或者-1)。基于上述各属性字段对应的匹配函数,该实施例可以设计基于属性的实体匹配算法,该基于属性的实体匹配算法如下:defineproperty_similarityinput:p1,p2output:true/false1ifconstellation_similarity(p1,p2)=-1:2returnfalse3ifgender_similarity(p1,p2)=-1:4returnfalse5ifnames_similarity(p1,p2)>2:6returntrue7evidence=0,bad_evidence=08caculateeachpropertysimilarity,ifitsreturnvalue>0,addittoevidence;9otherwise,addittobad_evidence.10if|bad_evidence|<=1andevidence>1:12returntrue13ifonlyoccupationormasterpiecereturnvalue<0,andevidence>|bad_evidence|:14returntrue15returnfalse可选地,当星座属性字段、性别属性字段对应的匹配函数返回值为-1时,则直接返回这两个实体不匹配的结果。由于对于不可能出错的属性字段,当它们对应的属性值不同时,则可以说明p1和p2是不相同的;当p1和p2的名字超过3个相同时,则直接认为这两个实体匹配,也即,为同一个实体;当上述两条件都不满足时,需要计算所有属性字段的匹配函数,分别累计相匹配的属性字段对应的匹配函数的返回值和不匹配的属性字段对应的匹配函数的返回值,然后再依照这两个值做最后的判断,具体算法可以为上述基于属性的实体匹配算法。该实施例允许单值属性字段最多有一个不匹配的情况,因为有些数据来源会有一定的错误发生,可以允许多值属性(职业和作品列表)有没有交集的情况发生。可选地,该实施例的任意两个实体的匹配结果均正确,那么实体匹配具有传递性,也即,如果实体a和实体b相匹配,且实体a和实体c匹配,则实体b和实体c匹配。由于该实施例基于属性的匹配算法较为严格,可以认为其结果具有传递性,因此在处理多源知识库(假定总共有k个知识库)的实体融合时,不需要对任意两个知识库进行实体融合,只需对k-1对知识库进行实体融合,这样算法复杂度就从o(k^2)降到o(k),降低了数据处理的复杂度,提高了数据融合的效率。下面对融合两个知识库的实体,然后再扩展到多个知识库的方法进行说明。该实施例基于spark分布式框架,首先用flatmap方法将每个实体p按照名字展成多个<p.name,p>的kv对,然后用reducebykey方法将具有相同名字的实体聚到一起。这两步骤已经达到了创建索引的目的,某属性值相同的实体可以被全部聚到一起。该实施例的实体对象是可以人,且其属性信息可以如表1所示,可以认为只有人名及各种别名具有区分性,因此只对人名和别名建索引,不对其它字段的属性值创建索引。最后利用基于属性的实体匹配算法对聚到一起的实体,两两间计算它们是否匹配,只输出结果为匹配的情况,也即,输出内容为匹配的两实体的id,可以用文件存放结果,每行对应一对匹配信息。上述过程是两个知识库的实体融合过程。针对多源的情况,具体以给定的应用场景来说明。该实施例可以用网站的人名库和时光网的人名库,基于上述实体融合过程,得到匹配结果信息;再用网站的人名库和百度百科的人名库,同样得到匹配结果信息。匹配结果的集合构建成一个图g,图的顶点集合是结果中出现的所有id,图的边集合则是每一行。基于前面提到的实体匹配具有传递性,在这个构建的图中可以找到所有最大连通子图,每个连通子图则表示该子图中所有实体都指向相同的人,而没在图g中出现的其它实体则单独表示一个实体,到这步就得到了基于属性相似度的所有人名库的实体匹配结果。下面对本发明实施例的基于结构的实体匹配进行介绍。有些实体对p1和p2确实指向同一个实体,但是基于属性的实体匹配算法无法判断出,出现这种情况主要有以下几点因素:属性值错误,有些实体的属性值在原始网站上就是错误的,导致该属性不相同;属性分布不同,实体p1有属性值的字段和实体p2有属性值的字段没有交集,导致基于属性的实体匹配算法没有足够的证据表明这两实体是同一个实体;有些字段难以规范化,比如,出生地字段,因此基于属性的实体匹配算法可能会误判。因而,该实施例通过挖掘实体与实体之间的关系,进一步将潜在指向同一实体的对象合并,实现数据的分步式的融合过程。其中,第一步基于属性相似度得到匹配的实体结果,第二步基于实体的结构相似度即实体与实体间关系得到匹配的实体结果,通过分步式从不同维度,在确保准确度的前提下尽量将所有可能指向同一个实体的记录都合并在一起。如表1所示,该实施例在抓取每个网站的人物信息时,同时获取人物与人物之间的关系信息,人物与作品之间的关系信息,该实施例利用这种结构(关系)信息,进一步合并实体,主要基于这样一个事实:与一个人名或作品名有关系的所有实体中,如果两个实体满足同名条件,则这两个实体极有可能是同一个实体,通过进一步检查这两个实体是否有严重不匹配的属性,如果没有严重不匹配的属性,则这两个实体则最终被认定是一个实体。在具体实现上,该实施例可以分成两个阶段,先汇总再校验。图6是根据本发明实施例的一种基于实体关系合并的示意图。如图6所示,该实施例可以使用python语言,依次读取各网站的每条记录,同时记录与同一个人名或同一个作品有关系的所有实体,这些实体又按照名字进行分组,每组都极有可能是同一个实体。比如,第一网站_1275765、第二网站_1598940、第三网站_1966用于指向第一人名,第一人名与对应的电影名有关系;第一网站_1163713、第二网站_923349、第三网站_139401用于指向第二人名,而第二人名与第三人名有关系。图7是根据本发明实施例的一种数据校验的方法的流程图。如图7所示,该方法包括以下步骤:步骤s701,检查每组实体的性别/出生日期/星座/地区四个字段是否有不一致的字段。由于该实施例会有些关系有错误,所以该实施例追加一个校验过程,可以只是简单校验性别/出生日期/星座/地区这四个字段是否有不一致的字段。如果校验性别/出生日期/星座/地区这四个字段是有不一致的字段,执行步骤s703,如果校验性别/出生日期/星座/地区这四个字段没有不一致的字段,步骤s702。步骤s702,不合并。如果检查每组实体的性别/出生日期/星座/地区四个字段没有不一致的字段,则认为这组实体是同一个实体,可以合并。步骤s703,不合并。如果检查每组实体的性别/出生日期/星座/地区四个字段有不一致的字段,则认为这组实体不是同一个实体,不合并。该实施例可以以视频领域的人名知识的融合作为应用背景,提出的适用于解决多源知识融合问题的基于spark的高效融合系统,该系统可以包括数据获取,数据存储,以及实体匹配等具体步骤的实现方案,具有实践指导意义。该实施例基于属性相似度判断两两实体是否指向同一个人,在不同应用中,可以有不同的实现方式。该实施例可以应用于构建视频领域的知识图谱过程中。比如,抓了第一网站的人名条目322232,第二网站的人名条目1291246,第三网站是后续在抓取,另外有一份人名媒资库,其中有效人名条目是182844条。该实施例将不同网站来自不同源的人名库,经过该实施例的多源知识融合技术,最后得到共1489869条合并后的人名条目,由于数据量非常大,只能通过人工抽检的方式去评估合并的准确度,由于人力有限,该实施例只进行小规模的人共抽检,且抽检的是国内熟知的明星人物,尚未发现有将不同人合并到同一个实体的情况。根据本发明实施例的另一方面,还提供了一种用于实施上述数据处理方法的数据处理装置。图8是根据本发明实施例的一种数据处理装置的示意图。如图8所示,该装置可以包括:获取单元10、第一融合单元20、第二融合单元30和合并单元40。获取单元10,用于获取至少两个数据集合,其中,至少两个数据集合中的数据来自不同的数据源。第一融合单元20,用于将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果,其中,相似度用于指示两个数据集合中数据的属性之间的相关程度,第一融合结果中的数据均用于指示目标对象、且第一融合结果包括的数据不重复。第二融合单元30,用于将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果,其中,第二融合结果中的数据均用于指示目标对象、且第二融合结果包括的数据不重复。合并单元40,用于合并第一融合结果和第二融合结果中的数据,得到目标融合结果。可选地,第一融合单元20包括:第一获取模块、第二获取模块和第一融合模块。其中,第一获取模块,用于分别获取两个第一数据集合的属性字段;第二获取模块,用于获取与属性字段对应的目标函数,其中,目标函数的返回值用于指示两个第一数据集合之间的相似度是否符合第一条件;第一融合模块,用于在目标函数的返回值指示两个第一数据集合之间的相似度符合第一条件的情况下,将两个第一数据集合进行融合,得到第一融合结果。可选地,第一融合单元20还包括:第一确定模块和第二确定模块。其中,第一确定模块,用于在获取与属性字段对应的目标函数之后,在目标函数的返回值为第一值或者第二值的情况下,确定两个第一数据集合之间的相似度不符合第一条件,其中,第一值用于指示两个第一数据集合的属性字段不匹配,第二值用于指示至少一个第一数据集合的属性字段为空;第二确定模块,用于在目标函数的返回值为大于等于第三值的正整数的情况下,确定两个第一数据集合之间的相似度符合第一条件,其中,大于等于第三值的正整数用于指示两个第一数据集合的属性字段相匹配的匹配程度。可选地,第一融合单元20包括:第三获取模块、第三确定模块和第二融合模块。其中,第三获取模块,用于分别获取两个第一数据集合的属性字段;第三确定模块,用于在两个第一数据集合的属性字段相同的情况下,确定相似度符合第一条件;第二融合模块,用于将两个第一数据集合进行融合,得到第一融合结果。可选地,该装置还包括:确定单元,用于在将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果时,在两个第一数据集合中的一个第一数据集合,与至少两个数据集合中的第三数据集合之间的相似度符合第一条件的情况下,确定两个第一数据集合中的另一个第一数据集合,与第三数据集合之间的相似度符合第一条件。需要说明的是,该实施例中的获取单元10可以用于执行本申请实施例中的步骤s202,该实施例中的第一融合单元20可以用于执行本申请实施例中的步骤s204,该实施例中的第二融合单元30可以用于执行本申请实施例中的步骤s206,该实施例中的合并单元40可以用于执行本申请实施例中的步骤s208。该实施例通过获取单元10获取至少两个数据集合,其中,至少两个数据集合中的数据来自不同的数据源,通过第一融合单元20将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果,其中,相似度用于指示两个数据集合中数据的属性之间的相关程度,第一融合结果中的数据均用于指示目标对象、且第一融合结果包括的数据不重复,通过第二融合单元30将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果,其中,第二融合结果中的数据均用于指示目标对象、且第二融合结果包括的数据不重复,通过合并单元40合并第一融合结果和第二融合结果中的数据,得到目标融合结果。由于针对多源(两个以上)数据集,首先基于数据的属性相似度进行第一步的融合,在得到第一融合结果后,进一步基于数据之间的目标关系进入第二步的融合,克服了传统算法主要针对两个数据集的融合,没有基于数据之间关系进行数据融合的难题,从而确保数据融合的准确度,达到了提高数据融合的效率的技术效果,解决了数据融合的效率低的技术问题。此处需要说明的是,上述单元和模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。其中,硬件环境包括网络环境根据本发明实施例的另一个方面,还提供了一种用于实施上述数据处理方法的电子装置。图9是根据本发明实施例的一种电子装置的结构框图。如图9所示,该的电子装置可以包括:一个或多个(图中仅示出一个)处理器901、存储器903。可选地,如图9所示,该电子装置还可以包括传输装置905、输入输出设备907。其中,存储器903可用于存储软件程序以及模块,如本发明实施例中的数据处理方法和装置对应的程序指令/模块,处理器901通过运行存储在存储器903内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据处理方法。存储器903可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器903可进一步包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至电子装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。上述的传输装置905用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置905包括一个网络适配器(networkinterfacecontroller,nic),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置905为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。其中,具体地,存储器903用于存储应用程序。处理器901可以通过传输装置905调用存储器903存储的应用程序,以执行下述步骤:获取至少两个数据集合,其中,至少两个数据集合中的数据来自不同的数据源;将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果,其中,相似度用于指示两个数据集合中数据的属性之间的相关程度,第一融合结果中的数据均用于指示目标对象、且第一融合结果包括的数据不重复;将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果,其中,第二融合结果中的数据均用于指示目标对象、且第二融合结果包括的数据不重复;合并第一融合结果和第二融合结果中的数据,得到目标融合结果。处理器901还用于执行下述步骤:分别获取两个第一数据集合的属性字段;获取与属性字段对应的目标函数,其中,目标函数的返回值用于指示两个第一数据集合之间的相似度是否符合第一条件;在目标函数的返回值指示两个第一数据集合之间的相似度符合第一条件的情况下,将两个第一数据集合进行融合,得到第一融合结果。处理器901还用于执行下述步骤:在获取与属性字段对应的目标函数之后,在目标函数的返回值为第一值或者第二值的情况下,确定两个第一数据集合之间的相似度不符合第一条件,其中,第一值用于指示两个第一数据集合的属性字段不匹配,第二值用于指示至少一个第一数据集合的属性字段为空;在目标函数的返回值为大于等于第三值的正整数的情况下,确定两个第一数据集合之间的相似度符合第一条件,其中,大于等于第三值的正整数用于指示两个第一数据集合的属性字段相匹配的匹配程度。处理器901还用于执行下述步骤:分别获取两个第一数据集合的属性字段;在两个第一数据集合的属性字段相同的情况下,确定相似度符合第一条件;将两个第一数据集合进行融合,得到第一融合结果。处理器901还用于执行下述步骤:在将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果时,方法还包括:在两个第一数据集合中的一个第一数据集合,与至少两个数据集合中的第三数据集合之间的相似度符合第一条件的情况下,确定两个第一数据集合中的另一个第一数据集合,与第三数据集合之间的相似度符合第一条件。处理器901还用于执行下述步骤:在将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果之前,在至少两个数据集合中的数据所指示的对象具有相同的名称、且数据所指示的对象的属性相匹配的情况下,确定数据之间的目标关系符合第二条件。处理器901还用于执行下述步骤:在相似度不符合第一条件的数据集合中,获取与第一目标数据具有目标关系的第二目标数据,其中,第二数据集合包括第一目标数据和第二目标数据;在所述目标关系符合所述第二条件的情况下,校验第一目标数据的字段和第二目标数据的字段;在第一目标数据的字段和第二目标数据的字段相同的情况下,合并第一目标数据和第二目标数据,得到第二融合结果。处理器901还用于执行下述步骤:将来源于至少两个目标网站上的数据生成为至少两条记录,其中,每条记录由一个目标网站的网站名和目标网站的地址信息进行标识;按照目标网站的网站名和目标网站的地址信息获取与至少两条记录对应的至少两个数据集合。采用本发明实施例,提供了一种数据处理的方案。获取至少两个数据集合,其中,至少两个数据集合中的数据来自不同的数据源;将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果,其中,相似度用于指示两个数据集合中数据的属性之间的相关程度,第一融合结果中的数据均用于指示目标对象、且第一融合结果包括的数据不重复;将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果,其中,第二融合结果中的数据均用于指示目标对象、且第二融合结果包括的数据不重复;合并第一融合结果和第二融合结果中的数据,得到目标融合结果。由于针对多源(两个以上)数据集,首先基于数据的属性相似度进行第一步的融合,在得到第一融合结果后,进一步基于数据之间的目标关系进入第二步的融合,克服了传统算法主要针对两个数据集的融合,没有基于数据之间关系进行数据融合的难题,从而确保数据融合的准确度,达到了提高数据融合的效率的技术效果,解决了数据融合的效率低的技术问题。可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。本领域普通技术人员可以理解,图9所示的结构仅为示意,电子装置可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobileinternetdevices,mid)、pad等电子装置。图9其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示不同的配置。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令电子装置相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-onlymemory,rom)、随机存取器(randomaccessmemory,ram)、磁盘或光盘等。本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行数据处理方法的程序代码。可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取至少两个数据集合,其中,至少两个数据集合中的数据来自不同的数据源;将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果,其中,相似度用于指示两个数据集合中数据的属性之间的相关程度,第一融合结果中的数据均用于指示目标对象、且第一融合结果包括的数据不重复;将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果,其中,第二融合结果中的数据均用于指示目标对象、且第二融合结果包括的数据不重复;合并第一融合结果和第二融合结果中的数据,得到目标融合结果。可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:分别获取两个第一数据集合的属性字段;获取与属性字段对应的目标函数,其中,目标函数的返回值用于指示两个第一数据集合之间的相似度是否符合第一条件;在目标函数的返回值指示两个第一数据集合之间的相似度符合第一条件的情况下,将两个第一数据集合进行融合,得到第一融合结果。可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在获取与属性字段对应的目标函数之后,在目标函数的返回值为第一值或者第二值的情况下,确定两个第一数据集合之间的相似度不符合第一条件,其中,第一值用于指示两个第一数据集合的属性字段不匹配,第二值用于指示至少一个第一数据集合的属性字段为空;在目标函数的返回值为大于等于第三值的正整数的情况下,确定两个第一数据集合之间的相似度符合第一条件,其中,大于等于第三值的正整数用于指示两个第一数据集合的属性字段相匹配的匹配程度。可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:分别获取两个第一数据集合的属性字段;在两个第一数据集合的属性字段相同的情况下,确定相似度符合第一条件;将两个第一数据集合进行融合,得到第一融合结果。可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在将至少两个数据集合中,相似度符合第一条件的两个第一数据集合进行融合,得到第一融合结果时,方法还包括:在两个第一数据集合中的一个第一数据集合,与至少两个数据集合中的第三数据集合之间的相似度符合第一条件的情况下,确定两个第一数据集合中的另一个第一数据集合,与第三数据集合之间的相似度符合第一条件。可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在将至少两个数据集合中,相似度不符合第一条件、数据之间的目标关系符合第二条件的第二数据集合进行融合,得到第二融合结果之前,在至少两个数据集合中的数据所指示的对象具有相同的名称、且数据所指示的对象的属性相匹配的情况下,确定数据之间的目标关系符合第二条件。可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:在相似度不符合第一条件的数据集合中,获取与第一目标数据具有目标关系的第二目标数据,其中,第二数据集合包括第一目标数据和第二目标数据;在所述目标关系符合所述第二条件的情况下,校验第一目标数据的字段和第二目标数据的字段;在第一目标数据的字段和第二目标数据的字段相同的情况下,合并第一目标数据和第二目标数据,得到第二融合结果。可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:将来源于至少两个目标网站上的数据生成为至少两条记录,其中,每条记录由一个目标网站的网站名和目标网站的地址信息进行标识;按照目标网站的网站名和目标网站的地址信息获取与至少两条记录对应的至少两个数据集合。可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1