数据可信度评估方法、装置、设备和存储介质与流程

文档序号:17131164发布日期:2019-03-16 01:14阅读:677来源:国知局
数据可信度评估方法、装置、设备和存储介质与流程

本发明实施例涉及大数据融合技术领域,尤其涉及一种数据可信度评估方法、装置、设备和存储介质。



背景技术:

随着信息技术的快速发展,大数据用以描述和定义信息爆炸时代产生的海量数据,例如企业在日常运营时各业务部门生成的数据,或者累积的用户网络行为数据等。因此通过大数据融合技术将多源数据进行有效的整合,能够提高大数据的分析和处理效率。

鉴于数据在输入、变换等操作过程中由于人为或者设备的误差,可能导致描述同一主体的数据在不同的数据源中存在误差、缺失甚至是相互冲突的现象,进而导致在多源数据融合过程中,无法判断多样性数据的可信度,降低数据融合的效率和准确性。现有技术通常依据投票原则或者取均值原则,来确定相互冲突的多源数据。

然而,现有技术无法有效地确定多源数据中各数据的可信度,只是综合考虑各数据的存在性,宏观上确定数据的相对取值,降低了数据融合的准确度,数据的可靠性较低。



技术实现要素:

本发明实施例提供了一种数据可信度评估方法、装置、设备和存储介质,能够确定多数据源中每个主体关联的属性值的可信度,提高数据可信度评估的准确性,为数据融合提供依据。

第一方面,本发明实施例提供了一种数据可信度评估方法,包括:

依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度;

依据各数据源中各主体关联的属性值的可信度,确定各数据源的可信度;

依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。

第二方面,本发明实施例提供了一种数据可信度评估装置,包括:

属性值可信度确定模块,用于依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度;

数据源可信度确定模块,用于依据各数据源中各主体关联的属性值的可信度,确定各数据源的可信度;

综合数据可信度评估模块,用于依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。

第三方面,本发明实施例提供了一种设备,包括:

一个或多个处理器;

存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的数据可信度评估方法。

第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的数据可信度评估方法。

本发明实施例依据至少两个数据源中相同主体关联的属性值信息,确定同一数据源中各主体关联的属性值的可信度,并依据各属性值的可信度确定各数据源的可信度,从而依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。本发明实施例通过数据间的关联关系,实现了多源数据融合过程中对相同主体关联的属性值的可信度进行有效评估,提高多源数据融合过程中数据冲突时对数据可信度判断的决策力和效率。

附图说明

图1为本发明实施例一提供的一种数据可信度评估方法的流程图;

图2为本发明实施例二提供的一种数据可信度评估方法的流程图;

图3为本发明实施例三提供的一种数据可信度评估装置的结构示意图;

图4为本发明实施例四提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种数据可信度评估方法的流程图,本实施例可适用于在多数据源融合过程中对数据的可信度进行评估的情况,该方法可由一种数据可信度评估装置来执行。该方法具体包括如下步骤:

步骤110、依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度。

在本发明具体实施例中,数据源是指可以提供某种所需数据的原始媒体,数据源可以为表格或文件等存在形式。具体的,数据源中记录了不同主体的相关数据,主体的相关数据由不同属性构成,属性可以由不同的属性值来描述。其中,主体可以是指数据所描述的对象,例如具体的人或事物等;属性值可以是指数据源中针对某一主体的具体属性提供的数据。一个数据源中可以包括至少一个主体,一个主体可以由至少一个属性构成,一个属性可以由至少一个属性值来描述。

示例性的,假设表格a中包括用户甲和用户乙,用户甲包括属性a、b和c,属性a的具体数据值为a1,属性b的具体数据值为b1,属性c的具体数据值为c1,以此类推。相应的,表格a即为数据源,用户甲和用户乙即为数据源所包括的主体,数据值a1、b1和c1即为属性值。

在多源数据进行融合的过程,多数据源中记录的主体可能相同也可能不相同,对于相同的主体其相同属性下的属性值可能存在数据冲突。示例性的,数据源a和数据源b中均包括主体甲,数据源a中记录主体甲的属性a的属性值为a1,数据源b中记录主体甲的属性a的属性值为a2,可见数据源a和数据源b对于主体甲的属性a的属性值存在冲突。因此,为了提高数据融合的效率和准确度,需要选取可信度较高的属性值作为数据融合后的真值,或者,在数据融合过程中,为相同主体关联的相同属性下的不同属性值分别进行可信度评估和标注,以为后期数据的选取或分析提供依据。

本实施例中,在至少两个数据源进行数据融合的过程中,首先确定各个单一数据源中各主体关联的属性值的可信度。其中,可以依据不同数据源之间数据的关联关系,获取至少两个数据源中的相同主体关联的属性值信息,以此来确定各个单一数据源中各主体关联的属性值的可信度。其中,属性值信息可以包括属性值的生成时间、属性值的出现次数、相同主体的属性种类数量以及相同主体关联的相同属性的最后一次出现的目标属性值等。

具体的,首先,依据属性值的生成时间,确定至少两个数据源中相同主体关联的相同属性值的出现次数,并依据各属性值的出现次数,确定各属性值的可信度。其次,依据至少两个数据源中相同主体关联的相同属性值的生成时间、属性种类数量、或者相同属性最后一次出现的目标属性值,调整各数据源中各主体关联的属性值的可信度。

示例性的,首先,统筹所有数据源中相同主体关联的相同属性值的出现次数,依据预设公式计算各属性值的初始可信度。其次,可以以距离当前时间越近的属性值的可信度越高为原则,依据数据源之间数据的关联关系以及数据源的可信度,对各属性值的初始可信度进行调整。其中,可以初始化各数据源的可信度或等级,为不同等级预设关联的可信度阈值、可信次数阈值或时间阈值等阈值信息。例如,对于同一公司下不同业务部门产生的数据,预先将不同业务部门提供的数据源设定为一、二和三等级,其中,一等级数据源来自权威性较高且较为可信的业务部门,二等级数据源来自权威性相对一等级略低的业务部门,三等级数据源来自权威性较低且可信度相对较低的业务部门。且数据源等级是随着数据源可信度的变化而变化的,后续可以依据数据源可信度的排序来划分数据源等级。预设关联的可信度阈值和可信次数阈值可以随着数据源等级的升高而变大,时间阈值可以随着数据源等级的升高而变小。

具体的,依据数据源之间数据的关联关系以及数据源的可信度,对各属性值的初始可信度进行调整,可以大致分为以下三种情形。

情形一:在所有数据源中,对于在预设时间阈值之内未再次出现的属性值,对该属性值的可信度进行衰减处理。而在数据源等级较低即可信度较高的数据源中,或者在至少一个可信度高于预设的可信度判定阈值的数据源中,当可信度衰减后的属性值再次出现时,则恢复该属性值的可信度为衰减之前的可信度取值。

情形二:在数据源等级较低即可信度较高的数据源中,或者在至少一个可信度高于预设的可信度判定阈值的数据源中,对于属性仅由一个属性值来描述的唯一值属性来说,若同一主体下有新种类的唯一值属性出现,则对所有数据源中的非唯一值属性的属性值的可信度进行衰减处理,同时对所有数据源中,除了该新种类的唯一值属性以外的唯一值属性的属性值的可信度进行大幅度衰减处理。

情形三:在所有数据源中,确定相同主体关联的相同属性下全局最后一次出现的属性值,由于出现时间距离当前最近,故可以视为可靠性较强,称之为目标属性值。进而在除了出现目标属性值的数据源以外的其他数据源中,确定与目标属性值相同属性的最后一次出现的待比较属性值。若待比较属性值均与目标属性值相同,则视为该属性值的可靠性较高,对所有数据源中,目标属性值关联的主体下,与目标属性值取值相同的属性值的可信度进行加分处理。然而,若待比较属性值与目标属性值不完全相同,则在除了出现目标属性值的数据源以外的其他各个数据源中,统计目标属性值关联的主体下,与目标属性值取值相同的属性值的出现次数。先以出现目标属性值的数据源的数据源等级为准,确定该数据源等级关联的可信次数阈值。并判断其他各个数据源的出现次数是否达到该可信次数阈值。其中,若其他各个数据源中存在比出现目标属性值的数据源的数据源等级高的数据源,则以较高的数据源关联的可信次数阈值为比较基准。进而若其他各个数据源中与目标属性值取值相同的属性值的出现次数均达到该可信次数阈值,则视为目标属性值以及与目标属性值取值相同的属性值可信,并对待比较属性值与目标属性值不相同的属性值的可信度进行减分处理。若其他各个数据源中与目标属性值取值相同的属性值的出现次数没有完全达到该可信次数阈值,则视为目标属性值以及与目标属性值取值相同的属性值不可信,并对目标属性值以及与目标属性值取值相同的属性值的可信度进行减分处理。其中,可以对达到可信次数阈值的数据源进行比例阈值限定,相应的,在存在满足该比例阈值的数据源达到可信次数阈值,则视为该属性值可信,反而视为不可信,并进行相应处理。

步骤120、依据各数据源中各主体关联的属性值的可信度,确定各数据源的可信度。

在本发明具体实施例中,鉴于一个数据源中可以包括至少一个主体,一个主体可以由至少一个属性构成,一个属性可以由至少一个属性值来描述。相应的,依据各主体关联的各属性值的可信度,确定各主体的可信度,依据各数据源关联的各主体的可信度,确定各数据源的可信度。

示例性的,在确定并调整所有数据源中各主体关联的各属性值的可信度之后,计算各数据源中各主体关联的各属性值可信度的均值,作为该数据源下该主体的可信度,并计算各数据源中各主体可信度的均值,作为该数据源的可信度。

步骤130、依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。

在本发明具体实施例中,多源数据源融合过程中,对相同主体及其关联的相同属性进行汇总融合,并保留所有数据源中相同主体关联的相同属性下的不同属性值。相应的,为了直观地表现多源数据源融合相同属性不同取值的可信度,对各个属性值进行可信度的。具体的,依据各数据源中各主体关联的属性值的可信度、各数据源的可信度以及数据源与属性值的关联关系,确定各属性值受关联数据源反馈后的可信度;依据各属性值受关联数据源反馈后的可信度,确定至少两个数据源进行数据融合后,相同主体关联的相同属性下不同属性值的综合可信度。

示例性的,将属性值的可信度与关联的数据源的可信度相乘,获得属性值受关联数据源反馈后的可信度。在所有数据源中,将相同主体关联的相同属性下的属性值进行汇总融合。从全局考虑,计算相同主体关联的相同属性值的可信度均值,确定为该属性值的综合可信度。从而在融合后的数据中只有一套用于描述主体的属性值,且存在同一属性下有不同取值的情况,同时各取值标注有综合可信度。进而依据各属性值的综合可信度,便于后期对数据的分析和处理。例如只保留冲突数据中可信度最高的数据。

本实施例的技术方案,依据至少两个数据源中相同主体关联的属性值信息,确定同一数据源中各主体关联的属性值的可信度,并依据各属性值的可信度确定各数据源的可信度,从而依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。本发明实施例通过数据间的关联关系,实现了多源数据融合过程中对相同主体关联的属性值的可信度进行有效评估,提高多源数据融合过程中数据冲突时对数据可信度判断的决策力和效率。

实施例二

本实施例在上述实施例一的基础上,提供了数据可信度评估方法的一个优选实施方式,能够依据数据源的可信度对数据源关联的属性值的可信度进行反馈调节。图2为本发明实施例二提供的一种数据可信度评估方法的流程图,如图2所示,该方法包括以下具体步骤:

步骤210、依据属性值的生成时间,确定至少两个数据源中相同主体关联的相同属性值的出现次数,并依据各属性值的出现次数,确定各属性值的可信度。

在本发明具体实施例中,针对各数据源中描述主体的属性,从中筛选出能够唯一标识主体的属性作为主体的唯一标识。其中,同一主体的唯一标识的数量可以不唯一,但是各个唯一标识与主体之间均为一一对应的关系。将此类属性作为主体的基本属性用以标识主体。进而在获得多数据源时,针对所有数据源,以基本属性为标识进行主体的识别和整合,并依据属性值的生成时间,将所有数据源中的同一主体的所有属性值按照时间顺序进行排列。从而对所有数据进行遍历,统计所有数据源中相同属性值的出现次数。

本实施例中,统筹所有数据源中相同主体关联的相同属性值的出现次数,依据如下公式计算各属性值的初始可信度:其中,oi表示数据源中第i个主体,oipj表示数据源中第i个主体的第j个属性,oipjnk表示数据源中第i个主体的第j个属性出现的第k个取值,m(oipjnk)表示属性值oipjnk的初始可信度。

步骤220、依据至少两个数据源中相同主体关联的相同属性值的生成时间、属性种类数量、或者相同属性最后一次出现的目标属性值,调整各数据源中各主体关联的属性值的可信度。

在本发明具体实施例中,可以以距离当前时间越近的属性值的可信度越高为原则,依据数据源之间数据的关联关系以及数据源的可信度,对各属性值的初始可信度进行调整。其中,由于属性值的可信度决定了关联数据源的可信度,而数据源的可信度又反馈影响着关联属性值的可信度,以此累积迭代。因此在数据可信度的初次评估时,可以初始化各数据源的可信度或等级,并为不同等级预设关联的可信度阈值、可信次数阈值或时间阈值等阈值信息。

示例性的,依据生成数据源的各业务部门的业务职责,假设表a的数据源等级为一等级,其关联的可信度阈值为3,可信次数阈值为30,时间阈值为30min;表b的数据源等级为二等级,其关联的可信度阈值为5,可信次数阈值为50,时间阈值为20min;表c的数据源等级为三等级,其关联的可信度阈值为7,可信次数阈值为70,时间阈值为10min。值得注意的是,随着属性值可信度的确定,数据源的可信度也随之变化,进而可以通过将数据源可信度进行排序,依据排序结果重新划分数据源等级。例如按照可信度降序进行排序,确定排名前25%的数据源为一等级,确定排名25%-50%的数据源为二等级,确定排名后50%的数据源为三等级。

本实施例中,所有数据记录中都标注有各个数据的生成时间。且随着时间的推移,同一主体关联的属性的种类不是固定不变的,随时可能会有新的属性产生。本实施例以距离当前时间越近的属性值的可信度越高为原则,进而以全局数据中同一属性最后一次出现的目标属性值为相同属性下其他属性值的可信度的评估标准。

可选的,在至少两个数据源中,依据相同主体关联的相同属性值的生成时间,对于在预设时间阈值之内未再出现的属性值,则依据时间衰减系数,将该属性值的可信度进行衰减处理;对于可信度衰减的属性值,依据相同主体关联的相同属性值的生成时间,若在至少一个可信度高于预设的可信度判定阈值的数据源中再次出现,则将该属性值的可信度恢复为衰减前的可信度取值。

在本发明具体实施例中,第一种调整属性值可信度的情形,以时间角度出发。时间阈值可以全局统一设定,也可以针对数据源关联的时间阈值分别设定。可以理解的是,若同一属性值长时间未再次出现,则可以认为该属性值具有偶然性,可信度较低,进而依据时间衰减系数和预设公式,对该属性值的可信度进行衰减处理。

本实施例中,可信度判定阈值可以为预先设定的,用于确定可信度较高的数据源。在数据可信度初始评估时,可信度高于预设的可信度判定阈值的数据源可以为预先设定的可信度较高的等级对应的数据源,例如一等级的数据源。在数据可信度迭代的过程中,可以依据数据源的可信度与可信度判断阈值的比较,确定数据源是否被视为可信度较高的数据源。可以理解的是,对于可信度衰减的属性值,若在可信度较高的数据源中再次出现,基于对数据源的可信性,则可以认为该属性值的可信度较高,进而将该属性值的可信度恢复为衰减前的可信度取值。

示例性的,对于可信度较低的属性值,可以依据如下可信度衰减公式对可信度进行衰减处理:其中,m减(oipjnk)表示属性值oipjnk的衰减后的可信度,p表示基本的时间衰减系数,tnow表示当前的时间,tlast表示该属性值最后一次出现的时间,且满足tnow-tlast>t,其中t表示时间阈值。假设属性值oipjnk在一等级的数据源再次出现,则恢复属性值oipjnk的可信度m减(oipjnk)为m(oipjnk)。

可选的,在至少一个可信度高于预设的可信度判定阈值的数据源中,若同一主体下有新种类的唯一值属性出现,则依据时间衰减系数,将至少两个数据源中的非唯一值属性的原属性值的可信度进行衰减处理;对时间衰减系数进行放大处理,依据放大后的时间衰减系数,将至少两个数据源中的除了新种类的唯一值属性以外的各唯一值属性的原属性值的可信度进行衰减处理。

在本发明具体实施例中,第二种调整属性值可信度的情形,以同一主体下属性的数量角度出发。首先,对于基本属性以外的属性可以称之为拓展属性,针对各数据源中描述主体的拓展属性,将通常只能去一个唯一的值用来描述主体的属性称之为唯一值属性,相应的,非唯一值属性表示对于同一主体的某个属性,可以同时存在多个值用来描述主体的属性。鉴于在属性种类中,非唯一值属性无法很好的体现数据源的可信度,故在第二种情形中只以唯一值属性为属性值可信度的调整依据。

本实施例中,在数据可信度初始评估时,可信度高于预设的可信度判定阈值的数据源可以为预先设定的可信度较高的等级对应的数据源,例如一等级的数据源。在数据可信度迭代的过程中,可以依据数据源的可信度与可信度判断阈值的比较,确定数据源是否被视为可信度较高的数据源。可以理解的是,对属性的唯一性和非唯一性进行识别。对于唯一性属性来说,若在可信度较高的数据源的同一主体下,有新种类的唯一值属性出现,则可以认为该属性值的可信度较高,并依据出现次数统计按照公式确定该属性值的初始可信度。相应的,依据可信度衰减公式和基本的时间衰减系数,对所有数据源中的非唯一值属性的原属性值的可信度进行衰减处理。同时对时间衰减系数进行放大处理,例如p×2,依据可信度衰减公式和放大后的时间衰减系数,对于所有数据源中,除了新种类的唯一值属性以外的所有唯一值属性,将其原属性值的可信度进行衰减处理。

示例性的,表a包括主体甲,主体甲包括属性a和b;表b也包括主体甲,主体甲包括属性a、b和c。且表a和表b的可信度均高于可信度判断阈值,属性a为唯一值属性,属性b和c为非唯一值属性。则若表a的主体甲中出现了唯一值属性d,则对表a和表b中主体甲的属性b和c的属性值的可信度进行衰减处理,并将对表a和表b中主体甲的属性a的属性值的可信度进行大幅度衰减处理。

可选的,在除了出现目标属性值的数据源以外的至少一个数据源中,确定与目标属性值相同属性最后一次出现的待比较值;依据目标属性值与待比较值的比较结果,以及出现目标属性值的数据源关联的可信次数阈值,对各数据源中各主体关联的属性值的可信度进行调整。

在本发明具体实施例中,在所有数据源中,确定相同主体关联的相同属性下全局最后一次出现的属性值,由于出现时间距离当前最近,故可以视为可靠性较强,称之为目标属性值。进而在除了出现目标属性值的数据源以外的其他数据源中,确定与目标属性值相同属性的最后一次出现的待比较属性值。若待比较属性值均与目标属性值相同,则视为该属性值的可靠性较高,对所有数据源中,目标属性值关联的主体下,与目标属性值取值相同的属性值的可信度进行加分处理。

然而,若待比较属性值与目标属性值不完全相同,则在除了出现目标属性值的数据源以外的其他各个数据源中,统计目标属性值关联的主体下,与目标属性值取值相同的属性值的出现次数。先以出现目标属性值的数据源的数据源等级为准,确定该数据源等级关联的可信次数阈值。并判断其他各个数据源的出现次数是否达到该可信次数阈值。其中,若其他各个数据源中存在比出现目标属性值的数据源的数据源等级高的数据源,则以较高的数据源关联的可信次数阈值为比较基准。

进而若其他各个数据源中与目标属性值取值相同的属性值的出现次数均达到该可信次数阈值,则视为目标属性值以及与目标属性值取值相同的属性值可信,并对待比较属性值与目标属性值不相同的属性值的可信度进行减分处理。若其他各个数据源中与目标属性值取值相同的属性值的出现次数没有完全达到该可信次数阈值,则视为目标属性值以及与目标属性值取值相同的属性值不可信,并对目标属性值以及与目标属性值取值相同的属性值的可信度进行减分处理。

值得注意的是,可以对达到可信次数阈值的数据源进行比例阈值限定,相应的,在存在满足该比例阈值的数据源达到可信次数阈值,则视为该属性值可信,反而视为不可信,并进行相应处理。例如,假设比例阈值为80%,若存在80%的数据源中统计的出现次数达到可信次数阈值,则视为该属性值可信,反而视为不可信。而不局限于上述完全达到和未完全达到的绝对情况。

示例性的,假设表a包括主体甲,主体甲包括属性a,对应在时间00:00时生成属性值为a1,在时间00:11时生成属性值为a2。假设表b包括主体甲,主体甲包括属性a,对应在时间00:50时生成属性值为a3,在时间00:43时生成属性值为a4,在时间01:05时生成属性值为a5。假设表c包括主体甲,主体甲包括属性a,对应在时间01:25时生成属性值为a6。

首先在所有数据源中,依据相同主体关联的相同属性的属性值的生成时间,确定属性a在全局下最后一次出现的目标属性值,即表c中的属性值a6。其次确定除了出现属性值a6的数据源之外的各数据源中,属性a在各自的数据源中最后一次出现的待比较值,即表a为a2,表b为a5。

若a6=a2=a5,则对表a、表b和表c中,主体甲的属性a下,与属性值a6取值相同的属性值的可信度进行加分处理。

若a6=a2,但是a6≠a5,即待比较属性值与目标属性值不完全相同,则分别统计在表a和表b中,主体甲的属性a下,与属性值a6取值相同的属性值的出现次数,并于待比较的数据源中等级最高的数据源关联的可信次数阈值进行比较。

若表a和表b的统计次数均达到该可信次数阈值,则视为属性值a6以及与a6取值相同的属性值可信,并对属性值a5以及与a5取值相同的属性值的可信度进行减分处理。

若表a和表b的统计次数不完全达到该可信次数阈值,并假设表a中的a1≠a2,则表a的统计次数为1;假设表a的数据源等级为三,其关联的可信次数阈值为10。假设表b中的a3=a4=a5,则表b的统计次数为3;假设表b的数据源等级为一,其关联的可信次数阈值为3。同时假设表c的数据源等级为二,其关联的可信次数阈值为5。进而首先以表c关联的可信次数阈值为基准,将表a的统计次数1和表b的统计次数3分别与可信次数阈值5进行比较。其中,由于表b的数据源等级高于表c,因此调整比较时的可信次数阈值为3。因此,表a的统计次数1未达到可信次数阈值3,表b的统计次数3达到可信次数阈值3,则视为属性值a6以及与a6取值相同的属性值不可信,对属性值a2、a3、a4、a5和a6的可信度进行减分处理。

步骤230、依据各主体关联的各属性值的可信度,确定各主体的可信度;依据各数据源关联的各主体的可信度,确定各数据源的可信度。

在本发明具体实施例中,鉴于一个数据源中可以包括至少一个主体,一个主体可以由至少一个属性构成,一个属性可以由至少一个属性值来描述。因此在确定并调整所有数据源中各主体关联的各属性值的可信度之后,各主体关联的各属性值的可信度决定了各主体的可信度,各数据源关联的各主体的可信度决定了各数据源的可信度。可以通过预设的计算规则进行可信度的叠待。

示例性的,可以计算各数据源中各主体关联的各属性值可信度的均值,作为该数据源下该主体的可信度,并可以计算各数据源中各主体可信度的均值,作为该数据源的可信度。

步骤240、依据各数据源中各主体关联的属性值的可信度、各数据源的可信度以及数据源与属性值的关联关系,确定各属性值受关联数据源反馈后的可信度。

在本发明具体实施例中,各单一数据源中的各属性值的可信度,可以受到对应数据源的可信度的影响。可以通过预设的计算规则依据数据源的可信度对关联的各属性值的可信度进行调整。

示例性的,可以计算属性值可信度与关联的数据源可信度的乘积,作为该属性值的可信度。假设表a的可信度为m(a),表a的主体甲包括属性a,其属性值为a1,属性值a1的可信度为m(a1)。假设表b的可信度为m(b),表b的主体甲包括属性a,其属性值为a2,属性值a2的可信度为m(a2)。假设表c的可信度为m(c),表c的主体甲包括属性a,其属性值为a1,属性值a1的可信度为m(a1)。相应的,属性值在受到关联的数据源可信度影响下,表a的属性值a1的可信度为m(a1)×m(a),表b的属性值a2的可信度为m(a2)×m(b),表c的属性值a1的可信度为m(a1)×m(c)。

步骤250、依据各属性值受关联数据源反馈后的可信度,确定至少两个数据源进行数据融合后,相同主体关联的相同属性下不同属性值的综合可信度。

在本发明具体实施例中,对所有数据源中的相同主体及其相同属性的属性值进行整合,可以通过预设的计算规则对相同属性值的综合可信度进行计算,在融合后的数据中只有一套用于描述主体的属性值,且保留相同属性下的不同取值,并标注对应的综合可信度。

示例性的,在上述示例中,由于表a的主体甲关联的属性值a1与表c的主体甲关联的属性值a1,可以通过取均值的方式确定属性值a1的综合可信度,得到融合后的数据中,主体甲的属性a下的属性值a1的综合可信度为[m(a1)×m(a)+m(a1)×m(c)]/2。因此,最终融合后的数据中,主体甲的属性a包含两个不同的取值a1和a2,且标注属性值a1的综合可信度为[m(a1)×m(a)+m(a1)×m(c)]/2,标注属性值a2的综合可信度为m(a2)×m(b)。进而依据各属性值的综合可信度,便于后期对数据的分析和处理。例如通过对属性值a1的综合可信度和属性值a2的综合可信度进行比较,保留冲突数据中可信度最高的数据。

本实施例的技术方案,依据相同主体关联的相同属性值在全局下的出现次数,确定各属性值的初始可信度。其次依据全局中属性值的出现情况,当长时间未出现同一属性值时,以及长时间未出现的属性值在可信度较高的数据源中再次出现时,或者全局中相同主体下有新种类的唯一值属性出现,或者依据相同属性下全局最后一次出现的属性值,对各属性值的初始可信度进行调整。然后依据各属性值的可信度确定了关联的各主体的可信度,各主体的可信度确定了关联的各数据源的可信度。从而数据源的可信度对关联的属性值的可信度进行反馈调节,确定了各属性值在各自数据源中的综合可信度。最终依据各属性值的综合可信度进行多源数据融合,整合相同属性值的可信度,且保留同一属性下的不同取值,并为不同的属性值标注有整合后的可信度,获得融合后的数据。实现了多源数据融合过程中对相同主体关联的属性值的可信度进行有效评估,为数据融合后同一属性下的不同取值提供了可信度评判依据,从而在数据融合产生数据冲突时,提高对数据可信度判断的决策力和效率。

实施例三

图3为本发明实施例三提供的一种数据可信度评估装置的结构示意图,本实施例可适用于在多数据源融合过程中对数据的可信度进行评估的情况,该装置可实现本发明任意实施例所述的数据可信度评估方法。该装置具体包括:

属性值可信度确定模块310,用于依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度;

数据源可信度确定模块320,用于依据各数据源中各主体关联的属性值的可信度,确定各数据源的可信度;

综合数据可信度评估模块330,用于依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。

可选的,所述属性值可信度确定模块310包括:

初始可信度确定单元3101,用于依据属性值的生成时间,确定至少两个数据源中相同主体关联的相同属性值的出现次数,并依据各属性值的出现次数,确定各属性值的可信度;

可信度调整单元3102,用于依据至少两个数据源中相同主体关联的相同属性值的生成时间、属性种类数量、或者相同属性最后一次出现的目标属性值,调整各数据源中各主体关联的属性值的可信度。

可选的,所述可信度调整单元3102具体用于:

在至少两个数据源中,依据相同主体关联的相同属性值的生成时间,对于在预设时间阈值之内未再出现的属性值,则依据时间衰减系数,将该属性值的可信度进行衰减处理;

对于可信度衰减的属性值,依据相同主体关联的相同属性值的生成时间,若在至少一个可信度高于预设的可信度判定阈值的数据源中再次出现,则将该属性值的可信度恢复为衰减前的可信度取值。

可选的,所述可信度调整单元3102具体用于:

在至少一个可信度高于预设的可信度判定阈值的数据源中,若同一主体下有新种类的唯一值属性出现,则依据时间衰减系数,将至少两个数据源中的非唯一值属性的原属性值的可信度进行衰减处理;

对所述时间衰减系数进行放大处理,依据放大后的时间衰减系数,将至少两个数据源中的除了新种类的唯一值属性以外的各唯一值属性的原属性值的可信度进行衰减处理。

可选的,所述可信度调整单元3102具体用于:

在除了出现目标属性值的数据源以外的至少一个数据源中,确定与目标属性值相同属性最后一次出现的待比较值;

依据目标属性值与待比较值的比较结果,以及出现目标属性值的数据源关联的可信次数阈值,对各数据源中各主体关联的属性值的可信度进行调整。

可选的,所述数据源可信度确定模块320具体用于:

依据各主体关联的各属性值的可信度,确定各主体的可信度;

依据各数据源关联的各主体的可信度,确定各数据源的可信度。

可选的,所述综合数据可信度评估模块330包括:

可信度反馈单元3301,用于依据各数据源中各主体关联的属性值的可信度、各数据源的可信度以及数据源与属性值的关联关系,确定各属性值受关联数据源反馈后的可信度;

数据融合单元3302,用于依据各属性值受关联数据源反馈后的可信度,确定至少两个数据源进行数据融合后,相同主体关联的相同属性下不同属性值的综合可信度。

本实施例的技术方案,通过各个功能模块之间的相互配合,实现了属性值出现次数的统计、属性值初始可信度的确定、属性值出现时间的监测、属性类别的判断、属性值可信度的调整、主体可信度的确定、数据源可信度的确定、数据源可信度的反馈调节以及数据的融合等功能。本发明实施例通过数据间的关联关系,实现了多源数据融合过程中对相同主体关联的属性值的可信度进行有效评估,提高多源数据融合过程中数据冲突时对数据可信度判断的决策力和效率。

实施例四

图4为本发明实施例四提供的一种设备的结构示意图。如图4所示,该设备具体包括:一个或多个处理器410,图4中以一个处理器410为例;存储器420,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器410执行,使得一个或多个处理器410实现本发明任意实施例所述的数据可信度评估方法。处理器410与存储器420可以通过总线或其他方式连接,图4中以通过总线连接为例。

存储器420,作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据可信度评估方法对应的程序指令(例如,属性值可信度的确定与调整以及多数据源可信度的确定与反馈调节)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的数据可信度评估方法。

存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例五

本发明实施例五还提供一种计算机可读存储介质,其上存储有计算机程序(或称为计算机可执行指令),该程序被处理器执行时用于执行一种数据可信度评估方法,该方法包括:

依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度;

依据各数据源中各主体关联的属性值的可信度,确定各数据源的可信度;

依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。

当然,本发明实施例所提供的一种计算机可读存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据可信度评估方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明实施例可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明实施例进行了较为详细的说明,但是本发明实施例不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1