真值发现方法、装置

文档序号:35342270发布日期:2023-09-07 12:48阅读:62来源:国知局
真值发现方法、装置

本公开涉及数据集成,尤其涉及一种真值发现方法、装置。


背景技术:

1、随着互联网的蓬勃发展,各种新兴技术在带给人们便利的同时,也产生了海量的数据信息。但产生这些数据信息的设备质量参差不齐,关注领域各不相同,同一实体往往处于多个数据源的观察下并被割裂的投影在数据空间中。为了对这些具备隐藏关联的低质量海量多源异构数据信息进行深度挖掘分析,大多采用数据融合方法将这些数据信息加以关联治理以充分释放其价值。而在数据融合的过程中,受到数据收集过程中的遮挡、模糊、过期等数据冲突问题的影响,数据信息的准确性、完整性无法得到保证,因此,常采用真值发现解决数据冲突问题。

2、真值发现主要是指从多个数据源对目标的不同描述(即数据冲突)中筛选出真实声明及可靠数据源。现有真值发现工作大多集中于数据源与声明之间的初步对应关系,缺失了数据源、声明之间更进一层的潜在的协同关系以及数据源观察倾向带来的差异对抗信息,使得学习得到的可靠数据源、真实声明与其他数据源、声明在高维空间中区分度不明显,最终实际区分效果较差。


技术实现思路

1、鉴于上述问题,本公开提供一种真值发现方法、装置,以解决现有真值发现技术中缺乏数据源、声明之间更进一层的潜在的协同关系以及数据源观察倾向带来的差异对抗信息,使得最终实际区分效果较差的问题。

2、本公开的第一方面提供了一种真值发现方法,包括:

3、基于数据源与数据源针对目标提出的声明,构建数据源-声明二分图;

4、基于所述数据源-声明二分图,利用多跳图注意力网络,获取所述数据源-声明二分图中的节点的高阶节点信息;

5、基于预提取的所述数据源的对抗信息与所述高阶节点信息,获取真值发现的结果。

6、根据本公开的实施例,所述利用多跳图注意力网络,获取所述数据源-声明二分图中的节点的高阶节点信息包括:

7、利用多跳图注意力网络,获取所述节点的直接注意力信息;

8、基于所述直接注意力信息,获取所述节点的扩散注意力信息;

9、聚合所述节点的所述扩散注意力信息,得到所述节点的高阶节点信息。

10、根据本公开的实施例,所述数据源的对抗信息通过预设的损失函数提取相应的对抗数据源得到,互为所述对抗数据源的两个所述数据源针对同一目标提出的所述声明不同。

11、根据本公开的实施例,所述聚合所述节点的所述扩散注意力信息,得到所述节点的高阶节点信息包括:

12、基于所述节点与所述节点的多跳节点的距离,为所述节点的多跳节点设置权重系数;

13、基于所述权重系数,聚合所述节点的所述扩散注意力,得到所述节点的高阶节点信息。

14、根据本公开的实施例,所述节点的多跳节点与所述节点的距离越远,所述节点的多跳节点的所述权重系数越小。

15、根据本公开的实施例,所述数据源的数量为p个,所述声明的数量为q个,所述构建数据源-声明二分图包括:

16、构建数据源-声明矩阵,所述数据源-声明矩阵为p行q列,所述数据源声明-矩阵中包括p*q个元素,当第i个数据源提出了m次第j个声明,则所述数据源-声明矩阵中的第i行第j列的元素为m,其中,i∈p,j∈q,p和q均为正整数,m为非负整数;

17、基于所述数据源-声明矩阵,获取数据源表征;

18、基于数据源与声明之间的对应关系,预训练得到声明表征;

19、以数据源集合与声明集合为子集,以所述数据源与所述声明的对应关系为边,以所述数据源表征为数据源节点属性,以所述声明表征为声明节点属性,构建得到数据源-声明二分图,所述数据源集合包括p个所述数据源,所述声明集合包括q个所述声明。

20、根据本公开的实施例,所述基于预提取的所述数据源的对抗信息与所述高阶节点信息,获取真值发现的结果包括:

21、构造真值发现变分自编码器;

22、基于所述变分自编码器,获取所述数据源的可靠性特征;

23、基于预设的可学习真值,获取所述声明的可信度特征;

24、基于所述可靠性特征以及所述可信度特征,解码得到真值发现的结果。

25、本公开的第二方面提供了一种真值发现装置,包括:

26、构建模块,用于基于数据源与数据源针对目标提出的声明,构建数据源-声明二分图;

27、第一获取模块,用于基于所述数据源-声明二分图,利用多跳图注意力网络,获取所述数据源-声明二分图中的节点的高阶节点信息;

28、第二获取模块,用于基于预提取的所述数据源的对抗信息与所述高阶节点信息,获取真值发现的结果。

29、本公开提供了一种真值发现方法、装置,通过图注意力网络使得各节点间的扩散注意力信息得到利用,同时结合扩散注意力信息与各数据源之间的对抗信息,在特征空间中生成更贴合的数据源以及声明表示,提升了变分自编码器对于可靠数据源与真实声明的区分能力,提高了真值发现的准确性。



技术特征:

1.一种真值发现方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述利用多跳图注意力网络,获取所述数据源-声明二分图中的节点的高阶节点信息包括:

3.根据权利要求1所述的方法,其特征在于,所述数据源的对抗信息通过预设的损失函数提取相应的对抗数据源得到,互为所述对抗数据源的两个所述数据源针对同一目标提出的所述声明不同。

4.根据权利要求2所述的方法,其特征在于,所述聚合所述节点的所述扩散注意力信息,得到所述节点的高阶节点信息包括:

5.根据权利要求4所述的方法,其特征在于,所述节点的多跳节点与所述节点的距离越远,所述节点的多跳节点的所述权重系数越小。

6.根据权利要求1所述的方法,其特征在于,所述数据源的数量为p个,所述声明的数量为q个,所述构建数据源-声明二分图包括:

7.根据权利要求1所述的方法,其特征在于,所述基于预提取的所述数据源的对抗信息与所述高阶节点信息,获取真值发现的结果包括:

8.一种真值发现装置,其特征在于,包括:


技术总结
本公开提供了一种真值发现方法,可以应用于数据集成技术领域。该方法包括:基于数据源与数据源针对目标提出的声明,构建数据源‑声明二分图;基于所述数据源‑声明二分图,利用多跳图注意力网络,获取所述数据源‑声明二分图中的节点的高阶节点信息;基于预提取的所述数据源的对抗信息与所述高阶节点信息,获取真值发现的结果。通过图注意力网络使得各节点间的扩散注意力信息得到利用,同时结合扩散注意力信息与各数据源之间的对抗信息,在特征空间中生成更贴合的数据源以及声明表示,提升了对于可靠数据源与真实声明的区分能力,提高了真值发现结果的准确性。本公开还提供了一种真值发现装置。

技术研发人员:王轶,张国昊,周喜,马玉鹏,赵凡,王保全,薛化建,韩云飞
受保护的技术使用者:中国科学院新疆理化技术研究所
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1