基于量子计算的知识图谱补全方法、装置和系统

文档序号:31869863发布日期:2022-10-21 18:40阅读:212来源:国知局
基于量子计算的知识图谱补全方法、装置和系统

1.本发明涉及大数据、人工智能与知识图谱技术领域,尤其涉及基于量子计算的知识图谱补全方法、装置和系统。


背景技术:

2.知识图谱由点(实体)和边(实体间的关系)组成,广泛应用于知识驱动的ai任务,如问答模型、推荐系统、搜索引擎等等。但是,现实世界中的知识图谱总是不完备的,缺失了很多必要的边。这个问题会极大影响下游相关算法的性能。知识图谱嵌入(kge)是预测缺失边的有效方法,这个任务称为链接预测任务。因此,利用kge模型预测知识图谱中缺失的边,补全知识图谱,使得知识更完善,对提升下游任务的性能具有特殊意义。
3.基于量子的kge是量子力学在知识表示领域的应用。最经典的两种基于量子的kge包括qce和f-qce。
4.qce将实体的隐信息作为参数构建量子态,预测过程就是参数化量子门作用于量子态的过程。一个三元组的分数取决于对量子态的测量。但是,测量会导致信息丢失,继而量子优势(即量子力学的概率解释导致的量子态和量子门的规范化约束)会随着模型优化而消失。
5.qce通过作用于纯态量子态上的参数化量子门生成实体嵌入。实体嵌入可以高效训练,而且可以保证量子优势。然而,它会面临参数爆炸,因为制备多个量子态是很昂贵的。
6.另外,这两类方法在知识图谱补全(kgc)任务上性能不佳。


技术实现要素:

7.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
8.为此,本发明的第一个目的在于提出一种基于量子计算的知识图谱补全方法,将知识图谱数据源抽象化为描述数据,并自动化运行补全装置来补全知识图谱,自动发布补全后的知识图谱为数据服务,使得第三方能方便获取完整的大规模知识图谱数据资源,并且模型能够保持量子优势,而且轻量级,性能更高。
9.本发明的第二个目的在于提出一种基于量子计算的知识图谱补全装置。
10.本发明的第三个目的在于提出一种基于量子计算的知识图谱补全装置的数据服务系统。
11.为达上述目的,本发明第一方面提出了基于量子计算的知识图谱补全方法,包括以下步骤:
12.输入三元组,将头实体和尾实体表示为量子态将关系表示为量子门,根据预设规则初始化量子参数,生成特定于实体的量子态和特定于关系的量子门;基于特定于实体的量子态和特定于关系的量子门将三元组的头实体通过关系映射到目标希尔伯特空间中,以将量子门应用到量子态上执行量子计算,获得预测的实体嵌入表示;将预测的实体嵌入表示和知识图谱中所有实体的嵌入表示进行距离计算,通过损失函数进行优化,以对知识图
谱进行补全。
13.本发明实施例的基于量子计算的知识图谱补全方法,基于知识图谱补全模型qubite,能够保持量子优势,而且本模型是轻量级、高性能的,使得第三方能方便获取完整的大规模知识图谱数据资源。
14.本发明的第二个方面提出了一种基于量子计算的知识图谱补全装置,包括:
15.参数初始化模块,用于输入三元组,将头实体和尾实体表示为量子态将关系表示为量子门,根据预设规则初始化量子参数,生成特定于实体的量子态和特定于关系的量子门;
16.量子计算模块,用于基于特定于实体的量子态和特定于关系的量子门将三元组的头实体通过关系映射到目标希尔伯特空间中,以将量子门应用到量子态上执行量子计算,获得预测的实体嵌入表示;
17.知识图谱补全模块,用于将预测的实体嵌入表示和知识图谱中所有实体的嵌入表示进行距离计算,通过损失函数进行优化,以对知识图谱进行补全。
18.本发明实施例的基于量子计算的知识图谱补全装置,基于知识图谱补全模型qubite,能够保持量子优势,而且本模型是轻量级、高性能的,使得第三方能方便获取完整的大规模知识图谱数据资源。
19.本发明的第三个方面提出了一种基于量子计算的知识图谱补全装置的数据服务系统,包括:
20.待补全知识图谱数据源管理模块,用于根据多个知识图谱数据源获取知识图谱原始数据;
21.数据管理模块,用于读取存储在服务器端的知识图谱原始数据,经过数据转换生成第一知识图谱数据,对第一知识图谱数据合并得到第二知识图谱数据;
22.知识补全模块,用于基于知识图谱补全装置,利用第二知识图谱数据,对知识图谱嵌入表示模型进行迭代训练,利用训练好的知识图谱嵌入表示模型进行预测获得预测的三元组,将第二知识图谱数据和预测的三元组融合输出得到第三知识图谱数据;
23.已补全知识图谱管理模块,用于接受并发布第三知识图谱数据。
24.本发明实施例的基于量子计算的知识图谱补全装置的数据服务系统,基于知识图谱补全模型qubite,能够保持量子优势,而且本模型是轻量级、高性能的,使得第三方能方便获取完整的大规模知识图谱数据资源。
25.本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
26.本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
27.图1为根据本发明实施例的基于量子计算的知识图谱补全方法的流程图;
28.图2为根据本发明实施例的基于量子计算的知识图谱补全的架构图;
29.图3为根据本发明实施例的基于量子计算的知识图谱补全装置的结构示意图;
30.图4为根据本发明实施例的基于量子计算的知识图谱补全装置的数据服务系统示
意图;
31.图5为图4数据服务系统的模块示意图。
具体实施方式
32.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
33.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
34.下面参照附图描述根据本发明实施例提出的基于量子计算的知识图谱补全方法、装置和系统,首先将参照附图描述根据本发明实施例提出的基于量子计算的知识图谱补全方法。
35.图2为基于量子计算的知识图谱补全架构图,如图2所示,图中上部分是一个量子线路,解释了知识图谱补全方法qubite的量子计算模块和评分模块;下部分是另一个量子线路,其中x是量子逻辑门not门,解释了如何操作实体语义而不需要关系的参与,可以创造新实体not(h),在实体语义空间中它的语义与h实体的语义恰好相反。在图2中,主要包括3个部分:量子计算模块、三元组评分模块、量子态和量子门制备模块。量子计算模块:进行量子计算,负责将特定于关系的量子门作用在特定于实体的量子态上,提供作用后的量子态,即所预测的实体嵌入表示。三元组评分模块:进行三元组评分,负责基于量子计算模块所预测的嵌入表示和知识图谱中每个实体的嵌入表示来计算三元组评分,选举出最高评分的三元组用于补全。量子态和量子门制备模块:辅助模块,负责量子计算模块内的量子态和量子门的初始化。该模块可以保证所制备的量子态和量子门满足规范化约束,因而具有量子优势。
36.图1是本发明一个实施例的基于量子计算的知识图谱补全方法的流程图。
37.如图1所示,该基于量子计算的知识图谱补全方法包括以下步骤:
38.s1,输入三元组,将头实体和尾实体表示为量子态将关系表示为量子门,根据预设规则初始化量子参数,生成特定于实体的量子态和特定于关系的量子门。
39.作为一种示例,该步骤用来进行量子态和量子门制备。
40.具体的,为了高效制备量子态和量子门,确保在模型优化的过程中模型能保持量子优势,本发明提出量子态和量子门制备模块。这是一个辅助模块,用于加速模型收敛,并提高模型性能。实体参数的初始化使用以下规则:
41.a
real
=cos(θ)
42.a
img
=sin(θ)cos(φ)
43.b
real
=sin(θ)sin(φ)cos(φ)
44.b
img
=sin(θ)sin(φ)sin(φ)
45.其中a
real
,a
img
,b
real
,b
img
是分别是a和b的实值部分和虚值部分。θ,φ,φ是从区间[-π,π]中随机取样生成的。关系参数的初始化是基于实体参数初始化方法的拓展。参数a和
b和实体参数初始化方法一样,角度ψ是从区间[-π,π]中随机取样生成的。
[0046]
以根据预设规则初始化量子参数,生成特定于实体的量子态和特定于关系的量子门。
[0047]
s2,基于特定于实体的量子态和特定于关系的量子门将三元组的头实体通过关系映射到目标希尔伯特空间中,以将量子门应用到量子态上执行量子计算,获得预测的实体嵌入表示。
[0048]
具体的,给定一个三元组(h,r,t),其中头实体h,关系r,尾实体t。头尾实体h和t被嵌入到d维希尔伯特空间中,其d维向量的每个元素是一个2维的复向量;关系r被嵌入为d维向量r,向量r的每个元素是2x2的复酉矩阵。r包含两个复向量ra和rb。我们用r
ai
,r
bi
,h
ai
,h
bi
,t
ai
,t
bi
分别表示ra,rb,ha,hb,ta,tb的第i个元素。
[0049]
进一步地,本发明实施例地实体在希尔伯特空间中的量子态表示方法。实体嵌入向量h的第i位元素为:
[0050][0051][0052]
其中d是嵌入维度,h
ai
,且|h
ai
|2+|h
bi
|2=1,使得h=[h1,h2,...,hd]。
[0053]
实体h对应的密度矩阵为:
[0054][0055]
本发明实施例的特定于关系的量子门,它将头实体h映射到目标希尔伯特空间的特定于关系的变换。因为量子门是酉的,将关系嵌入向量r的第i个元素参数化酉矩阵写为:
[0056][0057]
其中d是嵌入维度,r
ai
,且|r
ai
|2+|r
bi
|2=1,使得r=[r1,r2,...,rd]。这意味着行列式即可逆。
[0058]
将量子门应用到量子态上以执行量子计算,也就是将将特定一关系的变换r应用到头实体h。本发明使用元素级变换,即对每位元素计算矩阵乘法:
[0059][0060]
转化后的量子态即为hr=[h
r1
,h
r2


,h
rd
]。
[0061]
s3,将预测的实体嵌入表示和知识图谱中所有实体的嵌入表示进行距离计算,通过损失函数进行优化,以对知识图谱进行补全。
[0062]
具体地,本发明使用的量子态和量子门位于超复数空间中,不需要实际地测量量子态,而是通过核方法区分量子态。知识图谱中的三元组分数是关系变换作用于头实体后的预测量子态hr和尾实体t的相似度《hr,t》。在训练过程中,对正例三元组最大化相似度,对
负例三元组我们最小化相似度。
[0063]
本发明采用的距离函数为:
[0064][0065]
其中re(x)是二维复向量的实值部分。是元素级内积,按向量的每个元素执行内积。
[0066]
进一步地,为了优化模型,本发明将链接预测任务建模分类任务。本发明实施例所优化的损失函数为:
[0067][0068]
其中γ是超参数,k是负样本数,(hi,ri,ti)是第i个负样本三元组,σ是sigmoid函数,p(hi,ri,ti)是采样到的负样本的分布函数,它依赖于负采样策略。本发明实施例采用均匀采样策略,即从正样本三元组以外的三元组中均匀地采样k个负样本。
[0069]
最终计算三元组评分,选出最高评分的三元组,基于最高评分的三元组对知识图谱进行补全。
[0070]
根据本发明实施例的基于量子计算的知识图谱补全方法,基于知识图谱补全模型qubite,能够保持量子优势,而且本模型是轻量级、高性能的,使得第三方能方便获取完整的大规模知识图谱数据资源。
[0071]
为了实现上述实施例,如图3所示,本实施例第二方面还提供了一种基于量子计算的知识图谱补全装置10,该装置10包括:参数初始化模块100,量子计算模块200,知识图谱补全模块300。
[0072]
参数初始化模块100,用于输入三元组,将头实体和尾实体表示为量子态将关系表示为量子门,根据预设规则初始化量子参数,生成特定于实体的量子态和特定于关系的量子门;
[0073]
量子计算模块200,用于基于特定于实体的量子态和特定于关系的量子门将三元组的头实体通过关系映射到目标希尔伯特空间中,以将量子门应用到量子态上执行量子计算,获得预测的实体嵌入表示;
[0074]
知识图谱补全模块300,用于将预测的实体嵌入表示和知识图谱中所有实体的嵌入表示进行距离计算,通过损失函数进行优化,以对知识图谱进行补全。
[0075]
作为一种实施例,假设知识图谱以三元组的形式存储,该知识图谱包含一个三元组(苹果,颜色,红色),其中“苹果”和“红色”分别是头实体和尾实体,“颜色”是关系。模型训练过程中,给出头实体“苹果”和关系“颜色”,希望能预测出尾实体“红色”。首先将“苹果”和“红色”分别嵌入为量子态,设为h
苹果
和t
红色
,将“颜色”嵌入为量子门,设为r
颜色
。然后将量子门作用在头实体上,得到用于预测的量子态t
预测
=r
颜色h苹果
。最后通过三元组评分模块200,将预测的量子态和所有实体的量子态进行评分,如果某个实体是目标实体,即实体“红色”,那么该分数接近于1;否则不是目标实体的分数接近于0。评分最高的实体就是我们预测出的实体。模型经过训练后,预测出的实体以较高的概率就是目标实体。
[0076]
根据本发明实施例的基于量子计算的知识图谱补全装置,基于知识图谱补全模型qubite,能够保持量子优势,而且本模型是轻量级、高性能的,使得第三方能方便获取完整
的大规模知识图谱数据资源。
[0077]
为了实现上述实施例,如图4所示,本实施例第三方面还提供了一种基于量子计算的知识图谱补全装置的数据服务系统400,包括:
[0078]
待补全知识图谱数据源管理模块401,用于根据多个知识图谱数据源获取知识图谱原始数据;
[0079]
数据管理模块402,用于读取存储在服务器端的知识图谱原始数据,经过数据转换生成第一知识图谱数据,对第一知识图谱数据合并得到第二知识图谱数据;
[0080]
知识补全模块403,用于基于知识图谱补全装置,利用第二知识图谱数据,对知识图谱嵌入表示模型进行迭代训练,利用训练好的知识图谱嵌入表示模型进行预测获得预测的三元组,将第二知识图谱数据和预测的三元组融合输出得到第三知识图谱数据;
[0081]
已补全知识图谱管理模块404,用于接受并发布第三知识图谱数据。
[0082]
具体的,本发明的数据服务系统400,如图5所示,系统分为四个主要模块:
[0083]
待补全知识图谱数据源管理模块401:保存、管理多个知识图谱数据源,作为代理,从真实数据源获取知识图谱原始数据,供数据管理模块使用。这个模块不保存知识图谱数据,而是保存数据源的描述数据。数据管理模块402将按照数据源的描述,委托模块401请求源数据,再转发回数据管理模块402。
[0084]
数据管理模块402:提供数据读取,数据转换,数据传输三项核心功能。数据读取主要是为了获取存储在服务器端的待补全的知识图谱数据,然后经过数据转换生成补全方法的输入数据格式,最后将这些数据传输到知识融合模块进行合并。
[0085]
知识补全模块403:提供训练模块、预测模块、补全模块三大核心模块。训练模块是使用上述基于量子计算的知识图谱补全方法及装置,利用处理好的知识图谱数据,进行迭代训练,使得模型具有补全知识图谱的能力。预测模块利用训练好模型进行预测,获得模型预测的三元组。补全模块根据预测结果,将知识图谱数据和预测的三元组融合为一个知识图谱并输出。
[0086]
已补全知识图谱管理模块404:接受来自知识补全模块403的知识图谱数据,保存、管理这个统一的知识图谱的数据,提供描述自己作为数据源的描述数据,将该知识图谱发布为数据服务,供下游任务使用。
[0087]
作为一种示例,假设有两个数据源:源a和源b,分别位于服务器a和服务器b。
[0088]
服务器1运行待补全知识图谱数据源管理模块401,它保存的描述数据记录类似表1:
[0089][0090][0091]
表1
[0092]
服务器2运行数据管理模块402。
[0093]
服务器3运行知识补全模块403。
[0094]
服务器4运行已补全知识图谱管理模块404。
[0095]
数据服务系统的运行:
[0096]
1)服务器2向服务器1发起请求,获取所有数据源的描述数据,用于动态组装数据转换模块。接着委托服务器1依次请求源a的数据和源b的数据。
[0097]
2)服务器1将依次向123.123.123.1:8888和123.123.123.2:8888发起请求,并将数据转发给服务器2。
[0098]
3)服务器2接收服务器1的数据,执行数据读取模块、数据转换模块、数据传输模块,将原始的知识图谱数据转换为标准格式,再将标准格式的多个知识图谱数据转发给服务器3。
[0099]
4)服务器3接收服务器2的标准数据;首先运行训练模块,使神经网络模型具有补全知识图谱的能力;接着运行预测模块,让训练好的神经网络模型预测知识图谱中缺失的三元组;最后运行融合模块,将原知识图谱和预测的三元组融合为一个知识图谱,发送给服务器4。
[0100]
5)服务器4接收服务器3的统一知识图谱,将该知识图谱发布为数据服务。第三方可以订阅该服务,将该知识图谱拉取到他们的服务器上。服务器4可以作为数据源,继续为下一个知识图谱自动化补全的数据服务系统提供数据,以构建更大更完善的知识图谱。
[0101]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0102]
根据本发明实施例的基于量子计算的知识图谱补全装置的数据服务系统,基于知识图谱补全模型qubite,能够保持量子优势,而且本模型是轻量级、高性能的,使得第三方能方便获取完整的大规模知识图谱数据资源,可以应用在各类场景中的知识图谱自动补全任务中。
[0103]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0104]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1