一种数据处理方法、装置、设备及可读存储介质与流程

文档序号:33504304发布日期:2023-03-17 23:13阅读:25来源:国知局
一种数据处理方法、装置、设备及可读存储介质与流程

1.本技术涉及自然语言处理技术领域,尤其涉及一种数据处理方法、装置、设备及可读存储介质。


背景技术:

2.知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示。知识图谱作为人工智能的大脑,已经被广泛运用到搜索引擎、金融、医疗等领域。例如,在银行系统中构建知识图谱能够清晰的描述金融主体之间的关联关系,为银行业务开展以及风险预测等提供数据支持。
3.但是,随着知识图谱规模的逐渐扩大,知识图谱数据稀疏的问题愈加明显。


技术实现要素:

4.本技术提供了一种数据处理方法、装置、设备及可读存储介质,如下:
5.一种数据处理方法,包括:
6.生成知识图谱中的各个三元组第一向量表示,所述三元组的第一向量表示用于表征所述三元组的结构信息,所述三元组包括头实体、关系和尾实体;
7.生成各个所述三元组的第二向量表示,所述三元组的第二向量表示用于表征所述三元组的语义信息;
8.融合所述三元组的第一向量表示和第二向量表示,得到所述三元组的综合向量表示,所述综合向量表示包括头实体的综合向量、关系的综合向量以及尾实体的综合向量;
9.基于待预测实体对的综合向量以及所述待预测实体对的关系路径,获取所述待预测实体对的预测三元组,所述待预测实体对包括所述知识图谱中的第一实体和第二实体,所述待预测实体对的综合向量包括所述第一实体的综合向量和所述第二实体的综合向量。
10.可选地,生成知识图谱中的各个三元组第一向量表示,包括:
11.将所述三元组输入至预设的第一向量生成模型,得到所述第一向量生成模型输出的所述三元组的第一向量表示,所述三元组的第一向量表示包括头实体的第一向量、关系的第一向量、以及尾实体的第一向量;
12.其中,所述第一向量生成模型通过训练翻译模型得到,所述翻译模型的训练过程包括:
13.获取第一训练集合,所述第一训练集合包括正例训练集和负例训练集,所述正例训练集包括若干条正例三元组,所述负例训练集包括通过随机替换所述正例三元组的元素得到的负例三元组;
14.将关系作为头实体和尾实体的翻译操作,构建翻译模型的目标函数;
15.基于所述第一训练集合,采用梯度下降算法最优化所述翻译模型的目标函数,直至达到预设的训练目标,得到训练好的所述翻译模型。
16.可选地,三元组的第二向量表示包括头实体的第二向量、关系的第二向量、以及尾实体的第二向量;所述生成各个所述三元组的第二向量表示,包括:
17.将所述三元组的头实体描述信息输入至预设的第二向量生成模型,得到所述第二向量生成模型输出的所述三元组的头实体的第二向量;
18.将所述三元组的关系描述信息输入所述第二向量生成模型,得到所述第二向量生成模型输出的所述三元组的关系的第二向量;
19.将所述三元组的尾实体描述信息输入所述第二向量生成模型,得到所述第二向量生成模型输出的所述三元组的尾实体的第二向量;
20.其中,所述第二向量生成模型通过以训练文档为训练数据,训练doc2vec 模型得到,所述训练文档为预设的文档库中与所述知识图谱的属性信息匹配的预设文档。
21.可选地,融合所述三元组的第一向量表示和第二向量表示,得到所述三元组的综合向量表示,包括:
22.拼接所述三元组的头实体的第一向量和第二向量,得到所述三元组的头实体的综合向量;
23.拼接所述三元组的关系的第一向量和第二向量,得到所述三元组的关系的综合向量;
24.拼接所述三元组的尾实体的第一向量和第二向量,得到所述三元组的尾实体的综合向量;
25.组合所述三元组的头实体的综合向量、关系的综合向量、以及尾实体的综合向量,得到所述三元组的综合向量表示。
26.可选地,基于待预测实体对的综合向量以及所述待预测实体对的关系路径,获取所述待预测实体对的预测三元组,包括:
27.获取所述知识图谱中,所述待预测实体对的关系路径以及所述关系路径经过的有序关系序列;
28.基于所述关系路径经过的有序关系序列中各个关系的综合向量,获取所述关系路径的路径关系向量;
29.依据所述第一实体的综合向量、所述第二实体的综合向量、以及各个所述关系路径的路径关系向量,利用预先训练好的预测模型,获取预测三元组的向量表示,所述预测三元组以所述第一实体为头实体且以所述第二实体为尾实体;所述预测模型的训练过程包括:
30.获取第二训练集合,所述第二训练集合包括第二正例三元组、第二负例三元组、以及所述第二正例三元组对应的训练关系路径,所述第二正例三元组对应的训练关系路径包括所述第二正例三元组中的头实体到达尾实体的关系路径;
31.基于所述第二正例三元组的向量表示、所述第二负例三元组的向量表示、以及所述第二正例三元组对应的训练关系路径的路径关系向量,构建所述预测模型的损失函数,所述预测模型的损失函数由直接三元组基于预设边界的损失函数以及所述训练关系路径的路径三元组基于预设边界的损失函数构成,所述直接三元组包括所述第二正例三元组以及所述第二负例三元组;
32.使用随机梯度下降方法优化所述预测模型的损失函数,直至满足预设的训练条
件,得到所述训练好的预测模型。
33.可选地,基于所述关系路径经过的有序关系序列中各个关系的综合向量,获取所述关系路径的路径关系向量,包括:
34.将所述有序关系序列中各个关系所属的三元组的综合向量表示中包括的关系的综合向量相加,得到所述关系路径的路径关系向量。
35.可选地,本方法还包括:
36.基于所述预测三元组,补全所述知识图谱;
37.和/或,基于所述预测三元组,更新所述知识图谱。
38.一种数据处理装置,包括:
39.第一向量生成单元,用于生成知识图谱中的各个三元组第一向量表示,所述三元组的第一向量表示用于表征所述三元组的结构信息,所述三元组包括头实体、关系和尾实体;
40.第二向量生成单元,用于生成各个所述三元组的第二向量表示,所述三元组的第二向量表示用于表征所述三元组的语义信息;
41.向量融合单元,用于
42.融合所述三元组的第一向量表示和第二向量表示,得到所述三元组的综合向量表示,所述综合向量表示包括头实体的综合向量、关系的综合向量以及尾实体的综合向量;
43.三元组预测单元,用于基于待预测实体对的综合向量以及所述待预测实体对的关系路径,获取所述待预测实体对的预测三元组,所述待预测实体对包括所述知识图谱中的第一实体和第二实体,所述待预测实体对的综合向量包括所述第一实体的综合向量和所述第二实体的综合向量。
44.一种数据处理设备,包括:存储器和处理器;
45.所述存储器,用于存储程序;
46.所述处理器,用于执行所述程序,实现数据处理方法的各个步骤。
47.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现数据处理方法的各个步骤。
48.由上述技术方案可以看出,本技术实施例提供的数据处理方法、装置、设备及可读存储介质,融合三元组的第一向量表示和第二向量表示,得到三元组的综合向量表示,综合向量表示包括头实体的综合向量、关系的综合向量以及尾实体的综合向量。基于待预测实体对的综合向量以及待预测实体对的关系路径,获取待预测实体对的预测三元组。由于,三元组的第一向量表示用于表征三元组的结构信息,三元组的第二向量表示用于表征三元组的语义信息。因此,三元组的综合向量表示能够同时指示三元组的结构信息以及语义信息,元素(实体和关系)的综合向量对于元素的表达更加准确,进一步,结合第一实体的综合向量和第二实体的综合向量,以及待预测实体对的关系路径获取的预测三元组,提高了三元组的预测结果的准确性。
附图说明
49.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
50.图1为本技术实施例提供的一种知识图谱的示意图;
51.图2为本技术实施例提供的一种数据处理方法的流程示意图;
52.图3为本技术实施例提供的又一种数据处理方法的流程示意图;
53.图4为本技术实施例提供的一种数据处理装置的结构示意图;
54.图5为本技术实施例提供的一种数据处理设备的结构示意图。
具体实施方式
55.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
56.需要说明的是,本发明提供的一种数据处理方法、装置、设备及可读存储介质可用于人工智能领域或金融领域。上述仅为示例,并不对本发明提供的一种数据处理方法、装置、设备及可读存储介质的应用领域进行限定。
57.本技术提供的方法,可以适用于补全知识图谱的场景,具体的,知识图谱是一个结构化的语义网络,存储着大量的三元组以及三元组的描述信息,三元组的结构为:(头实体,关系,尾实体),其中,关系指示头实体和尾实体的关联关系,知识图谱中的节点表示实体,节点之间的边表示实体间的关系,边的方向由头实体指向尾实体。三元组的描述信息包括头实体的描述信息、关系的描述信息、以及尾实体的描述信息,知识图谱中以标注的形式标注出三元组的描述信息,标注形式可以为列表或者弹出按钮。需要说明的是,描述信息包括文本信息和/或图像信息,可以理解的是,图像信息可以通过图像识别技术转换成文本信息。
58.知识图谱作为人工智能的大脑,已经被广泛运用到搜索引擎、公安、金融、医疗等领域。例如,图1示例了一种应用于金融领域的知识图谱的结构示意图,如图1所示,知识图谱的图结构展示了借款人、公司、地址、项目以及时间等实体之间的关系。
59.随着知识图谱规模的逐渐扩大,知识图谱数据稀疏的问题愈加明显。数据稀疏主要包括元素缺失以及三元组缺失,具体包括:头实体缺失、尾实体缺失以及关系缺失中至少一项。
60.仍以图1为例,借款人a和借款人b的家庭住址相同,且借款人a是借款人 b作为法人的公司a的股东,公司a和公司b存在从属关系,因此,借款人b和借款人a之间大概率存在关系(例如亲属关系),因此该知识图谱中借款人b 和借款人a关系缺失。
61.对此,本技术实施了提出了一种数据处理方法,目的在于补全知识图谱,也即获取知识图谱中的缺失数据。图2为本技术实施例提供的一种数据处理方法的具体实现流程,如图2所示,本方法具体包括:
62.s201、生成待补全知识图谱中的各个三元组的第一向量表示。
63.本实施例中,三元组的第一向量表示用于表征三元组的结构信息。以知识图谱包括三元组集合{wi}为例,其中i∈[0,n],n表示知识图谱中三元组的总数量,本步骤生成每
一三元组wi的第一向量表示xi。
[0064]
具体地,针对每一三元组,将三元组输入至预设的第一向量生成模型,得到第一向量生成模型输出的三元组的第一向量表示,可选地,第一向量生成模型通过训练翻译模型(transe模型)得到。
[0065]
可选的一种生成待补全知识图谱中的各个三元组的第一向量表示的方法包括如下步骤:
[0066]
1、配置transe模型以及正例训练集t={(wh,wr,wt)}。
[0067]
具体的,正例训练集包括多项正例三元组,任意正例三元组记为 (wh,wr,wt),需要说明的是,正例三元组的获取方法参见现有技术,且,记所有正例三元组中的实体构成训练实体集e,记所有正例三元组中的关系构成训练关系集r。
[0068]
配置transe模型包括配置超参数γ以及嵌入向量维度k,其中,λ用于衡量正确三元组和错误三元组的边界,需要说明的是,具体的配置初始transe模型的方法参见现有技术。
[0069]
2、向量初始化与归一化。
[0070]
对实体集e中任意实体以及关系集r中任意关系从(-6/k,6/k)区间内随机取样并初始化,作为初始向量值。
[0071]
具体的,对(wh,wr,wt)中的各个元素(也即wh、wr、以及wt),从(-6/k,6/k) 区间内随机取样并初始化,作为各个元素的初始化的向量,分别为h、r以及t。
[0072]
因此,得到向量维度的正例训练集记为t={(h,r,t)}。
[0073]
3、随机替换正例三元组的任意一项元素(h、r或t)得到负例三元组,从而得到负例训练集t'。
[0074]
具体的,负例训练集t'为:
[0075]
t

={(h

,r,t)|g

∈e}∪{(h,r

,t)|r

∈r}∪{(h,r,t

)|t

∈e}。
[0076]
需要说明的是,由正例训练集和负例训练集构成用于训练transe模型的训练集。
[0077]
4、将训练集每个三元组中的关系作为头实体和尾实体的翻译操作,构建目标函数如下:
[0078][0079]
其中d(h+r,t)为h+r和
t
的距离度量,定义为:d(h+r,t)=||h+r-t||d(h+r,t)=||h+r-t||。
[0080]
5、采用梯度下降算法最优化目标函数,经过不断调整各个元素(wh、wr 以及wt)、的向量(h、r以及t),使得h+r≈t,从而得到训练后的transe 模型,作为第一向量生成模型。
[0081]
需要说明的是,上述1~5为transe模型的训练流程,具体的训练方法可以参见现有技术。
[0082]
6、将wi输入至第一向量生成模型,得到基于transe模型的wi的第一向量表示,记作(hsi,rsi,tsi)。
[0083]
例如,对于三元组w1=[实体1、关系1、实体2],将w1输入至transe模型得到transe模型输出的w1的第一向量表示x1=(hs1,rs1,ts1)。
[0084]
s202、基于三元组的描述信息,生成待补全知识图谱中的各个三元组的第二向量表示。
[0085]
本实施例中,三元组的第二向量表示基于三元组的描述信息生成,三元组的描述信息包括头实体的描述信息、关系的描述信息、以及尾实体的描述信息。三元组的第二向量表示由头实体的描述信息的文本向量、关系的描述信息的文本向量、以及尾实体的描述信息的文本向量构成。
[0086]
也即三元组的第二向量表示用于表征三元组的语义信息。
[0087]
具体地,针对每一三元组,将三元组的头实体的描述信息、关系的描述信息、以及尾实体的描述信息分别输入至预设的第二向量生成模型,得到第二向量生成模型输出的三元组的描述信息的向量,可选地,第二向量生成模型通过训练doc2vec模型得到。需要说明的是,doc2vec模型通过在word2vec 模型中添加预定义的文档向量,训练得到一个文档在低维连续空间中的向量,并且在训练的过程中考虑整个文档的语义信息。
[0088]
可选的一种生成待补全知识图谱中的各个三元组的第二向量表示的方法包括如下步骤:
[0089]
1、对于预设的训练文档,随机生成n维的文档向量和文档中每个词语的独热编码(one-hot)形式的n维词向量。本实施例中,基于知识图谱的信息从预测是公开数据集中选取训练文档,知识图谱的信息包括但不限于领域信息、时间信息等。
[0090]
具体的,选择与待补全的知识图谱的领域相近且公开时间相近的训练文档,提高模型应用于知识图谱补全时的准确度。需要说明的是,随机生成n维词向量和n维文档向量的方法参见现有技术。
[0091]
2、对n维文档向量和n维词向量进行降维。
[0092]
具体的降维方法参见现有技术。
[0093]
3、依据降维后的词向量和文档向量,得到中心词向量。
[0094]
4、将中心词向量通过softmax函数进行归一化,得到中心词向量的归一化词向量。
[0095]
5、以n维词向量作为真实值,以中心词向量的归一化词向量作为预测值,利用logistic函数对预测值进行训练,通过随机梯度下降方法不断调整doc2vec 模型,最小化真实值与预测值的误差,稳定后即得到训练好的doc2vec模型。将训练好的doc2vec模型作为第二向量生成模型。
[0096]
需要说明的是,上述1~5为doc2vec模型的训练过程,具体的训练方法参见现有技术。
[0097]
6、分别将wi的头实体的描述信息、关系的描述信息、以及尾实体的描述信息输入至第二向量生成模型,得到基于doc2vec模型的wi的第二向量表示,记作x2=(hdi,rdi,tdi)。
[0098]
其中,hdi为doc2vec模型输出的头实体的描述信息的文本向量,rdi为 doc2vec模型输出的关系的描述信息的文本向量,tdi为doc2vec模型输出的尾实体的描述信息的文本向量。由于doc2vec模型经过上述训练。
[0099]
s203、融合各个三元组的第一向量表示和第二向量表示,得到各个三元组的综合向量表示。
[0100]
本实施例中,具体的一种融合三元组的第一向量表示和第二向量表示的方法包
括:
[0101]
拼接头实体的词向量和描述信息的文本向量,得到头实体的综合向量。
[0102]
拼接关系的词向量和描述信息的文本向量,得到关系的综合向量。
[0103]
拼接尾实体的词向量和描述信息的文本向量,得到尾实体的综合向量。
[0104]
以三元组wi为例,融合wi的第一向量表示(hdi,rdi,tdi)和第二向量表示 (hs1,rs1,ts1),得到wi的综合向量wi的(hi,ri,ti)。
[0105]
其中,为连接操作符。
[0106]
可以理解的是,三元组的综合向量表示用于表征三元组的结构信息以及三元组各个元素的语义信息。
[0107]
s204、获取待预测实体对的关系路径集合以及每一关系路径对应的三元组集合。
[0108]
本实施例中,实体对包括第一实体和第二实体,关系路径集合包括至少一条关系路径。关系路径包括有序的至少一个关系,实体对的关系路径为:从表征第一实体的节点到表征第二实体的节点经过的边对应的关系的有序集合。每一关系路径对应的三元组集合包括关系路径中每一关系对应的三元组。
[0109]
例如,实体对1为[实体1,实体2],关系路径集合为{p1,p2,p3},具体的,实体1为“张三”,实体2为“a国家”,那么基于三元组1(张三,出生于,a 市区)和三元组2(a市区,位于,b国家)得到实体对1的一条关系路径为p1=[出生于,位于]。
[0110]
本实施例中,实体对集合包括由知识图谱中所有实体对排列组合得到的所有实体对,待预测实体对为实体对中任意一个实体对,或者,待预测实体对为不存在直接关系的实体对。
[0111]
s205、基于关系路径对应的三元组集合中,每一三元组的综合向量表示,生成每一关系路径的路径三元组的向量表示。
[0112]
本实施例中,关系路径的路径三元组的向量表示包括第一实体的综合向量、关系路径的向量、以及第二实体的综合向量。
[0113]
记任意一条关系路径p的路径三元组的向量表示为[h、p、t],其中,h为第一实体(头实体)的综合向量,t为第二实体(尾实体)的综合向量,p基于关系路径包括的各个关系的综合向量得到。
[0114]
具体的,关系路径的向量的计算方法包括:
[0115]
将关系路径对应的三元组集合中,各个三元组中的关系的综合向量相加得到关系路径的向量,也即路径关系向量。
[0116]
例如,p1=[出生于,位于],p1的向量等于三元组1的综合向量中“出生于”的综合向量和三元组2的综合向量中“位于”的综合向量相加结果。
[0117]
s206、基于待预测实体对的各个关系路径的路径三元组的向量表示以及待预测实体对的综合向量,利用预测模型,获取待预测实体对的预测三元组的向量表示。
[0118]
具体的,将待预测实体对中第一实体的综合向量、第二实体的综合向量、各个关系路径的向量表示作为预测模型的输入,得到预测模型输出的以第一实体为头实体,以第二实体为尾实体的三元组的综合向量表示。本实施例中,预测模型的训练方法包括:
[0119]
1、获取训练数据集合。
[0120]
本实施例中训练数据集合包括正例集合s和负例集合s’。
[0121]
正例集合s包括多个训练实体对的正例数据,训练实体对的正例数据包括:训练实体对的直接三元组的综合向量表示。负例集合s’包括多个训练实体对的负例数据,训练实体对的负例数据通过随机替换训练实体对的正例数据中直接三元组的元素得到,具体可以参见上述实施例或者现有技术。
[0122]
需要说明的是,训练数据集合可以基于待补全知识图谱中获取,或者基于训练知识图谱获取。
[0123]
2、针对正例集合y中训练实体对的正例数据,计算关系路径的置信度。
[0124]
本实施例中,训练实体对包括第一训练实体和第二训练实体,训练实体对关系路径的置信度用于指示第一训练实体经过关系路径到达第二训练实体的概率,关系路径的置信度用于指示某种资源从第一训练实体通过关系路径流向第二训练实体的资源量。也即,置信度用于衡量关系路径的可信程度,置信越高则可信程度越高。
[0125]
需要说明的是,基于训练实体对,获取训练实体对各个关系路径的路径三元组的向量表示后,计算关系路径的置信度,具体的计算方法参见现有技术。
[0126]
3、构建能量函数。
[0127]
本实施例中,能量函数如下:
[0128]
g(h,r,t)=e(h,r,t)+e(h,p,t)
[0129]
其中,e(h,p,t)表示实体h和t之间的关系路径三元组得分,表征h和t存在关联关系的概率,具体的:
[0130][0131]
其中,r(ph,t)表示实体h和t之间的关系路径p的置信度,p(h,t)表示实体 h和t之间的关系路径集合,e(h,p,t)表示关系路径p对应的路径三元组的得分函数,e(h,r,t)表示三元组(h,r,t)的得分函数,可以理解的是,(h,r,t)表示以实体h为头实体以实体t为尾实体的直接三元组。
[0132]
具体的:
[0133][0134][0135]
也即,关系路径p对应的路径三元组的得分为关系路径p的向量与关系r 的向量的相似度度量。
[0136]
z为归一化系数,可选地,z=∑
p∈p(h,t)
r(ph,t)。
[0137]
4、基于能量函数,构建预测模型的损失函数。
[0138]
本实施例中,令损失函数为:
[0139][0140]
其中:
[0141]
[0142][0143]
l(h,r,t)为三元组(h,r,t)基于边界ε的损失函数,l(p,r)为关系路径p对应的路径三元组基于边界ε的损失函数。
[0144]
5、使用随机梯度下降方法优化损失函数,根据损失值减小的方向更新实体向量和关系向量表示,直至正例三元组和负例三元组的能量趋于稳定。或者,迭代次数达到大值时,停止迭代,得到训练好的预测模型。
[0145]
s207、基于待补全知识图谱中各个实体对的预测三元组的向量表示,补全待补全知识图谱。
[0146]
本实施例中,补全待补全知识图谱的方法包括:
[0147]
1、依据预测三元组的向量表示,映射得到预测三元组。
[0148]
其中映射方法为:
[0149]
从待补全知识图谱的实体库中获取预测三元组的向量表示对应的头实体和尾实体,并从待补全知识图谱的关系库中获取预测三元组的关系,从而得到包括头实体、关系、以及尾实体的预测三元组。
[0150]
其中,待补全知识图谱中的实体库包括每一实体(文本)以及综合向量的对应关系,待补全知识图谱中的关系库包括每一关系(文本)以及综合向量的对应关系。需要说明的是,可以以id标识实体或关系,具体参见现有技术。
[0151]
2、对于关系缺失的三元组,获取该三元组的实体对对应的预测三元组中的关系,补全待补全知识图谱。
[0152]
例如,针对图1所示的知识图谱执行本技术得到预测三元组包括[借款人 a、夫妻、借款人b],则添加借款人a和借款人b的节点的边,边指示夫妻关系。
[0153]
3、对于实体缺失的三元组,基于该三元组的头实体(或尾实体)以及关系与各个预测三元组进行匹配,得到与该三元组匹配的预测三元组,获取该预测三元组中的尾实体(或头实体)补全待补全知识图谱。
[0154]
从上述技术方案可以看出,本技术实施例提供的数据处理方法:
[0155]
1、基于三元组中各个元素(实体和关系)的描述信息,获取三元组的第二向量表示,第二向量表示能够表征三元组的完整语义信息。基于三元组的结构信息,通过翻译模型获取三元组的第一向量表示,能够表征三元组中由头实体、关系以及尾实体的结构关系。因此,本身亲融合三元组的第一向量表示和第二向量表示得到的综合向量表示能够同时表征三元组的完整语义信息以及三元组的结构信息。可见,以综合向量表示中各个元素的向量表示各个元素,准确性高,降低了向量表示的模糊程度。
[0156]
2、基于三元组综合向量表示以及待预测实体对的至少一条关系路径,获取对应于待预测实体对的直接三元组,通过综合向量以及多跳关系路径的图结构信息,得到待预测实体对的直接三元组的向量表示,由于综合向量能够对实体进行准确表达,且路径关系能够对实体间的结构进行完整表达,因此,本技术预测得到的直接三元组准确性高,进一步,预测结构用于知识图谱补全时,有效提高知识图谱补全的准确度。
[0157]
需要说明的是,图2仅为一种本技术实施例提供的一种数据处理方法的具体实现
流程,本技术还包括其他的具体实施方式。
[0158]
例如:s205仅示例了一种关系路径的路径三元组的向量表示生成方法,在其他可选的实施例中,关系路径的向量的计算方法包括将各个关系的综合向量进行向量乘法,得到关系路径的路径向量。
[0159]
例如:doc2vec模型仅为一种可选的文本向量表示模型,在其他可选的实施例中:可以利用其他结构的向量表示模型,将文本编码成向量。具体可以参见现有技术。
[0160]
再例如,s207仅为可选的步骤,本技术还可以应用于除了补全知识图谱之外的其他场景,例如,结合至少一个知识图谱抽取给定实体对之间的关系,再例如,验证知识图谱中的三元组是否准确,基于预测三元组调整知识图谱中已存在的关系。
[0161]
综上所述,将本技术实施例提供的一种数据处理方法总结概括为图3所示的流程,如图3所示,本技术包括:
[0162]
s301、生成知识图谱中的各个三元组第一向量表示。
[0163]
本实施例中,三元组的第一向量表示用于表征三元组的结构信息,三元组包括头实体、关系和尾实体。
[0164]
可选的一种第一向量表示的生成方法为:将三元组输入至训练好的翻译模型,得到翻译模型输出的三元组的第一向量表示,具体可以参见上述实施例,其他可选的第一向量表示的具体方法可以参见现有技术。
[0165]
s302、生成各个三元组的第二向量表示。
[0166]
本实施例中,三元组的第二向量表示用于表征三元组的语义信息。
[0167]
可选的一种生成三元组的第二向量表示的方法包括:将三元组的各个元素(头实体、关系、以及尾实体)的描述信息输入至训练好的doc2vec模型,得到doc2vec模型输出的各个元素的第二向量,由此得到三元组的第二向量表示,其中,描述信息包括文本信息,相对于提取关键字并拼接关键字向量得到描述信息的向量的方法,doc2vec模型用于转换得到能够表征作为输入的全部文本信息的向量,语义信息表达更加准确且全面。
[0168]
doc2vec模型生成第二向量的具体方法可以参见上述实施例,其他可选的第二向量表示的具体方法可以参见现有技术。
[0169]
s303、融合三元组的第一向量表示和第二向量表示,得到三元组的综合向量表示。
[0170]
本实施例中,综合向量表示包括头实体的综合向量、关系的综合向量以及尾实体的综合向量。
[0171]
可选的一种融合方法为分别拼接元素在第一向量表示中的向量和第二向量表示中的向量。具体参见上述实施例。
[0172]
s304、基于待预测实体对的综合向量以及待预测实体对的关系路径,获取待预测实体对的预测三元组。
[0173]
本实施例中,待预测实体对包括知识图谱中的第一实体和第二实体,待预测实体对的综合向量包括第一实体的综合向量和第二实体的综合向量。
[0174]
具体的,获取知识图谱中,待预测实体对的关系路径以及关系路径经过的有序关系序列,基于关系路径经过的有序关系序列中各个关系的综合向量,获取关系路径的路径关系向量,依据第一实体的综合向量、第二实体的综合向量、以及各个关系路径的路径关系向量,利用预先训练好的预测模型,获取预测三元组的向量表示,预测三元组以所述第一实
体为头实体且以所述第二实体为尾实体。
[0175]
具体的预测三元组生成方法参见上述实施例。
[0176]
由上述技术方案可以看出,本技术实施例提供的一种数据处理方法,融合三元组的第一向量表示和第二向量表示,得到三元组的综合向量表示,综合向量表示包括头实体的综合向量、关系的综合向量以及尾实体的综合向量。基于待预测实体对的综合向量以及待预测实体对的关系路径,获取待预测实体对的预测三元组。由于,三元组的第一向量表示用于表征三元组的结构信息,三元组的第二向量表示用于表征三元组的语义信息。因此,三元组的综合向量表示能够同时指示三元组的结构信息以及语义信息,元素(实体和关系)的综合向量对于元素的表达更加准确,进一步,结合第一实体的综合向量和第二实体的综合向量,以及待预测实体对的关系路径获取的预测三元组,提高了三元组的预测结果的准确性。
[0177]
图4示出了本技术实施例提供的一种数据处理装置的结构示意图,如图4 所示,该装置可以包括:
[0178]
第一向量生成单元401,用于生成知识图谱中的各个三元组第一向量表示,所述三元组的第一向量表示用于表征所述三元组的结构信息,所述三元组包括头实体、关系和尾实体;
[0179]
第二向量生成单元402,用于生成各个所述三元组的第二向量表示,所述三元组的第二向量表示用于表征所述三元组的语义信息;
[0180]
向量融合单元403,用于融合所述三元组的第一向量表示和第二向量表示,得到所述三元组的综合向量表示,所述综合向量表示包括头实体的综合向量、关系的综合向量以及尾实体的综合向量;
[0181]
三元组预测单元404,用于基于待预测实体对的综合向量以及所述待预测实体对的关系路径,获取所述待预测实体对的预测三元组,所述待预测实体对包括所述知识图谱中的第一实体和第二实体,所述待预测实体对的综合向量包括所述第一实体的综合向量和所述第二实体的综合向量。
[0182]
可选地,第一向量生成单元用于生成知识图谱中的各个三元组第一向量表示,包括:第一向量生成单元具体用于:
[0183]
将所述三元组输入至预设的第一向量生成模型,得到所述第一向量生成模型输出的所述三元组的第一向量表示,所述三元组的第一向量表示包括头实体的第一向量、关系的第一向量、以及尾实体的第一向量;
[0184]
其中,所述第一向量生成模型通过训练翻译模型得到,所述翻译模型的训练过程包括:
[0185]
获取第一训练集合,所述第一训练集合包括正例训练集和负例训练集,所述正例训练集包括若干条正例三元组,所述负例训练集包括通过随机替换所述正例三元组的元素得到的负例三元组;
[0186]
将关系作为头实体和尾实体的翻译操作,构建翻译模型的目标函数;
[0187]
基于所述第一训练集合,采用梯度下降算法最优化所述翻译模型的目标函数,直至达到预设的训练目标,得到训练好的所述翻译模型。
[0188]
可选地,三元组的第二向量表示包括头实体的第二向量、关系的第二向量、以及尾
实体的第二向量;所述第二向量生成单元用于生成各个所述三元组的第二向量表示,包括:所述第二向量生成单元具体用于:
[0189]
将所述三元组的头实体描述信息输入至预设的第二向量生成模型,得到所述第二向量生成模型输出的所述三元组的头实体的第二向量;
[0190]
将所述三元组的关系描述信息输入所述第二向量生成模型,得到所述第二向量生成模型输出的所述三元组的关系的第二向量;
[0191]
将所述三元组的尾实体描述信息输入所述第二向量生成模型,得到所述第二向量生成模型输出的所述三元组的尾实体的第二向量;
[0192]
其中,所述第二向量生成模型通过以训练文档为训练数据,训练doc2vec 模型得到,所述训练文档为预设的文档库中与所述知识图谱的属性信息匹配的预设文档。
[0193]
可选地,向量融合单元,用于融合所述三元组的第一向量表示和第二向量表示,得到所述三元组的综合向量表示,包括:向量融合单元具体用于:
[0194]
拼接所述三元组的头实体的第一向量和第二向量,得到所述三元组的头实体的综合向量;
[0195]
拼接所述三元组的关系的第一向量和第二向量,得到所述三元组的关系的综合向量;
[0196]
拼接所述三元组的尾实体的第一向量和第二向量,得到所述三元组的尾实体的综合向量;
[0197]
组合所述三元组的头实体的综合向量、关系的综合向量、以及尾实体的综合向量,得到所述三元组的综合向量表示。
[0198]
可选地,三元组预测单元用于基于待预测实体对的综合向量以及所述待预测实体对的关系路径,获取所述待预测实体对的预测三元组,包括:三元组预测单元具体用于:
[0199]
获取所述知识图谱中,所述待预测实体对的关系路径以及所述关系路径经过的有序关系序列;
[0200]
基于所述关系路径经过的有序关系序列中各个关系的综合向量,获取所述关系路径的路径关系向量;
[0201]
依据所述第一实体的综合向量、所述第二实体的综合向量、以及各个所述关系路径的路径关系向量,利用预先训练好的预测模型,获取预测三元组的向量表示,所述预测三元组以所述第一实体为头实体且以所述第二实体为尾实体;所述预测模型的训练过程包括:
[0202]
获取第二训练集合,所述第二训练集合包括第二正例三元组、第二负例三元组、以及所述第二正例三元组对应的训练关系路径,所述第二正例三元组对应的训练关系路径包括所述第二正例三元组中的头实体到达尾实体的关系路径;
[0203]
基于所述第二正例三元组的向量表示、所述第二负例三元组的向量表示、以及所述第二正例三元组对应的训练关系路径的路径关系向量,构建所述预测模型的损失函数,所述预测模型的损失函数由直接三元组基于预设边界的损失函数以及所述训练关系路径的路径三元组基于预设边界的损失函数构成,所述直接三元组包括所述第二正例三元组以及所述第二负例三元组;
[0204]
使用随机梯度下降方法优化所述预测模型的损失函数,直至满足预设的训练条
件,得到所述训练好的预测模型。
[0205]
可选地,三元组预测单元用于基于所述关系路径经过的有序关系序列中各个关系的综合向量,获取所述关系路径的路径关系向量,包括:三元组预测单元具体用于:
[0206]
将所述有序关系序列中各个关系所属的三元组的综合向量表示中包括的关系的综合向量相加,得到所述关系路径的路径关系向量。
[0207]
可选地,本装置还包括:预测结果分析单元用于:基于所述预测三元组,补全所述知识图谱;和/或,基于所述预测三元组,更新所述知识图谱。
[0208]
图5示出了该数据处理设备的结构示意图,该设备可以包括:至少一个处理器501,至少一个通信接口502,至少一个存储器503和至少一个通信总线504;
[0209]
在本技术实施例中,处理器501、通信接口502、存储器503、通信总线504 的数量为至少一个,且处理器501、通信接口502、存储器503通过通信总线504 完成相互间的通信;
[0210]
处理器501可能是一个中央处理器cpu,或者是特定集成电路asic (application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
[0211]
存储器503可能包含高速ram存储器,也可能还包括非易失性存储器 (non-volatile memory)等,例如至少一个磁盘存储器;
[0212]
其中,存储器存储有程序,处理器可执行存储器存储的程序,实现本技术实施例提供的一种数据处理方法的各个步骤,如下:
[0213]
一种数据处理方法,包括:
[0214]
生成知识图谱中的各个三元组第一向量表示,所述三元组的第一向量表示用于表征所述三元组的结构信息,所述三元组包括头实体、关系和尾实体;
[0215]
生成各个所述三元组的第二向量表示,所述三元组的第二向量表示用于表征所述三元组的语义信息;
[0216]
融合所述三元组的第一向量表示和第二向量表示,得到所述三元组的综合向量表示,所述综合向量表示包括头实体的综合向量、关系的综合向量以及尾实体的综合向量;
[0217]
基于待预测实体对的综合向量以及所述待预测实体对的关系路径,获取所述待预测实体对的预测三元组,所述待预测实体对包括所述知识图谱中的第一实体和第二实体,所述待预测实体对的综合向量包括所述第一实体的综合向量和所述第二实体的综合向量。
[0218]
可选地,生成知识图谱中的各个三元组第一向量表示,包括:
[0219]
将所述三元组输入至预设的第一向量生成模型,得到所述第一向量生成模型输出的所述三元组的第一向量表示,所述三元组的第一向量表示包括头实体的第一向量、关系的第一向量、以及尾实体的第一向量;
[0220]
其中,所述第一向量生成模型通过训练翻译模型得到,所述翻译模型的训练过程包括:
[0221]
获取第一训练集合,所述第一训练集合包括正例训练集和负例训练集,所述正例训练集包括若干条正例三元组,所述负例训练集包括通过随机替换所述正例三元组的元素得到的负例三元组;
[0222]
将关系作为头实体和尾实体的翻译操作,构建翻译模型的目标函数;
[0223]
基于所述第一训练集合,采用梯度下降算法最优化所述翻译模型的目标函数,直
至达到预设的训练目标,得到训练好的所述翻译模型。
[0224]
可选地,三元组的第二向量表示包括头实体的第二向量、关系的第二向量、以及尾实体的第二向量;所述生成各个所述三元组的第二向量表示,包括:
[0225]
将所述三元组的头实体描述信息输入至预设的第二向量生成模型,得到所述第二向量生成模型输出的所述三元组的头实体的第二向量;
[0226]
将所述三元组的关系描述信息输入所述第二向量生成模型,得到所述第二向量生成模型输出的所述三元组的关系的第二向量;
[0227]
将所述三元组的尾实体描述信息输入所述第二向量生成模型,得到所述第二向量生成模型输出的所述三元组的尾实体的第二向量;
[0228]
其中,所述第二向量生成模型通过以训练文档为训练数据,训练doc2vec 模型得到,所述训练文档为预设的文档库中与所述知识图谱的属性信息匹配的预设文档。
[0229]
可选地,融合所述三元组的第一向量表示和第二向量表示,得到所述三元组的综合向量表示,包括:
[0230]
拼接所述三元组的头实体的第一向量和第二向量,得到所述三元组的头实体的综合向量;
[0231]
拼接所述三元组的关系的第一向量和第二向量,得到所述三元组的关系的综合向量;
[0232]
拼接所述三元组的尾实体的第一向量和第二向量,得到所述三元组的尾实体的综合向量;
[0233]
组合所述三元组的头实体的综合向量、关系的综合向量、以及尾实体的综合向量,得到所述三元组的综合向量表示。
[0234]
可选地,基于待预测实体对的综合向量以及所述待预测实体对的关系路径,获取所述待预测实体对的预测三元组,包括:
[0235]
获取所述知识图谱中,所述待预测实体对的关系路径以及所述关系路径经过的有序关系序列;
[0236]
基于所述关系路径经过的有序关系序列中各个关系的综合向量,获取所述关系路径的路径关系向量;
[0237]
依据所述第一实体的综合向量、所述第二实体的综合向量、以及各个所述关系路径的路径关系向量,利用预先训练好的预测模型,获取预测三元组的向量表示,所述预测三元组以所述第一实体为头实体且以所述第二实体为尾实体;所述预测模型的训练过程包括:
[0238]
获取第二训练集合,所述第二训练集合包括第二正例三元组、第二负例三元组、以及所述第二正例三元组对应的训练关系路径,所述第二正例三元组对应的训练关系路径包括所述第二正例三元组中的头实体到达尾实体的关系路径;
[0239]
基于所述第二正例三元组的向量表示、所述第二负例三元组的向量表示、以及所述第二正例三元组对应的训练关系路径的路径关系向量,构建所述预测模型的损失函数,所述预测模型的损失函数由直接三元组基于预设边界的损失函数以及所述训练关系路径的路径三元组基于预设边界的损失函数构成,所述直接三元组包括所述第二正例三元组以及所述第二负例三元组;
[0240]
使用随机梯度下降方法优化所述预测模型的损失函数,直至满足预设的训练条件,得到所述训练好的预测模型。
[0241]
可选地,基于所述关系路径经过的有序关系序列中各个关系的综合向量,获取所述关系路径的路径关系向量,包括:
[0242]
将所述有序关系序列中各个关系所属的三元组的综合向量表示中包括的关系的综合向量相加,得到所述关系路径的路径关系向量。
[0243]
可选地,本方法还包括:
[0244]
基于所述预测三元组,补全所述知识图谱;
[0245]
和/或,基于所述预测三元组,更新所述知识图谱。
[0246]
本技术实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的计算机程序,计算机程序被处理器执行时,实现本技术实施例提供的一种数据处理方法的各个步骤,如下:
[0247]
一种数据处理方法,包括:
[0248]
生成知识图谱中的各个三元组第一向量表示,所述三元组的第一向量表示用于表征所述三元组的结构信息,所述三元组包括头实体、关系和尾实体;
[0249]
生成各个所述三元组的第二向量表示,所述三元组的第二向量表示用于表征所述三元组的语义信息;
[0250]
融合所述三元组的第一向量表示和第二向量表示,得到所述三元组的综合向量表示,所述综合向量表示包括头实体的综合向量、关系的综合向量以及尾实体的综合向量;
[0251]
基于待预测实体对的综合向量以及所述待预测实体对的关系路径,获取所述待预测实体对的预测三元组,所述待预测实体对包括所述知识图谱中的第一实体和第二实体,所述待预测实体对的综合向量包括所述第一实体的综合向量和所述第二实体的综合向量。
[0252]
可选地,生成知识图谱中的各个三元组第一向量表示,包括:
[0253]
将所述三元组输入至预设的第一向量生成模型,得到所述第一向量生成模型输出的所述三元组的第一向量表示,所述三元组的第一向量表示包括头实体的第一向量、关系的第一向量、以及尾实体的第一向量;
[0254]
其中,所述第一向量生成模型通过训练翻译模型得到,所述翻译模型的训练过程包括:
[0255]
获取第一训练集合,所述第一训练集合包括正例训练集和负例训练集,所述正例训练集包括若干条正例三元组,所述负例训练集包括通过随机替换所述正例三元组的元素得到的负例三元组;
[0256]
将关系作为头实体和尾实体的翻译操作,构建翻译模型的目标函数;
[0257]
基于所述第一训练集合,采用梯度下降算法最优化所述翻译模型的目标函数,直至达到预设的训练目标,得到训练好的所述翻译模型。
[0258]
可选地,三元组的第二向量表示包括头实体的第二向量、关系的第二向量、以及尾实体的第二向量;所述生成各个所述三元组的第二向量表示,包括:
[0259]
将所述三元组的头实体描述信息输入至预设的第二向量生成模型,得到所述第二向量生成模型输出的所述三元组的头实体的第二向量;
[0260]
将所述三元组的关系描述信息输入所述第二向量生成模型,得到所述第二向量生
成模型输出的所述三元组的关系的第二向量;
[0261]
将所述三元组的尾实体描述信息输入所述第二向量生成模型,得到所述第二向量生成模型输出的所述三元组的尾实体的第二向量;
[0262]
其中,所述第二向量生成模型通过以训练文档为训练数据,训练doc2vec 模型得到,所述训练文档为预设的文档库中与所述知识图谱的属性信息匹配的预设文档。
[0263]
可选地,融合所述三元组的第一向量表示和第二向量表示,得到所述三元组的综合向量表示,包括:
[0264]
拼接所述三元组的头实体的第一向量和第二向量,得到所述三元组的头实体的综合向量;
[0265]
拼接所述三元组的关系的第一向量和第二向量,得到所述三元组的关系的综合向量;
[0266]
拼接所述三元组的尾实体的第一向量和第二向量,得到所述三元组的尾实体的综合向量;
[0267]
组合所述三元组的头实体的综合向量、关系的综合向量、以及尾实体的综合向量,得到所述三元组的综合向量表示。
[0268]
可选地,基于待预测实体对的综合向量以及所述待预测实体对的关系路径,获取所述待预测实体对的预测三元组,包括:
[0269]
获取所述知识图谱中,所述待预测实体对的关系路径以及所述关系路径经过的有序关系序列;
[0270]
基于所述关系路径经过的有序关系序列中各个关系的综合向量,获取所述关系路径的路径关系向量;
[0271]
依据所述第一实体的综合向量、所述第二实体的综合向量、以及各个所述关系路径的路径关系向量,利用预先训练好的预测模型,获取预测三元组的向量表示,所述预测三元组以所述第一实体为头实体且以所述第二实体为尾实体;所述预测模型的训练过程包括:
[0272]
获取第二训练集合,所述第二训练集合包括第二正例三元组、第二负例三元组、以及所述第二正例三元组对应的训练关系路径,所述第二正例三元组对应的训练关系路径包括所述第二正例三元组中的头实体到达尾实体的关系路径;
[0273]
基于所述第二正例三元组的向量表示、所述第二负例三元组的向量表示、以及所述第二正例三元组对应的训练关系路径的路径关系向量,构建所述预测模型的损失函数,所述预测模型的损失函数由直接三元组基于预设边界的损失函数以及所述训练关系路径的路径三元组基于预设边界的损失函数构成,所述直接三元组包括所述第二正例三元组以及所述第二负例三元组;
[0274]
使用随机梯度下降方法优化所述预测模型的损失函数,直至满足预设的训练条件,得到所述训练好的预测模型。
[0275]
可选地,基于所述关系路径经过的有序关系序列中各个关系的综合向量,获取所述关系路径的路径关系向量,包括:
[0276]
将所述有序关系序列中各个关系所属的三元组的综合向量表示中包括的关系的综合向量相加,得到所述关系路径的路径关系向量。
[0277]
可选地,本方法还包括:
[0278]
基于所述预测三元组,补全所述知识图谱;
[0279]
和/或,基于所述预测三元组,更新所述知识图谱。
[0280]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0281]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0282]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1