一种知识图谱的构建方法

文档序号:31870558发布日期:2022-10-21 19:03阅读:82来源:国知局
一种知识图谱的构建方法

1.本发明属于自然语言处理和互联网应用技术领域,具体涉及一种知识图谱的构建方法。该方法可以在没有知识标注的情况下,自动提取政治理论知识,构建政治理论知识图谱;在有知识标注文本的情况下,可以基于预训练语言模型,使用标注数据训练政治理论知识的抽取模型。基于共现、语义相似度,计算出政治理论之间的关系。另外,本系统可以将专家的知识融入知识图谱,也能利用专家的知识迭代优化模型的抽取知识能力。


背景技术:

2.政治领域有非常多的理论,人们学习、查询的需求非常大。然而,对于政治理论,当下只有专家手动整理的知识图谱。这样的知识图谱由于是人手动整理,因此规模不会很大,无法覆盖广阔的范围。现今仍没有一个很好的体系,可以结构化地管理大规模的政治领域的理论知识。结构化管理即对于每一条政治理论,都将其归到一条或多条知识点,且知识点之间有着清晰的关系。
3.知识图谱是显示知识结构关系的一个图结构,可以用来存储和管理知识及其联系。随着机器学习和人工智能的发展,机器在自动构建知识图谱的任务中取得了优秀的表现,尤其是在通用的知识领域,如维基百科的知识,已有机器自动构建出的大量知识,帮助人们节省了大量时间。
4.然而,现有的知识图谱自动构建的方法并不适用于政治理论领域。有以下三个原因:
5.1.现有的知识图谱自动构建方法抽取的知识并非政治知识。现有的知识图谱自动构建方法将实体或属性看做知识,一般是一个词,而政治理论中的知识多为专有名词,一般是一个概念。现有的抽取知识的方法无法抽取这些较长的概念。
6.2.政治理论的知识图谱由于比较敏感,因此对于知识的准确性要求较高。受现有技术所限,完全由机器自动构建的知识图谱达不到100%准确的要求。因此,需要该系统能融合专家的知识,并且用置信度较高的专家知识替代置信度较低的机器自动抽取的知识。
7.3.政治理论之间有逻辑联系,包括具有上下位关系的知识点、属于同一领域的知识点,以及相似的知识点。现有的知识图谱构建方法无法自动提取政治理论之间的关联。


技术实现要素:

8.本发明目的之一在于提供了一种知识图谱自动化构建方法,实现自动抽取政治理论知识、融合专家标注知识,以及自动发现政治理论知识之间的关联。本发明使用统计方法抽取出备选知识,经过专家的标注后训练知识抽取模型,从而可以比较好地抽取理论知识,解决了现有的抽取知识的方法无法抽取这些较长的概念。本发明基于知识点之间的共现分数和语义相似度分数,加权计算得到理论知识之间的关联,解决了现有的知识图谱构建方法无法自动提取政治理论之间的关联的问题。
9.本发明的技术方案为:
10.一种知识图谱的构建方法,其步骤包括:
11.1)在没有标注的政治理论语料文本上自动抽取政治理论知识;
12.2)对步骤1)所抽取的政治理论知识进行筛选,并对筛选出的政治理论知识进行标注,作为训练政治知识抽取模型的训练文本;
13.3)利用所述训练文本训练所述政治知识抽取模型;
14.4)使用训练后的政治知识抽取模型对语料库进行知识抽取,得到政治理论知识;
15.5)对于步骤4)所得政治理论知识中的任意两个政治理论知识,计算该两个政治理论知识在所述语料库的共现度和语义相似度,如果共现度或语义相似度不为零,则在该两个政治理论知识之间连接一条边,并基于共现度和语义相似度计算该两个政治理论知识之间的关联分数作为该边的权重,从而得到所述语料库对应的知识图谱;
16.6)将专家标注的带上下位结构的知识体系与步骤5)所生成的知识图谱进行知识对齐,将所述知识体系中专家标注的主题词之间的上下位关系融入所述知识图谱。
17.进一步的,在没有标注的政治理论语料文本上自动抽取政治理论知识的方法包括:
18.11)对所述语料库内一政治理论语料文本a中的每一句子s进行分词,得到一分词列表w={w1,w2,...,wn}及对应的词性列表t={t1,t2,...,tn};wn为句子s中的第n个分词,tn为wn的词性;
19.12)将分词列表w中的相邻k个分词进行组合,得到多个备选词组k-gram;计算k取不同值时,各k-gram在政治理论语料文本a中的tf-idf分数;
20.13)将每一备选词组k-gram在所述语料库内各政治理论语料文本中的tf-idf分数相加,得到该备选词组k-gram的最终tf-idf分数,取最终tf-idf分数最大的若干备选词组作为自动抽取的政治理论知识。
21.进一步的,所述关联分数包括两个政治理论知识的共现度分数、两个政治理论知识之间的语义相似度分数以及专家标注分数;其中,对于两个政治理论知识i、j,如果二者在所述语料库内各政治理论语料文本的n1个句子中共现、在n2个段落中共现、在n3篇文本中共现,则二者的共现度分数为c
ij
=(a*n1+b*n2+c*n3)
p
,a、b、c是句子共现、段落共现、文本共现对应的权重,p为所述语料库的文本总数;通过语义相似度模型计算得到两个政治理论知识i、j之间的语义相似度分数s
ij
;如果两个政治理论知识i、j被专家在同一句中共现标注l次,则二者的专家标注分数为z
ij
=z*l;最终两个政治理论知识i、j的关联分数为:r
ij
=c*c
ij
+s*s
ij
+z*z
ij

22.进一步的,基于大规模语言模型训练所述政治知识抽取模型时所采用的优化函数为最大似然优化函数。
23.进一步的,所述政治知识抽取模型包括大规模预训练语言模型bert和条件随机场模型;将政治理论语料文本输入大规模预训练语言模型bert,得到每个字的字编码并将其作为条件随机场模型的输入,条件随机场模型输出句子序列被标注为不同标签的概率;选择概率最大的标签序列解码得到对应句子中包含的政治理论知识。
24.进一步的,将所述知识体系中专家标注的主题词之间的上下位关系融入所述知识图谱的方法包括:
25.61)知识的对齐:如果专家标注的主题词与抽取的主题词字符一致,则认为这两个
词为同一个政治理论知识;否则认为专家标注的主题词是新的政治理论知识并将其合并到抽取的知识库中;
26.62)知识之间关联的聚合:将步骤5)所得知识图谱中的关联和专家标注的关联聚合;
27.63)主题词与知识之间的关联分数:根据专家标注的主题词w
theme
对应的各相关词与抽取的政治理论知识w
robot
之间的关联关系分数之和加权得到w
theme
和w
robot
之间的关联分数;其中,专家为每个主题词标注了相关的关键词集合;最后融合后的所述知识图谱中包含具有关联分数的边、具有上下位关系的边和具有专家关联分数的边。
28.进一步的,所述知识体系为三级知识体系,包括一级知识主题词、二级知识主题词和三级知识主题词。
29.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
30.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
31.本发明实例提供一种政治理论的知识图谱构建方法及系统,包括如下步骤:
32.·
在没有标注的政治理论语料文本上自动抽取政治理论知识;抽取的政治理论知识为前面提到的概念,如“共同富裕”“高质量发展”“三去一降一补”等;
33.·
专家判断抽取政治理论知识质量,筛选出所抽取的政治理论知识并对其进行标注,作为训练政治知识抽取模型的训练文本;
34.·
使用所述训练文本基于大规模语言模型训练政治知识抽取模型;
35.·
使用训练后的政治知识抽取模型对政治理论语料库做知识抽取,得到政治理论知识;
36.·
基于政治理论知识在语料库的共现度和语义相似度,计算知识点之间的关联关系;
37.·
结合专家标注的主题词和知识结构体系,将知识图谱整合。
38.进一步地,在没有标注的文本上自动抽取政治理论知识,包括:将政治文章分词,计算所有2-gram(相邻两个字组成的文本)到k-gram(相邻k个字组成的文本)的tf-idf分数,并基于政治知识的策略对备选进行筛选,得到tf-idf分数最大的n-gram作为自动抽取的政治理论知识结果。
39.进一步地,专家需要对自动抽取的政治理论知识进行筛选,包括:剔除掉低质量的政治理论知识,加入没有被提取出来的关键政治理论知识。
40.进一步地,使用训练文本,基于大规模语言模型训练政治知识抽取模型,其中,政治知识抽取模型为训练后的序列标注模型(包括大规模预训练语言模型bert和条件随机场模型);首先使用大规模预训练语言模型bert和条件随机场模型结合得到初始的序列标注模型;将文本经过预训练模型得到的字编码作为条件随机场模型的输入,条件随机场模型输出句子序列被标注为不同标签的概率。大规模预训练语言模型bert的参数初始化为预训练的参数(可以从网上下载获取相关参数),条件随机场模型的参数随机初始化。
41.进一步地,使用政治知识抽取模型对政治理论语料库做知识抽取,得到政治理论
知识,包括:将政治理论文章中的每个句子前后分别加上[cls]和[sep]输入序列标注模型,得到每个字的向量表示,将同一句话中所有字的向量表示输入全连接层,得到每个字的标签概率。将每个字的标签概率送入条件随机场,得到整个句子的不同标签序列的概率分数。定义标签a到标签b的转移概率为标签a后面跟着b的概率q(a,b),则将句子s标记为标签序列t=t1,t2,...,tn的概率p(t)为:
[0042][0043]
进一步地,基于政治理论知识在语料库的共现度和语义相似度,计算知识之间的关联关系,包括:两个政治知识之间的关联分数由三部分组成,分别为知识在理论文章中的共现度分数、知识之间的语义相似度分数,以及根据专家标注产生的知识之间的专家标注分数。
[0044]
进一步地,结合专家标注的主题词和知识结构体系,将知识图谱整合,包括:将专家标注的带上下位结构的知识体系,与机器自动生成的知识图谱的知识对齐,将知识体系中专家标注的主题词之间的上下位关系融入知识图谱。
[0045]
本发明的优点如下:
[0046]
1.在无标注文本上自动抽取知识点,为专家标注节省精力;
[0047]
2.在政治理论知识的场景比较匹配,可以从文本中抽取出政治理论知识、构建理论知识之间的关联;
[0048]
3.能够融合专家的知识,使整个知识库内容更加准确、可信度更高。
附图说明
[0049]
图1为本发明实施例中输入输出结果示意图。
具体实施方式
[0050]
下面对本发明实施实例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051]
本发明实例基于政治理论文本,以及专家设计的知识体系得到数据集。本领域技术人员应该清楚地明白,在具体实施过程中也可以采取其他候选信息集。
[0052]
具体地,该实例来自于任选的政治著作内容,和新闻联播的文字稿。
[0053]
步骤一:在没有标注的文本上自动抽取政治理论知识:
[0054]
将政治文章的句子分词。分词使用的是现有的jieba软件包,将句子s分成一个词语的列表w={w1,w2,...,wn},同时预测每个词的词性,得到每个词的词性列表t={t1,t2,...,tn}。
[0055]
将词语列表w中的词组合,得到所有k-gram的结果。具体地,句子s中k-gram的结果有{w1w2...wk,w2w3...w
k+1
,...,wiw
i+1
...w
i+k-1,...,w
n-k+1wn-k+2
...wn}。在实际中,我们取所有1《=k《=3的k-gram作为备选结果。
[0056]
在所有的k-gram中,还要进行一次筛选,以得到最终的分词结果。筛选是按照短语中的词性组合规则进行筛选的,筛选规则如下:
[0057]
·
一个词组成的词组,长度小于两个字的,从结果中删去;
[0058]
·
包含标点的词组,从结果中删去;
[0059]
·
包含连词、副词、叹词、拟声词、介词、代词、助词、语气词、时间词的词组,从结果中删去;
[0060]
·
包含[

改变’,

希望’,

提出’,

包括’,

推进’,

提高’,

构建’,

加强’,

继续’]等虚内容词的词组,从结果中删去;
[0061]
·
所有以名词+动词形式的词组,从结果中删去;
[0062]
·
最后一个字是数字或形容词的词组,从结果中删去;
[0063]
·
对于所有两个词组成的词组,如果是动词+名词或者名词+动词的结构,从结果中删去;
[0064]
·
开头或结尾是方位词的词组,从结果中删去;
[0065]
·
不包含名词的词组,从结果中删去;
[0066]
·
第一个词是动词的词组,从结果中删去。
[0067]
经过以上步骤,可以为每一篇文章计算出文章中所有词组的结果,作为抽取政治理论知识的备选。
[0068]
接下来,计算每个k-gram词组在语料库中的tf-idf。词频tf指一个词在一篇文章中的词频,其表达式为:
[0069][0070]
其中,md为k-gram词组在文章中出现的次数,nd为这篇文章的总词组数量。
[0071]
逆文档频率频idf的表达式为:
[0072][0073]
其中,p为语料库的文档总数,q为语料库中包含该词组的文档数。
[0074]
tf-idf分数计算的表达式为:
[0075]
tf-idf=tf
×
idf
[0076]
在一篇文章计算得到的词组的tf-idf分数结果中,对于同样分数的两个词组a,b,如果b被a完全包含,则将b的分数调低,以此保留更长的词组作为政治理论知识。
[0077]
将一个词组在每一篇文章中的tf-idf分数相加,得到这个词组在整个知识库中,作为一个政治理论知识的分数。将所有词组的分数排序,取最大的top k个,就得到机器自动抽取的政治知识集合。
[0078]
步骤二:专家判断抽取政治理论知识质量,筛选优质结果:
[0079]
专家对抽取的政治理论知识进行人工评价,在自动抽取的政治理论知识中删去不合理的结果。同时,如果有遗漏的关键政治理论,还会专门补充。对于补充的政治理论结果,算法会有针对性地改进策略以免后续的遗漏。
[0080]
步骤三:使用专家筛选过的机器自动抽取政治知识结果,基于大规模语言模型训练政治知识抽取模型:
[0081]
基于专家筛选后的政治知识,经过处理获得有监督训练数据:使用bio标签,政治理论知识的第一个字标注为b,政治理论知识中其余字标注为i,剩下的字标为o。将文章分成句子,每个句子作为一条样本输入预训练模型。将句子序列输入预训练模型,得到每个字的表示。将句子的表示通过一个全连接层,并通过softmax获得归一化的原始概率,即每个字属于三个标签的概率。将原始概率序列输入条件随机场,获得与转移概率相乘后的最大序列概率对应的标签序列。训练时采用最大似然优化,优化函数为:
[0082][0083]
其中ti代表第i个字的真实标签,pi(ti)表示第i个字为标签ti的概率。预测时,选择概率最大的标签序列。通过解码,得到句子中包含的所有政治理论知识。
[0084]
步骤四:基于政治理论知识在语料库的共现和语义相似度,计算知识之间的关联关系:
[0085]
两个政治知识之间的关联分数由三部分组成,分别为知识在理论文章中的共现分数、知识之间的语义相似度分数,以及专家标注产生的知识联系分数。
[0086]
知识在理论文章中的共现分数通过两个知识在不同粒度共线的分数加权得到。对于两个知识,如果他们在n1个句子中共现,在n2个段落中共现,在n3篇文章中共现,则他们的共现分数为c
ij
=(a*n1+b*n2+c*n3)
p
。其中a,b,c是句子共现、段落共现、文章共现分别的权重。
[0087]
得到知识库中每一对知识的共现分数之后,我们将找到共现分数的最大值c
max
,将所有共现分数除以c
max
,使共现分数范围归一化在0和1之间。
[0088]
知识之间的语义相似度分数通过语义相似度模型计算得到。通过对知识i,j编码模型,得到知识的向量化表示ei,ej,再计算两个向量之间的余弦相似度,得到语义相似度分数:
[0089][0090]
专家标注产生的知识联系分数通过专家的标注自然产生。如果知识i,j被专家在同一句中共现标注l次,则知识i,j之间的专家标注分数为:
[0091]zij
=z*l
[0092]
类似于共现分数的归一化,专家标注分数也将归一化到0和1之间的区间。
[0093]
最终的知识间的关联分数为:
[0094]rij
=c*c
ij
+s*s
ij
+z*z
ij
[0095]
步骤五:结合专家标注的主题词和知识结构体系,将知识图谱整合:
[0096]
专家为每个领域标注了三级知识体系,即一级知识主题词、二级知识主题词和三级知识主题词。本步骤需要将专家标注的知识体系与机器抽取的知识库进行融合。专家知识体系与机器抽取知识库的融合可以分成三步:知识的对齐、知识之间关联的聚合、主题词与知识之间关联的计算。
[0097]
知识的对齐通过字符匹配的方式得到。如果专家标注的主题词与机器抽取的主题词字符完全一致,或者只有标点或空格的差别,则认为这两个词为同一个知识。如果专家标
注的主题词不对应机器抽取的知识,则认为这个标注的主题词是新的知识。最后得到知识的全集,合并到机器抽取的知识库中。
[0098]
知识之间关联的聚合是将机器抽取的关联(图谱中有连接关系的两个知识之间存在关联)和专家标注的关联聚合。专家标注会标出知识之间的上下位关系,例如,一级主题词包含了k个二级主题词,则自然诱导出k个上下位关系的知识对。我们将专家标注的上下位关系作为一种新的关系类型,合并到机器抽取的知识库中。
[0099]
主题词与知识之间的关联,是要在新的维度上专门计算出专家标注的主题词与机器抽取的知识之间的专家关联分数。专家标注的主题词w
theme
与机器抽取的知识点w
robot
之间的关联分数,由w
theme
和w
robot
之间的所有关联关系分数之和加权得到;关联关系分数特指主题词与知识之间的关联,通过专家标注获得。专家为每个主题词标注了相关的关键词集合{w
r1
,w
r2
,...,w
rn
},则专家关联分数计算的表达式为:
[0100][0101]
最后得到的知识库中,包含具有关联分数的边、具有上下位关系的边和具有专家关联分数的边,从而根据知识间的连接关系得到政治理论知识图谱。
[0102]
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1