一种基于文本大数据的知识图谱构建方法与流程

文档序号:36509096发布日期:2023-12-29 03:10阅读:33来源:国知局
一种基于文本大数据的知识图谱构建方法与流程

本技术涉及大数据领域,具体而言,涉及一种基于文本大数据的知识图谱构建方法。


背景技术:

1、在数据大量增长的形势下,文本数据也占有不小的比例,且文本数据的知识密度高,具有很强的挖掘价值。例如,可以通过对数据的挖掘实现横向领域或某一垂直领域的知识图谱的构建,从而利用构建的知识图谱完成更贴近实际的应用,例如智能问答软件。

2、现有的基于文本大数据的知识图谱构建方式,通常是采用bert-bgru-crf联合的模型,整体处理过程复杂,数据处理过程中计算量极大,运行效率低,难以应用于垂直领域知识图谱的高效构建。


技术实现思路

1、本技术实施例的目的在于提供一种基于文本大数据的知识图谱构建方法,以高效地实现垂直领域知识图谱的构建。

2、为了实现上述目的,本技术的实施例通过如下方式实现:

3、第一方面,本技术实施例提供一种基于文本大数据的知识图谱构建方法,知识图谱本体结构包含实体、属性及实体间关系,所述方法包括:获取文本数据集,其中,文本数据集包含多条文本信息;利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取,提取出实体、属性及实体间关系,其中,知识抽取模型用于对文本信息进行分词、编码、解码、序列标注和知识抽取;基于抽取的知识进行知识融合和存储,完成知识图谱的构建。

4、结合第一方面,在第一方面的第一种可能的实现方式中,知识抽取模型包括分词单元、编码单元、解码单元、抽取单元,利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取,提取出实体、属性及实体间关系,包括:利用分词单元对文本信息进行分词,得到分词结果;利用编码单元对分词结果进行特征提取和重编码,得到文本重编码结果;利用解码单元对文本重编码结果进行解码,得到解码结果;利用抽取单元对解码结果进行标签概率计算,得到标签序列,并对标签序列进行重排序,最终确定出实体、属性及实体间关系。

5、结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,采用hanlp工具作为文本信息的分词单元,利用分词单元对文本信息进行分词,得到分词结果,包括:

6、对文本信息进行分词:

7、,

8、,

9、,

10、其中,为输入的文本信息,表示文本信息的分词结果,对应文本信息的语义依赖树,呈有向无环图,为节点集合,为边集。

11、结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,利用编码单元对分词结果进行特征提取和重编码,得到文本重编码结果,包括:

12、对分词结果进行向量化,对于分词结果中的第个词语,假设由个单字组成,单字分别由表示,则词语的特征值为:

13、,

14、则:,

15、其中,为文本信息的特征向量;

16、使用图卷积神经网络对特征向量进行重编码,最终得到文本重编码结果:

17、,

18、,

19、,

20、;

21、其中,为文本重编码结果,图卷积神经网络共有层,每层个单元,为图卷积神经网络的第层中每个单元的输出构成的序列向量,为图卷积神经网络的第层中第个单元的输出,为图卷积神经网络的第层中第个单元与第层中第个单元之间的权重,为图卷积神经网络的第层中第个单元的输出,为图卷积神经网络的第层中第个单元的偏置项,为图卷积神经网络的输入。

22、结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,采用lstm作为解码单元,利用解码单元对文本重编码结果进行解码,得到解码结果,包括:

23、采用lstm对文本重编码结果进行解码:

24、,

25、,

26、,

27、其中,为第个时间步的输出门,为激活函数,、和为权重,分别控制当前输入对输出门的影响程度、前一时刻的隐藏状态对输出门的影响程度和当前时刻的lstm单元状态对输出门的影响程度,,为当前时间步的lstm单元状态,为偏置向量,用于调整输出门的输出值;为第个时间步的lstm最终输出,为解码结果。

28、结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,采用全连接层和改进的softmax函数构建抽取单元,全连接层与解码单元连接,标签模型采用四元组,利用抽取单元对解码结果进行标签概率计算,得到标签序列,包括:

29、采用全连接层对解码器的输出进行线性变换,得到向量:

30、,

31、其中,为与标签数量相关的向量,权重矩阵,为偏置项,;

32、采用改进的softmax函数计算标签的概率:

33、,

34、,

35、,

36、其中,为从随机噪声分布中采样的变量,为控制噪声大小的控制参数,为第个四元组,四元组中为词语位置标签,表示词语在句子中的位置;为指标类型标签,表示词语的属性类型;为主宾类型标签,表示词语的词性;为关系类型标签,表示句子中三元组的关系类型;为标签序列。

37、结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,对标签序列进行重排序,最终确定出实体、属性及实体间关系,包括:对标签序列中的各词对应的词语位置标签和主宾类型标签进行分析,确定出实体;对标签序列中的各词对应的关系类型标签进行分析,确定出实体间关系;对标签序列中的各词对应的指标类型标签计算tf-idf值,按照tf-idf值对指标类型标签进行重排序,确定出属性。

38、结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,对标签序列中的各词对应的指标类型标签计算tf-idf值,按照tf-idf值对指标类型标签进行重排序,确定出属性,包括:

39、对于标签序列中的各词对应的指标类型标签采用以下公式计算tf-idf值:

40、,

41、其中,为标签序列中的第个词对应的指标类型标签,为指标类型标签在与第个实体在文本信息中共同出现的频次,为指标类型标签与文本信息中所有实体在文本信息中共同出现的频次,为指标类型标签在整个语料库中出现的总频次,为指标类型标签在文本信息中出现的总频次;

42、利用tf-idf值对指标类型标签进行重排序,以确定出属性。

43、结合第一方面,在第一方面的第八种可能的实现方式中,基于抽取的知识进行知识融合和存储,完成知识图谱的构建,包括:对抽取的知识进行知识融合;采用neo4j图数据库对知识融合后的知识进行存储。

44、结合第一方面的第八种可能的实现方式,在第一方面的第九种可能的实现方式中,对抽取的知识进行知识融合,包括:采用基于字符串相似度的jaccard算法实现实体对齐和实体消歧,完成知识融合。

45、有益效果

46、1.本方案通过设计的知识抽取模型对文本数据集中的文本信息进行知识抽取(利用分词单元对文本信息进行分词,得到分词结果;利用编码单元对分词结果进行特征提取和重编码,得到文本重编码结果;利用解码单元对文本重编码结果进行解码,得到解码结果;利用抽取单元对解码结果进行标签概率计算,得到标签序列,并对标签序列进行重排序,最终确定出实体、属性及实体间关系),提取出实体、属性及实体间关系,进一步进行知识融合和存储,完成知识图谱的构建。这样的方式可以有效降低垂直领域的知识抽取过程中的数据计算量,从而高效实现垂直领域知识图谱的构建。

47、2.编码时引入图卷积,解码时利用lstm实现,可以实现编解码的错时同步运行,提高运行效率。而在解码单元后连接全连接层,使用改进的softmax函数计算标签的概率,将解码输出映射为四元组标签相关的向量,以便构建标签序列。之后通过对标签序列的分析即可高效准确地确定出三元组(实体、属性、实体间关系),并且,在对属性(对应指标类型标签)进行分析地过程中,进一步计算tf-idf值进行重排序,以便确定出属性,这样确定的属性,还可以反映有效性和重要性,在垂直领域的知识图谱(垂直领域内,知识图谱中实体的属性数量繁多、精细,且通常属性重要性差异不小,传统的知识图谱罗列属性的方式无法反映属性重要性)中,能够更可靠地形成更具知识反映能力的知识图谱。

48、为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1