本发明涉及计算机,尤其涉及一种知识图谱构建方法、模型训练方法、装置和电子设备。
背景技术:
1、随着人工智能技术的不断进步,目前在教育领域推进了“教育+互联网”的发展,促进了信息技术与教育教学融合应用的出现。在这种趋势下,智慧教育的需求也日益增加。教育本质上是知识的创造、传递、接收和加工过程,因此教育与知识之间有着天然的联系。在教育智能化发展进入更高级的阶段,即"认知智能"阶段时,知识图谱作为认知智能的关键技术基础起着决定性的作用。基于教育知识图谱的应用可以实现精准教学和自适应学习等场景下的智能化应用。
2、然而,在教育领域中,传统的知识图谱构建通常需要教研老师提前根据各个学科的知识点概念建立层级关系、知识点之间的关联关系和前后序关系,并制定知识图谱建设规则,这需要耗费大量的时间和人力资源。此外,构建知识图谱所需的关键知识信息的抽取工作由数据标注人员手动从学习资料库中获取,这样的方式效率低下且容易出现遗漏或错误。
技术实现思路
1、本发明提供一种知识图谱构建方法、模型训练方法、装置和电子设备,用以解决现有技术中知识图谱构建效率低、准确性不高的缺陷。
2、本发明提供一种知识图谱构建方法,包括:
3、获取各教材版本下的书本;
4、基于知识点提取模型,对所述书本各页面的文本进行知识点提取,得到所述书本各页面的知识点;
5、基于章节预测模型,对所述书本各页面的知识点进行章节预测,得到各知识点所属的书本章节;
6、基于所述各教材版本、所述各教材版本下的书本、所述书本各页面的知识点以及所述各知识点所属的书本章节,构建知识图谱。
7、根据本发明提供的一种知识图谱构建方法,所述对所述书本各页面的文本进行知识点提取,得到所述书本各页面的知识点,包括:
8、对所述书本各页面的文本进行切分,得到所述各页面的句子片段;
9、对所述各页面的句子片段进行特征提取,得到所述各页面的句子表征向量;
10、基于所述各页面的句子表征向量,确定所述书本各页面的知识点。
11、根据本发明提供的一种知识图谱构建方法,所述对所述各页面的句子片段进行特征提取,得到所述各页面的句子表征向量,包括:
12、对任一页面的句子片段进行特征提取,得到所述句子片段的词特征向量、字特征向量和位置特征向量;
13、将所述句子片段的词特征向量、字特征向量和位置特征向量进行拼接,并对拼接后向量进行编码,得到所述句子片段的编码后向量;
14、对所述句子片段的编码后向量进行池化处理,得到所述任一页面的句子表征向量。
15、根据本发明提供的一种知识图谱构建方法,所述对所述书本各页面的知识点进行章节预测,得到各知识点所属的书本章节,包括:
16、对所述书本任一页面的任一知识点进行特征编码,得到所述任一知识点的多个字编码向量,并将所述多个字编码向量进行拼接,得到第一句子向量;
17、对所述任一知识点和所述任一知识点所在页面的文本均进行分词处理和特征提取,得到词向量,并对所述词向量进行池化处理,得到第二句子向量;
18、基于所述第一句子向量和所述第二句子向量,确定所述任一知识点所属的书本章节。
19、根据本发明提供的一种知识图谱构建方法,所述基于所述各教材版本、所述各教材版本下的书本、所述书本各页面的知识点以及所述各知识点所属的书本章节,构建知识图谱,包括:
20、获取各学习资源;
21、基于知识点预测模型,确定所述各学习资源所属的知识点,所述知识点预测模型的结构与所述章节预测模型的结构相同;
22、基于所述各教材版本、所述各教材版本下的书本、所述书本各页面的知识点、所述各知识点所属的书本章节以及所述各学习资源所属的知识点,构建所述知识图谱。
23、本发明还提供一种知识点提取模型训练方法,包括:
24、获取样本书本各样本页面的样本文本和所述各样本页面的样本知识点;
25、对所述各样本页面的样本文本进行切分,得到所述各样本页面的句子片段;
26、对所述各样本页面的句子片段和所述各样本页面的样本知识点均进行特征提取,得到所述各样本页面的句子表征向量,并基于所述各样本页面的句子表征向量,确定所述各样本页面的预测知识点;
27、基于所述各样本页面的预测知识点和所述各样本页面的样本知识点,对第一预训练模型进行参数迭代,得到知识点提取模型,所述知识点提取模型用于在知识图谱构建中对书本各页面的文本进行知识点提取,得到所述书本各页面的知识点。
28、本发明还提供一种章节预测模型训练方法,包括:
29、获取样本书本各样本页面的样本知识点、所述样本知识点所在样本页面的样本文本以及所述样本知识点所属的样本书本章节;
30、对所述样本书本任一样本页面的任一样本知识点进行特征编码,得到所述任一样本知识点的多个字编码向量,并将所述多个字编码向量进行拼接,得到第一句子向量;
31、对所述任一样本知识点、所述任一样本知识点所在样本页面的样本文本以及所述任一样本知识点所属的样本书本章节均进行分词处理和特征提取,得到样本词向量,并对所述样本词向量进行池化处理,得到第二句子向量;
32、基于所述第一句子向量和所述第二句子向量,确定所述任一样本知识点所属的预测书本章节;
33、基于所述任一样本知识点所属的预测书本章节和所述任一样本知识点所属的样本书本章节,对第二预训练模型进行参数迭代,得到章节预测模型,所述章节预测模型用于在知识图谱构建中对书本各页面的知识点进行章节预测,得到各知识点所属的书本章节。
34、本发明还提供一种知识图谱构建装置,包括:
35、书本获取单元,用于获取各教材版本下的书本;
36、知识提取单元,用于基于知识点提取模型,对所述书本各页面的文本进行知识点提取,得到所述书本各页面的知识点;
37、章节确定单元,用于基于章节预测模型,对所述书本各页面的知识点进行章节预测,得到各知识点所属的书本章节;
38、图谱构建单元,用于基于所述各教材版本、所述各教材版本下的书本、所述书本各页面的知识点以及所述各知识点所属的书本章节,构建知识图谱。
39、本发明还提供一种知识点提取模型训练装置,包括:
40、第一获取单元,用于获取样本书本各样本页面的样本文本和所述各样本页面的样本知识点;
41、文本切分单元,用于对所述各样本页面的样本文本进行切分,得到所述各样本页面的句子片段;
42、知识预测单元,用于对所述各样本页面的句子片段和所述各样本页面的样本知识点均进行特征提取,得到所述各样本页面的句子表征向量,并基于所述各样本页面的句子表征向量,确定所述各样本页面的预测知识点;
43、第一训练单元,用于基于所述各样本页面的预测知识点和所述各样本页面的样本知识点,对第一预训练模型进行参数迭代,得到知识点提取模型,所述知识点提取模型用于在知识图谱构建中对书本各页面的文本进行知识点提取,得到所述书本各页面的知识点。
44、本发明还提供一种章节预测模型训练装置,包括:
45、第二获取单元,用于获取样本书本各样本页面的样本知识点、所述样本知识点所在样本页面的样本文本以及所述样本知识点所属的样本书本章节;
46、第一处理单元,用于对所述样本书本任一样本页面的任一样本知识点进行特征编码,得到所述任一样本知识点的多个字编码向量,并将所述多个字编码向量进行拼接,得到第一句子向量;
47、第二处理单元,用于对所述任一样本知识点、所述任一样本知识点所在样本页面的样本文本以及所述任一样本知识点所属的样本书本章节均进行分词处理和特征提取,得到样本词向量,并对所述样本词向量进行池化处理,得到第二句子向量;
48、章节预测单元,用于基于所述第一句子向量和所述第二句子向量,确定所述任一样本知识点所属的预测书本章节;
49、第二训练单元,用于基于所述任一样本知识点所属的预测书本章节和所述任一样本知识点所属的样本书本章节,对第二预训练模型进行参数迭代,得到章节预测模型,所述章节预测模型用于在知识图谱构建中对书本各页面的知识点进行章节预测,得到各知识点所属的书本章节。
50、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述知识图谱构建方法或模型训练方法。
51、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述知识图谱构建方法或模型训练方法。
52、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述知识图谱构建方法或模型训练方法。
53、本发明提供的知识图谱构建方法、模型训练方法、装置和电子设备,通过获取各教材版本下的书本,可以涵盖不同教材版本中的知识点和章节信息,使得构建的知识图谱更加全面和多样化;通过使用知识点提取模型和章节预测模型,可以自动从书本各页面的文本中提取知识点并预测其所属的章节信息,并将各书本页面的知识点和其所属的章节进行关联,不仅可以构建得到完整、准确的知识图谱,而且还可以避免传统手动标注的低效和可能的错误。此外,还可以根据最新的书本内容、知识点提取模型和章节预测模型进行实时更新,保持知识图谱得到时效性和准确性,相较于传统的人工标注方式,可以大大减少构建知识图谱所需的时间和人力成本,提高效率和效益。