野外地质工作智能问答推荐系统设计方法、设备及介质

文档序号:37637819发布日期:2024-04-18 17:56阅读:9来源:国知局
野外地质工作智能问答推荐系统设计方法、设备及介质

本发明涉及地质领域和信息检索领域,尤其涉及一种野外地质工作智能问答推荐系统设计方法、设备及介质。


背景技术:

1、随着野外地质工作的推进,通过大数据和人工智能技术方法实现野外地质调查工作的信息支撑力度,打造野外地质尖兵成为新一论战略找矿行动中的急切需求,本专利提出了一种基于地质矿产领域的知识图谱为驱动的实现野外地质调查工作知识推荐的设计方法和介质,实现野外地质工作人员信息快速获取,提升野外地质工作的质量和效率

2、矿产领域智能问答推荐系统充分考虑到野外地质调查工作的实际应用场景,根据应用场景设定相应的问题场景和分类,根据问题的分类,有针对性的从知识图谱和其他多源数据库中获取针对性的信息,然后利用云平台和网络传输技术实现针对性推送,让野外地质人员使用方便、获取信息高效、直接。

3、在构建矿产领域知识图谱的基础上,基于知识图谱中所蕴含的专家知识,针对野外地质调查中会实际面对的应用场景,通过对输入信息进行语义解析,利用语义匹配、知识检索与推理、知识推荐和自动摘要等相关技术基础,可以实现野外地质调查疑难问题的知识问答,将野外地质勘查区地质资料、研究区工作基础、已有工作情况和研究趋势以知识的方式进行呈现,为地质矿产调查提供全流程的知识问答、知识推荐和相关主题的知识集成,为野外地质矿产调查人员提供实际服务帮助。

4、现有技术基于知识图谱构建问答系统的相关技术涉及的领域实体语义关系较为简单、数量较少,且没有面向领域中的实际应用场景,因而不能有针对性地推送相关知识,无法很好地回答野外地质调查人员在工作中实际关心的问题。


技术实现思路

1、为了解决上述问题,本发明提供了一种野外地质工作智能问答推荐系统设计方法、设备及介质,一种野外地质工作智能问答推荐系统设计方法,包括以下步骤:

2、s1、构建地质矿产领域知识库,包括知识图谱数据库、问题模板数据库和原始文档数据库;

3、s2、获取地质领域输入问题;

4、s3、对输入问题进行语义解析,识别实体和语义关系信息;

5、s4、采用预训练好的深度学习模型对输入问题进行模板匹配,得到最符合问题的模板;

6、s5、建立问题模板与cypher查询语句对应关系,通过输入问题的实体和语义关系信息和最符合问题的模板确定查询语句;

7、s6、利用查询语句从知识图谱数据库中获取查询结果,以节点图和短摘要的形式表达;

8、s7、利用查询语句的三元组数据匹配原始文档数据库,得到原始文档及其可视化图谱。

9、进一步地,地质矿产领域知识库包括知识图谱数据库、问题模板数据库和原始文档数据库。

10、知识图谱数据库作为野外地质调查工作智能问答推荐系统的知识驱动核心,一方面保证了地质矿产领域实体和关系丰富、语义齐全,以实现对矿床的成矿机理研究及成矿预测;另一方面保证了相关矿产知识全方位覆盖,以为野外地质调查工作提供科学服务。为构建高质量知识图谱数据库,本专利做了充分的语料准备,广泛收集了地质矿产领域内大量、多形式的文字资料,涉及行业调查报告、地质图、地质志、专业书籍、期刊文献、互联网百科以及全国资源潜力评价数据库。通过对多源数据进行深度挖掘所构建的知识图谱,涉及面广、语义丰富、逻辑严密,能有效实现对各类型矿床成矿机理和预测的知识推理、对野外实际应用场景的知识推荐,真正为野外地质调查工作和决策提供精准服务。

11、知识图谱数据库的构建过程为:

12、s111、根据地质矿产领域的知识模型,从非结构性文本数据中和关系数据库中抽取地质矿产领域知识模型中定义的实体和语义关系,构建地质矿产领域的三元组;

13、s112、将三元组知识融合,利用知识图谱技术构建地质矿产领域知识图谱库;

14、s113、利用通用api接口+实体名称的方法实现地质矿产领域知识图谱库中实体与互联网百科术语信息的关联,得到内容更加丰富的地质矿产领域知识图谱数据库。

15、进一步地,问题模板数据库用于问题模板匹配,其构建过程为:

16、s121、基于野外地质工作问题和矿产知识针对性制作问题模板;

17、s122、将问题模板按知识点需求场景进行分类,包括成矿构造、蚀变的类型、岩石的类型和描述,分条分组储存于问题模板数据库中;

18、问题模板的设计是依据野外地质调查应用场景为用户提供一种标准化的方式来表达他们的问题,可以更好地理解用户的意图并提供准确的答案。通过设计问题模板,系统可以根据问题的领域或类别对其进行分类,这有助于提高理解用户意图的精确度,加快问题模板匹配的检索速度,进而提供与问题相关的准确答案。

19、问题模板类别包含事实类和判断类,事实类问题涉及到客观真实信息,包括特定事实、定义、描述、数量、时间和原因,基于原始文档数据库中的事实进行明确客观的回答,通过知识图谱的查找或推理来确定;判断类问题是指从给定的选项中选择、分类或判断正确答案的问题,基于判据和规则进行选择或判断,单一的确定性答案。

20、进一步地,原始文档数据库存储查询结果的对应原始文档,其构建过程为:

21、s131、将地质矿产调查报告、书籍和文档的文本与矿产领域的期刊文献和硕博论文的文本统一转换为pdf文档;

22、s132、通过ocr技术将pdf文档转化成电子可编辑文档,校正文本错误;

23、s133、利用深度学习方法提取地质文档中的三元组,将其作为元数据进行标记记录。

24、进一步地,步骤s3具体为:

25、s31、利用地质领域字典增强的lexicon-bert-bilstm+crf识别输入问题中实体信息;

26、s32、利用bert-casrel算法识别输入问题中的语义关系信息。

27、进一步地,深度学习模型的预训练过程为:

28、s401、抽取知识图谱中的蕴含的实体和语义关系,根据问题模板生成问题实例,将同类型的问题实例两两匹配构建相似语义的句子对作为预训练问答对;

29、s402、利用sentencetransformer python库,调用multiple negatives rankingloss损失函数,利用预训练问答对训练multi-qa-mpnet-base-dot-v1模型,得到适用于地质矿产问答的geo-multi-qa-mpnet-base-dot-v1深度学习模型。

30、进一步地,步骤s4具体为:

31、s41、利用geo-multi-qa-mpnet-base-dot-v1模型将输入问题和问题模板分别嵌入到高维向量空间得到嵌入向量;

32、s42、计算输入问题的嵌入向量与问题模板的嵌入向量间的语义相似度分值,以简单余弦相似度表达,公式如下:

33、

34、其中,ai代表问题模板的嵌入向量,bi代表输入问题的嵌入向量,similarity表示前两者之间的语义相似度分值,cos()表示余弦相似度;

35、s43、将语义相似度分值最高的问题模板作为最符合问题的模板。

36、进一步地,步骤s5具体为:

37、s51、建立问题模板与cypher查询语句的对应关系,并按同义词、近义词的语义关系扩展查询语句所查询的范围;

38、s52、获取最符合问题的模板对应的cypher模糊查询语句;

39、s53、将输入问题中的实体和语义关系嵌入cypher模糊查询语句,得到完成的cypher查询语句。

40、进一步地,步骤s6具体为:

41、s61、利用完成的cypher查询语句在知识图谱数据库中获取查询结果三元组;

42、s62、利用结点图的形式,将查询结果三元组信息进行人机交互式表达,用户可以获得实体以及实体之间的语义信息,同时可以通过拖拽获得更深层次信息;

43、s63、在问题模板和查询语句模板的基础上,针对野外地质工作的知识需求场景,构建回答问题的短摘要模板,将查询结果三元组信息嵌入短摘要模板中自动形成符合语言特征的短摘要文本。

44、短文本摘要是野外地质调查知识问答推荐系统的关键内容,是对用户问题的最直接回答,因此需要内容完整、符合语义表达形式。因此,首先通过分析实体三元组的结构,梳理出不同关系的语义,根据语义设计出相应的摘要内容模板;在此基础上,对接上一步查询的结果实现内容的读取,首先检测查询结果是否为空,即输入的实体信息是否有缺失,再使用实体和问题根据不同关系对定制好的模板进行匹配,并按头实体、关系模板、尾实体、结束词的顺序进行组合,得到摘要回答的主体部分;最后将结果与旁白语句组合得到完整的事实类或判断类摘要回答,并根据语言习惯对生成的语句进行逻辑排序从而更符合短摘要的表达形式。

45、进一步地,步骤s7具体为:

46、为满足原始文档需求,将文档数据库原始文档存储的元数据与查询结果三元组数据进行匹配,原始文档展示与查询结果三元组相似度最高的原始文档三元组集合对应的原始文档;图谱可视化由尾实体语句溯源完成,将查询语句的尾实体与相似度最高的原始文档进行逐句匹配,检索出尾实体所对应的原始文档语句来源;

47、原始文档信息的推荐基于匹配系数从大到小依次列出,在终端值显式知识点,前后页展示文档信息,以实现原始文档信息的保密。

48、原始文档查询将基于用户问题和查询结果从文档库中索引出相关度最高的原始文档进行展示。首先对原始文档数据库中整理的每篇文档进行实体和关系的抽取,构建出每篇文档对应的一个三元组集合;接着利用输入问题的查询结果三元组分别与每篇文档的三元组集合计算相似度,得到相似度最高的三元组集合;最后根据该三元组集合对应的文档名称提取出相应的原始文档。

49、经过原始文档查询可以获得与输入问题最接近的原始文档,但由于文档中内容较多且杂,用户不容易在其中很快找到输入问题对应的出处,于是将输入问题查询结果中的尾实体与相似度最高的原始文档进行逐句匹配,从而检索出每个尾实体所对应的原始文档语句来源,方便用户快速直观地获得查询结果的出处,也进一步增强了问答的可靠性。

50、一种存储介质,所述介质存储指令及数据用于实现一种野外地质工作智能问答推荐系统设计方法。

51、一种计算机设备,包括:处理器及所述介质;所述处理器加载并执行所述介质中的指令及数据用于实现一种野外地质工作智能问答推荐系统设计方法。

52、本发明提供的技术方案带来的有益效果是:本发明通过构建地质矿产领域知识库、获取地质领域输入问题、对输入问题进行语义解析,识别实体和语义关系信息、采用预训练好的深度学习模型对输入问题进行模板匹配,得到最符合问题的模板、建立问题模板与cypher查询语句对应关系,通过输入问题的实体和语义关系信息和最符合问题的模板确定查询语句、利用查询语句从知识图谱中获取查询结果,以节点图和短摘要的形式表达、利用查询语句的三元组数据匹配原始文档数据库,得到原始文档及其可视化图谱,综合考虑地质矿产领域野外地质调查的实际应用场景,使用简单方便、信息获取快捷高效,能真正解决野外地质调查工作者的急难愁盼问题,从而为决策和调查提供科学服务与指导。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1