本发明涉及医学知识库构建,特别是涉及一种医疗知识库构建方法、装置、电子设备及存储介质。
背景技术:
1、医学知识库是将医学期刊文献、医学指南、医学教材、药品说明书等可信的医学知识提炼以要点的形式向医生和医疗从业人员提供知识服务,是医生和医疗从业人员医疗、学习过程中使用较多的工具。
2、随着医学研究的不断发展,医疗文献数量庞大,研究人员、医生和决策者需要从这些文献中获取最新的、有用的信息。因此,在医疗领域,建立一个包含丰富信息的知识库对于支持医学研究、临床实践和医学决策至关重要,而这样的知识库需要不断更新,来反映最新的医学知识。但是现有的医学文献检索方法中所检索到的医学知识通常整篇展示,或者检索出大量的医学文献文本,这就导致了用户在获取所需医学知识的过程中需要浏览的文本数据较多,降低了所需医学知识获取的效率,且由于大量的医学文献被检索出来的过程中缺少严格的信息过滤,较易导致信息过载的问题产生。
3、因此,现有的医学文献检索方法由于不具备更加完善的知识库,其医疗知识检索效率较低且较易产生信息过载的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高医疗知识检索效率且能够避免信息过载问题的医疗知识库构建方法、装置、电子设备及存储介质。
2、本发明提供了一种医疗知识库构建方法,所述方法包括:
3、获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建prompt模板库,所述prompt模板库适用于所述不同医学场景中的任一医学场景;
4、对所述医学文本数据进行段落切分,得到第一段落,并从所述prompt模板库中获取与所述第一段落的医学场景相对应的第一prompt模板,以构建第一提示对话框;
5、调用大语言模型对所述第一提示对话框进行处理,以输出所述第一段落对应的第一文本数据,所述第一文本数据为所述第一段落的标准化文本;
6、构建所述医学文本数据的标量库和向量库,并对所述标量库和向量库进行检索,以召回与所述第一文本数据相似度超过第一阈值的多个第二段落,所述标量库和向量库包括单篇医学文本库和整体医学文本库;
7、从所述prompt模板库提取与每个所述第二段落的医学场景相对应的第二prompt模板,并根据所述第二prompt模板构建第二提示对话框,所述第二提示对话框用于作为所述大语言模型的输入,以输出所述第二段落与第一段落之间的答案文本。
8、在其中一个实施例中,所述获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建prompt模板库,包括:
9、从公开网站获取医学文献,基于所述医学文献获取所述医学文本数据,并对所述医学文本数据进行分析,以获取多个不同的医学场景;
10、基于每个所述医学场景对提示对话框进行优化,得到多个适用于所述不同医学场景的prompt模板,并根据所述多个适用于所述不同医学场景的prompt模板构建所述prompt模板库。
11、在其中一个实施例中,所述对所述医学文本数据进行段落切分,得到第一段落,并从所述prompt模板库中获取与所述第一段落的医学场景相对应的第一prompt模板,以构建第一提示对话框,包括:
12、对所述医学文本数据进行段落切分,以获取多个段落,所述多个段落包括所述第一段落;
13、从所述prompt模板库中提取与所述多个段落中的每个段落的医学场景相对应的prompt模板,得到多个prompt模板,所述多个prompt模板包括所述第一prompt模板;
14、基于所述多个prompt模板,构建所述多个段落中的每个段落相对应的提示对话框,得到多个提示对话框,所述多个提示对话框包括所述第一提示对话框。
15、在其中一个实施例中,所述调用大语言模型对所述第一提示对话框进行处理,以输出所述第一段落对应的第一文本数据,包括:
16、调用大语言模型对所述多个提示对话框进行处理,以输出与所述多个段落中的每个段落相对应文本数据,得到多个文本数据,所述多个文本数据包括所述第一文本数据。
17、在其中一个实施例中,所述构建所述医学文本数据的标量库和向量库,并对所述标量库和向量库进行检索,以召回与所述第一文本数据相似度超过第一阈值的多个第二段落,包括:
18、调用开源模型对所述第一文本数据进行处理,以生成所述第一段落对应的嵌入层;
19、根据所述第一段落对应的嵌入层,构建所述向量库以及与所述向量库相对应的标量库,所述标量库用于对所述医学文本数据和医学文本数据中的实体进行存储。
20、在其中一个实施例中,所述构建所述医学文本数据的标量库和向量库,并对所述标量库和向量库进行检索,以召回与所述第一文本数据相似度超过第一阈值的多个第二段落,还包括:
21、调用faiss对所述向量库进行向量检索,以召回与所述第一文本数据之间的相似度排名超过第二阈值的多个文本向量,每个文本向量对应有唯一的文本数据以及实体组;
22、按照标量实体对所述多个文本向量对应的实体组进行过滤,以获取命中的标量实体分值超过第三阈值的多个实体组,所述多个实体组为所述多个第二段落中对应的实体组。
23、在其中一个实施例中,所述从所述prompt模板库提取与每个所述第二段落的医学场景相对应的第二prompt模板,并根据所述第二prompt模板构建第二提示对话框,之后包括:
24、调用大语言模型对所述第二提示对话框进行处理,以输出所述第二提示对话框对应的答案文本数据;
25、根据所述第二提示对话框对应的答案文本数据获取所述第二段落与第一段落之间对应的标准化答案文本。
26、本发明还提供了一种医疗知识库构建装置,所述装置包括:
27、模板库构建模块,用于获取医学文本数据,并根据不同医学场景对提示对话框进行优化,以构建prompt模板库,所述prompt模板库适用于所述不同医学场景中的任一医学场景;
28、段落切分模块,用于对所述医学文本数据进行段落切分,得到第一段落,并从所述prompt模板库中获取与所述第一段落的医学场景相对应的第一prompt模板,以构建第一提示对话框;
29、模型处理模块,用于调用大语言模型对所述第一提示对话框进行处理,以输出所述第一段落对应的第一文本数据,所述第一文本数据为所述第一段落的标准化文本;
30、数据召回模块,用于构建所述医学文本数据的标量库和向量库,并对所述标量库和向量库进行检索,以召回与所述第一文本数据相似度超过第一阈值的多个第二段落,所述标量库和向量库包括单篇医学文本库和整体医学文本库;
31、文本标准化模块,用于从所述prompt模板库提取与每个所述第二段落的医学场景相对应的第二prompt模板,并根据所述第二prompt模板构建第二提示对话框,所述第二提示对话框用于作为所述大语言模型的输入,以输出所述第二段落与第一段落之间的答案文本。
32、本发明还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的医疗知识库构建方法。
33、本发明还提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的医疗知识库构建方法。
34、本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的医疗知识库构建方法。
35、上述医疗知识库构建方法、装置、电子设备及存储介质,通过获取医学文本数据,并根据不同医学场景对提示对话框进行优化,来构建适用于任一医学场景的prompt模板库。随后,对医学文本数据进行段落切分,得到目标段落,并从prompt模板库中获取与该目标段落的医学场景相对应的prompt模板,来完成对应提示对话框的构建。然后,调用大语言模型对构建的该提示对话框进行处理,以输出目标段落对应的标准化文本。构建医学文本数据的标量库和向量库,并对标量库和向量库进行检索,以召回与目标段落对应的标准化文本相似度超过设定阈值的多个文献段落。最后,从prompt模板库提取与每个文献段落的医学场景相对应的prompt模板,并根据该prompt模板构建相应的提示对话框,作为大语言模型的输入,以输出文献段落与目标段落之间的标准化答案文本。该方法结合向量检索和标量检索,并集成了大语言模型的深度理解,经过层层检索,将目标段落和文献段落都进行标准化处理,减少了最终检索结果的数量,能够有效避免信息过载的情况发生,实现了多维的医疗信息检索,提高了医疗知识检索的效率。