本发明涉及计算机,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术:
1、现有的问题搜索的模式都是用户在输入框输入要搜索的问题,然后搜索引擎根据用户输入的内容在海量的网络数据中进行文本匹配,得到搜索结果并返回至用户,或者是基于pipeline模式实现用户的问答,上述方式通常使用预定义的规则和流程来处理用户输入的问题或信息,而不是真正理解问题的含义,得到的搜索结果与用户的期望不符,导致用户体验较差,无法得到满意的答案,因此,如何提高用户问答效率成为了亟待解决的技术问题。
2、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本发明的主要目的在于提供了一种数据处理方法、装置、设备及存储介质,旨在解决现有技术在用户进行问答时,由于不能准确理解用户的意图导致问答效率不高的技术问题。
2、为实现上述目的,本发明提供了一种数据处理方法,所述方法包括以下步骤:
3、获取用户输入的待处理问答信息,根据所述待处理问答信息确定目标问题;
4、对所述目标问题进行向量编码,得到所述目标问题对应的目标向量;
5、基于所述目标向量在预设向量数据库中进行检索,得到检索结果,所述检索结果包括文本片段和/或问答对;
6、根据所述检索结果的文本类型确定目标prompt模板,并将所述检索结果与所述目标prompt模板进行拼接,得到拼接结果;
7、将所述拼接结果和所述待处理问答信息输入至预设大语言模型,得到所述预设大语言模型输出的问答结果。
8、可选地,所述获取用户输入的待处理问答信息,根据所述待处理问答信息确定目标问题的步骤之前,还包括:
9、对预设知识文档进行文本拆分,得到所述预设知识文档对应的文本片段;
10、将所述文本片段与预设prompt模板进行拼接,得到文本片段拼接结果;
11、将所述文本片段拼接结果输入至预设大语言模型,以使所述预设大语言模型基于所述文本片段拼接结果生成问答对;
12、基于所述问答对构建预设向量数据库。
13、可选地,所述对预设知识文档进行文本拆分,得到所述预设知识文档对应的文本片段的步骤之后,还包括:
14、对所述文本片段进行向量编码,得到文本向量;
15、根据所述文本向量和所述问答对构建预设向量数据库。
16、可选地,所述对预设知识文档进行文本拆分,得到所述预设知识文档对应的文本片段的步骤,包括:
17、确定预设知识文档的文档结构;
18、根据所述文档结构确定所述预设知识文档的文档标题和正文段落;
19、基于预设句子边界检测算法对所述正文段落进行文本拆分,得到拆分结果;
20、根据所述拆分结果和所述文档标题确定所述预设知识文档对应的文本片段。
21、可选地,所述基于所述目标向量在预设向量数据库中进行检索,得到检索结果的步骤之后,还包括:
22、在所述检索结果中包含预设问答对时,确定所述预设问答对中的预设问题信息;
23、确定所述目标问题与所述预设问题信息中各个预设问题的文本相似度;
24、根据所述文本相似度从所述预设问题中选取第一问题;
25、对所述第一问题进行关键词提取和词性标注,得到标注结果;
26、根据所述标注结果确定所述第一问题与所述目标问题的语义相似度;
27、在所述语义相似度大于预设语义相似度阈值时,获取所述第一问题对应的问答对信息,并根据所述问答对信息确定问答结果。
28、可选地,所述获取用户输入的待处理问答信息,根据所述待处理问答信息确定目标问题的步骤,包括:
29、获取用户输入的待处理问答信息;
30、对所述待处理问答信息进行词频统计,得到词频统计结果;
31、对所述待处理问答信息进行词性分析,得到词性分析结果;
32、根据所述词频统计结果、所述词性分析结果以及所述待处理问答信息对应的语义信息确定目标问题。
33、可选地,所述将所述检索结果与目标prompt模板进行拼接,得到拼接结果的步骤,包括:
34、获取历史会话信息;
35、基于所述目标prompt模板对所述历史会话信息和所述检索结果进行拼接,得到拼接结果。
36、此外,为实现上述目的,本发明还提供一种数据处理装置,所述装置包括:
37、获取模块,用于获取用户输入的待处理问答信息,根据所述待处理问答信息确定目标问题;
38、向量编码模块,用于对所述目标问题进行向量编码,得到所述目标问题对应的目标向量;
39、检索模块,用于基于所述目标向量在预设向量数据库中进行检索,得到检索结果,所述检索结果包括文本片段和/或问答对;
40、拼接模块,用于根据所述检索结果的文本类型确定目标prompt模板,并将所述检索结果与所述目标prompt模板进行拼接,得到拼接结果;
41、预测模块,用于将所述拼接结果和所述待处理问答信息输入至预设大语言模型,得到所述预设大语言模型输出的问答结果。
42、此外,为实现上述目的,本发明还提出一种数据处理设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序配置为实现如上文所述的数据处理方法的步骤。
43、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上文所述的数据处理方法的步骤。
44、本发明获取用户输入的待处理问答信息,根据所述待处理问答信息确定目标问题;对所述目标问题进行向量编码,得到所述目标问题对应的目标向量;基于所述目标向量在预设向量数据库中进行检索,得到检索结果,所述检索结果包括文本片段和/或问答对;根据所述检索结果的文本类型确定目标prompt模板,并将所述检索结果与所述目标prompt模板进行拼接,得到拼接结果;将所述拼接结果和所述待处理问答信息输入至预设大语言模型,得到所述预设大语言模型输出的问答结果。由于本发明是先进行向量检索,得到检索结果,再基于预设大语言模型得到问答结果,相对于现有的通过计算文本相似度将得到的搜索结果作为问答结果的方式,本发明上述方式通过预设大语言模型和向量检索得到的拼接结果确定问答结果,能够提供符合用户期望的问答结果。
1.一种数据处理方法,其特征在于,所述数据处理方法包括以下步骤:
2.如权利要求1所述的数据处理方法,其特征在于,所述获取用户输入的待处理问答信息,根据所述待处理问答信息确定目标问题的步骤之前,还包括:
3.如权利要求2所述的数据处理方法,其特征在于,所述对预设知识文档进行文本拆分,得到所述预设知识文档对应的文本片段的步骤之后,还包括:
4.如权利要求3所述的数据处理方法,其特征在于,所述对预设知识文档进行文本拆分,得到所述预设知识文档对应的文本片段的步骤,包括:
5.如权利要求1-4任一项所述的数据处理方法,其特征在于,所述基于所述目标向量在预设向量数据库中进行检索,得到检索结果的步骤之后,还包括:
6.如权利要求1-4任一项所述的数据处理方法,其特征在于,所述获取用户输入的待处理问答信息,根据所述待处理问答信息确定目标问题的步骤,包括:
7.如权利要求1-4任一项所述的数据处理方法,其特征在于,所述将所述检索结果与目标prompt模板进行拼接,得到拼接结果的步骤,包括:
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
9.一种数据处理设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序配置为实现如权利要求1至7中任一项所述的数据处理方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1至7任一项所述的数据处理方法的步骤。