本技术涉及数据处理,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术:
1、大语言模型(large language model,llm),是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。千亿参数的大语言模型具有较好的自然语言理解能力和基于海量数据的常识知识,基于大语言模型在对话系统领域已经取得了最新的里程碑式的应用。
2、然而,目前的大语言模型在处理垂直领域的自然语言任务时,由于无法感知领域性知识的内容,使得数据处理的时效性和准确性难以得到保障,模型处理效果不够理想。
技术实现思路
1、本技术实施例的目的在于提供一种数据处理方法、装置、电子设备及存储介质,以解决目前的大语言模型在处理垂直领域的自然语言任务时,数据处理的时效性和准确性难以得到保障的问题。具体技术方案如下:
2、第一方面,本技术提供了一种数据处理方法,包括:
3、获取问话数据及所述问话数据对应的场景领域;
4、基于所述场景领域确定所述问话数据对应的数据补充策略,以及,基于所述场景领域确定所述问话数据对应的领域知识图谱;
5、基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果;
6、基于所述领域知识图谱对所述问话数据进行推理,得到对应的推理结果;
7、将所述补充结果和所述推理结果输入至大语言模型,以由所述大语言模型输出所述问话数据对应的回答数据。
8、在一个可能的实施方式中,所述数据补充策略包括参数提取策略和参数配置策略,所述基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果,包括:
9、基于所述参数提取策略提取所述问话数据对应的第一补充数据;
10、基于所述参数配置策略配置所述问话数据对应的第二补充数据;
11、将所述第一补充数据和所述第二补充数据,作为所述补充结果。
12、在一个可能的实施方式中,所述第一补充数据包括:所述问话数据的咨询时间、所述问话数据的咨询地点、所述问话数据对应的回答范围及所述问话数据对应的行为分类中的一项或多项。
13、在一个可能的实施方式中,所述第二补充数据包括:所述大语言模型对应的回答场景、所述大语言模型模拟的人物身份、所述大语言模型对应的输出策略及所述大语言模型返回结果的数量中的一项或多项。
14、在一个可能的实施方式中,所述基于所述场景领域确定所述问话数据对应的数据补充策略,包括:
15、获取预设的参数配置策略集合以及预设的参数提取策略;
16、在所述参数配置策略集合中,确定所述场景领域对应的参数配置策略;
17、将所述参数提取策略和所述场景领域对应的参数配置策略,确定为所述问话数据对应的数据补充策略。
18、在一个可能的实施方式中,所述基于所述领域知识图谱对所述问话数据进行推理,得到对应的推理结果,包括:
19、抽取所述问话数据中的实体和关系,得到对应的实体关系三元组;
20、基于所述实体关系三元组生成图数据库查询语言;
21、基于所述图数据库查询语言在所述领域知识图谱中进行查询操作,得到所述问话数据对应的推理结果。
22、在一个可能的实施方式中,所述基于所述场景领域确定所述问话数据对应的领域知识图谱,包括:
23、获取所述场景领域对应的领域样本数据;
24、基于所述领域样本数据构建所述问话数据对应的领域知识图谱。
25、第二方面,本技术提供了一种数据处理装置,包括:
26、获取模块,用于获取问话数据及所述问话数据对应的场景领域;
27、确定模块,用于基于所述场景领域确定所述问话数据对应的数据补充策略,以及,基于所述场景领域确定所述问话数据对应的领域知识图谱;
28、补充模块,用于基于所述数据补充策略对所述问话数据进行补充处理,得到对应的补充结果;
29、推理模块,用于基于所述领域知识图谱对所述问话数据进行推理,得到对应的推理结果;
30、输入模块,用于将所述补充结果和所述推理结果输入至大语言模型,以由所述大语言模型输出所述问话数据对应的回答数据。
31、在一个可能的实施方式中,所述数据补充策略包括参数提取策略和参数配置策略,所述补充模块,具体用于:
32、基于所述参数提取策略提取所述问话数据对应的第一补充数据;
33、基于所述参数配置策略配置所述问话数据对应的第二补充数据;
34、将所述第一补充数据和所述第二补充数据,作为所述补充结果。
35、在一个可能的实施方式中,所述第一补充数据包括:所述问话数据的咨询时间、所述问话数据的咨询地点、所述问话数据对应的回答范围及所述问话数据对应的行为分类中的一项或多项。
36、在一个可能的实施方式中,所述第二补充数据包括:所述大语言模型对应的回答场景、所述大语言模型模拟的人物身份、所述大语言模型对应的输出策略及所述大语言模型返回结果的数量中的一项或多项。
37、在一个可能的实施方式中,所述确定模块,具体用于:
38、获取预设的参数配置策略集合以及预设的参数提取策略;
39、在所述参数配置策略集合中,确定所述场景领域对应的参数配置策略;
40、将所述参数提取策略和所述场景领域对应的参数配置策略,确定为所述问话数据对应的数据补充策略。
41、在一个可能的实施方式中,所述推理模块,具体用于:
42、抽取所述问话数据中的实体和关系,得到对应的实体关系三元组;
43、基于所述实体关系三元组生成图数据库查询语言;
44、基于所述图数据库查询语言在所述领域知识图谱中进行查询操作,得到所述问话数据对应的推理结果。
45、在一个可能的实施方式中,所述确定模块,具体用于:
46、获取所述场景领域对应的领域样本数据;
47、基于所述领域样本数据构建所述问话数据对应的领域知识图谱。
48、第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
49、存储器,用于存放计算机程序;
50、处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
51、第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
52、第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据处理方法。
53、本技术实施例有益效果:
54、本技术实施例提供了一种数据处理方法、装置、电子设备及存储介质,本技术实施例中,首先,获取问话数据及问话数据对应的场景领域,然后,基于场景领域确定问话数据对应的数据补充策略,以及,基于场景领域确定问话数据对应的领域知识图谱,进而,基于数据补充策略对问话数据进行补充处理,得到对应的补充结果,以及,基于领域知识图谱对问话数据进行推理,得到对应的推理结果,最后,将补充结果和推理结果输入至大语言模型,以由大语言模型输出问话数据对应的回答数据。如此,可以通过领域知识图谱对问话数据的推理结果,以及,场景领域对应数据补充策略对问话数据的补充结果,对大语言模型进行引导,从而提高大语言模型在该场景领域上进行数据处理的时效性和准确性,改善模型处理效果。
55、当然,实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。