本技术涉及人工智能领域,尤其是涉及一种内容扩展、问题答复方法、装置、系统、设备及介质。
背景技术:
1、随着人工智能技术的发展,各种各样的智能产品,如智能客服、智能机器人等得到广泛的应用,此类智能产品中配置的对话系统(或者问答系统),可以与用户进行对话,回答用户提出的问题。
2、目前,对话系统通常可以基于预先学习的知识,回答相关领域的问题,但是由于对话系统不了解用户私有知识库内的知识,不能满足用户基于私有知识库的问答和对话,例如,医疗机器人无法回答用户关于金融方面的问题。
3、可见,现有技术中智能产品的对话系统,对于用户基于私有知识库的问题无法回答,智能产品的对话功能未得到充分的利用,用户的使用体验较差。
技术实现思路
1、本技术实施例提供一种内容扩展、问题答复方法、装置、系统、设备及介质,用以对智能产品中的对话系统进行内容扩展,使其能够回答用户关于私有知识库所提出的问题,提升用户体验。
2、第一方面,本技术实施例提供一种内容扩展方法,应用于智能产品中的对话系统,包括:
3、获取用户上传的文档;
4、对所述文档进行词向量转换,获得所述文档对应的文档向量;
5、将所述文档向量存储到预先建立的向量数据库中,以在答复问题时,从所述向量数据库中确定与问题向量相似度大于预设相似度阈值的备选向量,并基于确定出的至少一个备选向量答复所述问题,所述问题向量是对所述问题进行词向量转换得到的。
6、在一种可能的实施方式中,本技术实施例提供的上述方法中,所述方法还包括:
7、利用所述对话系统中的大语言模型,生成与所述文档相关联的扩展内容,所述扩展内容包括以下至少一种:所述文档的摘要、对所述文档进行提问生成的多个文档问题、以及对所述文档的摘要进行提问生成的多个摘要问题;
8、对所述扩展内容进行词向量转换,获得所述扩展内容对应的扩展内容向量;
9、在所述向量数据库中存储所述扩展内容向量。
10、在一种可能的实施方式中,本技术实施例提供的上述方法中,所述利用所述对话系统中的大语言模型,生成与所述文档相关联的扩展内容,包括:
11、在确定所述文档包含的字符数量大于预设数量阈值时,将所述文档切分为多个文档片段;
12、若所述扩展内容包括所述文档的摘要,则利用所述大语言模型,生成所述多个文档片段对应的多级摘要;
13、若所述扩展内容包括对所述文档进行提问生成的多个文档问题,则利用所述大语言模型,对每个文档片段进行提问,生成每个文档片段对应的文档问题;
14、若所述扩展内容包括对所述文档的摘要进行提问生成的多个摘要问题,则利用所述大语言模型,生成所述多个文档片段对应的多级摘要,并对每个摘要提问,生成每个摘要对应的摘要问题;
15、其中,所述多级摘要中每一级中包含至少一个摘要,每个摘要均是基于上一级中至少一个文档片段或者至少一个摘要生成的。
16、在一种可能的实施方式中,本技术实施例提供的上述方法中,所述方法还包括:
17、获取所述文档的元信息;
18、基于所述文档的元信息,生成所述扩展内容的元信息;
19、在所述向量数据库中,与所述文档向量对应存储所述文档的元信息,与所述扩展内容向量对应存储所述扩展内容的元信息。
20、在一种可能的实施方式中,本技术实施例提供的上述方法中,所述获取用户上传的文档之后,所述方法还包括:
21、利用所述大语言模型,将所述文档和所述扩展内容分别转换为同一其他语种;
22、分别对转换后的文档和转换后的扩展内容进行词向量转换,获得转换后文档对应的文档向量和转换后扩展内容对应的扩展内容向量;
23、在所述向量数据库中存储所述转换后文档对应的文档向量和所述转换后扩展内容对应的扩展内容向量。
24、第二方面,本技术实施例提供一种问题答复方法,包括:
25、获取用户提出的问题;
26、对所述问题进行词向量转换,获得对应的问题向量;
27、在预先建立的向量数据库中,确定与所述问题向量相似度大于预设相似度阈值的备选向量,所述向量数据库中存储有至少一个文档向量,所述文档向量是对历史获取的文档进行词向量转换生成的;
28、在确定出至少一个备选向量时,基于所述备选向量答复所述问题。
29、在一种可能的实施方式中,本技术实施例提供的上述方法中,所述向量数据库中,还包括:扩展内容向量,所述扩展内容向量是对扩展内容进行词向量转换生成的,所述扩展内容是基于历史获取的文档生成的,所述扩展内容包括以下至少一种:所述历史获取的文档的摘要、对所述历史获取的文档进行提问生成的多个文档问题、以及对所述摘要进行提问生成的多个摘要问题;
30、所述在预先建立的向量数据库中,确定与所述问题向量相似度大于预设相似度阈值的备选向量,包括:
31、在所述向量数据库包括的文档向量和扩展内容向量中,确定与所述问题向量相似度大于预设相似度阈值的备选向量。
32、在一种可能的实施方式中,本技术实施例提供的上述方法中,所述在确定出至少一个备选向量时,基于所述备选向量答复所述问题,包括:
33、在确定出的备选向量为多个时,基于预设策略在所述多个备选向量中选择出预设数量个备选向量,基于所述预设数量个备选向量答复所述问题。
34、在一种可能的实施方式中,本技术实施例提供的上述方法中,所述预设策略包括以下至少一种:
35、基于每个备选向量与所述问题向量之间的相似度,对确定出的备选向量进行降序排列,得到排列结果,在所述排列结果中选取前预设数量个备选向量;
36、在类型为文档向量的备选向量中选择第一数量的备选向量,类型为扩展内容向量的备选向量中选择第二数量的备选向量,所述第一数量与所述第二数量之和为所述预设数量;
37、若所述备选向量对应存储有元信息,则确定任一备选向量对应的元信息,基于所述元信息确定所述备选向量归属的文档所属的文档集合,在由所述文档集合中文档生成的备选向量中,选择预设数量个备选向量。
38、在一种可能的实施方式中,本技术实施例提供的上述方法中,所述向量数据库中还包括:与所述文档向量对应存储所述文档的元信息,与所述扩展内容向量对应存储所述扩展内容的元信息;
39、所述基于所述备选向量答复所述问题,包括:
40、基于所述备选向量对应存储的元信息,确定所述备选向量归属的源文档或者源摘要;
41、基于所述源文档或者所述源摘要生成提示词,将所述提示词发送至所述对话系统中的大语言模型,以使所述大语言模型基于所述提示词答复所述问题。
42、在一种可能的实施方式中,本技术实施例提供的上述方法中,所述基于所述备选向量对应存储的元信息,确定所述备选向量归属的源文档或者源摘要,包括:
43、若所述备选向量为文档向量,则基于所述文档向量对应的元信息,确定所述文档向量归属的源文档;
44、若所述备选向量为摘要向量,则基于所述摘要向量对应的元信息,确定所述摘要向量归属的源摘要;
45、若所述备选向量为文档问题向量,则基于所述文档问题向量对应的元信息,确定所述文档问题向量归属的源文档;
46、若所述备选向量为摘要问题向量,则基于所述摘要问题向量对应的元信息,确定所述摘要问题向量归属的源摘要。
47、第三方面,本技术实施例提供一种内容扩展装置,包括:
48、获取单元,用于获取用户上传的文档;
49、处理单元,用于对所述文档进行词向量转换,获得所述文档对应的文档向量;
50、存储单元,用于将所述文档向量存储到预先建立的向量数据库中,以在答复问题时,从所述向量数据库中确定与问题向量相似度大于预设相似度阈值的备选向量,并基于确定出的至少一个备选向量答复所述问题,所述问题向量是对所述问题进行词向量转换得到的。
51、在一种可能的实施方式中,本技术实施例提供的上述装置中,所述处理单元,还用于:
52、利用所述对话系统中的大语言模型,生成与所述文档相关联的扩展内容,所述扩展内容包括以下至少一种:所述文档的摘要、对所述文档进行提问生成的多个文档问题、以及对所述文档的摘要进行提问生成的多个摘要问题;
53、对所述扩展内容进行词向量转换,获得所述扩展内容对应的扩展内容向量;
54、所述存储单元还用于:在所述向量数据库中存储所述扩展内容向量。
55、在一种可能的实施方式中,本技术实施例提供的上述装置中,所述处理单元具体用于:
56、在确定所述文档包含的字符数量大于预设数量阈值时,将所述文档切分为多个文档片段;
57、若所述扩展内容包括所述文档的摘要,则利用所述大语言模型,生成所述多个文档片段对应的多级摘要;
58、若所述扩展内容包括对所述文档进行提问生成的多个文档问题,则利用所述大语言模型,对每个文档片段进行提问,生成每个文档片段对应的文档问题;
59、若所述扩展内容包括对所述文档的摘要进行提问生成的多个摘要问题,则利用所述大语言模型,生成所述多个文档片段对应的多级摘要,并对每个摘要提问,生成每个摘要对应的摘要问题;
60、其中,所述多级摘要中每一级中包含至少一个摘要,每个摘要均是基于上一级中至少一个文档片段或者至少一个摘要生成的。
61、在一种可能的实施方式中,本技术实施例提供的上述装置中,
62、所述获取单元,还用于:获取所述文档的元信息;
63、所述处理单元,还用于:基于所述文档的元信息,生成所述扩展内容的元信息;
64、所述存储单元,还用于:在所述向量数据库中,与所述文档向量对应存储所述文档的元信息,与所述扩展内容向量对应存储所述扩展内容的元信息。
65、在一种可能的实施方式中,本技术实施例提供的上述装置中,
66、所述处理单元还用于:利用所述大语言模型,将所述文档和所述扩展内容分别转换为同一其他语种;
67、分别对转换后的文档和转换后的扩展内容进行词向量转换,获得转换后文档对应的文档向量和转换后扩展内容对应的扩展内容向量;
68、所述存储单元,还用于:在所述向量数据库中存储所述转换后文档对应的文档向量和所述转换后扩展内容对应的扩展内容向量。
69、第四方面,本技术实施例提供一种问题答复装置,包括:
70、获取单元,用于获取用户提出的问题;
71、第一处理单元,用于对所述问题进行词向量转换,获得对应的问题向量;
72、第二处理单元,用于在预先建立的向量数据库中,确定与所述问题向量相似度大于预设相似度阈值的备选向量,所述向量数据库中存储有至少一个文档向量,所述文档向量是对历史获取的文档进行词向量转换生成的;
73、答复单元,用于在确定出至少一个备选向量时,基于所述备选向量答复所述问题。
74、在一种可能的实施方式中,本技术实施例提供的上述装置中,所述向量数据库中,还包括:扩展内容向量,所述扩展内容向量是对扩展内容进行词向量转换生成的,所述扩展内容是基于历史获取的文档生成的,所述扩展内容包括以下至少一种:所述历史获取的文档的摘要、对所述历史获取的文档进行提问生成的多个文档问题、以及对所述摘要进行提问生成的多个摘要问题;
75、所述第二处理单元,具体用于:
76、在所述向量数据库包括的文档向量和扩展内容向量中,确定与所述问题向量相似度大于预设相似度阈值的备选向量。
77、在一种可能的实施方式中,本技术实施例提供的上述装置中,所述答复单元,具体用于:
78、在确定出的备选向量为多个时,基于预设策略在所述多个备选向量中选择出预设数量个备选向量,基于所述预设数量个备选向量答复所述问题。
79、在一种可能的实施方式中,本技术实施例提供的上述装置中,所述预设策略包括以下至少一种:
80、基于每个备选向量与所述问题向量之间的相似度,对确定出的备选向量进行降序排列,得到排列结果,在所述排列结果中选取前预设数量个备选向量;
81、在类型为文档向量的备选向量中选择第一数量的备选向量,类型为扩展内容向量的备选向量中选择第二数量的备选向量,所述第一数量与所述第二数量之和为所述预设数量;
82、若所述备选向量对应存储有元信息,则确定任一备选向量对应的元信息,基于所述元信息确定所述备选向量归属的文档所属的文档集合,在由所述文档集合中文档生成的备选向量中,选择预设数量个备选向量。
83、在一种可能的实施方式中,本技术实施例提供的上述装置中,所述答复单元,具体用于:
84、在所述向量数据库中还包括:与所述文档向量对应存储所述文档的元信息,与所述扩展内容向量对应存储所述扩展内容的元信息时,基于所述备选向量对应存储的元信息,确定所述备选向量归属的源文档或者源摘要;
85、基于所述源文档或者所述源摘要生成提示词,将所述提示词发送至所述对话系统中的大语言模型,以使所述大语言模型基于所述提示词答复所述问题。
86、在一种可能的实施方式中,本技术实施例提供的上述装置中,所述答复单元,具体用于:
87、若所述备选向量为文档向量,则基于所述文档向量对应的元信息,确定所述文档向量归属的源文档;
88、若所述备选向量为摘要向量,则基于所述摘要向量对应的元信息,确定所述摘要向量归属的源摘要;
89、若所述备选向量为文档问题向量,则基于所述文档问题向量对应的元信息,确定所述文档问题向量归属的源文档;
90、若所述备选向量为摘要问题向量,则基于所述摘要问题向量对应的元信息,确定所述摘要问题向量归属的源摘要。
91、第五方面,本技术实施例提供一种对话系统,包括:
92、第一获取模块,用于获取用户上传的文档;
93、第一处理模块,用于对所述文档进行词向量转换,获得所述文档对应的文档向量;
94、存储模块,用于将所述文档向量存储到预先建立的向量数据库中;
95、第二获取模块,用于获取用户提出的问题;
96、第二处理模块,用于对所述问题进行词向量转换,获得对应的问题向量,并在预先建立的向量数据库中,确定与所述问题向量相似度大于预设相似度阈值的备选向量;
97、答复模块,用于在确定出至少一个备选向量时,基于所述备选向量答复所述问题。
98、第六方面,本技术实施例提供一种电子设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如本技术实施例第一方面和/或第二方面所提供的方法。
99、第七方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如本技术实施例第一方面和/或第二方面所提供的方法。
100、本技术实施例提供的内容扩展、问题答复方法、装置、系统、设备及介质,获取用户上传的文档之后,对文档进行词向量转换,获得文档对应的文档向量,并将文档向量存储到预先建立的向量数据库中。如此,在答复问题时,可以对问题同样进行词向量转换,获得对应的问题向量,并在向量数据库中确定与问题向量相似度大于预设相似度阈值的备选向量,进而在确定出至少一个备选向量时,基于备选向量答复问题。
101、本技术实施例,用户上传的文档可以是用户私有知识库中的文档,通过对文档进行词向量转换,得到文档向量并存储,使得对话系统获取到用户提出的问题之后,若问题为关于私有知识库的问题,对话系统能够基于问题向量,与存储的文档向量之间的相似度,检索备选向量,并基于备选向量回答用户提出的问题,扩展了对话系统的功能,使其能够回答用户提出的关于私有知识库的问题,提升了用户体验。
102、本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。