一种问答语句的处理方法、装置及电子设备与流程

文档序号:26503598发布日期:2021-09-04 06:33阅读:120来源:国知局
一种问答语句的处理方法、装置及电子设备与流程

1.本发明涉及自然语言处理领域,尤其涉及一种问答语句的处理方法、装置及电子设备。


背景技术:

2.在传统服务行业中,人工客服作为劳动密集型岗位,是一种全时段高强度且高重复性的工作。因此,为了降低人工成本、提高效率,越来越多的企业引入了自动问答系统,可以根据用户的问题自动回复相应的答复语句,一定程度上缓解人工客服的工作压力,且提升了企业服务的准确性、规范性和稳定性。
3.而为了保证自动问答系统可以准确地答复用户,需要为其维护一个庞大的知识库体系。知识库中包含大量的标准问题与相应答案,而问答系统的智能客服的问答流程主要是将用户的问题与知识库里的标准问题进行匹配,若匹配成功,则返回该标准问题对应的答案。因此,知识库的丰富程度是影响智能客服系统的答复效果的决定性因素。然而,用户的问题从来不是一成不变的,通常用户会因为各种各样的原因问出新的、并未囊括在知识库内的问题,因此对知识库的维护更新是非常有必要的。此外,在智能客服等问答系统中,传统的人工角色并不会消失,人工通常会对智能客服无法回答或答错的问题做一些补充修改。
4.因此,亟需一种可对人工对话数据进行分析挖掘、以高效生成问答对的问答语句的处理方法、装置及电子设备,以解决现有技术的上述技术问题。


技术实现要素:

5.为了解决现有技术的不足,本发明的主要目的在于提供一种问答语句的处理方法、装置及电子设备,以解决现有技术的上述技术问题。
6.为了达到上述目的,第一方面本发明提供了一种问答语句的处理方法,所述方法包括:
7.获取待处理的会话记录,所述会话记录包括至少两个语句,所述语句包括提问者发出的提问语句及答复者发出的答复语句;
8.根据预设的问答拆分规则,将所述会话记录拆分为对应的问答组,所述问答组包括至少一个所述提问语句及至少一个所述答复语句;
9.根据所述问答组包括的所述提问语句的数量及所述答复语句的数量,确定所述问答组对应的处理规则;
10.根据所述问答组对应的处理规则,将所述问答组拆分为对应的语句对;
11.根据所述语句对,更新问答系统的知识库。
12.在一些实施例中,每一所述语句具有相应的生成时间,所述根据预设的问答拆分规则,将所述会话记录拆分为对应的问答组包括:
13.根据每一所述语句的生成时间,顺序遍历所述会话记录;
14.在遍历到的所述语句为提问语句时,根据遍历到的所述提问语句的前序答复语句的句式和/或遍历到的所述提问语句的前序提问语句的间隔时间判断遍历到的所述提问语句与所述前序提问语句是否属于同一所述问答组;
15.在遍历到的所述语句为所述答复语句时,确定遍历到的所述答复语句属于遍历到的所述答复语句的前序提问语句对应的所述问答组。
16.在一些实施例中,所述根据所述问答组对应的处理规则,将所述问答组拆分为对应的语句对包括:
17.在所述问答组包括的所述提问语句的数量不超过第一预设阈值时,根据所述提问语句包括的预设符号将所述提问语句拆分为至少两个文本片段;
18.利用预设二分类器,预测相邻的所述文本片段是否属于同一问题;
19.根据预测属于同一问题的所述文本片段,分别生成相应的提问语句;
20.根据生成的所有所述提问语句及所述问答组包括的所述答复语句,生成对应的语句对。
21.在一些实施例中,所述利用预设二分类器,预测相邻的所述文本片段是否属于同一问题前,所述方法还包括:
22.遍历所述文本片段,在遍历到的所述文本片段的字符数量小于第二预设阈值时,将遍历到的所述文本片段与对应的后序文本片段进行合并;和/或
23.利用预设的分类器算法,在遍历到的所述文本片段与对应的所述后序文本片段属于同一意图类别或遍历到的所述文本片段属于预设合并意图类别时,将遍历到的所述文本片段与对应的后序文本片段进行合并。
24.在一些实施例中,所述根据所述问答组对应的处理规则,将所述问答组拆分为对应的语句对包括:
25.在所述问答组包括的所述提问语句及所述答复语句的数量均超过所述第一预设阈值时,对所述问答组包括的所述提问语句及所述答复语句进行组合,生成对应的所述语句对。
26.在一些实施例中,所述根据所述问答组对应的处理规则,将所述问答组拆分为对应的语句对包括:
27.在所述问答组包括的所述答复语句的数量不超过所述第一预设阈值且包括的所述提问语句的数量超过所述第一预设阈值时,利用预设二分类器预测包括的所述提问语句与包括的所述提问语句的前序提问语句是否属于同一问题;
28.在存在属于同一问题的所述提问语句时,合并属于同一问题的所述提问语句并根据合并后的所有所述提问语句及所述答复语句,生成对应的语句对;
29.在不存在属于同一问题的所述提问语句时,根据所述问答组包括的所有所述提问语句及所述答复语句,生成对应的语句对。
30.在一些实施例中,所述根据所述语句对,更新问答系统的知识库包括:
31.利用预设聚类算法,对所述语句对进行聚类,生成语句对组并确定每一所述语句对组包含的所述提问语句的数量;
32.根据预设的相似度算法,确定所述语句对组包含的所述提问语句及所述答复语句的匹配程度;
33.根据对应的所述匹配程度及所述语句对组包括的提问语句的数量,确定每一所述语句对组对应的权重;
34.根据每一所述语句对组对应的所述权重,顺序更新问答系统的知识库。
35.在一些实施例中,所述根据预设的问答拆分规则,将所述会话记录拆分为对应的问答组前,所述方法还包括:
36.利用预设的纠错规则,对会话记录包括的错别字进行纠错;
37.对纠错后的所述会话记录进行归一化处理。
38.在一些实施例中,所述根据预设的问答拆分规则,将所述会话记录拆分为对应的问答组前,所述方法还包括:
39.利用预设的分类器算法,识别所述会话记录中包括的每一所述提问语句对应的意图类别并剔除所述会话记录中包括的预设无关意图类别对应的提问语句。
40.第二方面,本申请提供了一种问答语句的处理装置,所述装置包括:
41.获取模块,用于获取待处理的会话记录,所述会话记录包括至少两个语句,所述语句包括提问者发出的提问语句及答复者发出的答复语句;
42.拆分模块,用于根据预设的问答拆分规则,将所述会话记录拆分为对应的问答组,所述问答组包括至少一个所述提问语句及至少一个所述答复语句;
43.判断模块,用于根据所述问答组包括的所述提问语句的数量及所述答复语句的数量,确定所述问答组对应的处理规则;
44.所述拆分模块还用于根据所述问答组对应的处理规则,将所述问答组拆分为对应的语句对;
45.更新模块,用于根据所述语句对,更新问答系统的知识库。
46.第三方面,本申请提供了一种电子设备,所述电子设备包括:
47.一个或多个处理器;
48.以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
49.获取待处理的会话记录,所述会话记录包括至少两个语句,所述语句包括提问者发出的提问语句及答复者发出的答复语句;
50.根据预设的问答拆分规则,将所述会话记录拆分为对应的问答组,所述问答组包括至少一个所述提问语句及至少一个所述答复语句;
51.根据所述问答组包括的所述提问语句的数量及所述答复语句的数量,确定所述问答组对应的处理规则;
52.根据所述问答组对应的处理规则,将所述问答组拆分为对应的语句对;
53.根据所述语句对,更新问答系统的知识库。
54.本发明实现的有益效果为:
55.本申请提供了一种问答语句的处理方法,包括根据预设的问答拆分规则,将所述会话记录拆分为对应的问答组,所述问答组包括至少一个所述提问语句及至少一个所述答复语句;根据所述问答组包括的所述提问语句的数量及所述答复语句的数量,确定所述问答组对应的处理规则;根据所述问答组对应的处理规则,将所述问答组拆分为对应的语句对;根据所述语句对,更新问答系统的知识库,本申请通过会话进行细粒度的拆分,实现了
根据历史问答记录对问答系统知识库进行更新,解决了现有技术中无法对人工对话数据包括的提问语句和答复语句进行分析挖掘导致知识库更新缓慢、影响答复成功率的问题。
附图说明
56.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
57.图1是本申请实施例提供的会话处理流程图;
58.图2是本申请实施例提供的问答组拆分流程图;
59.图3是本申请实施例提供的文本片段合并流程图;
60.图4是本申请实施例提供的提问语句合并流程图;
61.图5是本申请实施例提供的方法流程图;
62.图6是本申请实施例提供的装置结构图;
63.图7是本申请实施例提供的电子设备结构图。
具体实施方式
64.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
65.如背景技术所述,知识库的丰富程度是影响智能客服系统的答复效果的决定性因素。
66.为实现对人工对话数据进行分析挖掘,本申请提供了一种问答语句的处理方法,可提升生成问答对的生成效率,保障了智能客服等问答系统的知识库的更新效率
67.实施例一
68.具体的,如图1所示,根据本申请实施例提供的问答语句的处理方法对客服及用户的对话语句进行分析挖掘的过程包括:
69.s10、获取待处理的会话记录,并对获取的会话记录进行预处理;
70.具体的,对会话记录进行预处理的过程包括:
71.s11、利用预设的纠错规则,对会话记录包括的错别字进行纠错;
72.会话记录可以包括语音语句及文本语句。当会话记录是文本语句时,主要的错别字是同音字;当会话记录是语音语句时,需要首先通过语音识别技术将其转换为文本语句,其主要产生错别字的原因是语音识别不准确,因此相应的错别字不仅仅是同音字,还包括了任意读音相近或相同的字词。因此,本申请实施例结合语言模型与词频特征,为语音语句及文本语句分别设置了相应的纠错规则,可根据相应的纠错规则对错别字进行纠错。
73.s120、对会话记录包括的所有字符进行纯化操作;
74.具体的,上述纯化操作包括去除如预设的无用的标点和预设的停用词在内的无关字符,然后识别每一文本语句包含的无关信息,如商品名、地名等,并根据无关信息对应的
类型将其归一化为相应的预设字符。
75.s130、利用预设分类器算法,识别每一用户发出的提问语句对应的对话意图。
76.s200、根据预设的问答拆分规则,将预处理后的会话记录拆分为问答组;
77.可定义一个用户与客服一天内的会话记录为一段对话。可首先将会话记录拆分为一个或多个对话,然后将对话拆分为问答组。
78.根据对用户的历史数据分析可知,通常用户会在预设的一段时间内咨询同一类问题,如果客服对其进行了回复,那么该用户下次与客服进行对话时通常咨询的是不同问题。
79.基于上述特性,可以按照时间单位及拆分策略,将一段对话拆分为一个或多个问答组,如图2所示,上述拆分过程包括:
80.s210、按照生成时间从早到晚的顺序遍历对话;
81.s220、在遍历到用户的待处理提问语句时,对待处理提问语句进行筛选,剔除不满足预设条件的用户的待处理提问语句;
82.可定义每一问答组都是以用户的提问语句(记为q)为起始,以客服的答复语句(记为a)为结束。
83.具体的,可以剔除包含的字符数少于预设数量阈值或预设分类器算法判断为闲聊意图等预设的与业务无关的可剔除意图的提问语句。
84.s221、根据预设的合并规则,确定待处理提问语句是否与前序提问语句进行合并;
85.具体的,在待处理提问语句的前序提问语句与待处理提问语句的间隔时间超过对应的预设时间阈值和/或待处理提问语句的前序答复语句的句式为预设句式时,可以将待处理提问语句与前序提问语句进行合并。
86.其中,前序提问语句是指按照时间顺序在待处理语句之前且与待处理语句的间隔时间最短的提问语句。前序答复语句是指按照时间顺序在待处理语句之前且与待处理语句的间隔时间最短的答复语句。
87.在待处理提问语句的前序提问语句与待处理提问语句的间隔时间超过对应的预设时间阈值时,可以判断前序提问语句与待处理提问语句不存在关联性,因此可以根据待处理提问语句生成新的问答组。而在不超过对应的预设时间阈值时,可以判断前序提问语句与待处理提问语句存在关联性,可以将待处理提问语句合并至前序提问语句对应的问答组中。
88.预设句式包括包含引导用户对客服的答复语句进行进一步答复的语句,一般是用户表达不明确后客服进行反问,或索要用户的关键信息的句式,例如“请提供手机号”等。在前序答复语句是预设句式时,无论待处理语句与前序提问语句或前序答复语句的间隔时间有多久,都可以认为在该前序答复语句后的用户发出的语句是在答复该前序答复语句并与该前序答复语句存在关联性,而并非是一个新的独立的提问。因此,可以将待处理提问语句与前序提问语句进行合并。
89.待处理提问语句的前序答复语句的句式为预设句式时,可以将待处理提问语句与前序提问语句进行合并,将待处理提问语句合并至前序提问语句对应的问答组中。
90.s230、在遍历到客服的答复语句时,剔除包含的字符数量小于预设数量阈值的答复语句,并确定剔除后保留的答复语句为待处理答复语句;
91.s231、在待处理答复语句的前序语句是客服的答复语句时,将待处理答复语句与
前序的答复语句进行合并,并将合并后的答复语句存储至前序提问语句对应的问答组中;
92.其中前序语句是指按照生成时间顺序在待处理语句之前且与待处理语句的间隔时间最短的语句。
93.s232、在待处理答复语句的前序语句是用户的提问语句时,将处理答复语句合并至该提问语句对应的问答组中。
94.经过上述将对话拆分为问答组的过程,得到的处理结果包含三类问答组,包括:
95.一个问题对应一段答复的情况,记做qa;
96.多个问题对应一段答复,即用户问了多个问题,客服用了一段文字回答,记为qqa;
97.多个问题对应多个答复,即用户和客服在短时间内发生了多次交流,即为qaqa。
98.可以根据每一问答组包含的答复语句和提问语句的数量确定对应的类型,可以根据相应的处理规则对其进行处理,上述过程包括
99.s310、在问答组为qa类型时,将问答组包括的提问语句切分为文本片段;
100.qa是后续算法的标准输入形式,但原始的qa类问题情况复杂,用户的提问语句可能包含了两个或以上的问题,比如“任性付逾期怎么办,逾期利率是多少?”。但在知识库里,一个标准问题只能用于表述一个问题,因此需要对此进行拆分。
101.拆分需要使用可判断两段文字是一个问题还是两个问题的辅助算法。该辅助算法可以是一个二分类器,二分类器的输入是两个语句,任务是判断两个语句是在描述同一问题还是不同问题。可以使用任意模型实现上述的二分类问题。优选的,由于bert这一模型的预训练过程中可预测输入的两句话是否是同一句话中的上下文还是无关话题,天然适合上述任务,因此可采用bert作为分类器,并在该任务下做微调训练(fine

tuning)。
102.s311、按照从前往后的顺序处理文本片段,将包含的字符数量小于预设数量阈值的文本片段合并至该文本片段的后序文本片段中;和/或
103.将与对应的后序文本片段属于同一意图类别或属于预设合并意图类别的文本片段合并至该文本片段的后序文本片段中。
104.后序文本片段是指在被处理的文本片段之后且与其紧邻的文本片段。
105.具体的,可以利用上述的分类器算法,将判断与后序文本片段属于同一意图类别或属于闲聊类别等预设合并意图类别的文本片段合并至后序文本片段中。
106.s320、通过滑动窗口顺序获取预设数量的相邻的文本片段,并将获取的文本片段利用二分类器算法预测是否属于同一问题;
107.如图3所示,对预测属于同一问题的文本片段可以进行合并为一个提问语句,对预测属于不同问题的文本片段可以拆分为两个不同的提问语句,且其中顺序在后的文本片段将继续参与后续的预测过程。
108.通过上述拆分过程,可以将不属于同一问题的qa类型的问答组转换为qqa类型的问答组,而将所有文本片段都属于同一问题的qa类型的问答组拆分为仅包括一个提问语句和一个答复语句的qa语句对。
109.s320、在问答组是qqa类型时,遍历问答组包括的提问语句并判断每一提问语句是否与前序提问语句属于同一问题;
110.在用户向客服发出提问语句时,可能会产生无意义的断句,导致同一问题被拆分为两个提问语句,例如“我想问一下”、“怎么还款”。在另一些实施例中,也存在用户确实提
出了两个问题,而客服用同一段答复语句进行答复的情况。
111.为识别qqa类型的问答组具体属于何种情况,可以通过上述的二分类算法进行判断。具体的,可以将提问语句拆分为文本片段,然后将包含的字符数小于预设数量阈值或属于预设合并意图的文本片段直接与前序提问语句进行合并,或将提问语句与前序提问语句一起输入二分类算法以判断是否属于同一问题。
112.如图4所示,在识别文本片段与前序提问语句属于同一问题时,可以将其合并为一个提问语句;在识别属于不同问题时,可以将提问语句拆分为新的提问语句。
113.在遍历完所有提问语句后,若保留的语句仅剩一个答复语句和一个提问语句,可以将其确定为一个qa语句对。若保留的语句包括大于一个提问语句和一个答复语句,则可以将提问语句和答复语句进行两两组合,生成相应的qa语句对。例如,当保留的语句包括提问语句q1、提问语句q2和答复语句a1时,生成的语句对则包括q1a1语句对和q2a1语句对。
114.s330、在问答组是qaqa类型时,对所有提问语句和答复语句进行两两组合,生成相应的qa语句对;
115.用户与客服在短时间内的大量交互一般下可以拆为多组qa语句对。但存在一些特例,比如之前提过的客服存在引导语的情况,因此无法断定用户与客服的提问语句和答复语句是否是一一对应的。
116.为充分对这类问题进行挖掘,对于qaqa类型的问答组,可以直接答复语句和提问语句两两进行组合。例如,如果有三个答复语句和三个体温语句,那么不同的q与不同的a会产生9种组合方式。
117.s400、利用预设聚类算法,对所述语句对进行聚类,生成语句对组并确定每一所述语句对组包含的所述提问语句的数量;
118.本申请实施例公开的聚类是指把相似的问题归并到一起,组成一个簇。由于用户可能会问到重复的问题,此步操作的目的是把类似的问题放在同一个簇中,以便后续人工挑选或机器筛选时仅需要从中筛选出一条或若干条具有代表性的问题

答案对即可。
119.可以通过文本匹配算法计算语句对间的文本距离度量,根据文本距离度量确定语句对是否属于同一语句对组。
120.文本匹配算法是计算两个文本相似程度的算法。考虑到聚类的对象大部分是在知识库之外的问题,意味着基于知识库里的原有标注数据训练而来的有监督文本匹配算法收效甚微。因此可以采用无监督的文本匹配算法:词移距离(wmd)。在确定了文本距离度量后,可以应用任一聚类算法确定语句对是否属于同一语句对组,考虑到层次聚类不需要事先确定聚类簇的数量的优点,优选为层次聚类。
121.s410、根据预设的相似度算法,确定所述语句对组包含的所述提问语句及所述答复语句的匹配程度。
122.在所有的qa对中,既有可能出现由于拆分不准确导致的无效qa对,也存在客服的疏忽产生的答非所问等情况,这些无效的qa语句对需要过滤后排除。
123.qa语句对的过滤主要是基于问题与答案匹配程度来决定的,可以保留提问语句与答复语句的匹配程度满足预设条件的qa语句对,不对不满足的qa语句对进行排除和过滤。
124.上述匹配过程也是一个文本匹配的过程,由于问题与答案的匹配具备一定的通用性,可以基于已有的知识库数据训练一套有监督算法进行相似度计算。
125.s420、根据对应的所述匹配程度及所述语句对组包括的提问语句的数量,确定每一所述语句对组对应的权重;
126.对于知识库来说,并非所有的问题的重要程度都是一样的,经常被问到的问题应当具有更高的被维护到知识库中的优先级。同时,收集到的问题所对应的答案越准确,也越有维护到知识库的价值。在对语句对进行排序后,可以优先维护其中更重要的问题而忽略一些价值不大的问题,可以很大程度上提升维护效率。
127.问题被问到的频次可以用上述聚类过程中得到的每一个簇下的问题数量来衡量,而答案准确性可以用过滤的流程中,问题与答案的匹配程度来衡量。
128.可以对两个值进行归一化后加权累加可以得到相应的排序权重,后续知识库维护时可以根据排序权重顺序获取相应的语句对,由人工或机器对其进行进一步筛选及处理,并维护至知识库中。
129.本申请实施例提供的问答语句的处理方法实现了自动化的语句对处理,缓解了业务人员的工作压力,极大降低了运维的成本,且由于答案不需要完全由人工构思,大幅降低了答案配置的门槛,降低了运维人员的培训成本。
130.实施例二
131.对应上述实施例,如图5所示,本申请提供了一种问答语句的处理方法,所述方法包括:
132.510、获取待处理的会话记录,所述会话记录包括至少两个语句,所述语句包括提问者发出的提问语句及答复者发出的答复语句;
133.520、根据预设的问答拆分规则,将所述会话记录拆分为对应的问答组,所述问答组包括至少一个所述提问语句及至少一个所述答复语句;
134.优选的,每一所述语句具有相应的生成时间,所述根据预设的问答拆分规则,将所述会话记录拆分为对应的问答组包括:
135.521、根据每一所述语句的生成时间,顺序遍历所述会话记录;
136.522、在遍历到的所述语句为提问语句时,根据遍历到的所述提问语句的前序答复语句的句式和/或遍历到的所述提问语句的前序提问语句的间隔时间判断遍历到的所述提问语句与所述前序提问语句是否属于同一所述问答组;
137.523、在遍历到的所述语句为所述答复语句时,确定遍历到的所述答复语句属于遍历到的所述答复语句的前序提问语句对应的所述问答组。
138.优选的,所述根据预设的问答拆分规则,将所述会话记录拆分为对应的问答组前,所述方法还包括:
139.524、利用预设的纠错规则,对会话记录包括的错别字进行纠错;
140.525、对纠错后的所述会话记录进行归一化处理。
141.优选的,所述根据预设的问答拆分规则,将所述会话记录拆分为对应的问答组前,所述方法还包括:
142.526、利用预设的分类器算法,识别所述会话记录中包括的每一所述提问语句对应的意图类别并剔除所述会话记录中包括的预设无关意图类别对应的提问语句。
143.530、根据所述问答组包括的所述提问语句的数量及所述答复语句的数量,确定所述问答组对应的处理规则;
144.540、根据所述问答组对应的处理规则,将所述问答组拆分为对应的语句对;
145.优选的,所述根据所述问答组对应的处理规则,将所述问答组拆分为对应的语句对包括:
146.541、在所述问答组包括的所述提问语句的数量不超过第一预设阈值时,根据所述提问语句包括的预设符号将所述提问语句拆分为至少两个文本片段;
147.542、利用预设二分类器,预测相邻的所述文本片段是否属于同一问题;
148.543、根据预测属于同一问题的所述文本片段,分别生成相应的提问语句;
149.544、根据生成的所有所述提问语句及所述问答组包括的所述答复语句,生成对应的语句对。
150.优选的,所述利用预设二分类器,预测相邻的所述文本片段是否属于同一问题前,所述方法还包括:
151.545、遍历所述文本片段,在遍历到的所述文本片段的字符数量小于第二预设阈值时,将遍历到的所述文本片段与对应的后序文本片段进行合并;和/或
152.546、利用预设的分类器算法,在遍历到的所述文本片段与对应的所述后序文本片段属于同一意图类别或遍历到的所述文本片段属于预设合并意图类别时,将遍历到的所述文本片段与对应的后序文本片段进行合并。
153.优选的,所述根据所述问答组对应的处理规则,将所述问答组拆分为对应的语句对包括:
154.547、在所述问答组包括的所述提问语句及所述答复语句的数量均超过所述第一预设阈值时,对所述问答组包括的所述提问语句及所述答复语句进行组合,生成对应的所述语句对。
155.优选的,所述根据所述问答组对应的处理规则,将所述问答组拆分为对应的语句对包括:
156.548、在所述问答组包括的所述答复语句的数量不超过所述第一预设阈值且包括的所述提问语句的数量超过所述第一预设阈值时,利用预设二分类器预测包括的所述提问语句与包括的所述提问语句的前序提问语句是否属于同一问题;
157.549、在存在属于同一问题的所述提问语句时,合并属于同一问题的所述提问语句并根据合并后的所有所述提问语句及所述答复语句,生成对应的语句对;
158.在不存在属于同一问题的所述提问语句时,根据所述问答组包括的所有所述提问语句及所述答复语句,生成对应的语句对。
159.550、根据所述语句对,更新问答系统的知识库。
160.优选的,所述根据所述语句对,更新问答系统的知识库包括:
161.551、利用预设聚类算法,对所述语句对进行聚类,生成语句对组并确定每一所述语句对组包含的所述提问语句的数量;
162.552、根据预设的相似度算法,确定所述语句对组包含的所述提问语句及所述答复语句的匹配程度;
163.553、根据对应的所述匹配程度及所述语句对组包括的提问语句的数量,确定每一所述语句对组对应的权重;
164.554、根据每一所述语句对组对应的所述权重,顺序更新问答系统的知识库。
165.实施例三
166.对应实施例一及实施例二,如图6所示,本申请提供了一种问答语句的处理装置,所述装置包括:
167.获取模块610,用于获取待处理的会话记录,所述会话记录包括至少两个语句,所述语句包括提问者发出的提问语句及答复者发出的答复语句;
168.拆分模块620,用于根据预设的问答拆分规则,将所述会话记录拆分为对应的问答组,所述问答组包括至少一个所述提问语句及至少一个所述答复语句;
169.判断模块630,用于根据所述问答组包括的所述提问语句的数量及所述答复语句的数量,确定所述问答组对应的处理规则;
170.所述拆分模块620还用于根据所述问答组对应的处理规则,将所述问答组拆分为对应的语句对;
171.更新模块640,用于根据所述语句对,更新问答系统的知识库。
172.优选的,每一所述语句具有相应的生成时间,所述拆分模块640还可用于根据每一所述语句的生成时间,顺序遍历所述会话记录;在遍历到的所述语句为提问语句时,根据遍历到的所述提问语句的前序答复语句的句式和/或遍历到的所述提问语句的前序提问语句的间隔时间判断遍历到的所述提问语句与所述前序提问语句是否属于同一所述问答组;在遍历到的所述语句为所述答复语句时,确定遍历到的所述答复语句属于遍历到的所述答复语句的前序提问语句对应的所述问答组。
173.优选的,所述拆分模块630还可用于在所述问答组包括的所述提问语句的数量不超过第一预设阈值时,根据所述提问语句包括的预设符号将所述提问语句拆分为至少两个文本片段;
174.利用预设二分类器,预测相邻的所述文本片段是否属于同一问题;
175.根据预测属于同一问题的所述文本片段,分别生成相应的提问语句;
176.根据生成的所有所述提问语句及所述问答组包括的所述答复语句,生成对应的语句对。
177.优选的,所述拆分模块630还可用于在所述问答组包括的所述答复语句的数量不超过所述第一预设阈值且包括的所述提问语句的数量超过所述第一预设阈值时,利用预设二分类器预测包括的所述提问语句与包括的所述提问语句的前序提问语句是否属于同一问题;
178.在存在属于同一问题的所述提问语句时,合并属于同一问题的所述提问语句并根据合并后的所有所述提问语句及所述答复语句,生成对应的语句对;
179.在不存在属于同一问题的所述提问语句时,根据所述问答组包括的所有所述提问语句及所述答复语句,生成对应的语句对。
180.优选的,所述拆分模块630还可用于遍历所述文本片段,在遍历到的所述文本片段的字符数量小于第二预设阈值时,将遍历到的所述文本片段与对应的后序文本片段进行合并;和/或利用预设的分类器算法,在遍历到的所述文本片段与对应的所述后序文本片段属于同一意图类别或遍历到的所述文本片段属于预设合并意图类别时,将遍历到的所述文本片段与对应的后序文本片段进行合并。
181.优选的,所述拆分模块630还可用于在所述问答组包括的所述提问语句及所述答
复语句的数量均超过所述第一预设阈值时,对所述问答组包括的所述提问语句及所述答复语句进行组合,生成对应的所述语句对。
182.优选的,所述更新模块640还可用于利用预设聚类算法,对所述语句对进行聚类,生成语句对组并确定每一所述语句对组包含的所述提问语句的数量;根据预设的相似度算法,确定所述语句对组包含的所述提问语句及所述答复语句的匹配程度;根据对应的所述匹配程度及所述语句对组包括的提问语句的数量,确定每一所述语句对组对应的权重;根据每一所述语句对组对应的所述权重,顺序更新问答系统的知识库。
183.优选的,所述拆分模块630还可用于利用预设的纠错规则,对会话记录包括的错别字进行纠错;对纠错后的所述会话记录进行归一化处理。
184.优选的,所述拆分模块630还可用于利用预设的分类器算法,识别所述会话记录中包括的每一所述提问语句对应的意图类别并剔除所述会话记录中包括的预设无关意图类别对应的提问语句。
185.实施例四
186.对应上述所有实施例,本申请实施例提供一种电子设备,包括:
187.一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
188.所述根据预设的问答拆分规则,将所述会话记录拆分为对应的问答组前,所述方法还包括:
189.利用预设的分类器算法,识别所述会话记录中包括的每一所述提问语句对应的意图类别并剔除所述会话记录中包括的预设无关意图类别对应的提问语句。
190.其中,图6示例性的展示出了电子设备的架构,具体可以包括处理器1510,视频显示适配器1511,磁盘驱动器1512,输入/输出接口1513,网络接口1514,以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520之间可以通过通信总线1530进行通信连接。
191.其中,处理器1510可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
192.存储器1520可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1520可以存储用于控制电子设备1500运行的操作系统1521,用于控制电子设备1500的低级别操作的基本输入输出系统(bios)1522。另外,还可以存储网页浏览器1523,数据存储管理1524,以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器1520中,并由处理器1510来调用执行。输入/输出接口1513用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
193.网络接口1514用于连接通信模块(图中未示出),以实现本设备与其他设备的通信
交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
194.总线1530包括一通路,在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520)之间传输信息。
195.另外,该电子设备1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息,以用于进行条件判断,等等。
196.需要说明的是,尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,存储器1520,总线1530等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
197.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
198.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
199.以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1