在线客服助手的构建方法与流程

文档序号:23132441发布日期:2020-12-01 13:06阅读:151来源:国知局
在线客服助手的构建方法与流程

本发明涉及智能客服技术领域,特别涉及一种在线客服助手的构建方法。



背景技术:

在线客服是指为客户进行线上咨询解答的人工客服,人工客服服务经常会遇到在高峰期有几十上百的人在等待的情况,严重影响服务质量和客户体验。

然而,在实际的接待中,往往在线客服会遇到大量问题重复咨询的情况,因而使得对于重复问题的回答占据了在线客服的大量时间。如果能够构建一种解决客服需要重复性回答的在线客服助手,并能够保证问题回答的准确性,则会使得在线客服的工作量大大减少,并能够有效的提高服务质量和客户体验。



技术实现要素:

本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。

本发明还有一个目的是提供一种在线客服助手的构建方法,基于客服历史服务数据的获取,构建了一种能够在无监督的状态下,准确的与访客进行多轮问答的在线客服助手,在提高了在线客服效率的同时也提高了服务质量。

为了实现根据本发明的这些目的和其它优点,提供了一种在线客服助手的构建方法,包括以下步骤:

s1、会话场景分类:将企业在预定周期内的原始客服服务文本数据进行收集后形成单通会话的会话集合,将所述会话集合过滤得到业务问题,并保留出现在所述单通会话中访客问题中的前n个问题的业务问题,而后将保留的业务问题按照共现业务词的方式进行分类后,得到多个会话场景;其中,n为大于0并不小于5的整数;所述会话场景中包含的业务问题称为锚点问题;

s2、构建频繁话术通路库:在单通会话中所述锚点问题出现之后的所有客服语句中筛选出对应于所述锚点问题的所有话术句,而后将所有话术句按照会话逻辑进行排序后,将排序后的话术句以及对应于每个话术句的历史访客会话特征共同保存形成频繁话术通路库;其中,所述历史访客会话特征指与话术句紧邻的之前时刻的访客问题;

s3、构建单轮问答库:将同一场景下的所有单通会话中前一句为访客句子,后一句为客服句子的问答组合作为初选问题答案对进行保存,并在所述初选问题答案对中选取最优的一问对应一答的最优问答对形成所述单轮问答库;

s4、构建在线客服助手:判断访客问题与锚点问题的相似度,当所述相似度大于预设的相似阈值时,利用所述频繁话术通路库中的第一个话术句对访客问题进行应答;当所述相似度小于相似阈值或经所述频繁话术通路库中的话术句进行应答后的访客问题不符合应答的会话句的历史访客会话特征时,由所述单轮问答库内寻找与访客问题相似度大于相似阈值的问题对应的客服句子对访客问题进行应答;且在所述单轮问答库内不存在与访客问题相似度大于相似阈值的问题时,将访客问题转由人工客服进行答复。

优选的是,所述的在线客服助手的构建方法中,所述原始客服服务文本数据指人工客服与访客间的对话文本数据;所述单通会话指从访客与人工客服的会话建立开支至访客结束离开的会话记录。

优选的是,所述的在线客服助手的构建方法中,s1中将所述会话集合过滤得到业务问题具体包括:

业务词的抽取:在所述会话集合中利用textrank、词语信息熵、词频词性以及词语自由度联合抽取得到业务词;

业务问题的获取:利用所述业务词对访客问题进行过滤得到业务问题。

优选的是,所述的在线客服助手的构建方法中,s1中将保留的业务问题按照共现业务词的方式进行分类后,得到多个会话场景具体包括:

通过业务词共现的方式将具有共现业务词的业务问题归入同个类别,作为业务问题的粗分类;

粗分类后将同类别下的业务问题进行bert+birch聚类,得到分别包含不同业务问题的多个簇;

保留包含业务问题数量大于预定的阈值的簇,其余簇丢弃;

将保留的簇内的业务问题所属的单通会话以簇为单位集合后,即得到多个所述会话场景。

优选的是,所述的在线客服助手的构建方法中,s2中在单通会话中所述锚点问题出现之后的所有客服语句中筛选出对应于所述锚点问题的所有话术句的方法具体为:

s1-1、对同一所述会话场景下的所有单通会话中的锚点问题之后出现的所有客服话语进行分词、去停用词后,使用bert+birch聚类,得到多个初选话术句簇;

s1-2、根据初选话术句簇的簇内熵值阈值对句子个数大于m的初选话术句簇进行过滤,保留句子个数大于m且熵值小于熵值阈值的初选话术句簇,作为话术句簇;其中,m为不小于3的整数;

s1-3、选取每个所述话术句簇内熵值最接近相应话术句簇内的熵值均值的句子作为候选客服话术句,并将所述话术句簇内的其他句子作为所述候选客服话术句的相似话术句。

优选的是,所述的在线客服助手的构建方法中,s3中问答组合中的访客句子还包括将当前访客句子和紧邻的访客句子拼接而成的句子;且所述初选问题答案对具体包括以下三种情况:

a、一个问题对应一个答案;

b、一个问题对应多个答案;以及

c、多个问题对应一个答案。

优选的是,所述的在线客服助手的构建方法中,由所述初选问题答案对中选取最优的一问对应一答的最优问答对形成所述单轮问答库的过程中,还形成了标准问题-相似问题库;所述标准问题-相似问题库内保存多个标准问题,且每个标准问题都对应多个相似问题;所述最优问答对、标准问题,以及标准问题对应的相似问题均由对所述初选问题答案对进行聚类、信息熵、问题与答案相似性以及句子长度的过滤得到。

优选的是,所述的在线客服助手的构建方法中,所述单轮问答库和标准问题-相似问题库的构建方法具体为:

s2-1、将多个问题或答案进行bert+birch聚类,若能够聚类则得到初选问题簇或初选答案簇,并转至s2-2;若不能够聚类,则转至s2-5;

s2-2、求取每个所述初选问题簇或初选答案簇内所有句子的平均信息熵,将所述初选问题簇或初选答案簇内的所有句子与所述平均信息熵求取bert向量相似度,过滤出同时满足所述bert向量相似度大于相似度阈值、平均信息熵低于平均信息熵阈值,且簇内句子个数大于预定数量的初选问题簇或初选答案簇作为问题簇或答案簇;

s2-3、当得到的问题簇或答案簇仅为1个时,将所述问题簇或答案簇作为最优问题簇或最优答案簇;当得到的问题簇或答案簇的个数大于2个时,根据下述公式1计算,并将得分最高的问题簇或答案簇作为优选问题簇或优选答案簇;

其中,h是簇内句子的平均信息熵,s是簇内句子与答案句或问题句的平均相似度,n是簇内句子的个数,score为最终得分;

s2-4、在优选问题簇或优选答案簇中选取熵值最小的句子作为标准问题或标准答案,除标准问题或标准答案外的其他问题或答案作为相似问题或相似答案,将标准问题或标准答案,以及相似问题或相似答案保存形成所述标准问题-相似问题库;

s2-5、求取所有单个问题或答案的信息熵,将每个问题或答案与求得的信息熵求取bert向量相似度,过滤出同时满足bert向量相似度大于相似度阈值、信息熵大于信息熵阈值,且单个问题或答案的字符数大于预定数量的问题,作为初选问题或初选答案;

s2-6、根据下述公式2计算,并将得分最高的初选问题或初选答案作为优选问题或优选答案,其他初选问题或初选答案舍弃;

其中,h是信息熵,s是bert向量相似度,l是单个问题或答案的字符数,score1为最终得分;

当所述初选问题答案对为一个问题对应一个答案时,由所述初选问题答案对过滤得到最优问答对、标准问题,以及标准问题对应的相似问题的方法为:过滤出同时满足bert向量相似度大于相似度阈值、问题或答案的字符数大于预定数量的问题或答案,作为优选问答对。

优选的是,所述的在线客服助手的构建方法中,s4中根据访客问题的字符数目与锚点问题的字符数目差距判断访客问题与锚点问题的相似度;其中,所述相似阈值根据访客问题的字符数目作动态设定。

本发明至少包括以下有益效果:

本发明的在线客服助手的构建方法中,通过对原始的人工客服和访客对话文本数据的处理,得到能够适用于对访客问题进行准确回答的在线助手,实现了一种在无监督的状态下,自动化地从客服服务数据中获取具有频繁话术通路的问答库,高效率低成本的构建了具有频繁话术应答能力的在线客服助手,有助于在客服服务领域减少人工客服的参与,提高会话效率。

本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明所述的在线客服助手的构建方法的流程图;

图2为本发明所述的会话场景分类的流程图;

图3为本发明所述的频繁话术通路库构建方法的流程图;

图4为采用本发明所述的在线客服助手的构建方法构建的在线客服助手的应答流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。

应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

如图1-图4所示,本发明提供一种在线客服助手的构建方法,包括以下步骤:

s1、会话场景分类:将企业在预定周期内的原始客服服务文本数据进行收集后形成单通会话的会话集合,将所述会话集合过滤得到业务问题,并保留出现在所述单通会话中访客问题中的前n个业务问题,而后将保留的业务问题按照共现业务词的方式进行分类后,得到多个会话场景;其中,n为大于0并不小于5的整数;所述会话场景中包含的业务问题称为锚点问题;

s2、构建频繁话术通路库:在单通会话中所述锚点问题出现之后的所有客服语句中筛选出对应于所述锚点问题的所有话术句,而后将所有话术句按照会话逻辑进行排序后,将排序后的话术句以及对应于每个话术句的历史访客会话特征共同保存形成频繁话术通路库;其中,所述历史访客会话特征指与话术句紧邻的之前时刻的访客问题;

s3、构建单轮问答库:将同一场景下的所有单通会话中前一句为访客句子,后一句为客服句子的问答组合作为初选问题答案对进行保存,并在所述初选问题答案对中选取最优的一问对应一答的最优问答对形成所述单轮问答库;

s4、构建在线客服助手:判断访客问题与锚点问题的相似度,当所述相似度大于预设的相似阈值时,利用所述频繁话术通路库中的第一个话术句对访客问题进行应答;当所述相似度小于相似阈值或经所述频繁话术通路库中的话术句进行应答后的访客问题不符合应答的会话句的历史访客会话特征时,由所述单轮问答库内寻找与访客问题相似度大于相似阈值的问题对应的客服句子对访客问题进行应答;且在所述单轮问答库内不存在与访客问题相似度大于相似阈值的问题时,将访客问题转由人工客服进行答复。

在上述方案中,所述在线客服助手的构建方法的具体实施方式为:首先获取企业的原始客服服务文本数据的会话集合,若原始数据为录音数据,需先转换为文本数据,通过会话时间戳、会话id以及公司id等,处理成一家公司一年或者其他设定周期的所有单通会话的会话集合,且每句话是来自访客(visitor)还是来自客服(staff),而后根据业务词对会话集合中的访客问题进行过滤得到业务问题,如果得到的业务问题在原单通会话中属于访客问题的前n个问题,则保留该业务问题,否则舍弃该业务问题,其中n优选为4,因为根据总结发现,在实际会话中,访客进入会话开始咨询的前4个问题中,更有可能出现访客最关心的问题,也即称为锚点问题;之后,将保留的业务问题按照共现业务词的方式进行分类后,得到多个会话场景,即完成了对各个单通会话的场景分类,以教育行业为例,可得到场景分类如表1所示,某个单通会话包含访客问题“我想参加北京市的教师资格证考试,往年真题哪里下载?”,另一单通会话中包含访客问题“教师资格证的真题下载”,这两个单通会话根据共现业务词方式会将被分到同一个会话场景类别中,因为它们包含的业务问题被聚类到同个簇中,簇编号相同。

表1:业务问题的场景分类

锚点问题是单通会话中最核心的访客问题,针对锚点问题,客服往往根据一套特定话术进行问答,完成一通会话咨询,所以在对会话集合进行会话场景分类后,将构建用于客服助手与访客进行多轮问答的频繁话术通路库,其中,首先需要对同一会话场景下的所有单通会话进行频繁话术句的提取,即在单通会话中锚点问题出现之后的所有客服语句中筛选出对应于所述锚点问题的所有话术句,而后将所有话术句按照会话逻辑进行排序后,与相应的对应于各个话术句的访客问题共同保存形成频繁话术通路库,这样针对访客的问题可以实现客服助手应用频繁话术通路库中保存的话术句与访客进行多轮问答,然而,每个单通会话除了锚点问题之外,还有可能出现其他访客问题,因而为了使得客服助手能够对访客提出的除锚点问题之外的提问进行准确的回答,还需要构建单轮问答库,即将同一场景下的所有单通会话中除锚点问题及其对应的客服回答句外的前一句为访客句子,后一句为客服句子的问答组合作为初选问题答案对进行保存,形成所述单轮问答库;

最后,构建在线客服助手,通过在线客服助手读取所有问答库,当访客问题来临时,按照优先频繁话术应答、其次单轮会话问答、最后请求人工客服的顺序进行回复。例如:当第一个访客问题“办理退课”来临时,先判断该访客问题与频繁话术通路库中的锚点问题“办理退课程”的相似度,因为达到相似度阈值sim-threshold,则给出频繁话术通路库中的第一个话术句“您是什么原因要退课?”作为回复,即此时进入频繁话术会话(否则,进入单轮会话问答)。假设紧接着的访客新问题是“没有原因”,则判断此新问题是否符合前一时刻已回复的话术句的历史访客会话特征,如果符合,则继续进行频繁话术会话。符合的标准是计算访客新问题与前一时刻已回复的话术句的历史访客会话特征中的句子的最大相似度达到阈值sim-threshold,如果达不到阈值则不符合。符合是继续进行频繁话术应答,反之跳出,并进入单轮会话问答。其中,进入单轮会话应答,是指在单轮问答库中搜索与访客问题相似度最高的问题,并结合标准问题-相似问题库进行搜索,计算出最高相似度值,根据最高相似度值是否达到阈值sim-threshold,来判断是否将搜索到的问题的答案返回给访客。如果达到相似度阈值则返回答案,反之则可提示人工客服进行回复。

当频繁话术会话进行完毕,即锚点问题的所有话术句已经走完,或者在线客服助手与访客进行了多次应答后访客没有继续提出新问题时,还可以使在线客服助手进行释放前确认,即由在线客服助手发送释放前确认句如“请问您还有其他问题需要咨询吗?”,如果访客确认没有问题了,如回复“没有了,谢谢”等类似语句时,在线客服助手即可启动会话结束操作,即发送“感谢您的咨询,祝您生活愉快”等结束语,并清除该通会话的历史记录。

一个优选方案中,所述原始客服服务文本数据指人工客服与访客间的对话文本数据;所述单通会话指从访客与人工客服的会话建立开直至访客结束离开的会话记录。

在上述方案中,原始客服服务文本数据既包括先前人工客服与访客间的文字对话数据,还包括由语音对话转换为文字的对话数据。

一个优选方案中,s1中将所述会话集合过滤得到业务问题具体包括:

业务词的抽取:在所述会话集合中利用textrank、词语信息熵、词频词性以及词语自由度联合抽取得到业务词;

业务问题的获取:利用所述业务词对访客问题进行过滤得到业务问题。

在上述方案中,业务词抽取使用textrank、词语信息熵、词频词性、词语自由度等多种特征联合抽取得到,而后根据业务词对访客问题进行过滤得到业务问题。

一个优选方案中,s1中将保留的业务问题按照共现业务词的方式进行分类后,得到多个会话场景具体包括:

通过业务词共现的方式将具有共现业务词的业务问题归入同个类别,作为业务问题的粗分类;

粗分类后将同类别下的业务问题进行bert+birch聚类,得到分别包含不同业务问题的多个簇;

保留包含业务问题数量大于预定的阈值的簇,其余簇丢弃;

将保留的簇内的业务问题所属的单通会话以簇为单位集合后,即得到多个所述会话场景。

在上述方案中,将有业务词共现的业务问题归为同个类别,作为粗分类的结果。进一步地,对粗分类后的同类别中的所有业务问题进行聚类,聚类方法使用bert+birch,聚类后,保留聚类后簇内业务问题数目大于预定的阈值的簇,其中阈值优选为5,这些保留的业务问题也称为锚点问题,最后将所有包含锚点问题的原单通会话归为同一类别,该类别作为一个会话场景,从而得到多个会话场景完成会话场景分类。

一个优选方案中,s2中在单通会话中所述锚点问题出现之后的所有客服语句中筛选出对应于所述锚点问题的所有话术句的方法具体为:

s1-1、对同一所述会话场景下的所有单通会话中的锚点问题之后出现的所有客服话语进行分词、去停用词后,使用bert+birch聚类,得到多个初选话术句簇;

s1-2、根据初选话术句簇的簇内熵值阈值对句子个数大于m的初选话术句簇进行过滤,保留句子个数大于m且熵值小于熵值阈值的初选话术句簇,作为话术句簇;其中,m为不小于3的整数;

s1-3、选取每个所述话术句簇内熵值最接近相应话术句簇内的熵值均值的句子作为候选客服话术句,并将所述话术句簇内的其他句子作为所述候选客服话术句的相似话术句。

在上述方案中,首先对同一会话场景下的所有单通会话中的锚点问题之后出现的所有客服话语进行分词、去停用词,然后使用bert+birch聚类,在聚类后的所有初选话术句簇中,根据熵值阈值过滤,过滤特征是初选话术簇内句子个数(至少大于3,并可根据输入语料动态增加),并根据簇内熵值阈值进行过滤,舍弃簇内熵值大于熵值阈值的簇,最终保留的簇中,在每个簇内根据簇内熵值的大小,选取最接近熵值均值的句子加入候选客服话术句,该簇内的其他句子作为该话术句的相似话术句。

例如在某一场景中有锚点问题“办理退课程”,通过频繁话术获取从同一场景中得到客服频繁话术句候选集如下:

{0:“感谢您的咨询,祝您生活愉快”,

1:“请您提供下购课的手机号喔”,

2:“您要不要再考虑下呢”,

3:“请问您为什么要退课呢”,

4:“您好,很高兴为您服务”}。

该话术句候选集中有5个话术句,在候选集中是没有顺序的。每个话术句还包含若干个相似话术句,如“请您提供下购课的手机号喔”具有相似话术句“您的手机号多少呢”、“麻烦告知手机号”,它们组成频繁话术句的相似话术句候选集。

(2)频繁话术句提取。对频繁话术句候选集中的句子按照原始单通会话的出现顺序进行排序,一般选取所有单通会话的顺序进行投票,得到投票最多的会话话术顺序,作为频繁话术通路,例如上一步骤中的锚点问题“办理退课程”对应的频繁话术通路(包含频繁话术句和话术句的顺序)为:

{0:“您好,很高兴为您服务”,

1:“请问您为什么要退课呢”,

2:“您要不要再考虑下呢”,

3:“请您提供下购课的手机号喔”,

4:“感谢您的咨询,祝您生活愉快”}。

锚点问题及与其对应的频繁话术通路,后续保存为频繁话术通路问答库。同时每个客服话术句在原始单通会话中对应的所有客户问题句(其中所指的客户问题句,或者答案句,并不限定为特定句式,可是陈述、疑问等任意句式),也将保存起来作为该客服话术句的历史访客会话特征。在实际应用中,当机器人按照频繁话术通路问答库中的话术路径进行引导会话,即机器人输出话术句a后,而访客给与应答b,此时需要判断b是否符合该话术句a对应的历史访客会话特征,如果符合继续按照频繁话术通路进行引导,否则跳出频繁话术通路进入单轮问答。

一个优选方案中,s3中问答组合中的访客句子还包括将当前访客句子和紧邻的访客句子拼接而成的句子;且所述初选问题答案对具体包括以下三种情况:

a、一个问题对应一个答案;

b、一个问题对应多个答案;以及

c、多个问题对应一个答案。

在上述方案中,拼接句子是考虑到有时访客问题会拆分成两句话发出,也即一句话的信息量低,拼接后的句子如果在话术句构建中符合要求则被保留,则不保留拼接前的访客句子,即只二选一。同一场景的所有单通会话中的客服句子找到与其紧邻的前一时刻的访客句子,即当访客句子在前且客服句子在后时,通过停用词过滤后可组成初选问答对。其中,当两个访客句子紧邻时则拼合组成一个句子,因为实际会话中发现访客常会把一句话拆分成两次发出,或者紧邻的两句话表达一个整体的意思。初选问答对中有一个问题对应一个答案、一个问题对应多个答案、一个答案对应多个问题等三种情况出现。需进行过滤和筛选,选取更优的问答对,保留一问对应一答。

一个优选方案中,由所述初选问题答案对中选取最优的一问对应一答的最优问答对形成所述单轮问答库的过程中,还形成了标准问题-相似问题库;所述标准问题-相似问题库内保存多个标准问题,且每个标准问题都对应多个相似问题;所述最优问答对、标准问题,以及标准问题对应的相似问题均由对所述初选问题答案对进行聚类、信息熵、问题与答案相似性以及句子长度的过滤得到。

在上述方案中,通过过滤共得到了保存有锚点问题的频繁话术通路库、保存有最优问答对的单轮问答库、保存有标准问题-相似问题的标准问题-相似问题库,以退课问题为例,可以形成如表2所示的三种问答库类型:

表2:三种问答库类型

如上表2,频繁话术通路库中,根据每个访客问题(如“申请退课”)有一条话术路径与其对应,即表2中与“申请退课”对应的4句话;单轮问答库表示每个访客问题对应一个客服答案,如访客问题“怎么退课”,对应客服答案“请问您是什么原因呢”;标准问题-相似问题库包含的标准问题“给我退课吧”和该标准问题的相似问题“10元体验课退课”。这样的三种类型的库,可用来构建以客服引导的多轮问答和常见的单轮问答。

一个优选方案中,所述单轮问答库和标准问题-相似问题库的构建方法具体为:当所述初选问题答案对为多个问题对应一个答案或一个问题对应多个答案时,由所述初选问题答案对过滤得到最优问答对和标准问题-相似问题问答对的方法为:

s2-1、将多个问题或答案进行bert+birch聚类,若能够聚类则得到初选问题簇或初选答案簇,并转至s2-2;若不能够聚类,则转至s2-5;

s2-2、求取每个所述初选问题簇或初选答案簇内所有句子的平均信息熵,将所述初选问题簇或初选答案簇内的所有句子与所述平均信息熵求取bert向量相似度,过滤出同时满足所述bert向量相似度大于相似度阈值、平均信息熵低于平均信息熵阈值,且簇内句子个数大于预定数量的初选问题簇或初选答案簇作为问题簇或答案簇;

s2-3、当得到的问题簇或答案簇仅为1个时,将所述问题簇或答案簇作为最优问题簇或最优答案簇;当得到的问题簇或答案簇的个数大于2个时,根据下述公式1计算,并将得分最高的问题簇或答案簇作为优选问题簇或优选答案簇;

其中,h是簇内句子的平均信息熵,s是簇内句子与答案句或问题句的平均相似度,n是簇内句子的个数,score为最终得分;

s2-4、在优选问题簇或优选答案簇中选取熵值最小的句子作为标准问题或标准答案,除标准问题或标准答案外的其他问题或答案作为相似问题或相似答案,将标准问题或标准答案,以及相似问题或相似答案保存形成所述标准问题-相似问题库;

s2-5、求取所有单个问题或答案的信息熵,将每个问题或答案与求得的信息熵求取bert向量相似度,过滤出同时满足bert向量相似度大于相似度阈值、信息熵大于信息熵阈值,且单个问题或答案的字符数大于预定数量的问题,作为初选问题或初选答案;

s2-6、根据下述公式2计算,并将得分最高的初选问题或初选答案作为优选问题或优选答案,其他初选问题或初选答案舍弃;

其中,h是信息熵,s是bert向量相似度,l是单个问题或答案的字符数,score1为最终得分;

当所述初选问题答案对为一个问题对应一个答案时,由所述初选问题答案对过滤得到最优问答对、标准问题,以及标准问题对应的相似问题的方法为:过滤出同时满足bert向量相似度大于相似度阈值、问题或答案的字符数大于预定数量的问题或答案,作为优选问答对。

在上述方案中,以多个问题对应一个答案为例来说明筛选初选问答对的过程:将多个问题进行bert+birch聚类,每个簇内求取所有句子的平均信息熵,每个簇内的所有句子再与答案求取bert向量相似度,根据相似度阈值(优选设定为大于0.5)、平均信息熵阈值(优选设定为大于0)、簇内句子个数(优选设定为大于2)进行初步过滤。进一步地,当符合要求的簇超过2个时,根据得分公式公式1进行筛选。通过公式1计算得到最终得分最高的簇为优选问题簇。当符合要求的簇仅有一个时,该簇即为最优问题簇。在最优问题簇中选取熵值最小的句子作为标准问题,其他问题作为该标准问题的相似问题。当所有问题不能成簇时,对所有单个问题求取信息熵h(优选设定为大于0)、并与答案求取bert向量相似度s(优选设定为最低阈值0.5)、单个问题字符数l(优选设定为最低阈值为4),根据得分公式公式2计算保留得分最高的句子作为最优问题也即作为标准问题,其他问题舍弃。最终得到的一个问题对应一个答案,作为优选问答对。

如果初选问答对是多个答案对应一个问题,类比以上方法进行计算和选取,最终得到一个问题对应一个答案的优选问答对。如果初选问答对是一个答案对应一个问题,则按照bert向量相似度(优选设定为>=0.5)、问题字符数(优选设定为>3)和答案字符数(优选设定为大于3)等条件进行过滤,符合条件则保留问答对作为优选问答对,否则舍弃。最终得到单轮问答库,和标准问题-相似问题库。

一个优选方案中,s4中根据访客问题的字符数目与锚点问题的字符数目差距判断访客问题与锚点问题的相似度;其中,所述相似阈值sim-threshold根据访客问题的字符数目作动态设定。

在上述方案中,相似阈值可根据访客问题的字符数目num-chars动态地设定,例如访客问题的字符数num-chars<5,sim-threshold=0.95;5<=num-chars<=10,sim-threshold=0.92;10<num-chars<=15,sim-threshold=0.90;15<num-chars<=20,sim-threshold=0.88;20<=num-chars,sim-threshold=0.85。

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1