一种智能问答知识库构建方法、系统、终端以及存储介质与流程

文档序号:25586796发布日期:2021-06-22 17:02阅读:84来源:国知局
一种智能问答知识库构建方法、系统、终端以及存储介质与流程

本申请属于智能问答技术领域,特别涉及一种智能问答知识库构建方法、系统、终端以及存储介质。



背景技术:

智能问答系统是将积累的无序语料信息进行有序和科学的整理,并建立基于知识的分类模型,这些分类模型可以指导新增加的语料咨询和服务信息,节约人力资源,提高信息处理的自动性,降低企业网站运行成本。

目前,通常使用人工的方法对知识点进行分类归纳,通过客服人员手动添加或批量导入完成智能问答知识库的构建。该方法对于使用者具有很高的认知要求,并需要对领域知识有充分了解;同时,由于人的知识局限性,分类错误率较高,导致智能问答知识库的问答效果不佳。企业在扩展业务的同时,也会带来更多的问题,因此需要对智能问答知识库进行不断迭代更新和长期维护,依靠客服人员难以发现新出现的知识点,不便于拓展智能问答系统的问答范围。



技术实现要素:

本申请提供了一种智能问答知识库构建方法、系统、终端以及存储介质,旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题,本申请提供了如下技术方案:

一种智能问答知识库构建方法,包括:

获取问答系统中所有访客与人工客服的聊天日志,根据所述聊天日志生成有效问答对;其中,所述聊天日志包括访客的提问内容以及人工客服的回复内容;

使用聚类算法对所述有效问答对进行向量聚类操作,将所述有效问答对划分为不同的类别,并取各个类别中任一个有效问答对作为整个类的问答代表;

统计所述各个类别中的有效问答对数量,并筛选出所述有效问答对数量超过设定阈值的类别,将所述筛选类别的问答代表添加到智能问答知识库中。

本申请实施例采取的技术方案还包括:所述根据所述聊天日志生成有效问答对具体为:

通过文本分类模型对所述聊天日志进行意图识别,筛选出非闲聊意图的聊天日志,并根据筛选后的聊天日志生成有效问答对。

本申请实施例采取的技术方案还包括:所述使用聚类算法对所述有效问答对进行向量聚类操作包括:

对所述有效问答对中的提问内容进行向量编码,将其转化为向量表示;

将所述每个有效问答对中的提问内容与对应向量表示进行一一对应,建立所述提问内容与对应向量表示的映射关系;

使用dbscan聚类算法对所述提问内容的向量表示进行聚类;

根据所述向量表示的聚类结果,将所述有效问答对按照对应的映射关系划分为不同的类别。

本申请实施例采取的技术方案还包括:所述使用dbscan聚类算法对所述提问内容的向量表示进行聚类具体为:

计算两个向量在高纬度中的距离,将距离小于设定距离阈值的两个向量划分为同一类。

本申请实施例采取的技术方案还包括:所述筛选出所述有效问答对数量超过设定阈值的类别还包括:

判断所述智能问答知识库中是否已经存在所述类别的同类问题,如果不存在,将所述筛选类别的问答代表作为新的知识点添加到智能问答知识库中。

本申请实施例采取的技术方案还包括:所述将所述筛选类别的问答代表添加到智能问答知识库中之前还包括:

对所述类别的问答代表进行优化。

本申请实施例采取的技术方案还包括:所述对所述筛选类别的问答代表进行优化具体为:

将所述问答代表中口语化的提问内容和回复内容进行书面化修改。

本申请实施例采取的另一技术方案为:一种智能问答知识库构建系统,包括:

数据获取模块:用于获取问答系统中所有访客与人工客服的聊天日志,根据所述聊天日志生成有效问答对;其中,所述聊天日志包括访客的提问内容以及人工客服的回复内容;

数据分类模块:用于使用聚类算法对所述有效问答对进行向量聚类操作,将所述有效问答对划分为不同的类别,并取各个类别中任一个有效问答对作为整个类的问答代表;

数据筛选模块:用于统计所述各个类别中的有效问答对数量,并筛选出所述有效问答对数量超过设定阈值的类别,将所述筛选类别的问答代表添加到智能问答知识库中。

本申请实施例采取的又一技术方案为:一种终端,所述终端包括处理器、与所述处理器耦接的存储器,其中,

所述存储器存储有用于实现所述智能问答知识库构建方法的程序指令;

所述处理器用于执行所述存储器存储的所述程序指令以控制智能问答知识库构建。

本申请实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行所述智能问答知识库构建方法。

相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的智能问答知识库构建方法通过获取问答系统中所有访客与人工客服的聊天日志,根据聊天日志生成有效问答对,然后使用聚类算法对有效问答对划分为不同的类别,并将有效问答对数量超过一定值的类别作为新的知识点添加到智能问答知识库中。本申请实施例能够及时发现出现频率较高的新的知识点并对智能问答知识库进行更新,从而自动拓展智能问答系统的问答范围,有利于提高智能问答系统的回复准确率,并降低了使用者对领域知识的要求。

附图说明

图1是本申请实施例的智能问答知识库构建方法的流程图;

图2为本申请实施例的智能问答知识库构建系统结构示意图;

图3为本申请实施例的终端结构示意图;

图4为本申请实施例的存储介质的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。

请参阅图1,是本申请实施例的智能问答知识库构建方法的流程图。本申请实施例的智能问答知识库构建方法包括以下步骤:

s1:获取问答系统中所有访客与人工客服的聊天日志;其中,聊天日志包括访客的提问内容以及人工客服的回复内容;

s2:通过文本分类模型对聊天日志进行意图识别,筛选出非闲聊意图的聊天日志,并根据筛选后的聊天日志生成有效问答对;

本步骤中,意图(intention)是指问答过程中访客的提问内容想要达到的目的。问答对为聊天日志中的提问内容与回复内容组成的固定搭配。本申请实施例通过收集业务文本和闲聊文本两类文本语料,并使用lstm和bert等深度学习模型训练出文本分类模型,通过文本分类模型判断聊天日志属于闲聊还是业务问答。

s3:对有效问答对中的提问内容进行向量编码(vectorcoding),将其转化为向量表示;

本步骤中,向量编码是自然语言处理(nlp)中一组技术的统称,即将句子映射到一个实数向量。

s4:将每个有效问答对中的提问内容与其向量表示进行一一对应,建立提问内容与其向量表示的映射关系;

s5:使用dbscan(density-basedspatialclusteringofapplicationswithnoise)聚类算法对提问内容的向量表示进行聚类;

本步骤中,向量表示的分类方式具体为:计算任意两个向量在高纬度中的距离,将距离小于设定距离阈值的两个向量划分为同一类。

s6:根据向量表示的聚类结果,将有效问答对按照对应的映射关系划分为不同的类别,并取各个类别中任一个有效问答对作为整个类的问答代表;

本步骤中,同一类别中各个有效问答对所要表达的意思是一样的,即访客的提问内容与客服回复内容较为接近。有效问答对的类别划分方式具体为:假设“你好”与“您好”的向量表示分别为(0,1,0)和(0,1,1),如果(0,1,0)和(0,1,1)为同一类,则“你好”与“您好”也划分为同一类。

s7:统计各个类别的有效问答对数量,并判断各个类别的有效问答对数量是否超过设定阈值,如果超过设定阈值,执行s8;否则,执行s10;

本步骤中,如果某类中的有效问答对数量超过设定阈值,表示该类问题的提问次数较多(即访客对该类问题的关注度较高),则有必要将该类问题添加到智能问答知识库中。如果某类中的有效问答对数量没有超过设定阈值,表示该类问题的提问次数较少(即访客对该类问题的关注度较低),则不需要将该类问题添加到智能问答知识库中。

s8:判断智能问答知识库中是否存在该类问题,如果不存在,执行s9;否则,执行s10;

s9:对该类别的问答代表进行优化后,将该问答代表作为新的知识点添加到智能问答知识库中;

本步骤中,问答代表优化方式具体为,将问答代表中的较为口语化的提问内容和回复内容进行书面化修改。

s10:结束。

本申请实施例的智能问答知识库构建方法通过获取问答系统中所有访客与人工客服的聊天日志,根据聊天日志生成有效问答对,然后使用聚类算法对有效问答对划分为不同的类别,并将有效问答对数量超过一定值的类别作为新的知识点添加到智能问答知识库中。本申请实施例能够及时发现出现频率较高的新的知识点并对智能问答知识库进行更新,从而自动拓展智能问答系统的问答范围,有利于提高智能问答系统的回复准确率,并降低了使用者对领域知识的要求。

请参阅图2,为本申请实施例的智能问答知识库构建系统结构示意图。本申请实施例的智能问答知识库构建系统40包括:

数据获取模块41:用于获取问答系统中所有访客与人工客服的聊天日志,根据聊天日志生成有效问答对;其中,聊天日志包括访客的提问内容以及人工客服的回复内容;

数据分类模块42:用于使用聚类算法对有效问答对进行向量聚类操作,将有效问答对划分为不同的类别,并取各个类别中任一个有效问答对作为整个类的问答代表;

数据筛选模块43:用于统计各个类别中的有效问答对数量,并筛选出有效问答对数量超过设定阈值的类别,将筛选类别的问答代表添加到智能问答知识库中。

请参阅图3,为本申请实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。

存储器52存储有用于实现上述智能问答知识库构建方法的程序指令。

处理器51用于执行存储器52存储的程序指令以控制智能问答知识库构建。

其中,处理器51还可以称为cpu(centralprocessingunit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参阅图4,为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现上述所有方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的这些实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1