一种智能对话方法、机器人对话系统、服务器及存储介质与流程

文档序号:17926628发布日期:2019-06-15 00:27阅读:161来源:国知局
一种智能对话方法、机器人对话系统、服务器及存储介质与流程
本发明涉及机器人对话领域,具体涉及一种智能对话方法、机器人对话系统、服务器及存储介质。
背景技术
:培训一个高质量的人工客服成本十分高昂,且存在上线缓慢,工作时间有限等缺点。人工客服上述的缺点导致人工客服招聘、培训、应用难,间接导致潜在客户流失,给企业造成巨大的损失。因此,定制一套高质量的机器人对话系统就成了许多企业的迫切需求。在现代医美领域中机器人对话系统迫切需求,目前医美领域的机器人对话系统还存在这巨大的空缺。由于现阶段大部分医美企业都还使用人工客服与客户对接,因此都累计了大量的人工客服对话数据。以北京某美容医疗医院为例,累计人工客服对话数据达到210万条左右。这些数据涵盖了该企业在各个项目上的大量有价值的对话。技术实现要素:本发明的目的在于以企业人工客服对话为数据基础,提出一种智能对话方法、机器人对话系统及存储介质,可以快速应用于医疗美容领域机器人对话领域。本发明提供了一种智能对话方法,包括如下:获取历史累积的人工客服对话数据,抽取所述对话数据中的qa问答对存入qa数据库;从qa数据库抽取部分的qa问答对数据,并根据抽取的qa问答对数据制定客户问题若干类别范围及若干实体类别范围,并以qa问答对为训练数据分别训练文本分类模型和命名实体识别模型;用训练好的文本分类模型及命名实体识别模型分别对qa数据库中的所有问题进行分类及实体识别,并对每个问题分别增加类别标签和实体向量,所述问题的类别标签为问题经过训练好的文本分类模型的输出,所述问题的实体向量为问题经过训练好的命名实体识别模型所抽取出的实体集合构成;从当前客户对话中获取待回复问题,并将待回复的问题分别经过训练好的文本分类模型及命名实体识别模型分别得到待回复问题的所属类别和实体;根据待回复问题的类别和实体,从qa数据库筛选出包含相同类别和实体的qa问答对作为候选数据集;将待回复问题与候选数据集里的问题进行匹配,找到与待回复问题相似度最高的问题,并将待回复问题相似度最高的问题对应的答案作为待回复问题的答案作为输出。进一步的,所述问题的实体向量为一个固定长度的向量,向量的维度与实体类别总数相等,每个维度上的元素值为1或0,代表了包含或不包含该实体。进一步的,在本发明实施例中,所述方法包括:在抽取对话数据中的qa问答对前,对历史累积的人工客服对话数据的数据进行清洗或筛选。所述数据清洗或筛选的方式是通过关键词搜索、正则规则匹配以及人工辅助筛选的方式,剔除无意义的对话。所述无意义的对话包含以下任意一种:答非所问、长度过短、无人响应。进一步的,优选的,所述文本分类模型为xgboost文本分类模型。进一步的,优选的,所述相似度的判断过程为利用word2vec模型将问题转化为句向量,利用余弦定理计算句向量的欧氏距离作为相似度指标。进一步的,优选的,所述实体识别包含实体边界识别和确定实体类别。相应的,本发明实施例,还提供了一种机器人对话系统,包括:接收单元、输出单元、至少一个处理器、以及与所述至少一个处理器通信连接的存储器;其中,所述接收单元用于接收当前客户与所述机器人对话系统的对话内容;所述输出单元用于输出当前客户对话内容中问题的答案;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述智能对话方法。相应的,本发明还提供了一种服务器,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述智能对话方法。相应的,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述智能对话方法步骤。本发明提供的智能对话方法、智能对话系统、服务器及存储介质,与现有人工客服相比,本发明本采用文本分类器(text-classifier)、命名实体识别(namedentityrecognition,ner)和常见问答相似度匹配(faqsimilarity)技术进行机器人对话系统构建,本发明基于人工客服数据构建的faq对话系统,是一种高效简易的对话系统,能够满足基础的对话需求,本发明方法利用文本分类模型及ner对问题领域进行筛选,增强了faq回复的准确性,确保了能“问什么答什么”而不是答非所问。附图说明此处所说明的附图用来提供对发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1为本发明实施例1的一种智能对话方法的原理示意图;图2为本发明实施例1的一种智能对话方法的流程步骤示意图。具体实施方式为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例1本发明提供了一种智能对话方法,具体实现原理如附图1所示,所述方法包括如下步骤,如附图2所示,步骤s1,获取历史累积的人工客服对话数据,抽取所述对话数据中的qa问答对存入qa数据库,所述qa问答对为问题和问题对应的回答。步骤s2,从qa数据库抽取部分的qa问答对数据,并根据抽取的qa问答对数据制定客户问题若干类别范围及若干实体类别范围,并以qa问答对为训练数据分别训练文本分类模型和命名实体识别模型;优选地,在本发明实施例中,所述从qa数据库抽取部分的qa问答对数据为抽取qa数据库的qa问答对总量的10%的qa问答对。步骤s3,用训练好的文本分类模型及命名实体识别模型分别对qa数据库中的所有问题进行分类及实体识别,并对每个问题分别增加类别标签和实体向量,所述问题的类别标签为问题经过训练好的文本分类模型的输出,所述问题的实体向量为问题经过训练好的命名实体识别模型所抽取出的实体集合构成;所述问题的实体向量为一个固定长度的向量,向量的维度与实体类别总数相等,每个维度上的元素值为1或0,代表了包含或不包含该实体。如表1-2所示,在例句“割双眼皮要几千?”中,利用命名实体识别模型能够抽取出来的实体为“部位器官”(双眼皮)和“价格”(几千),则在“部位器官”和“价格”的元素值为1。本发明实施例,对qa数据库中的所有问题进行分类及实体识别,获取如表1所示的实体、类别、问题对应表,实体向量如表2所示。表1实体、类别、问题对应表表2实体向量价格时间优惠部位器官症状材料仪器专家····1001000····步骤s4,从当前客户对话中获取待回复问题,并将待回复的问题分别经过训练好的文本分类模型及命名实体识别模型分别得到待回复问题的所属类别和实体;本发明实施例,例如当前客户对话中获取待回复问题为“割双眼皮几千?”,将待回复问题为“割双眼皮几千?”,经过训练好的文本分类模型得到所属类别为“咨询价格”,利用命名实体识别模型能够抽取出来的实体为“部位器官”(双眼皮)和“价格”(几千)。步骤s5,根据待回复问题的类别和实体,从qa数据库筛选出包含相同类别和实体的qa问答对作为候选数据集,本发明实施例中,待回复问题为“割双眼皮几千?”找出的问题都是询问割双眼皮这个项目的价格的;步骤s6,将待回复问题与候选数据集里的问题进行匹配,找到与待回复问题相似度最高的问题,并将待回复问题相似度最高的问题对应的答案作为待回复问题的答案作为输出。进一步的,为了更加输出更精准的答案,本发述方法包括:在抽取对话数据中的qa问答对前,对历史累积的人工客服对话数据的数据进行清洗或筛选。数据清洗和筛选的方式是通过关键词搜索、正则规则匹配以及人工辅助筛选的方式,剔除答非所问、长度过短以及无人响应等无意义的对话,保留高质量的对话数据。为了训练高质量的文本分类模型,在本发明实施例中,优选的,所述文本分类模型为xgboost文本分类模型。xgboost(extremegradientboosting)是由陈天奇在gbdt(gradientboosting)的基础上改进的集成学习方法,能够自动利用cpu的多线程进行并行计算,同时在算法上加以改进提高了精度。xgboost是一个加性回归模型,通过boosting迭代构造一组弱学习器进行表决,从而输出最优结果。相对于lr分类器(logisticregressionclassifier),xgboost分类器具有的优势:不需要做特征的归一化、自动进行特征选择、模型可解释性较好、可以适应多种损失函数如squareloss,logloss等,利用xgboost模型可以训练高质量的文本分类器。faq是英文frequentlyaskedquestions的缩写,中文意思就是“经常问到的问题”,或者更通俗地叫做“常见问题解答”。faq是当前网络上提供在线帮助的主要手段,通过事先组织好一些可能的常问问答对,发布在网页上为用户提供咨询服务。根据用户提出的问题,匹配数据库中最相近的问题,并以匹配到问题的回答作为客户问题回答的输出。常用的相似度计算方法是利用word2vec模型将问题转化为句向量,利用余弦定理计算句向量的欧氏距离作为相似度指标。在实际应用中,单纯利用faq匹配问题的回答,也常常存在回答不到位,回答错领域或者答非所问等情况。在本发明方法中,优选的,所述相似度的判断过程为利用word2vec模型将问题转化为句向量,利用余弦定理计算句向量的欧氏距离作为相似度指标。需要说明的是,待回复问题和候选数据集中的问题的相似度比对,不限定于本发明所举例的方式,也可以有其它的实现方法。进一步的,本发明方法中,所述实体识别包含实体边界识别和确定实体类别。命名实体识别(namedentityrecognition,简称ner),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向semanticweb的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。命名实体识别通常包括两部分:实体边界识别和确定实体类别。实施例2本发明实施例中提供了一种机器人对话系统,所述机器人对话系统包括:接收单元、输出单元、至少一个处理器、以及与所述至少一个处理器通信连接的存储器;其中,所述接收单元用于接收当前客户与所述机器人对话系统的对话内容;所述输出单元用于输出当前客户对话内容中问题的答案;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行智能对话方法步骤。本实施例的所述智能对话方法步骤与实施例1的相同,不再赘述。实施例3本发明实施例中提供了一种服务器,所述服务器包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行智能对话方法步骤。所述存储器还存储qa数据库,本实施例的所述智能对话方法步骤与实施例1的相同,不再赘述。实施例4本发明实施例中提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现智能对话方法步骤。所述计算机可读存储介质还存储qa数据库,本实施例的所述智能对话方法步骤与实施例1的相同,不再赘述。本发明提供了一种智能对话方法如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得服务器(可以是个人计算机、云服务器、网络设备、或者为包含处理器的设备等)执行本发明各个实施例所述方法的全部或部分。所述计算机可读存储介质包括但不限于只读存储器(rom,readonlymemory)、随机存取存储器(ram,randomaccessmemory)、u盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。本发明实施例不限制于任何特定的硬件和软件结合。以上仅为本发明的优选实施例,仅用以说明本发明的技术方案,但应当理解本发明并非局限于上述实施例,通过本发明的启示,本领域技术人员结合公知或现有技术、知识所进行的修改,或者对其中部分或者全部技术特征进行等同替换也应视为在本发明的保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1