一种主题森林式人机对话方法及系统与流程

文档序号:18193927发布日期:2019-07-17 05:43阅读:123来源:国知局
一种主题森林式人机对话方法及系统与流程

本发明涉及人工智能技术领域,特别是一种主题森林式人机对话方法及其应用该方法的系统。



背景技术:

随着互联网及电子商务的普及应用,及人工智能技术的发展,智能客服越来越常见。智能客服是在大规模知识处理基础上发展起来的一项面向行业应用的,涉及大规模知识处理技术、自然语言理解技术、知识管理技术、自动问答系统、推理技术等等,具有行业通用性,不仅为企业提供了细粒度知识管理技术,还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段;同时还能够为企业提供精细化管理所需的统计分析信息,可以大大降低企业在客服方面的人工成本。

智能客服的工作原理主要是基于大数据知识处理技术的应用,即通过提取访客的关键词来判断访客的问题,然后从语料库中匹配相应的答案给访客。获得准确答案的前提,是能够提取准确和完整的问题。

但是,目前的对话方式具有以下不足:

1.当机器对人的问题判断不清楚时,可能会答非所问;

2.当机器对问题理解不全面时,系统一般选择不回答该问题,并把问题收集进行后台人工处理;

3.整体人机对话效率较低,影响用户体验度。



技术实现要素:

本发明为解决上述问题,提供了一种主题森林式人机对话方法及系统,通过在创建主题森林式语料库时设置主题的必要属性和附加属性,并在人机对话时将访客问题进行主题匹配和必要属性的匹配以及必要属性的追问,从而能够保证获取到准确的、完整的访客问题,以在此基础上保证答案的准确性和提高沟通效率。

为实现上述目的,本发明采用的技术方案为:

一种主题森林式人机对话方法,其包括以下步骤:

a.收集原始语料,并对原始语料进行主题聚类,得到不同类型的主题;

b.对每个类型的主题进行实体关系的识别和提取,并根据所述实体关系确定每个类型的主题的实体属性,其中,所述实体属性包括必要属性和附加属性;

c.根据所述必要属性和附加属性,为每个类型的主题创建主题结构树,以及为所有类型的主题创建主题森林式语料库;

d.人机对话时,对访客问题进行主题类型的匹配、主题的实体属性的匹配,根据匹配结果判断是否缺少必要属性;

e.根据所缺少的必要属性对访客进行追问,得到访客问题的对应的主题类型的所有必要属性;

f.对满足所有必要属性的访客问题,在所述主题森林式语料库中查找对应的答案,并提供给访客。

优选的,所述的步骤a中,对原始语料进行主题聚类,是利用lda主题模型工具进行主题提取和主题分类。

优选的,所述的步骤b中,对每个类型的主题进行实体关系的识别和提取,是通过对原始语料进行语法解析和语义解析,根据解析结果提取实体信息和标注实体信息之间的关系。

优选的,所述的步骤c中,所述主题结构树包括当前主题信息和主题间关联信息,根据所述主题间关联信息将所有类型的主题进行关联索引,得到主题森林式语料库。

优选的,所述的步骤d中,是通过对访客问题进行分词处理和关键词提取,根据提取的关键词进行匹配其所属的主题类型,并获取其所属的主题类型的必要属性和附加属性;然后将提取的关键词与所述必要属性和附加属性进行匹配,根据匹配结果判断是否缺少必要属性。

另外,本发明还提供了与前述一种主题森林式人机对话方法相对应的系统,其包括语料库创建模块和人机对话模块,其中:

所述语料库创建模块进一步包括:

语料搜集单元,用于收集原始语料;

主题聚类单元,用于对原始语料进行主题聚类,得到不同类型的主题;

实体关系分析单元,用于对每个类型的主题进行实体关系的识别和提取,并根据所述实体关系确定每个类型的主题的实体属性,其中,所述实体属性包括必要属性和附加属性;

主题森林创建单元,用于根据所述必要属性和附加属性,为每个类型的主题创建主题结构树,以及为所有类型的主题创建主题森林式语料库;

所述人机对话模块进一步包括:

访客问题匹配单元,用于在人机对话时,对访客问题进行主题类型的匹配、主题的实体属性的匹配,根据匹配结果判断是否缺少必要属性;

必要属性追问单元,用于根据所缺少的必要属性对访客进行追问,得到访客问题的对应的主题类型的所有必要属性;

访客问题回答单元,用于对满足所有必要属性的访客问题,在所述主题森林式语料库中查找对应的答案,并提供给访客。

本发明的有益效果是:

本发明的一种主题森林式人机对话方法及系统,其通过在创建主题森林式语料库时设置主题的必要属性和附加属性,并在人机对话时将访客问题进行主题匹配和必要属性的匹配以及必要属性的追问,一方面,能够保证获取到准确的、完整的访客问题,以在此基础上保证答案的准确性和提高沟通效率;另一方面,机器回答问题的速度和范围能够得到提高,用户体验更好。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明一种主题森林式人机对话方法的流程简图;

图2为本发明一种主题森林式人机对话系统的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,本发明的一种主题森林式人机对话方法,其包括以下步骤:

a.收集原始语料,并对原始语料进行主题聚类,得到不同类型的主题;

b.对每个类型的主题进行实体关系的识别和提取,并根据所述实体关系确定每个类型的主题的实体属性,其中,所述实体属性包括必要属性和附加属性;

c.根据所述必要属性和附加属性,为每个类型的主题创建主题结构树,以及为所有类型的主题创建主题森林式语料库;

d.人机对话时,对访客问题进行主题类型的匹配、主题的实体属性的匹配,根据匹配结果判断是否缺少必要属性;

e.根据所缺少的必要属性对访客进行追问,得到访客问题的对应的主题类型的所有必要属性;

f.对满足所有必要属性的访客问题,在所述主题森林式语料库中查找对应的答案,并提供给访客。

所述的步骤a中,对原始语料进行主题聚类,是利用lda主题模型工具进行主题提取和主题分类。其中,所述原始语料是指访客与客服的历史对话记录,并根据新的对话记录对所述原始语料进行定期更新或实时更新。所述lda(latentdirichletallocation)主题模型是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从多项式分布,主题到词服从多项式分布。对每一篇文档,从主题分布中抽取一个主题,从被抽到的主题所对应的单词分布中抽取一个单词;重复上述过程直至遍历文档中的每一个单词,从而得到文档的主题。所述文档即本发明中的访客与客服的对话记录。例如,将一份原始语料话费为天气查询、火车查询、航班查询等主题。

所述的步骤b中,对每个类型的主题进行实体关系的识别和提取,是通过对原始语料进行语法解析和语义解析,根据解析结果提取实体信息和标注实体信息之间的关系,可以用实体关系图进行表示。实体关系图:简记e-r图,是指以实体、关系、属性三个基本概念概括数据的基本结构。所述实体即命名实体(namedentity),其包括名称(组织名、人名、地名、商品名)、表达式(日期、时间)等在内的具有明确语义信息的文本实体,在e-r图中用矩形表示,矩形框内写明实体名;比如访客作为一个实体。所述属性(attribute),实体所具有的某一特性,一个实体可由若干个属性来刻画;在e-r图中用椭圆形表示,并用无向边将其与相应的实体连接起来;比如访客的姓名、账号、性别等,都是属性。所述关系(relationship),是指数据对象彼此之间相互连接的方式,包括一对一关系、一对多关系、多对多关系。

所述的步骤c中,所述主题结构树包括当前主题信息和主题间关联信息,根据所述主题间关联信息将所有类型的主题进行关联索引,得到主题森林式语料库。一个对话可能仅局限于某个领域内的单一主题,也可能同时涉及多个领域的多个主题。通过匹配对话中的访客问题所涉及的主题,当涉及单一主题时,则通过主题森林式语料库进行查找匹配的主题类型,并获取该主题类型的必要属性和附加属性进行确认问题的完整性;当涉及多个主题时,则通过主题森林式语料库进行多个主题类型的匹配,并获取多个主题类型的对应的必要属性和附加属性进行一一确认所述访客问题在每个主题类型中的完整性。

所述的步骤d中,是通过对访客问题进行分词处理和关键词提取,根据提取的关键词进行匹配其所属的主题类型,并获取其所属的主题类型的必要属性和附加属性;然后将提取的关键词与所述必要属性和附加属性进行匹配,根据匹配结果判断是否缺少必要属性。

所述的步骤e、f中,举例如下:

例1(天气查询主题)

在天气查询主题中,时间和地点为必要属性。

访客:明日天气怎么样?

客服:请问你是查询哪里的天气?

(根据所述天气查询主题的必要属性,访客问题只提供了时间属性,并没有提供地点属性;因此,当客服此时无法获取用户的地址时,需要对地点属性进行追问。)

访客:北京。

客服:北京明日晴天,气温5-10度。

(除了上述必要属性,风力、湿度、雾霾等可作为附加属性。)

例2(火车查询主题)

在火车查询主题中,起始地、目的地、日期为必要属性。

访客:请问北京到上海的火车还有余票吗?

客服:请问你需要查询哪一天的呢?

(根据所述火车查询主题的必要属性,访客问题只提供了起始地和目的地的属性,并没有提供日期属性;因此,客服需要对日期属性进行追问。)

访客:2017年12月1日早上8点之前

客服:2017年12月1日北京到上海车票信息如下,g101次有余票160张,其中商务座20张,一等座50张,二等座90张;d313次有余票200张,其中二等座150张,软卧50张;t109次有余票500张,其中硬座300张,硬卧150张,软卧50张……

(除了上述必要属性,仍有不同车次和不同座位选项,但由于信息量较小,客服不再追问,所以不同车次和座位的属性在此主题中为附加属性。)

如图2所示,本发明还提供了与前述一种主题森林式人机对话方法相对应的系统,其包括语料库创建模块和人机对话模块,其中:

所述语料库创建模块进一步包括:

语料搜集单元,用于收集原始语料;

主题聚类单元,用于对原始语料进行主题聚类,得到不同类型的主题;

实体关系分析单元,用于对每个类型的主题进行实体关系的识别和提取,并根据所述实体关系确定每个类型的主题的实体属性,其中,所述实体属性包括必要属性和附加属性;

主题森林创建单元,用于根据所述必要属性和附加属性,为每个类型的主题创建主题结构树,以及为所有类型的主题创建主题森林式语料库;

所述人机对话模块进一步包括:

访客问题匹配单元,用于在人机对话时,对访客问题进行主题类型的匹配、主题的实体属性的匹配,根据匹配结果判断是否缺少必要属性;

必要属性追问单元,用于根据所缺少的必要属性对访客进行追问,得到访客问题的对应的主题类型的所有必要属性;

访客问题回答单元,用于对满足所有必要属性的访客问题,在所述主题森林式语料库中查找对应的答案,并提供给访客。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成。

上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1