会话数据处理、知识库建立、优化、交互方法及装置与流程

文档序号:11828491阅读:305来源:国知局
会话数据处理、知识库建立、优化、交互方法及装置与流程

本发明涉及数据处理领域,具体涉及一种会话数据处理、知识库建立、优化、交互方法及装置。



背景技术:

随着计算机技术的普及,人们的生活已经逐渐走入智能时代。不仅仅是电脑、手机、PAD等终端设备,人们的衣食住行等方方面面都开始应用智能交互技术,例如,智能电视,智能导航,智能家居等。也就是说,智能交互技术将为人们生活的各个方面提供方便、快捷的服务。

通常情况下,智能交互系统在接收到用户的输入后,会根据用户的输入,向用户反馈相应的答案。

然而,上述智能交互系统经常会出现无法向用户反馈相应内容的情况,导致用户体验较差。



技术实现要素:

本发明解决的问题是如何减少无法向用户反馈相应内容的情况出现,提高智能交互系统的用户体验。

为解决上述问题,本发明提供一种会话数据的处理方法,所述方法包括:获取多个待处理的会话数据,每个所述待处理的会话数据包含若干个按时间排列的问句;对每个所述待处理的会话数据的第一个问句进行语义聚类处理,得到一个或多个第一分组;分别对属于同一第一分组的每个所述待处理的会话数据的第二个问句进行语义聚类处理,得到一个或多个第二分组;不断重复上述语义聚类处理的过程,分别对属于同一第i分组的每个所述待处理的会话数据的第i+1个问句进行语义聚类处理,得到一个或多个第i+1分组,直至获得满足预设条件的一个或多个叶子分组,其中,i为正整数;基于语义聚类处理的结果,根据每个所述叶子分组及对应的所有上级分组按照时间顺序排列建立一场景会话序列。

可选地,所述待处理的会话数据是在日志或/和开放数据中爬取到的。

可选地,将所爬取的会话数据中问句的数目大于或等于第一阈值的会话数据作为所述待处理的会话数据。

可选地,所述预设条件包括:所述叶子分组及对应的所有上级分组中每个分组所包括的问句的数目大于或等于第二阈值;所述叶子分组位于第j分组,j大于或等于第三阈值。

可选地,所述根据每个所述叶子分组及对应的所有上级分组按照时间顺序排列建立一场景会话序列,包括:从所述叶子分组及对应的所有上级分组分别选取一问句,将所选取的问句按照时间顺序排列作为对应的场景会话序列。

可选地,所述场景会话序列包括:标准问句及扩展问句;所述根据每个所述叶子分组及对应的所有上级分组按照时间顺序排列建立一场景会话序列,包括:分别将所述叶子分组的语义及所述叶子分组对应的所有上级分组的语义按照时间顺序排列作为对应的场景会话序列的标准问句;将所述叶子分组及对应的所有上级分组中不同于所述语义的问句作为对应标准问句的扩展问句。

本发明实施例还提供了一种知识库的建立方法,所述知识库包括多个知识点,每个知识点包括答案和问题,所述方法包括:从场景会话库中获取知识点的问题,所述场景会话库包括上述任一种的会话数据的处理方法所获得的场景会话序列,每个所述知识点至少对应所述场景会话序列的一个分组,所述知识点的问题至少包括所对应的分组中的问句;为每个所述知识点提供答案。

本发明实施例还提供了一种知识库的优化方法,所述知识库包括多个知识点,每个知识点包括标准问句和扩展问句;所述方法包括:从场景会话库中查找与所述知识点对应的场景会话序列,所述场景会话库包含若干个按照上述任一种的会话数据的处理方法所获得的场景会话序列,每个场景会话序列包括多个分组,每个分组包括多个问句;计算所述知识点与对应的场景会话序列中每个分组的语义相似度,当所述语义相似度大于第五阈值时,则将位于对应分组中但未位于所述知识点的问句作为扩展问句添加到所述知识点中。

本发明实施例还提供了一种智能问答系统的交互方法,所述智能问答系统包括:知识库以及场景会话库,所述场景会话库包含若干个按照上述任一种的会话数据的处理方法所获得的场景会话序列;所述方法包括:当接收到用户问句后,从所述知识库中获取与所述用户问句对应的答案,以及从所述场景会话库中获取与所述用户问句关联的全部或部分问句;输出与所述用户问句对应的答案及关联的问句。

本发明实施例还提供了一种智能问答系统的交互方法,所述智能问答系统包括:知识库以及场景会话库,所述场景会话库包含若干个按照上述任一种的会话数据的处理方法所获得的场景会话序列;所述方法包括:当接收到的用户问句包含命名实体但未包含所述命名实体的属性信息时,从所述场景会话库中获取所述命名实体对应的所有属性信息,并生成属性优先级;选取优先级别最高的属性作为所述用户问句中所述命名实体的属性信息,从所述知识库中获取相应的答案并发送给用户。

本发明实施例还提供了一种会话数据的处理装置,所述装置包括:第一获取单元,适于获取多个待处理的会话数据,每个所述待处理的会话数据包含若干个按时间排列的问句;处理单元,适于对每个所述待处理的会话数据的第一个问句进行语义聚类处理,得到一个或多个第一分组;分别对属于同一第一分组的每个所述待处理的会话数据的第二个问句进行语义聚类处理,得到一个或多个第二分组;不断重复上述语义聚类处理的过程,分别对属于同一第i分组的每个所述待处理的会话数据的第i+1个问句进行语义聚类处理,得到一个或多个第i+1分组,直至获得满足预设条件的一个或多个叶子分组,其中,i为正整数;第一建立单元,适于基于语义聚类处理的结果,根据每个所述叶子分组及对应的所有上级分组按照时间顺序排列建立一场景会话序列。

可选地,所述第一获取单元适于从日志或/和开放数据中爬取所述待处理的会话数据。

可选地,所述第一获取单元适于将所爬取的会话数据中问句的数目大于或等于第一阈值的会话数据作为所述待处理的会话数据。

可选地,所述预设条件包括:所述叶子分组及对应的所有上级分组中每个分组所包括的问句的数目大于或等于第二阈值;所述叶子分组位于第j分组,j大于或等于第三阈值。

可选地,所述第一建立单元包括:第一建立子单元,适于从所述叶子分组及对应的所有上级分组分别选取一问句,将所选取的问句按照时间顺序排列作为对应的场景会话序列。

可选地,所述第一建立单元建立的场景会话序列包括:标准问句及扩展问句;所述第一建立单元包括:第二建立子单元,适于分别将所述叶子分组的语义及所述叶子分组对应的所有上级分组的语义按照时间顺序排列作为对应的场景会话序列的标准问句;第三建立子单元,适于将所述叶子分组及对应的所有上级分组中不同于所述语义的问句作为所述对应的标准问句的扩展问句。

本发明实施例还提供了一种知识库的建立装置,所述知识库包括多个知识点,每个知识点包括答案和问题,所述装置包括:第二获取单元,适于从场景会话库中获取知识点的问题,所述场景会话库包括上述任一种的会话数据的处理装置所获得的场景会话序列,每个所述知识点至少对应所述场景会话序列的一个分组,所述知识点的问题至少包括所对应的分组中的问句;第二建立单元,适于为每个所述知识点提供答案。

本发明实施例还提供了一种知识库的优化装置,所述知识库包括多个知识点,每个知识点包括标准问和扩展问,所述装置包括:查找单元,适于从场景会话库中查找与所述知识点对应的场景会话序列,所述场景会话库包含若干个按照上述任一种的会话数据的处理装置所获得的场景会话序列,每个场景会话序列包括多个分组,每个分组包括多个问句;计算单元,适于计算所述知识点与对应的场景会话序列中每个分组的语义相似度;优化单元,适于当所述语义相似度大于第五阈值时,则将位于对应分组中但未位于所述知识点的问句作为扩展问句添加到所述知识点中。

本发明实施例还提供了一种智能问答系统的交互装置,所述智能问答系统包括:知识库以及场景会话库,所述场景会话库包含若干个按照上述任一种的会话数据的处理装置所获得的场景会话序列;所述装置包括:第三获取单元,适于当接收到用户问句后,从所述知识库中获取与所述用户问句对应的答案,以及从所述场景会话库中获取与所述用户问句关联的问句;输出单元,适于输出与所述用户问句对应的答案及关联的问句。

本发明实施例还提供了另一种智能问答系统的交互装置,所述智能问答系统包括:知识库以及场景会话库,所述场景会话库包含若干个按照上述任一种的会话数据的处理装置所获得的场景会话序列;所述装置包括:第四获取单元,适于当接收到的用户问句包含命名实体但未包含所述命名实体的属性信息时,从所述场景会话库中获取所述命名实体对应的所有属性信息,并生成属性优先级;反馈单元,适于选取优先级别最高的属性作为所述用户问句中所述命名实体的属性信息,从所述知识库中获取相应的答案并发送给用户。

与现有技术相比,本发明的技术方案具有以下优点:

通过获取多个待处理的会话数据,并对各待处理的会话数据进行语义聚类处理,最终根据语义聚类结果建立相应的场景会话序列。由于所述场景会话序列包含相应场景的多个问句,因此可以丰富智能交互系统中数据库的内容,减少智能交互系统出现无法向用户反馈相应内容的情况,提高用户体验。

附图说明

图1是本发明实施例中一种会话数据的处理方法的流程图;

图2是本发明实施例中一种语义聚类过程多对应的树结构的示意图;

图3是本发明实施例中一种知识库的建立方法的流程图;

图4是本发明实施例中一种知识库的优化方法的流程图;

图5是本发明实施例中一种智能问答系统的交互方法的流程图;

图6是本发明实施例中另一种智能问答系统的交互方法的流程图;

图7是本发明实施例中一种会话数据的处理装置的结构示意图;

图8是本发明实施例中一种知识库的建立装置的结构示意图;

图9是本发明实施例中一种知识库的优化装置的结构示意图;

图10是本发明实施例中一种智能问答系统的交互装置的结构示意图;

图11是本发明实施例中另一种智能问答系统的交互装置的结构示意图。

具体实施方式

现有的智能交互系统内设置有知识库,当接收到用户的输入后,通常从所述知识库中获取相应的答案,并反馈至用户。然而,由于知识库中知识点的局限性,智能交互系统经常会出现无法从知识库中获取到相应答案的情况,导致用户体验较差。

针对上述问题,本发明的实施例提供了一种会话数据的处理方法,应用所述方法,通过获取多个待处理的会话数据,并对各待处理的会话数据进行语义聚类处理,最终根据语义聚类结果建立相应的场景会话序列,由于所述场景会话序列包含相应场景的多个问句,因此可以丰富智能交互系统中数据库的内容,减少智能交互系统出现无法向用户反馈相应内容的情况,提高用户体验。

为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例作详细地说明。

参照图1,本发明实施例提供了一种会话数据的处理方法,所述方法可以包括如下步骤:

步骤11,获取多个待处理的会话数据,每个所述待处理的会话数据包含若干个按时间排列的问句。

在具体实施中,按照目标领域,可以采用多种方式获取所述待处理的会话数据。比如,可以从领域日志中爬取所述待处理的会话数据,还可以从相应领域的电商、垂直网站(例如京东,汽车之家,苏宁)以及贴吧等开放数据中爬取所述待处理的会话数据。

需要说明的是,在具体实施中,所获取的每个待处理的会话数据中,问句的数目可以相同,也可以不同,具体不受限制。在从领域日志及开放数据中获取所述待处理的会话数据时,可以先对所爬取的会话数据进行筛选,将筛选出的会话数据作为所述待处理的会话数据。比如,可以将所爬取的会话数据中问句的数目大于或等于第一阈值的会话数据作为所述待处理的会话数据,其中,所述第一阈值可以根据实际情况进行设置。

例如,待处理的会话数据可以包括如下四个问句:

Q1:什么是安吉星

Q2:好用么

Q3:多少钱

Q4:跟安捷星比有什么优点

步骤12,对所获取的待处理的会话数据进行语义聚类处理,获得一个或多个叶子分组。

具体地,先对每个所述待处理的会话数据的第一个问句进行语义聚类处理,得到一个或多个第一分组,再对属于同一第一分组的每个所述待处理的会话数据的第二个问句进行语义聚类处理,得到一个或多个第二分组;不断重复上述语义聚类处理的过程,分别对属于同一第i分组的每个所述待处理的会话数据的第i+1个问句进行语义聚类处理,得到一个或多个第i+1分组,直至获得满足预设条件的一个或多个叶子分组,其中,i为正整数。

在具体实施中,可以采用多种方式对各个问句进行语义聚类处理。比如,可以通过计算各个问句之间的语义相似度,并在语义相似度的值大于一定阈值时,将相应问句作为一个聚类。

上述语义聚类过程可以形成一树结构,每个分组表示一个聚类结果并作为该树结构的一个结点。其中,第一分组为该树结构的第一个层次中的结点,第二分组为该树结构的第二个层次中的结点,第i分组为该树结构的第i个层次中的结点,第i+1分组为该树结构的第i+1个层次中的结点。每一层次所包含的分组的数目可以相同,也可以不同。所述叶子分组为该树结构的叶子结点,也叫终端结点。除叶子分组外,每个分组都有子结点。所述叶子分组所在分支的其它结点,也就是与所述叶子分组位于同一分支的所有上级分组为所述叶子分组的祖先分组。

在本发明的一实施例中,所述预设条件可以包括:所述叶子分组及对应的所有上级分组中每个分组所包括的问句的数目大于或等于第二阈值;所述叶子分组位于第j分组,j大于或等于第三阈值。

在具体实施中,所述第二阈值及第三阈值可以根据实际情况进行设置,比如,所述第二阈值可以为2,所述第三阈值为3。在所述语义聚类处理的过程中,通过所述预设条件可以获得所述叶子分组。

为了描述方便,以第i分组表示语义聚类过程中获得的任一分组为例,在具体实施中,既可以在对各待处理的会话数据的全部问句进行语义聚类处理,获得对应树结构的全部终端结点后,再从所述全部终端结点中筛选出符合预设条件的终端结点;也可以在每获得一第i分组后,即通过所述预设条件对所获得的第i分组进行判断,并在满足所述预设条件后继续后续流程,否则删除该第i分组。

比如,当所述第i分组非终端结点时,若第i分组中问句的数目大于第二阈值,则对属于同一第i分组的每个所述待处理的会话数据的第i+1个问句进行语义聚类处理,得到一个或多个第i+1分组。当所述第i分组为终端结点时,若i大于或等于第三阈值,则所述第i分组为满足所述预设条件的叶子分组,否则删除该第i分组。由此,语义聚类处理结束后,所获得的终端结点均为满足所述预设条件的叶子分组。

参照图2,下面以获取5个待处理的会话数据s1,s2,s3,s4及s5,所述第二阈值为2,所述第三阈值为4为例,对上述语义聚类处理过程进行详细说明。其中,每个待处理的会话数据包括的问句如下:

s1={Q11,Q12,Q13,Q14},

s2={Q21,Q22,Q23,Q24},

s3={Q31,Q32,Q33,Q34,Q35},

s4={Q41,Q42,Q43,Q44,Q45},

s5={Q51,Q52,Q53,Q54,Q55}。

首先,对s1~s5中的第一个问句{Q11,Q21,Q31,Q41,Q51}进行聚类,得到一个第一分组Z1={Q11,Q21,Q31,Q41,Q51}。第一分组Z1位于对应树结构的第一个层次L1。

接着,对s1~s5中的第二个问句{Q12,Q22,Q32,Q42,Q52}进行聚类,得到两个第二分组Z21={Q12,Q32,Q42,Q52},Z22={Q22}。第二分组Z21及Z22位于对应树结构的第二个层次L2。此时,由于第二分组Z22中仅存在Q22一个问句(即该分组中包括的问句的数目小于第二阈值),故删除第二分组Z22。

然后,对s1、s3、s4及s5中的第三个问句进行聚类,得到两个第三分组Z31={Q13,Q33},Z32={Q43,Q53}。第三分组Z31及Z32位于对应树结构的第三个层次L3。

接着,对s1及s3中的第四个问句进行聚类,得到一个第四分组Z41={Q14,Q34}。对s4及s5的第四个问句进行聚类,得到两个第四分组Z42及Z43,其中,Z42={Q44},Z43={Q54}。第四分组Z41、Z42及Z43位于对应树结构的第四个层次L4。

其中:由于待处理的会话数据s1仅存在4个问句,第四分组Z41所在的分组数等于第三阈值,并且第四分组Z41中问句的数目等于第二阈值,第四分组Z41的各上级分组中包括的问句数目均大于或等于第二阈值,因此,所述第四分组Z41为满足所述预设条件的叶子分组。而Z42及Z43中仅存在一个问句,即Z42及Z43中问句的数目小于第二阈值,故删除Z42及Z43。另外,由于Z32所在的分组数小于第三阈值,故删除第三分组Z32。

最后,将s3中的第五个问句Q35单独聚为一类,得到第五分组Z5={Q35}。第五分组Z5位于对应树结构的第五个层次L5。由于与第五分组Z5位数目中所包含的问句数目小于第二阈值,故删除第五分组Z5。

最终得到的满足所述预设条件的叶子分组为Z41。

步骤13,基于语义聚类处理的结果,根据每个所述叶子分组及对应的所有上级分组按照时间顺序排列建立一场景会话序列。

在具体实施中,根据每个所述叶子分组及对应的所有上级分组,也就是根据所述叶子分组及其祖先分组(后续将所有的上级分组称为祖先分组),可以采用多种方式建立相应的场景会话序列。

在本发明的一实施例中,可以直接从所述叶子分组及对应的所有上级分组中分别选取一问句,将所选取的问句按照时间顺序排列作为对应的场景会话序列。其中,从每个分组中选取问句可以为该分组中的任意问句,由于该分组中各问句之间的语义相似,因此,无论从该分组中选取问句的结果如何,均不会对该场景序列对应的知识点产生较大的影响。

例如,对于叶子分组Z41及其祖先分组Z31、Z21及Z1,对应的场景会话序列可以为{Q11,Q12,Q13,Q14},也可以为{Q11,Q21,Q33,Q34}。

在本发明的另一实施例中,所述场景会话序列可以包括:标准问句及扩展问句。其中,所述标准问句即按照常用形式表现的问句,所述扩展问句即与标准问句相同语义但形式不同的问句。比如,标准问句为“这支笔多少钱”时,对应的扩展问句可以包括“这支笔的价格是多少”、“这支笔的价格怎么样”及“这支笔的市场价是多少”。

根据每个所述叶子分组及对应的所有上级分组,也就是根据所述叶子分组及其祖先分组建立相应的场景会话序列时,可以分别将所述叶子分组的语义及所述叶子分组对应的所有上级分组的语义按照时间顺序排列作为对应的场景会话序列的标准问句,而将所述叶子分组及对应的所有上级分组中不同于所述语义的问句作为对应标准问句的扩展问句。

比如,对于叶子分组Z41及其祖先分组Z31、Z21及Z1,建立对应的场景会话序列时,可以分别将Z41、Z31、Z21及Z1的语义作为该场景会话序列的标准问句,而将Q14及Q34作为Z41对应的标准问句的扩展问句,将Q13及Q33作为Z31对应的标准问句的扩展问句,将Q12、Q32、Q42及Q52作为Z21对应的标准问句的扩展问句,将Q11、Q21、Q31、Q41及Q51作为Z1对应的标准问句的扩展问句。

由上述内容可以看出,通过建立场景会话序列,可以获得相应场景的多个问句,进而可以丰富智能交互系统中数据库的内容,减少智能交互系统出现无法向用户反馈内容的情况,提高用户体验。

参照图3,本发明的实施例还提供了一种知识库的建立方法,所述知识库可以包括多个知识点,每个知识点包括答案及相应的问题,所述方法可以包括如下步骤:

步骤31,从场景会话库中获取知识点的问题。

在具体实施中,所述场景会话库包括上述会话数据处理方法所获得的场景会话序列。每个知识点至少对应所述场景会话序列的一个分组。所述知识点的问题至少包括所对应的分组中的问句,当然还可以包括从其它途径获取的问句。

步骤32,为每个知识点提供答案。

在具体实施中,可以采用多种方式为每个知识点提供答案,具体不受限制。比如,可以从日志或开放数据中获取相应问题的答案,也可以由知识库建立人员编写相应问题的答案。

基于所述场景会话库建立知识库,可以使得知识库建立人员更有方向和目的性地建立相应的知识点,完善所述知识库,进一步减少智能交互系统出现无法向用户反馈内容的情况,提高用户体验。

参照图4,本发明实施例还提供了一种知识库的优化方法,所述知识库包括多个知识点,每个知识点包括标准问句和扩展问句,所述方法可以包括如下步骤:

步骤41,从场景会话库中查找与所述知识点对应的场景会话序列。

在具体实施中,所述场景会话库包括上述会话数据处理方法所获得的场景会话序列。每个场景会话序列包括多个分组,每个分组包括多个问句。每个知识点可以仅对应所述场景会话序列的一个分组,也可以同时对应所述场景会话序列中两个或两个以上的分组。

在具体实施中,可以通过计算各个知识点与场景会话库中各个场景会话序列之间的语义相似度的方式,来查找与该知识点对应的场景会话序列。当然,也可以采用其它方式查找与各知识点对应的场景会话序列。

步骤42,计算所述知识点与对应的场景会话序列中每个分组的语义相似度,当所述语义相似度大于第五阈值时,则将位于对应分组中但未位于所述知识点的问句作为扩展问句添加到所述知识点中。

在具体实施中,获得该知识点对应的场景会话序列后,可以通过计算该知识点与所对应的场景会话序列中每个分组之间的语义相似度的方式,也就是计算该知识点中的问题对应的场景会话序列中各个问句之间的语义相似度,来优化所述知识库。

当所述语义相似度大于第五阈值时,则将位于对应分组中但未位于所述知识点的问句作为扩展问句添加到所述知识点中。其中,所述第五阈值可以根据实际情况进行设置,此处不作限制。

基于所述场景会话库优化知识库,可以使得所述知识库中相应知识点中的问题更加丰富,由此可以在接收到用户输入后,更好地匹配至相应的知识点,也就可以更准确地向用户反馈相应的答案,进一步提高用户体验。

参照图5,本发明实施例还提供了一种智能问答系统的交互方法,所述智能问答系统包括:知识库以及场景会话库,所述场景会话库包含若干个按照上述的会话数据的处理方法所获得的场景会话序列;所述方法可以包括:

步骤51,当接收到用户问句后,从所述知识库中获取与所述用户问句对应的答案,以及从所述场景会话库中获取与所述用户问句关联的全部或部分问句。

在具体实施中,接收到用户问句后,获取与所述用户问句对应的答案以及与所述用户问句关联的问句的执行顺序不受限制,既可以同时从知识库以及场景会话库中获取相应的问句,也可以先从知识库中获取与所述用户问句对应的答案,再从场景会话库中获取与所述用户问句关联的问句,还可以先从场景会话库中获取与所述用户问句关联的问句,再从知识库中获取与所述用户问句对应的答案。

需要说明的是,在具体实施中,所述用户问句可以仅对应一个场景会话序列,也可以对应多个场景会话序列。因此,与所述用户问句关联的问句可以仅为一个场景会话序列中的问句,也可以为多个场景会话序列中的问句。并且,与所述用户问句关联的问句可以为对应场景会话序列中除与所述用户问句相同语义的语句外的其它任意语句。

例如,当用户问句为“冰箱可以做冰块吗”,对应的一场景会话序列包括如下S1~S4四个问句:

S1:BCD-216SDX体积多大

S2:那冷藏室呢

S3:可以做冰块吗

S4:耗电量大吗

则与所述用户问句关联的问句可以为S1、S2及S4中的至少一个。

步骤52,输出与所述用户问句对应的答案及关联的问句。

在具体实施中,既可以同时输出与所述用户问句对应的答案及关联的问句,也可以先输出与所述用户问句对应的答案,再输出与所述用户问句关联的问句。

基于场景会话库向用户反馈相应的内容,可以更加便于用户获取相应内容的知识,提高交互效率及用户体验。

参照图6,本发明实施例还提供了另一种智能问答系统的交互方法,所述智能问答系统包括:知识库以及场景会话库,所述场景会话库包含若干个按照上述的会话数据的处理方法所获得的场景会话序列;所述方法可以包括:

步骤61,当接收到的用户问句包含命名实体但未包含所述命名实体的属性信息时,从所述场景会话库中获取所述命名实体对应的所有属性信息,并生成属性优先级。

所述命名实体就是人名、物品名、机构名、地名以及其他所有以名称为标识的实体,也包括数字、日期、货币、地址等等。

比如,当接收到的用户问句为“苹果手机怎么样”,该用户问句中仅包含命名实体“苹果手机”,但未包括该命名实体的属性信息。此时,可以从场景会话库中获取所述命名实体对应的所有属性信息,比如,苹果手机的价格、配置、拍照功能等,并可以按照交互次数生成属性优先级,也就是按照用户对苹果手机属性的询问次数,生成优先级。

步骤62,选取优先级别最高的属性作为所述用户问句中所述命名实体的属性信息,从所述知识库中获取相应的答案并发送给用户。

比如,当苹果手机的价格为优先级别最高的属性时,可以直接从知识库中获取关于“苹果手机的价格怎么样”问题的答案,并反馈至用户。

当接收到的用户问句包含命名实体但未包含所述命名实体的属性信息时,基于所述场景会话库向用户反馈相应的内容,可以避免向用户询问所输入的问题,减少不必要的交互,提高用户体验。

当然,在具体实施中,基于所述场景会话库还可能存在其它多种应用方法,此处不再一一列举。但无论具体应用如何,均不构成对本发明的限制,只要该应用的一个以上的步骤是基于所述场景会话库进行的,均在本发明的保护范围之内。

为了使本领域技术人员更好地理解和实现本发明,以下对上述方法所对应的装置进行详细描述。

参照图7,本发明实施例提供了一种会话数据的处理装置,所述装置可以包括:第一获取单元71、处理单元72及第一建立单元73,其中:

所述第一获取单元71,适于获取多个待处理的会话数据,每个所述待处理的会话数据包含若干个按时间排列的问句;

所述处理单元72,适于对每个所述待处理的会话数据的第一个问句进行语义聚类处理,得到一个或多个第一分组;分别对属于同一第一分组的每个所述待处理的会话数据的第二个问句进行语义聚类处理,得到一个或多个第二分组;不断重复上述语义聚类处理的过程,分别对属于同一第i分组的每个所述待处理的会话数据的第i+1个问句进行语义聚类处理,得到一个或多个第i+1分组,直至获得满足预设条件的一个或多个叶子分组,其中,i为正整数;

所述第一建立单元73,适于基于语义聚类处理的结果,根据每个所述叶子分组及对应的所有上级分组按照时间顺序排列建立一场景会话序列。

在具体实施中,所述第一获取单元71适于从日志或/和开放数据中获取所述待处理的会话数据。

在具体实施中,所述第一获取单元71适于将所爬取的会话数据中问句的数目大于或等于第一阈值的会话数据作为所述待处理的会话数据。

在具体实施中,所述预设条件可以包括:

所述叶子分组及对应的所有上级分组中每个分组所包括的问句的数目大于或等于第二阈值;

所述叶子分组为第j分组,j大于或等于第三阈值。

在具体实施中,所述第一建立单元73包括:第一建立子单元(未示出),适于从所述叶子分组及对应的所有上级分组分别选取一问句,将所选取的问句按照时间顺序排列作为对应的场景会话序列。

在具体实施中,所述第一建立单元73建立的场景会话序列包括:标准问句及扩展问句。

相应地,所述第一建立单元73包括:第二建立子单元731及第三建立子单元732。其中:

所述第二建立子单元731,适于分别将所述叶子分组的语义及所述叶子分组对应的所有上级分组的语义按照时间顺序排列作为对应的场景会话序列的标准问句;

所述第三建立子单元732,适于将所述叶子分组及对应的所有上级分组中不同于所述语义的问句作为所述对应的标准问句的扩展问句。

参照图8,本发明实施例还提供了一种知识库的建立装置,所述知识库包括多个知识点,每个知识点包括答案和问题,所述装置可以包括:第二获取单元81及第二建立单元82。其中:

所述第二获取单元81,适于从场景会话库中获取知识点的问题,所述场景会话库包括上述的会话数据的处理装置所获得的场景会话序列,每个所述知识点至少对应所述场景会话序列的一个分组,所述知识点的问题至少包括所对应的分组中的问句;

所述第二建立单元82,适于为每个所述知识点提供答案。

参照图9,本发明实施例还提供了一种知识库的优化装置,所述知识库包括多个知识点,每个知识点包括标准问和扩展问,所述装置可以包括:查找单元91,计算单元92以及优化单元93。其中:

所述查找单元91,适于从场景会话库中查找与所述知识点对应的场景会话序列,所述场景会话库包含若干个按照上述的会话数据的处理装置所获得的场景会话序列,每个场景会话序列包括多个分组,每个分组包括多个问句;

所述计算单元92,适于计算所述知识点与对应的场景会话序列中每个分组的语义相似度;

所述优化单元93,适于当所述语义相似度大于第五阈值时,则将位于对应分组中但未位于所述知识点的问句作为扩展问句添加到所述知识点中。

参照图10,本发明实施例提供了一种智能问答系统的交互装置,所述智能问答系统包括:知识库以及场景会话库,所述场景会话库包含若干个按照上述的会话数据的处理装置所获得的场景会话序列;所述装置可以包括:第三获取单元101以及输出单元102。其中:

所述第三获取单元101,适于当接收到用户问句后,从所述知识库中获取与所述用户问句对应的答案,以及从所述场景会话库中获取与所述用户问句关联的问句;

所述输出单元102,适于输出与所述用户问句对应的答案及关联的全部或部分问句。

参照图11,本发明实施例还提供了一种智能问答系统的交互装置,所述智能问答系统包括:知识库以及场景会话库,所述场景会话库包含若干个按照上述的会话数据的处理装置所获得的场景会话序列;所述装置可以包括:第四获取单元111及反馈单元112。其中:

所述第四获取单元111,适于当接收到的用户问句包含命名实体但未包含所述命名实体的属性信息时,从所述场景会话库中获取所述命名实体对应的所有属性信息,并生成属性优先级;

所述反馈单元112,适于选取优先级别最高的属性作为所述用户问句中所述命名实体的属性信息,从所述知识库中获取相应的答案并发送给用户。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1