人机智能问答方法和装置与流程

文档序号:12837204阅读:161来源:国知局
人机智能问答方法和装置与流程

本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及人机智能问答方法和装置。



背景技术:

随着人机智能技术的发展,越来越多的问答系统采用人机智能技术。现有的人机智能问答系统通常是将预设的问答语料库中的问题语料与用户输入的咨询问题进行匹配,以确定问答语料库中与用户输入的咨询问题相似度最高的问题,而后将该问题语料对应的答案语料反馈给用户。

这种通过计算咨询问题与问题语料相似度的方法只能从字面上将用户输入咨询语句和问答语料库中的问题语料进行相似度匹配,而对于语义较为接近,但用词有差异的情况,会因为相似度低无法被有效地匹配。并且现有技术通常只考虑问答语料库中的问题语料与用户输入的咨询问题的相关性,而没有考虑咨询问题与答案语料的相关性,这会降低人机智能问答的准确率。



技术实现要素:

本申请的目的在于提出一种改进的人机智能问答方法和装置,来解决以上背景技术部分提到的技术问题。

第一方面,本申请提供了一种人机智能问答方法,所述方法包括:接收用户输入的咨询问题,其中,所述咨询问题由文字构成;将所述咨询问题输入预先训练的问答模型获取所述咨询问题与第一问答语料库中各答案语料的相关度,其中,所述问答模型用于确定所述咨询问题与答案语料的相关度;将所述第一问答语料库中具有最大相关度的答案语料发送给所述用户。

在一些实施例中,在所述将所述咨询问题输入预先训练的问答模型得到所述咨询问题与第一问答语料库中各所述答案语料的相关度步骤之前,所述方法还包括:获取第二问答语料库,其中,所述第二问答语料库包括多个问答语料对,各所述问答语料对由对应的问题语料和答案语料组成;基于所述咨询问题与所述第二问答语料库中各问题语料的相关度,对所述第二问答语料库中的各问答语料对进行排序;根据所述排序,选取预设数量的问题语料,并将所述问题语料和与之对应的答案语料组成所述第一问答语料库。

在一些实施例中,所述方法还包括:建立问答模型的步骤,包括:获取所述第二问答语料库;提取所述第二问答语料库中各问答语料对的语义特征和非语义特征,确定所述问答语料对中问题语料和答案语料的语义特征的相似度以及所述问题语料和答案语料的非语义特征的相似度;基于所述语义特征的相似度和所述非语义特征的相似度,训练得到所述问答模型。

在一些实施例中,所述方法还包括:获取所述第二语料库中的各问题语料和与之对应的答案语料,随机生成新的问答语料对,并将所述新的问答语料对组成第三问答语料库。

在一些实施例中,所述提取所述第二问答语料库中各问答语料对的语义特征和非语义特征,确定所述问答语料对中问题语料和答案语料的语义特征的相似度以及所述问题语料和答案语料的非语义特征的相似度,包括:确定所述语义特征的相似度和非语义特征的相似度的步骤,包括:获取第一问答语料对的第一问题语料和第一答案语料,其中,所述第一问答语料对为所述第二问答语料库或所述第三问答语料库中的任一问答语料对;确定所述第一问题语料和所述第一答案语料中的最长公共子串的长度值作为第一相似度;确定所述第一问题语料和所述第一答案语料的字面相似度作为第二相似度;确定所述第一问题语料和所述第一答案语料的n-gram的匹配度作为第三相似度;确定所述第一问题语料的词向量和所述第一答案语料的词向量的夹角作为第四相似度;确定所述第一问题语料的主题特征向量和所述第一答案语料的主题特征向量的相似度作为第五相似度;其中,所述第一 相似度、所述第二相似度和所述第三相似度为所述第一问题语料与所述第一答案语料的非语义特征的相似度,所述第四相似度和所述第五相似度为所述第一问题语料与所述第一答案语料的语义特征的相似度;基于所述确定所述语义特征的相似度和非语义特征的相似度的步骤,确定所述第二问答语料库和第三问答语料库中的各第一问答语料对中第一问题语料和第一答案语料的第一相似度、第二相似度、第三相似度、第四相似度和第五相似度。

在一些实施例中,所述确定所述第一问题语料的主题特征向量和所述第一答案语料的主题特征向量的相似度作为第五相似度,包括:根据所述第二问答语料库和/或第三问答语料库中各所述问答语料对的问题语料对应的主题和答案语料对应的主题,生成主题分析模型,其中,所述主题分析模型用于将任意一个问题语料或任意一个答案语料转换成所述问题语料或所述答案语料的主题特征向量;将所述第一问题和所述第一答案输入主题分析模型得到对应的所述第一问题语料的主题特征向量和所述第一答案语料的主题特征向量;将所述第一问题语料的主题特征向量和所述第一答案语料的主题特征向量的相似度作为第五相似度。

第二方面,本申请提供了一种人机智能问答装置,所述装置包括:咨询问题接收模块,配置用于接收用户输入的咨询问题,其中,所述咨询问题由文字构成;相关度获取模块,配置用于将所述咨询问题输入预先训练的问答模型获取所述咨询问题与第一问答语料库中各答案语料的相关度,其中,所述问答模型用于确定所述咨询问题与答案语料的相关度;答案语料发送模块,配置用于将所述第一问答语料库中具有最大相关度的答案语料发送给所述用户。

在一些实施例中,所述装置还包括:第一问答语料库组成模块,配置用于获取第二问答语料库,其中,所述第二问答语料库包括多个问答语料对,各所述问答语料对由对应的问题语料和答案语料组成;基于所述咨询问题与所述第二问答语料库中各问题语料的相关度,对所述第二问答语料库中的各问答语料对进行排序;根据所述排序,选取预设数量的问题语料,并将所述问题语料和与之对应的答案语料组 成所述第一问答语料库。

在一些实施例中,所述装置还包括:问答模型建立模块,配置用于建立问答模型,包括:第二问答语料库获取单元,配置用于获取所述第二问答语料库;相似度确定单元,配置用于提取所述第二问答语料库中各问答语料对的语义特征和非语义特征,确定所述问答语料对中问题语料和答案语料的语义特征的相似度以及所述问题语料和答案语料的非语义特征的相似度;问答模型训练单元,配置用于基于所述语义特征的相似度和所述非语义特征的相似度,训练得到所述问答模型。

在一些实施例中,所述装置还包括:第三问答语料库组成模块,配置用于获取所述第二语料库中的各问题语料和与之对应的答案语料,随机生成新的问答语料对,并将所述新的问答语料对组成第三问答语料库。

在一些实施例中,所述相似度确定单元配置具体用于:确定所述语义特征的相似度和非语义特征的相似度的步骤,包括:获取第一问答语料对的第一问题语料和第一答案语料,其中,所述第一问答语料对为所述第二问答语料库或所述第三问答语料库中的任一问答语料对;确定所述第一问题语料和所述第一答案语料中的最长公共子串的长度值作为第一相似度;确定所述第一问题语料和所述第一答案语料的字面相似度作为第二相似度;确定所述第一问题语料和所述第一答案语料的n-gram的匹配度作为第三相似度;确定所述第一问题语料的词向量和所述第一答案语料的词向量的夹角作为第四相似度;确定所述第一问题语料的主题特征向量和所述第一答案语料的主题特征向量的相似度作为第五相似度;其中,所述第一相似度、所述第二相似度和所述第三相似度为所述第一问题语料与所述第一答案语料的非语义特征的相似度,所述第四相似度和所述第五相似度为所述第一问题语料与所述第一答案语料的语义特征的相似度;基于所述确定所述语义特征的相似度和非语义特征的相似度的步骤,确定所述第二问答语料库和第三问答语料库中的各第一问答语料对中第一问题语料和第一答案语料的第一相似度、第二相似度、第三相似度、第四相似度和第 五相似度。

在一些实施例中,所述相似度确定单元配置进一步用于:根据所述第二问答语料库和/或第三问答语料库中各所述问答语料对的问题语料对应的主题和答案语料对应的主题,生成主题分析模型,其中,所述主题分析模型用于将任意一个问题语料或任意一个答案语料转换成所述问题语料或所述答案语料的主题特征向量;将所述第一问题和所述第一答案输入主题分析模型得到对应的所述第一问题语料的主题特征向量和所述第一答案语料的主题特征向量;将所述第一问题语料的主题特征向量和所述第一答案语料的主题特征向量的相似度作为第五相似度。

本申请提供的人机智能问答方法和装置,首先接收用户输入的咨询问题,之后将所述咨询问题输入预先训练的问答模型,以获取该咨询问题与第一问答语料库中的各答案语料的相关度,最后将具有最大相关度的答案语料发送给用户,所述方法通过计算咨询问题与答案语料的相关度提高了人机智能问答的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本申请可以应用于其中的示例性系统架构图;

图2是根据本申请的人机智能问答方法的一个实施例的流程图;

图3是根据本申请的人机智能问答方法中,获得预先训练的问答模型的一种实现方式的示意性流程图;

图4是根据本申请的人机智能问答方法的又一个实施例的流程图;

图5是根据本申请的人机智能问答装置的一个实施例的结构示意图;

图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的人机智能问答方法或人机智能问答装置的实施例的示例性系统架构100。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如即时通信软件、购物类应用、搜索类应用、网页浏览器应用、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持人机智能问答的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103发送的咨询问题提供支持的后台服务器。后台服务器可以对接收到的咨询问题等数据进行统计、分析等处理,并将处理结果反馈给终端设备。

需要说明的是,本申请实施例所提供的人机智能问答方法一般由服务器105执行,相应地,人机智能问答装置一般设置于服务器105 中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,其示出了根据本申请的人机智能问答方法的一个实施例的流程200。所述的人机智能问答方法,包括以下步骤:

步骤201,接收用户输入的咨询问题。

在本实施例中,人机智能问答方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行人机智能问答的终端接收用户输入的咨询问题。这里,用户输入的咨询问题通常是由文字构成的,例如汉字、标点、数字等。需要指出的是,上述无线连接方式可以包括但不限于3g/4g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。

步骤202,将咨询问题输入预先训练的问答模型获取该咨询问题与第一问答语料库中各答案语料的相关度。

在本实施例中,上述人机智能问答方法运行于其上的电子设备可以预先获取第一问答语料库,该第一问答语料库至少包括多个答案语料。并且上述电子设备还可以预先训练一个问答模型,该问答模型用于确定用户输入的咨询问题与上述第一问答语料库中的各答案语料的相关度。基于步骤201接收到的用户输入的咨询问题,上述电子设备将该咨询问题输入上述问答模型,获取该咨询问题与上述第一问答语料库中的各答案语料的相关度。

在本实施例中,上述咨询问题与答案语料的相关度可以用多种形式表示,包括但不限于百分比形式或数值大小的形式等,然后,按相关度由大到小的顺序对上述相关度进行排序,以便于根据预先设置的规则选取最终需要的答案语料。需要说明的是,这里可以用上述咨询问题与答案语料的语义相似度表征两者之间的相关度,还可以用上述咨询问题与答案语料的非语义相似度表征两者之间的相关度,或者将上述咨询问题与答案语料的语义相似度和非语义相似度相融合后表征两者之间的相关度。

步骤203,将第一问答语料库中具有最大相关度的答案语料发送给用户。

在本实施例中,基于步骤202获得的上述咨询问题与第一语料库中各答案语料的相关度,人机智能问答方法运行与其上的电子设备可以在上述相关度中确定最大相关度,而后获取该最大相关度对应的答案语料,此时可以认为该答案语料是上述第一问答语料库中最能准确回答用户输入的咨询问题的答案语料。

本申请的上述实施例提供的人机智能问答方法,首先接收用户输入的咨询问题,之后将该咨询问题输入预先训练的问答模型以获取该咨询问题与第一问答语料库中的各答案语料的相关度,最后将具有最大相关度的答案语料发送给用户,该人机智能问答方法通过计算咨询问题与答案语料的相关度提高了人机智能问答的准确率。

在一些可选的方案中,步骤202中用到的预先训练的问答模型可以通过如图3所示的流程300来建立。

步骤301,获取第二问答语料库。

通常,在人机智能问答系统中,当用户输入一个咨询问题后,人机智能问答系统会反馈一个答案,形成一问一答的问答语料对。因此,在本实现方式中,人机智能问答方法运行于其上的电子设备可以从历史的人机问答数据中获取上述一问一答的问答语料对组成第二问答语料库。这里的第二问答语料库中可以包括多个问答语料对,各问答语料对由对应的问题语料和答案语料组成。以电商领域的问答系统的问答数据为例,其可以选取一问一答的离线数据组成上述第二问答语料库,而不能选取一问多答或多问一答线咨询数据。通过此方式选取的问答数据不需要再做问答对的处理,可以直接使用。

需要说明的是,上述直接获取的第二问答语料可能会包含很多类似“感谢您的支持”、“祝您购物愉快”等的无用信息,这会影响训练的问答模型的效果。因此,上述电子设备还可以对上述第二问答语料库中的问答语料进行数据清洗,以将上述无用信息删除。

步骤302,提取第二问答语料库中各问答语料对的语义特征和非语义特征,确定问答语料对中问题语料和答案语料的语义特征的相似 度以及问题语料和答案语料的非语义特征的相似度。

在本实现方式中,基于步骤301获取的第二问答语料库,上述电子设备可以获取上述第二问答语料库中的各问答语料对,之后可以进一步获取上述各问答语料对的语义特征和非语义特征,以通过各种手段获取各问答语料对中问题语料和答案语料的语义特征的相似度以及问题语料和答案语料的非语义特征的相似度。

在本实施例的一些可选的实现方式中,上述电子设备可以获取上述第二语料库中的各问题语料和与之对应的答案语料,用于随机生成新的问答语料对,并将生成的新的问答语料对组成第三问答语料库。可以理解的是,上述第二问答语料库中的各问答语料对中的答案语料是对应问题语料的相关回答,即可以认为是正例,而上述生成的第三问答语料库中随机组成的问答语料对的答案语料和与之对应的问题语料通常是无关回答,即可以认为是负例。上述第二问答语料库和第三问答语料库都可以用于训练上述问答模型。

通常,上述电子设备可以从字面相似度、主题相似度等多个方面确定问答语料对中问题语料和答案语料的语义特征相似度和非语义特征相似度。因此,在本实现方式中可以通过如下步骤确定上述问答语料对中的问题语料和答案语料的语义特征相似度和非语义特征相似度:首先,上述电子设备可以获取第一问答语料对的第一问题语料和第一答案语料,这里的第一问答语料对为上述第二问答语料库或第三问答语料库中的任一问答语料对;其次,上述电子设备可以确定上述第一问题语料和第一答案语料中的最长公共子串的长度值,将该长度值作为上述第一问题语料和第一答案语料的第一相似度,该第一相似度为第一问题语料和第一答案语料的非语义特征的相似度;之后,上述电子设备可以继续确定上述第一问题语料和第一答案语料的字面相似度作为上述第一问题语料和第一答案语料的第二相似度,该第二相似度为第一问题语料和第一答案语料的非语义特征的相似度;而后,上述电子设备可以确定上述第一问题语料和第一答案语料的n-gram的匹配度作为上述第一问题语料和第一答案语料的第三相似度,该第三相似度为第一问题语料和第一答案语料的非语义特征的相似度;再 者,上述电子设备还可以通过神经网络等方法确定上述第一问题语料的词向量和第一答案语料的词向量,再计算第一问题语料的词向量和第一答案语料的词向量之间的向量夹角作为上述第一问题语料和第一答案语料的第四相似度,该第四相似度为第一问题语料和第一答案语料的语义特征的相似度;最后,上述电子设备还可以确定上述第一问题语料的主题特征向量和第一答案语料的主题特征向量,计算两者之间的向量夹角作为上述第一问题语料和第一答案语料的第五相似度,该第五相似度为第一问题语料和第一答案语料的语义特征的相似度。

在本实现方式中,上述电子设备可以采用上述步骤确定上述第二问答语料库和第三问答语料库中的各问答语料对中问题语料和答案语料的第一相似度、第二相似度、第三相似度、第四相似度和第五相似度,作为各问答语料对的语义特征相似度和非语义特征相似度。

在本实现方式中,上述电子设备可以根据上述第二问答语料库和/或第三问答语料库中各问答语料对的问题语料对应的主题和答案语料对应的主题,生成主题分析模型。这里的主题分析模型可以用于将任意一个问题语料或任意一个答案语料转换成上述问题语料或答案语料的主题特征向量。之后,上述电子设备可以将上述第一问题和第一答案输入上述主题分析模型得到对应的第一问题语料的主题特征向量和第一答案语料的主题特征向量。最后,上述电子设备可以确定上述第一问题语料的主题特征向量和第一答案语料的主题特征向量的相似度,该相似度即为上述第五相似度。

需要说明的是,确定问题语料和答案语料的语义特征相似度和非语义特征相似度的方法不限于此,本领域技术人员可以采用其它的方式确定上述语义特征相似度和非语义特征相似度,这是目前广泛研究和应用的公知技术,在此不再赘述。

步骤303,基于语义特征的相似度和非语义特征的相似度,训练得到问答模型。

在本实现方式中,基于步骤302获取的第二问答语料库和第三问答语料库中的各问答语料对的问题语料和答案语料的语义特征的相似度和非语义特征的相似度,上述电子设备可以采用线性回归算法等训 练上述各语义特征的相似度和非语义特征的相似度生成上述问答模型。这里的问答模型可以是形如y=f(x1,x2,x3...xn)的公式,其中,x1,x2,x3…xn分别指上述语义特征的相似度和/或非语义特征的相似度。

本申请的上述实施例的实现方式提供的问答模型的训练步骤,通过获取第二问答语料库和第三问答语料库中各问答语料对的问题语料和答案语料的多个语义特征的相似度和非语义特征的相似度,采用线性回归算法等训练上述语义特征的相似度和非语义特征的相似度生成问答模型,该模型可以准确地计算出用户输入咨询问题与各答案语料的相关度,提高了人机智能问答的准确率。

进一步参考图4,其示出了人机智能问答方法的又一个实施例的流程400。该人机智能问答方法的流程400,包括以下步骤:

步骤401,接收用户输入的咨询问题。

在本实施例中,人机智能问答方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行人机智能问答的终端接收用户输入的咨询问题。这里,用户输入的咨询问题通常是由文字构成的,例如汉字、标点、数字等。

步骤402,获取第二问答语料库。

在本实施例中,上述电子设备可以从历史的人机问答数据中获取一问一答的问答语料对组成第二问答语料库。这里的第二问答语料库中可以包括多个问答语料对,各问答语料对由对应的问题语料和答案语料组成。以电商领域的问答系统的问答数据为例,其可以选取一问一答的离线数据组成上述第二问答语料库,而不能选取一问多答或多问一答线咨询数据。通过此方式选取的问答数据不需要再做问答对的处理,可以直接使用。步骤403,基于咨询问题与第二问答语料库中各问题语料的相关度,对第二问答语料库中的各问答语料对进行排序。

在本实施例中,上述电子设备可以利用轻量级算法获取上述咨询问题与第二问答语料库中各问题语料的相关度,之后可以根据相关度从大到小的顺序将第二问答语料库中的各问答语料对进行初步排序。

在本实施例的一些可选的实现方式中,上述轻量级算法可以是例如lucene的排序算法等,此种算法比较简单、准确率较低,但是计算 速度快。因此,这里可以采用上述算法对第二问答语料库中的各问答语料对按照从大到小的顺序进行进行初步排序,之后,再选取出排序靠前的多个问答语料对进行进一步的相关度计算。

步骤404,根据排序,选取预设数量的问题语料,并将该问题语料和与之对应的答案语料组成第一问答语料库。

在本实施例中,基于步骤404中对上述第二问答语料库中各问答语料的排序,上述电子设备可以选取排序靠前的预设数量的问答语料对组成上述第一问答语料库。该第一问答语料库用于下一步精确计算上述咨询问题与答案语料的相关度。

步骤405,将咨询问题输入预先训练的问答模型获取该咨询问题与第一问答语料库中各答案语料的相关度。

在本实施例中,基于步骤404获取的第一问答语料库,上述电子设备将接收到的用户输入的咨询问题输入上述问答模型,获取该咨询问题与第一问答语料库中的各答案语料的相关度。

步骤406,将第一问答语料库中具有最大相关度的答案语料发送给用户。

在本实施例中,基于步骤405获得的上述咨询问题与第一语料库中各答案语料的相关度,人机智能问答方法运行与其上的电子设备可以在上述相关度中确定最大相关度,而后获取该最大相关度对应的答案语料,此时可以认为该答案语料是上述第一问答语料库中最能准确回答用户输入的咨询问题的答案语料。

从图4中可以看出,与图2对应的实施例相比,本实施例中的人机智能问答方法的流程400突出了获取第一问答语料库的步骤。本实施例描述的方案可以获取与咨询问题具有较大的相关性的预设数量问答语料对组成的第一问答语料库,从而可以在保证人机智能问答准确率的同时进一步提高问答模型的运算速率。

进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种人机智能问答装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图5所示,本实施例所述的人机智能问答装置500包括:咨询 问题接收模块501、相关度获取模块502和答案语料发送模块503。其中,咨询问题接收模块501配置用于接收用户输入的咨询问题,其中,该咨询问题由文字构成;相关度获取模块502配置用于将上述咨询问题输入预先训练的问答模型获取咨询问题与第一问答语料库中各答案语料的相关度,其中,上述问答模型用于确定上述咨询问题与答案语料的相关度;答案语料发送模块503配置用于将上述第一问答语料库中具有最大相关度的答案语料发送给上述用户。

在本实施例的一些可选的实现方式中,上述装置500还包括第一问答语料库组成模块(未示出),配置用于获取第二问答语料库,其中,上述第二问答语料库包括多个问答语料对,各问答语料对由对应的问题语料和答案语料组成;基于上述咨询问题与上述第二问答语料库中各问题语料的相关度,对该第二问答语料库中的各问答语料对进行排序;根据上述排序,选取预设数量的问题语料,并将该问题语料和与之对应的答案语料组成上述第一问答语料库。

在本实施例的一些可选的实现方式中,上述装置500还包括问答模型建立模块(未示出),配置用于建立问答模型,包括:第二问答语料库获取单元(未示出),配置用于获取上述第二问答语料库;相似度确定单元(未示出),配置用于提取上述第二问答语料库中各问答语料对的语义特征和非语义特征,确定问答语料对中问题语料和答案语料的语义特征的相似度以及问题语料和答案语料的非语义特征的相似度;问答模型训练单元(未示出),配置用于基于上述语义特征的相似度和非语义特征的相似度,训练得到上述问答模型。

在本实施例的一些可选的实现方式中,上述装置500还包括:第三问答语料库组成模块(未示出),配置用于获取上述第二语料库中的各问题语料和与之对应的答案语料,随机生成新的问答语料对,并将新的问答语料对组成第三问答语料库。

在本实施例的一些可选的实现方式中,上述相似度确定单元(未示出)配置具体用于:确定上述语义特征的相似度和非语义特征的相似度的步骤,包括:获取第一问答语料对的第一问题语料和第一答案语料,其中,第一问答语料对为上述第二问答语料库或第三问答语料 库中的任一问答语料对;确定上述第一问题语料和第一答案语料中的最长公共子串的长度值作为第一相似度;确定上述第一问题语料和第一答案语料的字面相似度作为第二相似度;确定上述第一问题语料和第一答案语料的n-gram的匹配度作为第三相似度;确定上述第一问题语料的词向量和第一答案语料的词向量的夹角作为第四相似度;确定上述第一问题语料的主题特征向量和第一答案语料的主题特征向量的相似度作为第五相似度;其中,上述第一相似度、第二相似度和第三相似度为第一问题语料与第一答案语料的非语义特征的相似度,上述第四相似度和第五相似度为第一问题语料与第一答案语料的语义特征的相似度;基于上述确定语义特征的相似度和非语义特征的相似度的步骤,确定上述第二问答语料库和第三问答语料库中的各第一问答语料对中第一问题语料和第一答案语料的第一相似度、第二相似度、第三相似度、第四相似度和第五相似度。

在本实施例的一些可选的实现方式中,上述相似度确定单元(未示出)配置进一步用于:根据上述第二问答语料库和/或第三问答语料库中各问答语料对的问题语料对应的主题和答案语料对应的主题,生成主题分析模型,其中,主题分析模型用于将任意一个问题语料或任意一个答案语料转换成该问题语料或答案语料的主题特征向量;将上述第一问题和第一答案输入主题分析模型得到对应的第一问题语料的主题特征向量和第一答案语料的主题特征向量;将该第一问题语料的主题特征向量和第一答案语料的主题特征向量的相似度作为第五相似度。

本领域技术人员可以理解,上述人机智能问答装置500还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图5中未示出。

下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。

如图6所示,计算机系统600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作 和处理。在ram603中,还存储有系统600操作所需的各种程序和数据。cpu601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。

以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理 器中,例如,可以描述为:一种处理器包括咨询问题接收模块、相关度获取模块和答案语料发送模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,咨询问题接收模块还可以被描述为“接收用户输入的咨询问题的模块”。

作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:接收用户输入的咨询问题,其中,所述咨询问题由文字构成;将所述咨询问题输入预先训练的问答模型获取所述咨询问题与第一问答语料库中各答案语料的相关度,其中,所述问答模型用于确定所述咨询问题与答案语料的相关度;将所述问答语料库中具有最大相关度的答案语料发送给所述用户。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1