用于智能设备的人机交互语音识别方法及系统与流程

文档序号：17735264发布日期：2019-05-22 03:08阅读：235来源：国知局

本发明涉及语音识别技术领域，尤其涉及一种用于智能设备的人机交互语音识别方法及系统。

背景技术：

随着互联网技术的发展，使用语音进行人机交互的智能设备越来越多，现有的语音交互系统有siri、小蜜、cortana、小冰、度秘等，语音人机交互相比较于传统的手动输入人机交互而言具备便捷高效的特点，具有广泛的应用场景，在语音识别的过程中，意图识别及槽位填充技术是保证语音识别结果准确率的关键。

对于意图识别来说，可以将其抽象为一个分类问题，然后使用cnn+知识表示的分类器训练意图识别模型，在意图识别模型中除了将用户的语音问题进行单词嵌入外，还引入了知识的语义表示来增加表示层的泛化能力，但在实际应用中发现该模型存在槽位信息填充偏差的缺陷，影响了意图识别模型的准确性。对于槽位填充来说，其本质是将句子序列形式化为标注序列，常用的标注序列的方法有很多，如隐马尔科夫模型或者条件随机场模型，但是这些槽位填充模型在特定的应用场景中，由于缺乏上下文信息会导致槽位在不同语义意图下存在歧义，进而无法满足实际应用需求。可见，现有技术中的两个模型的训练是独立进行的，没有针对意图识别任务和槽位填充任务进行结合优化，最终导致训练出的模型在语音识别方面存在识别准确率低的问题，降低了用户体验。

技术实现要素：

本发明的目的在于提供一种用于智能设备的人机交互语音识别方法及系统，通过将意图识别和槽位填充进行联合优化训练，以提高语音识别的准确率。

为了实现上述目的，本发明的一方面提供一种用于智能设备的人机交互语音识别方法，包括：

将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对所述原始词序列进行向量化表示；

计算各分词向量的隐含状态向量hi和槽位上下文向量ci^s，通过将所述隐含状态向量hi和所述槽位上下文向量ci^s加权处理后得到槽位标签模型yi^s；

计算向量化表示的原始词序列隐含状态向量ht和意图上下文向量cⁱ，通过将所述隐含状态向量ht和所述意图上下文向量cⁱ加权处理后得到意图预测模型yⁱ；

使用槽位门g对所述槽位上下文向量ci^s和意图上下文向量cⁱ进行拼接处理，并通过槽位门g对槽位标签模型yi^s进行转换表示；

对意图预测模型yⁱ和转换后的槽位标签模型yi^s联合优化构建目标函数，并基于所述目标函数对用户的语音问题进行意图识别。

优选地，将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对所述原始词序列进行向量化表示的方法包括：

接收用户的语音问题转换为可识别文本，利用分词器对所述可识别文本分词处理得到原始词序列；

将原始词序列进行wordembedding处理，实现对原始词序列中各分词的向量化表示。

较佳地，计算各分词向量的隐含状态向量hi和槽位上下文向量ci^s，通过将所述隐含状态向量hi和所述槽位上下文向量ci^s加权处理后得到槽位标签模型yi^s的方法包括：

利用双向lstm网络对各分词向量编码处理，输出与各分词向量相对应的隐含状态向量hi；

通过公式计算各分词向量对应的槽位上下文向量ci^s；其中，表示槽位的注意力权重，其计算公式为σ表示槽位激活函数，表示槽位权重矩阵；

基于所述隐含状态向量hi和所述槽位上下文向量ci^s构建槽位标签模型

进一步地，计算向量化表示的原始词序列隐含状态向量ht和意图上下文向量cⁱ，通过将所述隐含状态向量ht和所述意图上下文向量cⁱ加权处理后得到意图预测模型yⁱ的方法包括：

利用双向lstm网络中的隐含单元对向量化表示的原始词序列进行编码处理，得到隐含状态向量ht；

通过公式计算原始词序列的意图上下文向量cⁱ；其中，表示意图的注意力权重，其计算公式为σ′表示意图激活函数，表示意图权重矩阵；

基于所述隐含状态向量ht和所述意图上下文向量cⁱ构建意图预测模型

优选地，使用槽位门g对所述槽位上下文向量ci^s和意图上下文向量cⁱ进行拼接处理，并通过槽位门g对槽位标签模型yi^s进行转换表示的方法包括：

槽位门g的形式化表示为其中，v表示训练得到的权重向量，w表示训练得到的权重矩阵；

通过槽位门g对槽位标签模型yi^s进行转换的形式化表示为

可选地，对意图预测模型yⁱ和转换后的槽位标签模型yi^s联合优化构建的目标函数为：

其中，p(y^s,yⁱ|x)表示槽位填充和意图预测在给定原始词序列输出的条件概率，其中，x为向量化表示的原始词序列。

较佳地，基于所述目标函数对用户的语音问题进行意图识别的方法包括：

通过目标目标函数依次获取原始词序列中各分词对应的意图条件概率；

从中筛选出概率值最大的分词识别为用户语音问题的意图。

与现有技术相比，本发明提供的用于智能设备的人机交互语音识别方法具有以下有益效果：

本发明提供的用于智能设备的人机交互语音识别方法中，首先将获取到的用户语音问题转换成为识别文本，并基于可识别文本分词处理生成原始词序列，然后对原始词序列进行单词嵌入处理实现向量化形式表示，之后，基于向量化表示的原始词序列分别进行槽位标签模型yi^s和意图预测模型yⁱ的构建，其中，槽位标签模型yi^s的构建步骤为通过计算各分词向量的隐含状态向量hi和槽位上下文向量ci^s，然后将隐含状态向量hi和槽位上下文向量ci^s加权处理后得到槽位标签模型yi^s，意图预测模型yⁱ的构建步骤为通过计算原始词序列的隐含状态向量ht和意图上下文向量cⁱ，然后将隐含状态向量ht和意图上下文向量cⁱ加权处理后得到意图预测模型yⁱ，可见，为了融合意图预测模型yⁱ和槽位标签模型yi^s，我们在现有的encoder-decoder架构上额外增加了decoder层构建意图预测模型yⁱ，并通过引入槽位门g对槽位上下文向量ci^s和意图上下文向量cⁱ拼接处理，最后对意图预测模型yⁱ和转换后的槽位标签模型yi^s进行联合优化得到目标函数，并利用目标函数依次获取原始词序列中各分词对应的意图条件概率，然后从中筛选出概率值最大的分词识别为用户语音问题的意图，保证了语音识别的准确性。

本发明的另一方面提供一种用于智能设备的人机交互语音识别系统，应用于上述技术方案所述的用于智能设备的人机交互语音识别方法中，所述系统包括：

分词处理单元，用于将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对所述原始词序列进行向量化表示；

第一计算单元，用于计算各分词向量的隐含状态向量hi和槽位上下文向量ci^s，通过将所述隐含状态向量hi和所述槽位上下文向量ci^s加权处理后得到槽位标签模型yi^s；

第二计算单元，用于计算向量化表示的原始词序列隐含状态向量ht和意图上下文向量cⁱ，通过将所述隐含状态向量ht和所述意图上下文向量cⁱ加权处理后得到意图预测模型yⁱ；

模型转换单元，用于使用槽位门g对所述槽位上下文向量ci^s和意图上下文向量cⁱ进行拼接处理，并通过槽位门g对槽位标签模型yi^s进行转换表示；

联合优化单元，用于对意图预测模型yⁱ和转换后的槽位标签模型yi^s联合优化构建目标函数，并基于所述目标函数对用户的语音问题进行意图识别。

优选地，所述分词处理单元包括：

分词模块，用于接收用户的语音问题转换为可识别文本，利用分词器对所述可识别文本分词处理得到原始词序列；

嵌入处理模块，用于将原始词序列进行wordembedding处理，实现对原始词序列中各分词的向量化表示。

较佳地，所述第一计算单元包括：

隐含状态计算模块，用于利用双向lstm网络对各分词向量编码处理，输出与各分词向量相对应的隐含状态向量hi；

槽位上下文计算模块，用于通过公式计算各分词向量对应的槽位上下文向量ci^s；其中，表示槽位的注意力权重，其计算公式为σ表示槽位激活函数，表示槽位权重矩阵；

槽位标签模型模块，用于基于所述隐含状态向量hi和所述槽位上下文向量ci^s构建槽位标签模型

与现有技术相比，本发明提供的用于智能设备的人机交互语音识别系统的有益效果与上述技术方案提供的用于智能设备的人机交互语音识别方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例一中用于智能设备的人机交互语音识别方法的流程示意图；

图2为本发明实施例一中encoder-decoder融合模型示例图；

图3为图2中槽位门的示例图；

图4为本发明实施例二中用于智能设备的人机交互语音识别系统的结构框图。

附图标记：

1-分词处理单元，2-第一计算单元；

3-第二计算单元，4-模型转换单元；

5-联合优化单元。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

图1为本发明实施例一中用于智能设备的人机交互语音识别方法流程示意图。请参阅图1，本实施例提供一种用于智能设备的人机交互语音识别方法，包括：

将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对原始词序列进行向量化表示；计算各分词向量的隐含状态向量hi和槽位上下文向量ci^s，通过将隐含状态向量hi和槽位上下文向量ci^s加权处理后得到槽位标签模型yi^s；计算向量化表示的原始词序列隐含状态向量ht和意图上下文向量cⁱ，通过将隐含状态向量ht和意图上下文向量cⁱ加权处理后得到意图预测模型yⁱ；使用槽位门g对槽位上下文向量ci^s和意图上下文向量cⁱ进行拼接处理，并通过槽位门g对槽位标签模型yi^s进行转换表示；对意图预测模型yⁱ和转换后的槽位标签模型yi^s联合优化构建目标函数，并基于所述目标函数对用户的语音问题进行意图识别。

本实施例提供的用于智能设备的人机交互语音识别方法中，首先将获取到的用户语音问题转换成为识别文本，并基于可识别文本分词处理生成原始词序列，然后对原始词序列进行单词嵌入处理实现向量化形式表示，之后，基于向量化表示的原始词序列分别进行槽位标签模型yi^s和意图预测模型yⁱ的构建，其中，槽位标签模型yi^s的构建步骤为通过计算各分词向量的隐含状态向量hi和槽位上下文向量ci^s，然后将隐含状态向量hi和槽位上下文向量ci^s加权处理后得到槽位标签模型yi^s，意图预测模型yⁱ的构建步骤为通过计算原始词序列的隐含状态向量ht和意图上下文向量cⁱ，然后将隐含状态向量ht和意图上下文向量cⁱ加权处理后得到意图预测模型yⁱ，如图2所述，为了融合意图预测模型yⁱ和槽位标签模型yi^s，我们在encoder-decoder架构上额外增加了decoder层构建意图预测模型yⁱ，并通过引入槽位门g对槽位上下文向量ci^s和意图上下文向量cⁱ拼接处理，最后对意图预测模型yⁱ和转换后的槽位标签模型yi^s进行联合优化得到目标函数，并利用目标函数依次获取原始词序列中各分词对应的意图条件概率，然后从中筛选出概率值最大的分词识别为用户语音问题的意图，保证了语音识别的准确性。

具体地，上述实施例中将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对所述原始词序列进行向量化表示的方法包括：

接收用户的语音问题转换为可识别文本，利用分词器对可识别文本分词处理得到原始词序列；将原始词序列进行wordembedding处理，实现对原始词序列中各分词的向量化表示。

需要说明的是，上述实施例中计算各分词向量的隐含状态向量hi和槽位上下文向量ci^s，通过将所述隐含状态向量hi和所述槽位上下文向量ci^s加权处理后得到槽位标签模型yi^s的方法包括：

利用双向lstm网络对各分词向量编码处理，输出与各分词向量相对应的隐含状态向量hi；通过公式计算各分词向量对应的槽位上下文向量ci^s；其中，表示槽位的注意力权重，其计算公式为σ表示槽位激活函数，表示槽位权重矩阵；基于隐含状态向量hi和槽位上下文向量ci^s构建槽位标签模型

具体实施时，将多个分词向量输入双向lstm网络后可一一对应的输出隐含状态向量hi，对于槽位上下文向量公式其中代表槽位的注意力权重，i表示第i个分词向量，j表示第i个分词向量中的第j个元素，具体地，槽位的注意力权重的计算公式为t表示分词向量中元素的总数量，k表示t中的第k个元素。另外，对于槽位激活函数σ和槽位权重矩阵可基于原始词序列的向量矩阵训练导出，其具体训练过程为本领域常用技术手段，本实施例在此不做赘述。

上述实施例中计算向量化表示的原始词序列隐含状态向量ht和意图上下文向量cⁱ，通过将隐含状态向量ht和意图上下文向量cⁱ加权处理后得到意图预测模型yⁱ的方法包括：

利用双向lstm网络中的隐含单元对向量化表示的原始词序列进行编码处理，得到隐含状态向量ht；通过公式计算原始词序列的意图上下文向量cⁱ；其中，表示意图的注意力权重，其计算公式为σ′表示意图激活函数，表示意图权重矩阵；基于隐含状态向量ht和意图上下文向量cⁱ构建意图预测模型

具体实施过程中，意图预测模型yⁱ的训练方法与槽位标签模型的训练方法相同，区别在于隐含状态向量ht只需利用双向lstm网络中的隐含单元即可得到，通过将向量矩阵一维化处理，然后调用公式计算原始词序列的意图上下文向量cⁱ；其中，表示意图的注意力权重，其计算公式为σ′表示意图激活函数，表示意图权重矩阵，对于意图激活函数σ′和意图权重矩阵可基于处理后的一维化向量训练导出，其具体训练过程为本领域常用技术手段，本实施例在此不做赘述。

进一步地，上述实施例中使用槽位门g对槽位上下文向量ci^s和意图上下文向量cⁱ进行拼接处理，并通过槽位门g对槽位标签模型yi^s进行转换表示的方法包括：

槽位门g的形式化表示为其中，v表示训练得到的权重向量，w表示训练得到的权重矩阵；通过槽位门g对槽位标签模型yi^s进行转换的形式化表示为图3示出了槽位门g的结构模型。

优选地，上述实施例中对意图预测模型yⁱ和转换后的槽位标签模型yi^s联合优化构建的目标函数为：

其中，p(y^s,yⁱ|x)表示槽位填充和意图预测在给定原始词序列输出的条件概率，其中，x表示向量化表示的原始词序列。拓展后xi表示第i个分词向量，t表示分词向量的总数量。通过目标函数的计算可得出各分词向量的意图概率值，筛选各分词向量中概率值最大的分词识别为用户语音问题的意图。

实施例二

请参阅图1和图4，本实施例提供一种用于智能设备的人机交互语音识别系统，包括：

分词处理单元1，用于将用户的语音问题分词处理得到原始词序列，并通过嵌入处理对所述原始词序列进行向量化表示；

第一计算单元2，用于计算各分词向量的隐含状态向量hi和槽位上下文向量ci^s，通过将所述隐含状态向量hi和所述槽位上下文向量ci^s加权处理后得到槽位标签模型yi^s；

第二计算单元3，用于计算向量化表示的原始词序列隐含状态向量ht和意图上下文向量cⁱ，通过将所述隐含状态向量ht和所述意图上下文向量cⁱ加权处理后得到意图预测模型yⁱ；

模型转换单元4，用于使用槽位门g对所述槽位上下文向量ci^s和意图上下文向量cⁱ进行拼接处理，并通过槽位门g对槽位标签模型yi^s进行转换表示；

联合优化单元5，用于对意图预测模型yⁱ和转换后的槽位标签模型yi^s联合优化构建目标函数，并基于所述目标函数对用户的语音问题进行意图识别。具体地，所述分词处理单元包括：

分词模块，用于接收用户的语音问题转换为可识别文本，利用分词器对所述可识别文本分词处理得到原始词序列；

嵌入处理模块，用于将原始词序列进行wordembedding处理，实现对原始词序列中各分词的向量化表示。

具体地，所述第一计算单元包括：

隐含状态计算模块，用于利用双向lstm网络对各分词向量编码处理，输出与各分词向量相对应的隐含状态向量hi；

槽位标签模型模块，用于基于所述隐含状态向量hi和所述槽位上下文向量ci^s构建槽位标签模型

与现有技术相比，本发明实施例提供的用于智能设备的人机交互语音识别系统的有益效果与上述实施例一提供的用于智能设备的人机交互语音识别方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而所述的存储介质可以是：rom/ram、磁碟、光盘、存储卡等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙鹏飞;贾洪园;李春生
技术所有人：苏宁易购集团股份有限公司
我是此专利的发明人