人机语音交互方法及系统的制作方法

文档序号：9351135阅读：760来源：国知局

人机语音交互方法及系统的制作方法
【技术领域】
[0001]本发明涉及语音识别技术领域，具体涉及语音交互方法及系统。
【背景技术】
[0002]随着语音核心技术和应用环境的逐步发展，语音交互在全球范围内正在被越来越多的用户接受和使用。目前，人机语音交互过程为“系统说话”和“用户说话”交替进行。但是，这种语音技术对语音交互的支持并不完善，存在一定局限性，系统在与用户语音交互的过程中不允许用户插话(或称打断)，一旦出现两者重叠，将会导致不可预知的结果，导致该人机语音交互系统的灵活性和稳定性较差。
[0003]显然，上述人机语音交互方式不同于普通的人与人的交流，正常人互相交流很可能在对方说话期间打断对方。这种情况可能发生于打断方已经明白了对方意图，或不关心对方后面要说的内容，或自己有更紧急重要的内容要说等。所以，交互过程中用户不能打断将使人与机器的交互非常不自然，而且倘若用户出于正常交互习惯进行了打断，系统将无法处理从而导致不可预知的反馈，给用户带来非常差的体验。
[0004]近年来有一些这方面的研究，比如专利CN201210387520.3(发明名称为:一种会议系统中播放提示语音的方法)中提到在会议进行过程中播放提示语音时，对解码后的会场语音信号与提示语音信号进行混音处理，形成混合语音信号进行处理，不会打断用户的正常发言或由于音量不合适干扰到用户的正常发言。该方法在一定程度上实现了在系统和用户说话重叠情况下的处理，但仅限于在信号层处理，无法处理交互情况或更复杂情况下的语音重叠情况，适用面较窄。
[0005]另外，关于如何处理交互过程中用户的打断行为，在专利CN200480027961.6(发明名称:允许声音打断的系统与方法)中有提及到，该方法通过对输入信号与声音提示模型和声音目标词汇表模型进行比较，从而寻找输入信号的最佳匹配。该方法的研究中限制了用户说话在特定的词汇表中，即限于特定的命令，难于拓展，也无法用于复杂的真正的人机交互中。

【发明内容】

[0006]针对现有技术中的缺陷，本发明提供了一种人机语音交互方法及系统，通过改进的回声对消技术提高了对话时语音重叠的语音识别效果，并以此为基础设计打断控制模块，有效的检测交互过程中用户的打断行为、决策机器说话时机和内容，使机器更智能。
[0007]第一方面，本发明提供一种人机语音交互方法，包括:
[0008]在系统状态，将录音信号和参考信号回声对消过程划分为多个子过程，将每个子过程拼接，获取录音信号和参考信号回声对消的输出结果，所述参考信号为机器播放器发出的语言信号；
[0009]将所述录音信号和参考信号回声对消输出结果输入VAD模型，当检测到用户语音信号时，实时输出语音识别结果；
[0010]当根据所述实时输出语音识别结果判定用户意图打断系统语音信号输出时，终止系统播放语音信号，进入用户状态，监听并识别用户语音信号
[0011]当检测到用户语音信号输出结束，根据最终语音识别结果向用户反馈，完成一轮用户的打断和回应过程。
[0012]可选地，将录音信号和参考信号回声对消之前，所述方法还包括:
[0013]将所述录音信号和参量信号分别划分为多个数据块，对每一块含有时间戳信号的录音信号数据块，查找与其开始时间戳相同且时间长度相同的参考信号数据块，使得所述录音信号和参考信号时间对齐；
[0014]可选地，所述每个子过程包括:
[0015]以每一个录音信号数据块为基本单位，将其与时间对齐的参考信号数据块进行对消。
[0016]可选地，实时输出语音识别结果包括:
[0017]每次在获取语音识别结果时，对当前收到的所有信息进行识别，结合上下文信息实时输出语音识别结果。
[0018]可选地，VAD模型是经过回声对消之后的语音训练的模型。
[0019]可选地，根据所述实时输出语音识别结果所述判定用户意图打断系统语音信号输出包括:
[0020]将所述实时输出语音识别结果与预设词汇表模型和/或语法模型进行匹配，判定用户意图打断系统语音信号输出。
[0021]第二方面，本发明还提供了一种人机语音交互系统，包括回声消除模块、VAD检测模块、语音识别模块、打断控制模块、部分语义理解模块、一般对话管理模块和语音合成模块；其中:
[0022]回声消除模块，用于从录音机和语音合成模块获取输入，在其内部将录音信号和参考信号进行时间对齐，运用回声对消方法得到回声消除后的音频信号；
[0023]VAD检测模块，用于对所述回声消除后的音频信号做VAD检测和实时反馈的语音识别，输出VAD信息、实时识别结果、信号层和文本内容层的时间基准；
[0024]语音识别模块，用于实时反馈的语音识别；
[0025]部分语义理解模块，用于以回声鲁棒的语音识别模块输出的实时识别结果、信号层和文本内容层的时间基准为输入，实时输出部分语义理解的结果，送入打断控制模块；
[0026]打断控制模块，用于检测打断和协调系统轮回，直接接收来自回AD检测模块的VAD信息、实时识别结果、信号层和文本内容层的时间基准；来自部分语义理解模块的实时部分语义理解结果；来自一般对话管理模块的对话信息；来自语音合成模块的当前播放信息、控制反馈信息；根据输入的信息对用户是否打断进行检测，协调系统的轮回；在无打断时，向一般对话管理模块输入传统对话管理模块需要的信息；在有打断时，向一般对话管理模块输入除了传统对话管理模块需要的信息，还有打断时的用户部分语义、语音实时识别结果、各层时间基准、打断时已经播放的信息、上下文信息；
[0027]—般对话管理模块，用于从打断控制模块获取有打断或无打断情况下的信息和数据，生成对用户的反馈，并将得到的对话信息传给打断控制模块；
[0028]语音合成模块，用于从打断控制模块获取输入，根据输入信息中的合成文本合成语音，送入播放器播放的同时也送入回声鲁棒的语音识别模块。来自打断控制模块的命令也会让该模块在响应后向打断控制模块返回当前播放信息和控制反馈信息。
[0029]由上述技术方案可知，本发明提出了一种人机语音交互方法及系统，通过改进的回声对消技术提高了对话时语音重叠的语音识别效果，并以此为基础设计打断控制模块，有效的检测交互过程中用户的打断行为、决策机器说话时机和内容，使机器更智能，可用于各类智能系统的人机交互，普遍适用于硬件平台和软件平台，如车载导航、移动终端、可穿戴设备等，使人机交互响应更快速人性化、对话更自然，带来更好的用户体验。
【附图说明】
[0030]通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中:
[0031]图1为本发明一实施例提供的人机语音交互方法的流程示意图；
[0032]图2为本发明一实施例提供的人机语音交互中打断和回应方法的流程示意图；
[0033]图3为本发明一实施例提供的回声鲁棒的语音识别方法的流程示意图；
[0034]图4为本发明一实施例提供的人机语音交互系统的结构示意图。
【具体实施方式】
[0035]为了恰当的处理用户打断，进行友好的交互，首先要尽量确保语音识别的准确，传统语音系统对于语音回声这一特殊噪声情况的容忍性较差，所以必须有更好的方法和技术。当识别结果足够准确可信时，可以以此为基础设计对话控制中枢，检测和管理用户打断、决策机器说话的时机以及说话的内容，从而使机器像正常人一样能与其他人自然的交流。本发明为解决上述问题，提出了一种人机语音交互方法和系统。
[0036]图1示出了本发明一实施例提供的人机语音交互方法的流程示意图，如图1所示，该方法包括以下步骤:
[0037]101、在系统状态，将录音信号和参考信号回声对消过程划分为多个子过程，将每个子过程拼接，获取录音信号和参考信号回声对消的输出结果，所述参考信号为机器播放器发出的语言信号；
[0038]在本发明实施例中，将录音信号和参考信号回声对消之前，还包括对该录音信号和参考信号进行预处理。该预处理包括但不限于将录音信号和参考信号时间对齐，在对录音信号与参考信号混合的音频处理之前，尽量将录音信号与参考信号对齐能提高回声对消的效果。
[0039]具体地，将所述录音信号和参量信号分别划分为多个数据块，对每一块含有时间戳信号的录音信号数据块，查找与其开始时间戳相同且时间长度相同的参考信号数据块，使得所述录音信号和参考信号时间对齐。
[0040]在本发明实施例中，回声对消的过程被划分为以每一个录音信号数据块为基本单位，将其与相对齐的参考信号数据块进行对消的子过程，每个子过程可以采用传统回声对消技术处理即可，最终回声对消的

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周伟达;俞凯;张顺;常成;
技术所有人：苏州思必驰信息科技有限公司;
我是此专利的发明人

上一篇：基于动态时间规整技术的声控门系统的制作方法
上一篇：英文人名识别方法和装置的制造方法