人机语音交互方法及系统的制作方法_3

文档序号：9351135阅读：来源：国知局

有打断时的用户部分语义、语音实时识别结果、各层时间基准、打断时已经播放的信息、上下文信息；
[0090]一般对话管理模块46，用于从打断控制模块45获取有打断或无打断情况下的信息和数据，生成对用户的反馈，并将得到的对话信息传给打断控制模块45 ;
[0091]在本发明实施例中，一般对话管理的处理模块45包含传统对话管理的一个实现，包括语义理解、对话管理、自然语言生成。首先对输入的来自打断控制模块的语音识别的结果做语义解析，再将语义解析的结果送给对话管理器得到系统回应的动作，最后由自然语言生成模块将对话管理器的输出转换成自然语言输出。这里的传统对话管理模块不仅需要能够进行传统反馈内容的生成，还需要支持对打断相关信息的处理，反馈的内容与是否打断、打断的时机，以及打断时部分语义信息、时间基准信息、已播放内容有关。
[0092]语音合成模块47，用于从打断控制模块获取输入，根据输入信息中的合成文本合成语音，送入播放器播放的同时也送入回声鲁棒的语音识别模块。来自打断控制模块的命令也会让该模块在响应后向打断控制模块45返回当前播放信息和控制反馈信息。
[0093]由上述技术方案可知，本发明提出了一种人机语音交互方法及系统，通过改进的回声对消技术提高了对话时语音重叠的语音识别效果，并以此为基础设计打断控制模块，有效的检测交互过程中用户的打断行为、决策机器说话时机和内容，使机器更智能，可用于各类智能系统的人机交互，普遍适用于硬件平台和软件平台，如车载导航、移动终端、可穿戴设备等，使人机交互响应更快速人性化、对话更自然，带来更好的用户体验。
[0094]本发明实施例提供的系统，通过改进的回声对消技术提高了对话时语音重叠的语音识别效果，并以此为基础设计打断控制模块，有效的检测交互过程中用户的打断行为、决策机器说话时机和内容，使机器更智能，可用于各类智能系统的人机交互，普遍适用于硬件平台和软件平台，如车载导航、移动终端、可穿戴设备等，使人机交互响应更快速人性化、对话更自然，带来更好的用户体验。
[0095]可理解的是，上述人机语音交互系统与上述人机语音交互方法是一一对应的，本实施例不再对上述启动装置进行详细说明。
[0096]本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0097]本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0098]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0099]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0100]尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
[0101]显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。
【主权项】
1.一种人机语音交互方法，其特征在于，所述方法包括: 在系统状态，将录音信号和参考信号回声对消过程划分为多个子过程，将每个子过程拼接，获取录音信号和参考信号回声对消的输出结果，所述参考信号为机器播放器发出的语言信号；将所述录音信号和参考信号回声对消输出结果输入VAD模型，当检测到用户语音信号时，实时输出语音识别结果；当根据所述实时输出语音识别结果判定用户意图打断系统语音信号输出时，终止系统播放语音信号，进入用户状态，监听并识别用户语音信号；当检测到用户语音信号输出结束，根据最终语音识别结果向用户反馈，完成一轮用户的打断和回应过程。2.根据权利要求1所述的方法，其特征在于，将录音信号和参考信号回声对消之前，所述方法还包括: 将所述录音信号和参量信号分别划分为多个数据块，对每一块含有时间戳信号的录音信号数据块，查找与其开始时间戳相同且时间长度相同的参考信号数据块，使得所述录音信号和参考信号时间对齐。3.根据权利要求1所述的方法，其特征在于，所述每个子过程包括: 以每一个录音信号数据块为基本单位，将其与时间对齐的参考信号数据块进行对消。4.根据权利要求1所述的方法，其特征在于，实时输出语音识别结果包括: 每次在获取语音识别结果时，对当前收到的所有信息进行识别，结合上下文信息实时输出语音识别结果。5.根据权利要求1所述的方法，其特征在于，VAD模型是经过回声对消之后的语音训练的模型。6.根据权利要求1所述的方法，其特征在于，根据所述实时输出语音识别结果所述判定用户意图打断系统语音信号输出包括: 将所述实时输出语音识别结果与预设词汇表模型和/或语法模型进行匹配，判定用户意图打断系统语音信号输出。7.一种人机语音交互系统，其特征在于，所述系统包括回声消除模块、VAD检测模块、语音识别模块、打断控制模块、部分语义理解模块、一般对话管理模块和语音合成模块；其中: 回声消除模块，用于从录音机和语音合成模块获取输入，在其内部将录音信号和参考信号进行时间对齐，运用回声对消方法得到回声消除后的音频信号； VAD检测模块，用于对所述回声消除后的音频信号做VAD检测，输出VAD信息、实时识别结果、信号层和文本内容层的时间基准；语音识别模块，用于实时反馈的语音识别；部分语义理解模块，用于以回声鲁棒的语音识别模块输出的实时识别结果、信号层和文本内容层的时间基准为输入，实时输出部分语义理解的结果，送入打断控制模块；打断控制模块，用于检测打断和协调系统轮回，直接接收来自识别模块的VAD信息、实时识别结果、信号层和文本内容层的时间基准；来自部分语义理解模块的实时部分语义理解结果；来自一般对话管理模块的对话信息；来自语音合成模块的当前播放信息、控制反馈信息；根据输入的信息对用户是否打断进行检测，协调系统的轮回；在无打断时，向一般对话管理模块输入传统对话管理模块需要的信息；在有打断时，向一般对话管理模块输入除了传统对话管理模块需要的信息，还有打断时的用户部分语义、语音实时识别结果、各层时间基准、打断时已经播放的信息、上下文信息；一般对话管理模块，用于从打断控制模块获取有打断或无打断情况下的信息和数据，生成对用户的反馈，并将得到的对话信息传给打断控制模块；语音合成模块，用于从打断控制模块获取输入，根据输入信息中的合成文本合成语音，送入播放器播放的同时也送入回声鲁棒的语音识别模块。来自打断控制模块的命令也会让该模块在响应后向打断控制模块返回当前播放信息和控制反馈信息。
【专利摘要】本发明公开了一种人机语音交互方法，该方法包括：在系统状态，将录音信号和参考信号回声对消过程划分为多个子过程，将每个子过程拼接，获取录音信号和参考信号回声对消的输出结果，该参考信号为机器播放器发出的语言信号；将该录音信号和参考信号回声对消输出结果输入VAD模型，当检测到用户语音信号时，实时输出语音识别结果；当根据该实时输出语音识别结果判定用户意图打断系统语音信号输出时，终止系统播放语音信号，进入用户状态，监听并识别用户语音信号；当检测到用户语音信号输出结束，根据最终语音识别结果向用户反馈，完成一轮用户的打断和回应过程。本发明有效的检测交互过程中用户的打断行为、决策机器说话时机和内容，使机器更智能。
【IPC分类】G10L15/26
【公开号】CN105070290
【申请号】CN201510397428
【发明人】周伟达, 俞凯, 张顺, 常成
【申请人】苏州思必驰信息科技有限公司
【公开日】2015年11月18日
【申请日】2015年7月8日

完整全部详细技术资料下载

当前第3页1 2 3