一种语音交互方法及设备与流程

文档序号：23985718发布日期：2021-02-20 12:01阅读：51来源：国知局

[0001]
本发明涉及语音识别技术领域，尤其涉及一种语音交互方法及设备。

背景技术：

[0002]
现有技术中,语音识别技术已较为成熟，在生活中得到了广泛的应用。传统的人机语音交互流程通过语音合成tts，将文本合成为语音，传回客户端进行播报。上述这种简单的人机语音交互链路，对于实现演示级别的系统是可以满足的，但是在真实的用户任务场景下会面临难点，从而导致用户体验严重下降，存在的技术问题主要有：
[0003]
1、语音识别不准。随着深度学习技术在语音识别.上取得突破，在通用环境用户配合情况下，语音识别已经达到可用。但是语音识别受环境嘈杂、距离远近、方言口音、垂直领域术语、个性化词汇、即时场景下特有用语各种因素的影响，当前实用语音识别的效果还不够理想。
[0004]
2、语义理解不对。语音交互中的语义理解要处理的用户口语化的意图表达，人类语言通常存在：上下文关联、场景特定用语、口语化、常识背景、省略说法等语言现象，同时一些垂直领域实体取名复杂，存在大量实体歧义现象，场景、语境、交互对象的不断切换让语音交互中的语义理解更加困难。
[0005]
因此，在真实的用户任务场景下限制了语音识别的智能程度，也在一定程度上限制了它的应用，导致用户体验效果不佳。

技术实现要素：

[0006]
本发明所要解决的技术问题在于，提供一种语音交互方法及设备，提高语音识别的准确率，使能够适应不用的任务场景；进一步提升用户体验。
[0007]
为了解决上述技术问题，本发明的实施例提供了一种语音交互方法，包括以下步骤：获取使用者对语音交互设备进行唤醒的命令；对使用者的唤醒命令进行定向拾音、远场降噪及回音消除，以减少语音识别误差；根据获取的使用者对语音交互设备进行唤醒命令的前后数据信息，对语音信息进行纠错,获取包含有使用者意图的信息文本；根据信息文本，对用户进行反馈。
[0008]
其中，对使用者的唤醒命令进行定向拾音、远场降噪及回音消除，以减少语音识别误差的步骤包括以下：根据双向循环神经网络模型、卷积神经网络模型和/或端到端神经网络模型，并结合句式数据，通过底层句子语义建模的方式进行语义纠错，以避免由于用户意图理解失准或内容噪音所引起的系统响应偏差的步骤。
[0009]
其中，对使用者的唤醒命令进行定向拾音的步骤包括:通过多麦克风阵列硬件以及相应的声源定位和波束形成，计算声源距离麦克风阵列的角度和距离，实现对目标声源的跟踪，同时在期望声源方向上有效地形成一个波束，仅拾取波束内的信号，从而达到同时提取声源和抑制噪声的步骤。
[0010]
其中，远场降噪及回音消除的步骤包括:通过自适应滤波器消除掉扬声器与麦克
风之间的耦合，从而提升拾音得到语音的质量，端点检测技术监测有效人声、过滤一些非人声的步骤。
[0011]
其中，根据信息文本，对用户进行反馈的步骤包括：采用拼接语音合成和/或波形建模语音合成的步骤。
[0012]
其中，采用拼接语音合成的步骤包括通过受限领域固定文本格式的模板进行合成的步骤；采用波形建模语音合成的步骤包括通过动态变化部分内容进行合成的步骤。
[0013]
为解决上述技术问题，本发明还提供了一种语音交互设备，包括：语音输入模块、语音识别模块、主控制器、控制模块、外部存储器以及语音输出模块，其中:语音输入模块对使用者的唤醒命令进行定向拾音、远场降噪及回音消除，以减少语音识别误差；语音输入模块与语音识别模块信号连接，语音识别模块通过信号线分别与一外部存储器和一语音输出模块信号连接，外部存储器与一上位机信号连接，语音识别模块通过信号线与一主控制器信号连接，主控制器通过信号线与外部存储器信号连接，主控制器通过信号线与一控制模块信号连接。
[0014]
其中：外部存储器在设备运行过程中通过串口将数据发往主控模块，主控模块将数据转存至外部存储器进行存储。
[0015]
实施本发明的语音交互方法及设备，具有如下的有益效果：获取使用者对语音交互设备进行唤醒的命令；获取使用者对语音交互设备进行唤醒的命令,对使用者的唤醒命令进行定向拾音、远场降噪及回音消除，以减少语音识别误差；根据获取的使用者对语音交互设备进行唤醒命令的前后数据信息，对语音信息进行纠错,获取包含有使用者意图的信息文本；根据信息文本，对用户进行反馈。提高语音识别的准确率，使能够适应不用的任务场景；进一步提升用户体验。
附图说明
[0016]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0017]
图1为本发明实施例语音交互方法的流程框图。
[0018]
图2为本发明实施例语音交互设备的结构框图。
具体实施方式
[0019]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0020]
如图1所示，为本发明语音交互方法的实施例一。
[0021]
本发明的实施例提供了一种语音交互方法，包括以下步骤：s10获取使用者对语音交互设备进行唤醒的命令；s20，获取使用者对语音交互设备进行唤醒的命令,对使用者的唤醒命令进行定向拾音、远场降噪及回音消除，以减少语音识别误差；s30根据获取的使用
者对语音交互设备进行唤醒命令的前后数据信息，对语音信息进行纠错,获取包含有使用者意图的信息文本；s40根据信息文本，对用户进行反馈。
[0022]
具体实施时，步骤s20，对使用者的唤醒命令进行定向拾音、远场降噪及回音消除，以减少语音识别误差的步骤包括以下：根据双向循环神经网络模型、卷积神经网络模型和/或端到端神经网络模型，并结合句式数据，通过底层句子语义建模的方式进行语义纠错，其功用是：避免由于用户意图理解失准或内容噪音所引起的系统响应偏差的步骤。
[0023]
进一步的，步骤s20中对使用者的唤醒命令进行定向拾音的步骤包括:通过多麦克风阵列硬件以及相应的声源定位和波束形成，计算声源距离麦克风阵列的角度和距离，实现对目标声源的跟踪，同时在期望声源方向上有效地形成一个波束，仅拾取波束内的信号，从而达到同时提取声源和抑制噪声的步骤。
[0024]
进一步的，步骤s20中远场降噪及回音消除的步骤包括:通过自适应滤波器消除掉扬声器与麦克风之间的耦合，从而提升拾音得到语音的质量，端点检测技术监测有效人声、过滤一些非人声的步骤。
[0025]
实施上述过程的作用是：一方面可以使得交互流程较为友好，不会因为稍有一点声音就有识别结果、进而导致系统乱响应，另一方面，可以降低通讯网络和语音识别服务的负载，端点检测依赖的信息是音频的相对能量变化趋势，在用户说话犹豫、断断续续的时候，会经常出现因为停顿时间稍长导致的音频切断，从而使得当次语音交互失败。
[0026]
例如，可以考虑人类语言的持续性和完整性因数，在用户说话未说完时，可以等待时间长一些，而在用户说话结束时就等待得短一些，在这样的考虑下，需要语言层面评价用户语言是否表述完整，同时结合声学层面的端点检测技术，综合评价是否应该检测为语音端点。
[0027]
步骤s30，根据获取的使用者对语音交互设备进行唤醒命令的前后数据信息，对语音信息进行纠错,获取包含有使用者意图的信息文本，该步骤的作用是：对识别出的信息文本进行语义理解，对语音识别出的信息进行纠错，理解用户意图；避免由于用户意图理解失准或内容噪音所引起的系统响应偏差。
[0028]
其中，步骤s40，根据信息文本，对用户进行反馈的步骤包括：采用拼接语音合成和/或波形建模语音合成的步骤。具体实施时，采用拼接语音合成的步骤包括通过受限领域固定文本格式的模板进行合成的步骤；采用波形建模语音合成的步骤包括通过动态变化部分内容进行合成的步骤。例如：使用波形建模合成系统合成动态变化部分内容，在交互设备中上述合成的步骤可以进行单独或组合使用。
[0029]
如图2所示，为本发明语音交互设备的实施例一。
[0030]
本发明的实施例提供了一种语音交互设备，包括：语音输入模块1、语音识别模块2、主控制器3、控制模块4、外部存储器5以及语音输出模块6，其中:语音输入模块1对使用者的唤醒命令进行定向拾音、远场降噪及回音消除，以减少语音识别误差；语音输入模块1与语音识别模块2信号连接，语音识别模块2通过信号线分别与外部存储器5和语音输出模块6信号连接，外部存储器5与一上位机7信号连接，语音识别模块2通过信号线与主控制器3信号连接，主控制器3通过信号线与外部存储器5信号连接，主控制器3通过信号线与控制模块4信号连接。
[0031]
具体实施时，语音识别模块2具有定向拾音、远场降噪、回音消除和端点检测功能。
定向拾音技术主要是通过多麦克风阵列硬件以及相应的声源定位和波束形成，计算声源距离麦克风阵列的角度和距离，实现对目标声源的跟踪，同时在期望声源方向上有效地形成一个波束，仅拾取波束内的信号，从而达到同时提取声源和抑制噪声的目的。
[0032]
回声消除技术通过自适应滤波器消除掉扬声器与麦克风之间的耦合，从而提升拾音得到语音的质量，端点检测技术监测有效人声、过滤一些非人声。
[0033]
此外，本实施例中的语音识别模块2内嵌有双向循环神经网络、卷积神经网络以及端到端神经网络模型，并结合相应实体或句式等其他资源，通过底层句子语义建模能力的提高来获得泛化性能的增强，具备一定的语义纠错能力，以避免由于用户意图理解失准或内容噪音所引起的系统响应偏差，进而解决远场识别、无效输入拒识、断句、上下文理解等问题。
[0034]
本实施例中的语音识别模块2的上述功能一方面可以使得交互流程较为友好，不会因为稍有一点声音就有识别结果、进而导致系统乱响应。另一方面，可以降低通讯网络和语音识别服务的负载，端点检测依赖的信息是音频的相对能量变化趋势，在用户说话犹豫、断断续续的时候，会经常出现因为停顿时间稍长导致的音频切断，从而使得当次语音交互失败。
[0035]
进一步的，语音识别模块2通过信号线与外部存储器5和语音输出模块6信号连接，语音识别模块6采用ld3320处理芯片，语音输人模块1将采集到的语音信息送入ld3320处理芯片进行识别，ld3320将识别结果返回给主控模块3，同时从外部存储器5中取出语音数据进行语音输出播放，此时主控模块3分析识别结果后，利用控制模块4达到最终控制终端设备的效果。
[0036]
具体实施时，进行识别语音输出模块6采用拼接语音合成系统和波形建模语音合成系统的组合，使用拼接合成系统合成大量受限领域固定文本格式模板，使用波形建模合成系统合成动态变化部分内容，在交互系统中组合使用，语音识别模块6通过外部存储器5与上位机7信号连接，可在设备运行过程中实时更改，利用编写的上位机7通过串口将数据发往主控模块3，主控模块3将数据转存至外部存储器进行存放。
[0037]
优选的，主控制器3采用stc10i08xe芯片，主控制器3通过信号线与外部存储器5信号连接，主控制器3通过信号线与控制模块4信号连接，控制模块4通过信号线与多个终端设备连接。
[0038]
其他实施方式中，外部存储器5在设备运行过程中通过串口将数据发往主控模块4，主控模块将数据转存至外部存储器进行存储。
[0039]
本发明还公开了一种语音可读存储介质，该语音可读存储介质上存储有计算机程序，计算机程序被处理器执行时能够实现上述语音交互方法的步骤。
[0040]
实施本发明的语音交互方法及设备，具有如下的有益效果：获取使用者对语音交互设备进行唤醒的命令；获取使用者对语音交互设备进行唤醒的命令,对使用者的唤醒命令进行定向拾音、远场降噪及回音消除，以减少语音识别误差；根据获取的使用者对语音交互设备进行唤醒命令的前后数据信息，对语音信息进行纠错,获取包含有使用者意图的信息文本；根据信息文本，对用户进行反馈。提高语音识别的准确率，使能够适应不用的任务场景；进一步提升用户体验。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘洋宇;黄安子;张云翔;饶竹一;李智诚
技术所有人：深圳供电局有限公司
我是此专利的发明人

上一篇：一种快装式粮食筛分收集设备的制作方法
上一篇：一种光形态储能装置的制作方法