语音命令识别方法及系统的制作方法

文档序号：2833725阅读：225来源：国知局

专利名称：语音命令识别方法及系统的制作方法
技术领域：
本发明涉及语音识别技术领域，具体涉及一种语音命令识别方法及系统。
背景技术：
实现人机之间人性化、智能化的有效交互，构建高效自然的人机交流环境，已经成为当前信息技术应用和发展的迫切需求。作为一种简单方便而又高效的输入方式，语音识别改变了传统的基于复杂编码或拼音输入的键盘模式，为自然人性的人机交互提供了便利条件。在语音识别技术的支持下，用户只要对着设备自然说话，经过系统识别后就会形成文字或命令指示，大大提高了人机交互效率。
传统的语音识别系统接收用户语音信号输入后提取相应声学特征，在系统预置的解码网络(通常由声学模型、语言模型及字典等构成)内搜索最优路径，获取识别结果。
传统的语音识别系统在识别环境和系统训练环境一致时，特别是在安静的应用环境下能提供较高的识别准确率，满足大部分的应用需求。然而在实际应用中，用户可能需要在存在背景音的情况下输入语音命令，如在智能语音操控玩具讲故事的时候用户需要打断故事讲述过程进行其他的语音指令操作，又如用户开车时在车内播放音乐的同时需要打断音乐播放进行其他诸如导航等功能操作，再如语音控制的智能电视，用户可能在电视播放状态下对其进行语音控制，进行换台、音量调控等操作。在这些应用环境中，由于存在其他外设声源，麦克风采集到的语音信号不仅包括用户的语音指令，而且还不可避免地掺杂了其他背景声音，导致该信号的信噪比往往很低，识别性能将大大降低，甚至可能无法使用，限制了语音识别技术的应用范围。发明内容
本发明提供一种语音命令识别方法及系统，以解决在存在外设放声源的环境下识别性能降低的问题，满足不同背景环境下语音识别的应用需求。
为此，本发明提供如下技术方案
—种语音命令识别方法，包括
接收当前环境中的音频信号并单独获取所述当前环境中的外放声源信号；
对所述外放声源信号和所述音频信号进行同步化处理；
根据同步化处理后的外放声源信号确定所述音频信号的组成信号；
如果所述音频信号包含语音信号和所述外放声源信号，则根据所述同步化处理后的外放声源信号及当前环境的空间响应函数从所述音频信号中提取有效的语音信号；
对所述语音信号进行解码，获取语音命令。
优选地，所述方法还包括
如果所述音频信号只包含语音信号，则对所述语音信号进行解码，获取语音命令。
优选地，所述对所述外放声源信号和所述音频信号进行同步化处理包括
对所述外放声源信号和所述音频信号进行采样率同步。
优选地，所述对所述外放声源信号和所述音频信号进行采样率同步包括
将所述外放声源信号转换为无压缩的线性数字信号；
通过傅立叶变换获取所述音频信号的频谱信息；
依次通过傅立叶变换获取所述外放声源信号在不同采样率下的频谱信息；
计算所述音频信号的频谱信息与所述外放声源信号在不同采样率下的频谱信息的相关性；
选择具有最大相关性的采样率对所述线性数字信号进行重采样。
优选地，所述对所述外放声源信号和所述音频信号进行同步化处理还包括
对所述外放声源信号和所述音频信号进行时间同步。
优选地，所述根据同步化处理后的外放声源信号确定所述音频信号的组成信号包括
计算同步化处理后的外放声源信号的平均能量；
如果所述平均能量小于预设的能量阈值，则确定所述音频信号只包含语音信号；
如果所述平均能量大于或等于预设的能量阈值，则计算同步化处理后的外放声源信号和所述音频信号的频谱相关系数；
如果所述频谱相关系数小于预设的相关系数阈值，则确定所述音频信号为包含语音信号和所述外放声源信号的混合信号；否则，确定所述音频信号只包含所述外放声源信号。
优选地，所述方法还包括
在确定所述音频信号只包含所述外放声源信号后，根据所述音频信号及所述同步化后的外放声源信号更新所述当前环境的空间响应函数。
优选地，所述对所述语音信号进行解码，获取语音命令包括
利用根据声学模型构建的解码识别网络对所述语音信号进行解码，获取语音命令，所述声学模型是利用预先录制的当前环境中的语音信号和静音信号训练得到的。
一种语音命令识别系统，包括
接收单元，用于接收当前环境中的音频信号；
获取单元，用于单独获取所述当前环境中的外放声源信号；
同步化处理单元，用于对所述外放声源信号和所述音频信号进行同步化处理；
检测单元，用于根据所述同步化处理单元同步化处理后的外放声源信号确定所述音频信号的组成信号；
提取单元，用于在所述检测单元确定所述音频信号包含语音信号和所述外放声源信号后，根据所述同步化处理后的外放声源信号及当前环境的空间响应函数从所述音频信号中提取有效的语音信号；
解码单元，用于对所述语音信号进行解码，获取语音命令。
优选地，所述解码单元，还用于在所述检测单元确定所述音频信号只包含语音信号后，对所述语音信号进行解码，获取语音命令。
优选地，所述同步化处理单元包括
采样率同步子单元，用于对所述外放声源信号和所述音频信号进行采样率同步。
优选地，所述采样率同步子单元包括
转换子单元，用于将所述外放声源信号转换为无压缩的线性数字信号；
第一频谱信息获取子单元，用于通过傅立叶变换获取所述音频信号的频谱信息；
第二频谱信息获取子单元，用于依次通过傅立叶变换获取所述外放声源信号在不同采样率下的频谱信息；
相关性计算子单元，用于计算所述音频信号的频谱信息与所述外放声源信号在不同采样率下的频谱信息的相关性；
重采样子单元，用于选择具有最大相关性的采样率对所述线性数字信号进行重采样。
优选地，所述同步化处理单元还包括
时间同步子单元，用于对所述外放声源信号和所述音频信号进行时间同步。
优选地,所述检测单元包括
能量计算子单元，用于计算同步化处理后的外放声源信号的平均能量；
判断子单元，用于在所述能量计算子单元计算得到的平均能量小于预设的能量阈值时，确定所述音频信号只包含语音信号；
相关系数计算子单元，用于在所述能量计算子单元计算得到的平均能量大于或等于预设的能量阈值时，计算所述同步化处理单元同步化处理后的外放声源信号和所述音频信号的频谱相关系数；
所述判断子单元，还用于在所述相关系数计算子单元计算得到的频谱相关系数小于预设的相关系数阈值时，确定所述音频信号为包含语音信号和所述外放声源信号的混合信号；否则，确定所述音频信号只包含所述外放声源信号。
优选地，所述系统还包括
空间响应函数更新单元，用于在所述检测单元确定所述音频信号只包含所述外放声源信号后，根据所述音频信号及所述同步化后的外放声源信号更新所述当前环境的空间响应函数。
优选地，所述解码单元，具体用于根据声学模型构建的解码识别网络对所述语音信号进行解码，获取语音命令，所述声学模型是利用预先录制的当前环境中的语音信号和静音信号训练得到的。
本发明实施例提供的语音命令识别方法及系统，通过对接收的当前环境中的音频信号的单纯性分析，确定所述音频信号的组成信号；如果所述音频信号包含语音信号和其他信号，则从所述音频信号中提取有效的语音信号；对所述语音信号进行解码，从而获取语音命令。从而可以在存在外设放声源的环境下也能够准确识别用户的语音命令，满足不同背景环境下语音识别的应用需求。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
图1是本发明实施例语音命令识别方法的流程图2是本发明实施例中确定接收的音频信号的组成信号的流程图3是本发明实施例中对外放声源信号和音频信号进行采样率同步的一种实现流程图；图4是本发明实施例中声学模型训练的流程图；图5是本发明实施例语音命令识别系统的一种结构示意图；图6是本发明实施例语音命令识别系统中采样率同步子单元的一种结构示意图；图7是本发明实施例语音命令识别系统中检测单元的一种结构示意图；图8是本发明实施例语音命令识别系统的另一种结构示意图；图9是本发明实施例语音命令识别系统的另一种结构示意图。
具体实施例方式为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。本发明实施例针对现有的语音识别系统在应用环境中存在其他外设声源时，识别性能较低，甚至可能无法使用的情况，提出了一种语音命令识别方法及系统，通过对接收的当前环境中的音频信号的单纯性分析，确定所述音频信号的组成信号；如果所述音频信号包含语音信号和其他信号，则从所述音频信号中提取有效的语音信号；对所述语音信号进行解码，从而获取语音命令。满足不同背景环境下语音识别的应用需求，使用户在存在外设声源的环境下可以通过语音打断方式实现语音命令的有效输入。如图1所示，是本发明实施例语音命令识别方法的流程图，包括以下步骤步骤101，接收当前环境中的音频信号并单独获取所述当前环境中的外放声源信号。比如，利用麦克风获取所述音频信号并离散采样存入缓存。而外放声源信号通常会有单独的语音编码文件，因此可以直接读取相应文件来获取当前环境中的外放声源信号，当然，也可以直接从外放设备获取原始的外放声源信号。也就是说，所述音频信号和所述外放声源信号可以通过不同的采集设备及途径来得到。需要说明的是，所述的外放声源信号是不掺杂其他信号的外放声源信号。步骤102，对所述外放声源信号和所述音频信号进行同步化处理。由于采集的音频信号以及外放声源信号往往具有不同的采样率，比如麦克风常见采样率有8KHz、16KHz等无压缩编码格式，而外放声源信号根据声源类型其编码格式和码流率呈现多样化，如MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面 3)、0GG、PCM(Pulse_code modulation,脉冲编码调制)、MPC(Multimedia Personal Computer,多媒体个人电脑)、AMR (Adaptive Multi-Rate,自适应多码率)等不同编码格式的采样率存在多种可能，包括48KHz、44. lKHz等。因此，需要对所述外放声源信号和所述音频信号进行同步化处理，使两者具有相同的采样率。具体地，可以将所述音频信号的采样率作为参考采样率，对无压缩化的外放声源信号进行升采样或降采样处理，保证处理后外放声源信号的采样率和所述音频信号的采样率保持一致，使后续对信号能量及相关性进行比较时，能够得到准确的结果。当然，在实际应用中，还可以将所述外放声源信号的采样率作为参考采样率，通过对所述音频信号的升采样或降采样处理，保证不同声源信号采样率的一致性。
进一步地，考虑到外放声源到麦克风采集存在一定的空间距离，因而从外放声源直接采集的信号相较于在当前环境中麦克风采集的音频信号会存在一定的时间超前。为此，在本发明实施例中，还可以进行时间同步处理，通过计算外放设备和麦克风之间的距离确定延迟时间，并根据所述延迟时间相应地对外放声源信号或所述音频信号进行时间补偿，确保彼此之间严格同步。
步骤103，根据同步化处理后的外放声源信号确定所述音频信号的组成信号。
由于在实际应用环境中，用户可能需要在存在背景音的情况下输入语音命令，因此，当前环境中的音频信号的组成部分可以有三种情况，分别是
(I)只包含单一的语音信号；
(2)只包含单一的外放声源信号；
( 3 )语音信号和其他信号的混合信号，所述其他信号可以是外放声源信号等。
在确定所述音频信号的组成信号时，可以根据外放声源信号的平均能量、以及外放声源信号与接收的当前环境中的音频信号的频谱相关系数，来确定所述音频信号的组成成分，具体过程将在后面详细描述。
步骤104，如果所述音频信号包含语音信号和所述外放声源信号，则根据所述同步化处理后的外放声源信号及当前环境的空间响应函数从所述音频信号中提取有效的语音信号。
在接收的音频信号中包含有外放声源信号和用户输入的语音信号时，由于具有较低的信噪比，直接对其进行语音识别将影响到识别准确率。因此，需要先从所述音频信号中提取出高信噪比的语音信号。
信号在空间传输的过程中会经过空气以及障碍物的反射使得信号发生变化，一般会假设这种变化为空间响应函数h(t)，变化得到信号为x(t)*h(t)，其中为卷积符号。
因此，可以计算外放声源信号经过空间传导后到达麦克风的信号 v(t)=x(t)*h(t)，然后从所述音频信号中提取语音信号s(t)=y(t)-v(t)，其中，s(t)为提取的语音信号，y(t)为麦克风接收的音频信号。
具体地，可以按以下方式确定当前环境的空间响应函数
首先，将所述空间响应函数的初始值设为1，即h(t)=l ;然后，计算外放声源信号X(t)和所述音频信号y(t)的差值e(t)=y(t)-x(t)*h(t);更新空间响应函数h(t+l)=h(t)+2 μ (t)e(t)x(t),其中 μ (t)为当前加权系数。
在实际应用中可以考虑设置μ (t)为一确定的数值,也可以设置其为时间函数, 逐渐减少以确保空间响应函数h(t)数值的收敛。
需要说明的是，在检测到所述音频信号只包含所述外放声源信号后，需要根据所述音频信号及所述同步化后的外放声源信号更新所述当前环境的空间响应函数，也就是说，需要重新计算当前环境的空间响应函数。如果检测到所述音频信号为包含语音信号和外放声源信号的混合信号，则不需要对其进行更新。
当然，在e(t)接近零时，所述空间响应函数趋于稳定，此时即使检测到所述音频信号只包含所述外放声源信号，也可以不对所述空间响应函数进行更新。
步骤105，对所述语音信号进行解码，获取语音命令。
当然，如果所述音频信号中只包含语音信号，则可以直接对所述语音信号进行解码，获取语首命令。
本发明实施例的语音命令识别方法，通过对当前环境中的音频信号进行分析，在所述音频信号为包含语音信号和其他信号时，从所述音频信号中分离出干净的语音信号，使识别环境和系统训练环境保持一致，由此再对分离出的语音信号进行解码，能够得到较高的识别准确率，满足不同应用环境需求。而且，考虑到采集的音频信号以及外放声源信号往往具有不同的采样率，因此通过对外放声源信号和音频信号的同步化处理，保证了对音频信号分析的准确性。
如图2所示，是本发明实施例中确定接收的音频信号的组成信号的流程图，包括以下步骤
步骤201，计算同步化处理后的外放声源信号的平均能量。
步骤202，判断所述平均能量是否小于预设的能量阈值。如果是，则执行步骤203 ；否则，执行步骤204。
一般系统将所述能量阈值设置为一个比较小的正数，比如，512。
步骤203，确定所述音频信号只包含语音信号。
步骤204，计算同步化处理后的外放声源信号和所述音频信号的频谱相关系数。
所述相关系数是衡量变量之间线性相关程度的指标，对于两个时长都为N的频谱序列X，Y，其相关系数的计算公式如下
权利要求
1.一种语音命令识别方法，其特征在于，包括接收当前环境中的音频信号并单独获取所述当前环境中的外放声源信号；对所述外放声源信号和所述音频信号进行同步化处理；根据同步化处理后的外放声源信号确定所述音频信号的组成信号；如果所述音频信号包含语音信号和所述外放声源信号，则根据所述同步化处理后的外放声源信号及当前环境的空间响应函数从所述音频信号中提取有效的语音信号；对所述语音信号进行解码，获取语音命令。
2.根据权利要求1所述的方法，其特征在于，所述方法还包括如果所述音频信号只包含语音信号，则对所述语音信号进行解码，获取语音命令。
3.根据权利要求1所述的方法，其特征在于，所述对所述外放声源信号和所述音频信号进行同步化处理包括对所述外放声源信号和所述音频信号进行采样率同步。
4.根据权利要求3所述的方法，其特征在于，所述对所述外放声源信号和所述音频信号进行采样率同步包括将所述外放声源信号转换为无压缩的线性数字信号；通过傅立叶变换获取所述音频信号的频谱信息；依次通过傅立叶变换获取所述外放声源信号在不同采样率下的频谱信息；计算所述音频信号的频谱信息与所述外放声源信号在不同采样率下的频谱信息的相关性；选择具有最大相关性的采样率对所述线性数字信号进行重采样。
5.根据权利要求3所述的方法，其特征在于，所述对所述外放声源信号和所述音频信号进行同步化处理还包括对所述外放声源信号和所述音频信号进行时间同步。
6.根据权利要求1所述的方法，其特征在于，所述根据同步化处理后的外放声源信号确定所述音频信号的组成信号包括计算同步化处理后的外放声源信号的平均能量；如果所述平均能量小于预设的能量阈值，则确定所述音频信号只包含语音信号；如果所述平均能量大于或等于预设的能量阈值，则计算同步化处理后的外放声源信号和所述音频信号的频谱相关系数；如果所述频谱相关系数小于预设的相关系数阈值，则确定所述音频信号为包含语音信号和所述外放声源信号的混合信号；否则，确定所述音频信号只包含所述外放声源信号。
7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括在确定所述音频信号只包含所述外放声源信号后，根据所述音频信号及所述同步化后的外放声源信号更新所述当前环境的空间响应函数。
8.根据权利要求7所述的方法，其特征在于，所述对所述语音信号进行解码，获取语音命令包括利用根据声学模型构建的解码识别网络对所述语音信号进行解码，获取语音命令，所述声学模型是利用预先录制的当前环境中的语音信号和静音信号训练得到的。
9.一种语音命令识别系统，其特征在于，包括接收单元，用于接收当前环境中的音频信号；获取单元，用于单独获取所述当前环境中的外放声源信号；同步化处理单元，用于对所述外放声源信号和所述音频信号进行同步化处理；检测单元，用于根据所述同步化处理单元同步化处理后的外放声源信号确定所述音频信号的组成信号；提取单元，用于在所述检测单元确定所述音频信号包含语音信号和所述外放声源信号后，根据所述同步化处理后的外放声源信号及当前环境的空间响应函数从所述音频信号中提取有效的语音信号；解码单元，用于对所述语音信号进行解码，获取语音命令。
10.根据权利要求9所述的系统，其特征在于，所述解码单元，还用于在所述检测单元确定所述音频信号只包含语音信号后，对所述语音信号进行解码，获取语音命令。
11.根据权利要求9所述的系统，其特征在于，所述同步化处理单元包括采样率同步子单元，用于对所述外放声源信号和所述音频信号进行采样率同步。
12.根据权利要求11所述的系统，其特征在于，所述采样率同步子单元包括转换子单元，用于将所述外放声源信号转换为无压缩的线性数字信号；第一频谱信息获取子单元，用于通过傅立叶变换获取所述音频信号的频谱信息；第二频谱信息获取子单元，用于依次通过傅立叶变换获取所述外放声源信号在不同采样率下的频谱信息；相关性计算子单元，用于计算所述音频信号的频谱信息与所述外放声源信号在不同采样率下的频谱信息的相关性；重采样子单元，用于选择具有最大相关性的采样率对所述线性数字信号进行重采样。
13.根据权利要求11所述的系统，其特征在于，所述同步化处理单元还包括时间同步子单元，用于对所述外放声源信号和所述音频信号进行时间同步。
14.根据权利要求9所述的系统，其特征在于，所述检测单元包括能量计算子单元，用于计算同步化处理后的外放声源信号的平均能量；判断子单元，用于在所述能量计算子单元计算得到的平均能量小于预设的能量阈值时，确定所述音频信号只包含语音信号；相关系数计算子单元，用于在所述能量计算子单元计算得到的平均能量大于或等于预设的能量阈值时，计算所述同步化处理单元同步化处理后的外放声源信号和所述音频信号的频谱相关系数；所述判断子单元，还用于在所述相关系数计算子单元计算得到的频谱相关系数小于预设的相关系数阈值时，确定所述音频信号为包含语音信号和所述外放声源信号的混合信号；否则，确定所述音频信号只包含所述外放声源信号。
15.根据权利要求1至6任一项所述的系统，其特征在于，所述系统还包括空间响应函数更新单元，用于在所述检测单元确定所述音频信号只包含所述外放声源信号后，根据所述音频信号及所述同步化后的外放声源信号更新所述当前环境的空间响应函数。
16.根据权利要求15所述的系统，其特征在于，所述解码单元，具体用于根据声学模型构建的解码识别网络对所述语音信号进行解码，获取语音命令，所述声学模型是利用预先录制的当前环境中的语音信号和静音信号训练得到的。
全文摘要
本发明涉及语音识别技术领域，公开了一种语音命令识别方法及系统，该方法包括接收当前环境中的音频信号并单独获取所述当前环境中的外放声源信号；对所述外放声源信号和所述音频信号进行同步化处理；根据同步化处理后的外放声源信号确定所述音频信号的组成信号；如果所述音频信号包含语音信号和所述外放声源信号，则根据所述同步化处理后的外放声源信号及当前环境的空间响应函数从所述音频信号中提取有效的语音信号；对所述语音信号进行解码，获取语音命令。利用本发明可以在存在外设放声源的环境下也能够准确识别用户的语音命令，满足不同背景环境下语音识别的应用需求。
文档编号G10L15/20GK103050116SQ20121057007
公开日2013年4月17日申请日期2012年12月25日优先权日2012年12月25日
发明者王海坤, 何婷婷, 胡国平, 胡郁, 刘庆峰申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王海坤;何婷婷;胡国平;胡郁;刘庆峰
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人

上一篇：语音通信装置及方法
上一篇：产生要传输的信号或要解码的信号的设备和方法