智能设备的语音唤醒方法及实现所述方法的系统的制作方法

文档序号：9454217阅读：591来源：国知局

智能设备的语音唤醒方法及实现所述方法的系统的制作方法
【专利说明】
【技术领域】
[0001]本发明涉及语音识别领域，特别是一种智能设备的语音唤醒方法，以及实现所述方法的语音唤醒系统。
【【背景技术】】
[0002]语音识别技术在近些年取得了显著的进步，该技术已进入工业、家电、智能家居等各个领域。语音唤醒即是语音识别技术的一种形式，其不直接接触硬件设备，通过语音即可将设备唤醒运行。一般情况下，大部分设备都是靠物理按键实现设备的唤醒或者运行。然而，这对于用户体验来说并不好。语音作为人们最自然的交流方式，通过语音唤醒这种非接触式的方式启动设备无疑是更友好的。
[0003]中国发明专利申请CN 102999161A公开了一种语音唤醒模块的实现方法，包括音输入、语音唤醒算法和唤醒执行步骤，语音唤醒算法获取语音输入的语音信号，进行语音唤醒处理后，将结果输出给唤醒执行，从而完成唤醒操作；所述语音唤醒算法通过声学特征提取、唤醒词检测、唤醒词确认、构建唤醒词检测网络、训练声学模型和构建唤醒词确认网络，其中，唤醒词检测:将提取得到的声学特征，采用训练的声学模型在唤醒词检测网络上计算声学得分，如果声学得分最优的路径中包含要检测的唤醒词，则确定已检出唤醒词，进入，否则重新进行提取声学特征。
[0004]在实际使用中发现该技术方案具备明显缺陷，这是由于实际应用时用户的发音常常发生音变、衰减等，使得正确唤醒率下降，此外真实环境下总是存在很多噪声，比如说话声、开门声、电视发出的声音等，这些声音有时候也会将智能设备唤醒，称为误唤醒。误唤醒为用户体验带来了极大的困扰，大大降低该技术方案的可行性。
【
【发明内容】
】
[0005]本发明的目的是克服现有技术缺陷，提供一种灵敏度好、准确性高、有效距离远的语音唤醒方法及其实现系统，能够方便、友好地启动智能终端设备。
[0006]本发明期望通过建立一个覆盖多种地方口音的语料库和噪声库，利用该数据库训练基于上下文相关的声学模型；利用基于子带谱熵的语音端点检测方法进行语音的端点检测；根据用户提供的关键词表，生成相应的解码网络资源。
[0007]为了实现上述目的，本发明提供一种智能设备的语音唤醒方法，所述方法包括:
[0008]A、获取音频数字信号；
[0009]B、对音频数字信号进行语音端点检测，判断是否含有语音信号；
[0010]C、音频数字信号中含有语音信号，通过语音前端处理方法逐帧提取特征向量；
[0011]D、通过关键词检测方法对特征向量进行逐帧解码，得到唤醒词指令；
[0012]E、通过唤醒词指令对智能设备进行反馈控制；
[0013]其中，步骤D中对特征向量进行解码包括前置步骤:
[0014]D1、建立自定义唤醒关键词文本集，和
[0015]D2、将所述文本集转换为关键词网络解码资源；
[0016]所述步骤Dl采用包括基于规则驱动建立关键词和基于数据驱动建立关键词；基于规则驱动建立关键词是指通过语音发音规则，获取与关键词发音相似的近似词条，除近似词条以外的词条定义为竞争词条；基于数据驱动建立关键词是指获取语料库中实际被识别次数较多的词条。
[0017]在本发明中，基于规则驱动建立关键词包括根据汉字语音声韵母的发音规则将声母和韵母发音分别进行分类，其中声母分为塞音、擦音、塞擦音、鼻音和边音，韵母分为开口呼、齐齿呼、合口呼和撮口呼，其中与关键词的汉字发音具有同一声母类型或同一韵母类型的词定义为近似词条，除近似词条以外的词条定义为竞争词条。
[0018]根据一种优选的实施方式，步骤B中采用基于子带谱熵的方法实现语音端点检测，包括将数字语音信号划分为多个语音帧，对各语音帧进行傅里叶变换，得到多个语音频谱；将每个语音频谱划分为多个子带，计算各子带谱熵；将各子带谱熵与预设的谱熵阈值进行比较，通过结果检测各语音帧是否含有语音。
[0019]优选地，划分语音帧采用25毫秒窗及10毫秒的帧移。
[0020]特别优选地，步骤C提取特征向量中，提取梅尔频率倒谱系数的作为特征向量。
[0021]本发明还提供一种语音唤醒智能设备的系统，所述系统包括:
[0022]语音检测模块，负责实时采集和检测用户的语音；
[0023]语音唤醒模块，用于实时检测采集的语音数据中是否存在唤醒关键词，在检测到唤醒关键词之后，发出控制信号，启动智能设备；
[0024]唤醒关键词自定义模块，用户根据自己的喜好或者智能产品的需要，自定义关键词唤醒词表，再由该模块生成本地资源文件保存。
[0025]根据一种优选的实施方式，所述语音检测模块包括:
[0026]实时录音模块111，调用智能设备的相关接口获取录音数据；
[0027]语音端点检测模块112，采用基于子带谱熵的方法检测实时录音模块是否含有语音信号，并提取语音信号。
[0028]优选地，所述语音唤醒模块包括:
[0029]语音信号前端处理模块113，用于对语音信号进行短时谱分析，并提取梅尔频率倒谱系数作为语音特征向量；
[0030]语音唤醒关键词检测模块114，用于将提取到的语音特征向量进行解码，判断是否匹配唤醒关键词；
[0031]反馈控制模块115，根据语音关键词检测模块给出的结果，决定是否启动智能设备。
[0032]在本发明中，优选地唤醒关键词自定义模块包括基于规则驱动建立的关键词库和基于数据驱动建立的关键词库；
[0033]基于规则驱动建立的关键词库是通过语音发音规则建立的与关键词发音相似的近似词条以及与关键词发音不同的竞争词条的库；
[0034]基于数据驱动建立的关键词库是根据语料库中实际被识别次数建立的词条的库。
[0035]具体地，为了避免实际应用中用户发音发生音变、衰减导致正确唤醒率下降，同时避免由于环境噪声引起的误唤醒，在建立关键词语料库时可以设计多个与唤醒关键词发音相近的词作为唤醒词，以提高正确唤醒率；另一方面通过设置竞争词条以降低误唤醒的频率。
[0036]在语音端点检测模块中，本发明采用基于子带谱熵的方法实现语音端点检测。该算法将语音分帧后进行傅里叶变换，并将语音的频谱分成若干个子带，并通过计算各个子带的谱熵，判断该帧语音是否属于语音。若检测到语音，则语音识别器开始对语音进行特征提取，再利用上文所述的三音子模型对其进行解码；否则，继续检测。该方法相对于比较常用的基于能量的语音端点检测，能够较好的滤掉部分噪声，比如碰撞声、汽车发出的噪声等。
[0037]在检测到唤醒关键词后，智能设备可以调用相应的接口，启动设备，进行更多的操作。
[0038]本发明提供两种唤醒关键词选择方式，一种是选择默认的关键词；另一种是用户自定义唤醒关键词。
[0039]提高远距离的语音唤醒率是本发明的重要目的。现有技术的大部分语音识别应用都是要求用户近距离使用，如在I米之内使用。在更远的距离下，如I米到3米的范围内，由于背景噪声、混响、信号衰减等因素干扰下，语音信号会出现不同程度的失真，从而引起正确唤醒率的大幅度下降。在传统的语音处理技术中，会对远距离的信号设计针对性的算法以补偿信号的损失，或者通过收集更多的远距离录制的语料以训练声学模型，达到提高语音唤醒的正确率。在本发明中，在保持语音唤醒模块中声学模型不变的情况下，通过独特的构造关键词表来实现提高远距离语音唤醒的正确率。
[0040]在默认的关键词表的设计过程中，本发明采取的是基于规则驱动和基于数据驱动相结合的方法，详细描述如下:
[0041]所谓的基于规则驱动的方法指的是根据语音学或声学中的声母和韵母发音方式的区别，寻找和关键词发音方式相近或者发音方式相差较大的词条。根据通用的汉语教材，汉语的声母发音按发音方式共分为塞音、擦音、塞擦音、鼻音和边音五类，例如b、p、d、t等属于塞音，而z、c、j、X等属于塞擦音；韵母则可按照韵母开头元音口形，分为开口呼、齐齿呼、合口呼和撮口呼四类，例如a、O、e等属于开口呼。对于同属于一类中的声母或韵母，认为其发声方式与结果音调相似。
[0042]按照该发音规则，将与关键词发音方式相近的词条，比如声母或韵母与目标唤醒关键词都属于同一类发音方式的，一起作为唤醒关键词；而对于发音方式不同的，比如声母和韵母与目标关键词不同，作为竞争词条。比如对于关键词“云宝yun bao”，会根据它的声母韵母的发音特征，因为“a”和“ao”都属于开口呼的发音方式，所以认为“把ba”的发音与“宝bao” (声母韵母均同类)相近，而认为与“非fei” (声母韵母均不同类)、“服fu”、“发fa”(韵母同类但声母不同类)等字的发音方式则不同。
[0043]在基于数据驱动的方法中，通过寻找在我们语料库中实际识别次数较多的词条构造词表。例如，在关键词“云宝yun bao”的语料中，被识别成“玲卯ling mao”、“联马Iianma”等词次数较多。该种方法很好的利用了实际语料中的信息，在语料库足够大的情况下可以获得很好的效果。本发明在构造了基础的词表后，通过实验逐步的缩减词表。
[0044]与现有技术相比，本发明的优点包括:
[0045]1、在一个非特定说话人语音识别引擎上，不需要对采集的语音增加额外的声学处理，比如无需去混响、信道补偿等，通过调整词表可以实现远距离的语音唤醒，并获得很高的唤醒识别率；
[004

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何娅玲;何宇新;
技术所有人：北京宇音天下科技有限公司;
我是此专利的发明人

上一篇：语音传输控制方法及系统的制作方法
上一篇：一种组合pca和rbm的孤立数字语音识别分类系统及方法