一种多词语音控制通断装置的方法及其系统与流程

文档序号：16636327发布日期：2019-01-16 07:03阅读：219来源：国知局

本发明涉及语音控制技术领域，具体为一种多词语音控制通断装置的方法及其系统。

背景技术：

目前语音识别技术虽然取得了很大的进展但是目前应用还有很多局限性，语音识别一般分为云端的非特定人声大规模连续语音识别、可以不联网的命令词识别以及不联网的语音唤醒，各个语音识别都存在着自身的优点与缺点，其中：

(1)云端识别，识别精度高，可以做语义理解(加tts就可以实现对话)，但是要求设备必须联网，成本高、响应时间慢、用户体验差。

(2)命令词识别，就是通过某种触发如按键、语音唤醒使其工作，录3-5s的音然后识别，这种方式可行但是当控制时需要用户说二遍，如要打开电灯，需要先说唤醒词，如“hi，上海声瀚”等，等设备有反应后再说打开电灯，响应时间长，用户体验非常不好。

(3)现有的不联网的语音识别模块，都是采用的arm9及以上的cpu运行，需要多个麦克风，体积大，成本高，硬件模块尺寸无法放入小型的设备中，同时由于arm9以上芯片都必须带操作系统如linux，系统的稳定性比单片机差很多，不适合用在长时间使用的设备中。

(4)语音唤醒，为实时检测唤醒词，用户体验好，随时说一个词就能控制设备，但是当多词语音唤醒时，误唤醒的概率会增大，同时由于多词运行时占用的cpu和ram会显著增大，所以对多词语音唤醒引擎算法要求很高，对软硬件的配合度也要求很高，目前市面上没有对应产品。

技术实现要素：

针对背景技术中存在的问题，本发明提供了一种多词语音控制通断装置的方法及其系统。

为实现上述目的，本发明提供如下技术方案：一种多词语音控制通断装置的方法，包括以下步骤：

s10：预先训练、存储多个唤醒词汇的特征值到系统硬件中单片机的flash模块内；

s20：通过模拟麦克风实时采集语音并输入至对应的单片机引脚；

s30：单片机通过实时运行预处理算法对采集的语音进行声学特征参数的提取以及似然概率的计算；

s40：如果单片机实时提取的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值匹配，则进行对通断装置的对应控制；

s50：如果单片机实时计算的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值都不匹配，则继续进行步骤s20。

作为本发明一种优选的技术方案，在步骤s30中，单片机在对采集的语音进行声学特征参数的提取以及似然概率的计算之前进行降噪处理与前端处理，该前端处理的具体方式为：通过端点检测在语音信号中将语音和非语音信号时段区分开来，确定出语音信号的起始点，经过端点检测后，后续处理只需对语音信号进行即可。

作为本发明一种优选的技术方案，在步骤s30中，提取声学特征参数的具体方式为：首先对语音信号进行短时傅里叶分析后，根据人的听感特点，把语音信号划分为若干个子频带，采用梅尔滤波器的特征频带分析方法，即在语音频段上划分若干个个子频带，把每个子频带的功率谱能量计算出来，最后将这这些子频带构成的特征矢量作为语音特征输入识别器。

作为本发明一种优选的技术方案，在步骤s30中，计算似然概率的具体方式为：统计分析大量语音语料，训练得到从语音短时特征到音素的深度神经网络模型，当输入实时语音的短时特征值时，可得到当时各音素的声学相似度。

作为本发明一种优选的技术方案，引入了区分性训练方法对深度神经网络声学模型进行训练。

作为本发明一种优选的技术方案，在步骤s40中所述的通断装置包括继电器、插座以及开关。

本发明还提供了一种多词语音控制通断装置的系统，其特征在于该系统包括：

模拟麦克风：用于采集发出语音输入的控制指令；

单片机：用于处理采集之后的语音输入；

flash模块：用于存储预先训练的多个唤醒词的特征值；

a/d转换模块：用于将采集的到的语音模拟信号转成数字信号；

外围电路：用于连接上述的各个模块，使其形成一个完整的电路结构。

与现有技术相比，本发明的有益效果是：本发明在普通通断装置基础上增设了语音识别技术，实现了语音控制电器的开关，另外本发明也解决了现有脱机命令词识别和语音唤醒中，误唤醒的概率大，占用的cpu和ram大，无法在单片机上运行，识别距离近，用户体验差的问题，整体设计造价成本低且使用方便。

附图说明

图1为本发明提供的一种多词语音控制通断装置的方法的流程示意图；

图2为本发明提供的一种多词语音控制通断装置的系统的示意图；

图3为现有技术中电路导通工作原理示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种多词语音控制通断装置的方法，包括以下步骤：

s10：预先训练、存储多个唤醒词汇的特征值到系统硬件中单片机的flash模块内；

s20：通过模拟麦克风实时采集语音并输入至对应的单片机引脚；

s30：单片机通过实时运行预处理算法对采集的语音进行声学特征参数的提取以及似然概率的计算；

s40：如果单片机实时提取的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值匹配，则进行对通断装置的对应控制；

s50：如果单片机实时计算的语音声学特征参数与预先存储的多个唤醒的任意一个唤醒词的特征值都不匹配，则继续进行步骤s20。

本发明首先在单片机的flash模块中预录多个唤醒词汇，如打开电灯与关闭电灯语音的特征值，该系统硬件是与通断装置中的单火取电电路连接，当用户需要将电灯点亮时，只需要对着通断装置说一句“打开电灯”，该语音通过模拟麦克风采集，然后通过单片机进行处理，将这句话的特征值输入单片机上的深度神经网络识别器进行似然度估计，如果通过似然度估计，发现输入的语音信号与“打开电灯”这条命令有很高的似然度，则判决该条命令被激活，此时单片机的gpio引脚将会输出高电平给通断装置的单火取电电路，单火取电电路的工作原理为遇到高电平时电路导通，遇到低电平时电路断开，此时单火取电电路控制火线线路导通，整个电路导通，电灯点亮；如果用户说的是“关闭电灯”，则单片机将该语音的特征值输入单片机上的深度神经网络识别器进行似然度估计，发现输入的语音信号与“关闭电灯”这条命令有很高的似然度，判断这条指令被激活，单片机的gpio引脚输出低电平给单火取电电路，此时火线断开，电灯熄灭，对于单片机匹配成功之后是输出高电平还是低电平，是根据语音意思提前设定好的，另外在匹配成功后，单片机会首先检查gpio引脚的状态，看看是否要切换，比如原来是高电平状态，识别为打开电灯，此时就保持gpio不变；如果识别出关闭电灯，就切换gpio引脚到低电平的状态。

在具体实施过程中，步骤s30中单片机在对采集的语音进行声学特征参数的提取以及似然概率的计算之前进行降噪处理与前端处理，该前端处理的具体方式为：通过端点检测在语音信号中将语音和非语音信号时段区分开来，确定出语音信号的起始点，经过端点检测后，后续处理只需对语音信号进行即可，通过噪音处理能够有效抑制噪声的干扰，提高识别率，通过前端处理能够准确地确定出语音信号的起始点，对提高模型的精确度和识别正确率有重要作用。

在具体实施过程中，由于声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使语音信号从时域转换到频域，更利于分析和识别，另外根据语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时傅里叶分析，这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3，通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响，因此在步骤s30中提取声学特征参数的具体方式为：首先对语音信号进行短时傅里叶分析后，根据人的听感特点，把语音信号划分为若干个子频带，采用梅尔滤波器组的频带分析方法，即在语音频段上划分若干个个子频带，把每个子频带的功率谱能量计算出来，最后将这若干个子频带构成特征的矢量作为语音特征输入识别器。

在具体实施过程中，步骤s30中计算似然概率的具体方式为：统计分析大量语音语料，训练得到从语音短时特征到音素的深度神经网络模型，当输入实时语音的短时特征值时，可得到当时各音素的声学相似度；进一步的引入了区分性训练方法对深度神经网络声学模型进行训练，通常在进行深度学习训练时，采用最大似然准则(maximumlikelihood),这一准则反映的是声学模型与整个训练数据集的匹配程度，但是和识别错误的多少没有直接的关联。在处理多词唤醒任务时，最大似然准则就显得不够精确，很难较好地控制误唤醒现象，通过引入区分性训练，强调命令和周围人声、电视声等干扰声的差别，能非常有效地改善误唤醒现象，该方法具体为：

在多命令词的深度神经网络声学模型初步训练完毕后，对每一个命令词构造针对性的反例数据集，该数据集包括：

1、海量的电视录音片段；

2、海量的音乐录音片段；

3、海量的对话语音片段；

用一个一元的基于音素的语言模型lm表征这些反例片段可能的音素标注，采用一种类似于最大互信息mmi(maximummutualinformation)的训练准则：

其中分子部分表示准确的识别结果对应的声学得分，分母部分表示在语言模型lm上进行识别得到的最好的多个识别结果的声学得分之和(也包括正确识别结果对应的声学得分)。理论上，分母本身包含有分子，因此一定是大于分子的。

在深度学习网络训练中使cost最小，等效于使声学模型朝分子和分母趋近于1的方向收敛。分子越大，分母越小，说明正确结果和其它识别结果的声学得分的差距越大，从而大大降低了误唤醒的概率。

在具体实施过程中，在步骤s40中所述的通断装置包括继电器、插座以及开关。

请参阅图2，本发明还提供了一种多词语音控制通断装置的系统，其特征在于该系统包括：

模拟麦克风：用于采集发出语音输入的控制指令；

单片机：用于处理采集之后的语音输入；

flash模块：用于存储预先训练的多个唤醒词的特征值；

a/d转换模块：用于将采集的到的语音模拟信号转成数字信号；

外围电路：用于连接上述的各个模块，使其形成一个完整的电路结构。

基于上述，本发明具有的优点在于：本发明在普通通断装置基础上增设了语音识别技术，实现了语音控制电器的开关，另外本发明也解决了现有脱机命令词识别和语音唤醒中，误唤醒的概率大，占用的cpu和ram大，无法在单片机上运行，识别距离近，用户体验差的问题，整体设计造价成本低且使用方便。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何昕;蔡洪滨;陈学超;顾樑
技术所有人：上海声瀚信息科技有限公司
我是此专利的发明人

上一篇：翼型结构和组装翼型结构的方法与流程
上一篇：四氢异喹啉雌激素受体调节剂及其用途的制作方法