兼容普通话和方言的语音识别家电控制系统和方法与流程

文档序号:18035746发布日期:2019-06-28 23:17阅读:386来源:国知局
兼容普通话和方言的语音识别家电控制系统和方法与流程

本发明涉及语音识别技术领域,具体地,涉及一种兼容普通话和方言的语音识别家电控制系统和方法。



背景技术:

我国是家电、家居设备制造大国,每年大小家电、家居设备产能多达20亿台。据了解,国内很多家电厂商已经把语音交互语音控制作为最重要战略。

语音识别作为目前人工智能落地最成功的领域,现有的中文普通话语音识别,已经可以带来了很好的用户体验,如专利文献cn108932947a公开的一种语音控制方法及家电设备,其中,该方法包括:接收多个语音信息,将多个语音信息进行分类,并在每类语音信息中选择一个语音信息执行对应的控制操作,采用上述技术方案,即全面执行了多类语音信息的控制操作,又精确的在每类语音信息中选择一个语音信息去执行,在当前环境嘈杂的情况下,仅依据少量语音信息对家电设备进行控制操作,解决了相关技术中环境中语音嘈杂的情况下,语音控制设备准确度低的问题,避免了多人同时控制家电设备导致家电设备无法识别控制操作从而易出错的情况,保证了语音控制家电设备的准确性。

但除了大城市之外,二线、三线到乡镇,很多用户家里依然说着方言,需要一种方法能够解决实际使用者,比如老人、女人,二三线城市城镇等这些说着方言的用户,也可以语音控制家电,原有的普通话识别也可以兼容,这样让人与家电设备的语音交互更加自然、和人性化。



技术实现要素:

针对现有技术中的缺陷,本发明的目的是提供一种兼容普通话和方言的语音识别家电控制系统和方法。

根据本发明提供的一种兼容普通话和方言的语音识别家电控制系统,包括语音接受模块、语音识别模块、家电控制模块以及家电操作模块;

语音接受模块:利用本地的音频输入设备,接收设定的音频作为原始信号;

前端处理模块:接收原始信号,并将原始信号进行前端处理得到第一信号;

语音识别模块:将第一信号进行模式识别,并将模式识别结果作为第二信号;

家电控制模块:将第二信号按照设定的逻辑进行计算并判断计算结果是否属于设定结果集合,若计算结果属于设定结果集合,则根据设定结果集合映射的设定操作集合发出控制指令作为第三信号,若计算结果不属于设定结果集合,则发出失败指令作为第四信号;

家电操作模块:接收第三信号并根据第三信号做出指定操作;

所述前端处理包括语音特征值提取。

优选地,所述兼容普通话和方言的语音识别家电控制系统还包括:

语音播放模块:接收第三信号和第四信号并语音播报设定的识别结果信息。

优选地,家电控制模块中的计算包括方言声学模型计算和普通话声学模型计算,即将第二信号分别按照设定的逻辑进行方言声学模型计算和普通话声学模型计算得到方言计算结果和普通话计算结果,若方言计算结果属于设定结果集合,则采用方言计算结果,否则,则采用普通话计算结果。

优选地,所述家电控制模块包括方言训练子模块;

方言训练子模块:使用者选定待训练指令后,多次训练学习使用者指定的语音唤醒词,从而建立语音唤醒词与待训练指令间的映射,并更新方言声学模型。

优选地,所述音频输入设备包括麦克风或者麦克风阵列;所述语音特征值提取包括通过梅尔频率倒谱提取语音特征值,所述语音特征值包括语音特征矢量编码;所述前端处理还包括降噪、语音端点检测以及语音分帧这三者中的任一种或任多种组合;

所述语音分帧是指将原始信号以设定的时间长度分割为多个语音帧;

所述端点检测是指根据原始信号的时域参量进行语音端点的检测,从而将原始信号区分为语音信号时段和非语音信号时段;

所述降噪包括稳态噪音的过滤和/或动态噪音的抑制;

其中,时域参量包括短时幅度和/或短时过零率;稳态噪音的过滤包括通过webrtc算法过滤;动态噪音的抑制包括通过麦克风阵列的波束成型来抑制。

根据本发明提供的一种兼容普通话和方言的语音识别家电控制方法,包括语音接受步骤、语音识别步骤、家电控制步骤以及家电操作步骤;

语音接受步骤:利用本地的音频输入设备,接收设定的音频作为第一信号;

语音识别步骤:将第一信号进行识别处理,并将识别处理结果作为第二信号;

家电控制步骤:将第二信号按照设定的逻辑进行计算并判断计算结果是否属于设定结果集合,若计算结果属于设定结果集合,则根据设定结果集合映射的设定操作集合发出控制指令作为第三信号,若计算结果不属于设定结果集合,则发出失败指令作为第四信号;

家电操作步骤:接收第三信号并根据第三信号做出指定操作;

所述识别处理包括语音特征值提取。

优选地,所述兼容普通话和方言的语音识别家电控制方法还包括:

语音播放步骤:接收第三信号和第四信号并语音播报设定的识别结果信息。

优选地,家电控制步骤中的计算包括方言声学模型计算和普通话声学模型计算,即将第二信号分别按照设定的逻辑进行方言声学模型计算和普通话声学模型计算得到方言计算结果和普通话计算结果,若方言计算结果属于设定结果集合,则采用方言计算结果,否则,则采用普通话计算结果。

优选地,所述家电控制步骤包括方言训练子步骤;

方言训练子步骤:使用者选定待训练指令后,多次训练指定的语音唤醒词,从而建立语音唤醒词与待训练指令间的映射。

优选地,所述音频输入设备包括麦克风或者麦克风阵列;所述语音特征值提取包括通过梅尔频率倒谱提取语音特征值,所述语音特征值包括语音特征矢量编码;所述识别处理还包括降噪、语音端点检测以及语音分帧这三者中的任一种或任多种组合;

所述语音分帧是指将原始信号以设定的时间长度分割为多个语音帧;

所述端点检测是指根据原始信号的时域参量进行语音端点的检测,从而将原始信号区分为语音信号时段和非语音信号时段;

所述降噪包括稳态噪音的过滤和/或动态噪音的抑制;

其中,时域参量包括短时幅度和/或短时过零率;稳态噪音的过滤包括通过webrtc算法过滤;动态噪音的抑制包括通过麦克风阵列的波束成型来抑制。

与现有技术相比,本发明具有如下的有益效果:

1、本发明提供的兼容普通话和方言的语音识别家电控制系统,具有结构简单、可靠性高、维护成本低的优点;

2、本发明提供的兼容普通话和方言的语音识别家电控制系统和方法,能够在识别方言的基础上,进一步的主动训练,从而极大地提高特定使用者的指令识别率,甚至能够实现各语种间的无差别识别;

3、本发明提供的兼容普通话和方言的语音识别家电控制系统和方法,通过降噪、语音端点检测以及语音分帧有效地对输入语音进行了有效性筛选,从而降低了语音特征值提取所需的计算量,进而提升了语音识别的效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为方言学习训练流程图

图2为语音识别流程图

图3为语音识别家电控制系统的示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。

根据本发明提供的一种兼容普通话和方言的语音识别家电控制系统,包括语音接受模块、语音识别模块、家电控制模块以及家电操作模块;

语音接受模块:利用本地的音频输入设备,接收设定的音频作为原始信号;

前端处理模块:接收原始信号,并将原始信号进行前端处理得到第一信号;

语音识别模块:将第一信号进行模式识别,并将模式识别结果作为第二信号;

家电控制模块:将第二信号按照设定的逻辑进行计算并判断计算结果是否属于设定结果集合,若计算结果属于设定结果集合,则根据设定结果集合映射的设定操作集合发出控制指令作为第三信号,若计算结果不属于设定结果集合,则发出失败指令作为第四信号;

家电操作模块:接收第三信号并根据第三信号做出指定操作;

所述前端处理包括语音特征值提取。

具体地,所述兼容普通话和方言的语音识别家电控制系统还包括:

语音播放模块:接收第三信号和第四信号并语音播报设定的识别结果信息。

家电控制模块中的计算包括方言声学模型计算和普通话声学模型计算,即将第二信号分别按照设定的逻辑进行方言声学模型计算和普通话声学模型计算得到方言计算结果和普通话计算结果,若方言计算结果属于设定结果集合,则采用方言计算结果,否则,则采用普通话计算结果。

所述家电控制模块包括方言训练子模块;

方言训练子模块:使用者选定待训练指令后,多次训练学习使用者指定的语音唤醒词,从而建立语音唤醒词与待训练指令间的映射,并更新方言声学模型。

所述音频输入设备包括麦克风或者麦克风阵列;所述语音特征值提取包括通过梅尔频率倒谱提取语音特征值,所述语音特征值包括语音特征矢量编码;所述前端处理还包括降噪、语音端点检测以及语音分帧这三者中的任一种或任多种组合;所述语音分帧是指将原始信号以设定的时间长度分割为多个语音帧;所述端点检测是指根据原始信号的时域参量进行语音端点的检测,从而将原始信号区分为语音信号时段和非语音信号时段;所述降噪包括稳态噪音的过滤和/或动态噪音的抑制;

其中,时域参量包括短时幅度和/或短时过零率;稳态噪音的过滤包括通过webrtc算法过滤;动态噪音的抑制包括通过麦克风阵列的波束成型来抑制。

根据本发明提供的一种兼容普通话和方言的语音识别家电控制方法,包括语音接受步骤、语音识别步骤、家电控制步骤以及家电操作步骤;

语音接受步骤:利用本地的音频输入设备,接收设定的音频作为第一信号;

语音识别步骤:将第一信号进行识别处理,并将识别处理结果作为第二信号;

家电控制步骤:将第二信号按照设定的逻辑进行计算并判断计算结果是否属于设定结果集合,若计算结果属于设定结果集合,则根据设定结果集合映射的设定操作集合发出控制指令作为第三信号,若计算结果不属于设定结果集合,则发出失败指令作为第四信号;

家电操作步骤:接收第三信号并根据第三信号做出指定操作;

所述识别处理包括语音特征值提取。

更具体地,所述兼容普通话和方言的语音识别家电控制方法还包括:

语音播放步骤:接收第四信号并语音播报设定的识别失败提示消息。

家电控制步骤中的计算包括方言声学模型计算和普通话声学模型计算,即将第二信号分别按照设定的逻辑进行方言声学模型计算和普通话声学模型计算得到方言计算结果和普通话计算结果,若方言计算结果属于设定结果集合,则采用方言计算结果,否则,则采用普通话计算结果。

所述家电控制步骤包括方言训练子步骤;

方言训练子步骤:使用者选定待训练指令后,多次训练指定的语音唤醒词,从而建立语音唤醒词与待训练指令间的映射。

所述音频输入设备包括麦克风或者麦克风阵列;所述语音特征值提取包括通过梅尔频率倒谱提取语音特征值,所述语音特征值包括语音特征矢量编码;所述识别处理还包括降噪、语音端点检测以及语音分帧这三者中的任一种或任多种组合;

所述语音分帧是指将原始信号以设定的时间长度分割为多个语音帧;

所述端点检测是指根据原始信号的时域参量进行语音端点的检测,从而将原始信号区分为语音信号时段和非语音信号时段;

所述降噪包括稳态噪音的过滤和/或动态噪音的抑制;

其中,时域参量包括短时幅度和/或短时过零率;稳态噪音的过滤包括通过webrtc算法过滤;动态噪音的抑制包括通过麦克风阵列的波束成型来抑制。

进一步地,本发明的优选例涉及到语音识别技术领域,公开了一种兼容普通话和方言识别的语音识别家电控制系统,该方案包括:语音接受装置、语音识别装置、语音播放装置、家电控制装置、按键、触摸显示屏、家电系统。

1、语音接受装置,利用本地(终端是嵌入式系统)的录音设备,比如单麦克风、麦克风阵列,持续的接收录音,将录音输出给语音识别装置。

2、语音识别装置,收到录音后,进行降噪、端点检测、语音分帧、语音特征值提取(语音编码),语音编码同时送到方言声学模型和普通话声学模型中进行识别计算,优先采用方言识别的结果,如果方言识别没有结果,再采用普通话识别的结果。

3、家电控制装置,接收到识别结果后,做逻辑判断,再去控制家电系统去执行。

此发明特别适应用于中国目前普通话不够普及、或者家庭方言环境下的识别,用户既可以普通话识别,也可以方言识别,都可以语音控制家电,是目前在语音识别在家电的实际应用中最适合的解决方案。

本发明优选例中,包括如下流程:

1、用户训练方言声学模型

唤醒词和每条语音指令,需要学习训练多遍,训练到方言声学模型中。

方言声学模型的建立,方言唤醒词和语音指令经过学习,训练到方言声学模型里,方言声学模型里包括语音指令的语音帧、以及每帧的语音特征矢量(语音编码)。方言声学模型的训练过程中,可以通过家电上的按键、触摸显示屏的操作,对唤醒词、任意的控制指令单独或者全部学习或删除。

2、持续接收录音输入:

利用本地(终端可以是嵌入式系统、pc、或者其他soc系统)的录音设备,比如单麦克风、麦克风阵列,持续的接收录音,收到录音后,进行降噪、端点检测、语音分帧、语音特征值提取(语音编码)。

语音分帧,就是将录音进来的语音数据,分为长度一样的每一帧,一般采用几十毫秒一帧。

端点检测是对输入的录音进行分析,将语音信号中的语音和非语音信号时段区分开来,确定出语音信号的起始点。利用语音的时域参量—短时幅度和短时过零率可以进行语音的端点检测。首先可以考虑用信号的幅度作为特征,区分静音段和语音段。只要设定一个门限,当信号的幅度超过该门限,就认为语音开始,幅度降低门限以下就认为语音结束。对语音信号进行端点检测,准确判定每一个输入语音的起点、终点,有利于降低系统运算量,提高系统性能。

语音降噪,包括采用对稳态噪音的过滤以及对动态噪音的抑制。动态噪音通过麦克风阵列的波束成型来抑制,稳态噪音通过webrtc算法来过滤。

采用mfcc(mel-scalefrequencycepstrumcoefficient)特征,来提取语音特征值,在这个模块中,需要对语音信号进行频域变换、倒谱变换、差分等处理,最后得到40维左右的特征矢量。

3、语音识别过程:

录音同时送到方言声学模型和普通话声学模型中进行识别计算,方言声学模型存储在本地,方言识别计算在本地完成。普通话声学模型可以在本地,也可以在云服务器端,也就是说普通话识别是在本地或者云服务器上完成。

4、识别结果判断:

优先采用方言识别的结果,如果方言识别没有结果,再采用普通话识别的结果。如果都没有识别结果,则认为此次识别失败。

5、家电控制。

语音识别后的结果传给家电的控制板,家电控制板控制家电系统执行操作。

本发明优选例中:

语音识别模块,主芯片采用x1800/x1830芯片,该芯片内包括64m/128mbyte的ddrram,外挂128mbyteflash,运行嵌入式linux3.1.0系统。

语音接受模块为2个或4个stdt05的数字麦克风阵列。

语音播放模块包括模拟功放和4欧3瓦的喇叭。

家电控制模块,包括单片机和外围驱动电路,目前家电上基本为8位或32位的单片机,比如st公司的stm8/stm32芯片。

语音部分(语音接受模块、语音识别模块以及前端处理模块)和家电控制部分(家电控制模块、家电操作模块以及语音播放模块)之间可以通过串口或者iic等接口进行通信,语音部分把识别结果发送给家电控制部分,家电控制模块把家电操作后结果、按键信息、触摸显示屏触摸信息反馈给语音部分。

更进一步地,对方言声学模型训练、普通话声学模型、方言识别、普通话识别作简单介绍如下:

1、方言声学模型训练。

方言声学模型的建立,方言唤醒词和语音指令经过学习,训练到方言声学模型里,方言声学模型里包括语音指令的语音帧、以及每帧的语音特征矢量(语音编码)。

训练时,语音唤醒词、语音控制指令,用户可以做任意定义,不限制语种,不限制内容,为了提高识别效果,每条都需要训练多次,用户可以将常用的语音控制指令训练进去。

2、普通话声学模型,普通话声学模型的建立,为了适应不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境,采集大量语音语料和文本语料来训练普通话声学模型,声学模型的建模方法包括但不限于dnn(深度神经网络)、hmm(隐马尔可夫模型)、gmm(高斯模型)。

3、方言识别,前端处理后的用户录音,语音编码后,送到方言声学模型里进行识别计算,返回识别结果,识别结果是训练时对应的序号和识别分值。

4、普通话识别,无论是本地还是云服务器,事先已经生成好了普通话声学模型,语音编码送到声学模型中进行识别计算,返回识别结果,识别结果是语音对应的文字和识别分值。

5、识别结果判断,识别结果优先采用识别方言识别结果,如果方言识别分值低于阈值,则采用普通话识别结果,如果普通话识别结果也低于识别阈值,则本次识别失败。

实际应用场景如下:

比如空调,默认的出厂语音唤醒词是普通话识别的“小方小方”,用户可以自己训练任意说法的唤醒词,比如上海话的“小白小白”,使用时,用户直接说上海话的“小白小白”,空调同样会被唤醒,语音提示“我在,您说”,可以做到非常的个性化。

语音控制指令的任意定义,比如默认的出厂的某条语音控制指令是“打开空调”,用户可以自己训练任意说话的指令,比如上海话的“请把空调打开”,使用时,用户直接说上海话的“请把空调打开”,空调就会自动打开,并语音提示“已为您打开空调”。用户说普通话“打开空调”,空调也能识别。

普通话和方言识别系统可以满足用户的个性化,让语音交互、语音控制更加贴近用户的刚需,毕竟家里的电器设备,比如洗衣机、油烟机、空调用的比较多还是老人和女人,还有很多二三线城市的人群,也是直接说方言的。本发明,既满足了普通话识别的基本需求,也满足了个性化的刚性需求,是语音识别目前最合适的解决方案。

在本申请的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1