一种关键词的检测方法以及相关装置与流程

文档序号:17493677发布日期:2019-04-23 20:58阅读:285来源:国知局
一种关键词的检测方法以及相关装置与流程

本发明涉及音频处理技术领域,尤其涉及一种关键词的检测方法以及相关装置。



背景技术:

随着智能语音设备开始推广,通过语音命令与智能设备进行人机交互成为重要功能。在语音交互应用中,基于产品功耗、交互体验以及私密性等考虑,用户需要通过语音关键词来唤醒智能设备进而进行下一步人机语音交互。

目前,对于智能语音设备而言,需要预先设定至少一个关键词,在用户唤醒该智能语音设备时,应采用正常的语速念出相应的关键词。通常情况下,对于一个四字关键词而言,采用正常语速念出来大致需要用时0.5秒左右。

然而,很多情况下,用户难以保证念出来的关键词语速恒定,比如,用户只用了0.2秒的时间就将一个四字关键词念出来,或者,用户用了将近1.5秒的时间将一个四字关键词念出来,这样的情况下,智能语音设备往往难以检测出当前的语音中是否包含关键词,导致关键词的检出率低下。



技术实现要素:

本发明实施例提供了一种关键词的检测方法以及相关装置,可以对语音信号进行增强从而有效地提升语音识别质量,进而对增强后的信号再进行变速处理,由此提升对快语速语音或者慢语速语音中关键词的检出率。

有鉴于此,本发明第一方面提供一种关键词的检测方法,包括:

获取待检测语音信号的增强语音信号,其中,所述增强语音信号对应于目标语速;

对所述增强语音信号进行变速处理,得到第一变速语音信号,其中,所述第一变速语音信号对应于第一语速,所述第一语速与所述目标语速不一致;

根据所述第一变速语音信号获取第一语音特征信号;

通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果,其中,所述关键词检测结果用于表示所述待检测语音信号中是否存在目标关键词;

若根据所述关键词检测结果确定存在所述目标关键词,则执行所述目标关键词所对应的操作。

本发明第二方面提供一种关键词检测装置,包括:

获取模块,用于获取待检测语音信号的增强语音信号,其中,所述增强语音信号对应于目标语速;

变速模块,用于对所述获取模块获取的所述增强语音信号进行变速处理,得到第一变速语音信号,其中,所述第一变速语音信号对应于第一语速,所述第一语速与所述目标语速不一致;

所述获取模块,还用于根据所述变速模块变速后得到的所述第一变速语音信号获取第一语音特征信号;

所述获取模块,还用于通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果,其中,所述关键词检测结果用于表示所述待检测语音信号中是否存在目标关键词;

执行模块,用于若根据所述获取模块获取的所述关键词检测结果确定存在所述目标关键词,则执行所述目标关键词所对应的操作。

在一种可能的设计中,在本发明实施例的第二方面的第一种实现方式中,

所述获取模块,具体用于获取所述待检测语音信号;

通过语音增强算法对所述待检测语音信号进行处理,得到所述增强语音信号。

在一种可能的设计中,在本发明实施例的第二方面的第二种实现方式中,

所述获取模块,具体用于通过单个语音输入设备接收所述待检测语音信号;

通过回声消除算法、噪声消除算法以及混响消除算法中的至少一种,对所述待检测语音信号进行处理,得到所述增强语音信号,其中,所述所述回声消除算法用于对所述待检测语音信号中的回声信号进行消除处理,所述噪声消除算法用于对所述待检测语音信号中的稳态噪声和/或非稳态噪声进行抑制处理,所述混响消除算法用于对所述待检测语音信号中的混响进行消除处理。

在一种可能的设计中,在本发明实施例的第二方面的第三种实现方式中,

所述获取模块,具体用于通过多个语音输入设备接收所述待检测语音信号;

通过回声消除算法和/或混响消除算法,对所述待检测语音信号进行处理,得到第一待处理信号,其中,所述回声消除算法用于对所述待检测语音信号中的回声信号进行消除处理,所述混响消除算法用于对所述待检测语音信号中的混响进行消除处理,其中,所述第一待处理信号包括多路信号;

通过波束形成算法对所述第一待处理信号进行空间滤波处理,得到第二待处理信号,其中,所述第二待处理信号包括一路信号;

通过噪声消除算法对所述第二待处理信号中的稳态噪声和/或非稳态噪声进行抑制处理,得到所述增强语音信号。

在一种可能的设计中,在本发明实施例的第二方面的第四种实现方式中,

所述变速模块,具体用于将所述增强语音信号写入至第一先进先出fifo缓存;

当达到所述第一fifo缓存的存储门限时,从所述第一fifo缓存中读取待处理增强语音信号,其中,所述待处理增强语音信号的时长小于或等于所述增强语音信号的时长;

对所述待处理语音信号进行变速处理,得到目标变速语音信号,其中,所述目标变速语音信号的时长小于或等于所述第一变速语音信号的时长;

将所述目标变速语音信号写入至第二fifo缓存;

所述获取模块,具体用于从所述第二fifo缓存中读取所述目标变速语音信号;

根据所述目标变速语音信号生成所述第一语音特征信号,其中,所述第一语音特征信号包括梅尔频率倒谱系数mfcc特征信号、滤波器组fbanks以及线性预测倒谱系数lpcc中的至少一种。

在一种可能的设计中,在本发明实施例的第二方面的第五种实现方式中,

所述变速模块,具体用于根据所述待处理语音信号、第一样本数以及分析帧步长确定第一语音帧;

根据所述第一语音帧、所述第一样本数以及合成步长,计算得到自然连续语音帧;

根据所述待处理语音信号以及所述分析帧步长确定第二语音帧;

根据所述第二语音帧以及所述自然连续语音帧,获取第二样本数;

根据所述待处理语音信号、所述第二样本数以及以及分析帧步长,确定待匹配语音帧;

根据所述第一语音帧以及所述待匹配语音帧确定所述目标变速语音信号。

在一种可能的设计中,在本发明实施例的第二方面的第六种实现方式中,

所述变速模块,具体用于采用如下方式计算所述第二样本数:

其中,所述δk+1表示所述第二样本数,所述ca(k,δk+1)表示两个语音帧的最小互平均幅度差分函数系数,所述k表示第k个语音帧,所述δ表示样本数,所述表示所述自然连续语音,所述δmax表示可移动的最大样本数,所述xk+1(n+δk+1)表示待匹配的所述第二语音帧,所述argmin表示所述ca(k,δk+1)取最小值时的变量值,所述n为大于或等于1,且小于或等于所述n的整数。

在一种可能的设计中,在本发明实施例的第二方面的第七种实现方式中,所述关键词检测装置还包括确定模块;

所述确定模块,用于所述获取模块通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果之后,若所述关键词检测结果为第一字符,则根据所述第一字符确定所述待检测语音信号中存在所述目标关键词;

所述确定模块,还用于所述获取模块通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果之后,若所述关键词检测结果为第二字符,则根据所述第二字符确定所述待检测语音信号中不存在所述目标关键词。

在一种可能的设计中,在本发明实施例的第二方面的第八种实现方式中,所述关键词检测装置还包括确定模块;

所述确定模块,用于所述获取模块通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果之后,根据所述关键词检测结果确定目标概率值;

所述确定模块,还用于若所述目标概率值大于或等于关键词概率阈值,则确定所述待检测语音信号中存在所述目标关键词;

所述确定模块,还用于若所述目标概率值小于所述关键词概率阈值,则确定所述待检测语音信号中不存在所述目标关键词。

在一种可能的设计中,在本发明实施例的第二方面的第九种实现方式中,

所述获取模块,还用于获取待检测语音信号的增强语音信号之后,根据所述增强语音信号获取第二语音特征信号,其中,所述第二语音特征信号对应于第二语速,所述第二语速与所述目标语速一致;

所述获取模块,具体用于通过所述关键词检测模型获取所述第一语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第二语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第一语音特征信号以及所述第二语音特征信号所对应的关键词检测结果。

在一种可能的设计中,在本发明实施例的第二方面的第十种实现方式中,所述关键词检测装置还包括判断模块和执行模块;

所述判断模块,用于所述获取模块获取待检测语音信号的增强语音信号之后,判断当前是否处于回声信号消除状态;

所述执行模块,用于若所述判断模块判断得到当前处于所述回声信号消除状态,则执行所述根据所述增强语音信号获取第二语音特征信号的步骤,并执行所述通过所述关键词检测模型获取所述第二语音特征信号所对应的所述关键词检测结果的步骤;

所述执行模块,用于若所述判断模块判断得到当前未处于所述回声信号消除状态,则执行所述根据所述第一变速语音信号获取第一语音特征信号的步骤,并且执行所述根据所述增强语音信号获取第二语音特征信号的步骤。

在一种可能的设计中,在本发明实施例的第二方面的第十一种实现方式中,

所述获取模块,还用于获取待检测语音信号的增强语音信号之后,根据所述增强语音信号获取第二语音特征信号,其中,所述第二语音特征信号对应于第二语速,所述第二语速与所述目标语速一致;

所述变速模块,还用于对所述增强语音信号进行变速处理,得到第二变速语音信号,其中,所述第二变速语音信号对应于第三语速,所述第三语速大于所述目标语速,且所述第三语速大于所述第一语速,所述第一语速小于所述目标语速;

根据所述第二变速语音信号获取第三语音特征信号;

所述获取模块,具体用于通过所述关键词检测模型获取所述第一语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第二语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第三语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第一语音特征信号、所述第二语音特征信号以及第三语音特征信号所对应的关键词检测结果。

本发明第三方面提供一种智能设备,所述智能设备用于执行上述第一方面或第一方面的任一可能的实现方式中的关键词的检测方法。具体地,所述智能设备可以包括用于执行第一方面或第一方面的任一可能的实现方式中关键词的检测方法的模块。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出,本发明实施例对应于以下优点:

本发明实施例中,提供了一种关键词的检测方法,关键词检测装置获取待检测语音信号的增强语音信号,其中,增强语音信号对应于目标语速,然后关键词检测装置对增强语音信号进行变速处理,得到第一变速语音信号,其中,第一变速语音信号对应于第一语速,第一语速与目标语速不一致,再根据第一变速语音信号获取第一语音特征信号,最后关键词检测装置通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果,其中,关键词检测结果用于表示待检测语音信号中是否存在目标关键词,若根据关键词检测结果确定存在目标关键词,则执行目标关键词所对应的操作。通过上述方式,在检测关键词之前需要对待检测语音信号进行信号增强处理以及变速处理,对语音信号进行增强可以有效地提升语音识别质量,进而对增强后的信号再进行变速处理,能够提升对快语速语音或者慢语速语音中关键词的检出率。

附图说明

图1为本发明实施例中关键词检测系统的一个架构示意图;

图2为本发明实施例中关键词检测的一个流程示意图;

图3为本发明实施例中关键词的检测方法一个实施例示意图;

图4为本发明实施例中对单麦克风信号进行语音增强的一个实施例示意图;

图5为本发明实施例中对多麦克风信号进行语音增强的一个实施例示意图;

图6为本发明实施例中对增强语音信号进行变速处理的一个流程示意图;

图7a为本发明实施例中基于波形相似叠接相加法进行变速处理的一个实施例示意图;

图7b为本发明实施例中基于波形相似叠接相加法进行变速处理的一个实施例示意图;

图7c为本发明实施例中基于波形相似叠接相加法进行变速处理的一个实施例示意图;

图7d为本发明实施例中基于波形相似叠接相加法进行变速处理的一个实施例示意图;

图8为本发明实施例中基于两路语音信号进行关键词检测的一个实施例示意图;

图9为本发明实施例中控制多路语音信号检测关键词的一个实施例示意图;

图10为本发明实施例中基于三路语音信号进行关键词检测的一个实施例示意图;

图11为本发明实施例中关键词检测装置一个实施例示意图;

图12为本发明实施例中关键词检测装置另一个实施例示意图;

图13为本发明实施例中关键词检测装置另一个实施例示意图;

图14为本发明实施例中智能设备一个结构示意图;

图15为本发明实施例中服务器一个结构示意图。

具体实施方式

本发明实施例提供了一种关键词的检测方法以及相关装置,可以对语音信号进行增强从而有效地提升语音识别质量,进而对增强后的信号再进行变速处理,由此提升对快语速语音或者慢语速语音中关键词的检出率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解,本发明主要应用于人机交互场景,具体为语音交互场景。语音交互创造了全新的伴随式场景,比如说早晨起床后我们可以一边洗刷一遍听广播,晚上跑步的同时还可以听音乐,语音交互解放了人的手和眼睛,通过语音交互我们可以做到“一心二用”,这极大的提高了我们在某些场景下的效率,语音交互充分抓住了人类不方便使用手和眼睛的场景。另外随着智能设备影响的扩大,用户群逐步向老龄人群、低龄人群以及身体残障人群渗透扩散的趋势非常明显,而对这些新进入人群而言,原有的触控交互方式或许并不太适合,用户习惯也未形成,例如老年人视力下降、手指也不够灵活;低龄儿童还不能掌握手写等能力也不适合长时间看电子屏幕;弱视或盲人更希望接受语音信息和发出语音指令,因此语音交互也更适合拓展智能设备新的用户人群。

语音交互还具有很多优点,比如交互速度快(通过图形交互界面设置一个闹钟可能需要3分钟,而语音交互下只需要30秒),操作简单(释放双手,不需要去繁琐的打开应用程序,只需先找到一首歌,然后点击播放,可以一边看书,一边说“放音乐”或者“下一首”),个性化定制(可以根据之前的背景,理解问题),成本较低(需要麦克风,扬声器,处理器等,而这些设备的相对低价,提供了唤醒万物的前提)。

语音交互场景包含但不仅限于家里(比如通过语音控制家居),车上(相比操作手机的不安全性,语音交互也具有绝对的优势)以及路上(在习惯了埋头看手机走路后,能够一边语音控制播放歌曲或者查收邮件)。

基于语音交互的智能设备已经实用化,在诸如家电、汽车以及手机等设备上已经有广泛应用,其中,很多设备都具有语音唤醒功能,用于屏幕解锁或者作为启动应用的辅助手段。其中,语音唤醒是这样一项技术,当设备处于待机状态时,在非常低的功耗条件下,在后台不间断运行一个装置,对某个预先定义的关键词进行检测,当检测到用户说出这个词时,将该设备唤醒,从而使得该设备进入正常工作状态。

为了便于理解,本发明提出了一种关键词检测的方法,该方法应用于图1所示的关键词检测系统,请参阅图1,图1为本发明实施例中关键词检测系统的一个架构示意图,如图所示,用户通过麦克风输入一段语音,关键词检测装置将这段语音转换为待检测语音信号,然后对待检测语音信号进行增强处理,得到增强语音信号,其中,增强语音信号对应于原始的语速。接下来,关键词检测装置对增强语音信号进行变速处理,得到第一变速语音信号。通常情况下,如果原始的语速过快,则通过变速处理后可以降低原始语速,反之,如果原始的语速过慢,则通过变速处理后可以提升原始的语速。关键词检测装置从变速后的语音信号中提取语音特征信号,再将语音特征信号输入至已经训练好的关键词检测模型,由关键词检测模型输出相应的关键词检测结果,从而可以确定用户说的这段语音中是否包含有目标关键词。可以理解的是,关键词检测装置可以部署于智能设备,也可以部署于服务器,若部署在智能设备,则智能设备可以在离线的状态下检测语音中是否包含目标关键词。若部署在服务器,则智能设备在采集到用户的语音后,在联网的状态下同步或者异步将该语音发送至服务器,由服务器检测语音中是否包含目标关键词。

需要说明的是,客户端部署于智能设备上,其中,智能设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personalcomputer,pc),此处不做限定。其中,语音交互设备包含但不仅限于智能音响以及智能家电。语音交互设备还具有如下特点:

1、网络化功能,各种语音交互设备可以通过局域网连接到一起,还可以通过家庭网关接口同制造商的服务站点相连,最终可以同互联网相连,实现信息的共享。

2、智能化,语音交互设备可以根据周围环境的不同自动做出响应,不需要人为干预。

3、开放性以及兼容性,由于用户的语音交互设备可能来自不同的厂商,语音交互设备需要具有开发性和兼容性。

4、节能化,智能家电可以根据周围环境自动调整工作时间以及工作状态,从而实现节能。

5、易用性,由于复杂的控制操作流程已由内嵌在语音交互设备中的控制器解决,因此用户只需了解非常简单的操作。语音交互设备并不是单指某一个设备,而应是一个技术系统,随着人类应用需求和语音交互设备智能化的不断发展,其内容将会更加丰富,根据实际应用环境的不同语音交互设备的功能也会有所差异,但一般应具备智能控制技术。

应理解,本发明将结合图2介绍关键词的检测流程,请参阅图2,图2为本发明实施例中关键词检测的一个流程示意图,如图所示,具体地,音频采集模块s1是由麦克风以及模数转换器等设备所构成的音频采集前端,该音频采集模块s1可以只有单个麦克风,也可以是多个麦克风构成的麦克风阵列,通过音频采集模块s1采集声音信号,并发送到语音增强模块s2。语音增强模块s2接收麦克风数字信号,通过回声消除、波速形成、噪声抑制以及混响消除等算法对目标语音信号进行增强,形成增强语音信号,并送到语音信号变速模块s3对语音进行变速处理,得到变速语音信号。声学特征提取模块s4对收到的变速语音信号进行特征提取。关键词检测模块s5通过实时检测输入的语音特征信号,判断语音中是否包含目标关键词。

结合上述介绍,下面将对本发明中关键词的检测方法进行介绍,请参阅图3,本发明实施例中关键词的检测方法一个实施例包括:

101、获取待检测语音信号的增强语音信号,其中,增强语音信号对应于目标语速;

本实施例中,用户通过输入装置(比如麦克风)说一段语音,由关键词检测装置对语音进行处理,得到待检测语音信号,然后对待检测语音信号进行语音增强处理,从而得到增强语音信号,这里的增强语音信息对应于目标语速。

语速是人类特有的语言表达定义,人们在使用具有传播或沟通意义的词汇表达或传播信息时,语速即为单位时间内所包括的词汇容量。需要说明的是,本发明中的语音类型可以是中文、英文、日文、德文和法文等,此处不对语音类型进行限定。

102、对增强语音信号进行变速处理,得到第一变速语音信号,其中,第一变速语音信号对应于第一语速,第一语速与目标语速不一致;

本实施例中,关键词检测装置对增强语音信号进行变速处理,得到第一变速语音信号,这里的第一变速语音信号对应于第一语速,第一语速可以快于目标语速,或者,第一语速可以慢于目标语速。

103、根据第一变速语音信号获取第一语音特征信号;

本实施例中,关键词检测装置从第一变速语音信号中提取第一语音特征信号。具体地,语音信号是一种常见的时间序列,它以离散信号的形式被编码,然后使用一定的文件格式来存储。在与语音有关的应用中,几乎所有的应用都要涉及到语音特征的提取,例如语音文本转换、说话人识别以及语音情感识别等等。语音特征提取就是从数字信号中提取出与主要信息相关的内容,一般会从时域和频域两个不同的角度去进行,这些特征可以从不同的角度去分类。通常在进行特征提取之前,都要对原始语音信号序列做一系列的预处理。常用的有以下几个:

1、声道转换(channelconversion)是指将多个声道的语音信号转换为单声道语音,如果本身就是单声道语音信号,则不需要进行转换。

2、预加重(pre-emphasis)的目的就是只保留一定频率范围的信号。实际上这个过程起到了高通滤波器的作用。一阶高通滤波器对高频信号有着很好的放大作用,而且会大幅度压缩低频信号的幅度;同时,还会产生一个相位滞后的效应,这个对高频信号尤为明显。

3、重采样(resample)是指根据一类象元的信息内插出另一类象元信息的过程。实际中,我们遇到的语音信号可能来自不同的设备,它们在录制的时候所设置的参数也不尽相同,最重要的一个就是采样率。根据奈奎斯特采样定律,采样频率需要大于等于信号本身最大频率分量的2倍,才能保证能够拿采样之后的数据来恢复信号。

4、组帧(framing)是指把相关的信息组合在一帧内。虽然数字语音信号是一个随时间变化的随机序列,从全局来看它并不是一个平稳随机过程。但是在较短的时间内,可以认为它是一个近似平稳的随机过程。而一般认为这段时间的的长度是25毫秒至32毫秒。也就是说,可以按照25毫秒至32毫秒的帧长,把一个离散序列进行分组,每一组就是一帧。此外,为了保证语音信号的连续性,一般让相邻两帧之间存在一定的重叠。重叠部分一般占帧长的1/3至1/2。

5、加窗(windowing)往往与组帧一起使用。对每一帧,选择一个窗函数,窗函数的宽度就是帧长。常用的窗函数有矩形窗、汉明窗、汉宁窗以及高斯窗等。

需要说明的是,在实际应用中,可以按照上述顺序执行预操作的流程,也可以根据情况选择操作的执行顺序,此处仅为一个示意。

104、通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果,其中,关键词检测结果用于表示待检测语音信号中是否存在目标关键词。

本实施例中,将提取得到的第一语音特征信号输入至关键词检测模型,由关键词检测模型输出关键词检测结果。根据该关键词检测结果可以确定待检测语音信号中是否存在目标关键词,即用户说的语音中是否有目标关键词。比如目标关键词为“小腾快醒”,当检测到语音中有“小腾快醒”这个目标关键词,则会唤醒设备进行相应的操作。

105、若根据关键词检测结果确定存在目标关键词,则执行目标关键词所对应的操作。

本实施例中,如果关键词检测结果表明待检测语音信号中存在目标关键词,就可以执行相应的操作。比如,目标关键词为“开灯”,则智能设备会相应的亮起灯。

本发明实施例中,提供了一种关键词的检测方法,关键词检测装置获取待检测语音信号的增强语音信号,其中,增强语音信号对应于目标语速,然后关键词检测装置对增强语音信号进行变速处理,得到第一变速语音信号,其中,第一变速语音信号对应于第一语速,第一语速与目标语速不一致,再根据第一变速语音信号获取第一语音特征信号,最后关键词检测装置通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果,其中,关键词检测结果用于表示待检测语音信号中是否存在目标关键词,若根据关键词检测结果确定存在目标关键词,则执行目标关键词所对应的操作。通过上述方式,在检测关键词之前需要对待检测语音信号进行信号增强处理以及变速处理,对语音信号进行增强可以有效地提升语音识别质量,进而对增强后的信号再进行变速处理,能够提升对快语速语音或者慢语速语音中关键词的检出率。

可选地,在上述图3对应的实施例的基础上,本发明实施例提供关键词的检测方法第一个可选实施例中,获取待检测语音信号的增强语音信号,可以包括:

获取待检测语音信号;

通过语音增强算法对待检测语音信号进行处理,得到增强语音信号。

本实施例中,由于在通信过程中语音受到来自周围环境以及传输媒介引入的噪声,使接收到的待检测语音信号并非纯净的原始语音信号,而是受噪声污染的带噪语音信号。这里的“噪音”定义为所需待检测语音信号之外的干扰信号。其中,干扰信号可以是窄带的、宽带的、白噪声的、有色噪声的、声学的、电学的、加性的或者乘性的,还可以是其它无关的语音。

根据与输入语音信号的关系,噪声可分为加性噪声和非加性噪声两类。对某些非加性噪声而言,可以通过一定的变换转换成加性噪声。语音处理中的加性噪声大体上可以分为周期性噪声、脉冲噪声、宽带噪声和同声道其他语音的干扰等。其中,周期性噪声主要来源于发动机等周期性运转的机械,电气干扰也会引起周期性噪声。特点是频谱上有许多离散的线谱。实际信号受多种因素的影响,线谱分量通常转变为窄带谱结构,而且通常这些窄带谱都是时变的,位置也不固定。必须采用自适应滤波的方法才能有效地区分这些噪声分量。脉冲噪声来源于爆炸、撞击、放电及突发性干扰等。特征是时间上的宽度很窄。在时域消除脉冲噪声过程如下:根据带噪语音信号幅度的平均值确定阈值。当信号超出这一阈值时判别为脉冲噪声。然后对信号进行适当的衰减,就可完全消除噪声分量,也可以使用内插方法将脉冲噪声在时域上进行平滑。宽带噪声来源很多,热噪声、气流噪声、各种随机噪声源以及量化噪声都可以视为宽带噪声。宽带噪声与语音信号在时域和频域上基本上重叠,只有在无话期间,噪声分量才单独存在。因此消除这种噪声比较困难。对于平稳的宽带噪声,通常可以认为是白色高斯噪声。干扰语音信号和待传语音信号同时在一个信道中传输所造成的语音干扰称为同声道语音干扰。区别有用语音和干扰语音的基本方法是利用它们的基音差别。考虑到一般情况下两种语音的基音不同,也不成整数倍,这样可以用梳状滤波器提取基音和各次谐波,再恢复出有用语音信号。传输噪声是传输系统的电路噪声。处理这种噪声可以采用同态处理的方法,把非加性噪声变换为加性噪声来处理。

针对待检测语音信号中的噪音,可以采用如下几种类型的语音增强算法对待检测语音信号进行处理,从而得到增强语音信号。可以理解的是,采用语音增强算法可以提高预处理的抗噪声能力,提高输入信号的信噪比。

第一种为基于谱减法的语音增强算法,谱减法是利用噪声的统计平稳性以及加性噪声与语音不相关的特点而提出的一种语音增强方法。此类语音增强方法将估计的对象放在短时谱幅度上。

第二种为自适应滤波法的语音增强算法,利用自适应滤波法在输入过程的统计特性未知或是输入过程的统计特性变化时,能够调整自己的参数,以满足某种最佳准则的要求。

第三种为基于统计的语音增强算法,统计方法较充分地利用语音和噪音的统计特性,一般要建立模型库,需要训练过程中获得初始统计参数,它与关键词检测系统的联系很密切。如短时对数谱的最小均方误差(minimummeansquarederror,mmse)的语音增强算法,可利用听觉掩蔽效应达到语音可懂度和清晰度的折中,适用信噪比的范围较广。

第四种为其他类型的语音增强算法,例如小波变换算法、卡亨南-洛维变换(karhunen-loévetransform,klt)算法、离散余弦变换(discretecosinetransform,dct)算法以及人工神经网络算法等。

其次,本发明实施例中,提供了一种获取增强语音信息的方法,即关键词检测装置获取待检测语音信号,然后关键词检测装置通过语音增强算法对待检测语音信号进行处理,得到增强语音信号。通过上述方式,能够利用语音增强算法实现语音增强,其中,语音增强是指当待检测语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,并且抑制和降低噪声干扰,由此可以从待检测语音信号中提取尽可能纯净的原始语音,从而提升目标关键词检测的准确率,因此,采用语音增强技术对待检测语音信号进行预处理,可有效地改善系统性能,提高系统的识别率和抗干扰能力。

可选地,在上述图3对应的第一个实施例的基础上,本发明实施例提供关键词的检测方法第二个可选实施例中,获取待检测语音信号,可以包括:

通过单个语音输入设备接收待检测语音信号;

通过语音增强算法对待检测语音信号进行处理,得到增强语音信号,可以包括:

通过回声消除算法、噪声消除算法以及混响消除算法中的至少一种,对待检测语音信号进行处理,得到增强语音信号,其中,回声消除算法用于对待检测语音信号中的回声信号进行消除处理,噪声消除算法用于对待检测语音信号中的稳态噪声和/或非稳态噪声进行抑制处理,混响消除算法用于对待检测语音信号中的混响进行消除处理。

本实施例中,基于图2所示的音频采集模块s1和语音增强模块s2一般具有比较强的耦合关系,比如针对单麦克风音频采集系统,一般需要采用不同的语音增强模块s2以达到最佳的语音增强效果。当采用单麦克风系统时,语音增强模块的一个实施例如图4所示,请参阅图4,图4为本发明实施例中对单麦克风信号进行语音增强的一个实施例示意图,如图所示,首先将单个语音输入设备接收的待检测语音信号输入至单路回声消除器a1中,其中,单个语音输入设备具体可以是单个麦克风。

单路回声消除器a1采用回声消除算法对待检测语音信号中的回声信号进行消除处理,具体地,回声消除算法包含但不仅限于递推最小二乘法(recursiveleastsquare,rls)以及最小均方算法(leastmeansquare,lms),单路回声消除器a1采用rls自适应滤波器或者lms自适应滤波器,对单个麦克风收到的回声信号进行自适应跟踪和滤除,以达到尽可能减小自身播放的声音对接收到的目标关键词语音的干扰。

噪声消除器a2包括采用维纳滤波(wienerfiltering)或者谱减法等算法对稳态噪声进行抑制,或者采用神经网络语音增强算法对稳态和非稳态噪声进行抑制,以减小环境噪声对目标关键词语音的干扰。维纳滤波一种基于最小均方误差准则,对平稳过程的最优估计器。这种滤波器的输出与期望输出之间的均方误差为最小,因此,它是一个最佳滤波系统,它可用于提取被平稳噪声所污染的信号。从连续的(或离散的)输入数据中滤除噪声和干扰以提取有用信息的过程称为滤波,这是信号处理中经常采用的主要方法之一,具有十分重要的应用价值,而相应的装置称为滤波器。根据滤波器的输出是否为输入的线性函数,可将它分为线性滤波器和非线性滤波器两种。维纳滤波器是一种线性滤波器。

混响消除器a3可以是基于倒谱域的房间冲激响应估计,然后进行自适应逆滤波去混响。大多数去混响的算法都是基于短时分析,不可避免地带来了截断效应,如果对混响语音进行逆滤波,则要求房间冲激响应满足最小相位。根据信号最小相位分解的原理,将接收到的含噪带混响的语音信号分解成最小相位部分和全通部分,对其中的最小相位部分进行复倒谱域的滤波处理,再与全通部分进行合成以实现混响的去除。所得到的增强语音信号被送到语音信号变速模块s3。

可以理解的是,单路回声消除器、噪声消除器以及混响消除器对待检测语音信号的处理顺序可以根据情况进行调整,比如,待检测语音信号先经过噪声消除器的处理,再经过混响消除器的处理,最后经过单路回声消除器的处理,图4所示的顺序仅为一个示意,并不应理解为对本发明的限定。

再次,本发明实施例中,介绍了一种对单个麦克风采集到的待检测语音信号进行语音增强的方法,即关键词检测装置首先通过单个语音输入设备接收待检测语音信号,然后通过回声消除算法、噪声消除算法以及混响消除算法中的至少一种,对待检测语音信号进行处理,得到增强语音信号。通过上述方式,可以采用回声消除算法、噪声消除算法以及混响消除算法中的至少一种实现单通道语音的增强,对单通道语音的增强处理较为简易,既能够采集到待检测语音信号,又能够高效地对待检测语音信号进行增强处理,从而提升方案的可行性和可操作性。

可选地,在上述图3对应的第一个实施例的基础上,本发明实施例提供关键词的检测方法第三个可选实施例中,获取待检测语音信号,可以包括:

通过多个语音输入设备接收待检测语音信号;

通过语音增强算法对待检测语音信号进行处理,得到增强语音信号,可以包括:

通过回声消除算法和/或混响消除算法,对待检测语音信号进行处理,得到第一待处理信号,其中,回声消除算法用于对待检测语音信号中的回声信号进行消除处理,混响消除算法用于对待检测语音信号中的混响进行消除处理,其中,第一待处理信号包括多路信号;

通过波束形成算法对第一待处理信号进行空间滤波处理,得到第二待处理信号,其中,第二待处理信号包括一路信号;

通过噪声消除算法对第二待处理信号中的稳态噪声和/或非稳态噪声进行抑制处理,得到增强语音信号。

本实施例中,基于图2所示的音频采集模块s1和语音增强模块s2一般具有比较强的耦合关系,比如针对多麦克风音频采集系统,一般需要采用不同的语音增强模块s2以达到最佳的语音增强效果。当采用多麦克风音频采集系统时,语音增强模块的一个实施例如图5所示,请参阅图5,图5为本发明实施例中对多麦克风信号进行语音增强的一个实施例示意图,如图所示,首先将多个语音输入设备接收的待检测语音信号输入至多路回声消除器b1中,其中,多个语音输入设备具体可以是多阵列麦克风。图5以4个麦克风的阵列为例,在实际应用中,麦克风阵列可以大于等于2个麦克风。

多路回声消除器b1采用回声消除算法对待检测语音信号中的回声信号进行消除处理,回声消除算法包含但不仅限于rls以及lms,具体地,多路回声消除器b1对输入的每一路麦克风信号分别进行回声消除,得到4路消除掉回声之后的语音信号,并送入到多路混响消除器b2中。

多路混响消除器b2采用加权预测误差(weightedpredictionerror,wpe)或者其他算法对每一路麦克风信号中的混响进行抑制,以减小房间中的混响对目标关键词语音的清晰度的干扰,从而得到第一待处理信号,第一待处理信号为多路语音信号。

消除回声和混响之后的4路第一待处理信号继续送到波束形成器b3中,波束形成器b3采用例如广义旁瓣相消(generalizedsidelobecancellation,gsc)或者最小方差无失真响应(minimumvariancedistortionlessresponse,mvdr)自适应波束形成器,对目标关键词语音进行空间滤波,以减小空间中来自其他方向的噪声对关键词语音的干扰,得到第二待处理信号,第二待处理信号有一路语音信号。麦克风阵列的技术在抑制一些具有方向性的干扰语音上应用较广。波束形成也就是这么来的。因为对期望方向的语音信号进行保留,抑制非期望方向的信号,其实就是在做语音信号的波束形成。对于麦克风阵列波束形成的研究主要可分成三类,分别为固定波束形成、自适应波束形成和后置滤波算法。

波束形成器b3输出一路目标方向的第二待处理信号,并送入到噪声消除器b4中,进一步抑制稳态噪声(例如空调或者冰箱的平稳噪声),最终得到增强语音信号。

可以理解的是,多路回声消除器以及多路混响消除器对待检测语音信号的处理顺序可以根据情况进行调整,比如,待检测语音信号先经过多路混响消除器的处理,再经过多路回声消除器,图5所示的顺序仅为一个示意,并不应理解为对本发明的限定。

再次,本发明实施例中,介绍了一种对多个麦克风采集到的待检测语音信号进行语音增强的方法,即关键词检测装置首先通过多个语音输入设备接收待检测语音信号,然后通过回声消除算法和/或混响消除算法,对待检测语音信号进行处理,得到第一待处理信号,再通过波束形成算法对第一待处理信号进行空间滤波处理,得到第二待处理信号,其中,第二待处理信号包括一路信号,最后关键词检测装置通过噪声消除算法对第二待处理信号中的稳态噪声和/或非稳态噪声进行抑制处理,得到增强语音信号。通过上述方式,可以实现对多阵列语音的增强,多阵列语音增强方法的优势在于考虑了声源的位置信息,可以实现空间滤波,所以对具有方向性的噪声具有较好的抑制效果,从而提升方案的可行性和可操作性。

可选地,在上述图3对应的实施例的基础上,本发明实施例提供关键词的检测方法第四个可选实施例中,对增强语音信号进行变速处理,得到第一变速语音信号,可以包括:

将增强语音信号写入至第一先进先出fifo缓存;

当达到第一fifo缓存的存储门限时,从第一fifo缓存中读取待处理增强语音信号,其中,待处理增强语音信号的时长小于或等于增强语音信号的时长;

对待处理语音信号进行变速处理,得到目标变速语音信号,其中,目标变速语音信号的时长小于或等于第一变速语音信号的时长;

将目标变速语音信号写入至第二fifo缓存;

根据第一变速语音信号获取第一语音特征信号,包括:

从第二fifo缓存中读取目标变速语音信号;

根据目标变速语音信号生成第一语音特征信号,其中,第一语音特征信号包括梅尔频率倒谱系数mfcc特征信号、滤波器组fbanks以及线性预测倒谱系数lpcc中的至少一种。

本实施例中,将介绍如何利用先进先出(firstinputfirstoutput,fifo)缓存对增强语音信号进行变速处理。即关键词检测装置在获取到增强语音信号之后,可以采用信号变采样、叠接相加法(overlap-add,ola)、同步叠接相加法(synchronousoverlap-add,sola)、时域基音同步叠接相加法(timedomainpitchsynchronousoverlap-add,td-psola)以及波形相似叠接相加法(waveformsimilarityover-lapadd,wsola)中的任一项对增强语音信号进行变速,从而得到第一变速语音信号。本发明将以采用wsola对增强语音信号进行变速为例进行介绍,应理解,这并不构成对本发明的限定。

如果对增强语音信号进行减速有利于检测出快语速语音中的目标关键词,则可以采用wsola算法可以将增强语音信号的语速变慢,然后再将第一变速语音信号送到特征提取器中以提取声学特征。为了便于理解,请参阅图6,图6为本发明实施例中对增强语音信号进行变速处理的一个流程示意图,如图所示,一个基于wsola的处理流程具体为:

步骤201中,首先将增强语音信号进行分帧处理,得到麦克风语音帧,例如每16毫秒长度为一个麦克风语音帧。可以理解的是,在实际应用中,也可以不对增强语音信号进行分帧处理,步骤201为一个可选的步骤。

若需要进行分帧,则应将不定长的音频切分成固定长度的小段,这一步称为分帧。一般取10毫秒至30毫秒为一帧,为了避免窗边界对信号的遗漏,因此对帧做偏移时候,要有帧迭(即帧与帧之间需要重叠一部分)。一般取帧长的一半作为帧移,也就是每次位移一帧的二分之一后再取下一帧,这样可以避免帧与帧之间的特性变化太大。通常的选择是25毫秒每帧,帧迭为10毫秒。接下来的操作是对单帧进行的,分帧往往是因为语音信号快速变化,而傅里叶变换适用于分析平稳的信号。因此,在语音识别中,一般把帧长取为10毫秒至30毫秒,这样一帧内既有足够多的周期,又不会变化太剧烈。每帧语音信号通常要与一个平滑的窗函数相乘,让帧两端平滑地衰减到零,这样可以降低傅里叶变换后旁瓣的强度,取得更高质量的频谱。帧和帧之间的时间差常常取为10毫秒,这样帧与帧之间会有重叠,否则,由于帧与帧连接处的信号会因为加窗而被弱化,这部分的信息就丢失了。傅里叶变换是逐帧进行的,为的是取得每一帧的频谱。

步骤202中,将增强语音信号写入至第一fifo缓存,该增强语音信号可以是分帧后语音信号,也可以是未分帧的语音信号,此处不做限定。将增强语音信号按时序存入到指定大小的一段输入至第一fifo缓存中。fifo存储器分为写入专用区和读取专用区,其中,第一fifo缓存即为写入专用区,因此第一fifo缓存也可称为输入fifo缓存。可以理解的是,读操作与写操作可以异步进行,写入专用区上写入的增强语音信号按照写入的顺序从读取专用区中读出。

步骤203中,实时判断第一fifo缓存中的增强语音信号是否达到变速算法所需要的最小语音长度,通常情况下,第一fifo缓存中可以存储200毫秒的增强语音信号,变速算法只要有100毫秒就可以执行,所以如果增强语音信号达到100毫秒,则进入步骤204,反之,则继续执行步骤202,即继续往第一fifo缓存中写入增强语音信号。在实际应用中,可以检测第一fifo缓存是否达到变速算法所需的最小语音长度,如果达到,则可以将这部分增强语音信号取出来进行后续处理。如果第一fifo缓存中还有剩余的增强语音信号,那么还可以等后续增强语音信号的输入,凑够100毫秒后进行下一次处理。

步骤204中,当第一fifo缓存测数据长度达到变速算法所需要的最小语音长度时,则开始对第一fifo缓存中的增强语音信号进行一次变速处理,并将变速之后的第一变速语音信号写入至第二fifo缓存。第二fifo缓存即为读取专用区。可以理解的是,一次变速处理的数据量大小即为变速算法所需要的最小语音长度,假设变速算法所需要的最小语音长度为100毫秒的增强语音信号,那么这100毫秒的增强语音信号即为待处理增强语音信号,可以理解的是,待处理增强语音信号的时长小于或等于增强语音信号的时长。于是可以对待处理语音信号进行变速处理,得到目标变速语音信号,其中,目标变速语音信号的时长小于或等于第一变速语音信号的时长,也就是说,目标变速语音信号是第一变速语音信号的一部分,当所有增强语音信号变速完成后,即可得到完整的第一变速语音信号。

步骤205中,从第二fifo缓存中读取目标变速语音信号,从目标变速语音信号提取声学特征,重复执行步骤202至步骤204,直到提取到第一变速语音信号中所有的特征信号,即得到第一语音特征信号,其中,第一语音特征信号包括梅尔频率倒谱系数mfcc特征信号、滤波器组fbanks以及线性预测倒谱系数lpcc中的至少一种。

可以理解的是,第一语音特征信号包括梅尔频率倒谱系数(melfrequencycepstralcoefficents,mfcc)特征信号、滤波器组(filterbanks,fbanks)以及线性预测倒谱系数(linearpredictioncepstrumcoefficient,lpcc)中的至少一种。其中,mfcc梅尔频率是基于人耳听觉特性提出来的,它与赫兹频率成非线性对应关系。mfcc则是利用它们之间的这种关系,计算得到的赫兹频谱特征。主要用于语音数据特征提取和降低运算维度。fbank特征提取要在预处理之后进行,这时语音信号已经分帧,我们需要逐帧提取fbank特征。fbank以类似于人耳的方式对语音信号进行处理,可以提高语音识别的性能。通常情况下,mfcc是在fbank的基础上进行的,所以mfcc的计算量更大,且fbank特征相关性较高,mfcc具有更好的判别度。lpcc是基于线性频标的,它在所有频率上都是线性的逼近语音,而这与人的听觉特性是不一致的,而且lpcc包含了语音高频部分的大部分噪音细节。

其次,本发明实施例中,介绍了一种对增强语音信号进行变速处理的流程,即关键词检测装置先将增强语音信号写入至第一fifo缓存,当达到第一fifo缓存的存储门限时,从第一fifo缓存中读取待处理增强语音信号,然后关键词检测装置对待处理语音信号进行变速处理,得到目标变速语音信号,再将目标变速语音信号写入至第二fifo缓存,关键词检测装置从第二fifo缓存中读取目标变速语音信号,最后可以根据目标变速语音信号生成第一语音特征信号。通过上述方式,利用fifo缓存对语音信号进行处理,能够保证语音信号的连贯性,采用fifo对连续的语音信号流进行缓存,可以防止在存储操作时丢失数据。此外,将语音信号集中起来进行处理和存储,可避免频繁的总线操作,减轻处理器的负担。

可选地,在上述图3对应的第四个实施例的基础上,本发明实施例提供关键词的检测方法第五个可选实施例中,对待处理语音信号进行变速处理,得到目标变速语音信号,可以包括:

根据待处理语音信号、第一样本数以及分析帧步长确定第一语音帧;

根据第一语音帧、第一样本数以及合成步长,计算得到自然连续语音帧;

根据待处理语音信号以及分析帧步长确定第二语音帧;

根据第二语音帧以及自然连续语音帧,获取第二样本数;

根据待处理语音信号、第二样本数以及以及分析帧步长,确定待匹配语音帧;

根据第一语音帧以及待匹配语音帧确定目标变速语音信号。

本实施例中,将介绍对待处理语音信号进行变速处理的方式,其中,变速处理的实现方式为分帧迭代计算,为了便于介绍,下面将结合附图对变速处理的方式进行说明。请参阅图7a,图7a为本发明实施例中基于波形相似叠接相加法进行变速处理的一个实施例示意图,如图所示,x(n)表示输入的待处理语音信号,δk表示第一样本数,即为需要对第k帧计算的左右移动样本数,且左右移动不超过δmax,即δk∈[-δmax:δmax]。ha表示分析帧步长,即预先设定的输入语音帧,其中,ha取值越大表示语速越加快,ha取值越小表示语速越减慢,xk(n)表示第一语音帧,y(n)表示输出的语音信号,yk(n)表示第一语音帧对应的输出语音帧,输入的待处理语音信号中第k帧长度为n的语音帧为:

xk(n)=x(n+kha+δk),n∈[-n/2:n/2-1];

例如,n=32,ha=128,δk=0;

假设k=5,则,x5(n)=(5×128-16:5×128+15);

假设k=6,则,x6(n)=(6×128-16:6×128+15);

对该第一语音帧加一个三角窗之后得到一个输出语音帧:

yk(n)=w(n)xk(n),n∈[-n/2:n/2-1];

其中,w(n)为一个长度为n的三角窗,也可以选择汉宁窗等其它形式的窗函数。

请参阅图7b,图7b为本发明实施例中基于波形相似叠接相加法进行变速处理的一个实施例示意图,如图所示,hs表示合成步长,表示自然连续语音帧,自然连续语音帧的计算方式为:

例如,n=32,ha=128,δk=0,hs=20;

假设k=5,则,

根据待处理语音信号以及分析帧步长确定第二语音帧,xk+1(n)表示第二语音帧,即:

xk+1(n)=x(n+(k+1)ha),n∈[-n/2:n/2-1];

请参阅图7c,图7c为本发明实施例中基于波形相似叠接相加法进行变速处理的一个实施例示意图,如图所示,如果要将两个语音帧进行叠加,需要令这两个语音帧最为相似,也就是说,所求的第二样本数δk+1能够使得自然连续语音帧与xk+1(n+δk+1)最为相似。请参阅图7d,图7d为本发明实施例中基于波形相似叠接相加法进行变速处理的一个实施例示意图,如图所示,计算得到第二样本数δk+1之后。可以根据待处理语音信号、第二样本数以及以及分析帧步长,确定待匹配语音帧,xk+1(n+δk+1)表示待匹配语音帧,即:

xk+1(n+δk+1)=x(n+(k+1)ha+δk+1),n∈[-n/2:n/2-1];

最后,输出待匹配语音帧,并将第一语音帧以及待匹配语音帧进行合成,得到目标变速语音信号,y(n)表示进行位移叠加之后得到的目标变速语音信号,即:

其中,khs为移位长度,需要说明的是,上面提到的δk+1需要对每一帧输入都进行计算,即进行迭代计算,此处以一次计算为例进行介绍,不再赘述。

再次,本发明实施例中,介绍了一种利用wsola对语音信号进行减速处理的方法,即先根据待处理语音信号、第一样本数以及分析帧步长确定第一语音帧,然后根据第一语音帧、第一样本数以及合成步长,计算得到自然连续语音帧,再根据待处理语音信号以及分析帧步长确定第二语音帧,根据第二语音帧以及自然连续语音帧,获取第二样本数,然后根据待处理语音信号、第二样本数以及以及分析帧步长,确定第二语音帧,最后根据第一语音帧以及第二语音帧确定目标变速语音信号。通过上述方式,对输入的语音信号分解成语音帧后不直接叠加,而是在一定的范围内查找待叠加的语音帧,该语音帧要符合与原位置处语音帧波形最相似的条件,从而得到失真度较低的合成语音帧。

可选地,在上述图3对应的第五个实施例的基础上,本发明实施例提供关键词的检测方法第六个可选实施例中,根据第二语音帧以及自然连续语音帧,获取第二样本数,可以包括:

采用如下方式计算第二样本数:

其中,δk+1表示第二样本数,ca(k,δk+1)表示两个语音帧的最小互平均幅度差分函数系数,k表示第k个语音帧,δ表示样本数,表示自然连续语音,δmax表示可移动的最大样本数,xk+1(n+δk+1)表示待匹配的第二语音帧,argmin表示ca(k,δk+1)取最小值时的变量值,n为大于或等于1,且小于或等于n的整数。

本实施例中,将具体说明如何计算得到最相似的两个语音帧。计算两个语音帧最相似的方式可以是,计算具有最小归一化互相关系数,或者计算具有最小互平均幅度差分函数(crossaveragemagnitudedifferencefunction,cross-amdf)系数的δk+1。

以计算两个语音帧的最小cross-amdf为例,即:

然后,根据最小cross-amdf所得到的δk+1为:

由此,得到第二样本数δk+1。

进一步地,本发明实施例中,提供了一种根据第二语音帧以及自然连续语音帧,获取第二样本数的具体方式,即采用最小互平均幅度差分函数系数可以得到最相似的两帧语音帧。通过上述方式,将最相似的两帧语音帧合成为一帧,不但可以降低原本的语速,还能够减少失真度,从而提升方案的可行性和可操作性。

可选地,在上述图3对应的实施例的基础上,本发明实施例提供关键词的检测方法第七个可选实施例中,通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果之后,还可以包括:

若关键词检测结果为第一字符,则根据第一字符确定待检测语音信号中存在目标关键词;

若关键词检测结果为第二字符,则根据第二字符确定待检测语音信号中不存在目标关键词。

本实施例中,在将第一语音特征信号输入至关键词检测模型之后,可以通过该关键词检测模型输出关键词检测结果,其中,关键词检测结果可以为二元符号,假设关键词检测结果为第一字符(比如1),则表示待检测语音信号中存在目标关键词。假设关键词检测结果为第二字符(比如0),则表示待检测语音信号中不存在目标关键词。

可以理解的是,关键词检测模型可以是传统的隐马尔科夫模型,还可以包含以下一种或者多种神经网络模型,前馈神经网络(feedforwardneuralnetworks,ffnn)、径向神经网络(radialbasisfunction,rbf)、霍普菲尔网络(hopfieldnetwork,hn)、马尔可夫链(markovchain,mc)、玻尔兹曼机(boltzmannmachines,bm)、受限玻尔兹曼机(restrictedboltzmannmachines,rbm)、自编码机(autoencoders,ae)、稀疏自编码机(sparseautoencoders,sae)、深度神经网络算法(deepneuralnetwork,dnn)、变分自编码机(variationalautoencoders,vae)、去噪自编码机(denoisingautoencoders,dae)、深度信念网络(deepbeliefnetworks,dbn)、卷积神经网络(convolutionalneuralnetworks,cnn)、解卷积网络(deconvolutionalnetworks,dn)、深度卷积逆向图网络(deepconvolutionalinversegraphicsnetworks,dcign)、生成式对抗网络(generativeadversarialnetworks,gan)、循环神经网络(recurrentneuralnetworks,rnn)、长短期记忆(longshorttermmemory,lstm)、门循环单元(gatedrecurrentunits,gru)、深度残差网络(deepresidualnetworks,drn)、神经图灵机(neuralturingmachines,ntm)、回声状态网络(echostatenetworks,esn)、极限学习机(extremelearningmachines,elm)、液态机(liquidstatemachines,lsm)以及支持向量机(supportvectormachines,svm)。

其次,本发明实施例中,介绍了一种确定关键词检测结果的方法,即通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果之后,若关键词检测结果为第一字符,则根据第一字符确定待检测语音信号中存在目标关键词,若关键词检测结果为第二字符,则根据第二字符确定待检测语音信号中不存在目标关键词。通过上述方式,由关键词检测模型直接输出二元符号,二元符号可以直接表示出是否具有目标关键词的结果,更为直观,从而提升了检测的效率。

可选地,在上述图3对应的实施例的基础上,本发明实施例提供关键词的检测方法第八个可选实施例中,通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果之后,还可以包括:

根据关键词检测结果确定目标概率值;

若目标概率值大于或等于关键词概率阈值,则确定待检测语音信号中存在目标关键词;

若目标概率值小于关键词概率阈值,则确定待检测语音信号中不存在目标关键词。

本实施例中,在将第一语音特征信号输入至关键词检测模型之后,可以通过该关键词检测模型输出关键词检测结果,其中,关键词检测结果可以是目标概率值,比如0.6或者0.8,通常情况下,概率值越大表示检测到目标关键词的概率越大。因此,可以根据目标概率值确定是否包含目标关键词,如果目标概率值大于或等于关键词概率阈值,则确定待检测语音信号中存在目标关键词。反之,如果目标概率值小于关键词概率阈值,则确定待检测语音信号中不存在目标关键词。

可以理解的是,关键词检测模型可以是传统的隐马尔科夫模型,还可以包含以下一种或者多种神经网络模型,ffnn、rbf、hn、mc、bm、rbm、ae、sae、dnn、vae、dae、dbn、cnn、dn、cign、gan、rnn、lstm、gru、drn、ntm、esn、elm、lsm以及svm。

其次,本发明实施例中,介绍了另一种确定关键词检测结果的方法,即通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果之后,根据关键词检测结果确定目标概率值,若目标概率值大于或等于关键词概率阈值,则确定待检测语音信号中存在目标关键词,若目标概率值小于关键词概率阈值,则确定待检测语音信号中不存在目标关键词。通过上述方式,由关键词检测模型输出可能具有目标关键词的概率,根据概率的大小来确定最终的结果,这样的话更有利于提升检测的准确率。

可选地,在上述图3以及图3对应的第一至第八个实施例中任一项的基础上,本发明实施例提供关键词的检测方法第九个可选实施例中,获取待检测语音信号的增强语音信号之后,还可以包括:

根据增强语音信号获取第二语音特征信号,其中,第二语音特征信号对应于第二语速,第二语速与目标语速一致;

通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果,包括:

通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果;

或,

通过关键词检测模型获取第二语音特征信号所对应的关键词检测结果;

或,

通过关键词检测模型获取第一语音特征信号以及第二语音特征信号所对应的关键词检测结果。

本实施例中,将介绍一种同时包含变速处理以及不变速处理的关键词检测方法。为了便于介绍,请参阅图8,图8为本发明实施例中基于两路语音信号进行关键词检测的一个实施例示意图,如图所示,首先由音频采集模块c1采集待检测语音信号,然后由语音增强模块c2对待检测语音信号进行增强处理,得到增强语音信号。接下来将分成两路语音信号分别进行处理。其中,第一路为不对增强后的语音信号进行变速处理,即语音增强模块c2将增强语音信号输入至1号声学特征提取模块c3,由此输出第二语音特征信号,其中,第二语音特征信号对应于第二语速,第二语速与目标语速一致,即不对第二语音特征信号的语速进行处理。在通过1号关键词检测模块c4对第二语音特征信号进行关键词检测。

第二路为语音信号变速模块c5对增强后的语音信号进行变速处理(可以是加速处理,也可以是减速处理),即语音增强模块c2将增强语音信号输入至语音信号变速模块c5,语音信号变速模块c5对增强语音信号进行变速处理,得到第一变速语音信号,第一变速语音信号对应于第一语速,第一语速与目标语速不一致(可以是快于目标语速,或者可以是慢于目标语速)。通过2号声学特征提取模块c6从第一变速语音信号中提取第一语音特征信号,采用2号关键词检测模块c7对第一语音特征信号进行关键词检测。当快语速关键词在正常语速的情况下没有被检测出来的话,另外一路减慢语速之后则有可能被检测出来。

可以理解的是,在实际应用中,为了节省检测时间,进一步提升检测效率,检测结果判决模块c8会实时对1号关键词检测模块c4和2号关键词检测模块c7的输出结果进行监测,当1号关键词检测模块c4或者2号关键词检测模块c7中有一个模块检测到关键词时,则声明检测到了目标关键词,并重置整个系统,而不必等待另一个关键词检测模块也检测到目标关键词。

其次,本发明实施例中,介绍了一种对两路语音信号进行处理的方式。即关键词检测装置获取待检测语音信号的增强语音信号之后,可以根据增强语音信号获取第二语音特征信号,然后通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果,或者通过关键词检测模型获取第二语音特征信号所对应的关键词检测结果,又或者通过关键词检测模型获取第一语音特征信号以及第二语音特征信号所对应的关键词检测结果。通过上述方式,可以同时对变速和不变速的两路增强语音信号提取特征,然后同时检测这两路信号中是否有关键词。当至少一路语音信号被检测出有目标关键词时,就可以判定具有目标关键词,一方面可以提升检测的准确率,另一方面还可以提升检测效率。

可选地,在上述图3对应的第九个实施例的基础上,本发明实施例提供关键词的检测方法第十个可选实施例中,获取待检测语音信号的增强语音信号之后,还可以包括:

判断当前是否处于回声信号消除状态;

若当前处于回声信号消除状态,则执行根据增强语音信号获取第二语音特征信号的步骤,并执行通过关键词检测模型获取第二语音特征信号所对应的关键词检测结果的步骤;

若当前未处于回声信号消除状态,则执行根据第一变速语音信号获取第一语音特征信号的步骤,并且执行根据增强语音信号获取第二语音特征信号的步骤。

本实施例中,在同时处理多路语音信号的情况下,处理器的计算量会有所增加,为了减少特定场景下算法的计算量,提出了一种可切换语音信号处理模式的方法。为了便于介绍,请参阅图9,图9为本发明实施例中控制多路语音信号检测关键词的一个实施例示意图,如图所示,图9在图8的基础上又增加了一种变速通路开关模块d5,变速通路开关模块d5用于在特定的场景下关闭变速通路。

具体地,当语音增强模块d2中正在进行单路或多路回声消除时,则可以断开变速通路,即语音增强模块d2获取到增强语音信号之后,需要判断当前是否处于回声信号消除状态,如果当前处于回声信号消除状态,则检测结果判决模块d9只根据1号关键词检测模块d4的检测结果来判断是否检测到目标关键词。也就是说,语音增强模块d2将增强语音信号输入至1号声学特征提取模块d3,由此输出第二语音特征信号,其中,第二语音特征信号对应于第二语速,第二语速与目标语速一致,即不对第二语音特征信号的语速进行处理。在通过1号关键词检测模块d4对第二语音特征信号进行关键词检测。

当语音增强模块d2未进行单路或多路回声消除时,才同时监测常速通路和变速通路的结果。即语音增强模块d2获取到增强语音信号之后,需要判断当前是否处于回声信号消除状态,如果当前未处于回声信号消除状态,则检测结果判决模块d9可以根据1号关键词检测模块d4的检测结果和/或2号关键词检测模块d8的检测结果共同判断是否检测到目标关键词。也就是说,一路语音信号处理流程为,语音增强模块d2将增强语音信号输入至1号声学特征提取模块d3,由此输出第二语音特征信号,其中,第二语音特征信号对应于第二语速,第二语速与目标语速一致,即不对第二语音特征信号的语速进行处理。在通过1号关键词检测模块d4对第二语音特征信号进行关键词检测。另一路语音信号处理流程为,语音信号变速模块d6对增强后的语音信号进行变速处理(可以是加速处理,也可以是减速处理),即语音增强模块d2将增强语音信号输入至语音信号变速模块d6,语音信号变速模块d6对增强语音信号进行变速处理,得到第一变速语音信号,第一变速语音信号对应于第一语速,第一语速与目标语速不一致(可以是快于目标语速,或者可以是慢于目标语速)。通过2号声学特征提取模块d7从第一变速语音信号中提取第一语音特征信号,采用2号关键词检测模块d8对第一语音特征信号进行关键词检测。当快语速关键词在正常语速的情况下没有被检测出来的话,另外一路减慢语速之后则有可能被检测出来。

需要说明的是,一种特定场景可以是,例如在智能音箱中,当音箱在播放音乐时,喇叭的回声会被麦克风采集到进而干扰麦克风采集的语音,这时语音增强模块中的回声消除模块需要打开以消除回声,从而导致处理器的负荷增加,此时可以通过变速通路开关模块关闭变速通路以节省计算量。

再次,本发明实施例中,提供了一种切换语速处理模式的方式,即关键词检测装置获取待检测语音信号的增强语音信号之后,还可以判断当前是否处于回声信号消除状态,若当前处于回声信号消除状态,则执行两路信号同时检测目标关键词的流程,反之,若当前未处于回声信号消除状态,则不进行变速处理,而是直接对当前收到的语音信号进行检测即可。通过上述方式,可以在特定场景下关闭语速变速处理的模式,当回声被麦克风采集到进而干扰麦克风采集的语音时,需要优先消除回声,因此会导致处理器的工作负荷增加,这时关闭语音信号变速处理的模式可以有效地节省处理器的计算量。

可选地,在上述图3以及图3对应的第一至第八个实施例中任一项的基础上,本发明实施例提供关键词的检测方法第十一个可选实施例中,获取待检测语音信号的增强语音信号之后,还可以包括:

根据增强语音信号获取第二语音特征信号,其中,第二语音特征信号对应于第二语速,第二语速与目标语速一致;

对增强语音信号进行变速处理,得到第二变速语音信号,其中,第二变速语音信号对应于第三语速,第三语速大于目标语速,且第三语速大于第一语速,第一语速小于目标语速;

根据第二变速语音信号获取第三语音特征信号;

通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果,可以包括:

通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果;

或,

通过关键词检测模型获取第二语音特征信号所对应的关键词检测结果;

或,

通过关键词检测模型获取第三语音特征信号所对应的关键词检测结果;

或,

通过关键词检测模型获取第一语音特征信号、第二语音特征信号以及第三语音特征信号所对应的关键词检测结果。

本实施例中,将介绍一种同时包含语速加快处理、语速减慢处理以及语速不变速处理的关键词检测方法。为了便于介绍,请参阅图10,图10为本发明实施例中基于三路语音信号进行关键词检测的一个实施例示意图,如图所示,首先由音频采集模块e1采集待检测语音信号,然后由语音增强模块e2对待检测语音信号进行增强处理,得到增强语音信号。接下来将分成三路语音信号分别进行处理。其中,第一路为不对增强后的语音信号进行变速处理,即语音增强模块e2将增强语音信号输入至1号声学特征提取模块e3,由此输出第二语音特征信号,其中,第二语音特征信号对应于第二语速,第二语速与目标语速一致,即不对第二语音特征信号的语速进行处理。在通过1号关键词检测模块e4对第二语音特征信号进行关键词检测。

第二路为语音信号变速模块e5对增强后的语音信号进行加速处理,即语音增强模块e2将增强语音信号输入至1号语音信号变速模块e5,1号语音信号变速模块e5对增强语音信号进行加速处理,得到第一变速语音信号,第一变速语音信号对应于第一语速,第一语速慢于目标语速。通过2号声学特征提取模块e6从第一变速语音信号中提取第一语音特征信号,采用2号关键词检测模块e7对第一语音特征信号进行关键词检测。

第三路为语音信号变速模块e8对增强后的语音信号进行减速处理,即语音增强模块e8将增强语音信号输入至2号语音信号变速模块e8,2号语音信号变速模块e8对增强语音信号进行加速处理,得到第二变速语音信号,第二变速语音信号对应于第三语速,第三语速快于目标语速。通过3号声学特征提取模块e9从第二变速语音信号中提取第三语音特征信号,采用3号关键词检测模块e10对第三语音特征信号进行关键词检测。

可以理解的是,在实际应用中,为了节省检测时间,进一步提升检测效率,检测结果判决模块e11会实时对1号关键词检测模块c4、2号关键词检测模块c7和3号关键词检测模块c10的输出结果进行监测,当1号关键词检测模块c4、2号关键词检测模块c7和3号关键词检测模块c10中有一个模块检测到关键词时,则声明检测到了目标关键词,并重置整个系统,而不必等待另一个关键词检测模块也检测到目标关键词。

再次,本发明实施例中,介绍了一种对三路语音信号进行处理的方式。即关键词检测装置根据增强语音信号获取第二语音特征信号,并且对增强语音信号进行变速处理,得到第二变速语音信号,然后关键词检测装置通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果,或者通过关键词检测模型获取第二语音特征信号所对应的关键词检测结果,或者通过关键词检测模型获取第三语音特征信号所对应的关键词检测结果,又或者通过关键词检测模型获取第一语音特征信号、第二语音特征信号以及第三语音特征信号所对应的关键词检测结果。通过上述方式,可以同时对变快、变慢和不变速的三路增强语音信号提取特征,然后同时检测这三路信号中是否有关键词。当至少一路语音信号被检测出有目标关键词时,就可以判定具有目标关键词,一方面可以更大程度上提升检测的准确率,另一方面还可以更大程度上提升检测效率。

下面对本发明中的关键词检测装置进行详细描述,请参阅图11,图11为本发明实施例中关键词检测装置一个实施例示意图,关键词检测装置30包括:

获取模块301,用于获取待检测语音信号的增强语音信号,其中,所述增强语音信号对应于目标语速;

变速模块302,用于对所述获取模块获取的所述增强语音信号进行变速处理,得到第一变速语音信号,其中,所述第一变速语音信号对应于第一语速,所述第一语速与所述目标语速不一致;

所述获取模块301,还用于根据所述变速模块变速后得到的所述第一变速语音信号获取第一语音特征信号;

所述获取模块301,还用于通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果,其中,所述关键词检测结果用于表示所述待检测语音信号中是否存在目标关键词;

执行模块303,用于若根据所述获取模块301获取的所述关键词检测结果确定存在所述目标关键词,则执行所述目标关键词所对应的操作。

本实施例中,获取模块301获取待检测语音信号的增强语音信号,其中,所述增强语音信号对应于目标语速,变速模块302对所述获取模块获取的所述增强语音信号进行变速处理,得到第一变速语音信号,其中,所述第一变速语音信号对应于第一语速,所述第一语速与所述目标语速不一致,所述获取模块301根据所述变速模块变速后得到的所述第一变速语音信号获取第一语音特征信号,所述获取模块301通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果,其中,所述关键词检测结果用于表示所述待检测语音信号中是否存在目标关键词,若根据所述获取模块301获取的所述关键词检测结果确定存在所述目标关键词,则执行模块303执行所述目标关键词所对应的操作。

本发明实施例中,提供了一种关键词检测装置,该关键词检测装置获取待检测语音信号的增强语音信号,其中,增强语音信号对应于目标语速,然后关键词检测装置对增强语音信号进行变速处理,得到第一变速语音信号,其中,第一变速语音信号对应于第一语速,第一语速与目标语速不一致,再根据第一变速语音信号获取第一语音特征信号,最后关键词检测装置通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果,其中,关键词检测结果用于表示待检测语音信号中是否存在目标关键词。通过上述方式,在检测关键词之前需要对待检测语音信号进行信号增强处理以及变速处理,对语音信号进行增强可以有效地提升语音识别质量,进而对增强后的信号再进行变速处理,能够提升对快语速语音或者慢语速语音中关键词的检出率。

可选地,在上述图11所对应的实施例的基础上,本发明实施例提供的关键词检测装置30的另一实施例中,

所述获取模块301,具体用于获取所述待检测语音信号;

通过语音增强算法对所述待检测语音信号进行处理,得到所述增强语音信号。

其次,本发明实施例中,提供了一种获取增强语音信息的方法关键词检测装置,即获取待检测语音信号,然后关键词检测装置通过语音增强算法对待检测语音信号进行处理,得到增强语音信号。通过上述方式,能够利用语音增强算法实现语音增强,其中,语音增强是指当待检测语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,并且抑制和降低噪声干扰,由此可以从待检测语音信号中提取尽可能纯净的原始语音,从而提升目标关键词检测的准确率,因此,采用语音增强技术对待检测语音信号进行预处理,可有效地改善系统性能,提高系统的识别率和抗干扰能力。

可选地,在上述图11所对应的实施例的基础上,本发明实施例提供的关键词检测装置30的另一实施例中,

所述获取模块301,具体用于通过单个语音输入设备接收所述待检测语音信号;

通过回声消除算法、噪声消除算法以及混响消除算法中的至少一种,对所述待检测语音信号进行处理,得到所述增强语音信号,其中,所述所述回声消除算法用于对所述待检测语音信号中的回声信号进行消除处理,所述噪声消除算法用于对所述待检测语音信号中的稳态噪声和/或非稳态噪声进行抑制处理,所述混响消除算法用于对所述待检测语音信号中的混响进行消除处理。

再次,本发明实施例中,介绍了一种对单个麦克风采集到的待检测语音信号进行语音增强的关键词检测装置,即关键词检测装置首先通过单个语音输入设备接收待检测语音信号,然后通过回声消除算法、噪声消除算法以及混响消除算法中的至少一种,对待检测语音信号进行处理,得到增强语音信号。通过上述方式,可以采用回声消除算法、噪声消除算法以及混响消除算法中的至少一种实现单通道语音的增强,对单通道语音的增强处理较为简易,既能够采集到待检测语音信号,又能够高效地对待检测语音信号进行增强处理,从而提升方案的可行性和可操作性。

可选地,在上述图11所对应的实施例的基础上,本发明实施例提供的关键词检测装置30的另一实施例中,

所述获取模块301,具体用于通过多个语音输入设备接收所述待检测语音信号;

通过回声消除算法和/或混响消除算法,对所述待检测语音信号进行处理,得到第一待处理信号,其中,所述回声消除算法用于对所述待检测语音信号中的回声信号进行消除处理,所述混响消除算法用于对所述待检测语音信号中的混响进行消除处理,其中,所述第一待处理信号包括多路信号;

通过波束形成算法对所述第一待处理信号进行空间滤波处理,得到第二待处理信号,其中,所述第二待处理信号包括一路信号;

通过噪声消除算法对所述第二待处理信号中的稳态噪声和/或非稳态噪声进行抑制处理,得到所述增强语音信号。

再次,本发明实施例中,介绍了一种对多个麦克风采集到的待检测语音信号进行语音增强的关键词检测装置,即关键词检测装置首先通过多个语音输入设备接收待检测语音信号,然后通过回声消除算法和/或混响消除算法,对待检测语音信号进行处理,得到第一待处理信号,再通过波束形成算法对第一待处理信号进行空间滤波处理,得到第二待处理信号,其中,第二待处理信号包括一路信号,最后关键词检测装置通过噪声消除算法对第二待处理信号中的稳态噪声和/或非稳态噪声进行抑制处理,得到增强语音信号。通过上述方式,可以实现对多阵列语音的增强,多阵列语音增强方法的优势在于考虑了声源的位置信息,可以实现空间滤波,所以对具有方向性的噪声具有较好的抑制效果,从而提升方案的可行性和可操作性。

可选地,在上述图11所对应的实施例的基础上,本发明实施例提供的关键词检测装置30的另一实施例中,

所述变速模块302,具体用于将所述增强语音信号写入至第一先进先出fifo缓存;

当达到所述第一fifo缓存的存储门限时,从所述第一fifo缓存中读取待处理增强语音信号,其中,所述待处理增强语音信号的时长小于或等于所述增强语音信号的时长;

对所述待处理语音信号进行变速处理,得到目标变速语音信号,其中,所述目标变速语音信号的时长小于或等于所述第一变速语音信号的时长;

将所述目标变速语音信号写入至第二fifo缓存;

所述获取模块301,具体用于从所述第二fifo缓存中读取所述目标变速语音信号;

根据所述目标变速语音信号生成所述第一语音特征信号,其中,所述第一语音特征信号包括梅尔频率倒谱系数mfcc特征信号、滤波器组fbanks以及线性预测倒谱系数lpcc中的至少一种。

其次,本发明实施例中,介绍了一种对增强语音信号进行变速处理的关键词检测装置,即关键词检测装置先将增强语音信号写入至第一fifo缓存,当达到第一fifo缓存的存储门限时,从第一fifo缓存中读取待处理增强语音信号,然后关键词检测装置对待处理语音信号进行变速处理,得到目标变速语音信号,再将目标变速语音信号写入至第二fifo缓存,关键词检测装置从第二fifo缓存中读取目标变速语音信号,最后可以根据目标变速语音信号生成第一语音特征信号。通过上述方式,利用fifo缓存对语音信号进行处理,能够保证语音信号的连贯性,采用fifo对连续的语音信号流进行缓存,可以防止在存储操作时丢失数据。此外,将语音信号集中起来进行处理和存储,可避免频繁的总线操作,减轻处理器的负担。

可选地,在上述图11所对应的实施例的基础上,本发明实施例提供的关键词检测装置30的另一实施例中,

所述变速模块302,具体用于根据所述待处理语音信号、第一样本数以及分析帧步长确定第一语音帧;

根据所述第一语音帧、所述第一样本数以及合成步长,计算得到自然连续语音帧;

根据所述待处理语音信号以及所述分析帧步长确定第二语音帧;

根据所述第二语音帧以及所述自然连续语音帧,获取第二样本数;

根据所述待处理语音信号、所述第二样本数以及以及分析帧步长,确定待匹配语音帧;

根据所述第一语音帧以及所述待匹配语音帧确定所述目标变速语音信号。

再次,本发明实施例中,介绍了一种利用wsola对语音信号进行减速处理的关键词检测装置,即先根据待处理语音信号、第一样本数以及分析帧步长确定第一语音帧,然后根据第一语音帧、第一样本数以及合成步长,计算得到自然连续语音帧,再根据待处理语音信号以及分析帧步长确定第二语音帧,根据第二语音帧以及自然连续语音帧,获取第二样本数,然后根据待处理语音信号、第二样本数以及以及分析帧步长,确定第二语音帧,最后根据第一语音帧以及第二语音帧确定目标变速语音信号。通过上述方式,对输入的语音信号分解成语音帧后不直接叠加,而是在一定的范围内查找待叠加的语音帧,该语音帧要符合与原位置处语音帧波形最相似的条件,从而得到失真度较低的合成语音帧。

可选地,在上述图11所对应的实施例的基础上,本发明实施例提供的关键词检测装置30的另一实施例中,

所述变速模块302,具体用于采用如下方式计算所述第二样本数:

其中,所述δk+1表示所述第二样本数,所述ca(k,δk+1)表示两个语音帧的最小互平均幅度差分函数系数,所述k表示第k个语音帧,所述δ表示样本数,所述表示所述自然连续语音,所述δmax表示可移动的最大样本数,所述xk+1(n+δk+1)表示待匹配的所述第二语音帧,所述argmin表示所述ca(k,δk+1)取最小值时的变量值,所述n为大于或等于1,且小于或等于所述n的整数。

进一步地,本发明实施例中,提供了一种根据第二语音帧以及自然连续语音帧,获取第二样本数的具体方式,即采用最小互平均幅度差分函数系数可以得到最相似的两帧语音帧。通过上述方式,将最相似的两帧语音帧合成为一帧,不但可以降低原本的语速,还能够减少失真度,从而提升方案的可行性和可操作性。

可选地,在上述图11所对应的实施例的基础上,请参阅图12,本发明实施例提供的关键词检测装置30的另一实施例中,所述关键词检测装置30还包括确定模块304;

所述确定模块304,用于所述获取模块301通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果之后,若所述关键词检测结果为第一字符,则根据所述第一字符确定所述待检测语音信号中存在所述目标关键词;

所述确定模块303,还用于所述获取模块301通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果之后,若所述关键词检测结果为第二字符,则根据所述第二字符确定所述待检测语音信号中不存在所述目标关键词。

其次,本发明实施例中,介绍了一种确定关键词检测结果的关键词检测装置,即通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果之后,若关键词检测结果为第一字符,则根据第一字符确定待检测语音信号中存在目标关键词,若关键词检测结果为第二字符,则根据第二字符确定待检测语音信号中不存在目标关键词。通过上述方式,由关键词检测模型直接输出二元符号,二元符号可以直接表示出是否具有目标关键词的结果,更为直观,从而提升了检测的效率。

可选地,在上述图12所对应的实施例的基础上,本发明实施例提供的关键词检测装置30的另一实施例中,所述关键词检测装置30还包括确定模块304;

所述确定模块304,用于所述获取模块301通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果之后,根据所述关键词检测结果确定目标概率值;

所述确定模块304,还用于若所述目标概率值大于或等于关键词概率阈值,则确定所述待检测语音信号中存在所述目标关键词;

所述确定模块304,还用于若所述目标概率值小于所述关键词概率阈值,则确定所述待检测语音信号中不存在所述目标关键词。

其次,本发明实施例中,介绍了另一种确定关键词检测结果的关键词检测装置,即通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果之后,根据关键词检测结果确定目标概率值,若目标概率值大于或等于关键词概率阈值,则确定待检测语音信号中存在目标关键词,若目标概率值小于关键词概率阈值,则确定待检测语音信号中不存在目标关键词。通过上述方式,由关键词检测模型输出可能具有目标关键词的概率,根据概率的大小来确定最终的结果,这样的话更有利于提升检测的准确率。

可选地,在上述图11或图12所对应的实施例的基础上,本发明实施例提供的关键词检测装置30的另一实施例中,

所述获取模块301,还用于获取待检测语音信号的增强语音信号之后,根据所述增强语音信号获取第二语音特征信号,其中,所述第二语音特征信号对应于第二语速,所述第二语速与所述目标语速一致;

所述获取模块301,具体用于通过所述关键词检测模型获取所述第一语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第二语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第一语音特征信号以及所述第二语音特征信号所对应的关键词检测结果。

其次,本发明实施例中,介绍了一种对两路语音信号进行处理的关键词检测装置。即关键词检测装置获取待检测语音信号的增强语音信号之后,可以根据增强语音信号获取第二语音特征信号,然后通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果,或者通过关键词检测模型获取第二语音特征信号所对应的关键词检测结果,又或者通过关键词检测模型获取第一语音特征信号以及第二语音特征信号所对应的关键词检测结果。通过上述方式,可以同时对变速和不变速的两路增强语音信号提取特征,然后同时检测这两路信号中是否有关键词。当至少一路语音信号被检测出有目标关键词时,就可以判定具有目标关键词,一方面可以提升检测的准确率,另一方面还可以提升检测效率。

可选地,在上述图11或图12所对应的实施例的基础上,请参阅图13,本发明实施例提供的关键词检测装置30的另一实施例中,所述关键词检测装置30还包括判断模块305;

所述判断模块305,用于所述获取模块301获取待检测语音信号的增强语音信号之后,判断当前是否处于回声信号消除状态;

所述执行模块303,还用于若所述判断模块305判断得到当前处于所述回声信号消除状态,则执行所述根据所述增强语音信号获取第二语音特征信号的步骤,并执行所述通过所述关键词检测模型获取所述第二语音特征信号所对应的所述关键词检测结果的步骤;

所述执行模块303,用于若所述判断模块305判断得到当前未处于所述回声信号消除状态,则执行所述根据所述第一变速语音信号获取第一语音特征信号的步骤,并且执行所述根据所述增强语音信号获取第二语音特征信号的步骤。

再次,本发明实施例中,提供了一种切换语速处理模式的关键词检测装置,即关键词检测装置获取待检测语音信号的增强语音信号之后,还可以判断当前是否处于回声信号消除状态,若当前处于回声信号消除状态,则执行两路信号同时检测目标关键词的流程,反之,若当前未处于回声信号消除状态,则不进行变速处理,而是直接对当前收到的语音信号进行检测即可。通过上述方式,可以在特定场景下关闭语速变速处理的模式,当回声被麦克风采集到进而干扰麦克风采集的语音时,需要优先消除回声,因此会导致处理器的工作负荷增加,这时关闭语音信号变速处理的模式可以有效地节省处理器的计算量。

可选地,在上述图11或图12所对应的实施例的基础上,本发明实施例提供的关键词检测装置30的另一实施例中,

所述获取模块301,还用于获取待检测语音信号的增强语音信号之后,根据所述增强语音信号获取第二语音特征信号,其中,所述第二语音特征信号对应于第二语速,所述第二语速与所述目标语速一致;

所述变速模块302,还用于对所述增强语音信号进行变速处理,得到第二变速语音信号,其中,所述第二变速语音信号对应于第三语速,所述第三语速大于所述目标语速,且所述第三语速大于所述第一语速,所述第一语速小于所述目标语速;

根据所述第二变速语音信号获取第三语音特征信号;

所述获取模块301,具体用于通过所述关键词检测模型获取所述第一语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第二语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第三语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第一语音特征信号、所述第二语音特征信号以及第三语音特征信号所对应的关键词检测结果。

再次,本发明实施例中,介绍了一种对三路语音信号进行处理的关键词检测装置。即关键词检测装置根据增强语音信号获取第二语音特征信号,并且对增强语音信号进行变速处理,得到第二变速语音信号,然后关键词检测装置通过关键词检测模型获取第一语音特征信号所对应的关键词检测结果,或者通过关键词检测模型获取第二语音特征信号所对应的关键词检测结果,或者通过关键词检测模型获取第三语音特征信号所对应的关键词检测结果,又或者通过关键词检测模型获取第一语音特征信号、第二语音特征信号以及第三语音特征信号所对应的关键词检测结果。通过上述方式,可以同时对变快、变慢和不变速的三路增强语音信号提取特征,然后同时检测这三路信号中是否有关键词。当至少一路语音信号被检测出有目标关键词时,就可以判定具有目标关键词,一方面可以更大程度上提升检测的准确率,另一方面还可以更大程度上提升检测效率。

本发明实施例还提供了另一种智能设备,如图14所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该智能设备可以为包括手机、平板电脑、个人数字助理(personaldigitalassistant,pda)、销售智能设备(pointofsales,pos)、车载电脑等任意智能设备设备,以智能设备为手机为例:

图14示出的是与本发明实施例提供的智能设备相关的手机的部分结构的框图。参考图14,手机包括:射频(radiofrequency,rf)电路410、存储器420、输入单元430、显示单元440、传感器450、音频电路460、无线保真(wirelessfidelity,wifi)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解,图14中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

下面结合图14对手机的各个构成部件进行具体的介绍:

rf电路410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器480处理;另外,将设计上行的数据发送给基站。通常,rf电路410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(lownoiseamplifier,lna)、双工器等。此外,rf电路410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystemofmobilecommunication,gsm)、通用分组无线服务(generalpacketradioservice,gprs)、码分多址(codedivisionmultipleaccess,cdma)、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)、长期演进(longtermevolution,lte)、电子邮件、短消息服务(shortmessagingservice,sms)等。

存储器420可用于存储软件程序以及模块,处理器480通过运行存储在存储器420的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元430可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元430可包括触控面板431以及其他输入设备432。触控面板431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板431可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器480,并能接收处理器480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431,输入单元430还可以包括其他输入设备432。具体地,其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元440可包括显示面板441,可选的,可以采用液晶显示器(liquidcrystaldisplay,lcd)、有机发光二极管(organiclight-emittingdiode,oled)等形式来配置显示面板441。进一步的,触控面板431可覆盖显示面板441,当触控面板431检测到在其上或附近的触摸操作后,传送给处理器480以确定触摸事件的类型,随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图14中,触控面板431与显示面板441是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板431与显示面板441集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器450,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板441的亮度,接近传感器可在手机移动到耳边时,关闭显示面板441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路460、扬声器461,传声器462可提供用户与手机之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号,传输到扬声器461,由扬声器461转换为声音信号输出;另一方面,传声器462将收集的声音信号转换为电信号,由音频电路460接收后转换为音频数据,再将音频数据输出处理器480处理后,经rf电路410以发送给比如另一手机,或者将音频数据输出至存储器420以便进一步处理。

wifi属于短距离无线传输技术,手机通过wifi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图14示出了wifi模块470,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器480是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器480可包括一个或多个处理单元;可选的,处理器480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器480中。

手机还包括给各个部件供电的电源490(比如电池),可选的,电源可以通过电源管理系统与处理器480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。

在本发明实施例中,该智能设备所包括的处理器480还具有以下功能:

获取待检测语音信号的增强语音信号,其中,所述增强语音信号对应于目标语速;

对所述增强语音信号进行变速处理,得到第一变速语音信号,其中,所述第一变速语音信号对应于第一语速,所述第一语速与所述目标语速不一致;

根据所述第一变速语音信号获取第一语音特征信号;

通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果,其中,所述关键词检测结果用于表示所述待检测语音信号中是否存在目标关键词;

若根据所述关键词检测结果确定存在所述目标关键词,则执行所述目标关键词所对应的操作。

可选地,处理器480具体用于执行如下步骤:

获取所述待检测语音信号;

通过语音增强算法对所述待检测语音信号进行处理,得到所述增强语音信号。

可选地,处理器480具体用于执行如下步骤:

通过单个语音输入设备接收所述待检测语音信号;

所述通过语音增强算法对所述待检测语音信号进行处理,得到所述增强语音信号,包括:

通过回声消除算法、噪声消除算法以及混响消除算法中的至少一种,对所述待检测语音信号进行处理,得到所述增强语音信号,其中,所述所述回声消除算法用于对所述待检测语音信号中的回声信号进行消除处理,所述噪声消除算法用于对所述待检测语音信号中的稳态噪声和/或非稳态噪声进行抑制处理,所述混响消除算法用于对所述待检测语音信号中的混响进行消除处理。

可选地,处理器480具体用于执行如下步骤:

通过多个语音输入设备接收所述待检测语音信号;

所述通过语音增强算法对所述待检测语音信号进行处理,得到所述增强语音信号,包括:

通过回声消除算法和/或混响消除算法,对所述待检测语音信号进行处理,得到第一待处理信号,其中,所述回声消除算法用于对所述待检测语音信号中的回声信号进行消除处理,所述混响消除算法用于对所述待检测语音信号中的混响进行消除处理,其中,所述第一待处理信号包括多路信号;

通过波束形成算法对所述第一待处理信号进行空间滤波处理,得到第二待处理信号,其中,所述第二待处理信号包括一路信号;

通过噪声消除算法对所述第二待处理信号中的稳态噪声和/或非稳态噪声进行抑制处理,得到所述增强语音信号。

可选地,处理器480具体用于执行如下步骤:

将所述增强语音信号写入至第一先进先出fifo缓存;

当达到所述第一fifo缓存的存储门限时,从所述第一fifo缓存中读取待处理增强语音信号,其中,所述待处理增强语音信号的时长小于或等于所述增强语音信号的时长;

对所述待处理语音信号进行变速处理,得到目标变速语音信号,其中,所述目标变速语音信号的时长小于或等于所述第一变速语音信号的时长;

将所述目标变速语音信号写入至第二fifo缓存;

从所述第二fifo缓存中读取所述目标变速语音信号;

根据所述目标变速语音信号生成所述第一语音特征信号,其中,所述第一语音特征信号包括梅尔频率倒谱系数mfcc特征信号、滤波器组fbanks以及线性预测倒谱系数lpcc中的至少一种。

可选地,处理器480具体用于执行如下步骤:

根据所述待处理语音信号、第一样本数以及分析帧步长确定第一语音帧;

根据所述第一语音帧、所述第一样本数以及合成步长,计算得到自然连续语音帧;

根据所述待处理语音信号以及所述分析帧步长确定第二语音帧;

根据所述第二语音帧以及所述自然连续语音帧,获取第二样本数;

根据所述待处理语音信号、所述第二样本数以及以及分析帧步长,确定待匹配语音帧;

根据所述第一语音帧以及所述待匹配语音帧确定所述目标变速语音信号。

可选地,处理器480具体用于执行如下步骤:

采用如下方式计算所述第二样本数:

其中,所述δk+1表示所述第二样本数,所述ca(k,δk+1)表示两个语音帧的最小互平均幅度差分函数系数,所述k表示第k个语音帧,所述δ表示样本数,所述表示所述自然连续语音,所述δmax表示可移动的最大样本数,所述xk+1(n+δk+1)表示待匹配的所述第二语音帧,所述argmin表示所述ca(k,δk+1)取最小值时的变量值,所述n为大于或等于1,且小于或等于所述n的整数。

可选地,处理器480还用于执行如下步骤:

若所述关键词检测结果为第一字符,则根据所述第一字符确定所述待检测语音信号中存在所述目标关键词;

若所述关键词检测结果为第二字符,则根据所述第二字符确定所述待检测语音信号中不存在所述目标关键词。

可选地,处理器480还用于执行如下步骤:

根据所述关键词检测结果确定目标概率值;

若所述目标概率值大于或等于关键词概率阈值,则确定所述待检测语音信号中存在所述目标关键词;

若所述目标概率值小于所述关键词概率阈值,则确定所述待检测语音信号中不存在所述目标关键词。

可选地,处理器480还用于执行如下步骤:

根据所述增强语音信号获取第二语音特征信号,其中,所述第二语音特征信号对应于第二语速,所述第二语速与所述目标语速一致;

处理器480具体用于执行如下步骤:

通过所述关键词检测模型获取所述第一语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第二语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第一语音特征信号以及所述第二语音特征信号所对应的关键词检测结果。

可选地,处理器480还用于执行如下步骤:

判断当前是否处于回声信号消除状态;

若当前处于所述回声信号消除状态,则执行所述根据所述增强语音信号获取第二语音特征信号的步骤,并执行所述通过所述关键词检测模型获取所述第二语音特征信号所对应的所述关键词检测结果的步骤;

若当前未处于所述回声信号消除状态,则执行所述根据所述第一变速语音信号获取第一语音特征信号的步骤,并且执行所述根据所述增强语音信号获取第二语音特征信号的步骤。

可选地,处理器480还用于执行如下步骤:

根据所述增强语音信号获取第二语音特征信号,其中,所述第二语音特征信号对应于第二语速,所述第二语速与所述目标语速一致;

对所述增强语音信号进行变速处理,得到第二变速语音信号,其中,所述第二变速语音信号对应于第三语速,所述第三语速大于所述目标语速,且所述第三语速大于所述第一语速,所述第一语速小于所述目标语速;

根据所述第二变速语音信号获取第三语音特征信号;

处理器480具体用于执行如下步骤:

通过所述关键词检测模型获取所述第一语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第二语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第三语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第一语音特征信号、所述第二语音特征信号以及第三语音特征信号所对应的关键词检测结果。

图15是本发明实施例提供的一种服务器结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。

上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。

在本发明实施例中,该服务器所包括的cpu522还具有以下功能:

获取待检测语音信号的增强语音信号,其中,所述增强语音信号对应于目标语速;

对所述增强语音信号进行变速处理,得到第一变速语音信号,其中,所述第一变速语音信号对应于第一语速,所述第一语速与所述目标语速不一致;

根据所述第一变速语音信号获取第一语音特征信号;

通过关键词检测模型获取所述第一语音特征信号所对应的关键词检测结果,其中,所述关键词检测结果用于表示所述待检测语音信号中是否存在目标关键词。

可选地,cpu522具体用于执行如下步骤:

获取所述待检测语音信号;

通过语音增强算法对所述待检测语音信号进行处理,得到所述增强语音信号。

可选地,cpu522具体用于执行如下步骤:

通过单个语音输入设备接收所述待检测语音信号;

所述通过语音增强算法对所述待检测语音信号进行处理,得到所述增强语音信号,包括:

通过回声消除算法、噪声消除算法以及混响消除算法中的至少一种,对所述待检测语音信号进行处理,得到所述增强语音信号,其中,所述所述回声消除算法用于对所述待检测语音信号中的回声信号进行消除处理,所述噪声消除算法用于对所述待检测语音信号中的稳态噪声和/或非稳态噪声进行抑制处理,所述混响消除算法用于对所述待检测语音信号中的混响进行消除处理。

可选地,cpu522具体用于执行如下步骤:

通过多个语音输入设备接收所述待检测语音信号;

所述通过语音增强算法对所述待检测语音信号进行处理,得到所述增强语音信号,包括:

通过回声消除算法和/或混响消除算法,对所述待检测语音信号进行处理,得到第一待处理信号,其中,所述回声消除算法用于对所述待检测语音信号中的回声信号进行消除处理,所述混响消除算法用于对所述待检测语音信号中的混响进行消除处理,其中,所述第一待处理信号包括多路信号;

通过波束形成算法对所述第一待处理信号进行空间滤波处理,得到第二待处理信号,其中,所述第二待处理信号包括一路信号;

通过噪声消除算法对所述第二待处理信号中的稳态噪声和/或非稳态噪声进行抑制处理,得到所述增强语音信号。

可选地,cpu522具体用于执行如下步骤:

将所述增强语音信号写入至第一先进先出fifo缓存;

当达到所述第一fifo缓存的存储门限时,从所述第一fifo缓存中读取待处理增强语音信号,其中,所述待处理增强语音信号的时长小于或等于所述增强语音信号的时长;

对所述待处理语音信号进行变速处理,得到目标变速语音信号,其中,所述目标变速语音信号的时长小于或等于所述第一变速语音信号的时长;

将所述目标变速语音信号写入至第二fifo缓存;

从所述第二fifo缓存中读取所述目标变速语音信号;

根据所述目标变速语音信号生成所述第一语音特征信号,其中,所述第一语音特征信号包括梅尔频率倒谱系数mfcc特征信号、滤波器组fbanks以及线性预测倒谱系数lpcc中的至少一种。

可选地,cpu522具体用于执行如下步骤:

根据所述待处理语音信号、第一样本数以及分析帧步长确定第一语音帧;

根据所述第一语音帧、所述第一样本数以及合成步长,计算得到自然连续语音帧;

根据所述待处理语音信号以及所述分析帧步长确定第二语音帧;

根据所述第二语音帧以及所述自然连续语音帧,获取第二样本数;

根据所述待处理语音信号、所述第二样本数以及以及分析帧步长,确定待匹配语音帧;

根据所述第一语音帧以及所述待匹配语音帧确定所述目标变速语音信号。

可选地,cpu522具体用于执行如下步骤:

采用如下方式计算所述第二样本数:

其中,所述δk+1表示所述第二样本数,所述ca(k,δk+1)表示两个语音帧的最小互平均幅度差分函数系数,所述k表示第k个语音帧,所述δ表示样本数,所述表示所述自然连续语音,所述δmax表示可移动的最大样本数,所述xk+1(n+δk+1)表示待匹配的所述第二语音帧,所述argmin表示所述ca(k,δk+1)取最小值时的变量值,所述n为大于或等于1,且小于或等于所述n的整数。

可选地,cpu522还用于执行如下步骤:

若所述关键词检测结果为第一字符,则根据所述第一字符确定所述待检测语音信号中存在所述目标关键词;

若所述关键词检测结果为第二字符,则根据所述第二字符确定所述待检测语音信号中不存在所述目标关键词。

可选地,cpu522还用于执行如下步骤:

根据所述关键词检测结果确定目标概率值;

若所述目标概率值大于或等于关键词概率阈值,则确定所述待检测语音信号中存在所述目标关键词;

若所述目标概率值小于所述关键词概率阈值,则确定所述待检测语音信号中不存在所述目标关键词。

可选地,cpu522还用于执行如下步骤:

根据所述增强语音信号获取第二语音特征信号,其中,所述第二语音特征信号对应于第二语速,所述第二语速与所述目标语速一致;

cpu522具体用于执行如下步骤:

通过所述关键词检测模型获取所述第一语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第二语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第一语音特征信号以及所述第二语音特征信号所对应的关键词检测结果。

可选地,cpu522还用于执行如下步骤:

判断当前是否处于回声信号消除状态;

若当前处于所述回声信号消除状态,则执行所述根据所述增强语音信号获取第二语音特征信号的步骤,并执行所述通过所述关键词检测模型获取所述第二语音特征信号所对应的所述关键词检测结果的步骤;

若当前未处于所述回声信号消除状态,则执行所述根据所述第一变速语音信号获取第一语音特征信号的步骤,并且执行所述根据所述增强语音信号获取第二语音特征信号的步骤。

可选地,cpu522还用于执行如下步骤:

根据所述增强语音信号获取第二语音特征信号,其中,所述第二语音特征信号对应于第二语速,所述第二语速与所述目标语速一致;

对所述增强语音信号进行变速处理,得到第二变速语音信号,其中,所述第二变速语音信号对应于第三语速,所述第三语速大于所述目标语速,且所述第三语速大于所述第一语速,所述第一语速小于所述目标语速;

根据所述第二变速语音信号获取第三语音特征信号;

cpu522具体用于执行如下步骤:

通过所述关键词检测模型获取所述第一语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第二语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第三语音特征信号所对应的所述关键词检测结果;

或,

通过所述关键词检测模型获取所述第一语音特征信号、所述第二语音特征信号以及第三语音特征信号所对应的关键词检测结果。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1