利用线性麦克风阵列的语音识别方法及系统与流程

文档序号:12065448阅读:来源:国知局

技术特征:

1.一种利用线性麦克风阵列的语音识别方法,其特征在于,所述方法包括如下步骤:

利用线性麦克风阵列录制环境的声音以形成音频数据;

针对所述线性麦克风阵列前方的声音获取区域设置波束形成器,利用所述波束形成器于所述声音获取区域形成位于中部的主波束区域和位于两侧部的第一噪声波束区域和第二噪声波束区域;

将所述音频数据输入到所述波束形成器中以获得对应所述主波束区域的主波束、对应所述第一噪声波束区域的第一噪声波束、以及对应所述第二噪声波束区域的第二噪声波束;

从所述主波束中滤除所述第一噪声波束和所述第二噪声波束以得到待识别的语音数据;

对所述待识别的语音数据进行语音识别以得到对应的文本数据并输出。

2.如权利要求1所述的方法,其特征在于,所述声音获取区域包括角度从0°至180°的平面区域,针对所述线性麦克风阵列前方的声音获取区域设置波束形成器,包括:设置用于形成所述第一噪声波束区域的第一波束形成器,将所述第一波束形成器所形成的波束的中心指向所述声音获取区域的20°方向;

设置用于形成所述主波束区域的第二波束形成器,将所述第二波束形成器所形成的波束的中心指向所述声音获取区域的90°方向;

设置用于形成所述第二噪声波束区域的第三波束形成器,将所述第三波束形成器所形成的波束的中心指向所述声音获取区域的160°方向。

3.如权利要求2所述的方法,其特征在于,设置波束形成器时,每一波束形成器中设置有与所述线性麦克风阵列中的每一麦克风对应连接的滤波器,采用固定波束成形算法为每一波束形成器中的滤波器计算滤波器系数;

所述固定波束成形算法包括:

yn(k)=xn(k)+vn(k),n=1,2,...,N (式一)

在式一中,yn(k)是第n个麦克风采集到的音频数据,xn(k)和vn(k)分别是采集到的期望信号和加性噪声;式二中,是波束形成器的输出,将波束形成器的输出逼近线性麦克风阵列中某个麦克风接收到的期望信号,是第n个麦克风对应的滤波器系数;

在式三中,em(k)表示波束形成器的输出信号与采集到的期望信号的误差,它等于期望信号的误差ex,m(k)与加性噪声的误差ev,m(k)的和;而期望信号的误差ex,m(k)与加性噪声的误差ev,m(k)可以用式四和式五来表示:

基于最小化均方误差得到式六和式七,通过最小化以今力口性噪声最小,结合约束ex,m(k)=0以得出最佳滤波器系数hm,o,其中的hm为波束形成器中所有滤波器对应的滤波器系数矩阵,nm,o为波束形成器中所有滤波器对应的最佳的滤波器系数值。

4.如权利要求1所述的方法,其特征在于,对所述待识别的语音数据进行语音识别,包括:先利用所述待识别的语音数据对声学模型进行自适应操作;而后利用经自适应操作的声学模型对所述待识别的语音数据进行语音识别。

5.如权利要求4所述的方法,其特征在于,利用所述待识别的语音数据对声学模型进行自适应操作,包括:

提取设定数量的待识别的语音数据,并对所提取的待识别的语音数据进行文本标注:

提取所述设定数量的待识别的语音数据对应的声学特征,并将对应的文本标注与所述声学特征组合形成自适应训练数据;

利用所述自适应训练数据对所述声学模型进行自适应训练。

6.一种线性麦克风阵列语音识别系统,其特征在于,所述系统包括:

线性麦克风阵列,用于录制环境的声音以形成音频数据;

与所述线性麦克风阵列通信连接的波束形成器,所述波束形成器于所述线性麦克风阵列前方的声音获取区域形成位于中部的主波束区域和位于两侧部的第一噪声波束区域和第二噪声波束区域,用于对所接收到的所述音频数据进行处理并获得对应所述主波束区域的主波束、对应所述第一噪声波束区域的第一噪声波束、以及对应所述第二噪声波束区域的第二噪声波束;

自适应滤波器模块,与所述波束形成器通信连接,接收所述主波束、所述第一噪声波束以及所述第二噪声波束的输出,并用于从所述主波束中滤除所述第一噪声波束和所述第二噪声波束以得到待识别的语音数据;

语音识别器,与所述自适应滤波器模块通信连接,接收所述待识别的语音数据,并用于对所述待识别的语音数据进行语音识别以得到对应的文本数据并输出。

7.如权利要求6所述的系统,其特征在于,所述声音获取区域包括角度从0°至180°的平面区域;

所述波束形成器包括:用于形成所述第一噪声波束区域的第一波束形成器,所述第一波束形成器所形成的波束的中心指向所述声音获取区域的20°方向;

用于形成所述主波束区域的第二波束形成器,所述第二波束形成器所形成的波束的中心指向所述声音获取区域的90°方向;

用于形成所述第二噪声波束区域的第三波束形成器,所述第三波束形成器所形成的波束的中心指向所述声音获取区域的160°方向。

8.如权利要求6所述的系统,其特征在于,每一波束形成器中设有与所述线性麦克风阵列中的每一麦克风对应连接的滤波器,每一波束形成器中的滤波器设置有对应的滤波器系数;所述滤波器系数通过固定波束成形算法计算得到;

所述固定波束成形算法包括:

yn(k)=xn(k)+vn(k),n=1,2,...,N (式一)

在式一中,yn(k)是第n个麦克风采集到的音频数据,xn(k)和vn(k)分别是采集到的期望信号和加性噪声;式二中,是波束形成器的输出,将波束形成器的输出逼近线性麦克风阵列中某个麦克风接收到的期望信号,是第n个麦克风对应的滤波器系数;

在式三中,em(k)表示波束形成器的输出信号与采集到的期望信号的误差,它等于期望信号的误差ex,m(k)与加性噪声的误差ev,m(k)的和;而期望信号的误差ex,m(k)与加性噪声的误差ev,m(k)可以用式四和式五来表示;

基于最小化均方误差得到式六和式七,通过最小化以令加性噪声最小,结合约束ex,m(k)=0以得出最佳滤波器系数hm,o,其中的hm为波束形成器中所有滤波器对应的滤波器系数矩阵,hm,o为波束形成器中所有滤波器对应的最佳的滤波器系数值。

9.如权利要求6所述的系统,其特征在于,所述语音识别器包括一声学模型,所述声学模型经所述待识别的语音数据进行自适应训练后再用于识别待识别的语音数据。

10.如权利要求9所述的系统,其特征在于,所述语音识别器还包括有特征提取模块、文本输入模块、训练数据存储模块以及训练模块;

所述特征提取模块与所述自适应滤波器模块通信连接,接收所述待识别的语音数据,用于从所接收的待识别的语音数据中提取声学特征;

所述文本输入模块用于输入与所述待识别的语音数据对应的文本标注;

所述训练数据存储模块与所述特征提取模块和所述文本输入模块通信连接,用于存储所述声学特征和对应的文本标注,所述声学特征和对应的文本标注组合形成自适应训练数据;

所述训练模块与所述训练数据存储模块通信连接,读取所述训练数据存储模块内存储自适应训练数据并利用所读取的自适应训练数据对所述声学模型进行自适应训练。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1