一种基于神经网络算法的语音识别方法与流程

文档序号:31716915发布日期:2022-10-04 22:08阅读:512来源:国知局
技术简介:
本专利针对传统语音识别建模单元性能差、构建复杂的问题,提出基于神经网络的模块化解决方案。通过频谱自适应算法优化特征提取,结合梅尔倒频谱系数与离散小波变换,构建包含语音输入、预处理、特征提取、神经网络训练等模块的系统,实现对普通话及方言的高精度识别,提升识别率并简化程序结构。
关键词:神经网络,语音识别

1.本发明涉及语音识别技术领域,具体为一种基于神经网络算法的语音识别方法。


背景技术:

2.语音识别系统的应用可以分为两个发展方向:一个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的。另外一个重要的发展方向是小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门的第三方软件来实现,特别是近几年来迅速发展的语音信号处理专用芯片和语音识别片上系统的出现,语音信号是典型的时序信号,具有短时平稳特点,但因为背景噪声、信道、说话人的性别、年龄口音的不同等导致语音信号非常复杂。
3.现有的语音识别方法都是基于混合方法,而且语音识别中的建模单元都是基于传统的状态建模单元,这种的建模单元对语音识别的识别性能较差,且构建程序复杂。


技术实现要素:

4.为实现上述目的,本发明提供如下技术方案:一种基于神经网络算法的语音识别方法,包括以下组成模块:语音输入模块、语音预处理模块、特征提取模块、语言类型采集模块、语言转化模块、频谱分析模块、神经网络训练模块和语言输出模块。
5.所述基于神经网络算法的语音识别方法包括以下步骤:
6.s1、语音的输入及语音的预处理
7.语音输入模块即把语音输入设备采集的语音进行原始输入,通过扩音器将未知声音转化为电信号输入识别系统,并通过语音预处理模块进行预处理。
8.s2、语音特征的提取
9.通过特征提取模块根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征,确定特征集中最佳分类的特征,并将提取的语音特征传输到语言类型采集模块中。
10.s3、语言的采集与转化
11.语言类型采集模块用于对标准普通话数据和至少一种带有方言口音的普通话数据进行采集,并将采集的语言数据通过语言转化模块对接收到的输入语音,提取语音转化特征向量,其中,语音转化特征是梅尔倒频谱系数。
12.s4、频谱分析
13.频谱分析模块采用频谱自适应算法;频谱自适应算法包括:
14.令训练向量和测试向量分别是向量x
(1)
和x
(2)
,假设:
15.u=ax
(1)
,v=bx
(2)
,其中a和b是对应于x
(1)
和x
(2)
的变换矩阵,u和v是参考空间中公式(1)x和(2)x的映射,将均方误差最小化:
16.d=e{(u-v)2},其中u=ax
(1)
,v=bx
(2)

17.带约束e{u2}=e{v2}=1,做u和v的最大相关,u和v在当时不为零:
18.假设语音倒谱的长期均值为零,令e{x}=0,分别从训练向量和测试向量中减去信道特征,得到的e{x
(1)
}=e{x
(2)
}=0,并通过计算将测试映射到训练空间。
19.s5、神经网络训练
20.通过神经网络训练模块进行语音神经网络训练阶段,对特征进行分析并得到信号归属词汇,为每个词条建立一个模型,保存为模板库,在识别阶段,使用所获得的特征集来执行情感识别,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,生成识别结果。
21.s6、将神经网络训练模块得到的结果通过语音预处理模块传输到语言输出模块,将语言结果输出。
22.优选的,所述步骤s1中语音预处理模块包括采样语音信号、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响,并且每隔一定时间间隔取出部分信号处理,确定帧的尺寸以及计算重叠率。
23.优选的,所述步骤s5中神经网络训练包括:采用输入层、隐藏层、输出层三层结构作为情感识别的框架。
24.优选的,所述语言输入模块的输出端连接有语音预处理模块,所述语音预处理模块输出端连接有特征提取模块,语音预处理模块可对语音中的杂音进行处理。
25.优选的,所述特征提取模块输出端连接有语言类型采集模块,所述语言类型采集模块连接有语言转化模块,语言类型采集模块可对语言类型进行采集识别。
26.优选的,所述语言转化模块的输出端连接有频谱分析模块,所述频谱分析模块的输出端连接有神经网络训练模块,频谱分析模块可对语言进行频谱分析。
27.优选的,所述神经网络训练模块的输出端连接有语言类型采集模块,所述语言类型采集模块的输出端连接有语言输出模块,其语言输出模块可对处理好的语言结果进行输出。
28.优选的,所述神经网络训练模块包括反向传播神经网络(bpnn)即bp网络,bpnn原则上以多层感知(mlp)为系统框架,以反向传播算法为训练规则,mlp即多层感知器,是一种前向结构的人工神经网络,通常使用静态反向传播进行训练,对静态模式进行分类,该网络可以手动构建,在训练期间也可以监视和修改网络,mlp模型中的多层结构表明它由多层神经元组成,另外,两层神经元之间的信号传递模式与单层神经元相同。
29.本发明提供了一种基于神经网络算法的语音识别方法。具备以下有益效果:
30.本发明通对标准普通话和方言普通话进行采集,采集后对语言提取语音转化特征向量,不依赖于说话者或词汇内容,并将韵律和音质特征整合到系统中,采用离散小波变换进行性别分析,利用统一的频谱变换自适应法补偿三种失真源(扬声器的差异,录音通道的变化和嘈杂环境)、重建训练向量和测试向量之间的正确相关性,通过神经网络算法对机器进行静态训练,进而令识别参数不断逼近最佳状态,提高识别率,对语音识别的识别性能较强,且构建程序简单。
附图说明
31.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实
施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
32.图1为本发明方法原理示意图。
具体实施方式
33.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
34.在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
35.如图1所示,本发明提供一种技术方案:一种基于神经网络算法的语音识别方法,包括以下组成模块:语音输入模块、语音预处理模块、特征提取模块、语言类型采集模块、语言转化模块、频谱分析模块、神经网络训练模块和语言输出模块,语言输入模块的输出端连接有语音预处理模块,语音预处理模块输出端连接有特征提取模块,语音预处理模块可对语音中的杂音进行处理,特征提取模块输出端连接有语言类型采集模块,语言类型采集模块连接有语言转化模块,语言类型采集模块可对语言类型进行采集识别,语言转化模块的输出端连接有频谱分析模块,频谱分析模块的输出端连接有神经网络训练模块,频谱分析模块可对语言进行频谱分析,神经网络训练模块的输出端连接有语言类型采集模块,语言类型采集模块的输出端连接有语言输出模块,其语言输出模块可对处理好的语言结果进行输出。
36.基于神经网络算法的语音识别方法包括以下步骤:
37.s1、语音的输入及语音的预处理
38.语音输入模块即把语音输入设备采集的语音进行原始输入,通过扩音器将未知声音转化为电信号输入识别系统,并通过语音预处理模块进行预处理,语音预处理模块包括采样语音信号、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响,并且每隔一定时间间隔取出部分信号处理,确定帧的尺寸以及计算重叠率。
39.s2、语音特征的提取
40.通过特征提取模块根据取帧划分的语音信号的每帧中提取出韵律特征和质量特征,确定特征集中最佳分类的特征,并将提取的语音特征传输到语言类型采集模块中。
41.s3、语言的采集与转化
42.语言类型采集模块用于对标准普通话数据和至少一种带有方言口音的普通话数据进行采集,并将采集的语言数据通过语言转化模块对接收到的输入语音,提取语音转化特征向量,其中,语音转化特征是梅尔倒频谱系数。
43.s4、频谱分析
44.频谱分析模块采用频谱自适应算法;频谱自适应算法包括:
45.令训练向量和测试向量分别是向量x
(1)
和x
(2)
,假设:
46.u=ax
(1)
,v=bx
(2)
,其中a和b是对应于x
(1)
和x
(2)
的变换矩阵,u和v是参考空间中公式(1)x和(2)x的映射,将均方误差最小化:
47.d=e{(u-v)2},其中u=ax
(1)
,v=bx
(2)

48.带约束e{u2}=e{v2}=1,做u和v的最大相关,u和v在当时不为零:
49.假设语音倒谱的长期均值为零,令e{x}=0,分别从训练向量和测试向量中减去信道特征,得到的e{x
(1)
}=e{x
(2)
}=0,并通过计算将测试映射到训练空间。
50.s5、神经网络训练
51.通过神经网络训练模块进行语音神经网络训练阶段,对特征进行分析并得到信号归属词汇,为每个词条建立一个模型,保存为模板库,在识别阶段,使用所获得的特征集来执行情感识别,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,生成识别结果,神经网络训练包括:采用输入层、隐藏层、输出层三层结构作为情感识别的框架,神经网络训练模块包括反向传播神经网络(bpnn)即bp网络,bpnn原则上以多层感知(mlp)为系统框架,以反向传播算法为训练规则,mlp即多层感知器,是一种前向结构的人工神经网络,通常使用静态反向传播进行训练,对静态模式进行分类,该网络可以手动构建,在训练期间也可以监视和修改网络。mlp模型中的多层结构表明它由多层神经元组成,另外,两层神经元之间的信号传递模式与单层神经元相同。
52.s6、将神经网络训练模块得到的结果通过语音预处理模块传输到语言输出模块,将语言结果输出。
53.在使用时,通对标准普通话和方言普通话进行采集,采集后对语言提取语音转化特征向量,不依赖于说话者或词汇内容,并将韵律和音质特征整合到系统中,采用离散小波变换进行性别分析,利用统一的频谱变换自适应法补偿三种失真源(扬声器的差异,录音通道的变化和嘈杂环境)、重建训练向量和测试向量之间的正确相关性,通过神经网络算法对机器进行静态训练,进而令识别参数不断逼近最佳状态,提高识别率,对语音识别的识别性能较强,且构建程序简单。
54.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!