一种语种识别方法及装置与流程

文档序号:29693471发布日期:2022-04-16 12:23阅读:466来源:国知局

1.本发明属于语音识别技术领域,尤其涉及一种语种识别方法及装置。


背景技术:

2.由于口语能力越来越受到重视,全国各地区的考试中都开始推行外语的口语考试,由于计算机辅助评分技术可以缓解老师数量不足,并提供灵活的时间安排,受到越来越多的重视。
3.虽然计算机自动评分技术日趋成熟,但仍然存在一些技术问题,这是因为由于计算机辅助评分系统会考虑考生的语音学方面的相关特性,但有些考生会使用中文来回答问题,这时计算机辅助评分系统根据考试的发音信息仍然会给出一定分数,并且分数不可控,从而最后导致评分的准确性,给实际的使用带来了诸多不便。


技术实现要素:

4.本发明目的是为了克服现有技术的不足而提供一种能自动识别语种类别,从而避免在使用计算机辅助评分系统时,考生中文回答问题依然得高分得问题,提升评分的准确性的语种识别方法及装置。
5.为达到上述目的,本发明采用的技术方案是:一种语种识别方法,包括如下步骤:
6.s1)对待识别语音信号按帧分别提取fbank特征和mfcc特征;
7.s2)判断每帧是属于静音还是语音;
8.s3)将属于语音的那些帧的fbank特征按照时间顺序拼接;
9.s4)取固定长度的帧数t,将t帧fbank特征输入n个tdnn块中计算,每个tdnn块都输出t
×
c的特征;
10.s5)将t
×
c的特征通过第一个全连接层、池化层、第二个全连接层和第三个全连接层后得出每个语种的概率。
11.进一步的,对待识别语音信号按帧分别提取64维fbank特征和 40维mfcc特征,其窗长为25ms,帧移为10ms。
12.进一步的,步骤s2中,将每帧的mfcc特征输入到已训练好的领域适应的语音活动检测模块中,判断每帧是属于静音还是语音。
13.进一步的,步骤s3中,还需要对每帧做归一化处理:计算当前帧之前的3s内的所有帧的fbank特征的均值,再用当前帧的fbank特征减去该均值,即为当前帧的归一化结果。
14.进一步的,所述tdnn块包括tdnn层、relu层和batchnorm 层;所述tdnn快的个数为3。
15.进一步的,步骤s5包括如下步骤:
16.s50)将t
×
c的特征输入到第一个全连接层,它以relu为激活函数,以batchnorm为归一化函数,输出t
×
c的抽象特征;
17.s51)将t
×
c的抽象特征输入到池化层,输出1
×
(2
×
c)的池化特征;
18.s52)将1
×
(2
×
c)的池化特征输入第二个全连接层,它以relu 为激活函数,以batchnorm为归一化函数,输出1*h的语种特征;
19.s53)将1*h的语种特征输入第三个全连接层,它以softmax为激活函数,输出每个语种的概率。
20.进一步的,池化层计算t帧的均值和方差,并将均值和标准差拼接作为池化特征,记输入特征为f,其中f(i,j)表示第i帧的第j维特征,a(i,j)表示第i帧的第j维特征的重要性权重,记m=n
×
c,i∈ [1,t],j∈[1,m];
[0021]
输出均值m’为1
×
m维,其中,
[0022][0023]
输出方差v’为1
×
m维;其中,
[0024][0025]
进一步的,池化层的重要性权重的计算方式为:将特征f输入到一个全连接层和一个softmax层,输出第i帧的第j维特征的重要性权重a(i,j),i∈[1,t],j∈[1,m]。
[0026]
进一步的,在步骤s4之后,将n个tdnn块的输出特征t
×
c 拼接得到t
×
(n
×
c)的特征。
[0027]
一种语种识别装置,包括:
[0028]
提取模块,用于对待识别语音信号按帧分别提取fbank特征和 mfcc特征;
[0029]
判断模块,用于判断每帧是属于静音还是语音;
[0030]
顺序拼接模块,用于将属于语音的那些帧的fbank特征按照时间顺序拼接;
[0031]
输出模块,用于取固定长度的帧数t,将t帧fbank特征输入n 个tdnn块中计算,每个tdnn块都输出t
×
c的特征;
[0032]
语种分析模块,用于将t
×
c的特征通过第一个全连接层、池化层、第二个全连接层和第三个全连接层后得出每个语种的概率。
[0033]
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
[0034]
本发明方案的语种识别方法以及装置,先将属于语音的那些帧的 fbank特征按照时间顺序拼接,再将t帧fbank特征输入n个tdnn 块中计算,每个tdnn块都输出t
×
c的特征,再将t
×
c的特征通过第一个全连接层、池化层、第二个全连接层和第三个全连接层后得出每个语种的概率,从而为后续的自动评分系统提供有力的帮助,提升了评分系统的准确性,满足了实际的使用需求。
附图说明
[0035]
下面结合附图对本发明技术方案作进一步说明:
[0036]
附图1为本发明实施例中语种识别方法的流程示意图;
[0037]
附图2为本发明一实施例中步骤s5的步骤流程示意图。
具体实施方式
[0038]
下面结合附图及具体实施例对本发明作进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,而不构成对本发明的限制。
[0039]
请参阅附图1,本发明实施例所述的一种语种识别方法,包括如下步骤:s1)对待识别语音信号按帧分别提取fbank特征和mfcc特征; s2)判断每帧是属于静音还是语音;s3)将属于语音的那些帧的fbank 特征按照时间顺序拼接;s4)取固定长度的帧数t,将t帧fbank特征输入n个tdnn块中计算,每个tdnn块都输出t
×
c的特征;s5) 将t
×
c的特征通过第一个全连接层、池化层、第二个全连接层和第三个全连接层得出每个语种的概率。
[0040]
具体的,步骤s1中,首先输入待识别语音信号,然后对输入的待识别语音信号按帧分别提取64维fbank特征和40维mfcc特征,其窗长为25ms,帧移为10m;
[0041]
步骤s2中,将每帧的mfcc特征输入到已训练好的领域适应的语音活动检测模块中,判断每帧是属于静音还是语音,其中的语音活动检测模块为常见的语音检测模块。
[0042]
步骤s3中,还需要对每帧做归一化处理:即计算当前帧之前的 3s内的所有帧的fbank特征的均值,再用当前帧的fbank特征减去该均值,即为当前帧的归一化结果。
[0043]
步骤s4中,取固定长度的帧数t,即取1s的帧数。
[0044]
另外,所述tdnn块包括tdnn层、relu层和batchnorm层;所述tdnn快的个数为3。
[0045]
在本实施例中,取固定长度的帧数t,将t帧fbank特征输入n 个tdnn块中计算,每个tdnn块都输出t
×
c的特征,则步骤s5 的过程如下:
[0046]
s50)将t
×
c的特征输入到第一个全连接层,它以relu为激活函数,以batchnorm为归一化函数,输出t
×
c的抽象特征;
[0047]
s51)将t
×
c的抽象特征输入到池化层,输出1
×
(2
×
c)的池化特征,池化层计算t帧的均值和方差,并将均值和标准差拼接作为池化特征,记输入特征为f,其中f(i,j)表示第i帧的第j维特征,a(i, j)表示第i帧的第j维特征的重要性权重,记m=n
×
c,i∈[1,t],j∈ [1,m];输出均值m’为1
×
m维,其中,输出方差v’为1
×
m维;
[0048]
其中,
[0049]
其中,池化层的重要性权重的计算方式为:将特征f输入到一个全连接层和一个softmax层,输出第i帧的第j维特征的重要性权重 a(i,j),i∈[1,t],j∈[1,m]。
[0050]
s52)将1
×
(2
×
c)的池化特征输入第二个全连接层,它以relu 为激活函数,以batchnorm为归一化函数,输出1*h的语种特征;
[0051]
s53)将1*h的语种特征输入第三个全连接层,它以softmax为激活函数,输出每个语种的概率。
[0052]
另外,考虑到浅层特征对后续的语种特征提取仍有一应的贡献度,所以对n个tdnn块的输出特征t
×
c进行了拼接操作,这样则在步骤s4之后,将n个tdnn块的输出特征t
×
c拼接得到t
×
(n
ꢀ×
c)的特征。
[0053]
步骤s5的过程变为:
[0054]
s500:将t
×
(n
×
c)的特征输入到一个全连接层,relu层,和 batchnorm层,输出t
×
(n
×
c)的抽象特征;
[0055]
s501:将t
×
(n
×
c)的抽象特征输入到池化层,输出1
×
(2
×n×
c) 的池化特征;
[0056]
s502:将1
×
(2
×n×
c)的池化特征输入一个全连接层,relu层,和batchnorm层,输出1*h的语种特征;
[0057]
s503:将1*h的语种特征输入一个全连接层和softmax层,输出每个语种的概率。
[0058]
参阅附图2,为本发明一实施例中步骤5的具体流程示意图,其中tdnn块个数为3,语种个数为2;具体步骤如下:
[0059]
s510:将t
×
(3
×
c)的特征输入到一个全连接层,relu层,和 batchnorm层,输出t
×
(3
×
c)的抽象特征;
[0060]
s511:将t
×
(3
×
c)的抽象特征输入到池化层,输出1
×
(2
×3×
c) 的池化特征;
[0061]
s512:将1
×
(2
×3×
c)的池化特征输入一个全连接层,relu层,和batchnorm层,输出1*h的语种特征;
[0062]
s513:将1*h的语种特征输入一个全连接层和softmax层,输出每个语种的概率。
[0063]
本发明还公开了一种语种识别装置,其特征在于,包括提取模块、判断模块、顺序拼接模块、输出模块和语种分析模块;提取模块用于对待识别语音信号按帧分别提取fbank特征和mfcc特征;判断模块用于判断每帧是属于静音还是语音;顺序拼接模块用于将属于语音的那些帧的fbank特征按照时间顺序拼接;输出模块用于取固定长度的帧数t,将t帧fbank特征输入n个tdnn块中计算,每个tdnn 块都输出t
×
c的特征;语种分析模块用于将t
×
c的特征通过第一个全连接层、池化层、第二个全连接层和第三个全连接层后得出每个语种的概率。
[0064]
本发明的语种识别方法以及装置,先将属于语音的那些帧的 fbank特征按照时间顺序拼接,再将t帧fbank特征输入n个tdnn 块中计算,每个tdnn块都输出t
×
c的特征,再将t
×
c的特征通过第一个全连接层、池化层、第二个全连接层和第三个全连接层后得出每个语种的概率,从而为后续的自动评分系统提供有力的帮助,提升了评分系统的准确性,满足了实际的使用需求。
[0065]
以上仅是本发明的具体应用范例,对本发明的保护范围不构成任何限制。凡采用等同变换或者等效替换而形成的技术方案,均落在本发明权利保护范围之内。
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!