语种识别系统中声学特征提取方法及装置制造方法

文档序号：2826403阅读：639来源：国知局

语种识别系统中声学特征提取方法及装置制造方法
【专利摘要】本发明公开了一种语种识别系统中声学特征提取方法及装置，该方法包括：接收输入的语音信号；对所述语音信号进行分帧处理，获取语音帧序列；提取所述语音帧序列中各语音帧的底层声学特征；基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征。利用本发明，可以有效提高语种识别性能。
【专利说明】语种识别系统中声学特征提取方法及装置
【技术领域】
[0001]本发明涉及语种识别【技术领域】，具体涉及一种语种识别系统中声学特征提取方法及装置。
【背景技术】
[0002]语种识别是指判断给定语音信号所对应的语种类别。语种识别在机器自动翻译、国际旅游信息服务、电话转接、购物股票交易等服务导航，国防安全等领域具有重要的应用价值。特别是近年来随着通信技术的发展，军事监控数据呈爆发式增长，如何从海量数据中筛选对象国的语音数据是实际中面临的一项难题。
[0003]目前主流语种识别系统主要基于语音识别技术。具体的系统接收输入的连续语音信号，并提取相应声学特征序列；随后计算所述声学特征序列相应于各语种模型的相似度并选择具有最大似然度的语种模型为期望语种。显然语音信号的声学特征语种区分性直接影响到语种识别结果。目前语种识别系统主要提取语音信号的底层声学信息，即对连续语音信号分巾贞处理后提取各语音巾贞的声学特征，如MFCC (Mel Frequency CepstrumCoefficient, Mel 频率倒谱系数)特征、PLP (Perceptual Linear Predictive,感知线性预测系数)特征等。
[0004]底层声学特征如语音帧的MFCC特征、PLP特征等主要用于描述语音信号的发音特点，并不能很好地体现语种的差异。这些特征不仅包含了音素区分性信息，也混叠了说话人、信道、噪声等各种干扰信息，使得能够区分语种的音素信息淹没其中，从而影响语种识别效果。

【发明内容】

[0005]本发明提供一种语种识别系统中声学特征提取方法及装置，以提高语种识别性倉泛。
[0006]为此，本发明提供如下技术方案:
[0007]—种语种识别系统中声学特征提取方法，包括:
[0008]接收输入的语音信号；
[0009]对所述语音信号进行分帧处理，获取语音帧序列；
[0010]提取所述语音帧序列中各语音帧的底层声学特征；
[0011]基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征。
[0012]优选地，所述底层声学特征为以下任意一种:LPCC特征、滤波器FilterBank特征、MFCC特征、PLP特征。
[0013]优选地，所述方法还包括:
[0014]在基于高层发音单元对所述底层声学特征进行优化之前，对所述底层声学特征提取一阶差分和二阶差分；[0015]将所述一阶差分和二阶差分与所述底层声学特征组成多维声学特征，并将所述多维声学特征作为新的底层声学特征。
[0016]优选地，所述基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征包括:
[0017]获取各语音帧的前、后帧扩展声学特征；
[0018]将所述扩展声学特征输入预先训练得到的深度置信网络模型，得到优化的扩展声学特征；
[0019]根据所述优化的扩展声学特征提取各语音帧上下文相关的扩展声学特征。
[0020]优选地，所述将所述扩展声学特征输入预先训练得到的深度置信网络模型，得到优化的扩展声学特征包括:
[0021]将所述扩展声学特征输入预先训练得到的深度置信网络模型，将所述深度置信网络模型中间隐含层或特征输出层的输出作为优化的扩展声学特征。
[0022]优选地，所述根据所述优化的扩展声学特征提取各语音帧上下文相关的扩展声学特征包括:
[0023]对所述优化的扩展声学特征基于前后相邻语音帧进行差分扩展，得到各语音帧上下文相关的扩展声学特征。
[0024]一种语种识别系统中声学特征提取装置，包括:
[0025]接收模块，用于接收输入的语音信号；
[0026]分帧处理模块，用于对所述语音信号进行分帧处理，获取语音帧序列；
[0027]特征提取模块，用于提取所述语音帧序列中各语音帧的底层声学特征；
[0028]优化模块，用于基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征。
[0029]优选地，所述底层声学特征为以下任意一种:LPCC特征、滤波器FilterBank特征、MFCC特征、PLP特征。
[0030]优选地，所述装置还包括:
[0031]差分提取模块，用于在所述优化模块基于高层发音单元对所述底层声学特征进行优化之前，对所述底层声学特征提取一阶差分和二阶差分；将所述一阶差分和二阶差分与所述底层声学特征组成多维声学特征，并将所述多维声学特征作为新的底层声学特征。
[0032]优选地，所述优化模块包括:
[0033]扩展单元，用于获取各语音帧的前、后帧扩展声学特征；
[0034]优化单元，用于将所述扩展声学特征输入预先训练得到的深度置信网络模型，得到优化的扩展声学特征；
[0035]提取单元，用于根据所述优化的扩展声学特征提取各语音帧上下文相关的扩展声学特征。
[0036]优选地，所述优化单元，用于将所述扩展声学特征输入预先训练得到的深度置信网络模型，将所述深度置信网络模型中间隐含层或特征输出层的输出作为优化的扩展声学特征。
[0037]优选地，所述提取单元，具体用于对所述优化的扩展声学特征基于前后相邻语音帧进行差分扩展，得到各语音帧上下文相关的扩展声学特征。[0038]本发明实施例提供的语种识别系统中声学特征提取方法及装置，针对提取的语音帧序列中各语音帧的底层声学特征，基于高层发音单元对其进行优化，提取更高层面的语音信息，突出声学特征中的音素信息而抑制其它干扰信息，有效提升了语种识别性能。
【专利附图】

【附图说明】
[0039]为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
[0040]图1是本发明实施例语种识别系统中声学特征提取方法的流程图；
[0041]图2是本发明实施例中基于深度置信网络模型对底层声学特征进行优化的流程图；
[0042]图3是本发明实施例中深度置信网络拓扑结构示意图；
[0043]图4是本发明实施例中深度置信网络模型的训练流程图；
[0044]图5是本发明实施例语种识别系统中声学特征提取装置的一种结构示意图；
[0045]图6是本发明实施例语种识别系统中声学特征提取装置的另一种结构示意图。
【具体实施方式】
[0046]为了使本【技术领域】的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0047]针对现有的语种识别系统主要提取语音信号的底层声学信息，不能很好地体现语种的差异，进而影响语种识别效果的问题，本发明实施例提供一种新的声学特征提取方法，通过提取高层面如音素层的语音信息，提高语音信号的语种信息区分性。
[0048]从语言学的角度，语种差异性主要体现各个语种之间发音音素的不同，音素的上下文搭配不同，以及不同音素出现的频度不同等方面。为此，在本发明实施例的方法及装置中，基于更高层面发音单元对语音帧声学特征优化，提取更高层面的语音信息，突出声学特征中的音素信息而抑制其它干扰信息，有效提升了语种识别性能。
[0049]如图1所示，是本发明实施例语种识别系统中声学特征提取方法的流程图，包括以下步骤:
[0050]步骤101，接收输入的语音信号。
[0051]步骤102，对所述语音信号进行分帧处理，获取语音帧序列。
[0052]具体地，可以通过加汉明窗的方式对所述语音信号进行分帧处理，得到每帧数据。
[0053]在实际应用中，汉明窗的窗长可以选择为25ms，前后两帧窗移为10ms，叠加部分为 15ms ο
[0054]进一步地，还可以预先对所述语音信号进行预加重处理，以减少尖锐噪声影响，提
升高频信号。
[0055]步骤103，提取所述语音帧序列中各语音帧的底层声学特征。
[0056]在实际应用中，所述底层声学特征可以采用LPCC (Linear Predictive CepstralCoding,线性预测倒谱系数)特征、滤波器FilterBank特征、MFCC特征或PLP特征中的任意一种。[0057]为了描述方便，下面以MFCC特征为例进行说明。
[0058]在提取各语音帧的MFCC特征时，可以首先通过傅立叶变换和取模得到频域信号，并经过三角滤波函数得到梅尔域的输出，取对数经过离散余弦变化进行去相关处理，得到N阶MFCC参数。
[0059]进一步地，在实际应用中，还可以对所述底层声学特征提取一阶差分和二阶差分，然后将所述一阶差分和二阶差分与所述底层声学特征组成3N维声学特征。
[0060]差分运算的公式如下:
[0061 ]
【权利要求】
1.一种语种识别系统中声学特征提取方法，其特征在于，包括: 接收输入的语音信号；对所述语音信号进行分帧处理，获取语音帧序列；提取所述语音帧序列中各语音帧的底层声学特征；基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征。
2.根据权利要求1所述的方法，其特征在于，所述底层声学特征为以下任意一种:LPCC特征、滤波器FilterBank特征、MFCC特征、PLP特征。
3.根据权利要求1所述的方法，其特征在于，所述方法还包括: 在基于高层发音单元对所述底层声学特征进行优化之前，对所述底层声学特征提取一阶差分和二阶差分；将所述一阶差分和二阶差分与所述底层声学特征组成多维声学特征，并将所述多维声学特征作为新的底层声学特征。
4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征包括: 获取各语音帧的前、后帧扩展声学特征；将所述扩展声学特征输入预先训练得到的深度置信网络模型，得到优化的扩展声学特征；根据所述优化的扩展声学特征提取各语音帧上下文相关的扩展声学特征。
5.根据权利要求4所述的方法，其特征在于，所述将所述扩展声学特征输入预先训练得到的深度置信网络模型，得到优化的扩展声学特征包括: 将所述扩展声学特征输入预先训练得到的深度置信网络模型，将所述深度置信网络模型中间隐含层或特征输出层的输出作为优化的扩展声学特征。
6.根据权利要求4所述的方法，其特征在于，所述根据所述优化的扩展声学特征提取各语音帧上下文相关的扩展声学特征包括: 对所述优化的扩展声学特征基于前后相邻语音帧进行差分扩展，得到各语音帧上下文相关的扩展声学特征。
7.一种语种识别系统中声学特征提取装置，其特征在于，包括: 接收模块，用于接收输入的语音信号；分帧处理模块，用于对所述语音信号进行分帧处理，获取语音帧序列；特征提取模块，用于提取所述语音帧序列中各语音帧的底层声学特征；优化模块，用于基于高层发音单元对所述底层声学特征进行优化，得到所述高层发音单元的声学特征。
8.根据权利要求7所述的装置，其特征在于，所述底层声学特征为以下任意一种:LPCC特征、滤波器FilterBank特征、MFCC特征、PLP特征。
9.根据权利要求7所述的装置，其特征在于，所述装置还包括: 差分提取模块，用于在所述优化模炔基于高层发音单元对所述底层声学特征进行优化之前，对所述底层声学特征提取一阶差分和二阶差分；将所述一阶差分和二阶差分与所述底层声学特征组成多维声学特征，并将所述多维声学特征作为新的底层声学特征。
10.根据权利要求7至9任一项所述的装置，其特征在于，所述优化模块包括: 扩展单元，用于获取各语音帧的前、后帧扩展声学特征；优化单元，用于将所述扩展声学特征输入预先训练得到的深度置信网络模型，得到优化的扩展声学特征；提取单元，用于根据所述优化的扩展声学特征提取各语音帧上下文相关的扩展声学特征。
11.根据权利要求10所述的装置，其特征在于: 所述优化单元，用于将所述扩展声学特征输入预先训练得到的深度置信网络模型，将所述深度置信网络模型中间隐含层或特征输出层的输出作为优化的扩展声学特征。
12.根据权利要求10所述的装置，其特征在于: 所述提取单元，具体用于对所述优化的扩展声学特征基于前后相邻语音帧进行差分扩展，得到各语音帧上下文相关的扩展声学特征。
【文档编号】G10L15/02GK103559879SQ201310553080
【公开日】2014年2月5日申请日期:2013年11月8日优先权日:2013年11月8日
【发明者】刘俊华, 魏思, 胡国平, 方磊, 胡郁申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘俊华;魏思;胡国平;方磊;胡郁
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人

上一篇：显示装置、语音获取装置及其语音识别方法
上一篇：语种无关的关键词识别方法及系统的制作方法