一种语言音频的检测系统及方法

文档序号：8362637阅读：372来源：国知局

一种语言音频的检测系统及方法
【技术领域】
[0001] 本发明涉及语言信号处理技术领域，特别涉及一种语言音频的检测系统及方法。
【背景技术】
[0002] 语音技术的实际应用环境通常非常复杂，系统接收到的音频中可能包含很多非目标语言的声音，比如不同语种的语音、音乐、自然噪声和人造噪声等。这些音频的存在会严重影响语音技术的可用性和用户体验。因此，采用技术手段高效地检测并过滤这些音频是非常有必要的。
[0003] 在这类技术中，最典型的是语种识别技术和噪声检测技术。其中，语种识别技术是利用语音中包含的音韵信息（比如特殊的发音单元，发音单元的不同分布或者组合方式等）来判断语言种类。
[0004] 现有技术中，最成熟的语种识别技术是基于音素识别的多音素语言模型技术该技术认为不同语种识别器产生的音素序列分布和组合是有各自不同规律的，因此利用不同语种识别器输出的音素识别序列在不同语种语言的音素语言模型上的分布概率进行语种识另IJ。该技术具有较好的精度和通用型，但是其性能在短语音上会急剧下降，存在一定局限性。

【发明内容】

[0005] 为了解决现有技术的问题，本发明实施例提供了一种语言音频的检测系统及方法。所述技术方案如下：
[0006] 一方面，提供了一种语言音频的检测系统，所述系统包括：声学特征提取模块、音素识别模块、声学置信度计算模块、语言置信度计算模块、韵律特征提取模块和分类判别模块；
[0007] 其中，
[0008] 所述声学特征提取模块用于提取输入语音信号的声学特征，所述声学特征至少包括输入音频的基频特征；
[0009] 所述音素识别模块由至少包括目标语言对应识别器的一组识别器组成，所述一组识别器分别对应不同的语言，用于对所述声学特征进行并行语音识别解码，得到不同语言的最佳音素序列和对应的时间边界，所述不同语言的最佳音素序列和对应的时间边界至少包括目标语言的最佳音素序列和对应的时间边界；
[0010] 所述声学置信度计算模块用于根据所述不同语言的最佳音素序列和对应的时间边界，分别计算不同语言的音素序列在DNN模型上的后验概率，作为该音素序列的声学置信度，得到不同语言音素序列的声学置信度；
[0011] 所述语言置信度计算模块用于根据所述不同语言的最佳音素序列和对应的时间边界，分别计算不同语言的音素序列在对应语言的更高阶语言模型上的生成概率，作为该音素序列的语言置信度，得到不同语言音素序列的语言置信度；
[0012] 所述韵律特征提取模块用于根据所述目标语言的最佳音素序列和对应的时间边界以及所述输入音频的基频特征，计算输入音频的韵律特征；
[0013] 所述分类判别模块用于利用预先训练好的分类器对所述不同语言音素序列的声学置信度、语音置信度以及所述输入音频的韵律特征组成的特征向量进行目标语言/非目标语言分类。
[0014] 可选地，所述一组识别器中每个识别器采用其对应语言的声学模型和语言模型，所述声学模型需要预先采用相应语言的语音数据进行训练，所述语音模型需要预先采用相应语言的文本数据进行训练。
[0015] 可选地，所述音频的韵律特征包括句子级基音频率最大值，句子级基音频率最小值，句子级基音频率的方差，音素级基音频率方差的均值，音素级基音频率方差的方差，音素级基音频率方差的最大值和最小值之差，句子中有声段所占的比例，句子中无声音素的比例，句子中最大音素时长，句子中最小音素时长，句子中音素时长的均值，句子中音素时长的方差。
[0016] 可选地，分类判别模块还用于将所述不同语言音素序列的声学置信度、语音置信度以及所述输入音频的韵律特征组成一个超向量，送入预先训练好的分类器进行预测分类，计算该超向量的得分，如果该得分大于给定阈值，则确定输入语言音频为目标语言音频，否则确定为非目标语言音频。
[0017] 另一方面，提供了一种语言音频的检测方法，所述方法包括：
[0018] 提取输入语音信号的声学特征，所述声学特征至少包括输入音频的基频特征；
[0019] 对所述声学特征进行并行语音识别解码，得到不同语言的最佳音素序列和对应的时间边界，所述不同语言的最佳音素序列和对应的时间边界至少包括目标语言的最佳音素序列和对应的时间边界；
[0020] 根据所述不同语言的最佳音素序列和对应的时间边界，分别计算不同语言的音素序列在DNN模型上的后验概率，作为该音素序列的声学置信度，得到不同语言音素序列的声学置信度；
[0021] 根据所述不同语言的最佳音素序列和对应的时间边界，分别计算不同语言的音素序列在对应语言的更高阶语言模型上的生成概率，作为该音素序列的语言置信度，得到不同语言音素序列的语言置信度；
[0022] 根据所述目标语言的最佳音素序列和对应的时间边界以及所述输入音频的基频特征，计算输入音频的韵律特征；
[0023] 利用预先训练好的分类器对所述不同语言音素序列的声学置信度、语音置信度以及所述输入音频的韵律特征组成的特征向量进行目标语言/非目标语言分类。
[0024] 可选地，所述音频的韵律特征包括句子级基音频率最大值，句子级基音频率最小值，句子级基音频率的方差，音素级基音频率方差的均值，音素级基音频率方差的方差，音素级基音频率方差的最大值和最小值之差，句子中有声段所占的比例，句子中无声音素的比例，句子中最大音素时长，句子中最小音素时长，句子中音素时长的均值，句子中音素时长的方差。
[0025] 可选地，利用预先训练好的分类器对所述不同语言音素序列的声学置信度、语音置信度以及所述输入音频的韵律特征组成的特征向量进行目标语言/非目标语言分类包括：
[0026] 将所述不同语言音素序列的声学置信度、语音置信度以及所述输入音频的韵律特征组成一个超向量，送入预先训练好的分类器进行预测分类，计算该超向量的得分，如果该得分大于给定阈值，则确定输入语言音频为目标语言音频，否则确定为非目标语言音频。
[0027] 本发明实施例提供的技术方案带来的有益效果是：
[0028] 本发明所提供的方法，通过综合利用声学置信度、语言置信度和韵律特征信息，系统的检测性能获得显著提高，适用于不同长度的音频检测，具有很好的检测稳定性，可以处理多种非目标语言音频和噪声音频，具有很好的实用性，可以根据非目标语言的类型进行快速扩展，只需要提供新语种的声学模型和语言模型，然后重新训练分类器模型就可以，具有较好的系统结构的灵活性和可扩展性。
【附图说明】
[0029] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0030] 图1是本发明实施例提供的语言音频检测系统结构示意图；
[0031] 图2是本发明实施例提供的语言音频检测方法流程图。
【具体实施方式】
[0032] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。
[0033] 图1是本发明实施例提供的语言音频的检测系统结构示意图。参见图1，该系统包括：声学特征提取模块、音素识别模块、声学置信度计算模块、语言置信度计算模块、韵律特征提取模块和分类判别模块。其中，
[0034] 该声学特征提取模块用于提取输入语音信号的声学特征，该声学特征至少包括输入音频的基频特征；
[0035] 其中，该声学特征可以包括：PLP((Perceptual Linear Predict ive，感知线性预测）特征，MFCC(Mel Frequency

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王欢良;杨嵩;代大明;袁军峰;惠寅华;林远东;
技术所有人：苏州驰声信息科技有限公司;
我是此专利的发明人

上一篇：发音指导方法、装置及点读机的制作方法
上一篇：一种基于短时处理异常声音检测和识别系统的制作方法