一种语音活动检测方法及装置制造方法

文档序号：2827503阅读：134来源：国知局

一种语音活动检测方法及装置制造方法
【专利摘要】本发明涉及一种语音活动检测方法及装置，包括：提取干净语音信号的信号特征和混噪语音信号的信号特征；根据所述干净语音信号的信号特征进行字典训练得到语音字典；根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据，提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典；根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示；提取所述稀疏表示中的稀疏系数，根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。采用本发明提出的方法及装置，能够准确分辨出噪声环境下语音信号的语音部分和非语音部分，提高在变化噪声环境下语音活动检测的性能。
【专利说明】一种语音活动检测方法及装置
【技术领域】
[0001]本发明涉及语音信号处理【技术领域】，尤其涉及一种语音活动检测方法及装置。
【背景技术】
[0002]分析和处理语音需要解决的一个首要问题是检测出语音信号中的语音和非语音，这一任务被称为语音活动检测(Voice activity detect1n, VAD)。该技术在语音处理领域中具有重要作用，且在很大程度上影响着其他应用技术的性能，典型的有鲁棒语音识别，说话人识别，语音编程和传输，以及联合降噪和回波消除等。
[0003]传统的VAD的基本方法有G.729标准等，G.729标准计算线光谱频率，全频段能量，低频段能量(〈lkhz)，和过零率。然后设定门限对信号的每一帧进行简单的分类，同时还用平滑和自适应的校正来提高分类的准确性。
[0004]尽管上述方法在无噪环境下能取得满意的性能，但在噪声环境下，其性能将急剧降低。为解决这一问题，一些研究者提出了基于统计模型的语音活动检测算法。典型的将假设噪声和语音信号的频谱系数能用复杂的高斯随机变量来建模，从而发展了基于似然比检验的语音活动检测算法。后来，又有许多研究者想通过为语音信号假设不同的统计模型来提高基于统计模型的语音活动检测算法的性能。例如有高斯模型、拉普拉斯模型、信噪比测量、多个观测似然比检验、广义伽马分布模型、马尔可夫模型等。
[0005]这些方法在稳定的噪声环境下有很好的表现，但在变化的噪声的条件下，其性能仍然难以满足现实实用的要求。为解决这一问题，研究者们进一步提出了声学事件检测(AED)技术，转换卡尔曼滤波器(SKF)和聚类算法(如谱聚类)的方法等等。
[0006]近年来，随着稀疏分解与重构理论的成熟，稀疏编码(Sparse Coding)在信号处理的各个领域表现出了巨大潜力。该技术在稀疏性准则下将信号用一组基元信号线性表示，获得信号的稀疏表示(Sparse Representat1n)。其中，每个基元信号称为一个原子(Atom),所有原子组成的集合称为原子字典(Atom Dict1nary)。现实中的大量信号,如语音、图像等都满足或近似满足稀疏性。
[0007]形态成分分析(Morphological Component Analysis, MCA)就是一种基于信号稀疏表不的分离方法。这种方法假设对于混合信号中的每一个信号源，都存在这相应的字典，能够稀疏表不该信号，并且其他信号不能用该字典稀疏表不。在含有噪声的情况下，MCA是一种有效的稀疏表示方法。基于K奇异值分解(KSVD)是一种由K-均值算法扩展而来的过完备字典训练方法。该算法运用稀疏表示的方法，相比传统的算法具有较小的计算量和更好的表现。

【发明内容】

[0008](一 )要解决的技术问题
[0009]本发明的目的是提供一种语音活动检测方法及装置，以解决现有技术在变化的噪声条件下语音活动检测的检测鲁棒性差的问题。[0010](二)技术方案
[0011]为了达到上述目的，本发明提出了一种语音活动检测方法，该方法包括以下步骤:
[0012]提取干净语音信号的信号特征和混噪语音信号的信号特征；
[0013]根据所述干净语音信号的信号特征进行字典训练得到语音字典；
[0014]根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据，提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典；
[0015]根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示；
[0016]提取所述稀疏表示中的稀疏系数，根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。
[0017]优选地，提取干净语音信号的信号特征和混噪语音信号的信号特征具体包括:
[0018]对干净语音的离散时间信号进行预处理；
[0019]将经过预处理的干净语音信号的信号帧进行离散傅立叶变换得到干净语音信号的幅度谱，将所述干净语音信号的幅度谱作为干净语音信号的信号特征；
[0020]对混噪语音的离散时间信号进行预处理；
[0021]将经过预处理的混噪语音信号的信号帧进行离散傅立叶变换得到混噪语音信号的幅度谱，将所述混噪语音信号的幅度谱作为混噪语音信号的信号特征。
[0022]优选地，预处理具体包括:对离散时间信号进行分帧，并对分帧处理后的帧信号进行加窗。
[0023]优选地，根据干净语音信号的信号特征进行字典训练得到语音字典具体包括:
[0024]利用K-SVD算法对所述干净语音信号的信号特征进行字典训练得到语音字典Φ%计算公式如下所示:
[0025]
【权利要求】
1.一种语音活动检测方法，其特征在于，包括: 提取干净语音信号的信号特征和混噪语音信号的信号特征；根据所述干净语音信号的信号特征进行字典训练得到语音字典；根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据，提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典；根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示；提取所述稀疏表示中的稀疏系数，根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。
2.如权利要求1所述的方法，其特征在于，所述提取干净语音信号的信号特征和混噪语音信号的信号特征具体包括: 对干净语音的离散时间信号进行预处理；将经过预处理的干净语音信号的信号帧进行离散傅立叶变换得到干净语音信号的幅度谱，将所述干净语音信号的幅度谱作为干净语音信号的信号特征；对混噪语音的离散时间信号进行预处理；将经过预处理的混噪语音信号的信号帧进行离散傅立叶变换得到混噪语音信号的幅度谱，将所述混噪语音信号的幅度谱作为混噪语音信号的信号特征。
3.如权利要求2所述的方法，其特征在于，预处理具体包括:对离散时间信号进行分中贞，并对分帧处理后的帧信号进行加窗。
4.如权利要求1所述的方法，其特征在于，所述根据干净语音信号的信号特征进行字典训练得到语音字典具体包括: 利用K-SVD算法对所述干净语音信号的信号特征进行字典训练得到语音字典Φ%计算公式如下所示:
min Ys — Φ^Χ，suject to | | Xi | | Q < T0 其中，Yi =[乂%￥丨,..是由M个干净语音信号的帧组成的训练用的信号特征，X =[X1, X2,, x?]是相对于Ys的一组稀疏向量集，Ttl是训练语音字典的稀疏的预设限制门限。
5.如权利要求1所述的方法，其特征在于，所述根据混噪语音信号的信号特征动态更新预设的噪声训练数据，提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典具体包括: 根据所述混噪语音信号的信号特征进行字典训练得到混噪字典；提取预设的噪声训练数据的信号特征进行字典训练得到初始噪声字典；根据所述语音字典和初始噪声字典对所述混噪语音信号进行稀疏表示，从所述混噪语音信号中提取出新的噪声数据动态更新预设的噪声训练数据；提取更新后的所述噪声训练数据的信号特征进行字典训练更新所述初始噪声字典，得到噪声字典。
6.如权利要求1所述的方法，其特征在于，所述根据语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示具体包括: 将所述语音字典和噪声字典进行字典拼接生成原子字典；根据所述原子字典利用形态成分分析MCA算法计算输入的混噪语音信号的信号帧的稀疏系数，所述稀疏系数包括语音字典的稀疏系数和噪声字典的稀疏系数；根据所述稀疏系数将输入的混噪语音信号的信号帧进行稀疏表示。
7.如权利要求6所述的方法，其特征在于，所述提取稀疏表示中的稀疏系数，根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测具体包括: 提取所述语音字典的稀疏系数；将所述语音字典的稀疏系数与预设门限进行比较，当语音字典的稀疏系数中非零元素的个数大于预设门限时，则输入的混噪语音信号的信号帧为语音信号，否则，所述信号帧为非语音信号。
8.一种语音活动检测的装置，其特征在于，该装置包括: 特征提取模块，用于提取干净语音信号的信号特征和混噪语音信号的信号特征；语音字典训练模块，用于根据所述干净语音信号的信号特征进行字典训练得到语音字血.ZN ? 噪声字典训练模块，用于根据所述混噪语音信号的信号特征动态更新预设的噪声训练数据，提取更新后的所述噪声训练数据的信号特征进行在线字典训练得到噪声字典；稀疏分解模块，用于根据所述语音字典和噪声字典对输入的混噪语音信号的信号帧进行稀疏表示；检测模块，用于提取所述稀疏表示中的稀疏系数，根据所述稀疏系数对输入的混噪语音信号的信号帧进行检测。
9.如权利要求8所述的装置，其特征在于，所述稀疏分解模块包括: 字典拼接单元，用于将所述语音字典和噪声字典进行字典拼接生成原子字典；稀疏系数计算单元，用于根据所述原子字典利用MCA算法计算输入的混噪语音信号的信号帧的稀疏系数，所述稀疏系数包括语音字典的稀疏系数和噪声字典的稀疏系数；稀疏表示单元，用于根据所述稀疏系数将输入的混噪语音信号的信号帧进行稀疏表/Jn ο
10.如权利要求8所述的装置，其特征在于，所述检测模块包括: 提取单元，用于从所述稀疏系数中提取所述语音字典的稀疏系数；检测单元，用于将所述语音字典的稀疏系数与预设门限进行比较，当语音字典的稀疏系数中非零元素的个数大于预设门限时，则输入的混噪语音信号的信号帧为语音信号，否贝U，所述信号帧为非语音信号。
【文档编号】G10L21/0308GK104036777SQ201410217411
【公开日】2014年9月10日申请日期:2014年5月22日优先权日:2014年5月22日
【发明者】何勇军, 孙广路, 谢怡宁, 郑云龙申请人:哈尔滨理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何勇军;孙广路;谢怡宁;郑云龙
技术所有人：哈尔滨理工大学
我是此专利的发明人

上一篇：一种评分准确、用户体验好的演唱实时评分方法
上一篇：一种基于半监督特征选择的语音情感识别方法