语音端点检测中短时能频值的提取方法

文档序号：2830942阅读：339来源：国知局

专利名称：语音端点检测中短时能频值的提取方法
技术领域：
本发明涉及自动字幕生成系统中的语音检测技术，具体涉及一种语音端点检测中短时能频值的提取方法。

背景技术：
语音端点检测技术是语音技术研究的一个新的领域，其应用于自动字幕生成系统中。当前的字幕制作方法首先需要准备好字幕文稿，这种字幕文稿是指在制作电视节目之前，事先写好的一个文本文件，记录着节目的标题、主持人要说的话，以及被采访人所讲的话等内容。在制作电视节目时，编辑人员把音、视频素材添加到非线性编辑软件的故事板上，然后按照节目的主旨，对其进行编辑。编辑操作一般包括对素材位置的修改，添加一些特技，添加字幕等等。添加字幕时，一般是先在字幕文稿中选择多段文字(每一段就是一句话)，然后以这些文字生成一个新的字幕文件，将这个文件拖上非线性编辑软件的轨道，此时字幕中的每一句话就会按顺序播出，但是往往会出现“声画不同步”的现象，即字幕出现的时刻和音频文件中播出的声音对不上。这时就需要编辑人员一边听声音，一边一句句地修改字幕的入点和出点的值。这就非常耗费人力和时间，影响唱词文件生成的质量和效率。
从复杂背景噪声中找出语音的起始点和结束点，即语音端点检测技术，一直是语音信号处理中的基本问题。由于语音端点检测的重要性，人们已经提出了很多种语音端点检测方法。这些方法大致可以分为基于模型的方法和基于门限的方法两类。
基于门限的语音端点检测方法是根据语音的特点，选择合适的特征参数，然后将该特征参数与预先设定的门限值进行比较，或者是先对特征参数进行一系列的后期处理然后再与门限进行比较。
现有的基于门限的端点检测参数主要有 1)能量以声音的强度作为判断参数。这种方法在高信噪比的情况下会有很好的效果。但是，在信噪比低的情况下，如在汽车引擎声、关门声等噪声的干扰下，这种方法的准确率很低。
2)频率采用频率域的特征作为判断依据。这种方法可以准确的区分语音和汽车引擎、关门声等噪声，但是，对于语音和乐音的区别效果较差。
无论采用哪种音频参数，传统的语音端点检测方法在特定的噪声环境下都存在很大的不足。比如，基于能量的方法在低SNR的环境中表现不好；基于信息熵的算法在音乐背景下则会失效。
因此，有必要引入一种音频参数，能够在多种噪声条件下保证语音端点检测的准确性。

发明内容
本发明的目的在于针对自动字幕生成系统的特点以及传统语音端点检测方法在语音特征参数选取上的缺陷，提供一种语音端点检测中短时能频值的提取方法，该方法将时域和频域的音频特征参数结合在一起，能够发挥它们各自的长处，同时又可以在一定程度上规避各自的缺点，从而能够有效的应对各种不同类型的背景噪声。
本发明的技术方案如下一种语音端点检测中短时能频值的提取方法，包括如下步骤 (1)将音频采样序列分成固定长度的帧，并形成一个帧序列； (2)针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数； (3)根据上述音频特征参数按如下公式计算每一帧数据的短时能频值，并形成一个短时能频值序列， EZE-featurei＝(Ei-Eb)·(Zi-Zb)·(Hi-Hb) 其中，EZE-featurei表示第i帧的短时能频值；Ei、Zi和Hi分别表示第i帧的短时能量、短时过零率和短时信息熵；Eb、Zb和Hb分别表示当前背景噪声的短时能量、短时过零率和短时信息熵。
进一步，如上所述的语音端点检测中短时能频值的提取方法，在步骤(1)中，将音频采样序列分成10ms长度的帧。
进一步，如上所述的语音端点检测中短时能频值的提取方法，在步骤(2)中，所提取的第i帧的短时能量为其中，N表示第i帧中所包含的音频采样数量；Sn表示第n个采样的取样值。
进一步，如上所述的语音端点检测中短时能频值的提取方法，在步骤(2)中，所提取的第i帧的短时过零率为其中，N表示第i帧中所包含的音频采样数量；Sn表示第n个采样的取样值；sgn()为符号函数，定义为进一步，如上所述的语音端点检测中短时能频值的提取方法，在步骤(2)中，提取短时信息熵的步骤如下 (a)利用短时傅里叶变换(FFT)对每一帧的信号进行由时域向频域的转换其中，Sn表示第n个音频采样，N为总采样数； (b)计算每一频率的出现概率其中，s(fi)表示频率f的频谱能量，pi表示相应频率的出现概率，M表示傅里叶变换计算得出的频率的总数，即窗口宽度，所规定的约束条件为 s(fi)＝0 if fi≤250HZ or fi≥3750HZ pi＝0 if pi≥0.9 (c)计算语音信息熵其中，M表示傅里叶变换计算得出的频率的总数，即窗口宽度，pi表示相应频率的出现概率，Hi表示第i帧的短时信息熵。
更进一步，如上所述的语音端点检测中短时能频值的提取方法，在步骤(3)中，对每一帧的短时能频值进行平滑处理，处理中对短时能量、短时过零率和短时信息熵三个音频特征参数分别进行平滑，通常采用5帧平滑的方式，对于某一帧Fn，设它的某个音频特征参数是Xn，找到它左右相邻的4帧Fn-2、Fn-1、Fn+1、Fn+2，并找出它们相应的音频特征参数Xn-2、Xn-1、Xn+1、Xn+2，则平滑后得到的音频特征参数Xn-smoothed为对于第一帧和最后一帧采用3帧平滑的方式，平滑后得到的音频特征参数分别为对于第二帧和倒数第二帧采用4帧平滑的方式，平滑后得到的音频特征参数分别为本发明的有益效果如下本发明所提供的语音端点检测中短时能频值的提取方法综合考虑了语音的时域和频域特征，将时域和频域的音频特征参数结合在一起，能够发挥它们各自的长处，同时又可以在一定程度上规避各自的缺点。语音端点检测所针对的一般是一段比较长的语音段，在此期间背景噪声随时有可能发生各种变化。当检测到背景噪声的变化时，可以相应的更新Eb、Zb和Hb三个参数的值，然后重新计算那些受此噪声影响的帧的短时能频值，从而使短时能频值能够对背景噪声的变化做出反应，从而能够有效的应对各种不同类型的背景噪声。

图1为短时能频值的提取流程图。
图2为短时能频值的波形图。
图3为短时能频值的平滑处理流程图。
图4为短时能频值平滑处理前后的波形对比图。

具体实施例方式 下面结合附图和具体实施例对本发明进行详细的描述。
(一)短时能量、短时过零率和短时信息熵三个音频特征参数的提取 1.短时能量能量是最经常使用的音频特征参数之一，是对语音信号最直观的表示。语音信号的能量分析基于语音信号幅度随时间有相当的变化这一现象。能量可以用于区别发音的清音段和浊音段，能量值较大的对应于清音段，能量值较小的对应于浊音段。对于高信噪比的信号，可以用能量来判断有无语音。无语音信号的噪声能量较小，而有语音信号时能量会显著增大，由此可以粗略区分语音信号的起始点和中止点。另外，能量还可以用来区分声母和韵母的分界、以及连字的分界等。
在本发明中，采用“短时能量”作为主要的特征参数之一。所谓短时能量，就是先对音频信号进行分帧处理，然后对每一帧求其能量，它被定义为一帧中所有采样值平方的和。第i帧的短时能量定义为其中，N表示第i帧中所包含的音频采样数量；Sn表示第n个采样的取样值。
2.短时过零率过零率是声音信号处理过程中一个常用的音频特征参数。当离散语音信号的时域波形通过时间横轴时，相邻时刻的采样值如果具有不同的符号，称为“过零”。单位时间的过零次数称为“过零率”，即单位时间内音频采样值符号变换的次数。同上，在本发明中将单位时间限定为一帧，每一帧的过零率就是“短时过零率”。第i帧的短时过零率定义如下其中，Sn表示第n个音频采样的值；sgn()为符号函数，定义为过零分析是语音的时域分析中最简单的一种分析。它可以区别语音的发音是清音还是浊音。由于清音语音的多数能量出现在较高的频率上，因此清音的过零率较高；而浊音语音具有高频跌落的频谱，因此浊音的过零率低。利用短时过零率还可以从背景噪声中找出语音信号。在孤立词的语音识别中，必须要在一串连续的语音信号中进行适当分割，用以确定每个单词语音的信号，也即找出每个单词的开始和终止位置。用平均过零率来确定单词的起始点时，判断依据是语音开始点以前的过零率低，而开始点以后的过零率有明显的数值。在有背景噪声的情况下，一般背景噪声的平均过零率较低，而单词起始段的平均过零率急剧增大，由此可判定此单词的起始点。
3.短时信息熵语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的。因此，对语音信号进行频谱分析，是认识语音信号和处理语音信号的重要方法。语音信号是一种典型的非平稳信号，但是其非平稳性是由发音器官的物理运动过程而产生的，由此可以假定其频域也是短时平稳的。
信息熵是频域的重要音频参数，它反应了语音信号所传达的信息量的大小。信息熵在语音编解码中经常被使用，J.L.Shen首次将它应用在语音端点检测技术中。本发明同样对每一帧都计算其信息熵，称为短时信息熵，计算方法如下 (a)利用短时傅里叶变换(FFT)对每一帧的信号进行由时域向频域的转换由于此处的傅立叶变换都是对某一帧进行的，因此相当于对傅立叶变换加上了一个窗口函数w(n-k)。k的取值取决于要对哪一帧进行短时傅立叶变换。
(b)计算每一频率的出现概率其中，s(fi)表示频率f的频谱能量，pi表示相应频率的出现概率，M表示傅里叶变换计算得出的频率的总数，即窗口宽度，此处取480。
所规定的约束条件为 s(fi)＝0 if fi≤250HZ or fi≥3750HZ pi＝0 if pi≥0.9 第一个约束公式用来保证语音信号的频率范围。因为人的发音频率基本集中在250Hz到3750Hz之间，所以我们把频率限定在这个范围之内。第二个约束公式用来滤除在某些频率上持续发生的噪声。
(c)计算语音信息熵其中，M表示傅里叶变换计算得出的频率的总数，即窗口宽度，pi表示相应频率的出现概率，Hi表示第i帧的短时信息熵。
试验证明，语音信号的信息熵和非语音信号的信息熵之间存在很大的差别，由此可以用来寻找语音端点的位置。在很多情况下，尤其是当背景噪声主要是机械噪声时，使用信息熵作为特征参数比单纯使用能量更加可靠。
但是，在连续不断的背景噪声或者音乐背景下，使用信息熵来进行语音端点检测会非常不可靠。因为同语音一样，连续的背景噪声或者背景音乐也含有很多信息。相对而言，在这种情况下使用能量作为特征参数反而会取得较好的效果，因为语音与背景噪声的叠加总会大过单纯的背景噪声。
(二)短时能频值的确定在上述三个音频特征参数的基础上，本发明提出了一个结合时域和频域的语音特征参数，称作短时能频值，记做EZE-feature。
1.短时能频值的定义第i帧的短时能频值EZE-featurei的定义如下 EZE-featurei＝(Ei-Eb)·(Zi-Zb)·(Hi-Hb) 其中，EZE-featurei表示第i帧的短时能频值；Ei、Zi和Hi分别表示第i帧的短时能量、短时过零率和短时信息熵；而Eb、Zb和Hb则分别表示了当前背景噪声的短时能量、短时过零率和短时信息熵。典型的短时能频值波形如图2所示，截取自一段新闻的短时能频值波形。
短时能频值同时结合了时域和频域的语音特征。短时能量和短时过零率属于时域的音频特征参数，短时信息熵则属于频域的音频特征参数。将时域和频域的音频特征参数结合在一起，能够发挥它们各自的长处，同时又可以在一定程度上规避它们各自的缺点，从而能够有效的应对各种不同类型的背景噪声。
鉴于背景噪声和背景音乐的这种不确定性，我们不可能一直使用音频信号的前几帧作为背景噪声。而是应该在端点检测过程中，根据检测出的语音情况，自动选取新的音频帧作为背景噪声进行处理。
首先，默认音频文件最初的10ms为环境音，将这10ms的音频信号的短时能量平均值、短时过零率平均值和短时信息熵平均值作为最初的背景噪声的短时能量Eb、短时过零率Zb和短时信息熵Hb。自适应的语音端点检测算法对于噪声采取了一种反馈机制当发现背景噪声可能已经发生变化时，算法要回退到噪声发生变化之前的语音帧，重新进行检测。其过程如下所述 1)找到了某个语音起点，记为第Fh帧，当Fh与上一个语音终点Ft帧相距300ms以上时，则进行环境噪声的提取。
2)从第Ft帧开始，取接下来的10帧当作背景噪声，重新计算Eb、Zb和Hb的值。计算方法为取算术平均，以Eb为例 3)从第Ft+1帧开始，使用更新后的Eb、Zb和Hb，重新计算每一帧的短时能频值，得到新的短时能频值序列。
4)从第Ft+1帧开始，使用新的短时能频值序列重新执行端点检测过程。
2.短时能频值的提取过程在语音端点检测过程中，我们需要求得每一帧的短时能频值。求第i帧的短时能频值，就要用到第i帧的短时能量、短时过零率和短时信息熵。其提取过程如图1所示。
步骤1首先对音频信号序列进行分帧处理，得到一个音频帧序列。在本发明中将10ms规定为一帧。例如，如果音频文件的采样率是48k/s，那么每帧就应该包含480个采样。
步骤2从步骤1中得到的帧序列里的第一帧开始直到最后，计算每一帧的三个音频特征参数，得到短时能量序列、短时过零率序列和短时信息熵序列。
步骤3从帧序列里的第一帧开始直到最后，应用步骤2里求得的三个音频特征参数序列，并应用每一帧所对应的背景噪声的相应音频特征参数，按照短时能频值的定义公式进行计算。重复此过程直到所有帧的短时能频值都计算完成。最后得到一个与帧序列相对应的短时能频值序列。
3.短时能频值的平滑处理人的语音在字(词)之间具有一定的相关性，字(词)之间不会产生非常突兀的变化。因此，可以对上述三个语音特征参数进行平滑处理。一方面，由于噪声的影响，音频信号中可能出现突兀的毛刺现象，主要表现为在一系列平缓的音频波形中突然出现剧烈震动的单个波(正常情况为一系列的震动波)。使用平滑处理可以有效地去除一些由噪声引起的毛刺现象。另一方面，也对语音参数的有效性做出一定的优化。语音信号是连续的，语音前后之间具有一定的相关性，将语音信号分割成一系列间断帧的处理方式破坏了这种相关性，而平滑处理则可以在一定程度上弥补由于分帧处理带来的影响。
平滑处理可在时域上进行，也可以在频域上进行。本发明对音频信号主要采取时域平滑的处理方式。
因为本发明中需要用到3个音频特征参数短时能量、短时过零率和短时信息熵都是直接使用音频信号的取样值求得的，因此在进行平滑处理时也要对3个特征参数分别进行平滑。
对于某一帧Fn进行平滑处理，设它的某个音频特征参数是Xn。采用5帧平滑的方式，找到它左右相邻的4帧Fn-2、Fn-1、Fn+1、Fn+2，并找出它们相应的音频特征参数Xn-2、Xn-1、Xn+1、Xn+2。则平滑后得到的音频特征参数Xn-smoothed为整个平滑处理的过程如图3所示。在进行语音端点检测之前，我们需要对音频信号中的每一帧都按照上述方法进行平滑处理。
对于音频信号中的开始两帧以及最后两帧，无法进行5帧平滑。在音频文件中，一般在开始的两帧和最后的两帧中很少有语音出现，因此对这些边界帧进行异常处理并不会对语音端点检测的准确度产生大的影响。从而可以相应的采取4帧或3帧进行平滑处理。
对第一帧，我们可以同时使用第1、2、3帧来进行3帧平滑；而对于第二帧，我们可以使用第1、2、3和4帧来进行4帧平滑。类似的，对于最后两帧，我们可以使用相同的方法进行3帧或4帧平滑处理。
对于第一帧和最后一帧采用3帧平滑的方式，平滑后得到的音频特征参数分别为对于第二帧和倒数第二帧采用4帧平滑的方式，平滑后得到的音频特征参数分别为图4显示了一段新闻的短时能频值波形片断，可以看出在平滑处理后，毛刺现象明显减少，但是波形的大体轮廓保持不变。其中a图为未平滑的波形，b图为平滑后的波形。
通过仿真工具软件matlab对很多音频文件的短时能频值波形研究后发现在语音和音乐叠加的时间段中，或者在只有语音的时间段中，短时能频值波形的变化非常剧烈，变化频率很高，而且变化的幅度非常大。而在既没有语音又没有音乐，只有背景噪声的时间段中，短时能频值基本保持很小的变化幅度，而且变化的频率比较小。另外，在只有音乐没有语音的时间段中，不管有没有背景噪声出现，由于经过了滤波器滤波后，音乐的高频部分已经被滤掉，所以虽然短时能频值变化的幅度仍然非常大，但是，其变化的频率却比有语音时要缓和的多。因此，通过计算一个音频文件的短时能频值序列，并研究其波形，找出其中变化剧烈而且变化幅度较大的部分，就能够找到此音频文件中的语音部分，从而可以找到其语音端点。
本发明所述的方法并不限于具体实施方式
中所述的实施例，本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围。
权利要求
1.一种语音端点检测中短时能频值的提取方法，包括如下步骤
(1)将音频采样序列分成固定长度的帧，并形成一个帧序列；
(2)针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数；
(3)根据上述音频特征参数按如下公式计算每一帧数据的短时能频值，并形成一个短时能频值序列，
EZE-featurei＝(Ei-Eb)·(Zi-Zb)·(Hi-Hb)
其中，EZE-featurei表示第i帧的短时能频值；Ei、Zi和Hi分别表示第i帧的短时能量、短时过零率和短时信息熵；Eb、Zb和Hb分别表示当前背景噪声的短时能量、短时过零率和短时信息熵。
2.如权利要求1所述的语音端点检测中短时能频值的提取方法，其特征在于在步骤(1)中，将音频采样序列分成10ms长度的帧。
3.如权利要求1或2所述的语音端点检测中短时能频值的提取方法，其特征在于在步骤(2)中，所提取的第i帧的短时能量为
其中，N表示第i帧中所包含的音频采样数量；Sn表示第n个采样的取样值。
4.如权利要求1或2所述的语音端点检测中短时能频值的提取方法，其特征在于在步骤(2)中，所提取的第i帧的短时过零率为
其中，N表示第i帧中所包含的音频采样数量；Sn表示第n个采样的取样值；sgn()为符号函数，定义为
5.如权利要求1或2所述的语音端点检测中短时能频值的提取方法，其特征在于在步骤(2)中，提取短时信息熵的步骤如下
(a)利用短时傅里叶变换(FFT)对每一帧的信号进行由时域向频域的转换
其中，Sn表示第n个音频采样，N为总采样数；
(b)计算每一频率的出现概率
其中，s(fi)表示频率f的频谱能量，pi表示相应频率的出现概率，M表示傅里叶变换计算得出的频率的总数，即窗口宽度，
所规定的约束条件为
s(fi)＝0 if fi≤250HZ or fi≥3750HZ
pi＝0 if pi≥0.9
(c)计算语音信息熵
其中，M表示傅里叶变换计算得出的频率的总数，即窗口宽度，pi表示相应频率的出现概率，Hi表示第i帧的短时信息熵。
6.如权利要求1或2所述的语音端点检测中短时能频值的提取方法，其特征在于在步骤(3)中，对每一帧的短时能频值进行平滑处理，处理中对短时能量、短时过零率和短时信息熵三个音频特征参数分别进行平滑，通常采用5帧平滑的方式，对于某一帧Fn，设它的某个音频特征参数是Xn，找到它左右相邻的4帧Fn-2、Fn-1、Fn+1、Fn+2，并找出它们相应的音频特征参数Xn-2、Xn-1、Xn+1、Xn+2，则平滑后得到的音频特征参数Xn-smoothed为
对于第一帧和最后一帧采用3帧平滑的方式，平滑后得到的音频特征参数分别为
对于第二帧和倒数第二帧采用4帧平滑的方式，平滑后得到的音频特征参数分别为
全文摘要
本发明涉及自动字幕生成系统中的语音检测技术，具体涉及一种语音端点检测中短时能频值的提取方法。该方法将音频采样序列分成固定长度的帧，并形成一个帧序列；针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数；根据上述音频特征参数计算每一帧数据的短时能频值，并形成一个短时能频值序列。本发明将时域和频域的音频特征参数结合在一起，能够发挥它们各自的长处，同时又可以在一定程度上规避各自的缺点，从而能够有效的应对各种不同类型的背景噪声。
文档编号G10L11/00GK101625858SQ20081011646
公开日2010年1月13日申请日期2008年7月10日优先权日2008年7月10日
发明者祺李, 马华东, 郑侃彦, 韩忠涛, 婷张申请人:新奥特(北京)视频技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李祺;马华东;郑侃彦;韩忠涛;张婷
技术所有人：新奥特（北京）视频技术有限公司
我是此专利的发明人

上一篇：语音端点检测中的短时能频值波形斜率门限的确定方法
上一篇：自动字幕生成系统中语音区间的检测方法