自动字幕生成系统中语音区间的检测方法

文档序号:2830941阅读:296来源:国知局
专利名称:自动字幕生成系统中语音区间的检测方法
技术领域
本发明涉及自动字幕生成系统中的语音检测技术,具体涉及一种自动字 幕生成系统中语音区间的检测方法。
背景技术
语音端点检测技术是语音技术研究的一个新的领域,其应用于自动字幕 生成系统中。当前的字幕制作方法首先需要准备好字幕文稿,这种字幕文稿 是指在制作电视节目之前,事先写好的一个文本文件,记录着节目的标题、 主持人要说的话,以及被采访人所讲的话等内容。在制作电视节目时,编辑 人员把音、视频素材添加到非线性编辑软件的故事板上,然后按照节目的主 旨,对其进行编辑。编辑操作一般包括对素材位置的修改,添加一些特技, 添加字幕等等。添加字幕时, 一般是先在字幕文稿中选择多段文字(每一段 就是一句话),然后以这些文字生成一个新的字幕文件,将这个文件拖上非 线性编辑软件的轨道,此时字幕中的每一句话就会按顺序播出,但是往往会 出现"声画不同步"的现象,即字幕出现的时刻和音频文件中播出的声音对 不上。这时就需要编辑人员一边听声音, 一边一句句地修改字幕的入点和出 点的值。这就非常耗费人力和时间,影响唱词文件生成的质量和效率。
从复杂背景噪声中找出语音的起始点和结束点,即语音端点检测技术, 一直是语音信号处理中的基本问题。由于语音端点检测的重要性,人们已经 提出了很多种语音端点检测方法。这些方法大致可以分为基于模型的方法和 基于门限的方法两类。
基于模型的方法可以使用多维的特征如Mel倒普等,但是这种方法非常依 赖于建立模型并进行数据训练,计算量非常大;因为采用的特征维数较多,对 环境进行自适应就需要大量的数据,因此实现起来有相当的难度。
基于门限的语音端点检测方法则是根据语音的特点,选择合适的特征参 数,然后将该特征参数与预先设定的门限值进行比较,或者是先对特征参数进行一系列的后期处理然后再与门限进行比较。在传统的基于门限方法中, 基本上都使用了短时能量、短时过零率和短时信息熵等语音参数,分别判断 它们是否超过一个阀值,然后再通过"与"或者"或"运算来做出是否为语 音起点或终点的判断。
对于基于门限的语音端点检测方法,影响检测结果的因素主要有两个1. 特征参数的提取;2.门限值的确定以及调整。 现有的基于门限的端点检测参数主要有
1) 能量以声音的强度作为判断参数。这种方法在高信噪比的情况下会有 很好的效果。但是,在信噪比低的情况下,如在汽车引擎声、关门声等噪声的 干扰下,这种方法的准确率很低。
2) 频率采用频率域的特征作为判断依据。这种方法可以准确的区分语音 和汽车引擎、关门声等噪声,但是,对于语音和乐音的区别效果较差。
传统的基于门限的语音端点检测方法主要存在以下几点不足
首先,无论采用哪种音频参数,传统的语音端点检测方法在特定的噪声环 境下都存在很大的不足。比如,基于能量的方法在低SNR的环境中表现不好; 基于信息熵的算法在音乐背景下则会失效。
另外,传统的语音端点检测方法主要应用在语音识别、语音拨号、指令控 制以及嵌入式系统中。在这些应用环境中,语音只会持续很短一段时间, 一般 是几秒钟。而且背景噪声在端点检测过程中基本上不发生大的变化,因此这些 方法一般取音频的前5帧来分析噪音。但是如果语音持续较长的一段时间,并 且背景噪声在检测过程中频繁变化,那么上述方法并不能很好的工作。
最后,传统的语音端点检测方法着重于从背景噪声中精确地提取出单个的 字(词)的语音端点。与之相比,自动唱词生成系统对精度的要求相对较低,而 侧重于在连续的语音中,进行连续的语音端点;险测,并且最终;险测出语句的端 点。

发明内容
本发明的目的在于针对现有语音端点;险测方法的缺陷,提供一种自动字 幕生成系统中语音区间的检测方法,以提高在复杂噪声背景下的语音端,泉检
测效率。本发明的技术方案如下 一种自动字幕生成系统中语音区间的检测方法,
包括如下步骤
(1 )将音频采样序列分成固定长度的帧,计算音频文件中每一帧的短时 能频值,形成一个短时能频值序列......Jf ;
(2)从第一帧开始依次分析短时能频值序列,设当前所分析的为第t帧, 检测第t帧之后每一帧的短时能频值,直至找到一帧j',使得
^SX, + l^X, + 2^......《X; 且》+ lk》+ 2
即寻找从第t帧开始的短时能频值序列的上升区间,记为A; (3 )计算所找到的上升区间A的短时能频值序列波形的平均斜率i ,:
其中,义为第t帧的短时能频值,《为第j帧的短时能频值; (4 )设定一个门限值瓜来确定语音起始点,如果i 々1,且第t帧之前 的区间没有被认为是语音区间,则将第t帧记为语音的起点,然后令t-j+l, 去寻找与之相匹配的语音终点,从而确定一个语音区间;如果凡<1,则令 t = j + l,重复步骤(2)的操作。
进一步,在上述自动字幕生成系统中语音区间的检测方法中,步骤(4) 中寻找语音终点的步骤如下
(a)从第t帧开始寻找,检测第t帧之后每一帧的短时能频值,直至找到
一帧j,使得
X,>X, + 12X, + 22......2》且》+ 1SXy + 2
即寻找从第t帧开始的短时能频值序列的下降区间,记为A; (b )计算所找到的下降区间D,的短时能频值序列波形的平均斜率i ,:
其中,尤为第t帧的短时能频值,》为第j帧的短时能频值; (c)通过设定的门限值仏,来判断语音信号的终点,如果i 々^,在已经找 到一个语音起点的情况下,将第t帧记为与前一个语音起点相对应的语音终点; 如果7 ,〈A,则令t-j+l,重复步骤(a)的操作。更进一步,在上述寻找语音终点的过程中,步骤(C)中如果i ,》L,且 第t帧之前还没有找到一个单独的语音起点,即找到了一个不对应任何语音 起点的下降区间A,则该下降区间A为一段单独的语音区间,将第t帧记为 语音起点,将第j帧记为语音终点。
更进一步,如上所述的自动字幕生成系统中语音区间的^^测方法,在寻 找语音起点和终点的过程中,如果一个不属于语音部分的下降区间A位于两 个属于语音部分的上升区间A、 A之间,或者一个不属于语音部分的上升区
间A位于两个属于语音部分的下降区间"2、 D3之间,则将下降区间A和上升
区间A均-见为属于语音区间。
进一步,如上所述的自动字幕生成系统中语音区间的检测方法,寻找一对
语音起点和终点时,确定门限值L的步骤如下
(i )分析当前的短时能频值序列,找出其最小值,记为五Z五-/e^^自;找
出其最大值,记为£Z£ - /ra,e瞎,然后计算£Z£ - /eaft^e隨/10 0;
(ii ) t匕4交五Z五一/ea&"隱禾口 £Z£ —/ea,we max /100 ,耳又其中專交大者,i己为
(iii )石角定门卩艮亏直i m = —./eafwm", x 2。
进一步,在上述自动字幕生成系统中语音区间的检测方法中,当检测完 所有的语音起点和语音终点后,遍历这个语音端点序列,依次寻找一个语音 终点K"以及下一个语音起点ft,如果K和A相3巨超过身见定的时间间隔,则 确定K和K之间为语句的间隔,将K和K标记为"i吾句端点,重复此过程确定 所有的语句端点。上述判断语句端点所规定的时间间隔为100ms。
进一步,如上所述的自动字幕生成系统中语音区间的一企测方法,在步骤 (1)中,将音频采样序列分成10ms长度的帧。
进一步,如上所述的自动字幕生成系统中语音区间的检测方法,在步骤(l)
中,第i帧的短时能频值为
<formula>formula see original document page 7</formula>其中,/ea加re,表示第i帧的短时能频值;£,、 Z和Z/,分别表示第i 帧的短时能量、短时过零率和短时信息熵;&、 Z6和压分别表示当前背景噪
声的短时能量,短时过零率和短时信息熵。
本发明的有益效果如下本发明所提供的自动字幕生成系统中语音区间 的检测方法可以根据发音人语音的停顿,准确的找出每一 句字幕所对应的入 点和出点的时间,节目制作人员只需要将文件拖上非线性编辑软件的轨道即 可,大大节省了唱词文件生成过程中的人力和物力资源。另外,本发明综合 考虑了语音的时域和频域特征,能够在复杂的背景噪声环境下,对连续语音 进行端点4企测,并最终;险测出语句的端点。与传统方法相比,本发明的语音 端点检测效率更高、质量更好。


图1为自动字幕生成系统的示意图。 图2为检测语音起点和终点的流程图。 图3为短时能频值波形特殊情况示意图。 图4为寻找语句端点的流程图。
具体实施例方式
下面结合附图和具体实施例对本发明进行详细的描述。 本发明所提供的语音区间检测方法应用于自动字幕生成系统中,自动字 幕生成系统接受用户输入一个采用PCM音频压缩格式、采样频率48k、采样 位数16位、声道数目2 (立体声)、文件格式为wav的音频文件,以及相 应的字幕文稿;输出为一个srt格式的字幕文件,内容是字幕文稿中的每一 句话及其所对应的开始时间点和结束时间点。整个系统结构如图l所示。
本发明所提供的语音区间检测流程如图2所示,频数据输入后,解析音 频文件并提取数字采样值,对获取到的音频采样序列进行带通滤波,带宽为 400hz~ 3500hz,其主要目的是把人发音的频段以外的噪声或者音乐滤除,从 而可以大大降低背景音乐对语音端点检测的影响,然后按如下步骤进行语音 端点的检测。(一)对音频釆样序列进行窗口处理,将其分成10ms长度的帧,并形成
一个帧序列,针对每一帧数据提取短时能量、短时过零率和短时信息熵三个 音频特征参数。 1.短时能量
能量是最经常使用的音频特征参数之一,是对语音信号最直观的表示。语 音信号的能量分析基于语音信号幅度随时间有相当的变化这一现象。能量可以 用于区别发音的清音段和浊音段,能量值较大的对应于清音段,能量值较小的 对应于浊音段。对于高信噪比的信号,可以用能量来判断有无语音。无语音信 号的噪声能量较小,而有语音信号时能量会显著增大,由此可以粗略区分语音 信号的起始点和中止点。另外,能量还可以用来区分声母和韵母的分界、以及 连字的分界等。
在本发明中,采用"短时能量,,作为主要的特征参数之一。所谓短时能 量,就是先对音频信号进行分帧处理,然后对每一帧求其能量,它被定义为
一帧中所有采样值平方的和。第i帧的短时能量定义为
其中,N表示第i帧中所包含的+》页采样数量;&表示第n个采样的取样值。 2.短时过零率
过零率是声音信号处理过程中一个常用的音频特征参数。当离散语音信号 的时域波形通过时间横轴时,相邻时刻的采样值如果具有不同的符号,称为"过 零"。单位时间的过零次数称为"过零率",即单位时间内音频釆样值符号变换 的次数。同上,在本发明中将单位时间限定为一帧,每一帧的过零率就是"短 时过零率"。第i帧的短时过零率定义如下
过零分析是语音的时域分析中最简单的 一种分析。它可以区别语音的发 音是清音还是浊音。由于清音语音的多数能量出现在较高的频率上,因此清 音的过零率较高;而浊音语音具有高频跌落的频谱,因此浊音的过零率低。
其中,&表示第n个采样的取样值;sgn()为符号函数,定义为利用短时过零率还可以从背景噪声中找出语音信号。在孤立词的语音识别中, 必须要在一 串连续的语音信号中进行适当分割,用以确定每个单词语音的信 号,也即找出每个单词的开始和终止位置。用平均过零率来确定单词的起始 点时,判断依据是语音开始点以前的过零率低,而开始点以后的过零率有明 显的数值。在有背景噪声的情况下, 一般背景噪声的平均过零率较低,而单 词起始段的平均过零率急剧增大,由此可判定此单词的起始点。 3.短时信息熵
语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的。因此, 对语音信号进行频谱分析,是认识语音信号和处理语音信号的重要方法。语音 信号是一种典型的非平稳信号,但是其非平稳性是由发音器官的物理运动过程 而产生的,由此可以假定其频域也是短时平稳的。
信息熵是频域的重要音频参数,它反应了语音信号所传达的信息量的大
小。信息熵在语音编解码中经常被使用,J. L. Shen首次将它应用在语音端点 检测技术中。本发明同样对每一帧都计算其信息熵,称为短时信息熵,计算 方法力口下
(a )利用短时傅里叶变换(FFT)对每一帧的信号进行由时域向频域的转换
J V側
其中,S。表示第n个音频采 f, =丑,W为总采样数;
TV
由于此处的傅立叶变换都是对某一帧进行的,因此相当于对傅立叶变换加
上了一个窗口函数w("-Q。 A的取值取决于要对哪一帧进行短时傅立叶变换。
(b)计算每一频率的出现概率
<formula>formula see original document page 10</formula>
其中,s(/)表示频率/的频谱能量,p,表示相应频率的出现概率,M表示 傅里叶变换计算得出的频率的总数,即窗口宽度,此处取480。
所规定的约束条件为
<formula>formula see original document page 10</formula>
第一个约束公式用来保证语音信号的频率范围。因为人的发音频率基本集 中在250Hz到3750Hz之间,所以我们把频率限定在这个范围之内。第二个约束公式用来滤除在某些频率上持续发生的噪声。 (C)计算语音信息熵
A/
其中,M表示傅里叶变换计算得出的频率的总数,即窗口宽度,p,表示 相应频率的出现概率,//,表示第i帧的短时信息熵。
试验证明,语音信号的信息熵和非语音信号的信息熵之间存在很大的差别, 由此可以用来寻找语音端点的位置。在很多情况下,尤其是当背景噪声主要是 机械噪声时,使用信息熵作为特征参数比单纯使用能量更加可靠。
但是,在连续不断的背景噪声或者音乐背景下,使用信息熵来进行语音 端点检测会非常不可靠。因为同语音一样,连续的背景噪声或者背景音乐也 含有很多信息。相对而言,在这种情况下使用能量作为特征参数反而会取得 较好的效果,因为语音与背景噪声的叠加总会大过单纯的背景噪声。
(二)根据上述音频特征参数计算每一帧数据的短时能频值,并形成一 个短时能频值序列。
第i帧的短时能频值£Z£ - /ea化m的定义如下
其中,£Z£ - /e加wm表示第i帧的短时能频值;、 Z和//,分别表示第i 帧的短时能量、短时过零率和短时信息熵;而&,、 Z,,和战则分别表示了当前 背景噪声的短时能量、短时过零率和短时信息熵。
短时能频值同时结合了时域和频域的语音特征。短时能量和短时过零率 属于时域的音频特征参数,短时信息熵则属于频域的音频特征参数。将时域 和频域的音频特征参数结合在一起,能够发挥他们各自的长处,同时又可以 在 一 定程度上规避他们各自的缺点,从而能够有效的应对各种不同类型的背 景噪声。
鉴于背景噪声和背景音乐的这种不确定性,我们不可能一直使用音频信号 的前几帧作为背景噪声。而是应该在端点检测过程中,根据检测出的语音情况, 自动选取新的音频帧作为背景噪声进行处理。
首先,默认音频文件最初的10ms为环境音,将这10ms的音频信号的短时能量平均值、短时过零率平均值和短时信息熵平均值作为最初的背景噪声的短 时能量&、短时过零率&和短时信息熵压。自适应的语音端点4企测算法对于噪
声采取了一种反馈机制当发现背景噪声可能已经发生变化时,算法要回退到 噪声发生变化之前的语音帧,重新进行检测。其过程如下所述
1) 找到了某个语音起点,记为第K帧,当i4与上一个语音终点F,帧相距 30Oms以上时,则进行环境噪声的提取。
2) 从第F,帧开始,取接下来的IO帧当作背景噪声,重新计算&、 ^和压的 计算方法为取算术平均,以&为例

10
3) /人第F, +1帧开始,4吏用更新后的&、 Z6和私,重新计算每一帧的短时 能频值,得到新的短时能频值序列。
4) 从第F,+ 1帧开始,使用新的短时能频值序列重新执行端点检测过程。
(三)语音起点的^f全测流程
在语音和音乐叠加的时间段中,或者在只有语音的时间段中,短时能频值波形 的变化非常剧烈变化频率很高,而且变化的幅度非常大。而在既没有语音又 没有音乐,只有背景噪声的时间段中,短时能频值基本保持很小的变化幅度, 而且变化的频率比较小。另外,在只有音乐没有语音的时间段中,不管有没有 背景噪声出现,由于经过了滤波器滤波后,音乐的高频部分已经被滤掉,所以
虽然短时能频值变化的幅度仍然非常大,但是,其变化的频率却比有语音时要 緩和的多。
因此,通过计算一个音频文件的短时能频值序列,并研究其波形,找出其 中变化剧烈而且变化幅度较大的部分,就能够找到此音频文件中的语音部分, 从而可以找到其语音端点。所以,寻找语音端点的重点就是找出短时能频值序 列波形中斜率比较大的那些部分,并判断出它们是否是语音的端点。
检测语音起点的流程如下
1)假设从第t帧(对应短时能频值X,)开始寻找,检测第t帧之后每一帧的 短时能频值,直到找到一帧j(对应短时能频值》),使得X + 1《义+ 2 S……S JC 且《+ 1》》+ 2 即寻找从第t帧开始的短时能频值序列的上升区间,记为A。
2) 计算刚找到的上升区间A的短时能频值序列波形的平均斜率
卜f
在上升区间A中,由于人语音的特点,其短时能频值序列波形不可能平稳 上升,其斜率可能会不断变化,时大时小。因此虽然在区间A中短时能频值波 形一直保持上升的趋势,却只能计算其平均斜率。
3) 设定一个门限值l,,如果有i 々^,即斜率i ,非常的陡峭,则认为上升 区间A属于语音部分。此时有两种情况, 一种是如果第t帧之前的区间已经被 认为是语音区间了,那就说明已经找到了一个语音起点,现在需要寻找与之相 对应的语音终点,因此令t-j+l,去寻找与之相匹配的语音终点,爿Mv而确定一个 语音区间。另一种情况是第t帧之前的区间没有被认为是语音区间,则将第t 帧记为语音的起点,然后令t叫+l,去寻找与之相匹配的语音终点。
反之,如果化<^,即斜率化比较平緩。此时也有两种可能, 一种是i ,远远 小于t,主要是因为x,、兀等短时能频值都比较小,说明上升区间A属于背景 噪声。另一种情况是i ,的值比较大,仅略小于l,这说明上升区间A很有可能 属于背景音乐。上述两种情况之间没有严格的界限,就是说无法确定非语音区 间到底属于噪声还是背景音乐,不过在这两种情况下,都认为区间A不是语音, 因此令t=j+l,循环执行检测语音起点的4喿作。
(四)语音终点的检测流程
1) 假设从第t帧(对应短时能频值x,)开始寻找,检测第t帧之后每一帧的 短时能频值,直到找到一帧j(对应短时能频值《),使得
^>^ + 1》Xf + 2>......2》且 X/ + ^A} + 2
即寻找从第t帧开始的短时能频值序列的下降区间,记为A。
2) 计算刚找到的下降区间A的短时能频值序列波形的平均斜率
在下降区间A中,由于人语音的特点,其短时能频值序列波形也不可能平 稳下降。因此虽然在下降区间A中短时能频值波形一直保持下降的趋势,也只能计算其平均斜率。对下降区间A而言,其平均斜率及,应该是负值,但为了方 便起见,使用X,-》来^f吏i ,变成正值。
3)与语音起点检测的情况类似,设定一个门限值i^,如果有i 々i^,即斜 率i ,非常的陡峭,则认为下降区间A属于语音部分。此时有两种情况, 一种是 如果第t帧之前已经找到了一个语音起点,则现在找到了与之相对应的语音终 点,因此将第t帧记为语音的终点,然后令t叫+ l,继续进行下一个语音起点的 检测。另一种情况是第t帧之前还没有找到一个单独的语音起点,即找到了一 个不对应任何语音起点的下降区间,则下降区间A为 一段单独的语音区间。此 时将第t帧记为语音起点,将第j帧记为语音终点。然后令t = t + l,继续寻找下 一个语音起点。
反之,如果化<^,即斜率i ,比较平緩。同语音起点检测中所论述的一样, 认为区间A属于背景噪声或者背景音乐,此时令t-j + l,循环检测语音起点的操作。
斜率门限值^是人工设定的值,因此在实际判断过程语音、背景音乐和背 景噪声的短时能频值波形之间都没有明确的界限,设定不同的门限值会得到不 同的语音端点检测结果。由此可见,门限值设定得是否合适将直接影响语音端 点检测的准确性。经过分析,本发明提出以下算法来计算短时能频值波形斜率 的门限
步骤l:分析短时能频值序列,找出其最小值,记为£2£-./^脏,;找出其 最大4直,i己为£Z£ — /eaft〃'e max ,纟求后i十算£Z£ — /ea&re max /1 0 0 。
纵观整个短时能频值波形可以发现,其最大值£2£-/e"/ww比那些极大值 £Z£-/e齒r"(即波形中每个波的峰值)要稍微大一些。而短时能频值的最小值
/m^t國和极小值五ZE-/ea,"(即波形中比较平緩的部分)则相差不大, 因为两者都是非常小的值,因此其差别可以忽略不计。因此采用最大值 £Z£ — /eWwe隨的1 /1 0 0与最小{直£Z£ — /e"rwe画进4亍比4支。
步骤2:比较EZE —/e^^,和五Z5 — yk^^鹏/100,耳又其中较大者,记为
步骤3:短时能频值斜率的门限定为= /ea加m—e x 2。
使用上述方法找到的短时能频值斜率门限对于整个短时能频值序列都有 效,因此在语音端点检测过程中不需要再次进行修改。在没有或者较少出现背景音乐的情况下,使用该方法基本可以满足寻找语句端点的需要,在寻找词语 端点时的精确性稍差。但是当背景音乐在音频中持续出现时,短时能频值序列 的波形将变得非常复杂,此时使用该方法就得不到满足要求的斜率门限值,因 此需要人工设定。不论在哪种情况下,由人手工设定和调整短时能频值斜率的 门限,都将大大提高语音端点检测的准确性。
如果最后检测到了一个语音起点,而没有与之相对应的语音终点,则认为 在音频文件的最后,语音突然中断。这可能是由于音频文件在压制过程中丢失 了某些内容或者其它原因造成的。
在分析短时能频值序列时,可能遇到各种各样的波形。比如找到一个上升 区间a属于语音部分,紧接着的下降区间a却不属于语音部分,然后又紧接着
上升区间a属于语音部分。也可能是找到一个下降区间D2属于语音部分,紧接 着的上升区间a却不属于语音部分,然后又紧接着下降区间1)3属于语音部分。 上面两种情况中的a和a区间,虽然其短时能频值波形的斜率较小,但是因为
它们都处在2段语音区间之间,而且一般只持续极短的一段时间,经过分析发
现它们属于人的发音中元音和复音结合部分的微小停顿,因此不应被视作是非
语音部分。如图3a所示。
另夕l、一种情况是,在找到一对语音起点和终点(对应上升区间a和下降区间 d0之后,紧接着是一个不属于语音的上升区间a,然后是一个属于语音的下降 区间D2。此时下降区间D2就没有与只配对的上升区间,即由D2寻找到的语音终 点没有与之配对的语音起点。此时应将下降区间z)2的起始点视为语音起点,与 z)2的终点(作为语音终点)配对。如图3b所示。
(五)语句端点的检测
检测语句的端点是本发明的主要目的之一,因此本发明并不是非常注重单 个字词的端点检测的精确性,而是注重找准语句的起止点。
在进行完上述的语音端点检测过程后,能够找出字或者词的语音端点。在 此我们提出了寻找语句端点的算法。
对于一般人正常的语速而言,语句间的时间间隔大概在100ms左右,而词 语间的时间间隔一般较小,只有几十毫秒。因此有理由认为相隔大于100ms的语音终点和起点之间,就是语句间的间隔。
因为找到的语音起点和终点都是成对出现的,所以要遍历这个语音端点 序列,首先寻找一个语音终点F"然后找到下一个语音起点A,如果K和K
相距超过10Oms ,则认为F。和之间为语句的间隔;如果F。和A之间相距不 到100ms,则i人为Fs和R不是语句间的间隔,此时将K,和A标记为非语音端 点。整个检测过程结束后,就找到了所有的语句端点。检测流程如图4所示。
员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。
权利要求
1.一种自动字幕生成系统中语音区间的检测方法,包括如下步骤(1)将音频采样序列分成固定长度的帧,计算音频文件中每一帧的短时能频值,形成一个短时能频值序列X1X2X3X4......Xn;(2)从第一帧开始依次分析短时能频值序列,设当前所分析的为第t帧,检测第t帧之后每一帧的短时能频值,直至找到一帧j,使得Xt≤Xt+1≤Xt+2≤......≤Xj且Xj+1≥Xj+2即寻找从第t帧开始的短时能频值序列的上升区间,记为At;(3)计算所找到的上升区间At的短时能频值序列波形的平均斜率Rt<maths id="math0001" num="0001" ><math><![CDATA[ <mrow><msub> <mi>R</mi> <mi>t</mi></msub><mo>=</mo><mfrac> <mrow><msub> <mi>X</mi> <mi>j</mi></msub><mo>-</mo><msub> <mi>X</mi> <mi>t</mi></msub> </mrow> <mrow><mi>j</mi><mo>-</mo><mi>t</mi> </mrow></mfrac> </mrow>]]></math></maths>其中,Xt为第t帧的短时能频值,Xj为第j帧的短时能频值;(4)设定一个门限值Rm来确定语音起始点,如果Rt≥Rm,且第t帧之前的区间没有被认为是语音区间,则将第t帧记为语音的起点,然后令t=j+1,去寻找与之相匹配的语音终点,从而确定一个语音区间;如果Rt<Rm,则令t=j+1,重复步骤(2)的操作。
2. 如权利要求1所述的自动字幕生成系统中语音区间的检测方法,其特征在于步骤(4)中寻找语音终点的步骤如下(a)从第t帧开始寻找,检测第t帧之后每一帧的短时能频值,直至找到一帧j,使得^>X, + l2X, + 2>......2》且》+ ^》+ 2即寻找^v第t帧开始的短时能频值序列的下降区间,记为A;(b )计算所找到的下降区间A的短时能频值序列波形的平均斜率化化=^卜f其中,x,为第t帧的短时能频值,《为第j帧的短时能频值;(c)通过设定的门限值t来判断语音信号的终点,如果i 々L,在已经找到一个语音起点的情况下,将第t帧记为与前一个语音起点相对应的语音终点;如果7 ,<^,则令t^+l,重复步骤(a)的操作。
3. 如权利要求2所述的自动字幕生成系统中语音区间的检测方法,其特征在于步骤(c)中如果i 々i "且第t帧之前还没有找到一个单独的语音起点,即找到了一个不对应任何语音起点的下降区间A,则该下降区间A 为一段单独的语音区间,将第t帧记为语音起点,将第j帧记为语音终点。
4. 如权利要求2所述的自动字幕生成系统中语音区间的检测方法,其特征在于在寻找语音起点和终点的过程中,如果一个不属于语音部分的下降区间D,位于两个属于语音部分的上升区间A、 A之间,或者一个不属于语音部分的上升区间A位于两个属于语音部分的下降区间D2、£>3之间,则将下降区间和上升区间A均视为属于语音区间。
5. 如权利要求1或2所述的自动字幕生成系统中语音区间的检测方法,其 特征在于寻找一对语音起点和终点时,确定门限值仏,的步骤如下(i )分析当前的短时能频值序列,找出其最小值,记为£2£-/^^^ ;找 出其最大值,记为£Z£ - /ea,e隐,然后计算£Z£ - /ea加re max /10 0;(i i ) t匕4交£Z£ —/ea&re誦禾口 £Z£ —/eWwemax /100 ,耳又其中车交大者,i己为 £2五—y^幽m、.—';(i i i )确定门卩艮l直i m = —e x 2。
6. 如权利要求2所述的自动字幕生成系统中语音区间的检测方法,其 特征在于当检测完所有的语音起点和语音终点后,遍历这个语音端点序列, 依次寻找一个语音终点K,以及下一个语音起点R,如果K和K相距超过规 定的时间间隔,则确定K和K之间为i吾句的间隔,3夺K和K标i己为语句端点, 重复此过程确定所有的语句端点,上述判断语句端点所规定的时间间隔为 lOOms。
7. 如权利要求1所述的自动字幕生成系统中语音区间的检测方法,其 特征在于在步骤(l)中,将音频采样序列分成10ms长度的帧。
8. 如权利要求l所述的自动字幕生成系统中语音区间的检测方法,其特征在于在步骤(1)中,第i帧的短时能频值为<formula>formula see original document page 3</formula>其中,£Z£-/^,e,表示第i帧的短时能频值;£,、 Z和7/,分别表示第i帧的短时能量、短时过零率和短时信息熵;&、 Za和m分別表示当前背景噪声的短时能量,短时过零率和短时信息熵。
全文摘要
本发明涉及自动字幕生成系统中的语音检测技术,具体涉及一种自动字幕生成系统中语音区间的检测方法。该方法将音频采样序列分成固定长度的帧,计算每一帧的短时能频值,并形成一个短时能频值序列;从第一帧数据开始,分析短时能频值序列,寻找短时能频值序列的上升区间或下降区间;通过计算短时能频值序列波形的平均斜率,并与门限值进行比较,确定语音的起点或终点,最终完成对语音区间的检测。本发明可以在背景噪声经常发生变化的情况下,对连续语音进行语音端点检测,从而提高在复杂噪声背景下的语音端点检测效率。
文档编号G10L11/00GK101625862SQ200810116460
公开日2010年1月13日 申请日期2008年7月10日 优先权日2008年7月10日
发明者婷 张, 祺 李, 郑侃彦, 韩忠涛, 马华东 申请人:新奥特(北京)视频技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1