进行音频断句的自动拆分方法及系统与流程

文档序号:11834514阅读:来源:国知局

技术特征:

1.进行音频断句的自动拆分方法,包括:

步骤S101,根据音频获取多个分帧段;

步骤S102,根据各分帧段的能量值获取能量阈值Ek

步骤S103,根据所述能量阈值Ek,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句;

步骤S104,从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0-4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率:Pi的计算公式为:

<mrow> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>V</mi> <mi>i</mi> </msub> <msub> <mi>V</mi> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </msub> </mfrac> </mrow>

则,该帧的谱熵为:

<mrow> <mi>H</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>z</mi> </munderover> <msub> <mi>P</mi> <mi>i</mi> </msub> <msub> <mi>logP</mi> <mi>i</mi> </msub> </mrow>

每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中,如果扫描到语音流的开始或结束,扫描中止。

2.根据权利要求1所述的进行音频断句的自动拆分方法,其特征在于,所述步骤S101中包括:

步骤S1011:接收音频文件;

步骤S1012:根据设定的分割时间对所述音频文件进行分割,获取多个分帧段。

3.根据权利要求1或2所述的进行音频断句的自动拆分方法,其特征在于,所述步骤S102中包括:根据各分帧段的能量值的平均值获取能量阈值Ek

4.根据权利要求1所述的进行音频断句的自动拆分方法,其特征在于,所述步骤S103中“若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句单元”的步骤包括:

若前序帧或后序帧的能量阀值小于设定能量Et,则判断当前帧与下一帧的间隔时间是否小于设定间隔时间,若是,则将所述句中间帧按帧起始顺序合并成为独立句。

5.根据权利要求1或4所述的进行音频断句的自动拆分方法,其特征在于,步骤S103后还包括:

步骤S1031:若所述独立句的帧长超出设定独立帧长,则计算该独立局每帧的谱熵比,以最低谱熵比所对应的帧作为分割点,将上述独立局风格为两个独立句。

6.进行音频断句的自动拆分系统,包括:分帧单元、能量阀值获取单元、独立句获取单元;谱熵分析单元401。

所述分帧单元,配置为根据音频获取多个分帧段;

所述能量阀值获取单元,配置为根据各分帧段的能量值获取能量阈值Ek

所述独立句获取单元,配置为根据所述能量阈值Ek,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句;

所述谱熵分析单元,配置为从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0-4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率,Pi的计算公式为:

<mrow> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>V</mi> <mi>i</mi> </msub> <msub> <mi>V</mi> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </msub> </mfrac> </mrow>

则,该帧的谱熵为:

<mrow> <mi>H</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>z</mi> </munderover> <msub> <mi>P</mi> <mi>i</mi> </msub> <msub> <mi>logP</mi> <mi>i</mi> </msub> </mrow>

每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中,如果扫描到语音流的开始或结束,扫描中止。

7.根据权利要求6所述的进行音频断句的自动拆分系统,其特征在于,所述分帧单元还配置为:接收音频文件;根据设定的分割时间对所述音频文件进行分割,获取多个分帧段。

8.根据权利要求6或7所述的进行音频断句的自动拆分系统,其特征在于,所述能量阀值获取单元还配置为,根据各分帧段的能量值的平均值获取能量阈值Ek

9.根据权利要求6所述的进行音频断句的自动拆分系统,其特征在于,所述独立句获取单元还配置为,若前序帧或后序帧的能量阀值小于设定能量Et,则判断当前帧与下一帧的间隔时间是否小于设定间隔时间,若是,则将所述句中间帧按帧起始顺序合并成为独立句。

10.根据权利要求6或9所述的进行音频断句的自动拆分系统,其特征在于,还包括:长句判断单元;

所述长句判断单元,配置为若所述独立句的帧长超出设定独立帧长,则计算该独立局每帧的谱熵比,以最低谱熵比所对应的帧作为分割点,将上述独立局风格为两个独立句。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1