进行音频断句的自动拆分方法及系统与流程

文档序号：11834514阅读：来源：国知局

技术特征：

1.进行音频断句的自动拆分方法，包括：

步骤S101，根据音频获取多个分帧段；

步骤S102，根据各分帧段的能量值获取能量阈值E_k；

步骤S103，根据所述能量阈值E_k，从所述各分帧段中获取其能量值超过能量阈值E_t；的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值E_t，则将该帧与所述句中间帧按帧起始顺序合并成为独立句；

步骤S104，从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子，则对两个句子进行合并；如果下一帧的能量小于E_t，且不属于其他句子，则对该帧进行傅立叶变换，取0-4000HZ的幅值，按照固定宽度分成z条谱带，每条谱带的强度为V_i,i＝1,2,…z。总强度为V_sum，P_i为每条谱带的概率：P_i的计算公式为：

$<mrow> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>V</mi> <mi>i</mi> </msub> <msub> <mi>V</mi> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </msub> </mfrac> </mrow>$

则，该帧的谱熵为：

$<mrow> <mi>H</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>z</mi> </munderover> <msub> <mi>P</mi> <mi>i</mi> </msub> <msub> <mi>logP</mi> <mi>i</mi> </msub> </mrow>$

每一帧的能量与谱熵的比值为能熵比，记为R。设定一个能熵比阈值R_t,如果该帧的能熵比不小于R_t，则将该帧归到句子中，如果扫描到语音流的开始或结束，扫描中止。

2.根据权利要求1所述的进行音频断句的自动拆分方法，其特征在于，所述步骤S101中包括：

步骤S1011：接收音频文件；

步骤S1012：根据设定的分割时间对所述音频文件进行分割，获取多个分帧段。

3.根据权利要求1或2所述的进行音频断句的自动拆分方法，其特征在于，所述步骤S102中包括：根据各分帧段的能量值的平均值获取能量阈值E_k。

4.根据权利要求1所述的进行音频断句的自动拆分方法，其特征在于，所述步骤S103中“若前序帧或后序帧的能量阀值小于设定能量阈值E_t，则将该帧与所述句中间帧按帧起始顺序合并成为独立句单元”的步骤包括：

若前序帧或后序帧的能量阀值小于设定能量E_t，则判断当前帧与下一帧的间隔时间是否小于设定间隔时间，若是，则将所述句中间帧按帧起始顺序合并成为独立句。

5.根据权利要求1或4所述的进行音频断句的自动拆分方法，其特征在于，步骤S103后还包括：

步骤S1031：若所述独立句的帧长超出设定独立帧长，则计算该独立局每帧的谱熵比，以最低谱熵比所对应的帧作为分割点，将上述独立局风格为两个独立句。

6.进行音频断句的自动拆分系统，包括：分帧单元、能量阀值获取单元、独立句获取单元；谱熵分析单元401。

所述分帧单元，配置为根据音频获取多个分帧段；

所述能量阀值获取单元，配置为根据各分帧段的能量值获取能量阈值E_k；

所述独立句获取单元，配置为根据所述能量阈值E_k，从所述各分帧段中获取其能量值超过能量阈值E_t；的分帧段，则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描，若前序帧或后序帧的能量阀值小于设定能量阈值E_t，则将该帧与所述句中间帧按帧起始顺序合并成为独立句；

所述谱熵分析单元，配置为从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子，则对两个句子进行合并；如果下一帧的能量小于E_t，且不属于其他句子，则对该帧进行傅立叶变换，取0-4000HZ的幅值，按照固定宽度分成z条谱带，每条谱带的强度为V_i,i＝1,2,…z。总强度为V_sum，P_i为每条谱带的概率，P_i的计算公式为：

$<mrow> <msub> <mi>P</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>V</mi> <mi>i</mi> </msub> <msub> <mi>V</mi> <mrow> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow> </msub> </mfrac> </mrow>$

则，该帧的谱熵为：

7.根据权利要求6所述的进行音频断句的自动拆分系统，其特征在于，所述分帧单元还配置为：接收音频文件；根据设定的分割时间对所述音频文件进行分割，获取多个分帧段。

8.根据权利要求6或7所述的进行音频断句的自动拆分系统，其特征在于，所述能量阀值获取单元还配置为，根据各分帧段的能量值的平均值获取能量阈值E_k。

9.根据权利要求6所述的进行音频断句的自动拆分系统，其特征在于，所述独立句获取单元还配置为，若前序帧或后序帧的能量阀值小于设定能量E_t，则判断当前帧与下一帧的间隔时间是否小于设定间隔时间，若是，则将所述句中间帧按帧起始顺序合并成为独立句。

10.根据权利要求6或9所述的进行音频断句的自动拆分系统，其特征在于，还包括：长句判断单元；

所述长句判断单元，配置为若所述独立句的帧长超出设定独立帧长，则计算该独立局每帧的谱熵比，以最低谱熵比所对应的帧作为分割点，将上述独立局风格为两个独立句。

完整全部详细技术资料下载

当前第2页1 2 3