1.进行音频断句的自动拆分方法,包括:
步骤S101,根据音频获取多个分帧段;
步骤S102,根据各分帧段的能量值获取能量阈值Ek;
步骤S103,根据所述能量阈值Ek,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句;
步骤S104,从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0-4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率:Pi的计算公式为:
则,该帧的谱熵为:
每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中,如果扫描到语音流的开始或结束,扫描中止。
2.根据权利要求1所述的进行音频断句的自动拆分方法,其特征在于,所述步骤S101中包括:
步骤S1011:接收音频文件;
步骤S1012:根据设定的分割时间对所述音频文件进行分割,获取多个分帧段。
3.根据权利要求1或2所述的进行音频断句的自动拆分方法,其特征在于,所述步骤S102中包括:根据各分帧段的能量值的平均值获取能量阈值Ek。
4.根据权利要求1所述的进行音频断句的自动拆分方法,其特征在于,所述步骤S103中“若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句单元”的步骤包括:
若前序帧或后序帧的能量阀值小于设定能量Et,则判断当前帧与下一帧的间隔时间是否小于设定间隔时间,若是,则将所述句中间帧按帧起始顺序合并成为独立句。
5.根据权利要求1或4所述的进行音频断句的自动拆分方法,其特征在于,步骤S103后还包括:
步骤S1031:若所述独立句的帧长超出设定独立帧长,则计算该独立局每帧的谱熵比,以最低谱熵比所对应的帧作为分割点,将上述独立局风格为两个独立句。
6.进行音频断句的自动拆分系统,包括:分帧单元、能量阀值获取单元、独立句获取单元;谱熵分析单元401。
所述分帧单元,配置为根据音频获取多个分帧段;
所述能量阀值获取单元,配置为根据各分帧段的能量值获取能量阈值Ek;
所述独立句获取单元,配置为根据所述能量阈值Ek,从所述各分帧段中获取其能量值超过能量阈值Et;的分帧段,则以该分帧段为句中间帧对该帧的前序帧或后序帧进行扫描,若前序帧或后序帧的能量阀值小于设定能量阈值Et,则将该帧与所述句中间帧按帧起始顺序合并成为独立句;
所述谱熵分析单元,配置为从每个句子的前后两帧分别向前后搜索,如果搜索到的下一帧属于其他句子,则对两个句子进行合并;如果下一帧的能量小于Et,且不属于其他句子,则对该帧进行傅立叶变换,取0-4000HZ的幅值,按照固定宽度分成z条谱带,每条谱带的强度为Vi,i=1,2,…z。总强度为Vsum,Pi为每条谱带的概率,Pi的计算公式为:
则,该帧的谱熵为:
每一帧的能量与谱熵的比值为能熵比,记为R。设定一个能熵比阈值Rt,如果该帧的能熵比不小于Rt,则将该帧归到句子中,如果扫描到语音流的开始或结束,扫描中止。
7.根据权利要求6所述的进行音频断句的自动拆分系统,其特征在于,所述分帧单元还配置为:接收音频文件;根据设定的分割时间对所述音频文件进行分割,获取多个分帧段。
8.根据权利要求6或7所述的进行音频断句的自动拆分系统,其特征在于,所述能量阀值获取单元还配置为,根据各分帧段的能量值的平均值获取能量阈值Ek。
9.根据权利要求6所述的进行音频断句的自动拆分系统,其特征在于,所述独立句获取单元还配置为,若前序帧或后序帧的能量阀值小于设定能量Et,则判断当前帧与下一帧的间隔时间是否小于设定间隔时间,若是,则将所述句中间帧按帧起始顺序合并成为独立句。
10.根据权利要求6或9所述的进行音频断句的自动拆分系统,其特征在于,还包括:长句判断单元;
所述长句判断单元,配置为若所述独立句的帧长超出设定独立帧长,则计算该独立局每帧的谱熵比,以最低谱熵比所对应的帧作为分割点,将上述独立局风格为两个独立句。