基于人工智能的语音处理方法及装置与流程

文档序号:12065451阅读:来源:国知局

技术特征:

1.一种基于人工智能的语音处理方法,其特征在于,包括:

利用声学模型对待解码的语音包中的当前帧进行打分;

根据打分结果识别当前帧是否为准静音帧;

如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。

2.根据权利要求1所述的基于人工智能的语音处理方法,其特征在于,所述根据打分结果识别当前帧是否为准静音帧,包括:

根据所述打分结果获取当前帧的最优隐状态和次优隐状态;

当所述最优隐状态对应的状态标识为空白标识时,获取所述最优隐状态和所述次优隐状态之间的得分差值;

如果所述得分差值大于预设的阈值,则识别出当前帧为准静音帧;

利用第一标志位标记当前帧,其中,所述第一标志位用于指示出在解码时不需要对当前帧进行解码。

3.根据权利要求2所述的基于人工智能的语音处理方法,其特征在于,还包括:

如果所述得分差值小于或者等于所述阈值,则识别出当前帧为伪静音帧;

利用第二标志位标记当前帧,其中,所述第二标志位用于指示出在解码时需要对当前帧进行解码。

4.根据权利要求3所述的基于人工智能的语音处理方法,其特征在于,还包括:

当所述最优隐状态对应的状态标识为非空白标识时,识别出当前帧为语音帧;

利用所述第二标志位标记当前帧。

5.根据权利要求4所述的基于人工智能的语音处理方法,其特征在于,所述利用声学模型对待解码的语音包中的当前帧进行打分,包括:

判断与当前帧相邻的前一帧是否为语音帧;

如果判断结果为所述前一帧为语音帧,利用所述第二标志位标记当前帧;

如果判断结果为所述前一帧非语音帧,则利用所述声学模型对当前帧进行打分。

6.根据权利要求5所述的基于人工智能的语音处理方法,其特征在于,所述当所述最优隐状态对应的标识为非空白标识时,识别出当前帧为语音帧之后,还包括:

获取所述前一帧对应的标志位;

如果所述前一帧对应的标志位为所述第一标志位,则利用所述第二标志位重新标记所述前一帧。

7.根据权利要求1-6任一项所述的基于人工智能的语音处理方法,其特征在于,所述利用声学模型对待解码的语音包中的当前帧进行打分之前,包括:

判断当前帧是否为所述语音包中的前三帧中的一帧;

如果判断出当前帧为语音包中的前三帧中的一帧,利用第二标志位标记当前帧,其中,所述第二标志位指示出在解码时需要对当前帧进行解码;

如果判断出当前帧非语音包中的前三帧中的一帧,判断当前帧是否为所述语音包中的最后一帧;

如果判断出当前帧为语音包中的最后一帧,利用所述第二标志位标记当前帧。

8.一种基于人工智能的语音处理装置,其特征在于,包括:

打分模块,用于利用声学模型对待解码的语音包中的当前帧进行打分;

识别模块,根据打分结果识别当前帧是否为准静音帧;

解码模块,用于如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。

9.根据权利要求8所述的基于人工智能的语音处理装置,其特征在于,所述识别模块,包括:

第一获取单元,用于根据所述打分结果获取当前帧的最优隐状态和次优隐状态;

第二获取单元,用于当所述最优隐状态对应的状态标识为空白标识时,获取所述最优隐状态和所述次优隐状态之间的得分差值;

识别单元,用于如果所述得分差值大于预设的阈值,则识别出当前帧为准静音帧;

标记单元,用于利用第一标志位标记当前帧,其中,所述第一标志位用于指示出在解码时不需要对当前帧进行解码。

10.根据权利要求9所述的基于人工智能的语音处理装置,其特征在于,所述识别单元,还用于如果所述得分差值小于或者等于所述阈值,则识别出当前帧为伪静音帧;

所述标记单元,还用于利用第二标志位标记当前帧,其中,所述第二标志位用于指示出在解码时需要对当前帧进行解码。

11.根据权利要求10所述的基于人工智能的语音处理装置,其特征在于,所述识别单元,还用于当所述最优隐状态对应的状态标识为非空白标识时,识别出当前帧为语音帧;

所述标记单元,还用于利用所述第二标志位标记当前帧。

12.根据权利要求11所述的基于人工智能的语音处理装置,其特征在于,所述打分模块,包括:判断单元和打分单元;

所述判断单元,用于判断与当前帧相邻的前一帧是否为语音帧;

所述打分单元,用于如果判断结果为所述前一帧非语音帧,则利用所述声学模型对当前帧进行打分;

所述标记单元,还用于在所述判断单元的判断结果为所述前一帧为语音帧,利用所述第二标志位标记当前帧。

13.根据权利要求12所述的基于人工智能的语音处理装置,其特征在于,所述识别模块,还包括:

第三获取单元,用于当所述最优隐状态对应的状态标识为非空白标识时,识别出当前帧为语音帧之后,获取所述前一帧对应的标志位;

所述标记单元,用于如果所述前一帧对应的标志位为所述第一标志位,则利用所述第二标志位重新标记所述前一帧。

14.根据权利要求8-13任一项所述的基于人工智能的语音处理装置,其特征在于,还包括:

判断模块,用于判断当前帧是否为所述语音包中的前三帧中的一帧,以及在判断出当前帧非语音包中的前三帧中的一帧,判断当前帧是否为所述语音包中的最后一帧;

所述标记单元,用于如果判断出当前帧为语音包中的前三帧中的一帧,或者当前帧为语音包中的最后一帧,利用第二标志位标记当前帧,其中,所述第二标志位用于指示出在解码时需要对当前帧进行解码。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1