基于人工智能的语音处理方法及装置与流程

文档序号：12065451阅读：来源：国知局

技术特征：

1.一种基于人工智能的语音处理方法，其特征在于，包括：

利用声学模型对待解码的语音包中的当前帧进行打分；

根据打分结果识别当前帧是否为准静音帧；

如果识别出当前帧为准静音帧，在解码时跳过当前帧，不对当前帧进行解码。

2.根据权利要求1所述的基于人工智能的语音处理方法，其特征在于，所述根据打分结果识别当前帧是否为准静音帧，包括：

根据所述打分结果获取当前帧的最优隐状态和次优隐状态；

当所述最优隐状态对应的状态标识为空白标识时，获取所述最优隐状态和所述次优隐状态之间的得分差值；

如果所述得分差值大于预设的阈值，则识别出当前帧为准静音帧；

利用第一标志位标记当前帧，其中，所述第一标志位用于指示出在解码时不需要对当前帧进行解码。

3.根据权利要求2所述的基于人工智能的语音处理方法，其特征在于，还包括：

如果所述得分差值小于或者等于所述阈值，则识别出当前帧为伪静音帧；

利用第二标志位标记当前帧，其中，所述第二标志位用于指示出在解码时需要对当前帧进行解码。

4.根据权利要求3所述的基于人工智能的语音处理方法，其特征在于，还包括：

当所述最优隐状态对应的状态标识为非空白标识时，识别出当前帧为语音帧；

利用所述第二标志位标记当前帧。

5.根据权利要求4所述的基于人工智能的语音处理方法，其特征在于，所述利用声学模型对待解码的语音包中的当前帧进行打分，包括：

判断与当前帧相邻的前一帧是否为语音帧；

如果判断结果为所述前一帧为语音帧，利用所述第二标志位标记当前帧；

如果判断结果为所述前一帧非语音帧，则利用所述声学模型对当前帧进行打分。

6.根据权利要求5所述的基于人工智能的语音处理方法，其特征在于，所述当所述最优隐状态对应的标识为非空白标识时，识别出当前帧为语音帧之后，还包括：

获取所述前一帧对应的标志位；

如果所述前一帧对应的标志位为所述第一标志位，则利用所述第二标志位重新标记所述前一帧。

7.根据权利要求1-6任一项所述的基于人工智能的语音处理方法，其特征在于，所述利用声学模型对待解码的语音包中的当前帧进行打分之前，包括：

判断当前帧是否为所述语音包中的前三帧中的一帧；

如果判断出当前帧为语音包中的前三帧中的一帧，利用第二标志位标记当前帧，其中，所述第二标志位指示出在解码时需要对当前帧进行解码；

如果判断出当前帧非语音包中的前三帧中的一帧，判断当前帧是否为所述语音包中的最后一帧；

如果判断出当前帧为语音包中的最后一帧，利用所述第二标志位标记当前帧。

8.一种基于人工智能的语音处理装置，其特征在于，包括：

打分模块，用于利用声学模型对待解码的语音包中的当前帧进行打分；

识别模块，根据打分结果识别当前帧是否为准静音帧；

解码模块，用于如果识别出当前帧为准静音帧，在解码时跳过当前帧，不对当前帧进行解码。

9.根据权利要求8所述的基于人工智能的语音处理装置，其特征在于，所述识别模块，包括：

第一获取单元，用于根据所述打分结果获取当前帧的最优隐状态和次优隐状态；

第二获取单元，用于当所述最优隐状态对应的状态标识为空白标识时，获取所述最优隐状态和所述次优隐状态之间的得分差值；

识别单元，用于如果所述得分差值大于预设的阈值，则识别出当前帧为准静音帧；

标记单元，用于利用第一标志位标记当前帧，其中，所述第一标志位用于指示出在解码时不需要对当前帧进行解码。

10.根据权利要求9所述的基于人工智能的语音处理装置，其特征在于，所述识别单元，还用于如果所述得分差值小于或者等于所述阈值，则识别出当前帧为伪静音帧；

所述标记单元，还用于利用第二标志位标记当前帧，其中，所述第二标志位用于指示出在解码时需要对当前帧进行解码。

11.根据权利要求10所述的基于人工智能的语音处理装置，其特征在于，所述识别单元，还用于当所述最优隐状态对应的状态标识为非空白标识时，识别出当前帧为语音帧；

所述标记单元，还用于利用所述第二标志位标记当前帧。

12.根据权利要求11所述的基于人工智能的语音处理装置，其特征在于，所述打分模块，包括：判断单元和打分单元；

所述判断单元，用于判断与当前帧相邻的前一帧是否为语音帧；

所述打分单元，用于如果判断结果为所述前一帧非语音帧，则利用所述声学模型对当前帧进行打分；

所述标记单元，还用于在所述判断单元的判断结果为所述前一帧为语音帧，利用所述第二标志位标记当前帧。

13.根据权利要求12所述的基于人工智能的语音处理装置，其特征在于，所述识别模块，还包括：

第三获取单元，用于当所述最优隐状态对应的状态标识为非空白标识时，识别出当前帧为语音帧之后，获取所述前一帧对应的标志位；

所述标记单元，用于如果所述前一帧对应的标志位为所述第一标志位，则利用所述第二标志位重新标记所述前一帧。

14.根据权利要求8-13任一项所述的基于人工智能的语音处理装置，其特征在于，还包括：

判断模块，用于判断当前帧是否为所述语音包中的前三帧中的一帧，以及在判断出当前帧非语音包中的前三帧中的一帧，判断当前帧是否为所述语音包中的最后一帧；

所述标记单元，用于如果判断出当前帧为语音包中的前三帧中的一帧，或者当前帧为语音包中的最后一帧，利用第二标志位标记当前帧，其中，所述第二标志位用于指示出在解码时需要对当前帧进行解码。

完整全部详细技术资料下载

当前第2页1 2 3