音频数据分割方法及装置与流程

文档序号：34159946发布日期：2023-05-14 19:16阅读：47来源：国知局

本发明涉及音频，具体涉及一种音频数据分割方法及装置。

背景技术：

1、随着社会的发展，人们在日常生活及工作中对语音识别的应用越来越广泛。

2、语音识别应用中，从提供音频给识别器到获得完整识别结果所需要的时间，称为端到端延时时间。通常情况下，它与输入语音的长度正相关。在长语音识别应用场景中，语音数据较长，端到端延时也更明显。为减少长语音识别系统的端到端延时，针对语音数据被一次性提供的特点，系统可采取并行识别方式进行识别，也就是首先将输入音频分割为若干片段，然后在不同的处理器上对各分段同时进行识别，最后将各分段的识别结果进行合并来得到完整的识别结果。为进行并行语音识别，需要将音频数据进行分割。音频中的静音片段是进行语音分割的合适位置。vad(voice act ivity detect i on，语音活动检测)技术可用来在音频数据寻找静音片段。为寻找静音片段，vad传统方式是从左到右扫描整个音频，在扫描过程中，依次判定每个音频帧是否为静音帧，当接连(不一定连续)的静音帧数目超过一定阈值后，就判定为检测到一个静音片段。

3、然而，使用传统方式进行语音分割时，需要对所有音频帧都进行处理，计算量大。由于处理时长与输入音频的时长成正比，当音频较长时用时也较大。而且，传统方式扫描得到所有静音片段之后，在其中选用哪些静音片段进行实际分割的算法也相对复杂。

技术实现思路

1、有鉴于此,本发明实施例提供了一种音频数据分割方法及装置，以减少音频分割时的计算量，缩短音频分割时间，同时使分割后得到的音频段长度比较均匀，以便后续处理。

2、第一方面，本发明实施例提供一种音频数据分割方法，所述方法包括：

3、获取包括语音的音频数据；

4、将所述音频数据按第一长度进行分段，确定分段点；

5、在所有分段点处确定预定长度的搜寻窗口，所述搜寻窗口长度为第二长度；

6、在各搜寻窗口内的音频数据中搜索最大静音片段；

7、根据搜索到的最大静音片段起始位置和终止位置确定分割点并进行分割；

8、其中，所述第一长度大于所述第二长度。

9、可选地，所述方法还包括：

10、根据所述音频数据长度和预期分段数确定所述第一长度。

11、可选地，所述搜寻窗口内至少存在一个静音片段。

12、可选地，所述搜索最大静音片段包括：

13、通过语音活动检测算法来搜索最大静音片段。

14、可选地，所述方法还包括：

15、以并行方式对多个搜寻窗口进行语音活动检测。

16、可选地，所述根据搜索到的最大静音片段起始位置和终止位置确定分割点并进行分割。具体为：

17、以搜索到的最大静音片段起始位置向后延长第三长度处作为第一分割点并进行分割，以搜索到的最大静音片段终止位置向前增加第三长度处作为第二分割点进行分割。

18、可选地，所述第三长度不大于第二长度的一半。

19、第二方面，本发明实施例提供一种音频数据分割装置，所述装置包括：

20、获取模块，被配置为获取包括语音的音频数据；

21、分段模块，被配置为将所述音频数据按第一长度进行分段，确定分段点；

22、窗口模块，被配置为在所有分段点处确定预定长度的搜寻窗口，所述搜寻窗口长度为第二长度；

23、搜索模块，被配置为在各搜寻窗口内的音频数据中搜索最大静音片段；

24、分割模块，被配置为根据搜索到的最大静音片段起始位置和终止位置确定分割点并进行分割；

25、其中，所述第一长度大于所述第二长度。

26、第三方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如本发明实施例第一方面所述的方法。

27、第四方面，本发明实施例提供一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如本发明实施例第一方面中的方法。

28、本发明实施例通过将获取的音频数据进行分段，以在各分段处以预定长度的搜寻窗口搜索最大静音片段，根据搜索到的最大静音片段起始位置和终止位置确定音频分割点并进行分割。由此，减少了音频分割时的计算量，缩短了音频分割时间，同时使分割后得到的音频段长度比较均匀，便于后续处理。

技术特征：

1.一种音频数据分割方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述搜寻窗口内至少存在一个静音片段。

4.根据权利要求1所述的方法，其特征在于，所述搜索最大静音片段包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据搜索到的最大静音片段起始位置和终止位置确定分割点并进行分割，具体为：

7.根据权利要求6所述的方法，其特征在于，所述第三长度不大于第二长度的一半。

8.一种音频数据分割装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。

技术总结
本发明实施例公开了一种音频数据分割方法及装置，通过将获取的音频数据进行分段，以在各分段处以预定长度的搜寻窗口搜索最大静音片段，根据搜索到的最大静音片段起始位置和终止位置确定音频分割点并进行分割。由此，减少了音频分割时的计算量，缩短了音频分割时间，同时使分割后得到的音频段长度比较均匀，便于后续处理。

技术研发人员：白高峰,李志飞
受保护的技术使用者：出门问问信息科技有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：白高峰李志飞
技术所有人：出门问问信息科技有限公司
我是此专利的发明人