音频文件的标记方法、装置、电子设备及存储介质与流程

文档序号：42752589发布日期：2025-08-15 19:16阅读：33来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及音频处理，具体涉及一种音频文件的标记方法、装置、电子设备及存储介质。

背景技术：

1、在影视拍摄、会议记录等需高频采集音频的场景中，无线接收的音频数据容易受到干扰出现异常，通常需要人工对音频数据进行排查，对异常音频进行定位并标注，还需要找到可用于替换异常音频的录音文件，导致排查音频数据异常的工作量较大，效率较低。

技术实现思路

1、本申请实施例提供一种音频文件的标记方法、装置、电子设备及存储介质，能够提高排查音频数据异常的效率。

2、第一方面，本实施例提供一种音频文件的标记方法，包括：

3、获取待标记音频文件；所述待标记音频文件包括时间码对齐的至少两个通道的音频文件；

4、根据预设的声音识别模型对所述待标记音频文件中任意一个通道的音频文件进行识别，得到识别结果；

5、在所述识别结果表明所述待标记音频文件中任意一个通道的音频文件存在异常音频片段的情况下，确定所述异常音频片段对应的标记区间；

6、将所述标记区间对应的元数据写入至所述待标记音频文件，得到目标音频文件，所述目标音频文件用于定位所述异常音频片段。

7、在其中一些实施例中，所述获取待标记音频文件，包括：

8、获取第一音频文件以及至少一个第二音频文件；所述第一音频文件和所述第二音频文件来自不同存储器；

9、将所述第一音频文件的第一时间码和至少一个所述第二音频文件的第二时间码进行对齐，得到所述待标记音频文件。

10、在其中一些实施例中，所述将所述第一音频文件的第一时间码和至少一个所述第二音频文件的第二时间码进行对齐，得到所述待标记音频文件，包括：

11、基于所述第一时间码和至少一个所述第二时间码，对至少一个所述第二音频文件进行切割，得到切割后的第二音频文件；

12、根据所述第一音频文件和至少一个所述切割后的第二音频文件，生成所述待标记音频文件。

13、在其中一些实施例中，所述基于所述第一时间码和至少一个所述第二时间码，对至少一个所述第二音频文件进行切割，得到切割后的第二音频文件，包括：

14、确定所述第一时间码的第一起始时间和第一结束时间，以及所述第二时间码的第二起始时间和第二结束时间；

15、在所述第一起始时间晚于所述第二起始时间的情况下，基于所述第一起始时间对所述第二音频文件的起始部分进行切割，得到所述切割后的第二音频文件；

16、在所述第一结束时间早于所述第二结束时间的情况下，基于所述第一结束时间对所述第二音频文件的结束部分进行切割，得到所述切割后的第二音频文件。

17、在其中一些实施例中，所述方法还包括：

18、获取所述待标记音频文件的目标时间线文件；所述目标时间线文件至少包括所述待标记音频文件的起始时间和结束时间；

19、将所述标记区间对应的时间线标签写入所述目标时间线文件，得到标记后的时间线文件；所述标记后的时间线文件用于定位所述异常音频片段对应的时间。

20、在其中一些实施例中，所述声音识别模型包括声音提取网络和声音识别网络；所述根据预设的声音识别模型对所述待标记音频文件中任意一个通道的音频文件进行识别，得到识别结果，包括：

21、通过所述声音提取网络对第一音频片段进行声音特征提取，得到所述第一音频片段的声音特征数据；所述第一音频片段为所述待标记音频文件的至少一个音频片段中任一音频片段；

22、通过所述声音识别网络输出所述声音特征数据属于人声特征数据的第一概率参数；

23、若所述第一概率参数的值小于或等于第一阈值，则判定所述识别结果为所述第一音频片段为所述异常音频片段。

24、在其中一些实施例中，所述异常音频片段包括第一异常片段和第二异常片段，所述第一异常片段为存在噪音的音频片段；所述第二异常片段为不存在人声的音频片段；所述方法还包括：

25、若所述第一概率参数的值小于或等于所述第一阈值且大于第二阈值，则判定所述识别结果为所述第一音频片段为所述第一异常片段；其中，所述第一阈值大于或等于所述第二阈值；

26、若所述第一概率参数的值小于或等于所述第二阈值，则判定所述识别结果为所述第一音频片段为所述第二异常片段。

27、第二方面，本实施例还提供一种音频文件的标记装置，包括：

28、第一获取模块，用于获取待标记音频文件；所述待标记音频文件包括时间码对齐的至少两个通道的音频文件；

29、第一识别模块，用于根据预设的声音识别模型对所述待标记音频文件中任意一个通道的音频文件进行识别，得到识别结果；

30、第一确定模块，用于在所述识别结果表明所述任意一个通道的音频文件存在异常音频片段的情况下，确定所述异常音频片段对应的标记区间；

31、第一写入模块，用于将所述标记区间对应的元数据写入至所述待标记音频文件，得到目标音频文件，所述目标音频文件用于定位所述异常音频片段。

32、第三方面，本实施例还提供一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时实现所述的音频文件的标记方法。

33、第四方面，本实施例还提供一种计算机可读存储介质，上存储有计算机程序，所述计算机程序被处理器进行加载，以执行所述的音频文件的标记方法中的步骤。

34、本实施例提供的音频文件的标记方法，通过对多个时间同步的音频文件进行异常音频识别，避免逐一对时间不同的单个音频文件进行异常音频识别，能够有效提升对音频文件进行异常音频识别的效率；通过预设的声音识别模型对待标记音频文件中任意一个通道的音频文件进行识别，避免人工对音频文件进行异常音频识别导致的工作量较大，进一步提升对音频文件进行异常音频识别的效率；通过将异常音频片段对应的标记区间的元数据写入至所述待标记音频文件，实现了对待标记音频文件的异常音频片段进行自动标注，更加有效提升对音频文件进行异常音频识别的效率以及对待标记音频文件进行剪辑的效率。

技术特征：

1.一种音频文件的标记方法，其特征在于，包括：

2.根据权利要求1所述的音频文件的标记方法，其特征在于，所述获取待标记音频文件，包括：

3.根据权利要求2所述的音频文件的标记方法，其特征在于，所述将所述第一音频文件的第一时间码和至少一个所述第二音频文件的第二时间码进行对齐，得到所述待标记音频文件，包括：

4.根据权利要求3所述的音频文件的标记方法，其特征在于，所述基于所述第一时间码和至少一个所述第二时间码，对至少一个所述第二音频文件进行切割，得到切割后的第二音频文件，包括：

5.根据权利要求1所述的音频文件的标记方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的音频文件的标记方法，其特征在于，所述声音识别模型包括声音提取网络和声音识别网络；所述根据预设的声音识别模型对所述待标记音频文件中任意一个通道的音频文件进行识别，得到识别结果，包括：

7.根据权利要求6所述的音频文件的标记方法，其特征在于，所述异常音频片段包括第一异常片段和第二异常片段，所述第一异常片段为存在噪音的音频片段；所述第二异常片段为不存在人声的音频片段；所述方法还包括：

8.一种音频文件的标记装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的音频文件的标记方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1-7中任一项所述的音频文件的标记方法中的步骤。

技术总结
本申请实施例提供一种音频文件的标记方法、装置、电子设备及存储介质，该方法通过对多个时间同步的音频文件进行异常音频识别，避免逐一对时间不同的单个音频文件进行异常音频识别，能够有效提升对音频文件进行异常音频识别的效率；通过预设的声音识别模型对待标记音频文件中任意一个通道的音频文件进行识别，避免人工对音频文件进行异常音频识别导致的工作量较大，进一步提升对音频文件进行异常音频识别的效率；通过将异常音频片段对应的标记区间的元数据写入至所述待标记音频文件，实现了对待标记音频文件的异常音频片段进行自动标注，更加有效提升对音频文件进行异常音频识别的效率以及对待标记音频文件进行剪辑的效率。

技术研发人员：杨易嘉
受保护的技术使用者：深圳爱图仕创新科技股份有限公司
技术研发日：
技术公布日：2025/8/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨易嘉
技术所有人：深圳爱图仕创新科技股份有限公司
我是此专利的发明人

上一篇：组合互感器及其检测系统、方法与流程
下一篇：一种基于深度神经网络的人像摄影图像仿色方法和系统与流程

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！