一种音频处理方法、装置及计算机设备、存储介质与流程

文档序号：35056004发布日期：2023-08-06 12:46阅读：37来源：国知局

本技术涉及计算机，尤其涉及一种音频处理方法、装置及计算机设备、存储介质。

背景技术：

1、目前，许多的音频都是由多个拼接音频拼接而成的组合音频，例如，当一些视频（例如，短视频、小视频、以及影视视频，等等）的视频内容中包括多个视频场景时，可以通过为每个视频场景搭配不同拼接音频的方式，提升视频的播放效果，从而，这些视频的背景音频可以是由多个拼接音频拼接而成的组合音频。

2、从技术角度分析，音频中是否包含不同拼接音频之间的音频拼接点，是用来判断音频是否为组合音频的手段，如果音频中包含音频拼接点，那么可以说明音频为组合音频，如果音频中不包含音频拼接点，那么可以说明音频不是组合音频。因此，如何对音频进行音频拼接点预测，成为当前的研究热点。

技术实现思路

1、本技术实施例提供了一种音频处理方法、装置及计算机设备、存储介质，可以较为准确地对音频进行音频拼接点预测。

2、一方面，本技术实施例提供了一种音频处理方法，该音频处理方法包括：

3、获取待处理的音频，音频包括对音频划分得到的多个音频片段；

4、对音频的每个音频片段进行特征分析，得到每个音频片段的特征信息；

5、基于音频中的各个音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果；拼接预测结果用于指示相应音频片段中音频拼接点的包含情况；每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的；

6、根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理。

7、相应地，本技术实施例提供了一种音频处理装置，该音频处理装置包括：

8、获取单元，用于获取待处理的音频，音频包括对音频划分得到的多个音频片段；

9、处理单元，用于对音频的每个音频片段进行特征分析，得到每个音频片段的特征信息；

10、处理单元，还用于基于音频中的各个音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果；拼接预测结果用于指示相应音频片段中音频拼接点的包含情况；每个音频片段的拼接预测结果是基于每个音频片段的特征信息与其前序音频片段的特征信息进行拼接预测得到的；

11、处理单元，还用于根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理。

12、在一种实现方式中，处理单元，用于根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理时，具体用于执行如下步骤：

13、若根据音频中的各个音频片段的拼接预测结果确定音频包含音频拼接点，则根据音频拼接点对音频进行裁剪处理，得到多个拼接音频；

14、在音频库中查询每个拼接音频所属的源音频；

15、确定每个拼接音频在其所属的源音频上的时序位置；任一个拼接音频在其所属的源音频上的时序位置包括：其所属的源音频上的开始时间点和其所属的源音频上的结束时间点；

16、基于每个拼接音频在其所属的源音频上的时序位置，对每个拼接音频进行音频业务处理。

17、在一种实现方式中，多个拼接音频中的任一个拼接音频表示为目标拼接音频，音频库中的任一个源音频表示为目标源音频；处理单元，用于在音频库中查询目标拼接音频所属的源音频时，具体用于执行如下步骤：

18、获取目标拼接音频的特征序列；目标拼接音频的特征序列包括目标拼接音频中的各个音频片段的特征信息；

19、获取目标源音频的特征序列；目标源音频的特征序列包括目标源音频中的各个音频片段的特征信息；

20、在目标拼接音频的特征序列与目标源音频的特征序列之间进行滑窗匹配；

21、若目标源音频的特征序列中存在与目标拼接音频的特征序列相匹配的特征子序列，则确定目标源音频是目标拼接音频所属的源音频。

22、在一种实现方式中，处理单元，用于在目标拼接音频的特征序列与目标源音频的特征序列之间进行滑窗匹配时，具体用于执行如下步骤：

23、当滑动窗口在目标源音频的特征序列中滑动至当前滑动位置时，获取滑动窗口在当前滑动位置所包含的窗口特征子序列；滑动窗口在目标源音频的特征序列中以一个特征信息的长度作为滑动步长进行滑动，滑动窗口的窗口长度与目标拼接音频的特征序列长度相同；

24、若窗口特征子序列与目标拼接音频的特征序列之间的差异信息小于差异阈值，则确定窗口特征子序列是目标源音频的特征序列中与目标拼接音频的特征序列相匹配的特征子序列；以及，在目标源音频的特征序列中继续对滑动窗口进行滑动以进行后续的滑窗匹配，直至滑动窗口滑动至目标源音频的特征序列终点；

25、若窗口特征子序列与目标拼接音频的特征序列之间的差异信息大于或等于差异阈值，则在目标源音频的特征序列中继续对滑动窗口进行滑动以进行后续的滑窗匹配，直至滑动窗口滑动至目标源音频的特征序列终点。

26、在一种实现方式中，每个拼接音频和音频库中的每个源音频均按照目标时长进行音频片段的划分；目标拼接音频所属的源音频的特征序列中，与目标拼接音频的特征序列相匹配的特征子序列表示为目标特征子序列；处理单元，用于确定目标拼接音频在其所属的源音频上的时序位置时，具体用于执行如下步骤：

27、获取目标特征子序列中的第一特征信息，在目标音频片段所属的源音频的特征序列中的第一排列序号，第一特征信息是目标特征子序列中时序位于首位的特征信息；以及，获取目标特征子序列中的第二特征信息，在目标拼接音频所属的源音频的特征序列中的第二排列序号，第二特征信息是目标特征子序列中时序位于末位的特征信息；

28、将第一排列序号与目标时长的乘积，确定为目标拼接音频在其所属的源音频上的开始时间点；

29、将第二排列序号与目标时长的乘积，确定为目标拼接音频在其所属的源音频上的结束时间点。

30、在一种实现方式中，目标拼接音频所属的源音频的特征序列中，存在与目标拼接音频的特征序列相匹配的多个特征子序列；处理单元，用于确定目标拼接音频在其所属的源音频上的时序位置时，具体用于执行如下步骤：

31、在多个相匹配的特征子序列中，确定与目标拼接音频的特征序列之间的差异信息最小的参考特征子序列；

32、根据参考特征子序列在目标拼接音频所属的源音频的特征序列中的排列位置，确定目标拼接音频在其所属的源音频上的时序位置。

33、在一种实现方式中，目标拼接音频的特征序列是由特征分析网络对目标拼接音频进行特征分析得到的；特征分析网络的训练过程，包括：

34、获取第一样本数据，第一样本数据包括多个样本音频，每个样本音频包括多个裁剪音频；

35、从第一样本数据中获取第m个样本音频中的第i个裁剪音频和第j个裁剪音频，以及，从第一样本数据中获取第n个样本音频中的第k个裁剪音频；m、n、i、j和k均为正整数，且m不等于n、i不等于j；

36、调用特征分析网络对第i个裁剪音频进行特征分析，得到第i个裁剪音频的特征序列；以及，调用特征分析网络对第j个裁剪音频进行特征分析，得到第j个裁剪音频的特征序列；以及，调用特征分析网络对第k个裁剪音频进行特征分析，得到第k个裁剪音频的特征序列；

37、根据第j个裁剪音频的特征序列与第i个裁剪音频的特征序列之间的第一差异信息，以及第j个裁剪音频的特征序列与第k个裁剪音频的特征序列之间的第二差异信息，对特征分析网络进行训练。

38、在一种实现方式中，处理单元，用于根据第j个裁剪音频的特征序列与第i个裁剪音频的特征序列之间的第一差异信息，以及第j个裁剪音频的特征序列与第k个裁剪音频的特征序列之间的第二差异信息，对特征分析网络进行训练时，具体用于执行如下步骤：

39、根据第一差异信息和第二差异信息，构建特征分析网络的损失信息；

40、按照减小特征分析网络的损失信息中第一差异信息，并增大特征分析网络的损失信息中第二差异信息的方向，更新特征分析网络的网络参数，以对特征分析网络进行训练。

41、在一种实现方式中，处理单元，用于根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理时，还用于执行如下步骤：

42、若根据音频中的各个音频片段的拼接预测结果确定所述音频不包含音频拼接点，则在音频库中查询音频所属的源音频；

43、确定音频在其所属的源音频上的时序位置。

44、在一种实现方式中，音频为目标视频的背景音频；处理单元，还用于执行如下步骤：

45、获取目标视频在播放至各个拼接音频的所在时段时，目标视频的视频关注信息；

46、根据各个拼接音频对应的视频关注信息，分析各个拼接音频对目标视频的关注影响情况。

47、在一种实现方式中，音频为目标视频的背景音频；处理单元，用于根据音频中的各个音频片段的拼接预测结果，对音频进行音频业务处理时，具体用于执行如下步骤：

48、若根据音频中的各个音频片段的拼接预测结果确定音频包含音频拼接点，则对目标视频播放至音频拼接点时的视频内容进行特效检查；

49、若特效检查结果指示目标视频播放至音频拼接点时的视频内容存在视频特效，则确定视频特效的特效种类；

50、分析特效种类对目标视频的关注影响情况。

51、在一种实现方式中，特征分析是由拼接预测模型中的特征分析网络执行的；音频中的任一个音频片段表示为目标音频片段；处理单元，用于调用特征分析网络对目标音频片段进行特征分析，得到目标音频片段的特征信息时，具体用于执行如下步骤：

52、将目标音频片段从时域空间转换至频域空间，得到目标音频片段的频域信息；

53、对目标音频片段的频域信息进行特征提取，得到目标音频片段的特征信息。

54、在一种实现方式中，拼接预测是由拼接预测模型中的拼接预测网络执行的，拼接预测网络包括多个拼接预测单元，一个拼接预测单元用于对音频中的一个音频片段进行拼接预测；音频中的任一个音频片段表示为目标音频片段，拼接预测网络中的目标拼接预测单元用于对目标音频片段进行拼接预测；目标音频片段的前序音频片段的特征信息被保留至目标拼接预测单元的前一拼接预测单元的状态信息中，前一拼接预测单元的状态信息和前一拼接预测单元的输出信息被输入至目标拼接预测单元中；

55、处理单元，用于调用目标拼接预测单元基于目标音频片段的特征信息与目标音频片段的前序音频片段的特征信息，对目标音频片段进行拼接预测时，具体用于执行如下步骤：

56、根据前一拼接预测单元的输出信息和目标音频片段的特征信息，对前一拼接预测单元的状态信息进行遗忘分析，确定前一拼接预测单元的状态信息中需要保留的第一状态信息；

57、根据前一拼接预测单元的输出信息和目标音频片段的特征信息，对目标拼接预测单元进行记忆分析，确定前一拼接预测单元的输出信息和目标音频片段的特征信息中需要添加至目标拼接预测单元的状态信息的第二状态信息；

58、对第一状态信息和第二状态信息进行组合，得到目标拼接预测单元的状态信息；

59、根据前一拼接预测单元的输出信息和目标音频片段的特征信息，对目标拼接预测单元的状态信息进行输出分析，得到目标音频片段的拼接预测结果。

60、在一种实现方式中，特征分析是由拼接预测模型中的特征分析网络执行的，拼接预测是由拼接预测模型中的拼接预测网络执行的；拼接预测模型的训练过程，包括：

61、从第二样本数据中获取目标样本音频；所述第二样本数据包括多个样本音频，每个样本音频包括对相应样本音频划分得到的多个样本音频片段，第二样本数据还包括每个样本音频中的各个样本音频片段的拼接标记结果；目标样本音频为第二样本数据中的任一个样本音频；

62、调用特征分析网络对目标样本音频中的每个样本音频片段进行特征分析，得到每个样本音频片段的特征信息；

63、调用拼接预测网络基于目标样本音频中的各个样本音频片段的特征信息，对每个样本音频片段进行拼接预测，得到每个样本音频片段的拼接预测结果；

64、根据目标样本音频中的各个样本音频片段的拼接预测结果与拼接标记结果，对拼接预测模型进行训练。

65、在一种实现方式中，第二样本数据的获取方式，包括：

66、获取第一原始音频和第二原始音频；

67、从第一原始音频中截取第一音频片段，从第二原始音频中截取第二音频片段；

68、对第一音频片段和第二音频片段进行拼接处理，得到第二样本数据中的一个样本音频；或者，对第一音频片段和第二音频片段进行拼接处理后，截取包含音频拼接点的音频片段，得到第二样本数据中的一个样本音频；

69、生成样本音频中的各个样本音频片段的拼接标记结果。

70、相应地，本技术实施例提供一种计算机设备，该计算机设备包括：

71、处理器，适于实现计算机程序；

72、计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序适于由处理器加载并执行上述的音频处理方法。

73、相应地，本技术实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，使得计算机设备执行上述的音频处理方法。

74、相应地，本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的音频处理方法。

75、本技术实施例中，音频可以被划分为多个音频片段，可以对每个音频片段进行特征分析，得到每个音频片段的特征信息，可以基于每个音频片段的特征信息与其前序音频片段的特征信息，对每个音频片段进行拼接预测，得到每个音频片段的拼接预测结果，拼接预测结果可以用于指示相应音频片段中音频拼接点的包含情况；也就是说，本技术可以将音频划分为更细粒度的多个音频片段，通过预测各个音频片段中音频拼接点的包含情况，来实现对音频进行音频拼接点预测。并且，音频片段的预测粒度小于音频的预测粒度，将音频划分为更小的粒度进行预测，这样能够提升对音频进行音频拼接点预测的准确率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李廷天肖鑫雨
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种汽车用高耐候有机硅密封胶及其制备方法与流程
上一篇：一种PTFE毛坯自动缠卷装置及使用方法与流程