音频数据处理方法、装置、设备及介质与流程

文档序号：34907327发布日期：2023-07-27 19:11阅读：27来源：国知局

本公开的实施方式涉及多媒体，更具体地，本公开的实施方式涉及一种音频数据处理方法、装置、设备及介质。

背景技术：

1、本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、随着短视频、综艺、直播的流行，翻唱歌曲的数量越来越多，需要识曲的场景也越来越复杂，传统的听歌识曲功能已经无法满足用户多元化、个性化的识别需求，因而，翻唱识别功能应运而生。通过翻唱识别功能，用户可以实现原唱歌曲片段和翻唱歌曲片段的匹配，让歌曲查找过程变得更加精准便捷。

3、在通过翻唱识别功能匹配原唱歌曲和翻唱歌曲时，按照预先确定好的规则，提取足够表征歌曲片段属性的特征，从而基于提取到的特征完成原唱歌曲片段和翻唱歌曲片段的相似度匹配，以找到翻唱歌曲片段对应的原唱歌曲。而构建规则的过程中需要大量的训练数据，因此，亟需一种音频数据处理方法，以找到原唱歌曲中的原唱歌曲片段对应的翻唱歌曲片段，进而将原唱歌曲片段及对应的翻唱歌曲片段构建为翻唱对，以将翻唱对作为用于构建规则的训练数据。

技术实现思路

1、但是，出于相关技术中作为训练数据的原唱歌曲和翻唱歌曲数量不足的原因，从而使得构建出的特征提取规则无法提取到能有效表征歌曲片段属性的特征，进而导致翻唱歌曲与原唱歌曲匹配的准确性较差。

2、基于这种情况，在本上下文中，本公开的实施方式期望提供一种音频数据处理方法，以基于有限数量的原唱歌曲和翻唱歌曲，获取原唱歌曲片段及对应的翻唱歌曲片段，以实现对作为用于构建规则的训练数据的扩充。

3、在本公开实施方式的第一方面中，提供了一种音频数据处理方法，该方法包括：

4、对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段；

5、获取每个原唱音频片段的第一歌词字符串以及至少一个备选翻唱音频数据中每个备选翻唱音频数据的第二歌词字符串；

6、对于任一原唱音频片段，基于第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与原唱音频片段匹配的翻唱音频片段。

7、在本公开的一个实施例中，基于第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与原唱音频片段匹配的翻唱音频片段，包括：

8、基于第一歌词字符串在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定出与第一歌词字符串匹配的目标翻唱歌词字符串；

9、按照目标翻唱歌词字符串的起止位置所对应的时间戳，对目标翻唱歌词字符串对应的备选翻唱音频数据进行片段切分，得到与原唱音频片段匹配的翻唱音频片段。

10、在本公开的一个实施例中，基于第一歌词字符串在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定出与第一歌词字符串匹配的目标翻唱歌词字符串，包括：

11、基于第一歌词字符串中的部分字符，在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定至少一个备选翻唱歌词字符串；

12、按照第一歌词字符串的字符串长度，对至少一个备选翻唱歌词字符串进行扩展，得到至少一个待匹配歌词字符串；

13、基于每个待匹配歌词字符串与第一歌词字符串的相似度，从至少一个待匹配歌词字符串中确定与第一歌词字符串匹配的目标翻唱歌词字符串。

14、在本公开的一个实施例中，基于第一歌词字符串中的部分字符，在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定至少一个备选翻唱歌词字符串，包括：

15、对于任一第二歌词字符串，遍历第二歌词字符串，以确定第二歌词字符串所对应的多个字符串片段与第一歌词字符串中的部分字符的相似度；

16、将多个字符串片段中相似度满足第一预设条件的字符串片段确定为备选翻唱歌词字符串。

17、在本公开的一个实施例中，按照第一歌词字符串的字符串长度，对至少一个备选翻唱歌词字符串进行扩展，得到至少一个待匹配歌词字符串，包括：

18、对于任一备选翻唱歌词字符串，在备选翻唱歌词字符串所对应的第二歌词字符串中，获取以备选翻唱歌词字符串为中心、且字符串长度与第一歌词字符串的长度一致的歌词字符串，作为备选翻唱歌词字符串对应的待匹配歌词字符串。

19、在本公开的一个实施例中，基于每个待匹配歌词字符串与第一歌词字符串的相似度，从至少一个待匹配歌词字符串中确定与第一歌词字符串匹配的目标翻唱歌词字符串之前，该方法还包括：

20、确定每个待匹配歌词字符串与第一歌词字符串的相似度。

21、在本公开的一个实施例中，确定每个待匹配歌词字符串与第一歌词字符串的相似度，包括：

22、对于任一待匹配歌词字符串，基于待匹配歌词字符串与第一歌词字符串之间的编辑距离，确定待匹配歌词字符串与第一歌词字符串的相似度。

23、在本公开的一个实施例中，基于待匹配歌词字符串与第一歌词字符串之间的编辑距离，确定待匹配歌词字符串与第一歌词字符串的相似度，包括：

24、确定第一歌词字符串与待匹配歌词字符串的字符串长度差值，将编辑距离与字符串长度差值之差，确定为待匹配歌词字符串与第一歌词字符串的相似度。

25、在本公开的一个实施例中，基于每个待匹配歌词字符串与第一歌词字符串的相似度，从至少一个待匹配歌词字符串中确定与第一歌词字符串匹配的目标翻唱歌词字符串，包括：

26、将至少一个待匹配歌词字符串中与第一歌词字符串的相似度满足第二预设条件的待匹配歌词字符串确定为目标翻唱歌词字符串。

27、在本公开的一个实施例中，部分字符为位于第一字符串的中心处、且字符串长度为设定长度的多个字符。

28、在本公开的一个实施例中，对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段，包括：

29、基于原唱音频数据中每句歌词的时间戳，将原唱音频数据划分为片段时长为预设时长的多个原唱音频片段。

30、在本公开的一个实施例中，对于任一原唱音频片段，原唱音频片段的第一歌词字符串的获取过程包括：

31、获取原唱音频片段的歌词文本；

32、去除原唱音频片段的歌词文本中的标点符号，并将原唱音频片段的歌词文本中的字符转换为设定格式的字符，以得到原唱音频片段的第一歌词字符串。

33、在本公开的一个实施例中，对于任一备选翻唱音频数据，备选翻唱音频数据的第二歌词字符串的获取过程包括：

34、获取备选翻唱音频数据的歌词文本；

35、去除备选翻唱音频数据的歌词文本中的标点符号，并将备选翻唱音频数据的歌词文本中的字符转换为设定格式的字符，以得到备选翻唱音频数据的第二歌词字符串。

36、在本公开实施方式的第二方面中，提供了一种音频数据处理装置，该装置包括：

37、切分模块，用于对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段；

38、获取模块，用于获取每个原唱音频片段的第一歌词字符串以及至少一个备选翻唱音频数据中每个备选翻唱音频数据的第二歌词字符串；

39、确定模块，用于对于任一原唱音频片段，基于第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与原唱音频片段匹配的翻唱音频片段。

40、在本公开实施方式的第三方面中，提供了一种计算设备，计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行程序时实现如上述第一方面以及第一方面的任意实施例所提供的音频数据处理方法所执行的操作。

41、在本公开实施方式的第四方面中，提供了一种计算机可读存储介质，计算机可读存储介质上存储有程序，程序被处理器执行上述第一方面以及第一方面的任意实施例所提供的音频数据处理方法所执行的操作。

42、在本公开实施方式的第五方面中，提供了一种计算机程序产品，计算机程序产品包括计算机程序，程序被处理器执行时实现如上述第一方面以及第一方面的任意实施例所提供的音频数据处理方法所执行的操作。

43、本公开通过在对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段的情况下，获取每个原唱音频片段的第一歌词字符串以及至少一个备选翻唱音频数据中每个备选翻唱音频数据的第二歌词字符串，从而基于每个原唱音频片段对应的第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与该原唱音频片段匹配的翻唱音频片段，以实现原唱音频片段和翻唱音频片段的匹配，匹配的原唱音频片段和翻唱音频片段后续即可作为用于构建特征提取规则的训练数据，从而即可实现对训练数据的扩充。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑思远潘颂声李鹏赵翔宇刘华平
技术所有人：杭州网易云音乐科技有限公司
我是此专利的发明人