1.一种歌曲音频拼接方法,其特征在于,所述方法包括:
获取多个用户针对目标歌曲的演绎音频数据,所述演绎音频数据包括所述目标歌曲的各个分句的清唱音频数据;
分别提取各用户演绎的各个分句的清唱音频数据的基频信息,获取各个分句的不同用户的清唱音频数据的基频信息对应的音符值序列;
计算所述多个用户中的目标用户演绎目标分句的音符值序列分别与所述多个用户中其他用户演绎目标分句的音符值序列之间的基频距离的和,作为所述目标用户演绎目标分句的清唱音频数据的基频距离和;
根据各个用户演绎目标分句的清唱音频数据的基频距离和,从所述各个用户演绎目标分句的清唱音频数据中确定所述目标歌曲中的目标分句对应的分句清唱音频数据;
根据目标歌曲的各个分句对应的分句清唱音频数据,生成所述目标歌曲的拼接音频数据。
2.如权利要求1所述的方法,其特征在于,所述根据各个用户演绎目标分句的清唱音频数据的基频距离和,从所述各个用户演绎目标分句的清唱音频数据中确定所述目标歌曲中的目标分句对应的分句清唱音频数据包括:
按照基频距离和从小到大,对各个用户演绎目标分句的清唱音频数据进行排序;
获取排序前N个清唱音频数据作为所述目标分句的备选清唱音频数据,从所述备选清唱音频数据中选择其中一个清唱音频数据作为所述目标歌曲中的目标分句对应的分句清唱音频数据。
3.如权利要求2所述的方法,其特征在于,所述获取排序前N个清唱音频数据作为所述目标分句的备选清唱音频数据包括:
根据各个用户演绎目标分句的清唱音频数据的基频距离和,计算各个用户演绎目标分句的清唱音频数据的置信度;
将置信度达到预设置信度阈值的排序前N个清唱音频数据作为所述目标分句的备选清唱音频数据,N由置信度达不到预设置信度阈值的基频距离和最小的清唱音频数据的排序确定。
4.如权利要求3所述的方法,其特征在于,所述根据各个用户演绎目标分句的清唱音频数据的基频距离和,计算各个用户演绎目标分句的清唱音频数据的置信度包括:
在各个用户演绎目标分句的清唱音频数据中,根据排序第1个清唱音频数据的基频距离和与排序前M个清唱音频数据的基频距离和之间的比较结果,确定排序第1个清唱音频数据的置信度;
根据所述排序第1个清唱音频数据的基频距离和与其他各个清唱音频数据的基频距离和的比较结果,确定其他各个清唱音频数据的置信度。
5.如权利要求2所述的方法,其特征在于,所述根据目标歌曲的各个分句对应的分句清唱音频数据,生成所述目标歌曲的拼接音频数据之前还包括:
分别提取各用户演绎的目标歌曲的演绎音频数据的基频信息,获取不同用户的演绎音频数据的基频信息对应的音符值序列;
计算所述多个用户中的目标用户的演绎音频数据的音符值序列分别与所述多个用户中其他用户的演绎音频数据的音符值序列之间的基频距离的和,作为所述目标用户的演绎音频数据的基频距离和;
根据各个用户的演绎音频数据的基频距离和,将基频距离和最小的演绎音频数据作为参考清唱音频数据;
确定所述目标歌曲的各个分句对应的分句清唱音频数据与所述参考清唱音频数据的相应分句的清唱音频数据之间的基调差均小于预设基调阈值。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
若所述目标歌曲的各个分句对应的分句清唱音频数据与所述参考清唱音频数据的相应分句的清唱音频数据之间的基调差不能满足均小于预设基调阈值,则重新从各个分句对应的备选清唱音频数据中选择其中的清唱音频数据作为所述目标歌曲中的目标分句对应的分句清唱音频数据,直至各个分句对应的分句清唱音频数据与所述参考清唱音频数据的相应分句的清唱音频数据之间的基调差均小于预设基调阈值。
7.如权利要求1-6所述的任一方法,其特征在于,所述分别提取各用户演绎的各个分句的清唱音频数据的基频信息,获取各个分句的不同用户的清唱音频数据的基频信息对应的音符值序列包括:
按照预设帧长和预设帧移分别提取各用户演绎的各个分句的清唱音频数据的基频信息,以生成各用户演绎的各个分句对应的至少一个基频点;
对所述至少一个基频点中各基频点的基频值进行调整,并将调整后的所述各基频点的基频值转换为所述各基频点对应的音符值,从而获取各个分句的不同用户的清唱音频数据的基频信息对应的音符值序列。
8.根据权利要求7所述的方法,其特征在于,所述对所述至少一个基频点中各基频点的基频值进行调整包括:
对所述至少一个基频点中的奇异基频点的基频值进行置零处理;
对所述各基频点进行中值滤波处理。
9.一种歌曲音频拼接设备,其特征在于,所述设备包括:
数据获取单元,用于获取多个用户针对目标歌曲的演绎音频数据,所述演绎音频数据包括所述目标歌曲的各个分句的清唱音频数据;
第一音符值转换单元,用于分别提取各用户演绎的各个分句的清唱音频数据的基频信息,获取各个分句的不同用户的清唱音频数据的基频信息对应的音符值序列;
第一计算单元,用于计算所述多个用户中的目标用户演绎目标分句的音符值序列分别与所述多个用户中其他用户演绎目标分句的音符值序列之间的基频距离的和,作为所述目标用户演绎目标分句的清唱音频数据的基频距离和;
第一分句数据选择单元,用于根据各个用户演绎目标分句的清唱音频数据的基频距离和,从所述各个用户演绎目标分句的清唱音频数据中确定所述目标歌曲中的目标分句对应的分句清唱音频数据;
数据生成单元,用于根据目标歌曲的各个分句对应的分句清唱音频数据,生成所述目标歌曲的拼接音频数据。
10.如权利要求9所述的设备,其特征在于,所述第一分句数据选择单元包括:
数据排序子单元,用于按照基频距离和从小到大,对各个用户演绎目标分句的清唱音频数据进行排序;
备选数据获取子单元,用于获取排序前N个清唱音频数据作为所述目标分句的备选清唱音频数据,从所述备选清唱音频数据中选择其中一个清唱音频数据作为所述目标歌曲中的目标分句对应的分句清唱音频数据。
11.如权利要求10所述的设备,其特征在于,所述数据排序子单元用于:
根据各个用户演绎目标分句的清唱音频数据的基频距离和,计算各个用户演绎目标分句的清唱音频数据的置信度;
将置信度达到预设置信度阈值的排序前N个清唱音频数据作为所述目标分句的备选清唱音频数据,N由置信度达不到预设置信度阈值的基频距离和最小的清唱音频数据的排序确定。
12.如权利要求11所述的设备,其特征在于,所述数据排序子单元用于:
在各个用户演绎目标分句的清唱音频数据中,根据排序第1个清唱音频数据的基频距离和与排序前M个清唱音频数据的基频距离和之间的比较结果,确定排序第1个清唱音频数据的置信度;
根据所述排序第1个清唱音频数据的基频距离和与其他各个清唱音频数据的基频距离和的比较结果,确定其他各个清唱音频数据的置信度。
13.如权利要求10所述的设备,其特征在于,所述设备还包括:
第二音符值转换单元,用于分别提取各用户演绎的目标歌曲的演绎音频数据的基频信息,获取不同用户的演绎音频数据的基频信息对应的音符值序列;
第二计算单元,用于计算所述多个用户中的目标用户的演绎音频数据的音符值序列分别与所述多个用户中其他用户的演绎音频数据的音符值序列之间的基频距离的和,作为所述目标用户的演绎音频数据的基频距离和;
参考数据选择单元,用于根据各个用户的演绎音频数据的基频距离和,将基频距离和最小的演绎音频数据作为参考清唱音频数据;
基调差确定单元,用于确定所述目标歌曲的各个分句对应的分句清唱音频数据与所述参考清唱音频数据的相应分句的清唱音频数据之间的基调差均小于预设基调阈值。
14.如权利要求13所述的设备,其特征在于,所述设备还包括:
第二分句数据选择单元,用于若所述目标歌曲的各个分句对应的分句清唱音频数据与所述参考清唱音频数据的相应分句的清唱音频数据之间的基调差不能满足均小于预设基调阈值,则重新从各个分句对应的备选清唱音频数据中选择其中的清唱音频数据作为所述目标歌曲中的目标分句对应的分句清唱音频数据,直至各个分句对应的分句清唱音频数据与所述参考清唱音频数据的相应分句的清唱音频数据之间的基调差均小于预设基调阈值。
15.如权利要求9-14所述的任一设备,其特征在于,所述第一音符值转换单元包括:
基频点生成子单元,用于按照预设帧长和预设帧移分别提取各用户演绎的各个分句的清唱音频数据的基频信息,以生成各用户演绎的各个分句对应的至少一个基频点;
第一音符值转换子单元,用于对所述至少一个基频点中各基频点的基频值进行调整,并将调整后的所述各基频点的基频值转换为所述各基频点对应的音符值,从而获取各个分句的不同用户的清唱音频数据的基频信息对应的音符值序列。
16.根据权利要求15所述的设备,其特征在于,所述第一音符值转换子单元用于:
对所述至少一个基频点中的奇异基频点的基频值进行置零处理;
对所述各基频点进行中值滤波处理。