歌词文件的生成方法及装置的制造方法_3

文档序号：9811933阅读：来源：国知局

处理之后，可得到第一音频片段对应的第一频谱；当采用FFT对第二加窗音频片段进行处理之后，可得到第二音频片段对应的第二频谱，该第一频谱和第二频谱的频率宽度与预设频率相同，也即是第一频谱和第二频谱的宽度均为44.1kHz。
[0128] 2025、服务器对第一频谱和第二频谱分别进行映射，得到第一音频片段对应的多个第一频率点和第二音频片段对应的多个第二频率点，第一频率点和第二频率点的数量相同。
[0129] 考虑到人耳听觉系统具有线性-对数频率敏感度的特性，服务器需要对第一频谱和第二频谱进行映射。对于服务器对第一频谱进行映射，得到第一音频片段对应的第一频率点的过程，具体参见步骤20251~20254。
[0130] 20251、对于第一频谱，服务器根据预设数量个采样点和预设频率，计算每个采样点对应的频率范围。
[0131]服务器计算预设频率与第一音频片段中包含的采样点数量的比值，得到每个采样点对应的单位频率，服务器按照采样点在第一音频片段中的顺序，以单位频率为步长，获取每个采样点对应的频率范围，在本实施例中，该每个采样点对应的频率范围可用Biη表示。例如，预设频率为44.1kHz，每个音频片段中包含的采样点的数量为2048个，则将44.1kHz/ 2048，可得到每个采样点对应的单位频率为25.3Hz，之后服务器以单位频率为步长，获取到第1个采样点对应的频率范围为〇~25.3Hz，第2个采用点对应的频率范围为25.4Hz~ 50.7Hz，....，第2048个采样点对应的频率范围44074.7Hz~44100Hz。
[0132] 20252、服务器将小于指定范围的频率范围进行线性映射，得到多个线性频率点。
[0133] 通过对第一频谱进行分析可知，当频率范围小于指定范围时，每个频率范围可以一一映射为线性频率点，服务器通过将第一频谱上小于指定范围的频率范围进行线性映射，可得到多个线性频率点。其中，指定范围可根据实际情况进行确定，本实施例对此不作具体的限定。
[0134] 20253、服务器将大于指定范围的频率范围进行对数映射，得到多个对数频点。
[0135] 当频率范围大于指定范围时，服务器可应用以下公式，进行对数映射，得到多个对数频率点：
[0137] 其中，Binne3W表示对数频率点，Bin表示大于指定范围的任一频率范围，△ f表示相邻两个采样点对应的频率范围之间的频率间隔，frrf表示参考频率，*表示乘号，在本实施例中fref为440Hz。通过线性映射，高频部分的多个频率范围可映射为一个对数频点。
[0138] 20254、服务器将多个线性频率点和多个对数频率点作为多个第一频率点。
[0139] 上述以对第一频率进行映射为例，对第二频率的映射过程参见上述步骤20251~ 20254，此处不再赘述。由于服务器对第一频谱进行映射时所采用的映射方法与服务器对第二频谱进行映射时所采用的方法相同，因此，第一频率映射后得到的第一频点的数量和第二频率映射后得到的第二频率的数量应该是相同的。
[0140] 2026、服务器据多个第一频率点和多个第二频率点，获取第一音频片段的音频特征值。
[0141]服务器根据多个第一频率点和多个第二频率点，获取第一音频片段的音频特征值，包括以下步骤20261~20262。
[0142] 20261、服务器获取第一音频片段对应的每个第一频率点的能量值，并获取第二音频片段对应的每个第二频率点的能量值。
[0143] 由于第一音频片段对应的多个第一频率点中包括由小于指定范围的频率范围映射得到的第一频率点、以及由大于指定范围的频率范围映射得到的第一频率点，因此，在获取第一音频片段对应的每个第一频率点的能量值，对于由小于指定范围的频率范围映射得到的第一频率点，服务器可直接获取该频率范围内的能量值，并将获取到的能量值作为该第一频率点的能量值;对于由大于指定范围的频率范围映射得到的第一频率点，服务器需要获取构成该第一频率点的多个频率范围内的能量值之和，并将该能量值之和作为该第一频率点的能量值。
[0144] 服务器在获取第二音频片段对应的每个第二频率点的能量值的方法与上述获取第一音频片段中每个第一频率点的能量值的方法相同，具体参见上述获取第一音频片段对应的每个第一频率点的能量值的过程，此处不再赘述。
[0145] 20262、服务器获取第一音频片段上每个第一频率点的能量值与第二音频片段上位置相同的第二频率点的能量值之差，作为第一音频片段的音频特征值。
[0146] 在本实施例中，第一音频片段和第二音频片段中包含的频率点数相同，服务器通过将第一音频片段上每个第一频率点的能量值与第二音频片段上位置相同的第二频率点的能量值相减，得到的多个能量值差值，并将得到的多个能量差值构成一个列向量，作为第一音频片段的音频特征值。具体地，服务器将第一音频片段上的第一个第一频率点的能量值减去第二音频片段上第一个第二频率点的能量值，将第一音频片段上的第二个第一频率点的能量值减去第二音频片段上第二个第二频率点的能量值，....，将第一音频片段上的最后一个第一频率点的能量值减去第二音频片段上最后一个第二频率点的能量值，将得到的所有差值构成一个列向量，该列向量即为第一音频片段的音频特征值。
[0147] 例如，第一音频片段对应10个第一频率点，各个第一频率点的能量值依次为2.3、 4.1、5.0、1.8、2.6、3.4、3.7、4.6、5.2、3.0,第二音频片段对应10个第二频率点，各个第二频率点的能量值依次为1.6、4、4.5、2、3、2.4、1.8、5、4.2、1.7，则将第一音频片段上的第一个第一频率点的能量值减去第二音频片段上第一个第二频率点的能量值=2.3-1.6 = 0.7，将第一音频片段上的第二个第一频率点的能量值减去第二音频片段上第二个第二频率点的能量值=4.1-4 = 0.1，.....，将第一音频片段上的第十个第一频率点的能量值减去第二音频片段上第十个第二频率点的能量值=3.0-1.7 = 1.3。最后将得到的所有差值构成一个列向量为(0·7,0·1，0·5，-0·2，-0·4，1，1·9，-0·4，1，1·3)，该列向量即为第一音频片段的音频特征值。
[0148] 需要说明的是，上述以将第一音频片段上每个第一频率点的能量值减去第二音频片段上位置相同的第二频率点的能量值，作为第一音频片段的音频特征值为例进行说明的，实际上，也可将第二音频片段上每个第二频率点的能量值减去第一音频片段上每个第一频率点的能量值，作为第一音频片段的音频特征值，只要保证在提取目标音频文件和参考音频文件的音频特征值时，采用相同的减法相减即可。
[0149] 2027、服务器对多个音频片段的音频特征值进行组合，得到第一音频特征。
[0150] 在将重采样后的目标音频文件所划分的多个音频片段均采用上述方法获取到音频特征值之后，服务器通过对多个音频特征值进行组合，得到第一音频特征值。例如，服务器预先为不同的音频片段设置不同的权重，通过对多个音频片段的音频特征值带权相加，可得到第一音频特征值。
[0151] 对于上述从目标音频文件中提取第一音频特征的过程，为了便于理解，下面将以图3为例进行说明。
[0152] 当从音频文件数据库中获取到目标音频文件和参考音频文件之后，服务器对所获取到的目标音频文件进行重采样，并将重采样后的目标音频文件划分为多个音频片段，对于任意相邻的两个音频片段第一音频片段和第二音频片段，服务器采用汉宁窗函数进行处理，得到第一加窗音频片段和第二加窗音频片段，并利用FFT计算第一加窗音频片段和第二加窗音频片段的频谱，得到第一频谱和第二频谱。考虑到人耳的听觉系统具有线性-对数频率的敏感度的特性，服务器还将对第一频谱和第二频谱进行映射，进而根据映射结果进行能量聚合，并根据聚合后的能量计算第一音频片段的音频特征值。服务器通过将多个音频片段的音频特征值进行组合，得到第一音频特征。
[0153] 203、服务器对参考音频文件进行特征提取，得到第二音频特征。
[0154]服务器对参考音频文进行特征提取的过程，与上述步骤202的实现方式相同，具体参见上述步骤203，此处不再赘述。
[0155] 需要说明的是，上述步骤202中对目标音频文件进行特征提取和步骤203中对参考音频文件进行特征提取的过程是同时进行的，在本实施例中仅将从对目标音频文件进行特征提取作为步骤202，对参考音频文件进行特征提取作为步骤203，上述步骤202和上述步骤 203并不代表具体的执行顺序。
[0156] 204、服务器根据第一音频特征和第二音频特征，计算目标音频文件与参考音频文件之间的时间偏差。
[0157] 在本实施例中，服务器根据第一音频特征和第二音频特征，计算目标音频文件与参考音频文件之间的时间偏差，包括以下步骤2041~2042。
[0158] 2041、服务器计算第一音频特征和第二音频特征之间的互相关函数。
[0159] 其中，互相关函数用于表示两个信号之间的相关程度。对于第一音频特征和第二音频特征，服务器在计算第一音频特征和第二音频特征之间的互相关函数时，可应用以下公式(1):
[0160] Rxy=IFFT(conj(FFT(x))*FFT(y)) (1)
[0161] 其中，X表示第一音频特征，y表示第二音频特征，Rxy表示互相关函数，conj表示共辄运算符，IFFT表示反傅里叶变换，FFT表示傅里叶变换，*表示乘号。
[0162] 2042、服务器根据互相关函数，计算第一音频特征和第二音频特征之间的时间偏差，作为目标音频文件与参考音频文件之间的时间偏差。
[0163] 服务器根据互相关函数，计算第一音频特征和第二音频特征之间的时间偏差，包括以下步骤20421~20423。
[0164] 20421、服务器计算互相关函数的最大值。
[0165] 20422、服务器获取互相关函数的最大值对应的位置偏差。
[0166] 20423、对于位置偏差，应用以下公式，计算第一音频特征和第二音频特征之间的时间偏差：
[0167] i=m〇/ko
[0168] 其中，τ表示第一音频特征和第二音频特征之间的时间偏差，mo表示互相关函数的最大值所对应的位置偏差，ko表示预设频率，/表示除号。
[0169] 205、服务器根据时间偏差，调整参考音频文件对应歌词文件的时间戳，得到目标音频文件对应的歌词文件。
[0170] 在计算出目标音频文件与参考音频

完整全部详细技术资料下载

当前第3页1 2 3 4 5