歌词文件的生成方法及装置的制造方法_4

文档序号：9811933阅读：来源：国知局

文件之间的时间偏差之后，服务器根据该时间偏差对参考音频文件对应的歌词文件的时间戳进行调整，在该过程中，服务器对歌词文件中每句歌词对应的时间戳调整幅度均为时间偏差。通过参考音频文件对应的歌词文件的时间戳进行调整，可得到目标音频文件对应的歌词文件。
[0171] 对于上述根据参考音频文件对应的歌词文件为目标音频文件生成对应歌词文件的过程，为了便于理解，下面以图4为例进行说明。
[0172] 参见图4,服务器获取同一音频文件不同版本的目标音频文件和参考音频文件，并采用人工方式为参考音频文件生成歌词文件。之后，服务器从目标音频文件中提取第一音频特征，从参考音频文件中提取第二音频特征，进而根据第一音频特征和第二音频特征，计算目标音频文件和参考音频文件时间的时间偏差，并根据该时间偏差调整参考音频文件对应的歌词文件的时间戳，得到目标音频文件对应的歌词文件。
[0173]需要说明的是，上述从目标音频文件与参考音频文件中提取的音频特征除频域能量值外，还可以提取音色的chromagram特征。另外，上述以根据参考音频文件对应的歌词文件，为目标音频文件生成歌词文件为例进行说明的，对于为同一音频文件其他版本的音频文件生成歌词文件的过程，与上述为目标音频文件生成对应的歌词文件的实现方式相同，具体参见上述为目标音频文件生成对应歌词文件的过程，此处不再一一说明。
[0174] 需要说明的是，本实施例提供的歌词文件的生成方法，可以应用于任何具有计算能力的电子设备中，例如，服务器、智能手机、多媒体播放器或者计算机等，本实施仅以歌词文件的生成方法应用于服务器中为例进行说明，但并不能对本发明的应用范围构成限定。
[0175] 本发明实施例提供的方法，对于同一音频文件的不同版本，通过调整参考音频文件对应的歌词文件，即可为目标音频文件生成对应的歌词文件，无需重复生成多个歌词文件，提高了音频文件的制作效率，降低了制作成本。
[0176] 参见图5,本发明实施例提供了一种歌词文件的生成装置，该装置包括：
[0177] 获取模块501，用于获取目标音频文件及参考音频文件，目标音频文件与参考音频文件为同一音频文件的不同版本；
[0178] 提取模块502，用于分别对目标音频文件和参考音频文件进行特征提取，得到第一音频特征和第二音频特征；
[0179] 计算模块503，用于根据第一音频特征和第二音频特征，计算目标音频文件与参考音频文件之间的时间偏差；
[0180] 调整模块504,用于根据时间偏差，调整参考音频文件对应歌词文件的时间戳，得到目标音频文件对应的歌词文件。
[0181 ]在本发明的另一个实施例中，提取模块502，用于采用预设频率对目标音频文件进行重采样;将重采样后的目标音频文件划分为多个音频片段，每个音频片段中包含预设数量个采样点;对于任意相邻的第一音频片段和第二音频片段，采用汉宁窗函数进行处理，得到第一加窗音频片段和第二加窗音频片段;对第一加窗音频片段和第二加窗音频片段分别进行快速傅里叶变换FFT，得到第一音频片段对应的第一频谱和第二音频片段对应的第二频谱;对第一频谱和第二频谱分别进行映射，得到第一音频片段对应的多个第一频率点和第二音频片段对应的多个第二频率点，第一频率点和第二频率点的数量相同；根据多个第一频率点和多个第二频率点，获取第一音频片段的音频特征值;对多个音频片段的音频特征值进行组合，得到第一音频特征。
[0182]在本发明的另一个实施例中，提取模块502,还用于对于第一频谱，根据预设数量个采样点和预设频率，计算每个采样点对应的频率范围；将小于指定范围的频率范围进行线性映射，得到多个线性频率点；将大于指定范围的频率范围，应用以下公式，进行对数映射，得到多个对数频率点：
[0184] 其中，Binne3W表示对数频率点，Bin表示大于指定范围的任一频率范围，△ f表示相邻两个采样点对应的频率范围之间的频率间隔，frrf表示参考频率，*表示乘号；
[0185] 将多个线性频率点和多个对数频率点作为多个第一频率点。
[0186] 在本发明的另一个实施例中，提取模块502，用于获取第一音频片段对应的每个第一频率点上的能量值，并获取第二音频片段对应的每个第二频率点上的能量值;获取第一音频片段上每个第一频率点的能量值与第二音频片段上位置相同的第二频率点的能量值之差，作为第一音频片段的音频特征值。
[0187] 在本发明的另一个实施例中，计算模块503,用于计算第一音频特征和第二音频特征之间的互相关函数;根据互相关函数，计算第一音频特征和第二音频特征之间的时间偏差，作为目标音频文件与参考音频文件之间的时间偏差。
[0188] 在本发明的另一个实施例中，计算模503块，还用于对于第一音频特征和第二音频特征，应用以下公式，计算互相关函数：
[0189] Rxy=IFFT(conj(FFT(x))*FFT(y))
[0190] 其中，X表示第一音频特征，y表示第二音频特征，Rxy表示互相关函数，conj表示共辄运算符，IFFT表示反傅里叶变换，FFT表示傅里叶变换，*表示乘号。
[0191]在本发明的另一个实施例中，计算模块503,还用于计算互相关函数的最大值;获取互相关函数的最大值对应的位置偏差;对于位置偏差，应用以下公式，计算第一音频特征和第二音频特征之间的时间偏差：
[0192] i=m〇/ko
[0193] 其中，τ表示第一音频特征和第二音频特征之间的时间偏差，mo表示互相关函数的最大值所对应的位置偏差，ko表示预设频率，/表示除号。
[0194] 综上，本发明实施例提供的装置，对于同一音频文件的不同版本，通过调整参考音频文件对应的歌词文件，即可为目标音频文件生成对应的歌词文件，无需重复生成多个歌词文件，提高了音频文件的制作效率，降低了制作成本。
[0195] 图6是根据一示例性实施例示出的一种用于歌词文件的生成服务器。参照图6,服务器600包括处理组件622,其进一步包括一个或多个处理器，以及由存储器632所代表的存储器资源，用于存储可由处理组件622的执行的指令，例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件622被配置为执行指令，以执行上述歌词文件的生成中服务器所执行的功能，该方法包括：
[0196] 获取目标音频文件及参考音频文件，目标音频文件与参考音频文件为同一音频文件的不同版本；
[0197] 分别对目标音频文件和参考音频文件进行特征提取，得到第一音频特征和第二音频特征；
[0198] 根据第一音频特征和第二音频特征，计算目标音频文件与参考音频文件之间的时间偏差；
[0199] 根据时间偏差，调整参考音频文件对应歌词文件的时间戳，得到目标音频文件对应的歌词文件。
[0200] 在本发明的另一个实施例中，分别对目标音频文件和参考音频文件进行特征提取，得到第一音频特征和第二音频特征，包括：
[0201 ]采用预设频率对目标音频文件进行重采样；
[0202] 将重采样后的目标音频文件划分为多个音频片段，每个音频片段中包含预设数量个采样点；
[0203] 对于任意相邻的第一音频片段和第二音频片段，采用汉宁窗函数进行处理，得到第一加窗音频片段和第二加窗音频片段；
[0204] 对第一加窗音频片段和第二加窗音频片段分别进行快速傅里叶变换FFT，得到第一音频片段对应的第一频谱和第二音频片段对应的第二频谱；
[0205]对第一频谱和第二频谱分别进行映射，得到第一音频片段对应的多个第一频率点和第二音频片段对应的多个第二频率点，第一频率点和第二频率点的数量相同；
[0206] 根据多个第一频率点和多个第二频率点，获取第一音频片段的音频特征值；
[0207] 对多个音频片段的音频特征值进行组合，得到第一音频特征。
[0208]在本发明的另一个实施例中，对第一频谱和第二频谱分别进行映射，得到第一音频片段对应的第一频率点和第二音频片段对应的第二频率点，包括：
[0209]对于第一频谱，根据预设数量个采样点和预设频率，计算每个采样点对应的频率范围；
[0210] 将小于指定范围的频率范围进行线性映射，得到多个线性频率点；
[0211] 将大于指定范围的频率范围，应用以下公式，进行对数映射，得到多个对数频率占 .
[0213] 其中，Binne3W表示对数频率点，Bin表示大于指定范围的任一频率范围，△ f表示相邻两个采样点对应的频率范围之间的频率间隔，frrf表示参考频率，*表示乘号；
[0214] 将多个线性频率点和多个对数频率点作为多个第一频率点。
[0215] 在本发明的另一个实施例中，根据多个第一频率点和多个第二频率点，获取第一音频片段的音频特征值，包括：
[0216] 获取第一音频片段对应的每个第一频率点的能量值，并获取第二音频片段对应的每个第二频率点的能量值；
[0217] 获取第一音频片段上每个第一频率点的能量值与第二音频片段上位置相同的第二频率点的能量值之差，作为第一音频片段的音频特征值。
[0218] 在本发明的另一个实施例中，根据第一音频特征和第二音频特征，计算目标音频文件与参考音频文件之间的时间偏差，包括：
[0219] 计算第一音频特征和第二音频特征之间的互相关函数；
[0220] 根据互相关函数，计算第一音频特征和第二音频特征之间的时间偏差，作为目标音频文件与参考音频文件之间的时间偏差。
[0221] 在本发明的另一个实施例中，计算第一音频特征和第二音频特征之间的互相关函数，包括：
[0222] 对于第一音频特征和第二音频特征，应用以下公式，计算互相关函数：
[0223] Rxy=IFFT(conj(FFT(x))*FFT(y))
[0224] 其中，X表示第一音频特征，y表示第二音频特征，Rxy表示互相关函数，conj表示共辄运算符，IFFT表示反傅里叶变换，FFT表示傅里叶变换，*表示乘号。
[0225] 在本发明的另一个实施例中，根据互相关函数，计算第一音频特征和第二音频特征之间的时间偏差，包括：
[0226]计算互相关函数的最大值；
[0227] 获取互相关函数的最大值对应的位置偏差；
[0228] 对于位置偏差，应用以下公式，计算第一音频特征和第二音频特征之间的时间偏差：
[0229] i=m〇/k

完整全部详细技术资料下载

当前第4页1 2 3 4 5