歌词文件的生成方法及装置的制造方法

文档序号：9811933阅读：791来源：国知局

歌词文件的生成方法及装置的制造方法
【技术领域】
[0001] 本发明涉及音频处理技术领域，特别涉及一种歌词文件的生成方法及装置。
【背景技术】
[0002] 随着音频处理技术的发展，用户对试听体验有了更高的要求，不仅要求音频播放应用能够播放音频文件，还希望音频播放应用能够同步显示与音频文件相应的歌词文件。
[0003] 为了满足用户的需求，现有技术主要采用人工方式为音频文件数据库中的每个音频文件生成相应的歌词文件，并将所生成的歌词文件导入到音频播放应用中，从而在播放音频文件时，同步显示相应地歌词文件。
[0004] 在实现本发明的过程中，发明人发现现有技术至少存在以下问题：
[0005] 对于音频文件数据库中不同版本的音频文件，现有技术也会采用人工方式为每个音频文件分别生成一个歌词文件，该过程效率较低、制作成本较高。

【发明内容】

[0006] 为了解决现有技术的问题，本发明实施例提供了一种歌词文件的生成方法及装置。所述技术方案如下：
[0007] -方面，提供了一种歌词文件的生成方法，所述方法包括：
[0008] 获取目标音频文件及参考音频文件，所述目标音频文件与所述参考音频文件为同一音频文件的不同版本；
[0009] 分别对所述目标音频文件和所述参考音频文件进行特征提取，得到第一音频特征和第二音频特征；
[0010] 根据所述第一音频特征和所述第二音频特征，计算所述目标音频文件与所述参考音频文件之间的时间偏差；
[0011] 根据所述时间偏差，调整所述参考音频文件对应歌词文件的时间戳，得到所述目标音频文件对应的歌词文件。
[0012] 可选地，所述分别对所述目标音频文件和所述参考音频文件进行特征提取，得到第一音频特征和第二音频特征，包括：
[0013] 采用预设频率对所述目标音频文件进行重采样；
[0014] 将重采样后的目标音频文件划分为多个音频片段，每个音频片段中包含预设数量个采样点；
[0015] 对于任意相邻的第一音频片段和第二音频片段，采用汉宁窗函数进行处理，得到第一加窗音频片段和第二加窗音频片段；
[0016] 对所述第一加窗音频片段和所述第二加窗音频片段分别进行快速傅里叶变换 FFT，得到所述第一音频片段对应的第一频谱和所述第二音频片段对应的第二频谱；
[0017] 对所述第一频谱和所述第二频谱分别进行映射，得到所述第一音频片段对应的多个第一频率点和所述第二音频片段对应的多个第二频率点，所述第一频率点和所述第二频率点的数量相同；
[0018]根据所述多个第一频率点和多个所述第二频率点，获取所述第一音频片段的音频特征值；
[0019]对所述多个音频片段的音频特征值进行组合，得到所述第一音频特征。
[0020] 可选地，所述对所述第一频谱和所述第二频谱分别进行映射，得到所述第一音频片段对应的第一频率点和所述第二音频片段对应的第二频率点，包括：
[0021] 对于所述第一频谱，根据所述预设数量个采样点和所述预设频率，计算每个采样点对应的频率范围；
[0022] 将小于指定范围的频率范围进行线性映射，得到多个线性频率点；
[0023]将大于所述指定范围的频率范围，应用以下公式，进行对数映射，得到多个对数频率占.
[0025] 其中，示所述对数频率点，Bin表示大于所述指定范围的任一频率范围，Δ f表示相邻两个采样点对应的频率范围之间的频率间隔，fref表示参考频率，*表示乘号；
[0026] 将所述多个线性频率点和所述多个对数频率点作为所述多个第一频率点。
[0027] 可选地，所述根据所述多个第一频率点和所述多个第二频率点，获取所述第一音频片段的音频特征值，包括：
[0028] 获取所述第一音频片段对应的每个第一频率点的能量值，并获取所述第二音频片段对应的每个第二频率点的能量值；
[0029] 获取所述第一音频片段上每个第一频率点的能量值与所述第二音频片段上位置相同的第二频率点的能量值之差，作为所述第一音频片段的音频特征值。
[0030] 可选地，所述根据所述第一音频特征和所述第二音频特征，计算所述目标音频文件与所述参考音频文件之间的时间偏差，包括：
[0031] 计算所述第一音频特征和所述第二音频特征之间的互相关函数；
[0032] 根据所述互相关函数，计算所述第一音频特征和所述第二音频特征之间的时间偏差，作为所述目标音频文件与所述参考音频文件之间的时间偏差。
[0033] 可选地，所述计算所述第一音频特征和所述第二音频特征之间的互相关函数，包括：
[0034] 对于所述第一音频特征和所述第二音频特征，应用以下公式，计算所述互相关函数：
[0035] Rxy=IFFT(conj(FFT(x))*FFT(y))
[0036] 其中，X表示所述第一音频特征，y表示所述第二音频特征，Rxy表示所述互相关函数，con j表示共辄运算符，IFFT表示反傅里叶变换，FFT表示傅里叶变换，*表示乘号。
[0037] 可选地，所述根据所述互相关函数，计算所述第一音频特征和所述第二音频特征之间的时间偏差，包括：
[0038]计算所述互相关函数的最大值；
[0039] 获取所述互相关函数的最大值对应的位置偏差；
[0040] 对于所述位置偏差，应用以下公式，计算所述第一音频特征和所述第二音频特征之间的时间偏差：
[0041] i=m〇/ko
[0042] 其中，τ表示所述第一音频特征和所述第二音频特征之间的时间偏差，mo表示所述互相关函数的最大值所对应的位置偏差，ko表示所述预设频率，/表示除号。
[0043] 另一方面，提供了一种歌词文件的生成装置，所述装置包括：
[0044] 获取模块，用于获取目标音频文件及参考音频文件，所述目标音频文件与所述参考音频文件为同一音频文件的不同版本；
[0045] 提取模块，用于分别对所述目标音频文件和所述参考音频考文件进行特征提取，得到第一音频特征和第二音频特征；
[0046] 计算模块，用于根据所述第一音频特征和所述第二音频特征，计算所述目标音频文件与所述参考音频文件之间的时间偏差；
[0047] 调整模块，用于根据所述时间偏差，调整所述参考音频文件对应歌词文件的时间戳，得到所述目标音频文件对应的歌词文件。
[0048] 可选地，所述提取模块，用于采用预设频率对所述目标音频文件进行重采样;将重采样后的目标音频文件划分为多个音频片段，每个音频片段中包含预设数量个采样点；对于任意相邻的第一音频片段和第二音频片段，采用汉宁窗函数进行处理，得到第一加窗音频片段和第二加窗音频片段;对所述第一加窗音频片段和所述第二加窗音频片段分别进行快速傅里叶变换FFT，得到所述第一音频片段对应的第一频谱和所述第二音频片段对应的第二频谱;对所述第一频谱和所述第二频谱分别进行映射，得到所述第一音频片段对应的多个第一频率点和所述第二音频片段对应的多个第二频率点，所述第一频率点和所述第二频率点的数量相同；根据所述多个第一频率点和多个所述第二频率点，获取所述第一音频片段的音频特征值;对所述多个音频片段的音频特征值进行组合，得到所述第一音频特征。
[0049] 可选地，所述提取模块，还用于对于所述第一频谱，根据所述预设数量个采样点和所述预设频率，计算每个采样点对应的频率范围；将小于指定范围的频率范围进行线性映射，得到多个线性频率点;将大于所述指定范围的频率范围，应用以下公式，进行对数映射，得到多个对数频率点：
[0051]其中，示所述对数频率点，Bin表示大于所述指定范围的任一频率范围，Δ f表示相邻两个采样点对应的频率范围之间的频率间隔，fref表示参考频率，*表示乘号； [0052]将所述多个线性频率点和所述多个对数频率点作为所述多个第一频率点。
[0053]可选地，所述提取模块，用于获取所述第一音频片段对应的每个第一频率点的能量值，并获取所述第二音频片段对应的每个第二频率点的能量值;获取所述第一音频片段上每个第一频率点的能量值与所述第二音频片段上位置相同的第二频率点的能量值之差，作为所述第一音频片段的音频特征值。
[0054]可选地，所述计算模块，用于计算所述第一音频特征和所述第二音频特征之间的互相关函数;根据所述互相关函数，计算所述第一音频特征和所述第二音频特征之间的时间偏差，作为所述目标音频文件与所述参考音频文件之间的时间偏差。
[0055]可选地，所述计算模块，还用于对于所述第一音频特征和所述第二音频特征，应用以下公式，计算所述互相关函数：
[0056] Rxy=IFFT(conj(FFT(x))*FFT(y))
[0057] 其中，X表示所述第一音频特征，y表示所述第二音频特征，Rxy表示所述互相关函数，con j表示共辄运算符，IFFT表示反傅里叶变换，FFT表示傅里叶变换，*表示乘号。
[0058]可选地，所述计算模块，还用于计算所述互相关函数的最大值;获取所述互相关函数的最大值对应的位置偏差;对于所述位置偏差，应用以下公式，计算所述第一音频特征和所述第二音频特征之间的时间偏差：
[0059] i=m〇/ko
[0060] 其中，τ表示所述第一音频特征和所述第二音频特征之间的时间偏差，mo表示所述互相关函数的最大值所对应的位置偏差，ko表示所述预设频率，/表示除号。
[0061] 本发明实施例提供的技术方案带来的有益效果是：
[0062] 对于同一音频文件的不同版本，通过调整参考音频文件对应的歌词文件，即可为目标音频文件生成对应的歌词文件，无需重复生成多个歌词文件，提高了音频文件的制作效率，降低了制作成本。
【附图说明】
[0063] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0064] 图1A是本发明一个实施例提供的歌词文件的生成方法所涉及的实施环境的结构示意图；
[0065] 图1B是本发明另一个实施例提供的一种歌词文件的生成方法流程图；
[0066] 图2是本发明另一个实施例提供的一种歌词文件的生成方法流程图；
[0067] 图3是本发

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：武大伟;
技术所有人：广州酷狗计算机科技有限公司;
我是此专利的发明人

上一篇：一种改进硬盘背板挂钩结构减轻硬盘震动下性能衰减的方法
上一篇：车辆用多媒体装置的音乐播放方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。