歌词文件的生成方法及装置的制造方法

文档序号:9811933阅读:791来源:国知局
歌词文件的生成方法及装置的制造方法
【技术领域】
[0001] 本发明涉及音频处理技术领域,特别涉及一种歌词文件的生成方法及装置。
【背景技术】
[0002] 随着音频处理技术的发展,用户对试听体验有了更高的要求,不仅要求音频播放 应用能够播放音频文件,还希望音频播放应用能够同步显示与音频文件相应的歌词文件。
[0003] 为了满足用户的需求,现有技术主要采用人工方式为音频文件数据库中的每个音 频文件生成相应的歌词文件,并将所生成的歌词文件导入到音频播放应用中,从而在播放 音频文件时,同步显示相应地歌词文件。
[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005] 对于音频文件数据库中不同版本的音频文件,现有技术也会采用人工方式为每个 音频文件分别生成一个歌词文件,该过程效率较低、制作成本较高。

【发明内容】

[0006] 为了解决现有技术的问题,本发明实施例提供了一种歌词文件的生成方法及装 置。所述技术方案如下:
[0007] -方面,提供了一种歌词文件的生成方法,所述方法包括:
[0008] 获取目标音频文件及参考音频文件,所述目标音频文件与所述参考音频文件为同 一音频文件的不同版本;
[0009] 分别对所述目标音频文件和所述参考音频文件进行特征提取,得到第一音频特征 和第二音频特征;
[0010] 根据所述第一音频特征和所述第二音频特征,计算所述目标音频文件与所述参考 音频文件之间的时间偏差;
[0011] 根据所述时间偏差,调整所述参考音频文件对应歌词文件的时间戳,得到所述目 标音频文件对应的歌词文件。
[0012] 可选地,所述分别对所述目标音频文件和所述参考音频文件进行特征提取,得到 第一音频特征和第二音频特征,包括:
[0013] 采用预设频率对所述目标音频文件进行重采样;
[0014] 将重采样后的目标音频文件划分为多个音频片段,每个音频片段中包含预设数量 个采样点;
[0015] 对于任意相邻的第一音频片段和第二音频片段,采用汉宁窗函数进行处理,得到 第一加窗音频片段和第二加窗音频片段;
[0016] 对所述第一加窗音频片段和所述第二加窗音频片段分别进行快速傅里叶变换 FFT,得到所述第一音频片段对应的第一频谱和所述第二音频片段对应的第二频谱;
[0017] 对所述第一频谱和所述第二频谱分别进行映射,得到所述第一音频片段对应的多 个第一频率点和所述第二音频片段对应的多个第二频率点,所述第一频率点和所述第二频 率点的数量相同;
[0018]根据所述多个第一频率点和多个所述第二频率点,获取所述第一音频片段的音频 特征值;
[0019]对所述多个音频片段的音频特征值进行组合,得到所述第一音频特征。
[0020] 可选地,所述对所述第一频谱和所述第二频谱分别进行映射,得到所述第一音频 片段对应的第一频率点和所述第二音频片段对应的第二频率点,包括:
[0021] 对于所述第一频谱,根据所述预设数量个采样点和所述预设频率,计算每个采样 点对应的频率范围;
[0022] 将小于指定范围的频率范围进行线性映射,得到多个线性频率点;
[0023]将大于所述指定范围的频率范围,应用以下公式,进行对数映射,得到多个对数频 率占.
[0025] 其中,示所述对数频率点,Bin表示大于所述指定范围的任一频率范围,Δ f表示相邻两个采样点对应的频率范围之间的频率间隔,fref表示参考频率,*表示乘号;
[0026] 将所述多个线性频率点和所述多个对数频率点作为所述多个第一频率点。
[0027] 可选地,所述根据所述多个第一频率点和所述多个第二频率点,获取所述第一音 频片段的音频特征值,包括:
[0028] 获取所述第一音频片段对应的每个第一频率点的能量值,并获取所述第二音频片 段对应的每个第二频率点的能量值;
[0029] 获取所述第一音频片段上每个第一频率点的能量值与所述第二音频片段上位置 相同的第二频率点的能量值之差,作为所述第一音频片段的音频特征值。
[0030] 可选地,所述根据所述第一音频特征和所述第二音频特征,计算所述目标音频文 件与所述参考音频文件之间的时间偏差,包括:
[0031] 计算所述第一音频特征和所述第二音频特征之间的互相关函数;
[0032] 根据所述互相关函数,计算所述第一音频特征和所述第二音频特征之间的时间偏 差,作为所述目标音频文件与所述参考音频文件之间的时间偏差。
[0033] 可选地,所述计算所述第一音频特征和所述第二音频特征之间的互相关函数,包 括:
[0034] 对于所述第一音频特征和所述第二音频特征,应用以下公式,计算所述互相关函 数:
[0035] Rxy=IFFT(conj(FFT(x))*FFT(y))
[0036] 其中,X表示所述第一音频特征,y表示所述第二音频特征,Rxy表示所述互相关函 数,con j表示共辄运算符,IFFT表示反傅里叶变换,FFT表示傅里叶变换,*表示乘号。
[0037] 可选地,所述根据所述互相关函数,计算所述第一音频特征和所述第二音频特征 之间的时间偏差,包括:
[0038]计算所述互相关函数的最大值;
[0039] 获取所述互相关函数的最大值对应的位置偏差;
[0040] 对于所述位置偏差,应用以下公式,计算所述第一音频特征和所述第二音频特征 之间的时间偏差:
[0041] i=m〇/ko
[0042] 其中,τ表示所述第一音频特征和所述第二音频特征之间的时间偏差,mo表示所述 互相关函数的最大值所对应的位置偏差,ko表示所述预设频率,/表示除号。
[0043] 另一方面,提供了一种歌词文件的生成装置,所述装置包括:
[0044] 获取模块,用于获取目标音频文件及参考音频文件,所述目标音频文件与所述参 考音频文件为同一音频文件的不同版本;
[0045] 提取模块,用于分别对所述目标音频文件和所述参考音频考文件进行特征提取, 得到第一音频特征和第二音频特征;
[0046] 计算模块,用于根据所述第一音频特征和所述第二音频特征,计算所述目标音频 文件与所述参考音频文件之间的时间偏差;
[0047] 调整模块,用于根据所述时间偏差,调整所述参考音频文件对应歌词文件的时间 戳,得到所述目标音频文件对应的歌词文件。
[0048] 可选地,所述提取模块,用于采用预设频率对所述目标音频文件进行重采样;将重 采样后的目标音频文件划分为多个音频片段,每个音频片段中包含预设数量个采样点;对 于任意相邻的第一音频片段和第二音频片段,采用汉宁窗函数进行处理,得到第一加窗音 频片段和第二加窗音频片段;对所述第一加窗音频片段和所述第二加窗音频片段分别进行 快速傅里叶变换FFT,得到所述第一音频片段对应的第一频谱和所述第二音频片段对应的 第二频谱;对所述第一频谱和所述第二频谱分别进行映射,得到所述第一音频片段对应的 多个第一频率点和所述第二音频片段对应的多个第二频率点,所述第一频率点和所述第二 频率点的数量相同;根据所述多个第一频率点和多个所述第二频率点,获取所述第一音频 片段的音频特征值;对所述多个音频片段的音频特征值进行组合,得到所述第一音频特征。
[0049] 可选地,所述提取模块,还用于对于所述第一频谱,根据所述预设数量个采样点和 所述预设频率,计算每个采样点对应的频率范围;将小于指定范围的频率范围进行线性映 射,得到多个线性频率点;将大于所述指定范围的频率范围,应用以下公式,进行对数映射, 得到多个对数频率点:
[0051]其中,示所述对数频率点,Bin表示大于所述指定范围的任一频率范围,Δ f表示相邻两个采样点对应的频率范围之间的频率间隔,fref表示参考频率,*表示乘号; [0052]将所述多个线性频率点和所述多个对数频率点作为所述多个第一频率点。
[0053]可选地,所述提取模块,用于获取所述第一音频片段对应的每个第一频率点的能 量值,并获取所述第二音频片段对应的每个第二频率点的能量值;获取所述第一音频片段 上每个第一频率点的能量值与所述第二音频片段上位置相同的第二频率点的能量值之差, 作为所述第一音频片段的音频特征值。
[0054]可选地,所述计算模块,用于计算所述第一音频特征和所述第二音频特征之间的 互相关函数;根据所述互相关函数,计算所述第一音频特征和所述第二音频特征之间的时 间偏差,作为所述目标音频文件与所述参考音频文件之间的时间偏差。
[0055]可选地,所述计算模块,还用于对于所述第一音频特征和所述第二音频特征,应用 以下公式,计算所述互相关函数:
[0056] Rxy=IFFT(conj(FFT(x))*FFT(y))
[0057] 其中,X表示所述第一音频特征,y表示所述第二音频特征,Rxy表示所述互相关函 数,con j表示共辄运算符,IFFT表示反傅里叶变换,FFT表示傅里叶变换,*表示乘号。
[0058]可选地,所述计算模块,还用于计算所述互相关函数的最大值;获取所述互相关函 数的最大值对应的位置偏差;对于所述位置偏差,应用以下公式,计算所述第一音频特征和 所述第二音频特征之间的时间偏差:
[0059] i=m〇/ko
[0060] 其中,τ表示所述第一音频特征和所述第二音频特征之间的时间偏差,mo表示所述 互相关函数的最大值所对应的位置偏差,ko表示所述预设频率,/表示除号。
[0061] 本发明实施例提供的技术方案带来的有益效果是:
[0062] 对于同一音频文件的不同版本,通过调整参考音频文件对应的歌词文件,即可为 目标音频文件生成对应的歌词文件,无需重复生成多个歌词文件,提高了音频文件的制作 效率,降低了制作成本。
【附图说明】
[0063] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0064] 图1A是本发明一个实施例提供的歌词文件的生成方法所涉及的实施环境的结构 示意图;
[0065] 图1B是本发明另一个实施例提供的一种歌词文件的生成方法流程图;
[0066] 图2是本发明另一个实施例提供的一种歌词文件的生成方法流程图;
[0067] 图3是本发
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1