一种音频文件的相似计算方法及装置制造方法

文档序号：2825971阅读：214来源：国知局

一种音频文件的相似计算方法及装置制造方法
【专利摘要】本发明公开了一种音频文件的相似计算方法及装置，其中的方法可包括：构建第一音频文件的Pitch序列，以及构建第二音频文件的Pitch序列；根据所述第一音频文件的Pitch序列，计算所述第一音频文件的特征向量，以及根据所述第二音频文件的Pitch序列，计算所述第二音频文件的特征向量；根据所述第一音频文件的特征向量和所述第二音频文件的特征向量，计算所述第一音频文件与所述第二音频文件的相似度。本发明可提高音频文件的相似计算的效率、准确性和智能性。
【专利说明】一种音频文件的相似计算方法及装置

【技术领域】
[0001] 本发明涉及互联网【技术领域】，具体涉及音频处理【技术领域】，尤其涉及一种音频文件的相似计算方法及装置。

【背景技术】
[0002] 目前，音频文件的相似计算主要存在以下两种方案，其一为人工相似计算，即需要专业人员对两个音频文件进行分析，判断两个音频文件是否相似，并由专业人员为两个音频文件确定相似度；此种方式的人力资源成本较高、相似计算效率较低、智能性较低。其二为基于属性的相似计算，即可利用计算机装置基于两个音频文件的所属流派、所属专辑、作者等属性信息进行相似计算，获得两个音频文件的相似度；此种方式完全摒弃了音频文件本身的音频内容，仅属于简单的属性关联计算，相似计算的准确性较低。

【发明内容】

[0003] 本发明实施例提供一种音频文件的相似计算方法及装置，可提高音频文件的相似计算的效率、准确性和智能性。
[0004] 本发明第一方面提供一种音频文件的相似计算方法，可包括：
[0005] 构建第一音频文件的Pitch (音高）序列，以及构建第二音频文件的Pitch序列；
[0006] 根据所述第一音频文件的Pitch序列，计算所述第一音频文件的特征向量，以及根据所述第二音频文件的Pitch序列，计算所述第二音频文件的特征向量；
[0007] 根据所述第一音频文件的特征向量和所述第二音频文件的特征向量，计算所述第一音频文件与所述第二音频文件的相似度。
[0008] 本发明第二方面提供一种音频文件的相似计算装置，可包括：
[0009] 构建模块，用于构建第一音频文件的Pitch序列，以及构建第二音频文件的Pitch 序列；
[0010] 向量计算模块，用于根据所述第一音频文件的Pitch序列，计算所述第一音频文件的特征向量，以及根据所述第二音频文件的Pitch序列，计算所述第二音频文件的特征向量；
[0011] 相似计算模块，用于根据所述第一音频文件的特征向量和所述第二音频文件的特征向量，计算所述第一音频文件与所述第二音频文件的相似度。
[0012] 实施本发明实施例，具有如下有益效果：
[0013] 本发明实施例通过构建第一音频文件的Pitch序列和第二音频文件的Pitch序列，基于第一音频文件的Pitch序列计算第一音频文件的特征向量，基于第二音频文件的 Pitch序列计算第二音频文件的特征向量；从而可采用特征向量抽象化音频文件所包含的音频内容；进一步，本发明实施例根据所述第一音频文件的特征向量和所述第二音频文件的特征向量，计算所述第一音频文件与所述第二音频文件的相似度，由于基于音频文件所包含的音频内容进行相似计算，摒弃了音频内容之外的其他因素的干扰，可有效地提高音频文件的相似计算的效率、准确性和智能性。

【专利附图】

【附图说明】
[0014] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0015] 图1为本发明实施例提供的一种音频文件的相似计算方法的流程图；
[0016] 图2为本发明实施例提供的另一种音频文件的相似计算方法的流程图；
[0017] 图3为本发明实施例提供的一种音频文件的相似计算装置的结构示意图；
[0018] 图4为本发明实施例提供的构建模块的结构示意图；
[0019]图5为本发明实施例提供的向量计算模块的结构示意图；
[0020] 图6为本发明实施例提供的相似计算模块的结构示意图。

【具体实施方式】
[0021] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0022] 本发明实施例中，音频文件可以包括但不限于：歌曲、歌曲片段、音乐、音乐片段等文件。第一音频文件可以为任一音频文件；第二音频文件可以为除第一音频文件之外的任一音频文件。本发明实施例的音频文件的相似计算方案可以应用于互联网音频库的相似音频文件的查询，例如：可以应用于互联网音频库中的相似歌曲查询，若需要查询歌曲A的相似歌曲，可分别计算歌曲A与互联网音频库中所有歌曲之间的相似度，将互联网音频库中与歌曲A的相似度最大的歌曲确定为歌曲A的相似歌曲；再如：可以应用于互联网音频库中的相似音乐查询，若需要查询音乐B的相似音乐，可分别计算音乐B与互联网音频库中所有音乐之间的相似度，将互联网音频库中与音乐B的相似度最大的歌曲确定为音乐B的相似音乐；等等。本发明实施例的音频文件的相似计算方案还可以应用于互联网中的音频文件的推荐，例如：可以应用于互联网的歌曲推荐，若用户当前正在收听歌曲C，可从互联网音频库中查找与歌曲C相似的歌曲，将查找到的相似歌曲推荐给用户；再如：可以应用于互联网的音乐推荐，若用户当前正在收听音乐D，可从互联网音频库中查找与音乐D相似的音乐，将查找到的相似音乐推荐给用户；等等。
[0023] 下面将结合附图1-附图2,对本发明实施例提供的音频文件的相似计算方法进行详细介绍。
[0024] 请参见图1，为本发明实施例提供的一种音频文件的相似计算方法的流程图；该方法可包括以下步骤S101-步骤S103。
[0025] S101，构建第一音频文件的Pitch序列，以及构建第二音频文件的Pitch序列。
[0026] -个音频文件可以表不为以时间T为巾贞长，Ts为巾贞移的多个音频巾贞组成的一个中贞序列；其中，帧长T和帧移Ts的取值可以根据实际需要进行确定，例如：针对一首歌曲，帧长T可以为20ms，巾贞移Ts可以为10ms ;再如：针对一曲音乐，巾贞长T可以为10ms，巾贞移Ts可以为5ms ;等等。不同的音频文件，帧长T的取值可能相同，也可能不同；帧移Ts的取值可能相同，也可能不同。音频文件所包含的每个音频帧均携带音高，各个音频帧的音高按照各个音频帧的时间先后顺序构成该音频文件的旋律信息。本步骤可根据第一音频文件所包含的每个音频帧的音高，构建该第一音频文件的Pitch序列；以及可根据第二音频文件所包含的每个音频帧的音高，构建该第二音频文件的Pitch序列。其中，第一音频文件的Pitch 序列包含该第一音频文件的每个音频帧的音高，第一音频文件的Pitch序列中所包含的各个音高按序构成该第一音频文件的旋律信息。第二音频文件的Pitch序列包含该第二音频文件的每个音频帧的音高，第二音频文件的Pitch序列中所包含的各个音高按序构成该第二音频文件的旋律信息。
[0027] S102,根据所述第一音频文件的Pitch序列，计算所述第一音频文件的特征向量，以及根据所述第二音频文件的Pitch序列，计算所述第二音频文件的特征向量。
[0028] 其中，音频文件的特征向量可用于抽象化表征该音频文件所包含的音频内容；具体地，音频文件的特征向量可通过特征参数，抽象化表征音频文件所包含的音频内容。其中，第一音频文件的特征向量包含该第一音频文件的特征参数，第二音频文件的特征向量包含该第二音频文件的特征参数；该特征参数包括但不限于以下参数中的至少一个：音高均值、音高标准差、音高变化宽度、音高上升比例、音高下降比例、零音高比例、音高上升的平均速率和音高下降的平均速率。
[0029] S103,根据所述第一音频文件的特征向量和所述第二音频文件的特征向量，计算所述第一音频文件与所述第二音频文件的相似度。
[0030] 由于音频文件的特征向量可用于抽象化表征该音频文件所包含的音频内容，本步骤通过分析计算所述第一音频文件的特征向量及所述第二音频文件的特征向量，即可获得所述第一音频文件与所述第二音频文件的相似度。可以理解的是，本步骤摒弃了对除音频文件本身包含的音频内容之外的其他因素的干扰，基于第一音频文件所包含的音频内容及第二音频文件所包含的音频内容进行相似计算，从而可提升音频文件的相似计算的准确性。
[0031] 本发明实施例通过构建第一音频文件的Pitch序列和第二音频文件的Pitch序列，基于第一音频文件的Pitch序列计算第一音频文件的特征向量，基于第二音频文件的 Pitch序列计算第二音频文件的特征向量；从而可采用特征向量抽象化音频文件所包含的音频内容；进一步，本发明实施例根据所述第一音频文件的特征向量和所述第二音频文件的特征向量，计算所述第一音频文件与所述第二音频文件的相似度，由于基于音频文件所包含的音频内容进行相似计算，摒弃了音频内容之外的其他因素的干扰，可有效地提高音频文件的相似计算的效率、准确性和智能性。
[0032] 请参见图2,为本发明实施例提供的另一种音频文件的相似计算方法的流程图；该方法可包括以下步骤S201-步骤S210。
[0033] S201，提取第一音频文件所包含的每个音频帧的音高。
[0034] -个音频文件可以表不为以时间T为巾贞长，Ts为巾贞移的多个音频巾贞组成的一个中贞序列；其中，帧长T和帧移Ts的取值可以根据实际需要进行确定，例如：针对一首歌曲，帧长T可以为20ms，巾贞移Ts可以为10ms ;再如：针对一曲音乐，巾贞长T可以为10ms，巾贞移Ts可以为5ms ;等等。不同的音频文件，帧长T的取值可能相同，也可能不同；帧移Ts的取值可能相同，也可能不同。音频文件所包含的每个音频帧均携带音高，各个音频帧的音高按照各个音频帧的时间先后顺序构成该音频文件的旋律信息。若设定第一音频文件共包含1^ (ηι 为正整数）个音频帧，第一个音频帧的音高为Si (1)，第二个音频帧的音高为Si (2)，以此类推，第nfl个音频帧的音高为Si (nfl)，第ηι个音频帧的音高为Si (ηι);本步骤则提取第一音频文件所包含的每个音频帧的音高，即提取Si (1)至Si 〇〇。
[0035] S202,根据所述第一音频文件的每个音频帧的音高，构建所述第一音频文件的 Pitch序列。
[0036] 其中，第一音频文件的Pitch序列包含该第一音频文件的每个音频帧的音高，第一音频文件的Pitch序列中所包含的各个音高按序构成该第一音频文件的旋律信息。本步骤中，所述第一音频文件的Pitch序列可表示为Si序列，该Si序列包含Si (1)、Si (2)…… Si (ηι-1)、Si (ηι)共ηι个音高，该ηι个音高按序构成所述第一音频文件的旋律信息。具体实现中，本步骤可存在以下两种可行的实施方式，在一种可行的实施方式中，本步骤可采用Pitch提取算法，构建所述第一音频文件的Pitch序列；该Pitch提取算法可包括但不限于：自相关函数法、峰值提取算法、平均幅度差函数法、倒谱法、谱图法等等。在另一种可行的实施方式中，本步骤可采用Pitch提取工具，构建所述第一音频文件的Pitch序列；该 Pitch提取工具可包括但不限于：voicebox (-个matlab语音处理工具箱）中的fxpefac 工具或fxrapt工具，等等。
[0037] S203,提取第二音频文件所包含的每个音频帧的音高。
[0038] 本步骤的提取过程可参见步骤S201的提取过程，在此不赘述。若设定第二音频文件共包含n 2 (n2为正整数）个音频帧，第一个音频帧的音高为S2 (1)，第二个音频帧的音高为S2 (2)，以此类推，第n2-l个音频帧的音高为S2 (n2-l)，第n2个音频帧的音高为S2 (n2);本步骤则提取第二音频文件所包含的每个音频帧的音高，即提取&(1)至&(11 2)。需要说明的是，h与n2的值可以相等，也可以不等。
[0039] S204,根据所述第二音频文件的每个音频帧的音高，构建所述第二音频文件的 Pitch序列。
[0040] 其中，第二音频文件的Pitch序列包含该第二音频文件的每个音频帧的音高，第二音频文件的Pitch序列中所包含的各个音高按序构成该第二音频文件的旋律信息。本步骤中，所述第二音频文件的Pitch序列可表示为S 2序列，该S2序列包含S2(l)、S2(2)…… S2(n2-l)、S2(n2)共112个音高，该n 2个音高按序构成所述第二音频文件的旋律信息。本步骤的构建过程可参见步骤S202中的构建过程，在此不赘述。
[0041] 本实施例中，步骤S201和步骤S203在时序上可以不分先后，即可同时执行步骤 S201和步骤S203 ;或者，也可先执行步骤S201-S202,再执行步骤S203-S204 ;或者，还可先执行步骤S203-S204,再执行步骤S201-S202。本实施例的步骤S201-步骤S204可以为图 1所示实施例的步骤S101的具体细化流程。
[0042] S205,根据所述第一音频文件的Pitch序列，计算所述第一音频文件的特征参数。
[0043] 其中，所述特征参数可包括但不限于以下参数中的至少一个：音高均值、音高标准差、音高变化宽度、音高上升比例、音高下降比例、零音高比例、音高上升的平均速率和音高下降的平均速率。为了能够更准确的体现所述第一音频文件包含的音频内容，本发明实施例中，优选地，所述第一音频文件的特征参数包括音高均值、音高标准差、音高变化宽度、音高上升比例、音高下降比例、零音高比例、音高上升的平均速率和音高下降的平均速率。所述第一音频文件的各特征参数的定义及计算过程如下：[0044] a)音高均值，代表所述第一音频文件的Pitch序列（即Si序列）的平均音高，可采用Ei表示。本步骤可采用以下公式（1)计算所述第一音频文件的音高均值Ei :

【权利要求】
1. 一种音频文件的相似计算方法，其特征在于，包括：、构建第一音频文件的音高Pitch序列，以及构建第二音频文件的Pitch序列；根据所述第一音频文件的Pitch序列，计算所述第一音频文件的特征向量，以及根据所述第二音频文件的Pitch序列，计算所述第二音频文件的特征向量；根据所述第一音频文件的特征向量和所述第二音频文件的特征向量，计算所述第一音频文件与所述第二音频文件的相似度。
2. 如权利要求1所述的方法，其特征在于，所述构建第一音频文件的Pitch序列，包括：提取第一音频文件所包含的每个音频帧的音高；根据所述第一音频文件的每个音频帧的音高，构建所述第一音频文件的Pitch序列；所述构建第二音频文件的Pitch序列，包括：提取第二音频文件所包含的每个音频帧的音高；根据所述第二音频文件的每个音频帧的音高，构建所述第二音频文件的Pitch序列。
3. 如权利要求2所述的方法，其特征在于，所述根据所述第一音频文件的Pitch序列，计算所述第一音频文件的特征向量，包括：根据所述第一音频文件的Pitch序列，计算所述第一音频文件的特征参数；将所述第一音频文件的特征参数采用数组进行存储，生成所述第一音频文件的特征向量；所述根据所述第二音频文件的Pitch序列，计算所述第二音频文件的特征向量，包括：根据所述第二音频文件的Pitch序列，计算所述第二音频文件的特征参数；将所述第二音频文件的特征参数采用数组进行存储，生成所述第二音频文件的特征向量。
4. 如权利要求3所述的方法，其特征在于，所述特征参数包括以下参数中的至少一个：音高均值、音高标准差、音高变化宽度、音高上升比例、音高下降比例、零音高比例、音高上升的平均速率和音高下降的平均速率。
5. 如权利要求1-4任一项所述的方法，其特征在于，根据所述第一音频文件的特征向量和所述第二音频文件的特征向量，计算所述第一音频文件与所述第二音频文件的相似度，包括：计算所述第一音频文件的特征向量和所述第二音频文件的特征向量之间的欧氏距离；将计算获得的所述欧氏距离确定为所述第一音频文件与所述第二音频文件的相似度。
6. -种音频文件的相似计算装置，其特征在于，包括：构建模块，用于构建第一音频文件的音高Pitch序列，以及构建第二音频文件的Pitch 序列；向量计算模块，用于根据所述第一音频文件的Pitch序列，计算所述第一音频文件的特征向量，以及根据所述第二音频文件的Pitch序列，计算所述第二音频文件的特征向量；相似计算模块，用于根据所述第一音频文件的特征向量和所述第二音频文件的特征向量，计算所述第一音频文件与所述第二音频文件的相似度。
7. 如权利要求6所述的装置，其特征在于，所述构建模块包括：第一提取单元，用于提取第一音频文件所包含的每个音频帧的音高；第一构建单元，用于根据所述第一音频文件的每个音频帧的音高，构建所述第一音频文件的Pitch序列；第二提取单元，用于提取第二音频文件所包含的每个音频帧的音高；第二构建单元，用于根据所述第二音频文件的每个音频帧的音高，构建所述第二音频文件的Pitch序列。
8. 如权利要求7所述的装置，其特征在于，所述向量计算模块包括：第一参数计算单元，用于根据所述第一音频文件的Pitch序列，计算所述第一音频文件的特征参数；第一向量计算单元，用于将所述第一音频文件的特征参数采用数组进行存储，生成所述第一音频文件的特征向量；第二参数计算单元，用于根据所述第二音频文件的Pitch序列，计算所述第二音频文件的特征参数；第二向量计算单元，用于将所述第二音频文件的特征参数采用数组进行存储，生成所述第二音频文件的特征向量。
9. 所述特征参数包括以下参数中的至少一个：音高均值、音高标准差、音高变化宽度、音高上升比例、音高下降比例、零音高比例、音高上升的平均速率和音高下降的平均速率。
10. 如权利要求6-9任一项所述的装置，其特征在于，所述相似计算模块包括：距离计算单元，用于计算所述第一音频文件的特征向量和所述第二音频文件的特征向量之间的欧氏距离；相似确定单元，用于将计算获得的所述欧氏距离确定为所述第一音频文件与所述第二音频文件的相似度。
【文档编号】G10L25/03GK104091598SQ201310135210
【公开日】2014年10月8日申请日期:2013年4月18日优先权日:2013年4月18日
【发明者】赵伟峰, 李深远, 张李伟, 陈剑锋申请人:腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵伟峰;李深远;张李伟;陈剑锋
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种选择编码模式的方法及装置制造方法
上一篇：一种基于时频掩膜的单声学矢量传感器目标语音增强方法