一种音频文件的分类方法及装置制造方法

文档序号：6501913阅读：141来源：国知局

一种音频文件的分类方法及装置制造方法
【专利摘要】本发明公开一种音频文件的分类方法及装置，其中的方法可包括：构建待分类的音频文件的Pitch序列；根据所述音频文件的Pitch序列，计算所述音频文件的特征向量；根据所述音频文件的特征向量，对所述音频文件进行分类。本发明可实现音频文件的自动分类，降低分类成本，提高分类效率、分类灵活性和智能性。
【专利说明】一种音频文件的分类方法及装置

【技术领域】
[0001] 本发明涉及互联网【技术领域】，具体涉及音频分类【技术领域】，尤其涉及一种音频文件的分类方法及装置。

【背景技术】
[0002] 音频文件（如：歌曲、音乐等）根据分类需求可划分为多种类别，例如：按语言划分，音频文件可被划分为华语类、英文类、日韩类、小语种类等各种类别；再如；按流派划分，音频文件可被划分为拉丁类、舞曲类、民谣类、流行类、乡村类等各种类别。随着互联网技术的发展，互联网音频库中收录了大量的音频文件，为了实现对互联网音频库的有效管理，需要对音频文件进行分类。传统的音频文件的分类主要为人工分类，即需要专业人员依据分类需求对互联网音频库中的各音频文件进行分类，此种分类方式的人力资源成本较高、分类效率较低、智能性较低，且无法灵活适应互联网音频库中音频文件数量的增加、互联网音频库中音频文件的更新变化，以及分类需求的变化，从而影响了对互联网音频库的管理。

【发明内容】

[0003] 本发明实施例提供一种音频文件的分类方法及装置，可实现音频文件的自动分类，降低分类成本，提高分类效率、分类灵活性和智能性。
[0004] 本发明第一方面提供一种音频文件的分类方法，可包括：
[0005] 构建待分类的音频文件的Pitch (音高）序列；
[0006] 根据所述音频文件的Pitch序列，计算所述音频文件的特征向量；
[0007] 根据所述音频文件的特征向量，对所述音频文件进行分类。
[0008] 本发明第二方面提供一种音频文件的分类装置，可包括：
[0009] 构建模块，用于构建待分类的音频文件的音高Pitch序列；
[0010] 向量计算模块，用于根据所述音频文件的Pitch序列，计算所述音频文件的特征向量；
[0011] 分类模块，用于根据所述音频文件的特征向量，对所述音频文件进行分类。
[0012] 实施本发明实施例，具有如下有益效果：
[0013] 本发明实施例通过构建待分类的音频文件的Pitch序列，基于该音频文件的 Pitch序列计算特征向量，从而可采用特征向量抽象化音频文件所包含的音频内容；进一步，本发明实施例根据特征向量对该音频文件进行分类，由于基于音频文件所包含的音频内容进行自动分类，降低了分类成本，且提升了分类效率，提高了分类灵活性和智能性。

【专利附图】

【附图说明】
[0014] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0015] 图1为本发明实施例提供的一种音频文件的分类方法的流程图；
[0016] 图2为本发明实施例提供的另一种音频文件的分类方法的流程图；
[0017] 图3为本发明实施例提供的一种音频文件的分类装置的结构示意图：
[0018] 图4为本发明实施例提供的构建模块的结构示意图；
[0019]图5为本发明实施例提供的向量计算模块的结构示意图。

【具体实施方式】
[0020] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0021] 本发明实施例中，音频文件可以包括但不限于：歌曲、歌曲片段、音乐、音乐片段等文件。音频文件可被划分为多种类别，例如：按语言划分，音频文件可被划分为华语类、英文类、日韩类、小语种类等各种类别；再如：按流派划分，音频文件可被划分为拉丁类、舞曲类、民谣类、流行类、乡村类等各种类别。本发明实施例中，对音频文件进行分类的过程指为音频文件确定类别的过程。
[0022] 下面将结合附图1-附图2,对本发明实施例提供的音频文件的分类方法进行详细介绍。
[0023] 请参见图1，为本发明实施例提供的一种音频文件的分类方法的流程图；该方法可包括以下步骤S101-步骤S103。
[0024] S101，构建待分类的音频文件的Pitch序列。
[0025] -个音频文件可以表不为以时间T为巾贞长，Ts为巾贞移的多个音频巾贞组成的一个中贞序列；其中，帧长T和帧移Ts的取值可以根据实际需要进行确定，例如：针对一首歌曲，帧长T可以为20ms，巾贞移Ts可以为10ms ;再如：针对一曲音乐，巾贞长T可以为10ms，巾贞移Ts 可以为5ms ;等等。不同的音频文件，帧长T的取值可能相同，也可能不同；帧移Ts的取值可能相同，也可能不同。音频文件所包含的每个音频帧均携带音高，各个音频帧的音高按照各个音频帧的时间先后顺序构成该音频文件的旋律信息。本步骤可根据待分类的音频文件所包含的每个音频帧的音高，构建该音频文件的Pitch序列。其中，音频文件的Pitch序列包含该音频文件的每个音频帧的音高，音频文件的Pitch序列中所包含的各个音高按序构成该音频文件的旋律信息。
[0026] S102,根据所述音频文件的Pitch序列，计算所述音频文件的特征向量。
[0027] 其中，音频文件的特征向量包含该音频文件的特征参数，该特征参数包括但不限于以下参数中的至少一个：音高均值、音高标准差、音高变化宽度、音高上升比例、音高下降比例、零音高比例、音高上升的平均速率和音高下降的平均速率。音频文件的特征向量可用于抽象化表征该音频文件所包含的音频内容。音频文件的特征向量可通过多个特征参数，抽象化表征音频文件所包含的音频内容。
[0028] S103,根据所述音频文件的特征向量，对所述音频文件进行分类。
[0029] 由于音频文件的特征向量可用于抽象化表征该音频文件所包含的音频内容，本步骤根据所述音频文件的特征向量，对所述音频文件进行分类；实则基于所述音频文件所包含的音频内容，对该音频文件进行分类，从而可提升音频文件的分类准确性。
[0030] 本发明实施例通过构建待分类的音频文件的Pitch序列，基于该音频文件的 Pitch序列计算特征向量，从而可采用特征向量抽象化音频文件所包含的音频内容；进一步，本发明实施例根据特征向量对该音频文件进行分类，由于基于音频文件所包含的音频内容进行自动分类，降低了分类成本，且提升了分类效率，提高了分类灵活性和智能性。
[0031] 请参见图2,为本发明实施例提供的另一种音频文件的分类方法的流程图；该方法可包括以下步骤S201-步骤S205。
[0032] S201，提取待分类的音频文件所包含的每个音频帧的音高。
[0033] -个音频文件可以表不为以时间T为巾贞长，Ts为巾贞移的多个音频巾贞组成的一个中贞序列；其中，帧长T和帧移Ts的取值可以根据实际需要进行确定，例如：针对一首歌曲，帧长T可以为20ms，巾贞移Ts可以为10ms ;再如：针对一曲音乐，巾贞长T可以为10ms，巾贞移Ts 可以为5ms ;等等。不同的音频文件，帧长T的取值可能相同，也可能不同；帧移Ts的取值可能相同，也可能不同。音频文件所包含的每个音频帧均携带音高，各个音频帧的音高按照各个音频帧的时间先后顺序构成该音频文件的旋律信息。若设定待分类的音频文件共包含 η (η为正整数)个音频帧，第一个音频帧的音高为S (1)，第二个音频帧的音高为S (2)，以此类推，第η-1个音频帧的音高为S (η-1)，第η个音频帧的音高为S (η);本步骤则提取该待分类的音频文件所包含的每个音频帧的音高，即提取S (1)至S (η)。
[0034] S202,根据所述音频文件的每个音频帧的音高，构建所述音频文件的Pitch序列。
[0035] 其中，音频文件的Pitch序列包含该音频文件的每个音频帧的音高，音频文件的 Pitch序列中所包含的各个音高按序构成该音频文件的旋律信息。本步骤中，所述音频文件的Pitch序列可表示为S序列，该S序列包含S (1)、S (2)……S (n-1)、S (η)共η个音高，该η个音高按序构成所述音频文件的旋律信息。具体实现中，本步骤可存在以下两种可行的实施方式，在一种可行的实施方式中，本步骤可采用Pitch提取算法，构建所述音频文件的Pitch序列；该Pitch提取算法可包括但不限于：自相关函数法、峰值提取算法、平均幅度差函数法、倒谱法、谱图法等等。在另一种可行的实施方式中，本步骤可采用Pitch提取工具，构建所述音频文件的Pitch序列；该Pitch提取工具可包括但不限于：voicebox (- 个matlab语音处理工具箱）中的fxpefac工具或fxrapt工具，等等。
[0036] 本实施例的步骤S201-步骤S202可以为图1所示实施例的步骤S101的具体细化流程。
[0037] S203,根据所述音频文件的Pitch序列，计算所述音频文件的特征参数。
[0038] 其中，所述音频文件的特征参数可包括但不限于以下参数中的至少一个：音高均值、音高标准差、音高变化宽度、音高上升比例、音高下降比例、零音高比例、音高上升的平均速率和音高下降的平均速率。为了能够更准确的体现所述音频文件包含的音频内容，本发明实施例中，优选地，所述音频文件的特征参数包括音高均值、音高标准差、音高变化宽度、音高上升比例、音高下降比例、零音高比例、音高上升的平均速率和音高下降的平均速率；各特征参数的定义及计算过程如下：
[0039] a)音高均值，代表所述音频文件的Pitch序列（即S序列）的平均音高，可采用E 表示。本步骤可采用以下公式（1)计算所述音频文件的音高均值E :
[0040]

【权利要求】
1. 一种音频文件的分类方法，其特征在于，包括：构建待分类的音频文件的音高Pitch序列；根据所述音频文件的Pitch序列，计算所述音频文件的特征向量；根据所述音频文件的特征向量，对所述音频文件进行分类。
2. 如权利要求1所述的方法，其特征在于，所述构建待分类的音频文件的Pitch序列，包括：提取待分类的音频文件所包含的每个音频帧的音高；根据所述音频文件的每个音频帧的音高，构建所述音频文件的Pitch序列。
3. 如权利要求2所述的方法，其特征在于，所述根据所述音频文件的Pitch序列，计算所述音频文件的特征向量，包括：根据所述音频文件的Pitch序列，计算所述音频文件的特征参数；将所述音频文件的特征参数采用数组进行存储，生成所述音频文件的特征向量。
4. 如权利要求3所述的方法，其特征在于，所述音频文件的特征参数包括以下参数中的至少一个：音高均值、音高标准差、音高变化宽度、音高上升比例、音高下降比例、零音高比例、音高上升的平均速率和音高下降的平均速率。
5. 如权利要求1-4任一项所述的方法，其特征在于，所述根据所述音频文件的特征向量，对所述音频文件进行分类，包括：根据所述音频文件的特征向量，采用分类算法对所述音频文件进行分类。
6. -种音频文件的分类装置，其特征在于，包括：构建模块，用于构建待分类的音频文件的音高Pitch序列；向量计算模块，用于根据所述音频文件的Pitch序列，计算所述音频文件的特征向量；分类模块，用于根据所述音频文件的特征向量，对所述音频文件进行分类。
7. 如权利要求6所述的装置，其特征在于，所述构建模块包括：提取单元，用于提取待分类的音频文件所包含的每个音频帧的音高；构建单元，用于根据所述音频文件的每个音频帧的音高，构建所述音频文件的Pitch 序列。
8. 如权利要求7所述的装置，其特征在于，所述向量计算模块包括：参数计算单元，用于根据所述音频文件的Pitch序列，计算所述音频文件的特征参数；向量生成单元，用于将所述音频文件的特征参数采用数组进行存储，生成所述音频文件的特征向量。
9. 如权利要求8所述的装置，其特征在于，所述音频文件的特征参数包括以下参数中的至少一个：音高均值、音高标准差、音高变化范围、音高上升比例、音高下降比例、零音高比例、音高上升的平均速率和音高下降的平均速率。
10. 如权利要求6-9任一项所述的装置，其特征在于，所述分类模块根据所述音频文件的特征向量，采用分类算法对所述音频文件进行分类。
【文档编号】G06F17/30GK104090876SQ201310135223
【公开日】2014年10月8日申请日期:2013年4月18日优先权日:2013年4月18日
【发明者】赵伟峰, 李深远, 张李伟, 陈剑锋申请人:腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵伟峰;李深远;张李伟;陈剑锋
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种触控天线的制作方法
上一篇：视频图像数据的去雾方法及装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。