一种音频文件的情绪活跃度获取方法及分类方法、装置制造方法

文档序号：2827849阅读：156来源：国知局

一种音频文件的情绪活跃度获取方法及分类方法、装置制造方法
【专利摘要】本发明提供了一种音频文件的情绪活跃度获取方法及分类方法、装置，该音频文件的情绪活跃度获取方法包括：获取所述音频文件的语谱图；从所述语谱图中获取所述音频文件中的语音频率的峰点个数；通过所述峰点个数与所述音频文件的时长确定所述音频文件的情绪活跃度。本发明实施例通过从语谱图中获取音频文件中的语音频率的峰点个数，并通过峰点个数与音频文件的时长确定音频文件的情绪活跃度，实现了对音频文件的情绪活跃度进行量化，为用户通过情绪活跃度选歌提供依据。
【专利说明】一种音频文件的情绪活跃度获取方法及分类方法、装置

【技术领域】
[0001] 本发明涉及语音处理【技术领域】，尤其涉及一种音频文件的情绪活跃度获取方法及分类方法、装置。

【背景技术】
[0002] 现有技术中，在对音频文件进行情绪分析时，对音频文件进行分析，提取出音频文件的音频特征，通过采用模式识别的方式对音频文件进行分类。
[0003] 在模式识别的方式，首先提取音频文件的特征，例如，提取音频文件的强度特征、音色特征、以及频谱相关的特征，在提取特征之后，使用分类器模型进行有监督的学习，训练模型建立起来以后，从而实现对未知音频文件的预测。通过模式识别的方式，虽然能够进行几种情况的分类，但模式识别并不能将音频文件所表达的情绪进行量化。

【发明内容】

[0004] 本发明实施例提供一种音频文件的情绪活跃度获取方法及分类方法、装置，通过对音频文件的情绪活跃度进行量化，为用户通过情绪活跃度选歌提供依据。
[0005] 为达到上述目的，本发明的实施例采用如下技术方案：
[0006] -种音频文件的情绪活跃度获取方法，该包括：
[0007] 获取所述音频文件的语谱图；
[0008] 从所述语谱图中获取所述音频文件中的语音频率的峰点个数；
[0009] 通过所述峰点个数与所述音频文件的时长确定所述音频文件的情绪活跃度。
[0010] 一种音频文件的分类方法，该方法包括：
[0011] 通过上述技术方案所述的方法获取所述音频文件的情绪活跃度；
[0012] 根据所述情绪活跃度对歌曲库中的音乐文件进行分类。
[0013] 一种音频文件的情绪活跃度获取装置，该包括：
[0014] 语谱图获取模块，用于获取所述音频文件的语谱图；
[0015] 峰点个数获取模块，用于从所述语谱图中获取所述音频文件中的语音频率的峰点个数；
[0016] 情绪活跃度确定模块，用于通过所述峰点个数与所述音频文件的时长确定所述音频文件的情绪活跃度。
[0017] 一种音频文件的分类装置，该装置包括：
[0018] 上述技术方案所述的音频文件的情绪活跃度获取装置通过上述技术方案所述的情绪活跃度获取方法获取所述音频文件的情绪活跃度；
[0019] 分类模块，用于根据所述情绪活跃度对歌曲库中的音乐文件进行分类。
[0020] 本发明实施例提供的一种音频文件的情绪活跃度获取方法及分类方法、装置，通过从语谱图中获取音频文件中的语音频率的峰点个数，并通过峰点个数与音频文件的时长确定音频文件的情绪活跃度，实现了对音频文件的情绪活跃度进行量化，为用户通过情绪活跃度选歌提供依据。

【专利附图】

【附图说明】
[0021] 图1为本发明实施例提供的一个语谱图的示意图；
[0022] 图2为本发明实施例一提供的音频文件的情绪活跃度获取方法的流程示意图；
[0023] 图3为本发明实施例二提供的音频文件的情绪活跃度获取方法的流程示意图；
[0024] 图4为图3所示实施例在步骤320-330的滤波前的语谱图在时间与频率坐标轴中的不意图；
[0025] 图5为图3所示实施例经过步骤320-330的滤波后的语谱图在时间与频率坐标轴中的不意图；
[0026] 图6为本发明实施例三提供的音频文件的情绪活跃度获取方法的流程示意图；
[0027] 图7为本发明实施例四提供的音频文件的情绪活跃度获取装置的结构示意图；
[0028] 图8为本发明实施例五提供的音频文件的情绪活跃度获取装置的结构示意图；
[0029] 图9为本发明实施例六提供的音频文件的情绪活跃度获取装置的结构示意图。

【具体实施方式】
[0030] 下面结合附图对本发明实施例提供的音频文件的情绪活跃度获取方法及分类方法、装置进行详细描述。
[0031] 图1为本发明实施例提供的一个语谱图的示意图，如图1所示，语谱图的X轴表示时间（对应图1中斜向下方向的轴），Y轴表示频率（对应图1中水平向右方向的轴），Z轴表示语音数据能量，语音信号在时域进行变换得到频域的频谱图，该频谱图即为语谱图。
[0032] 在图1中，可以看到与周围相比颜色深的点，该颜色深的点表示语音信号中的当前点相对于周边的点幅度最高的点，该点可以成为本发明实施例中所述的峰点，由此可见，本发明实施例中所述的峰点并不仅由相应的幅度值来确定，而是相对于周围的点而言的幅度值比较大的点。
[0033] 下面将详细说明本发明的实施例。
[0034] 实施例一：
[0035] 图2为本发明实施例一提供的音频文件的情绪活跃度获取方法的流程示意图，如图2所示，本发明实施例包括以下步骤：
[0036] 步骤210,获取音频文件的语谱图。
[0037] 步骤220,从语谱图中获取音频文件中的语音频率的峰点个数。
[0038] 步骤230,通过峰点个数与音频文件的时长确定音频文件的情绪活跃度。
[0039] 在步骤210中的处理可以具体为：对音频文件进行解码，并以预定的采样频率（例如，44100Hz)对解码后的信号进行重采样，将重采样后的音频合并为单声道，对合并后的音频进行分帧（例如，帧长为2048,帧间隔为256)，并进行汉宁窗处理，对经过上述处理后的音频进行傅立叶变换，得到语谱图。
[0040]本发明实施例提供的音频文件的情绪活跃度获取方法，通过从语谱图中获取音频文件中的语音频率的峰点个数，并通过峰点个数与音频文件的时长确定音频文件的情绪活跃度，实现了对音频文件的情绪活跃度进行量化，为用户通过情绪活跃度选歌提供依据。
[0041] 实施例二：
[0042] 图3为本发明实施例二提供的音频文件的情绪活跃度获取方法的流程示意图，如图3所示，本发明实施例包括以下步骤：
[0043] 步骤310,获取音频文件的语谱图。
[0044] 步骤320,通过第一滤波器在频率轴对语谱图进行寻峰滤波处理。
[0045] 步骤330,通过第二滤波器在时间轴对语谱图进行寻峰滤波处理。
[0046] 步骤340,从经过滤波处理后的语谱图中统计音频文件的峰点个数。
[0047] 步骤350,将峰点个数除以音频文件的时长，得到音频文件的情绪活跃度。
[0048] 其中，本发明实施例中的步骤310的具体处理方式可以参考实施例一的步骤210 的描述，在此不再赘述。
[0049] 在步骤320中，第一滤波器可以通过滤波函数来设定，并通过第一滤波器在频率轴对语谱图进行寻峰滤波处理。本发明实施例中所述的滤波函数可参考式（1):
[0050]

【权利要求】
1. 一种音频文件的情绪活跃度获取方法，其特征在于，所述方法包括：获取所述音频文件的语谱图；从所述语谱图中获取所述音频文件中的语音频率的峰点个数；通过所述峰点个数与所述音频文件的时长确定所述音频文件的情绪活跃度。
2. 根据权利要求1所述的方法，其特征在于，所述从所述语谱图中获取所述音频文件中的语音频率的峰点个数的步骤包括：分别在频率轴与时间轴上对所述语谱图进行寻峰滤波处理；从经过滤波处理后的所述语谱图中统计所述音频文件的峰点个数。
3. 根据权利要求2所述的方法，其特征在于，所述从经过滤波处理后的所述语谱图中统计所述音频文件的峰点个数的步骤包括：获取经过滤波处理后的所述语谱图中的第一多个峰点；将所述第一多个峰点分别对应的幅值与预设阈值进行比较；将所述幅值小于所述预设阈值的峰点滤除，得到第二多个峰点；统计所述第二多个峰点的个数，得到所述音频文件中的语音频率的峰点个数。
4. 根据权利要求1-3任一所述的方法，其特征在于，所述根据所述峰点个数与所述音频文件的时长确定所述音频文件的情绪活跃度的步骤包括：将所述峰点个数除以所述音频文件的时长，得到所述音频文件的情绪活跃度。
5. 根据权利要求1-3任一所述的方法，其特征在于，所述根据所述峰点个数与所述音频文件的时长确定所述音频文件的情绪活跃度的步骤包括：通过所述峰点个数与所述音频文件的时长确定所述音频文件的旋律复杂度；根据所述旋转复杂度与所述音频文件的节奏强度确定所述音频文件的情绪活跃度。
6. -种音频文件的分类方法，其特征在于，所述方法包括：通过上述权利要求1-5任一所述的方法获取所述音频文件的情绪活跃度；根据所述情绪活跃度对歌曲库中的音乐文件进行分类。
7. -种音频文件的情绪活跃度获取装置，其特征在于，所述装置包括：语谱图获取模块，用于获取所述音频文件的语谱图；峰点个数获取模块，用于从所述语谱图中获取所述音频文件中的语音频率的峰点个数；情绪活跃度确定模块，用于通过所述峰点个数与所述音频文件的时长确定所述音频文件的情绪活跃度。
8. 根据权利要求7所述的装置，其特征在于，所述峰点个数获取模块包括：寻峰滤波单元，用于分别在频率轴与时间轴上对所述语谱图进行寻峰滤波处理；峰点个数统计单元，用于从经过滤波处理后的所述语谱图中统计所述音频文件的峰点个数。
9. 根据权利要求8所述的装置，其特征在于，所述峰点个数统计单元包括：第一获取子单元，用于获取经过滤波处理后的所述语谱图中的第一多个峰点；阈值比较子单元，用于将所述第一多个峰点分别对应的幅值与预设阈值进行比较；第二获取子单元，用于将所述第一多个峰点中所述幅值小于所述预设阈值的峰点滤除，得到第二多个峰点；统计子单元，用于统计所述第二多个峰点的个数，得到所述音频文件中的语音频率的峰点个数。
10. 根据权利要求7-9任一所述的装置，其特征在于，所述情绪活跃度确定模块包括：第一情绪活跃度确定单元，用于将所述峰点个数除以所述音频文件的时长，得到所述音频文件的情绪活跃度。
11. 根据权利要求7-9任一所述的装置，其特征在于，所述情绪活跃度确定模块包括：旋律复杂度获取单元，用于通过所述峰点个数与所述音频文件的时长确定所述音频文件的旋律复杂度；第二情绪活跃度确定单元，用于根据所述旋律复杂度与所述音频文件的节奏强度确定所述音频文件的情绪活跃度。
12. -种音频文件的分类装置，其特征在于，所述装置包括：上述权利要求7-11任一所述的音频文件的情绪活跃度获取装置，用于通过上述权利要求1-5任一所述的方法获取所述音频文件的情绪活跃度；分类模块，用于根据所述情绪活跃度对歌曲库中的音乐文件进行分类。
【文档编号】G10L25/63GK104318931SQ201410521416
【公开日】2015年1月28日申请日期:2014年9月30日优先权日:2014年9月30日
【发明者】王徽蓉申请人:百度在线网络技术（北京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王徽蓉
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种音频解码装置和方法
上一篇：基于社交应用通过语音识别实现解锁手机的方法及装置制造方法