基于音频频谱特征分析的演唱音色明亮度客观评测方法

文档序号：2831154阅读：294来源：国知局

专利名称：基于音频频谱特征分析的演唱音色明亮度客观评测方法
技术领域：
本发明涉及一种度量演唱音色明亮度的客观方法，更具体地说，本发明涉及一种基于音频频谱特征分析的演唱音色明亮度的客观评测方法。
背景技术：
音色明亮度是指一种用于评价唱歌者演唱水平的主观指标，一般定义为对唱歌者歌声的一种明亮、高昂、温暖的主观感知。主观评价人感觉唱歌者的歌声越明亮、高昂，则认为唱歌者的演唱音色明亮度越高，反之，则认为演唱音色明亮度越低。这里的主观评价人，一般指的是声乐专家，比如声乐老师和资深音乐家。而唱歌者可以是专业的歌手、声乐系学生，也可以是普通人。
目前，演唱评价基本还是处于完全依靠专家主观评价的阶段，并没有成熟的客观评价系统能够对演唱水平或演唱水平的某个方面进行度量和评价。演唱音色明亮程度的评价也完全依赖专家的主观感知，目前还没有客观度量的方法或者辅助主观评价的客观指标。虽然国外一些研究调査发现音色明亮度的评价和频谱能量分布、共振峰位置、能量等有关，但是并没有具体的、定义明确的客观度量方法出现。例如，文献1提出音色明亮度与频谱能量分布有关，但是并没有给出具体的计算方法。另外，演唱水平的评价与旋律音高的准确性相关，演唱者音高的提取，我们采用了参考文献2中提出的方法，该方法通过求取每帧数据频谱谐波和最大值对应的基频作为每帧的音高值。这里，需要说明的是，该方法得到的音高值仅仅作为计算音色的一个基本参数值，与本专利的独特性无关。
另外，主观演唱评价方法不可避免的具有以下几个缺点第一，不可重复性。因为各种各样因素的影响，对于同样一个演唱片段，两次主观评价之间或多或少的都会出现差异，而这种差异在理想情况下是不应该存在的。第二，主观偏向性。因为每个评价人都有各自不同的喜好，所以对于同一个演唱片段，每个评价人都有各自不同的评价，都有各自的偏向性。第三，费用昂贵，可获得性差。对于一般的普通人来说(不是专业的声乐学校的学生)，要获得声乐专家的主观评价，是很困难的或费用高昂的。
参考文献1: E. Ekholm, G. Papagiannis, and F. Chagnon, "Relating ObjectiveMeasurements to Expert Evaluation of Voice Quality in Western Classical Singing:Critical Perceptual Parameters," Journal of Voice, vol.12, no.2, pp. 182—196, 1998.
参考文献2: C. Cao, M. Li，丄Liu, and Y. Yan， "Singing Melody Extraction inPolyphonic Music by Harmonic Tracking," Proc.她International Conference on MusicInformation Retrieval (ISMIR), pp. 373—374, 2007.

发明内容
因此，鉴于上述现状，本发明的目的在于提供一种基于音频频谱特征分析的演唱音色明亮度的客观评测方法，通过对演唱片段的频谱特征分析，给出可以量化的客观评测参数指标。
为实现上述发明目的，本发明提供的基于音频频谱特征分析的演唱音色明亮度的客观评测方法，包括如下步骤-
1) 选取需要度量音色明亮度的演唱片段音频信号；
2) 对上述所选取的演唱片段音频信号进行"演唱/间隙"判断；
3) 对上述步骤2)中得到的演唱片段，计算得到三种频谱特征测度2K-3KHz能量和、频谱能量总和以及频率加权的谱能量和；
4) 根据上述步骤3)中得到的频谱特征，计算得到最终的音色明亮度的客观度量参数指标平均2K-3KHz能量比、平均谱重心，然后利用求出的参数指标对演唱音色的明亮度进行评测。
其中，上述步骤4)中，在利用求出的参数指标对演唱音色的明亮度进行评测时，可以单独基于所述平均2K-3KHz能量比或者平均谱重心进行评价，也可以将所述平均2K-3KHz能量比和平均谱重心相结合来进行评价。
另外，所述步骤2)中的判断方法包括基于能量的语音活动检测算法以及基于基频检测算法的voice/nonvoice判断机制。
与现有的主观评价的方法相比，本发明提及的两种客观度量方法具有以下优点稳定性、客观性、便利性。由于是基于音频信号频谱特征的客观评价方法，只要输入的演唱音频信号一致，则度量结果保持不变，不受其他人为因素影响。同时，计算机算法的便利程度较声乐专家主观评价的方式有很大改进，只需将录制的演唱片段输入，算法即可以给出客观度量参数。

图1是本发明的音色明亮度客观评测方法的流程图。
具体实施例方式
下面结合附图及具体实施方式
对本发明的基于音频频谱特征分析的演唱音色明亮度的客观评测方法做进一步详细描述。
图1是本发明的音色明亮度客观评测方法的流程图。
如图1所示，本发明提供的基于音频频谱特征分析的演唱音色明亮度客观评测方法，包括如下步骤
1) 选取需要度量音色明亮度的演唱片段音频信号该步骤l)中，首先输入演唱片段的音频数据。
在本发明的基于演唱频谱特征分析的音色明亮度的客观评测方法中，音频数据
的格式可以采用16K 16Bit Windows PCM格式等任何一种采样率来进行处理。作为一个实施例，我们采用16K采样率的音频数据格式，每个采样点用16Bit数来表示。
2) 对上述所选取的演唱片段音频信号进行"演唱/间隙"判断
在该"演唱/间隙"判断步骤中，可以采用多种方法，例如基于能量的语音活动检测(VAD: Voice Activity Detection)算法等。这里，以采用基于基频检测算法的voice/nonvoice判断机制为例进行说明。具体地说，使用基于谐波和的基频提取算法，该方法通过计算归一化谐波和谱对信号基频/。序列进行估计，每个浊音帧输出一个基频估计值。基频的具体计算方法与参考文献2中描述基本一致，通过求取每帧数据频谱谐波和最大值对应的基频获得。将具有有效基频值的帧视为"演唱"部分，而将其余部分视为"间隙"部分。
3) 对上述步骤2)中得到的演唱片段，计算得到三种频谱特征测度2K-3KHz能量和、频谱能量总和以及频率加权的谱能量和
通过步骤2)确定了演唱部分位置之后，接着进行频谱特征(2K-3KHz能量和、频谱能量总和、频率加权的谱能量和)的测度计算。
第一个特征2K-3KHz能量和。2K-3KHz能量和指的是每个"演唱"帧中
62KHz 3KHz部分频谱能量的总和，其计算方法为-
3《
其中S(/)为该帧的快速傅立叶变换(FFT)能量谱。
第二个特征频谱能量总和，即整个频谱的能量总和，其计算公式为-
第三个特征频率加权的谱能量和，即用频率值来对频谱能量值进行加权，其计算方法为
4)根据上述步骤3)中得到的频谱特征，计算得到最终的音色明亮度的客观度量参数指标平均2K-3KHz能量比以及平均谱重心。
在获得了 "2K-3KHz能量和"、"频谱能量总和"之后，计算出平均2K-3KHz能
量比作为演唱音色明亮度的客观度量指标。
平均2K-3KHz能量比的计算
对于任何演唱帧，其2K-3KHz能量比的计算公式为
' 一五r —
平均2K-3KHz能量比》就是该演唱音频信号中所有演唱帧2K-3KHz能量比《的算术平均值。在本发明中，平均2K-3KHz能量比即可作为演唱音色明亮度的一个客观度量，取值范围为0 1，平均2K-3KHz能量比越大，说明演唱片段音色明亮度越高，反之，平均2K-3KHz能量比越小，说明音色明亮度越低。
或者，也可以在获得了 "频谱能量总和"、"频率加权的谱能量和"之后，计算出平均谱重心来作为演唱音色明亮度的客观度量指标。
平均谱重心的计算对于任何演唱帧，其谱重心的计算公式为-
<formula>formula see original document page 8</formula>
平均谱重心5即是该演唱音频信号中所有演唱帧谱重心c;的算术平均值。在本发明中，平均谱重心也可作为演唱音色明亮度的另一个客观度量，取值范围为 0~8000，平均谱重心越大，说明演唱片段音色明亮度越高，反之，平均谱重心越小，说明音色明亮度越低。
另外，本发明的基于演唱片段频谱特征分析的音色明亮度客观评测方法，还可以将上述两个度量指标结合起来对音色明亮度进行评测。即将两种测度进行加权平均后的值作为指标。至于加权的方式和具体数值我们不做具体限定，可以是线性加权，也可以是指数加权。
8
权利要求
1、一种基于音频频谱特征分析的演唱音色明亮度的客观评测方法，包括如下步骤1)选取需要度量音色明亮度的演唱片段音频信号；2)对上述所选取的演唱片段音频信号进行“演唱/间隙”判断；3)对上述步骤2)中得到的演唱片段，计算得到三种频谱特征测度2K-3KHz能量和、频谱能量总和以及频率加权的谱能量和；4)根据上述步骤3)中得到的频谱特征，计算得到最终的音色明亮度的客观度量参数指标平均2K-3KHz能量比、平均谱重心，然后利用求出的参数指标对演唱音色的明亮度进行评测。
2、如权利要求1所述的基于音频频谱特征分析的演唱音色明亮度的客观评测方法，其特征在于，所述步骤4)中，在利用求出的参数指标对演唱音色的明亮度进行评测时，单独基于所述平均2K-3KHz能量比或者平均谱重心进行评价，或者将所述平均2K-3KHz能量比和平均谱重心相结合进行评价。
3、如权利要求1或2所述的基于音频频谱特征分析的演唱音色明亮度的客观评测方法，其特征在于，所述步骤2)中的判断方法包括基于能量的语音活动检测算法以及基于基频检测算法的voice/nonvoice判断机制。
4、如权利要求1或2所述的基于音频频谱特征分析的演唱音色明亮度的客观评测方法，其特征在于，所述步骤3)中各频谱特征测度的计算方法分别为1) 2K-3KHz能量和计算公式为五2緒=化,其中，S(/)为该帧的快速傅立叶变换能量谱；2) 频谱能量总和计算公式为五r = ;3) 频率加权的谱能量和用频率值对频谱能量值进行加权，其计算方法为，，4 = ;所述步骤4)中根据上述频谱特征计算得到的最终的音色明亮度的客观度量参数指标为1) 平均2K-3KHz能量比5:对于任何演唱帧，其2K-3KHz能量比的计算公式为，〃 J"柳"/'_五r —所述平均2K-3KHz能量比万是该演唱音频信号中所有演唱帧2K-3KHz能量比 i ,的算术平均值，该平均2K-3KHz能量比Z作为演唱音色明亮度的一个客观度量时，取值范围为0-l，平均2K-3KHz能量比》越大，则演唱片段音色明亮度越高；2) 平均谱重心5:对于任何演唱帧，其谱重心的计算公式为，'一 (平均谱重心5是该演唱音频信号中所有演唱帧谱重心c,的算术平均值，该平均谱重心5作为演唱音色明亮度的另一个客观度量时，取值范围为0~8000，平均谱重心5越大，则演唱片段音色明亮度越高；3) 当将上述平均2K-3KHz能量比5和平均谱重心5两个度量指标结合起来对音色明亮度进行评测时，将这两种测度进行加权平均后的值作为指标，所述加权的方式采用线性加权或者指数加权。
全文摘要
本发明提供一种基于音频频谱特征分析的演唱音色明亮度的客观评测方法，包括如下步骤1)选取需要度量音色明亮度的演唱片段音频信号；2)对所选取的演唱片段音频信号进行“演唱/间隙”判断；3)对步骤2)得到的演唱片段，计算得到三种频谱特征测度2K-3KHz能量和、频谱能量总和以及频率加权的谱能量和；4)根据步骤3)得到的频谱特征，计算得到最终的客观度量参数指标平均2K-3KHz能量比、平均谱重心，利用求出的参数指标对演唱音色的明亮度进行评测。本发明的评测方法，通过对演唱片段的频谱特征分析，利用计算机算法给出可以量化的客观评测参数指标，不受其他人为因素影响，并且具有稳定性、客观性以及便利性等优点。
文档编号G10L11/00GK101650941SQ200810224790
公开日2010年2月17日申请日期2008年12月26日优先权日2008年12月26日
发明者建刘, 川曹, 明李, 潘接林, 颜永红申请人:中国科学院声学研究所;北京中科信利技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：颜永红;潘接林;刘建;李明;曹川
技术所有人：中国科学院声学研究所;北京中科信利技术有限公司
我是此专利的发明人