一种无参考源的mp3音频清晰度客观评价方法

文档序号：2823675阅读：188来源：国知局

专利名称：一种无参考源的mp3音频清晰度客观评价方法
技术领域：
本发明涉及音频质量客观评价，特别是一种对无参考源MP3(MPEGl-layer3)音频的清晰度客观评价方法。
背景技术：
本发明一种无参考源的音频清晰度客观评价技术是直接对音频系统输出信号的清晰度质量在0-5区间进行分值评判。音频质量客观评价，从评价结构上可分为基于输入-输出的评价和基于输出的评价。其中大部分工作集中在基于输入-输出的评价，它是以语音系统的输入信号和输出信号之间的误差大小来判别语音质量的好坏，是一种误差度量；而基于输出的评价是仅根据语音系统的输出信号来进行质量评价，无参考源；另一方面，从评价内容上可分为对音频整体的综合评价及分指标(如清晰度、丰满度、明亮度、柔和度等)进行评价。基于输入-输出的音频质量客观评价方法目前比较完善，基于输出的评价方面起步较晚且在评价内容方面基本上是针对音频总体质量进行评价，主要有感知线性预测方法、基于模糊多类支持向量机的评价方法、度量语谱图密度分布特征的方法等。目前还没有涉及到对输出信号分指标进行质量评价的方法，本发明正是研究对无参考源MP3音频信号的清晰度指标进行客观评价。本发明所提出的无参考源的音频清晰度客观评价方法，改善了主观评价费时、费力及成本高的缺点，同时还解决了目前占据优势地位的基于输入-输出客观评价方法有时难以提供参考信号的不利因素，可进一步为音频丰满度、明亮度等其它指标的客观评价提供参考，同时也可将各项指标作为高层感知参数，用于MP3压缩域的语音识别与分类检索中。

发明内容
本发明的目的在于提供一种无参考源的MP3音频清晰度客观评价方法，提供最佳音频清晰度质量的判据。从MP3压缩数据中直接提取反映音频清晰度的特征参数-中高频指数(MHFI)，并计算MHFI的可能性熵值，通过对熵值进行统计映射，将待测音频清晰度的分值限定在0-5分之间，实现对无参考源音频清晰度指标的客观评价。本发明解决其技术问题采用的技术方案为先从MP3压缩音频数据中提取中高频指数，计算中高频指数的可能性熵值，通过统计映射得到待测音频清晰度的分值。本发明解决其技术问题所采用的技术方案还可以进一步完善。首先从MP3压缩音频数据中生成修正离散余弦变换MDCT(Modified Discrete Cosine Transform)矩阵，再从中提取有效的特征参数中高频指数，计算中高频指数的可能性熵值，通过对熵值进行统计映射，将待测音频清晰度的分值限定在0-5分之间，实现对无参考源音频清晰度指标的客观评价。该方法具体包括如下步骤1)MP3压缩音频的预处理包括对解码帧头，边信息读取，主数据读取，哈夫曼解码和量化四个部分；2)生成MDCT矩阵找出每一子带中的MDCT系数，对子带中系数排列，形成矩阵三部分；3)压缩域特征参数的提取中高频指数MHFI (Medium-high frequency index)；4)计算中高频指数的可能性熵(E) ..E = -∑p1inpi5)统计映射将计算所得的中高频指数可能性熵值进行统计，将其映射至0-5区间并输出。本发明有益的效果是直接从MP3压缩音频数据中提取有效的特征参数，比将压缩数据解压后再提取特征，既算法更简单，又节省计算时间；弥补了主观评价费时、费力及成本高等缺陷，同时还解决了目前占据优势地位的基于输入_输出客观评价方法有时难以提供参考信号的不利因素，可进一步为音频丰满度、明亮度等其它指标的客观评价提供参考，同时也可将各项指标作为高层感知参数，用于MP3压缩域的语音识别与检索中。

图1是本发明一种无参考源的MP3音频清晰度客观评价方法的流程图。图2是主、客观评价分值的对比图。
具体实施例方式本发明的一个优选实例结合附图1说明如下本无参考源的MP3音频清晰度客观评价方法，共分五步第一步MP3压缩域音频数据处理压缩域音频数据处理可分为帧头信息读取，边信息的读取，主数据读取，哈夫曼解码和量化。1)帧头信息读取a)定义存放帧头信息的结构体；b)读取帧中同步信息；c)使解码器与数据流同步；d)确定该帧数据起始位置，存放帧头信息；2)边信息的读取a)定义存放边信息的结构体；b)由帧头结束位置确定边信息开始位置；c)存放边信息；3)主数据读取a)定义存放缩放因子的结构，存放主数据大小；b)计算主数据长度；c)申请主数据长度的内存空间；d)读取主数据；e)读取缩放因子；
4)哈夫曼解码和反量化a)定义一个颗粒中存放哈夫曼解码数据的数组is[32] [18]；b)根据边信息确定主数据中哈夫曼数据起始位置；c)对哈夫曼数据进行解码并将解码数据放在is[32] [18]中；d)对is[32] [18]中的数据进行反量化，仍存放于is[32] [18]中。第二步生成MDCT系数矩阵每个颗粒的数据由32个子带构成且每一子带含有18个系数，根据频率由低到高分布的原则，每一颗粒可形成一个32X18的矩阵。该过程如下1、找出每一子带系数a)找出is [32] [18]中子带的系数Si,共32个；b)定义Si子带中的系数SSi [j]，每一子带系数18个。2、形成行向量a)按频率高低原则重新排列Si中系数，仍存放于SiU]中；b)将每一子带排列完成后的SiU]看作是矩阵中的行向量。3、形成矩阵a)将SiU]行向量依子带序号组合形成32X18M[i] [j]；b)依照上述原则，一帧中两个颗粒的MDCT系数矩阵表示为M1 [i] [j]，M2 [i] [j]第三步压缩域特征参数的提取所提取的压缩域特征为中高频指数MHFI (Medium-high frequency index)参数，具体计算步骤如下a)计算MP3音频每个颗粒修正离散余弦变换系数的平方和式中i、j表示的是边带序号和边带内系数的序号；M[i] [j]为MDCT系数值。b)计算每个颗粒中高频段MDCT系数的平方和其中系数序号区间可根据选定的中高频频段进行小范围适度调整；c)定义每个颗粒的中高频指数 MHFI (Medium-high frequency index)为第四步计算中高频指数的可能性熵E 其中N为测试音频总的帧数，Pi为中高频指数值，由于每帧包含两个颗粒且测试音频为MP3双声道音频数据，故每帧对应四个中高频指数值；第五步统计映射
a)求整段音频中高频指数可能性熵的均值EM 式中N为音频总的帧数，Pi为中高频指数的值，由于每帧包含两个颗粒且测试音频为MP3立体声音频数据，每帧对应四个中高频指数的值；b)将中高频指数可能性熵的均值EM映射至0-5区间并输出；首先将中高频指数可能性熵的均值进行适度放大，得SII，再通过非线性映射函数将SII值映射至0-5区间，即得清晰度指数值AI (Articulation Index)，其中常用的映射函
数还包括平方函数、对数函数、截取函数、窗口函数、阈值函数、多值量化函数； AI = 10/ π ^arctan(SII)最终输出清晰度分值。实验结果本实验使用的音频资料为ΜΡ3立体声数据，其采样频率为44. IKHz0将音频资料分为三组，每组为四段内容相同但清晰度质量主观感觉依次降低的音频数据。按照上述音频清晰度质量客观评价方法，可以得到对应的清晰度客观评价分值，与其主观评价分值进行数据对比结果表格如下表1 :ΜΡ3立体声音频清晰度质量主、客观评价分值对比其主、客观评价分值的对比如图2所示。
从无参考源音频清晰度主、客观评价分值对比图可以清楚地看出，本发明的无参考源MP3音频清晰度客观评价方法，能针对MP3压缩数据有效地计算出相应音频的清晰度分值，且与主观评价分值非常接近，符合人耳的听觉感受。
权利要求
一种无参考源的MP3音频清晰度客观评价方法，其特征在于首先通过对MP3压缩音频部分解码得到修正离散余弦变换系数，其次对这些数据计算频域中高频指数(MHFI)，然后选用可能性熵函数作为无参考MP3音频清晰度评价函数，最后对中高频指数的可能性熵值进行统计映射得到清晰度客观评价分值。
2.根据权利要求1所述的一种无参考源的MP3音频清晰度客观评价方法，其特征在于具体操作步骤如下a)MP3压缩音频的预处理解码帧头，边信息读取，主数据读取，哈夫曼解码和量化；b)生成修正离散余弦变换MDCT矩阵找出每一子带中的修正离散余弦变换系数，对子带中系数排列，形成矩阵；c)压缩域特征参数的提取中高频指数MHFIdP每帧压缩域音频信号中高频频率成分的能量与每帧频域总能量的比值式中i、j表示边带序号和边带内系数的序号，分子中边带序号i的值可根据选定的中高频频段进行小范围适度调整；M[i] [j]为MDCT系数值。d)计算中高频指数的可能性熵E 式中k代表不同组份的数目，Pi代表第i组份发生的可能性，与香农熵的区别在于可能性熵不需再满足各组分发生概率之和必须为1的约束；e)统计映射将计算所得中高频指数的可能性熵值进行求均统计，并将其映射至0-5 区间；i.求整段音频中高频指数可能性熵的均值EM: 式中N为音频总的帧数，Pi为中高频指数的值，由于每帧包含两个颗粒且测试音频为 MP3立体声音频数据，每帧对应四个中高频指数； .将中高频指数可能性熵的均值EM映射至0-5区间；首先将中高频指数可能性熵的均值进行适度放大，得SII，再通过非线性映射函数将 SII值映射至0-5区间，即得清晰度指数值Al，其中常用的映射函数还包括平方函数、对数函数、截取函数、窗口函数、阈值函数、多值量化函数； f)输出清晰度分值即统计映射得到的清晰度指数AI值。
3.根据权利要求2所述的一种无参考源的MP3音频清晰度客观评价方法，其特征在于所述步骤a)MP3压缩音频预处理的具体实现方法是a)帧头信息读取，b)边信息的读取，c)主数据读取，d)哈夫曼解码和反量化。
4.根据权利要求2所述的一种无参考源的MP3音频清晰度客观评价方法，其特征在于所述步骤b)生成MDCT矩阵具体实现方法是1)、找出每一子带系数；a)找出每个颗粒哈夫曼解码数据数组中子带的系数，共32个；b)定义第i个子带中的系数为Si[j]，每一子带系数18个；2)、形成行向量a)按频率高低原则重新排列第i个子带中的系数，仍存放于SiU]中；b)将每一子带排列完成后的SiU]看作是矩阵中的行向量；3)、形成矩阵a)^SiLj]行向量依子带序号组合形成32X18M[i][j]；b)依照上述原则，一帧中两个颗粒的MDCT系数矩阵表示为M1[i] [j]，M2 [i] [j]。
5.根据权利要求2所述的一种无参考源的MP3音频清晰度客观评价方法，其特征在于所述步骤c)压缩域特征参数提取的具体实现方法是1)、中高频指数 MHFI (Medium-high frequency index)参数a)计算MP3音频每个颗粒修正离散余弦变换系数的平方和式中i、j表示的是边带序号和边带内系数的序号；M[i] [j]为MDCT系数值；b)计算每个颗粒中高频频段MDCT系数的平方和其中系数序号区间可根据选定的中高频频段进行小范围适度调整；c)定义每个颗粒的中高频指数MHFI为
6.根据权利要求2所述的一种无参考源的MP3音频清晰度客观评价方法，其特征在于所述步骤d)计算中高频指数的可能性熵的具体方法如下其中N为测试音频总的帧数，Pi为中高频指数，由于每帧包含两个颗粒且测试音频为 MP3立体声音频数据，每帧对应四个中高频指数值。
7.根据权利要求2所述的一种无参考源的MP3音频清晰度客观评价方法，其特征在于所述步骤e)统计映射的具体实现方法是a)求整段音频中高频指数可能性熵的均值EM: 式中N为音频总的帧数，Pi为中高频指数的值，由于每帧包含两个颗粒且测试音频为 MP3立体声音频数据，每帧对应四个中高频指数的值；b)将中高频指数可能性熵的均值EM映射至0-5区间；首先将中高频指数可能性熵的均值进行适度放大，得SII值，再通过非线性映射函数将SII值映射至0-5区间，即得清晰度指数值Al，其中常用的映射函数还包括平方函数、对数函数、截取函数、窗口函数、阈值函数、多值量化函数；
8.根据权利要求2所述的一种无参考源的ΜΡ3音频清晰度客观评价方法，其特征在于所述步骤f)中的清晰度分值为统计映射得到的清晰度指数AI值。
全文摘要
本发明涉及一种无参考源的MP3音频清晰度客观评价方法。本方法直接对MP3音频进行清晰度质量客观评价，首先获取MP3立体声音频文件，从中提取影响音频清晰度质量的中高频指数MHFI(Medium-high frequency index)，音频清晰度高则意味着音频中包含较多的中高频成分，然后对每帧音频的中高频指数求取可能性熵(Possibilistic Entropy)，熵值反映音频信息丰富程度，清晰度好的音频可能性熵值大于不清晰音频，据此将可能性熵函数作为无参考源音频清晰度评价函数，最后对熵值进行统计映射，将音频清晰度分值限定在0-5之间。实验表明，本方法可以有效度量出无参考源MP3立体声音频清晰度客观评价分值，且与主观评价分值相近，符合人耳的听觉感受。
文档编号G10L19/02GK101894560SQ201010215600
公开日2010年11月24日申请日期2010年6月29日优先权日2010年6月29日
发明者万旺根, 余小清, 刘军伟, 张静, 石成林申请人:上海大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余小清;张静;石成林;刘军伟;万旺根
技术所有人：上海大学
我是此专利的发明人

上一篇：折叠便携式古筝的制作方法
上一篇：一种mp3压缩域音频自适应降噪方法