基于音频关注度的音频质量评价系统及方法

文档序号：2825155阅读：149来源：国知局

专利名称：基于音频关注度的音频质量评价系统及方法
技术领域：
本发明涉及音频质量评价领域，尤其涉及基于音频关注度的音频质量评价系统及方法。
背景技术：
随着音频信号应用领域的扩大和音频信号在人们生活中占据越来越重要的地位，对音频信号评价方法也是不断的发展，目前国际上的音频质量评价主要分为主观评价和客观评价两类，由于人作为音频信号的最终接受者，所以主观评价能最真实的反映失真音频信号的好坏，可以作为最终的评价结果，但是主观评价的结果容易受听音者的生理和心理状况以及听音场景信息不同而影响最终的评价结果，导致测评者的打分结果不稳定。目前的主观评价方法设计基本都涵盖了人类自底向上的生理反应特性，心理学研究表明人类听觉具有自底向上和自顶向下两种关注机制。对于不同的声音场景，人类选择关注声音以及关注程度会有所不同，并且在有先验知识与无先验知识情况下的关注结果也会不同。现有的音频质量评测体系虽然有较准确的评价方法，但现有方法主要基于人耳的听觉掩蔽模型，没有考虑与应用场景相关的心理选择关注机制，从而不能真实、准确地反映人类听觉效应；另一方面现有方法一定程度上受听音者的情绪、偏好等因素影响，致使评价结果不稳定。因此为了保证音频质量主观评价方法与人类听觉效应相一致，并使评价结果更加准确与稳定，需将心理关注选择机制引入主观质量评价，建立一种基于场景分类的分角度音频主观质量评价方法，以此反映人类真实的听觉特性，进而保证听觉关注度客观评价模型准确地建立。

发明内容
本发明的目的是提供基于音频关注度的音频质量评价技术方案，以解决目前主观评价测试结果不稳定的问题。为达到上述目的，本发明提供一种基于音频关注度的音频质量评价系统，包括关注音及背景音特征分离提取模块、主观评价分项得分模块及关注音主观评分模块，
所述关注音及背景音特征分离提取模块，用于根据输入的场景背景音类型信息和关注音类型信息，分别提取场景背景音的特征属性和关注音的特征属性，输出给主观评价分项得分模块；
所述主观评价分项得分模块，用于根据原始音频测试序列集、失真音频序列集和由关注音及背景音特征分离提取模块输入的特征属性，从场景背景音的各项特征属性分别给出分项主观得分，从关注音的各项特征属性分别给出分项主观得分，并输出到关注音主观评分模块；
所述关注音主观评分模块，用于根据由主观评价分项得分模块输入的分项主观得分得到单一的最终主观得分，并对最终主观得分进行数据统计处理。本发明还提供相应基于音频关注度的音频质量评价方法，包括以下步骤步骤1，根据场景选取作为参考的原始音频测试序列集，记为原始测试集A ；
步骤2，对步骤1所得原始测试集A中的序列进行多种不同失真处理，得到失真音频序列集，记为失真序列集B，失真处理的种数记为n，原始测试集A中每一个序列分别对应失真序列集B中的η种失真序列；
步骤3，从原始测试集A当中选取一个序列d同时从失真序列集B中挑出所有由序列
%得到的失真序.…...A(-ai)；
步骤4，确定序列先的场景背景音类型信息和关注音类型信息，场景背景音的类型记为 br，关注音的类型记为aUention ；
步骤5，提取场景背景音和关注音的各自特征属性并分离，场景背景音的特征属性记为 feature (br),关注音的特征属性记为 feature (attention)；
步骤6，根据步骤5获得的特征属性feature (br)和feature (attention)，对失真序列
、(執《),.......她)分别给出分项主观得分；
步骤7，根据对每一个失真序列~麵)的分项主观得分，得出最终主观得分WgP/A)], j取1 η ；
步骤8，返回步骤3，从原始测试集A当中选取下一个序列，重复执行步骤3 7，直到对原始测试集A中所有序列处理完，对每次执行步骤7所得最终主观得分进行数据统计处理。本发明根据音频关注度模型，提出基于场景信息的关注度评价方案，克服了现有主观评价不准确和不稳定的问题；首创通过结合场景信息进行主观评价，更符合人类主观评价的心理打分原则。本发明的系统结构简单，实施便捷。

图1是本发明的方法流程图。
具体实施例方式下面结合实施例对本发明作进一步说明
本发明实施例所提供基于音频关注度的音频质量评价系统，具体包括以下部分，具体实施时可以采用软件固化技术实现各模块。关注音及背景音特征分离提取模块根据输入的场景背景音类型信息和关注音类型信息，分别提取场景背景音的特征属性和关注音的特征属性，输出给主观评价分项得分模块。本模块的输入是场景要义信息，包括场景背景音类型信息和关注音类型信息。场景要义信息在作为关注音及背景音特征分割提取模块的输入同时，还可以用来告知测听者，作为测听者的先验测听知识。例如，输入信息包括场景背景音类型为语音，关注音类型为音乐。从而将表征语音的特征属性一基音周期和带宽确定为场景背景音的特征属性，将表征音乐的特征属性一谐波和带宽确定为关注音的特征属性，然后输出到主观评价分项得分模块。主观评价分项得分模块主观评价分项得分模块，根据原始音频测试序列集、失真音频序列集和由关注音及背景音特征分离提取模块输入的特征属性，从场景背景音的各项特征属性分别给出分项主观得分，从关注音的各项特征属性分别给出分项主观得分，并输出到关注音主观评分模块。可以采用现有的原始音频测试序列集、失真音频序列集，直接作为本模块输入。也可以如方法中的步骤1和2，自行制作原始音频测试序列集、失真音频序列集，作为本模块输入。一般从声音的谐波、带宽圆润度、清晰度、真实感、空间感等方面分别给出分项主观得分，能够说明声音质量。本模块则是根据关注音及背景音特征分离提取模块确定的特征属性进行评价。例如场景背景音的特征属性为基音周期和带宽，则分别从基音周期和带宽这两个方面给出分项主观得分；关注音的特征属性为谐波和带宽，则分别从谐波和带宽这两个方面给出分项主观得分。关注音主观评分模块用于根据由主观评价分项得分模块输入的分项主观得分得到单一的最终主观得分，并对主观得分数据进行统计处理。最终主观得分是融合分项主观得分后，体现音频质量主观评价的分数。具体融合方式可以采用现有的多元线性回归分析技术或者人工神经网络模型技术。本发明建议采用人工神经网络模型实现，人工神经网络模型的建立可以通过预先根据场景要义建立相应的训练集序列，以分项主观得分加权逼近最终主观得分，就能训练出一系列基于场景的加权值。参见附图1，本发明提供的基于关注度的主观评价方法，可以采用计算机软件技术手段自动实现流程，具体包括以下步骤
步骤1，根据场景选取作为参考的原始音频测试序列集，记为原始测试集A。具体制作原始音频测试序列集时，序列集的选取依赖于场景，对场景中应包含的典型声音类型进行混合，记为原始测试集A。步骤2，对步骤1所得原始测试集A中的序列进行多种不同失真处理，得到失真音频序列集，记为失真序列集B，失真处理的种数记为n，原始测试集A中每一个序列分别对应失真序列集B中的η种失真序列。原始音频测试序列集作为参考，失真音频序列集就是待测目标。具体实施时，失真处理可以选用现有测试编码器实现，失真种类根据编码器跨度范围不同。因此η值根据具体采用的编码器或者其他音频系统的情况而定。步骤3，从原始测试集A当中选取一个序列A ,同时从失真序列集B中挑出所有由序列珥得到的失真序列A1G^U2(A),…….她)。步骤4，确定序列ι的场景要义信息，包括场景背景音类型信息和关注音类型信
息，场景背景音的类型记为br，关注音的类型记为attention。例如，场景背景音的类型br 为语音，关注音的类型attention为音乐。步骤5，提取场景背景音和关注音的各自特征属性并分离，场景背景音的特征属性记为feature (br)，关注音的特征属性记为feature (attention)。例如，场景背景音的特征属性为基音周期和带宽，采用属性数组feature (br)记载，将关注音的特征属性为谐波和带宽，采用属性数组feature (attention)记载。步骤6，根据步骤5获得的特征属性feature (br)和feature (attention)，对失真
序列bM)M略.......χ(巧)分别给出分项主观得分。
例如，根据场景背景音的特征属性之一基音周期，对失真序列咖,咖)，.......礼⑷分别给出场景背景音的分项主观得分，根据场景背景音的特征属性
之一带宽，对失真序列為4)為(巧)，..."A⑷分别给出场景背景音的分项主观得分；根据
关注音的特征属性之一谐波,对失真序列...….力M分别给出关注音的分项主
观得分，根据关注音的特征属性之一带宽,对失真序列Ah)為(円)>.......分别给出关
注音的分项主观得分。具体实施时可以采用这种方式给出分项主观得分首先选取12个专业测听者，然后进行训练测试，告知测听者场景信息，让测听者听完序列A和4(^), (約X.......,咖
后，对每一个失真序列My為0 ),.......她)从声音的各项特征属性分别给出分项主
观得分。该训练测试步骤的评分不作最后统计，目的是让测听者熟悉场景和测听序列。最后进行评分测试，过程为在训练测试步骤完之后，让测听者回到测试主界面，在被
告知场景信息的情况下，让测听者听完序列A......ιΑ(β 后，对失真序列
MOM^l.......，咖依次从声音的各项特征属性分别给出分项主观得分，该评分测试步
骤给出的评分为有效评分。步骤7，根据对每一个失真序列~扛)的分项主观得分，得出最终主观得分
汉尋M)]，j取1 η。具体融合方式可以采用现有的多元线性回归分析技术或者人工神经网络模型技术。步骤8，返回步骤3，从原始测试集A当中选取下一个序列，重复执行步骤3 7，直到对原始测试集A中所有序列处理完，对每次执行步骤7所得最终主观得分进
行数据统计处理。具体统计处理的方式可由用户根据需要指定。下面进一步以具体实施例对本发明的方法技术方案作进一步说明
步骤一，选取交通路边场景信息的一组12个序列，这12个序列包含路边的一些典型声音，包括汽车喇叭声和语音，其中关注音为语音，这12个序列构成的原始测试集记为A。步骤二，对步骤一所得12个序列分别进行不同失真的处理，处理编码器选择 AMR-WB+编码器。实施例中对于每一个序列分别在12kbps、16kbps、24kbps和48kbps码率下进行这四种失真处理，得到的失真序列分别记为瑪共同构成失真序列集B。步骤三，从原始测试集A当中选取一个序列i同时从失真序列集B中挑出所有由 ,得到的失真序列⑷為(％)為⑷。可以将原始测试集A的序列记为巧, ... ，其中任一序列记为A，i取1 12。由于是每次从原始测试集A当中选取一个序列进行处理，直到原始测试集A中所有序列处理完，可以从序列^开始执行步骤三七，然后取序列 2开始执行步骤三七…直到取序列·％执行步骤三七完成。
步骤四，按照选取的序列确定％的场景信息，在此实施例中场景背景音的类型 br为汽车喇叭声，关注音的类型c^&ntion为语音。步骤五，根据步骤四所确定场景背景音的类型br和关注音的类型attention，提取场景背景音和关注音各自的属性特征并分离，场景背景音的特征属性记为 feature (br)，关注音的特征属性记为feature (attention)。汽车喇叭声的特征属性为带宽和白噪声，在数组feature (br)中记载；语音的特征属性为基音周期和带宽，在数组步骤六，根据步骤五获得的各项特征属性，对失真序列姒⑷為“)為(6)^0 )分别给出分项主观得分。实施例的主观评价平台选取ITU-T标准的MUSHRA主观测试平台。实施例根据场景背景音的特征属性之一带宽，对失真序列
分别给出场景背景音的分项主观得分，根据场景背景音的特征
属性之一白噪声，对失真序列兵(巧)為(A)為(A)為( )分别给出场景背景音的分项主观
得分；然后根据关注音的特征属性之一基音周期，对失真序列~(碑)為h)為分别给出关注音的分项主观得分，根据关注音的特征属性之一带宽，对失真序列
分别给出关注音的分项主观得分。因此对每一个失真序列~化)总共得到4个分项主观得分。步骤七，根据对每一个失真序列的分项主观得分，得出最终主观得分
权利要求
1.一种基于音频关注度的音频质量评价系统，其特征在于包括关注音及背景音特征分离提取模块、主观评价分项得分模块和关注音主观评分模块，所述关注音及背景音特征分离提取模块，用于根据输入的场景背景音类型信息和关注音类型信息，分别提取场景背景音的特征属性和关注音的特征属性，输出给主观评价分项得分模块；所述主观评价分项得分模块，用于根据原始音频测试序列集、失真音频序列集和由关注音及背景音特征分离提取模块输入的特征属性，从场景背景音的各项特征属性分别给出分项主观得分，从关注音的各项特征属性分别给出分项主观得分，并输出到关注音主观评分模块；所述关注音主观评分模块，用于根据由主观评价分项得分模块输入的分项主观得分得到单一的最终主观得分，并对最终主观得分进行数据统计处理。
2.一种基于音频关注度的音频质量评价方法，其特征在于，包括以下步骤步骤1，根据场景选取作为参考的原始音频测试序列集，记为原始测试集A ；步骤2，对步骤1所得原始测试集A中的序列进行多种不同失真处理，得到失真音频序列集，记为失真序列集B，失真处理的种数记为n，原始测试集A中每一个序列分别对应失真序列集B中的η种失真序列；步骤3，从原始测试集A当中选取一个序列^同时从失真序列集B中挑出所有由序列珥得到的失真序列為(《%)為(巧)，…….A(A)；步骤4，确定序列A的场景背景音类型信息和关注音类型信息，场景背景音的类型记为 br，关注音的类型记为attention ；步骤5，提取场景背景音和关注音的各自特征属性并分离，场景背景音的特征属性记为 feature (br),关注音的特征属性记为 feature (attention)；步骤6，根据步骤5获得的特征属性feature (br)和feature (attention)，对失真序列Bl(Oi),b2(ai\…....她)分别给出分项主观得分；步骤7，根据对每一个失真序列~狭)的分项主观得分，得出最终主观得分(約)]， j取1 η ；步骤8，返回步骤3，从原始测试集A当中选取下一个序列，重复执行步骤3 7，直到对原始测试集A中所有序列处理完，对每次执行步骤7所得最终主观得分进行数据统计处理。
全文摘要
本发明涉及音频评测领域，尤其涉及基于音频关注度的音频质量评价系统及方法。本发明提出了基于场景分类的评价方案，引入人类听觉自底向上和自顶向下的听觉机制，跟据测听声音进行划分场景的归类，依照不同的场景进行主观评测，对每个测听序列经行分项属性打分，然后融合得到一个最终的总得分，克服了现有主观评价不准确和不稳定的问题。
文档编号G10L19/00GK102184733SQ20111012668
公开日2011年9月14日申请日期2011年5月17日优先权日2011年5月17日
发明者曾琦, 杨玉红, 杨裕才, 胡瑞敏, 赵云, 高丽申请人:武汉大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡瑞敏;杨玉红;高丽;杨裕才;曾琦;赵云
技术所有人：武汉大学
我是此专利的发明人

上一篇：声学结构的制作方法
上一篇：作为语音识别错误预测器的用于语法适合度评估的方法和系统的制作方法