三维音频编码中双耳线索感知特性的自适应测量方法

文档序号:7891854阅读:199来源:国知局
专利名称:三维音频编码中双耳线索感知特性的自适应测量方法
技术领域
本发明属于声学领域,尤其涉及双耳线索恰可感知差异的自适应测试方法。
背景技术
2009年底,三维电影《阿凡达》在全球三十多个国家登上票房榜首,到2010年9月初,全球累计票房超过27亿美元。《阿凡达》之所以能取得如此辉煌的票房成绩,在于它所采用了全新的三维特效制作技术带给人们感官上的震撼效果。《阿凡达》所展现的绚丽画面与逼真声效不仅震撼了观众,也使得业界有了 “电影进入三维时代”的断言。不仅如此,它还将催生更多的相关影视、录音、播放方面的技术和标准。2010年I月在美国拉斯维加斯举行的国际消费电子产品展上,各彩电巨头纷纷亮出的电视新品带给了人们新的期待——三维已经成为全球各大彩电制造商竞争的新焦点。要想达到更好的视听体验,需要有与三维视频内容同步的三维声场听觉效果,才能真正达到身临其境的视听感受。早期的三维音频系统(如Ambisonics系统)由于其结构复杂,对采集和回放设备要求较高,难以推广实用。近年来日本NHK公司推出了 22. 2声道系统,能通过24个扬声器再现原来的三维声场。2011年MPEG着手制定三维音频的国际标准,在达到一定编码效率的同时希望能通过比较少的扬声器或耳机来还原三维声场,以便能将该技术推广到普通家庭用户。由此可见三维音视频技术已成为多媒体技术领域的研究热点和进一步发展的重要方向。三维音频中声道数目增长而导致数据量激增的问题需要通过高效的三维音频编码来解决。首先要去除三维音频各声道的统计和感知冗余,在利用人耳定位的双耳线索,对多声道信号进行高效参数表达,达到去除空间信息冗余的目的,可以在实现较高压缩效率的同时保持较好的空间音效。双耳线索传达着音频信号中的空间感知信息。在音频编解码中,双耳线索的量化编码能够满足解码后音频信号的环绕立体声效果。同时,由于双耳线索占用的量化比特数少,因此在空间音频的领域中有着更好的应用。在声学领域,一般所指的双耳线索包括三个双耳强度差(ILD),双耳时间差(ITD)和双耳相关度(IC)。ILD和ITD都是表征空间声场方位感知的信息,而IC表征的是空间声像的宽度。人耳的感知范围是有限的,人类能感知的频率范围是在20Hz-20kHz之间。不同的个体在频率感知上是有差异的。为了更好的利用双耳线索,进一步压缩感知冗余,拓宽空间音频的应用领域,研究人耳在各频率下对双耳线索的感知依赖特性是很有必要的。恰可感知差异(JND)是研究双耳线索感知依赖特性的一个重要参数,它代表的是人耳对双耳线索变化恰好不可感知的值,通过JND的大小就能够衡量双耳线索在各频率下的一个感知阈值,指导音频感知编码。而JND的大小只能通过大量的主观测试实验获得。在 已有的研究中,采取的测试方法一般是制作一个标准音和大量的测试音,让听音者不断反复判断标准音和测试音来找到恰好不能区分的值。这样的测试方法带来了大量的工作量,并且容易产生听觉疲劳和听觉混淆,加重了测试者负担,并且实际上很难把握恰好区分的度。

发明内容
本发明针对现有技术的不足,提供一种三维音频编码中双耳线索感知特性的自适应测试方 法。本发明的技术方案为一种三维音频编码中双耳线索感知特性的自适应测试方法,包含以下步骤步骤1,在一个测试频率下,根据预设的参考音双耳线索SPref与变化步长SPd生成测试序列,所述测试频率记为X ;测试序列的实时生成方法为,以预设的时间间隔将参考音与测试音组合成一个测试序列,组合时前后顺序随机排列,测试音双耳线索SPtest =SPref+SPd ;第一次执行步骤I时,变化步长SPd采用预设的初值;步骤2,根据采用步骤I所得测试序列进行测试的判断结果实时改变变化步长SPd的值,实现方式如下,置正确数Nk = 0为初始状态,当判断结果正确时,则将错误数Nw置为0,将正确数Ne加1,直到连续Nk = NI次判断结果正确后,则减小变化步长SPd的值,并将正确数Nk和错误数Nw置0,判断是否出现反转,是则保存当前反转次数和变化步长SPd当前的值并进入步骤3,否则返回步骤I根据变化步长SPd当前的值生成测试序列;当判断结果错误时,将正确数Nk置为0,将错误数Nw加1,当连续Nw = N2次判断结果错误后,则增加变化步长SPd的值,并将正确数Nk和错误数Nw置0,判断是否出现反转,是则保存当前反转次数和变化步长SPd当前的值并进入步骤3,否则返回步骤I根据变化步长SPd当前的值生成测试序列;其中,NI和N2分别为预设的减小SPd值次数阈值和增加SPd值次数阈值;所述反转,是指变化步长SPd从增加变化为减小或者从减小变为增加,则称为一次反转,从第一次执行步骤2到当前总共的反转次数即是当前反转次数;步骤3,根据预设的反转次数阈值L,若当前反转次数达到L次,则进入步骤4,若当前反转次数没有达到L次,则返回步骤I根据变化步长SPd当前的值生成测试序列;步骤4,对最近t次反转时的变化步长SPd的值取平均,得到测试频率X下测试的恰可感知差异平均值,t为预设次数值。而且,在步骤2中,连续Nk = NI次判断结果正确后,减小变化步长SPd的值实现方式为令SPd = SPd/gain-step ;连续Nw = N2次判断结果错误后,增加变化步长SPd的值实现方式为令SPd = SPd*gain+step ;其中,gain是指数变化参数,step是线性变化参数。而且,设gain的取值有gl, g2, g3, g4四种,step的取值有si, s2, s3, s4四种;设当前反转次数记为reversals,为reversals设置Rl, R2, R3, R4四种临界取值,Rl < R2< R3R4 = L ;为变化步长SPd的值设置SP1' SP2, SP3三种临界取值,SP1 < SP2 < SP3 ;在步骤3中,若当前反转次数没有达到L次,进行以下处理调整指数变化参数gain和线性变化参数step的值后返回步骤I,判断是否reversals > Rl,是则判断是否 reversals > R2,否则令 gain = gl、step = si ;若 reversals > R2,则判断是否 reversals > R3,否则判断是否 SPd > SP1,是贝lJ令 gain = gl、step = si,否贝[I令 gain = g2、step = s2 ;若reversals > R3,则判断是否reversals > R4,否则判断是否SPd > SP2,是则令 gain = g2、step = s2,否贝U令 gain = g3、step = s3 ;
若reversals = R4,则进入步骤4,否则判断是否SPd > SP3,是则令gain = g3、step = s3,否则令 gain = g4、step = s4。本发明利用人耳感知特性及双耳线索的频率依赖特性,通过实际测试自适应调整双耳线索变化步长,采取逐步逼近的方法定位双耳线索的恰可感知差异,从而减少了测试次数,提高了测试精度。


图I是本发明实施例的自适应测试方法的流程图。图2是本发明实施例的听音训练流程图。图3是本发明实施例的变化步长的调整流程图。图4是本发明实施例的变化步长自适应变化示意图。图5是本发明实施例的测试系统框图。
具体实施例方式本发明主要基于空间心理声学,考虑人耳感知特性和空间参数的频率依赖特性,提出的一种自适应测试双耳线索的恰可感知差异的实验方法及系统。本方法充分考虑了每个个体不同的感知特性,通过自适应调整步长的方法来逼近双耳线索的恰可感知差异。通过本发明获得的结果更加科学,更加精确。本发明提供的方法能够用计算机软件技术实现流程。参见图1,实施例以双耳线索ILD为例对本发明的流程进行一个具体的阐述,如下定义SPMf为参考音的ILD值,SPtest为测试音的ILD值,SPd为代表测试的目标JND值,是变化步长,则SPtest = SPref+SPdo步骤1,在一个测试频率下,根据预设的参考音双耳线索SPref与变化步长SPd生成测试序列,所述测试频率记为X ;测试序列的实时生成方法为,以预设的时间间隔将参考音与测试音组合成一个测试序列,组合时前后顺序随机排列,测试音双耳线索SPtest =SPref+SPd ;第一次执行步骤I时,变化步长SPd采用预设的初值。实施例具体的实施过程说明如下以相应时间为间隔将此参考音与测试音组合成一个测试序列。前后顺序随机排列,比如SPref = 0,SPd = 4,所以 SPtest = SPref+SPd,根据 SPref 值与 SPtest 值生成相应的参考音与测试音。设a为以生成的参考音,设b为生成的测试音,可以先播放a,再间隔一段时间播放b,也可以先播放b,再间隔一段时间播放a,a和b的播放顺序是随机的。间隔的相应时间一般是固定值,例如取0. 5秒。若为第一次生成测试序列,变化步长SPd采用预设的初值,之后则采用步骤2重新调整后的变化步长SPd的值。可以采用第一次生成的测试序列对听音者进行听音训练,根据训练结果判断听音者的听力是否符合测试标准。如果符合测试标准,再进行双耳线索恰可感知差异的正式测听,采用测试序列进行正式测试的结果用于步骤2。如图I中所示,具体流程可为,配置自适应测试实验参数,即导入预设的SPMf和SPd值,生成听音测试序列,判断是否为首次测听,是则进行听音训练,不符合要求则结束流程,符合则进入步骤2。也可以预先采用其他测试序列进行听音训练,执行本发明技术方案时则无需进行听音训练。为便于实施参考起见,本发明建议提出判断听音者的听力是否符合测试标准的具体方式如下,训练阶段SPd值保持不变,设训练总数max,训练m次需达到的正确率为a%,通过判断最近m次的训练结果来确定是否符合测试标准,具体是逐个判断区间1-m,2-(m+l),3- (m+2). . . , (max-m+1) -max的训练正确率,分别表示第I次到第m次、第2次到第m+1次,第3次到第m+2次...第(max-m+1)到第max次,如果进行到某个区间正确率大于等于a%,则符合测试标准;若进行到最后一个区间正确率都小于a%,则认为听音者的听力没有达到测听标准,结束测试。 实施例具体的实施方案如下首先,预先拟定训练总数max = 50,训练m = 10次需达到的正确率为80%。通过判断最近10次的训练结果来确定是否符合测试标准。具体训练结果判断区间1-10,2-11,3-12...,41-50。最少测试10次,最多测试50次。具体可参见图2所提供训练阶段中最近m次正确率判断方法的流程训练测听,判断训练次数是否>=m,否则返回训练测听,是则判断最近m次训练结果的正确率,大于等于a%,则符合听音测试标准,训练结束,进入正式测听;小于a%,则判断训练总数是否〉max,否则返回继续听音训练,是则说明不满足听音测试标准,训练结束。然后,实时判断如上所述的每个区间的训练正确率。如果进行到某个区间正确率大于等于80%,则可以结束训练,认为达到测听标准,转入步骤3。若训练次数到50次了正确率都小于80%,则认为听音者的听力没有达到测听标准,结束听音测试。步骤2,根据采用步骤I所得测试序列进行测试的判断结果实时改变变化步长SPd的值。 一般进行测试时,根据当前的测试序列判断感知方位偏向一侧的序列。实施例指定左侧,参考音有一个方位,测试音是比参考音偏左一点的声音;测试时可以将参考音和测试音是随机播放,测试者判断前后播放的两段音哪一个偏左,如果选择的是测试音则选对判断结果正确,否则判断结果错误。具体测试实现为现有技术,本发明的技术方案直接采用测试序列进行测试的判断结果调整变化步长。为便于实施参考起见,本发明进一步提供实施例的实时改变变化步长SPd的值具体方式如下置正确数Nk = 0为初始状态,当判断结果正确时,则将错误数Nw置为0,将正确数Ne加1,直到连续Nk = NI次判断结果正确后,则减小变化步长SPd的值,并将正确数Nk和错误数Nw置0,判断是否出现反转,是则保存当前反转次数和变化步长SPd当前的值并进入步骤3,否则返回步骤I根据变化步长SPd当前的值生成测试序列;当判断结果错误时,将正确数Nk置为0,将错误数Nw加1,当连续Nw = N2次判断结果错误后,则增加变化步长SPd的值,并将正确数Nk和错误数Nw置0,判断是否出现反转,是则保存当前反转次数和变化步长SPd当前的值并进入步骤3,否则返回步骤I根据变化步长SPd当前的值生成测试序列。其中,NI和N2分别为减小SPd值次数阈值和增加SPd值次数阈值,即减小SPd值所需的最小连续判断是次数和增加SPd值所需的最小连续判断否的次数。NI和N2可由本领域技术人员根据情况自己预先设定数值。也就是连续正确次数不到NI,连续错误次数不到N2,变化步长SPd的值都不变。所述反转,是指变化步长SPd的变化趋势变化时(包括从增加变化为减小或者从减小变为增加),则称为一次反转,从第一次执行步骤2到当前总共的反转次数即是当前反转次数。如图3所示,具体流程中,可以在判断结果是正确时,首先判断是否Nw > 0,是则设错误数Nw = 0,正确数Nk = I。否则直接Nk = NK+1,在Ne < NI时都保持SPd值不变,测试序列也保持不变(SPtest = SPtest),继续判断下一次听音测试的结果是否正确,直到Nk = NI时,SPd = SPd/gain-step,根据SPtejst = SPref+SPd生成新的测试序列,设Nk = O。可以在判断结果是错误时,首先判断是否为Nk > 0,是则设正确数Nk = 0,错误数Nw = 1,否则直接Nff = Nw+1,在Nw < N2时都保持SPd值不变,测试序列也保持不变(SPtest = SPtest),继续判断下一次听音测试的结果是否正确,直到Nw = N2时,SPd = SPd*gain+step,根据SPtest =3匕#+3匕生成新的测试序列,设^ = 0。这样减少了冗余的置0操作,效率更高。因为NI可能为1,在Nw > 0并设错误数Nw = 0,正确数Nk = I后,判断是否NI = I,是则令SPd =SPd/gain-step,根据SPtert = SPref+SPd生成新的测试序列,设Nk = 0,否则保持SPd值不变,测试序列也保持不变(SPtest = SPtest),继续判断下一次听音测试的结果是否正确。同样的,因为N2可能为I,在Nk > 0并设错误数Nw = I,正确数Nk = 0后,判断是否N2 = I,是则令SPd = SPd*gain+step,根据SPtest = SPref+SPd生成新的测试序列,设Nw = 0,否则保持SPd值不变,测试序列也保持不变(SPtest = SPtest),继续判断下一次听音测试的结果是否正确。实施例具体实施方案为预设NI = 3,N2 = I,根据步骤I生成的测试序列判断感知方位偏左的序列。置Nk=0为初始状态,当判断正确时,则将正确数乂加1,保持变化步长SPd当前的值转入步骤2。直到连续Nk = 3次判断正确,则减小测试值,即SPd = SPd/gain-step,使参考音SPMf值与测试音SPtest值更加接近。当有Nw = I次判断错误,则增加测试值,即SPd = SPd*gain+step,使参考音SPMf值与测试音SPtest值的差值变大。gain和step是用来使SPd值增大或减小的两个参数,其中,gain是指数变化参数,可让SPd值按指数变化,step是线性变化参数,可让SPd值按线性变化。gain和step可以采用预设的固定值,为了使测试值快速逼近目标值,还可以根据当前反转次数实时改变gain和step的值,这样就能通过SPd = SPd/gain-step和SPd = SPd*gain+step这两个式子来调节SPd的值大小。步骤3,根据预设的反转次数阈值L,若当前反转次数reversals达到L次,则进入步骤4,若当前反转次数reversals没有达到L次,则返回步骤I根据变化步长SPd当前的值生成测试序列。本领域人员可自行根据具体情况设定L值。实施例的反转次数阈值L = 12,具体的实施方案为当反转数达到12次时,则转入步骤5。若反转次数没有达到12次,则转入步骤1,根据当前的SPd信息重新生成序列继续进行听音测试。
为进一步提供自适应调整效率起见,实施例中gain的取值有gl, g2, g3, g4四种,step的取值有si, s2, s3, s4四种。设当前反转次数记为reversals,实施例为reversals设置Rl,R2,R3,R4四种临界取值,Rl < R2 < R3R4 = L,当达到某一种临界值时就要改变gain和step的取值。并为变化步长SPd的值设置SP1' SP2, SP3三种临界取值,SP1 < SP2< SP3,参考变化步长SPd当前的值实现自适应变化。如图4所提供实施例的测试过程中测试值的自适应变化流程,连续Nk = NI次判断结果正确后需要减小SPd值时,或连续Nw = N2次判断结果错误后需要增加SPd值时,执行以下步骤输入当前SPd值,通过自适应处理,判断是否reversals > R1,是则判断是否reversals > R2,否则执行步骤Al,即gain = gl、step = si,之后执行步骤2时按照gain = gl、step = si执行Up计算或Down计算,即 Up (增加 SPd 值计算)SPd = SPd*gain+step 或 Down (减小 SPd 值计算)SPd = SPd/gain—step ;若reversals > R2,则判断是否reversals > R3,否则判断是否SPd > SP1,是则跳转步骤Al,之后执行步骤2时按照gain = gl、step = si执行Up计算或Down计算,否则执行步骤A2,即gain = g2、step = s2,之后执行步骤2时按照gain = g2、step = s2执行Up计算或Down计算;若reversals > R3,则判断是否reversals > R4,否则判断是否SPd > SP2,是则跳转步骤A2,之后执行步骤2时按照gain = g2、step = s2执行Up计算或Down计算,否则执行步骤A3,即gain = g3、step = s3,之后执行步骤2时按照gain = g3、step = s3执行Up计算或Down计算;若reversals > R4,则自适应变化流程完成,进入步骤4,否则判断是否SPd > SP3,是则跳转步骤A3,然后之后执行步骤2时按照gain = g3、step = s3执行Up计算或Down计算,否则执行步骤A4,即gain = g4、step = s4,之后执行步骤2时按照gain = g4、step=s4执行Up计算或Down计算。实施例过程涉及数据如下表为
权利要求
1.一种三维音频编码中双耳线索感知特性的自适应测试方法,其特征在于,包含以下步骤 步骤1,在一个测试频率下,根据预设的参考音双耳线索SPref与变化步长SPd生成测试序列,所述测试频率记为X ;测试序列的实时生成方法为,以预设的时间间隔将参考音与测试音组合成一个测试序列,组合时前后顺序随机排列,测试音双耳线索SPtest=SPMf+SPd ;第一次执行步骤I时,变化步长SPd采用预设的初值; 步骤2,根据采用步骤I所得测试序列进行测试的判断结果实时改变变化步长SPd的值,实现方式如下, 置正确数Nk=O为初始状态,当判断结果正确时,则将错误数Nw置为0,将正确数Nk加1,直到连续Nk=NI次判断结果正确后,则减小变化步长SPd的值,并将正确数Nk和错误数Nw置0,判断是否出现反转,是则保存当前反转次数和变化步长SPd当前的值并进入步骤3,否则返回步骤I根据变化步长SPd当前的值生成测试序列;当判断结果错误时,将正确数Nk置为0,将错误数NwW 1,当连续NW=N2次判断结果错误后,则增加变化步长SPd的值,并将正确数Ne和错误数Nw置0,判断是否出现反转,是则保存当前反转次数和变化步长SPd当前的值并进入步骤3,否则返回步骤I根据变化步长SPd当前的值生成测试序列;其中,NI和N2分别为预设的减小SPd值次数阈值和增加SPd值次数阈值; 所述反转,是指变化步长SPd从增加变化为减小或者从减小变为增加,则称为一次反转,从第一次执行步骤2到当前总共的反转次数即是当前反转次数; 步骤3,根据预设的反转次数阈值L,若当前反转次数达到L次,则进入步骤4,若当前反转次数没有达到L次,则返回步骤I根据变化步长SPd当前的值生成测试序列; 步骤4,对最近t次反转时的变化步长SPd的值取平均,得到测试频率X下测试的恰可感知差异平均值,t为预设次数值。
2.根据权利要求书I所述三维音频编码中双耳线索感知特性的自适应测试方法,其特征在于在步骤2中,连续Nk=NI次判断结果正确后,减小变化步长SPd的值实现方式为令SPd= SPd/gain - step ;连续NW=N2次判断结果错误后,增加变化步长SPd的值实现方式为令SPd=SPd*gain+step ;其中,gain是指数变化参数,step是线性变化参数。
3.根据权利要求书I所述三维音频编码中双耳线索感知特性的自适应测试方法,其特征在于设gain的取值有gl, g2, g3, g4四种,step的取值有sl, s2, s3, s4四种;设当前反转次数记为reversals,为reversals设置Rl,R2,R3,R4四种临界取值,Rl < R2 < R3<R4=L ;为变化步长SPd的值设置SPl、SP2, SP3三种临界取值,SP1 < SP2 < SP3 ;在步骤3中,若当前反转次数没有达到L次,进行以下处理调整指数变化参数gain和线性变化参数step的值后返回步骤I, 判断是否 reversals>Rl,是则判断是否 reversals>R2,否则令 gain=gl、step=sl ; 若reversals>R2,则判断是否reversals>R3,否则判断是否SPpSP1,是则令gain=gl、step=sl,否则令 gain=g2、step=s2 ; 若reversals>R3,则判断是否reversals>R4,否则判断是否SPd>SP2,是则令gain=g2、step=s2,否则令 gain=g3、step=s3 ; 若reversals=R4,则进入步骤4,否则判断是否SPd>SP3,是则令gain=g3、step=s3,否则令 gain=g4、step=s4。
全文摘要
为了解决三维音频中声道数过多、数据量过大的问题,通过将各声道下混并提取表达空间信息的双耳线索,可以有效降低三维音频的编码码率。本发明公开了一种三维音频编码中双耳线索感知特性的自适应测试方法,采取迂回逼近的方法,根据测试结果自适应调整双耳线索变化步长,来定位双耳线索的恰可感知差异,指导空间音频的量化编码。
文档编号H04S7/00GK102637432SQ20121007432
公开日2012年8月15日 申请日期2012年3月20日 优先权日2012年3月20日
发明者刘进峰, 杨玉红, 涂卫平, 王恒, 王晓晨, 胡瑞敏, 高戈 申请人:武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1