语音波束形成方法及系统与流程

文档序号:15807225发布日期:2018-11-02 21:54阅读:196来源:国知局
语音波束形成方法及系统与流程

本发明涉及语音信号处理领域,更具体地,涉及一种具有惩罚不等式约束的语音波束形成方法和语音波束形成系统。

背景技术

在过去几十年中,利用由麦克风阵列带来的多自由度(degreeoffreedom,dof)的各种波束形成算法已被广泛研究(例如,非专利文献2及其中所引用的其他文献)。除性能受到麦克风拓扑和空间混叠(spatialaliasing)限制的数据独立波束形成器外,数据依赖波束形成器由于其对信号统计的适应性也可用作最优多通道滤波器(optimalmulti-channelfilter)。根据信号处理过程的目的,数据依赖波束形成器主要分为两类:多通道维纳滤波器(multi-channelwienerfiler,mwf)波束形成器和最小方差无失真响应(minimumvariancedistortionlessresponse,mvdr)波束形成器(例如,非专利文献6)。mwf波束形成器对目标信号执行最小均方差误差(mmse)估计,而mvdr波束形成器施加线性约束从而在减少噪声能量时确保目标信号的非失真响应。非专利文献2很好地总结了这两类波束形成器的对比和联系。

作为mvdr波束形成器的延伸,线性约束最小方差(linearlyconstrainedminimumvariance,lvmv)(例如,非专利文献7)波束形成器利用线性等式约束来保护目标和抑制干扰。在这种方法中,需要与目标/干扰相对应的声学传递函数(atf)。在具有精确估计的atf的情况下,lcmv波束形成器实现了出色的噪声和干扰削减以及目标保留。然而,在诸如助听器应用的实践中,由于atf估计的误差,导致lcmv波束形成器的性能会显著降低(例如,非专利文献8)。特别地,为了处理目标的到达方向(directionofarrival,doa)误差(其可由例如助听器佩戴者移动头部而引起),最近在非专利文献1和9中提出了一种具有鲁棒性的波束形成器,其将lcmv波束形成器中的等式约束放宽到不等式约束,也即所谓的不等式约束最小方差(inequalityconstrainedminimumvariance,icmv)波束形成器。对于icmv波束形成器来说,可以施加对邻近角的额外约束以实现对doa误差或atf估计误差的鲁棒性。在lcmv波束形成器和icmv波束形成器两者中,波束形成器能够处理的干扰的数量受到麦克风阵列提供的dof的限制。上述限制使得所述两类波束形成器在某些多人讲话环境中的应用受限。此外,dof还限制了可以在icmv中施加的不等式约束的数量,从而在某些情况下,导致具有鲁棒性的icmv问题不可行。

现有技术

非专利文献1

w.c.liao,m.hong,i.merks,t.zhang,andz.q.luo,“incorporatingspatialinformationinbinauralbeamformingfornoisesuppressioninhearingaids,”in2015ieeeinternationalconferenceonacoustics,speechandsignalprocessing(icassp),april2015,pp.5733–5737.

非专利文献2

s.doclo,w.kellermann,s.makino,ands.e.nordholm,“multichannelsignalenhancementalgorithmsforassistedlisteningdevices:exploitingspatialdiversityusingmultiplemicrophones,”ieeesignalprocessingmagazine,vol.32,no.2,pp.18–30,march2015.

非专利文献3

g.elko,“microphonearraysystemsforhands-freetelecommunication,”speechcommunication,vol.20,no.3-4,pp.229–240,1996.

非专利文献4

e.mabande,a.schad,andw.kellermann,“designofrobustsuperdirectivebeamformersasaconvexoptimizationproblem,”in2009ieeeinternationalconferenceonacoustics,speechandsignalprocessing,april2009,pp.77–80.

非专利文献5

j.katesandm.weiss,“acomparisonofhearing-aidarray-processingtechniques,”thejournaloftheacousticalsocietyofamerica,vol.99,no.5,pp.3138–3148,1996.

非专利文献6

s.doclo,s.gannot,m.moonen,anda.spriet,“acousticbeamformingforhearingaidapplications,”handbookonarrayprocessingandsensornetworks,pp.269–302,2008.

非专利文献7

e.hadad,s.doclo,ands.gannot,“thebinaurallcmvbeam-formeranditsperformanceanalysis,”ieee/acmtransactionsonaudio,speech,andlanguageprocessing,vol.24,no.3,pp.543–558,march2016.

非专利文献8

e.hadad,d.marquardt,andetal,“comparisonoftwobin-auralbeamformingapproachesforhearingaids,”inicassp,2017(accepted).

非专利文献9

w.c.liao,z.q.luo,i.merks,andt.zhang,“aneffectivelowcomplexitybinauralbeamformingalgorithmforhearingaids,”in2015ieeeworkshoponapplicationsofsignalpro-cessingtoaudioandacoustics(waspaa),oct2015,pp.1–5.

非专利文献10

m.grant,s.boyd,andy.ye,“cvx:matlabsoftwarefordisciplinedconvexprogramming,”2008.

非专利文献11

s.boyd,n.parikh,e.chu,b.peleato,andj.eckstein,“distributedoptimizationandstatisticallearningviathealternatingdirectionmethodofmultipliers,”foundationsandtrendsrinmachinelearning,vol.3,no.1,pp.1–122,2011.

非专利文献12

d.p.bertsekas,nonlinearprogramming,athenascientificbelmont,1999.

非专利文献13

j.b.allenandd.a.berkley,“imagemethodforefficientlysimulatingsmall-roomacoustics,”thejournaloftheacousticalsocietyofamerica,vol.65,no.4,pp.943–950,1979.

非专利文献14

a.spriet,m.moonen,andj.wouters,“robustnessanalysisofmultichannelwienerfilteringandgeneralizedsidelobecancellationformultimicrophonenoisereductioninhearingaidapplications,”ieeetransactionsonspeechandaudioprocessing,vol.13,no.4,pp.487–503,july20



技术实现要素:

发明人利用凸优化技术(convexoptimizationtechnique)重新审视波束形成器设计的问题。发明人致力于设计一种能够在有限dof条件下处理多个干扰的波束形成器。通过引入被在成本函数(costfunction)中受到惩罚的变量限制边界的不等式约束的机制,可以增加不等式约束的数量而不会导致不可行的问题。这使得该波束形成器能够处理环境中所有干扰而不受阵列dof的限制。针对所提出的公式化推导出了基于交替方向乘子法(alternatingdirectionmethodofmultipliers,admm)的低复杂度迭代算法。该迭代算法提供了一种可在助听器中实现的简单的波束形成器适配例。

在一个方面,本申请提出了一种语音波束形成方法。所述方法包括:获取多个输入音频信号;根据具有不等式约束的最优化问题模型,求解波束形成函数的最优解;以及根据所述波束形成函数的最优解以及所述多个输入音频信号来获得输出音频信号。其中,在所述最优化问题模型中,目标函数包括受惩罚变量,并且所述不等式约束包括被所述目标函数中的所述受惩罚变量限制边界的不等式约束。

在另一个方面,本申请还提出了一种语音波束形成系统。所述系统包括:获取多个输入音频信号的装置;根据具有不等式约束的最优化问题模型求解波束形成函数的最优解的装置;以及根据所述波束形成函数的最优解以及所述多个输入音频信号来获得输出音频信号的装置,其中,在所述最优化问题模型中,目标函数包括受惩罚变量,并且所述不等式约束包括被所述目标函数中的所述受惩罚变量限制边界的不等式约束。

本申请的波束形成方法及系统中的波束形成器被公式化为二阶锥规划。利用不等式约束通过对成本函数进行惩罚来处理有限的自由度。使用基于交替方向乘子法的低复杂度迭代算法来更新所述波束形成器。在仿真模拟中,将本申请的波束形成器与线性约束最小方差波束形成器以及不等式约束最小方差波束形成器进行比较,展现了本申请的波束形成器的能够处理更多个干扰的能力以及对到达方向误差所具有的鲁棒性。

附图说明

以下附图仅仅是根据所公开的各种实施例的以示意性为目的的示例,并非旨在限定本发明的范围。

图1示出了用于对根据本申请实施例的波束形成器与现有波束形成器进行比较的模拟的声学环境。

图2示出了根据本申请实施例的波束形成器与现有波束形成器各自的干扰抑制水平。

图3示出了根据本申请实施例的波束形成器与现有波束形成器在图2的情景1中的频率1khz处的波束图案。

图4示出了根据本申请实施例的波束形成器与现有波束形成器在图2的情景2中的频率1khz处的波束图案。

具体实施方式

现在将参照以下实施例更加详细地描述本公开。应当注意的是,在本文中,一些实施例的以下描述仅仅是以示意和说明为目的而呈现的。其并非意为详尽的或者限于所公开的精确形式。

波束形成中的一个有待解决的问题在于,当阵列提供的自由度少于环境中源的数量时,对多个干扰的抑制会受到限制。根据本申请的实施例,提供了一种克服上述限制的波束形成器设计。具体地将所述波束形成器设计公式化为二阶锥规划(second-orderconeprogramming,socp)。利用不等式约束通过对成本函数进行惩罚来处理有限的自由度。使用基于交替方向乘子法(alternatingdirectionmethodofmultipliers,admm)的低复杂度迭代算法来更新所述波束形成器。在仿真模拟中,将根据本申请实施例的波束形成器与线性约束最小方差(lcmv)波束形成器以及不等式约束最小方差(icmv)波束形成器进行比较,展现了本文所述的波束形成器的能够处理更多个干扰的能力以及对到达方向(doa)误差所具有的鲁棒性。

[问题描述]

考虑一种双耳助听器,其每侧有m个麦克风。环境中有1个目标源和k个干扰源。麦克风处接收到的信号在时频域(time-frequencydomain)中可以表示为:

其中,y(l,f)表示帧l和频带f处的麦克风信号;hs(f)和hk(f)表示目标和第k个干扰的atf;s(1,f)和ik(l,f)分别表示目标和第k个干扰信号;以及n(l,f)表示背景噪声。

波束形成器通过将2m个麦克风处接收到的信号线性组合而产生了每个耳朵处的输出信号。具体地,令wl(f)和wr(f)分别表示在频带f应用于左耳和右耳的波束形成器。左右耳处的输出信号为:

为简化符号,本文余下部分将省略l和r以及时间和频率索引l和f。

接下来,将呈现用于描述根据本申请实施例的波束形成器的数学公式。根据本申请实施例的波束形成器是非专利文献1中icmv波束形成器的延伸,旨在处理更多的干扰。为了在2m小于或等于k时克服dof限制,在根据本申请实施例的波束形成器中,将icmv公式中的不等式约束修改为惩罚版本。因此,将本发明构思的波束形成器命名为惩罚icmv(penalized-icmv)波束形成器或简称为p-icmv波束形成器。利用rtf(相对于参考麦克风(relativetotheref.mic),其可以是比如每侧的前麦克风),通过平衡以下三个目标来设计所述p-icmv波束形成器:

(一)语音失真控制:为了平衡目标失真和噪声/干扰抑制,将lcmv波束形成器中的等式约束放宽到可容忍失真的不等式约束。另外,可以施加在所估计的目标角度附近的邻近角处的多个约束来提高其对doa误差的鲁棒性。这导致了针对目标的以下约束(公式(1)):

(二)干扰抑制:当阵列中的麦克风数量少于干扰的数量时,即,当2m小于或等于k时,直接施加等式约束或不等式约束来抑制全部干扰可能会导致一种不可行的设计。为了克服这一问题,引入额外的优化变量并提出一种极小化极大优化标准以同时抑制全部k个干扰,如公式(2)所示。

注意到,采用所述额外变量,使得公式(4)中的约束总是可行的。

(三)噪声能量减少:背景噪声的能量可表示为

通过结合公式(1)至公式(3),得到以下由公式(4)用于提供具有鲁棒性的p-icmv波束形成器的优化问题:

其中,引入了一个额外参数μ用于噪声减少与干扰抑制之间的折中。

与icmv波束形成器相比,p-icmv波束形成器具有一个额外的优化变量,该变量使得等式约束中的上限可调。从而,针对干扰抑制的约束的数量不再受到dof的限制。换句话说,p-icmv波束形成器可以处理任意数量的干扰。

作为特例,如果有足够数量的dof,则公式(4)所示的优化问题的最优解为ε=0。这种情况下,p-icmv波束形成器等价于一种对干扰抑制零约束的icmv波束形成器。另外,当没有鲁棒性约束并且对目标应用等式约束时,所述p-icmv波束形成器和icmv波束形成器都等价于lcmv波束形成器。

目标函数中的惩罚项使p-icmv波束形成器能够智能地分配dof,从而利用较大的权重k来使想要处理的干扰最小化。这允许选择性地抑制干扰,从而在许多实际应用中提供额外的好处。例如,较大的权重可施加于具有较大嘈杂度的干扰。

p-icmv波束形成器的优化问题是二阶锥规划(second-orderconeprogramming,socp),一般的内点求解器(interiorpointsolver)(参见非专利文献10)可以用来解决这一问题。然而,在助听器应用领域中,相关计算复杂度的费用依旧很高。下面,将推导针对公式(4)所示的优化问题的有效优化算法(admm),其在每次迭代时具有简单的更新规则。

[p-icmv波束形成器的admm算法]

为了推导出公式(4)所示的优化问题的admm算法,在本申请中,引入了辅助变量δθ和δφ,通过该辅助变量,公式(4)可被等价地表示为:

使lρ(w,δθ,δφ,∈,λθ,λφ)作为公式(5)的增广拉格朗日函数(参见非专利文献11),其中λθ和λφ为与等式约束(5c)和(5e)相关的拉格朗日因子,ρ>0是针对admm算法的预定义的惩罚参数。在第r次迭代时,admm算法以下面的方式更新所有的变量:

对于上述迭代算法,本发明提出以下命题。

命题1(参见非专利文献11):如果2m≥|θ|,则公式(6)生成的迭代(w,r)收敛到公式(4)的最优解。

接着,推导出针对每个迭代r的(6a)、(6b)和(6c)中子问题的封闭解。为简单起见,忽略迭代索引(iterationindex)r。

(1)从(6a)中求解w:关于w的子问题(6a)是一个无约束凸二次问题,表示为

以封闭形式获得最优w:

w*=-a-1b,

其中

(2)从(6b)中求解δθ:子问题(6b)相对于δθ可分离(separable)。因此,每个最佳δθ可通过分别求解以下问题来获得:

封闭形式的δθ可表示为:

(3)从(6c)求解δφ:子问题(6c)等价于

γk∈k≤t,k=1,...,k.

在卡罗需-库恩-塔克(kkt)最优化条件下(参见非专利文献12),可通过求解以下关于t的等式在区间(0,tmax]中的根来获得最优的t,其中tmax=maxkmaxφ∈φk{γk|τφ/cφ|2:

基于所获得的t,能够从t中容易地提取出封闭形式的最优

[数值模拟]

图1示出了用于对根据本申请实施例的波束形成器与现有波束形成器进行比较的模拟的声学环境。所模拟的声学环境用于比较所提出的p-icmv波束形成器和另外两个基于最小方差的波束形成器:lcmv波束形成器和icmv波束形成器。在模拟中使用大小为12.7×10m、高度为3.6m的房间。混响时间设为0.6秒。房间脉冲响应(rirs)由所谓的镜像法生成(参见非专利文献13)。助听器佩戴者位于房间中央。每只助听器具有两个麦克风,麦克风之间有7.5mm的内距离。前麦克风被设为参考麦克风。通过利用模特所佩戴的助听器的头部相关的rtf的测量结果来将聆听者的头影效应也考虑在内。

将目标源和干扰源呈现为通过距离聆听者1米远的扬声器。所述目标为0度。在70度和150度处共有4个干扰(图1中的1号至4号)。背景嘈杂噪音(backgroundbabblenoise)通过位于不同位置的24个扬声器来模拟。所有的扬声器和助听器麦克风都位于高度为1.2m的同一水平面上。参考麦克风处的输入信号噪声比(snr)设为5db,而每个干扰处的信号干扰比(signal-to-interference,sir)设为10db。以16khz对信号进行采样。利用50%重叠的1024点fft来将信号转化到时频域。智能加权的sinr改善(intelligibility-weightedsinrimprovement,iw-sinri)和智能加权的谱失真(intelligibility-weightedspectraldistortion,iw-sd)被用作性能的度量标准。

有限的dof

在此模拟中,使用了所有的4个干扰并且比较了三种波束形成器的性能。包括目标在内,一共有5个源。然而,由于只有4个麦克风,这就导致无论lcmv波束形成器还是icmv波束形成器都无法处理全部的源。换句话说,除了保护目标,lcmv波束形成器和icmv波束形成器最多可抑制3个干扰,这就意味着有一个干扰不得不被忽略。本说明书中,“情景i”表示第i号干扰(图1)被忽略,参数设定列在表1中。在此模拟中,假定已知每个声音源的无回声的aft和doa。表2中比较了三种波束形成器的性能。在所有4个情景中,就iw-sinri度量标准而言,与lcmv波束形成器和icmv波束形成器相比,p-icmv波束形成器能够抑制更多的干扰和噪音。就iw-sd得分而言,三种波束形成器具有相似的语音失真度。

表1.lcmv、icmv以及p-icmv的参数设定

表2.iw-sinri和iw-sd[db]

还可以看出,在一个前干扰被忽略的情景1和情景4中,lcmv波束形成器/icmv波束形成器实现了合理的干扰抑制。然而,在一个后干扰被忽略的情景2和情景3中,lcmv波束形成器/icmv波束形成器的snri改善结果较差。这可通过各自的干扰抑制水平和波束图案的相应快照来解释。图2示出了在情景1和情景2中根据本申请实施例的波束形成器与现有波束形成器各自的干扰抑制水平。各自的干扰抑制水平被定义为20log10rin/rout,其中rin是参考麦克风处信号的均方根(rms),rout是波束形成器输出处信号的rms。情景3和情景4中也可发现类似的行为,此处不再提供其示图。可见,对于全部干扰,p-icmv波束形成器可实现约10db的干扰抑制,然而,对于lcmv波束形成器和icmv波束形成器来说,仅抑制了有约束的干扰。取决于不同情景,被忽略的干扰或被轻微抑制,或甚至增强。

图3和图4示出了情景1和情景2中三种波束形成器在1khz时的波束图案的一个快照。可以看出,p-icmv波束形成器在全部4个干扰处的空间响应具有低增益。对于lcmv波束形成器和icmv波束形成器,被忽略的干扰方向(70度)由于目标约束而有合理的增益控制,但在情景2中,被忽略的干扰方向(150度)依然很高(大于0db)。

对doa误差的鲁棒性

在此模拟中,在存在目标doa误差或干扰doa误差的情况下比较三种波束形成器。为了简化比较,仅在150度模拟一个干扰。为lcmv波束形成器指定了两个等式约束,其中一个等式约束针对目标。对于具有鲁棒性的icmv波束形成器和p-icmv波束形成器,它们两者具有三个针对目标的不等式约束。但是由于有限的dof,icmv波束形成器针对干扰抑制仅仅施加了一个不等式约束,而p-icmv波束形成器不受dof的限制。因此,针对干扰抑制的鲁棒性可通过施加三个不等式约束来实现。

在表3中比较了在doa误差变化的情况下三种波束形成器的性能。随着doa误差从0度增长到15度,lcmv波束形成器在干扰抑制和目标语音保护方面显著劣化。对于具有鲁棒性的icmv波束形成器和p-icmv波束形成器,即使doa误差增长,也能一直很好地保留目标语音。但是由于dof的限制,icmv波束形成器在干扰抑制方面仍然受到doa误差的影响。当doa误差从0度变为15度时,icmv波束形成器的iw-sinr性能降低了多于4db,而对于p-icmv波束形成器,仅降低了不到2db。

表3.iw-sinri和iw-sd[db]

本申请提出了一种利用凸优化工具的自适应双耳波束形成器。通过受惩罚的不等式约束,根据本申请实施例的波束形成器能够处理任意数量的干扰,为具有有限dof的阵列中的波束形成提供了一种解决方案。同时,针对助听器应用,在本申请中,推导出一种能够有效实施的低复杂度迭代算法。在数值模拟中,通过与现有的自适应波束形成器的比较,展现出了根据本申请实施例的波束形成器能够处理更多个源的能力和对doa误差所具有的鲁棒性。

已经以示意和说明为目的而呈现了本发明实施例的以上描述。其并非旨在穷举性的,也并非旨在将本发明限于所公开的精确形式或示例性实施例。因此,以上描述应当视为示意性的而非限制性的。显然,许多修改和变化对于本领域技术实践人员而言将是显而易见的。选择和描述这些实施例是为了解释本发明的原理及其最佳模式的实际应用,以使得本领域技术人员能够通过各种实施例以及适于特定应用或所构思的实施方式的各种修改例来理解本发明。除非另外指明,否则本发明的范围旨在由所附权利要求及其等价形式限定,在其中所有术语应当被理解为其最宽泛的合理含义。因此,术语“所述发明”、“本发明”等并不一定将权利要求的范围限定在特定的实施例,并且参照本发明示例性实施例并不意味着对本发明的限制,也不应推断出任何这样的限制。本发明仅由所附权利要求的精神和范围所限定。此外,这些权利要求可适于在名词或元件之前使用“第一”、“第二”等。这些术语应当理解为一种命名法,而不应被理解为对这些命名法所修饰的元件的数量进行限制,除非已经给出了具体的数量。所描述的任何优点和益处可不适用于本发明的所有实施例。应当理解的是,在不脱离由所附权利要求限定的本发明的范围的情况下,本领域技术人员可以对所描述的实施例进行各种变化。此外,本公开的任何元件和组件均不旨在贡献给公众,无论所述元件或组件是否在所附权利要求中明确记载。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1