用于通过声波三角测量进行空间性选择声音获取的装置及方法与流程

文档序号:11990917阅读:170来源:国知局
用于通过声波三角测量进行空间性选择声音获取的装置及方法与流程
本发明涉及音频处理,且尤其涉及用于从目标位置捕获音频信息的装置。此外,本申请涉及通过声波三角测量进行空间性选择声音获取。

背景技术:
空间声音获取的目的在于捕获整个声场或仅捕获对于手边应用有意义的声场的某些要求的分量,整个声场存在于记录室中。举例而言,在室内有若干人进行交谈的情况中,捕获整个声场(包括该整个声场的空间特性)或仅捕获某个谈话者生成的信号可为令人有兴趣的。后者能够隔离声音且对声音应用诸如放大、滤波等特定处理。存在有大量已知方法用于空间性选择捕获某些声音分量。这些方法经常使用具有高方向性的麦克风或麦克风数组。大多数方法的共同处在于麦克风或麦克风数组以固定已知的几何形状配置。麦克风之间的间隔尽可能小以用于一致麦克风技术,反的该间隔常规地为几厘米以用于其它方法。在下文中,我们将用于空间声音的定向性选择获取的任何装置(例如定向麦克风、麦克风数组等)称为波束形成器。按惯例,声音捕获中的定向(空间)选择性,亦即,空间性选择声音获取可以以若干方式达成:一个可能的方式为使用定向麦克风(例如心型指向性麦克风、超心型指向性麦克风或猎枪型指向性麦克风)。在该方式中,全部麦克风取决于相对于麦克风的到达方向(DOA)来不同地捕获声音。在一些麦克风中,此效应为次要的,因为这些麦克风几乎与方向无关地来捕获声音。将这些麦克风称为全向麦克风。通常在这些麦克风中,圆形膜片附接于小的气密外壳,参见,例如,[Ea01]EargleJ.“TheMicrophoneBook”Focalpress2001.若膜片没有附接于外壳且声音自每一侧面同等地到达外壳,则外壳的定向图样具有同等量值的两条方位线。麦克风自膜片的前面及背面捕获具有同等能级然而具有相反极性的声音。此麦克风不捕获来自与膜片的平面平行的方向中的声音。将此定向图样称为偶极或8字形。若全向麦克风的外壳为非气密而是制得特殊结构,该特殊结构允许声波经由外壳传播且到达膜片,则定向图样约介于全向图样与偶极图样之间(参见[Ea01])。图样可具有两条方位线;然而方位线可具有不同量值。图样亦可具有单条方位线;最重要实例为心型图样,该实例中定向函数D可表示为D=0.5(1+cos(θ)),其中,θ为声音的到达方向(参见[Ea01])。此函数相对于具有最高灵敏度的角度以角度θ量化捕获的平面波的声音能级的相对量值。将全向麦克风称为零阶麦克风,且将上文所提到诸如偶极图样及心型图样的其它图样称为一阶图样。由于这些麦克风的方向性图样几乎全部由这些麦克风的机械结构决定,故这些各种麦克风不允许任意的图样形状。还存在一些特殊声波结构,这些特殊声波结构可用来为麦克风建立比一阶图样狭窄的定向图样。举例而言,若内有孔洞的管道附接于全向麦克风,则可建立具有极狭窄的定向图样的麦克风。将这些麦克风称为猎枪型指向性麦克风或被叫步枪型指向性麦克风(参见[Ea01])。这些麦克风通常不具有平坦的频率响应且在记录之后不能控制这些麦克风的方向性。构造具有定向特性的麦克风的另一种方法为利用全向或定向麦克风的数组记录声音且随后应用信号处理,参见,例如,[BW01]M.Brandstein,D.Ward:“MicrophoneArrays–SignalProcessingTechniquesandApplications”,SpringerBerlin,2001,ISBN:978-3-540-41953-2。存在各种方法以用于此目的。在最简单形式中,当利用相互闭合且相互衰减的两个全向麦克风记录声音时,形成具有偶极特性的虚拟麦克风信号。参见,例如,[Elk00]G.W.Elko:“Superdirectionalmicrophonearrays”inS.G.Gay,J.Benesty(eds.):“AcousticSignalProcessingforTelecommunication”,Chapter10,KluwerAcademicPress,2000,ISBN:978-0792378143。麦克风信号亦可在相互合成之前进行延迟或滤波。在波束形成中,对应于狭窄波束的信号通过利用特殊设计的滤波器滤波每一麦克风信号然后汇总这些麦克风信号来形成。此“滤波且合成的波束形成”说明于:[BS01]:J.Bitzer,K.U.Simmer:“Superdirectivemicrophonearrays”inM.Brandstein,D.Ward(eds.):“MicrophoneArrays–SignalProcessingTechniquesandApplications”,Chapter2,SpringerBerlin,2001,ISBN:978-3-540-41953-2.这些技术不了解信号本身,例如,这些技术不知道声音的到达方向。作为替代,“到达方向”(DOA)的估计为信号自身的任务,参见,例如,[CBH06]J.Chen,J.Benesty,Y.Huang:“TimeDelayEstimationinRoomAcousticEnvironments:AnOverview”,EURASIPJournalonAppliedSignalProcessing,ArticleID26503,Volume2006(2006).大体上,利用这些技术可形成许多不同的定向特性。然而,需要大量麦克风以用于形成任意的空间性极选择灵敏度图样。通常,所有这些技术依靠邻接麦克风的距离,这些距离与所考虑的波长相比为小的。用于在声音捕获中实现定向选择性的另一方式为参数空间滤波。标准的波束形成器设计通常仅展示有限的空间选择性,这些标准的波束形成器设计例如可根据有限数量的麦克风且在这些标准的波束形成器设计的滤波且合成结构(参见[BS01])中拥有非时变滤波器。为增大空间选择性,近来已提出参数空间滤波技术,这些技术将(时变)频谱增益函数应用于输入信号频谱。根据参数设计增益函数,这些增益函数与空间声音的人类感知有关。一种空间滤波方法存在于:[DiFi2009]M.Kallinger,G.DelGaldo,F.Küch,D.Mahne,andR.Schultz-Amling,“SpatialFilteringusingDirectionalAudioCodingParameters,”inProc.IEEEInt.Conf.onAcoustics,Speech,andSignalProcessing(ICASSP),Apr.2009,且该空间滤波方法在定向音频编码(DirAC)的参数域中实施,该定向音频编码为有效的空间编码技术。定向音频编码描述于:[Pul06]Pulkki,V.,”Directionalaudiocodinginspatialsoundreproductionandstereoupmixing,”inProceedingsofTheAES28thInternationalConference,pp.251-258,Sweden,June30-July2,2006.在DirAC中,在一个位置上对声场进行分析,在该位置上对有效强度矢量以及声压进行量测。这些实体量用来捕获三个DirAC参数:声压、到达方向(DOA)及声音的扩散性。DirAC利用人类听觉系统每时间及频率瓦区仅可处理一个方向的假定。此假定亦由类似的动态影像专家群围绕(MPEGSurround)的其它空间音频编码技术使用,参见,例如:[Vil06]L.Villemoes,J.Herre,J.Breebaart,G.Hotho,S.Disch,H.Purnhagen,andK.“MPEGSurround:TheForthcomingISOStandardforSpatialAudioCoding,”inAES28thInternationalConference,Pitea,Sweden,June2006.如[DiFi2009]所述的空间滤波方法考虑到空间选择性的几乎自由选择。又一技术利用可比较的空间参数。此技术在以下文献中说明:[Fal08]C.Faller:“ObtainingaHighlyDirectiveCenterChannelfromCoincidentStereoMicrophoneSignals”,Proc.124thAESconvention,Amsterdam,TheNetherlands,2008,Preprint7380.与[DiFi2009]中所述的技术相反,[DiFi2009]中将频谱增益函数应用至全向麦克风信号,[Fal08]中的方法利用两个心型指向性麦克风。两个提到的参数空间滤波技术依靠麦克风间隔,这些麦克风间隔与所考虑的波长相比为小的。理论上,[DiFi2009]及[Fal08]中所述的技术系根据一致定向麦克风。实现声音捕获中的方向选择性的另一方式为滤波根据麦克风信号之间的相干性的麦克风信号。在[SBM01]K.U.Simmer,J.Bitzer,andC.Marro:“Post-FilteringTechniques”inM.Brandstein,D.Ward(eds.):“MicrophoneArrays–SignalProcessingTechniquesandApplications”,Chapter3,SpringerBerlin,2001,ISBN:978-3-540-41953-2,描述了系统族,该系统族使用至少两个(未必定向)麦克风且这些麦克风的输出信号的处理系根据信号的相干性。基础假定为扩散性背景噪声将在两个麦克风信号中作为不相干部分出现,反之,源信号将在这些信号中相干地出现。根据此假定,将捕获相干部分作为源信号。由于利用有限数量的麦克风滤波且合成波束形成器几乎不能够减少扩散性噪声信号,故[SBM01]中提到的技术得以发展。不进行关于麦克风的位置的假定;甚至也不需要已知麦克风的间隔。用于空间性选择声音获取的常规方法的主要限制为记录的声音始终与波束形成器的位置有关。然而,在许多应用中,在所要位置例如以相对于所考虑的声音源的所要角度置放波束形成器系不可能的(或可行的)。常规波束形成器可例如使用麦克风数组且可形成定向图样(“波束”)以自一个方向捕获声音且拒绝其它方向的声音。因此,考虑声音捕获离捕获麦克风数组的距离,不存在限制声音捕获的区域的可能性。具有捕获设备将为极其合乎需要,该捕获设备可有选择地捕获不仅源自一个方向的声音,而是直接受限制于源自一个位置(点)的声音,类似于将在所要位置闭合点麦克风执行的方式。

技术实现要素:
本发明的目标为提供用于从目标位置捕获音频信息的改良的概念。本发明的目标由本文所提出的用于捕获音频信息的装置、本文所提出的用于捕获音频信息的方法及本文所提出的计算机程序来解决。本文提供一种用于从目标位置捕获音频信息的装置。该装置包含配置在记录环境中且具有第一记录特性的第一波束形成器,配置在记录环境中且具有第二记录特性的第二波束形成器及信号生成器。第一波束形成器及第二波束形成器被配置为用于在相对于第一记录特性及第二记录特性朝向目标位置被引导时,第一波束形成器用于记录第一波束形成器音频信号且第二波束形成器用于记录第二波束形成器音频信号。第一波束形成器及第二波束形成器被配置为使得第一虚拟直线及第二虚拟直线相对于彼此不平行,第一虚拟直线被定义为通过第一波束形成器及目标位置,第二虚拟直线被定义为通过第二波束形成器及目标位置。信号生成器被配置为根据第一波束形成器音频信号和第二波束形成器音频信号生成音频输出信号,以便与第一波束形成器音频信号及第二波束形成器音频信号中来自目标位置中的音频信息相比,该音频输出信号反映出相对更多来自目标位置的音频信息。较佳地,相对于三维环境,第一虚拟直线及第二虚拟直线相交且定义可任意定置的平面。通过此,本文提供以空间性选择的方式捕获声音的方法,亦即,拾取源自特定目标位置的声音,犹如闭合“点麦克风”已安装在此位置。然而,代替真实地安装此点麦克风,点麦克风的输出信号可通过使用置放在不同距离位置处的两个波束形成器进行模拟。该两个波束形成器没有相互接近地进行定置,而是经定置以使得这些波束形成器中的每一者执行独立的定向声音获取。这些波束形成器的“波束”在所要点上重迭且随后这些波束形成器的个别输出进行组合以形成最后的输出信号。与其它可能的方法相反,两个个别输出的组合不需要关于两个波束形成器在共享坐标系统中的位置的任何信息或知识。因此,用于虚拟点麦克风获取的整个设置包含独立操作的两个波束形成器,加上信号处理器,该信号处理器组合两个个别输出信号成为远程“点麦克风”的信号。在一实施例中,该装置包含例如两个空间麦克风的第一波束形成器及第二波束形成器及例如组合单元例如处理器的信号生成器,以用于实现“声波相交”。每一空间麦克风具有明确的方向选择性,亦即,与源自该麦克风的波束的内部位置的声音相比,该麦克风衰减源自该麦克风的波束的外部位置的声音。空间麦克风相互独立地操作。本质上亦灵活地选择两个空间麦克风的位置,以使得目标空间位置位于两个波束处于几何相交状态。在较佳实施例中,两个空间麦克风相对于目标位置形成约90度的角度。例如处理器的组合单元可能不知道两个空间麦克风的几何位置或目标源的位置。根据一实施例,第一波束形成器及第二波束形成器相对于目标位置进行配置,以使得第一虚拟直线及第二虚拟直线相互交叉,且以使得第一虚拟直线及第二虚拟直线以介于30度与150度之间的相交角度相交在目标位置中。在又一实施例中,相交角度系介于60度与120度之间。在较佳实施例中,相交角度约为90度。在一实施例中,信号生成器包含具有多个滤波器系数的自适应滤波器。该自适应滤波器被配置为接收第一波束形成器音频信号。该滤波器适于取决于滤波器系数修改第一波束形成器音频信号以获得过滤的第一波束形成器音频信号。信号生成器被配置为取决于第二波束形成器音频信号调整滤波器的滤波器系数。信号生成器可被配置为调整滤波器系数,以最小化在过滤的第一波束形成器音频信号与第二波束形成器第二音频信号之间的差别。在一实施例中,信号生成器包含用于在频域中根据第一波束形成器音频信号及第二波束形成器音频信号生成音频输出信号的相交计算器。根据实施例,信号生成器可进一步包含用于将第一波束形成器音频信号及第二波束形成器音频信号从时域变换至频域的分析滤波器组,及用于将音频输出信号从频域变换至时域的合成滤波器组。相交计算器可被配置为在频域中根据频域表示的第一波束形成器音频信号及频域表示的第二波束形成器音频信号来计算音频输出信号。在又一实施例中,相交计算器被配置为在频域中根据第一波束形成器音频信号及第二波束形成器音频信号的交叉频谱密度且根据第一波束形成器音频信号或第二波束形成器音频信号的功率频谱密度来计算音频输出信号。根据一实施例,相交计算器被配置为在频域中通过使用以下公式来计算音频输出信号:Y1(k,n)=S1(k,n)·G1(k,n),其中其中,Y1(k,n)为频域中的音频输出信号,其中,S1(k,n)为第一波束形成器音频信号,其中,C12(k,n)为第一波束形成器音频信号及第二波束形成器音频信号的交叉频谱密度,且其中,P1(k,n)为第一波束形成器音频信号的功率频谱密度,或通过使用以下公式:Y2(k,n)=S2(k,n)·G2(k,n),其中其中,Y2(k,n)为频域中的音频输出信号,其中,S2(k,n)为第二波束形成器音频信号,其中C12(k,n)为第一波束形成器音频信号及第二波束形成器音频信号的交叉频谱密度,且其中,P2(k,n)为第二波束形成器音频信号的功率频谱密度。在另一实施例中,相交计算器适于计算Y1(k,n)及Y2(k,n)两个信号且以选择两个信号的较小者作为音频输出信号。在另一实施例中,相交计算器被配置为通过使用以下公式来计算频域中的音频输出信号:Y3(k,n)=S1·G34(k,n),其中其中,Y3(k,n)为频域中的音频输出信号,其中S1为第一波束形成器音频信号,其中,C12(k,n)为第一波束形成器音频信号的交叉频谱密度,其中,P1(k,n)为第一波束形成器音频信号的功率频谱密度,且其中,P2(k,n)为第二波束形成器音频信号的功率频谱密度,或通过使用以下公式:Y4(k,n)=S2·G34(k,n),其中其中,Y4(k,n)为频域中的音频输出信号,其中,S2为第二波束形成器音频信号,其中C12(k,n)为第一波束形成器音频信号及第二波束形成器音频信号的交叉频谱密度,其中,P1(k,n)为第一波束形成器音频信号的功率频谱密度,且其中,P2(k,n)为第二波束形成器音频信号的功率频谱密度。在另一实施例中,相交计算器可适于计算Y3(k,n)及Y4(k,n)两个信号且以选择两个信号的较小者作为音频输出信号。根据另一实施例,信号生成器可适于通过组合第一波束形成器音频信号及第二波束形成器音频信号以获得组合信号且通过以增益因子加权组合信号来生成音频输出信号。组合信号可例如在时域、子频带域或快速傅立叶变换域中进行加权。在又一实施例中,信号生成器系适于通过生成组合信号来生成音频输出信号,以使得对于每一考虑的时间频率瓦区,组合信号的功率频谱密度值等同于第一波束形成器音频信号及第二波束形成器音频信号的功率频谱密度值的最小者。附图说明图1示出了根据实施例用于自目标位置捕获音频信息的装置,图2示出了根据实施例使用两个波束形成器的装置及用于计算输出信号的层,图3a示出波束形成器及朝向目标位置被引导的波束形成器的波束,图3b示出了波束形成器及示出进一步细节的波束形成器的波束,图4a示出了根据实施例两个波束形成器相对于目标位置的几何设置,图4b描述图4a的两个波束形成器的几何设置及三个声音源,以及图4c示出了以更详细的图例描述的图4b的两个波束形成器的几何设置及三个声音源,图5描述根据实施例的信号生成器,图6示出了根据另一实施例的信号生成器,以及图7示出了根据实施例的根据交叉频谱密度及功率频谱密度的生成音频输出信号的流程图。具体实施方式图1图标用于自目标位置捕获音频信息的装置。装置包含配置在记录环境中且具有第一记录特性的第一波束形成器110。此外,装置包含配置在记录环境中且具有第二记录特性的第二波束形成器120。而且,装置包含信号生成器130。第一波束形成器110被配置为用于在相对于第一记录特性经引导朝向目标位置时,记录第一波束形成器音频信号s1。第二波束形成器120被配置为用于在相对于第二记录特性经引导朝向目标位置时,记录第二波束形成器音频信号s2。第一波束形成器110及第二波束形成器120经配置,以使得定义为通过第一波束形成器110及目标位置的第一虚拟直线与定义为通过第二波束形成器120及目标位置的第二虚拟直线相对于彼此不平行。信号生成器130被配置为根据第一波束形成器音频信号s1及第二波束形成器音频信号s2生成音频输出信号s,以便与第一波束形成器音频信号s1及第二波束形成器音频信号s2中来自目标位置的音频信息相比,音频输出信号s反映出相对更多来自目标位置的音频信息。图2示出了根据实施例使用两个波束形成器的装置及用于计算输出信号的层,该输出信号作为两个波束形成器个别输出信号的共享部分。本文分别描述用于记录第一波束形成器音频信号及第二波束形成器音频信号的第一波束形成器210及第二波束形成器220。信号生成器230实现共享信号部分(「声波相交」)的计算。图3a示出波束形成器310。图3a的实施例的波束形成器310为用于空间声音的定向性选择获取的装置。举例而言,波束形成器310可为定向麦克风或麦克风数组。在另一实施例中,波束形成器可包含多个定向麦克风。图3a示出围绕波束315的曲线316。定义波束315的曲线316上的所有点的特性在于源自曲线上一点的预定义声压等级生成曲线上所有点的麦克风的相同信号等级输出。此外,图3a图示波束形成器的主轴320。定义波束形成器310的主轴320,使得具有源自主轴320上所考虑点的预定义声压等级的声音生成波束形成器中第一信号等级输出,该第一信号等级输出大于或等于波束形成器的第二信号等级输出,该第二信号等级输出源于具有源自任何与波束形成器的距离等于所考虑点与波束形成器的距离的其它点的预定义声压等级的声音。图3b更详细地图示此状况。点325、点326及点327离波束形成器310具有同等距离d。具有源自主轴320上的点325的预定义声压等级的声音生成波束形成器中第一信号等级输出,该第一信号等级输出大于或等于波束形成器的第二信号等级输出,该第二信号等级输出源于具有源自例如点326或点327的预定义声压等级的声音,点326或点327离波束形成器310的距离与主轴上的点325离波束形成器310为相同的距离d。在三维情况中,此意谓,主轴指明在波束形成器位于球的中心的情况下的虚拟球上的点,当预定义声压等级源自与虚拟球上任何其它点相比较的点时,该点在波束形成器中生成最大信号等级输出。回到图3a,亦描述目标位置330。目标位置330可为生成使用者意欲使用波束形成器310来记录的声音的位置。对此,可将波束形成器引导至目标位置以记录所要声音。在此背景中,当波束形成器310的主轴320通过目标位置330时,将波束形成器310视为经引导至目标位置330。有时,目标位置330可为目标区域,同时在其它实例中,目标位置可为点。若目标位置330为点,则当点位于主轴320上时,将主轴320视为通过目标位置330。在图3中,波束形成器310的主轴320通过目标位置330,且因此将波束形成器310引导至目标位置。波束形成器310具有记录特性,该记录特性指明波束形成器取决于声音源自的方向来记录声音的能力。波束形成器310的记录特性包含空间中主轴320的方向、波束315的方向、形式及性质等。图4a示出两个波束形成器:第一波束形成器410及第二波束形成器420,相对于目标位置430的几何设置。图示了第一波束形成器410的第一波束415及第二波束形成器420的第二波束425。此外,图4a描绘第一波束形成器410的第一主轴418及第二波束形成器420的第二主轴428。第一波束形成器410经配置,以使得第一波束形成器410被引导至目标位置430,此时第一主轴418通过目标位置430。此外,第二波束形成器420亦经引导至目标位置430,此时第二主轴428通过目标位置430。第一波束形成器410的第一波束415及第二波束形成器420的第二波束425在目标位置430中相交,输出声音的目标源定置于目标位置430。第一波束形成器410的第一主轴418及第二波束形成器420的第二主轴428的相交角度表示为α。最佳地,相交角度α为90度。在其它实施例中,相交角度介于30度与150度之间。较佳地,在三维环境中,第一主轴及第二虚拟主轴相交且定义可任意定置的平面。图4b描述图4a的两个波束形成器的几何设置,进一步图示了三个声音源src1、src2、src3。波束形成器410的波束415及波束形成器420的波束425在目标位置,亦即,目标源src3的位置处相交。然而,源src1及源src2仅定置于两个波束415、425的一者上。应注意,第一波束形成器410及第二波束形成器420两者适于定向性选择声音获取,且这些波束形成器的波束415、425指明由这些波束形成器分别获取的声音。因此,第一波束形成器的第一波束425指明第一波束形成器410的第一记录特性。第二波束形成器420的第二波束425指明第二波束形成器420的第二记录特性。在图4b的实施例中,源src1及源src2表示干扰所要源src3的信号的非所要源。尽管如此,亦可将源src1及源src2视为由两个波束形成器拾取的独立环音声分量。理论上,根据实施例的装置的输出将仅返回src3,同时全面抑制非所要源src1及源src2。根据图4b的实施例,使用用于定向性选择声音获取的两个或更多设备例如定向麦克风、麦克风数组及相应的波束形成器来达成「远程点麦克风」功能。适当的波束形成器例如可为麦克风数组或诸如猎枪型指向性麦克风的高定向麦克风,且可使用例如麦克风数组或高定向麦克风的输出信号作为波束形成器音频信号。“远程点麦克风”功能仅用来拾取源自点周围的受限区域中的声音。图4c更详细地图示此状况。根据实施例,第一波束形成器410从第一方向中捕获声音。定置于离第一波束形成器410相当远距离处的第二波束形成器420从第二方向中捕获声音。第一波束形成器410及第二波束形成器420被配置为使得这些波束形成器经导向至目标位置430。在较佳实施例中,波束形成器410、420例如两个麦克风数组相互远离且以不同方向面向目标点。此不同于常规的麦克风数组处理,在常规麦克风数组处理中仅使用单个数组且以相互闭合接近的方式置放单个数组的不同传感器。第一波束形成器410的第一主轴418及第二波束形成器420的第二主轴428形成两条直线,该两条直线系非平行配置,而替代地,该两条直线以相交角度α相交。当相交角度为90度时,第二波束形成器420将相对于第一波束形成器进行最佳定置。在实施例中,相交角度为至少60度。用于声音捕获的目标点或目标区域为两个波束415、425的相交处。自此区域中的信号通过处理两个波束形成器410、420的输出信号导出,以计算“声波相交”。此相交可被视为在两个个别波束形成器输出信号之间共享/相干的信号部分。此概念使用波束形成器的个别方向性及在波束形成器输出信号之间的相干性两者。此不同于常见的麦克风数组处理,在常见麦克风数组处理中仅使用单个数组且以相互闭合接近的方式置放单个数组的不同传感器。通过此,自特定目标位置捕获/获取发射的声音。此方法与使用分布式的麦克风以估计声音源的位置的方法相反,但是通过考虑根据实施例而提出的远距离麦克风数组的输出,该方法目的不在于增强记录被定置的声音源。除使用高定向麦克风以外,这些根据实施例的概念可利用经典波束形成器及参数空间滤波器两者来实施。若波束形成器引入随频率而变的振幅失真及相位失真,则这些失真对于“声波相交”的计算应为已知且应被纳入考虑。在实施例中,例如信号生成器的设备计算“声波相交”分量。若信号存在于两个波束形成器音频信号(例如由第一波束形成器及第二波束形成器记录的音频信号)中,则用于计算相交的理想设备将传送全输出,且若信号仅存在于两个波束形成器音频信号的一者中或在两个波束形成器音频信号中均不存在,则用于计算相交的理想设备将传送零输出。例如可通过决定仅存在于一个波束形成器音频信号中的信号的转送增益及通过将该转送增益设定为与存在于两个波束形成器音频信号中的信号的转送增益有关系来达成亦确保设备的良好效能的良好抑制特性。两个波束形成器音频信号s1及s2可被视为经滤波、经延迟及/或经定标的共享目标信号s及个别噪声/干扰信号n1及n2的重迭,以使得:s1=f1(s)+n1及s2=f2(s)+n2其中f1(x)及f2(x)为用于两个信号的个别滤波、延迟及/或定标函数。因此,任务为自s1=f1(s)+n1及s2=f2(s)+n2中估计s。为避免不确定性,f2(x)可设定为恒等而不失通用性。可以不同方式实施“相交分量”。根据实施例,使用滤波器例如经典可适性最小均方(LMS)滤波器计算在两个信号之间的共享部分,此时这些信号共同用于回声消除。图5示出根据实施例的信号生成器,其中,使用自适应滤波器510根据信号s1及信号s2计算共享信号s。图5的信号生成器接收第一波束形成器音频信号s1及第二波束形成器音频信号s2且根据第一波束形成器音频信号s1及第二波束形成器音频信号s2生成音频输出信号。图5的信号生成器包含自适应滤波器510。通过自适应滤波器510实现经典最小均方误差调适/优化处理方案,如由回声消除所知。自适应滤波器510接收第一波束形成器音频信号s1且滤波第一波束形成器音频信号s1以生成过滤的第一波束形成器音频信号s作为音频输出信号。(s的另一适当的注释应为,然而,为较好的可读性,在下文中将时域音频输出信号称为“s”)根据自适应滤波器510的可调滤波器系数来传导第一波束形成器音频信号s1的滤波。图5的信号生成器输出过滤的第一波束形成器音频信号s。此外,亦将滤波的波束形成器音频输出信号s馈送进入差别计算器520内。差别计算器520也接收第二波束形成器音频信号且计算在过滤的第一波束形成器音频信号s与第二波束形成器音频信号s2之间的差别。信号生成器系适于调整自适应滤波器510的滤波器系数,以最小化在s1的过滤版本(=s)与s2之间的差别。因此,信号s,亦即,s1的过滤版本,可被视为表示所要相干输出信号。因此,信号s,亦即,s1的过滤版本表示所要相干输出信号。在另一实施例中,根据在两个信号之间的相干性度量捕获在两个信号之间的共享部分,参见例如如下描述的相干性度量:[Fa03]C.FallerandF.Baumgarte,“BinauralCueCoding-PartII:Schemesandapplications,”IEEETrans.onSpeechandAudioProc.,vol.11,no.6,Nov.2003.亦参见在[Fa06]及[Her08]中描述的相干性度量。可自时域表示的信号中捕获两个信号的相干部分,但是亦可且较佳地自频域例如时/频域表示的信号中捕获两个信号的相干部分。图6示出根据实施例的信号生成器。信号生成器包含分析滤波器组610。分析滤波器组610接收第一波束形成器音频信号s1(t)及第二波束形成器音频信号s2(t)。第一波束形成器音频信号s1(t)及第二波束形成器音频信号s2(t)以时域表示;t指定各个波束形成器音频信号的时间取样号。分析滤波器组610系适于将第一波束形成器音频信号s1(t)及第二波束形成器音频信号s2(t)自时域变换至频域,例如时-频域,以获得第一S1(k,n)频域波束形成器音频信号及第二S2(k,n)频域波束形成器音频信号。在S1(k,n)及S2(k,n)中,k指定各个波束形成器音频信号的频率索引且n指定各个波束形成器音频信号的时间索引。分析滤波器组可为诸如短时间傅立叶变换(STFT)分析滤波器组、多相滤波器组、正交镜像滤波器(QMF)滤波器组的任何类型的分析滤波器组,但是亦可为类似离散傅立叶变换(DFT)分析滤波器组、离散余弦变换(DCT)分析滤波器组及修改型离散余弦变换(MDCT)分析滤波器组的滤波器组。通过获得频域第一波束形成器音频信号S1及第二波束形成器音频信号S2,可针对每一时间讯框及若干频带中的每一者对波束形成器音频信号S1及S2的特性进行分析。此外,信号生成器包含用于在频域内生成音频输出信号的相交计算器620。此外,信号生成器包含用于将生成的音频输出信号自频域变换至时域的合成滤波器组630。合成滤波器组630可包含例如短时间傅立叶变换(STFT)合成滤波器组、多相合成滤波器组、正交镜像滤波器(QMF)合成滤波器组,但是亦可包含类似离散傅立叶变换(DFT)合成滤波器组、离散余弦变换(DCT)合成滤波器组及修改型离散余弦变换(MDCT)合成滤波器组的合成滤波器组。在下文中将说明计算音频输出信号的可能方式,例如通过捕获相干性。图6的相交计算器620可适于根据这些方式的一或更多者来计算频域内的音频输出信号。所捕获的相干性为共享相干内容的量测,同时补偿定标及相移操作。参见,例如:[Fa06]C.Faller,“ParametricMultichannelAudioCoding:SynthesisofCoherenceCues,”IEEETrans.onSpeechandAudioProc.,vol.14,no.1,Jan2006;[Her08]J.Herre,K.J.Breebaart,C.Faller,S.Disch,H.Purnhagen,J.Koppens,J.Hilpert,J.W.Oomen,K.Linzmeier,K.S.Chong:「MPEGSurround–TheISO/MPEGStandardforEfficientandCompatibleMultichannelAudioCoding」,JournaloftheAES,Vol.56,No.11,November2008,pp.932-955生成第一波束形成器音频信号及第二波束形成器音频信号的相干信号部分的估计的一个可能性为将交叉因子应用于两个信号中的一者。交叉因子可为时间平均的。此时,假定在第一波束形成器音频信号与第二波束形成器音频信号之间的相对延迟被限制,以使得该相对延迟实质上小于滤波器组窗口尺寸。在下文中,将详细地说明通过捕获共享信号部分及通过使用根据相干性量测的明确计算的基于相关的方法来在频域内计算音频输出信号的实施例。信号S1(k,n)及信号S2(k,n)代表波束形成器音频信号的频域表示,其中k为频率索引且n为时间索引。对于由特定频率索引k及特定时间索引n指定的每一特定时间频率瓦区(k,n),存在用于信号S1(k,n)及信号S2(k,n)中的每一者的系数。自两个频域波束形成器音频信号S1(k,n)、S2(k,n)计算相交分量能量。此相交分量能量可通过例如决定S1(k,n)及S2(k,n)的交叉频谱密度(CSD)C12(k,n)的量值来计算:C12(k,n)=|E{S1(k,n)·S*2(k,n)}|此处,上标*代表复数的共轭且E{}表示数学期望值。实际上,取决于所使用滤波器组的时/频分辨率,期望算子由例如S1(k,n)·S*2(k,n)所述的时序平滑或频率平滑来替换。第一波束形成器音频信号S1(k,n)的功率频谱密度(PSD)P1(k,n)及第二波束形成器音频信号S2(k,n)的功率频谱密度P2(k,n)可根据以下公式计算得到:P1(k,n)=E{|S1(k,n)|2}P2(k,n)=E{|S2(k,n)|2}。在下文中,提供用于根据两个波束形成器音频信号计算声波相交Y(k,n)的实际实施的实施例。获得输出信号的第一方式为根据修改型第一波束形成器音频信号S1(k,n):(1)Y1(k,n)=S1(k,n)·G1(k,n),其中同样,替代性输出信号可来源于第二波束形成器音频信号S2(k,n):(2)Y2(k,n)=S2(k,n)·G2(k,n),其中限制增益函数G1(k,n)及G2(k,n)的最大值至例如1的某个临界值可有利于用来决定输出信号。图7示出根据实施例的根据交叉频谱密度及功率频谱密度的生成音频输出信号的流程图。在步骤710中,计算第一波束形成器音频信号及第二波束形成器音频信号的交叉频谱密度C12(k,n)。举例而言,可应用上述公式C12(k,n)=|E{S1(k,n)·S*2(k,n)}|。在步骤720中,计算第一波束形成器音频信号的功率频谱密度P1(k,n)。或者,亦可使用第二波束形成器音频信号的功率频谱密度。随后,在步骤730中,根据在步骤710中计算的交叉频谱密度及在步骤720中计算的功率频谱密度来计算增益函数G1(k,n)。最后,在步骤740中,修改第一波束形成器音频信号S1(k,n)以获得所要音频输出信号Y1(k,n)。若在步骤720中已计算第二波束形成器音频信号的功率频谱密度,则可修改第二波束形成器音频信号S2(k,n)以获得所要音频输出信号。由于两个实施在分母中都具有单个能量项,该分母取决于有效声音源相对于两个波束的位置可变小,故较佳使用增益,该增益表示在对应于声波相交的声音能量与由波束形成器拾取的全部或平均声音能量之间的比率。输出信号可通过应用以下公式来获得:(3)Y3(k,n)=S1·G34(k,n),其中或通过应用以下公式:(4)Y4(k,n)=S2·G34(k,n),其中在上述两个实例中,若波束形成器音频信号中记录的声音不包含声波相交的信号分量,则增益函数将取较小值。反的,若波束形成器音频信号对应于所要声波相交,则获得接近于1的增益值。此外,为确保仅分量出现在对应于声波相交(不管使用的波束形成器的限制的方向性)的音频输出信号中,分别地计算最终输出信号作为Y1及Y2(或Y3及Y4)的较小信号(通过能量)可为可行的。在实施例中,两个信号Y1、Y2中的信号Y1或信号Y2被视为具有较小平均能量的较小信号。在另一实施例中,信号Y3或信号Y4被视为Y3、Y4两个信号中的具有较小平均能量的较小信号。同样,存在与相对于前述实施例进行不同描述的计算音频输出信号的其它方式,这些其它方式利用第一波束形成器音频信号S1及第二波束形成器音频信号S2两者(与仅使用这些波束形成器音频信号的功率相反),通过将这些波束形成器音频信号组合为单个信号,随后使用所描述的增益函数中的一者对该单个信号进行加权。举例而言,可将第一波束形成器音频信号S1及第二波束形成器音频信号S2合成,且随后可使用上述增益函数中的一者对结果得到的合成信号进行加权。频域音频输出信号S可通过使用合成(反向)滤波器组自时/频表示转换回时间信号。在另一实施例中,在两个信号之间的共享部分通过处理组合信号(例如合成信号)的量值频谱来捕获,例如以使得该共享部分具有两个(正规化)波束形成器信号的相交(例如最小)功率频谱密度(PSD)。输入信号可如前面所述以时/频选择性形式进行分析,且理想化地假定两个噪声信号为稀疏且不相交,亦即,不以相同时/频瓦区出现。在此情况中,简单解决方案将为限制信号中的一者的功率频谱密度(PSD)值至在某些适当反正规化/对准程序之后的另一信号的值。可假定限制在两个信号之间的相对延迟,以使得该相对延迟实质上小于滤波器组窗口尺寸。虽然在装置的上下文中已描述了一些方面,但是很明显这些方面亦表示对应方法的描述,其中方块或设备对应于方法步骤或方法步骤的特征结构。类似地,在方法步骤的上下文中描述的方面亦表示对应方块或项目或对应装置的特征结构的描述。根据上述实施例生成的信号可储存于数字储存媒介上或可传送于诸如无线传输媒介的传输媒介上或诸如因特网的有线传输媒介上。本发明的实施例可取决于某些实施要求在硬件或软件中实施。可使用数字储存媒介来执行实施,数字储存媒介例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,数字储存媒介上储存有电子可读取控制信号,这些电子可读取控制信号与可程序计算机系统合作(或能够协作),以执行各个方法。根据本发明的一些实施例包含具有电子可读取控制信号的非瞬态数据载体,这些电子可读取控制信号能够与可程序计算机系统合作,以执行本文所述方法中的一者。大体而言,本发明的实施例可作为具有程序代码的计算机程序产品来实施,当计算机程序产品执行于计算机上时,该程序代码可操作以执行方法中的一者。程序代码可例如储存于机器可读载体上。其它实施例包含用于执行本文所述方法中的一者且储存于机器可读取载体上的计算机程序。换言之,本发明方法的实施例因此为具有程序代码的计算机程序,当计算机程序执行于计算机上时,计算机程序用于执行本文所述的方法中的一者。因此,本发明方法的又一实施例为包含用于执行本文所述方法中的一者的计算机程序,且记录有计算机程序的数据载体(或数字储存媒介,或计算机可读媒介)。因此,本发明方法的又一实施例为表示用于执行本文所述方法中的一者的计算机程序的数据串流或信号序列。数据串流或信号序列可例如经配置为经由数据通信连接,例如经由因特网来进行转送。又一实施例包含经配置或经调适以执行本文所述方法中的一者的处理构件,例如计算机或可编程逻辑器件。又一实施例包含安装有用于执行本文所述方法中的一者的计算机程序的计算机。在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可用来执行本文所述方法的功能性中的一些或全部。在一些实施例中,现场可程序化门阵列可与微处理器合作以执行本文所述方法中的一者。大体而言,方法较佳地由任何硬件装置执行。上述实施例仅为说明本发明的原理。应理解,配置的修改及变化及本文所述的细节对于本领域技术人员将是显而易见的。因此,本发明仅由所附权利要求的范围限制,且非由以描述及阐释本文实施例的方式提供的特定细节来限制。参考资料[BS01]J.Bitzer,K.U.Simmer:「Superdirectivemicrophonearrays」inM.Brandstein,D.Ward(eds.):「MicrophoneArrays–SignalProcessingTechniquesandApplications」,Chapter2,SpringerBerlin,2001,ISBN:978-3-540-41953-2[BW01]M.Brandstein,D.Ward:「MicrophoneArrays–SignalProcessingTechniquesandApplications」,SpringerBerlin,2001,ISBN:978-3-540-41953-2[CBH06]J.Chen,J.Benesty,Y.Huang:「TimeDelayEstimationinRoomAcousticEnvironments:AnOverview」,EURASIPJournalonAppliedSignalProcessing,ArticleID26503,Volume2006(2006)[Pul06]Pulkki,V.,”Directionalaudiocodinginspatialsoundreproductionandstereoupmixing,”inProceedingsofTheAES28thInternationalConference,pp.251-258,Sweden,June30-July2,2006.[DiFi2009]M.Kallinger,G.DelGaldo,F.Küch,D.Mahne,andR.Schultz-Amling,「SpatialFilteringusingDirectionalAudioCodingParameters,」inProc.IEEEInt.Conf.onAcoustics,Speech,andSignalProcessing(ICASSP),Apr.2009.[Ea01]EargleJ.「TheMicrophoneBook」Focalpress2001.[Elk00]G.W.Elko:「Superdirectionalmicrophonearrays」inS.G.Gay,J.Benesty(eds.):「AcousticSignalProcessingforTelecommunication」,Chapter10,KluwerAcademicPress,2000,ISBN:978-0792378143[Fa03]C.FallerandF.Baumgarte,「BinauralCueCoding-PartII:Schemesandapplications,」IEEETrans.onSpeechandAudioProc.,vol.11,no.6,Nov.2003[Fa06]C.Faller,「ParametricMultichannelAudioCoding:SynthesisofCoherenceCues,」IEEETrans.onSpeechandAudioProc.,vol.14,no.1,Jan2006[Fal08]C.Faller:「ObtainingaHighlyDirectiveCenterChannelfromCoincidentStereoMicrophoneSignals」,Proc.124thAESconvention,Amsterdam,TheNetherlands,2008,Preprint7380.[Her08]J.Herre,K.J.Breebaart,C.Faller,S.Disch,H.Purnhagen,J.Koppens,J.Hilpert,J.W.Oomen,K.Linzmeier,K.S.Chong:「MPEGSurround–TheISO/MPEGStandardforEfficientandCompatibleMultichannelAudioCoding」,JournaloftheAES,Vol.56,No.11,November2008,pp.932-955[SBM01]K.U.Simmer,J.Bitzer,andC.Marro:「Post-FilteringTechniques」inM.Brandstein,D.Ward(eds.):「MicrophoneArrays–SignalProcessingTechniquesandApplications」,Chapter3,SpringerBerlin,2001,ISBN:978-3-540-41953-2[Veen88]B.D.V.VeenandK.M.Buckley.「Beamforming:Aversatileapproachtospatialfiltering」.IEEEASSPMagazine,pages4–24,Apr.1988.[Vil06]L.Villemoes,J.Herre,J.Breebaart,G.Hotho,S.Disch,H.Purnhagen,andK.「MPEGSurround:TheForthcomingISOStandardforSpatialAudioCoding,」inAES28thInternationalConference,Pitea,Sweden,June2006.
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1