定向音频捕获的制作方法

文档序号：7639926阅读：148来源：国知局

专利名称：定向音频捕获的制作方法
技术领域：
本发明涉及定向音频捕获，并且更具体而言涉及一种用于在视频产品中产生选择性音频的方法和系统，从而使得能够利用受控操纵和缩放功能进行广播。该系统对于有必要在其中进行空间滤波的噪声条件下捕获声音很有用，例如，在体育赛事下捕获来自运动员、裁判和教练的声音来进行广播制作。该系统包括一个或多个麦克风阵列、一个或多个采样单元、存储装置以及一个具有用于接收位置数据的输入装置的控制和信号处理单元。
背景技术：
麦克风阵列是多信道声捕获装备，包括位于不同空间位置的两个或多个声压传感器，以便对来自一个或几个源的声压进行空间采样。可以使用信号处理技术来控制(或更具体而言用于操纵)麦克风阵列朝向任何目标源。要使用的技术可以是信号延迟、滤波、加权以及增加来自麦克风元件的信号，以获得期望的空间选择性。这被称为波束形成。可控的麦克风阵列中的麦克风应在幅度和相位上很好地匹配。如果不匹配，则必须知道差别，以便以软件和/或硬件执行错误纠正。在相关信号处理领域中公知阵列操纵的原理。麦克风阵列可以是矩形、圆形或三维形状。有几个包括麦克风阵列的已知系统。它们的大多数主要集中于优化采样信号的信号处理和/或解释图片中的目标或元件的位置。最相关的现有技术描述如下US-5940118描述了一种用于操纵定向麦克风的系统和方法。该系统意在用于容纳听众成员的会议室中。它包括光输入装置(即摄像机) 和用于解释哪个音频构件正在发音的解释装置，以及用于激活朝向声源的声音的装置。US-6469732描述了一种视频会议系统中使用的用于提供参与发言者位置的精确确定的装置和方法。JP2004 180197描述了一种可以关于声聚焦数字控制的麦克风阵列。本发明是一种用于提供受控地聚焦和操纵声音与视频一起呈现的方法和系统。本发明在灵活性和便于使用方面不同于现有技术。在一个优选实施方案中，本发明是一种用于从拍摄事件的一个或多个摄像机接收位置和聚焦数据的方法和系统，并且使用该输入数据来产生与视频一起的相关声音输出。在另一个实施方案中，用户可以输入拾音的希望位置，并且信号处理装置将使用该希望位置来执行必要的信号处理。在又一个实施方案中，根据本发明，可以从系统发送拾音的地点的位置数据，该系统包括从置于要跟踪的目标上或其中的无线发射器拾取无线信号的天线，以及用于推导地点并向系统发送该信息的装置。例如，该无线发送器可以被放置于足球中，从而使得该系统能够记录来自该球的地点的声音，并且还可以控制一个或多个摄像机，以便视频和声音将聚焦在该球的地点。发明内容本发明的目的是提供关于相关目标区域的选择性音频输出。通过用于数字化定向聚焦和操纵目标区域内的采样数据以产生选择性音频输出的系统来实现该目的。该系统包括一个或多个宽带麦克风阵列、一个或多个模数(A/D)信号转换单元、控制单元，所述控制单元具有输入装置、输出装置、存储装置以及一个或多个信号处理单元。该系统的特征在于该控制单元包括用于接收来自该系统包括的所有麦克风的所捕获声音的数字信号的输入装置，以及用于接收包括选择性位置数据的指令的输入装置。该系统进一步的特征在于该控制单元包括信号处理装置，用于从阵列中的相关麦克风的选集中选择信号来进行进一步处理，并且根据所接收的指令对来自相关麦克风的选集的信号执行信号处理来聚焦和操纵声音，以及用于根据所执行的处理产生选择性音频输出。还通过用于数字化定向聚焦和操纵目标区域内的采样数据来产生选择性音频输出的方法来进一步获得本发明的目的，其中该方法包括使用一个或多个宽带麦克风阵列、模数(A/D)信号转换单元、控制单元，所述控制单元具有输入装置、输出装置、存储装置以及一个或多个信号处理单元。该方法的特征在于，它包括由该控制单元执行的下列步骤 -接收来自该系统包括的所有麦克风的所捕获声音的数字信号； -通过该控制单元中的输入装置接收包括选择性位置数据的指令；-从宽带阵列中的相关麦克风的选集中选择信号来进行进一步处理，并且其中所执行的选择是基于该信号的频镨分析的；-根据所接收的指令对来自相关麦克风的选集中的信号执行信号处理来聚焦和操纵声音；-根据所执行的处理产生一个或多个选择性音频输出。本发明的一个主要特征是可以实时或在所记录声音的后处理过程中提供选择性位置数据。产生声音的聚焦区域可以通过终端用户给出区域输入指令或通过一个或多个摄像机的位置和聚焦来定义。本发明的目的通过如所附权利要求的集合所述的装置和方法来获得。

参照附图进一步详细描述本发明，其中图l示出了与摄像机集成的不同系统组件的概略图；图2示出了可以根据所使用的摄像机从不同地点向周围系统提供音频的装备；图3示出了利用阵列设计中的空间滤波器频率优化的例子。
具体实施方式
图1示出了与摄像机集成的不同系统组件的概略图。该图中示出的组件是位于临近记录声音的区域的宽带麦克风阵列 100、 110。在包括在A/D单元200中的A/D转换器210中将来自每个麦克风的模拟信号转换成数字信号。该A/D单元还可以具有用于存储数字信号的存储装置220,以及用于将数字信号传送到控制单元300 的数据传送装置230。控制单元300可以位于远程位置并且通过有线或无线网络接收所捕获声音的数字信号，例如，通过允许终端用户在本地进行所有操纵和聚焦信号处理的电缆或卫星。控制单元300包括用于从A/D单元200 接收数字声音信号的数据接收器310。它还包括用于存储所接收信号的数据存储装置320、用于实时处理或后处理的信号处理装置330以及用于产生选择性音频输出的音频产生装置340。在将信号存储在数据存储器之前，可以将信号转换成压缩格式以节省空间。控制单元300还包括用于接收包括选择性位置数据的指令的输入装置350。这些指令通常调整拍摄在目标区域内的特定地点发生的事件的一个或多个摄像机的定义位置以及聚焦点。在第一实施方案中，可以通过摄像机150、 160的聚焦点以及根据摄像机三脚架的方位和高度提供声源的坐标。通过将该系统连接到一个或多个电视摄像机并以二维或三维(方位、高度和距离)接收定位坐标，能够根据摄像机镜头的聚焦点操纵和聚焦声音。在第二实施方案中，可以通过操作员操作图形用户界面(GUI )(显示目标区域的概略图)、键盘、音频混合单元以及一个或多个操纵杆来提供声源的坐标，以及因而提供位置。该GUI向操作员提供在何处操纵和缩放的信息。GUI可以显示来自一个或多个所连接的摄像机(多信道)的实况视频。在优选实施方案中，附加的图形被添加到该GUI以便指出该系统正在何处操纵。这简化了系统的操作并通过缩放和操纵功能给予操作员完全控制。在第三实施方案中，该系统可以使用算法来找到预定声源。例如，该系统可以被安装来倾听裁判的口哨，并且然后将音频和视频操纵并聚焦到该地点。在又一个实施方案中，可以通过系统跟踪目标的地点来提供地点或坐标，该目标例如是在球场中正踢的足球。上述实施方案的结合也是可行的替代。为了使摄像机的声音和聚焦区域同步，该系统需要具有共同的坐标系统。来自摄像机的坐标将相对于该系统和摄像机共同的参考点被校准。该系统可以同时从几个不同地点捕获声音(多信道功能)，并且向周围系统提供音频。可以为每个摄像机预定义地点，或根据摄像机的位置、聚焦和角度或实时动态改变所述地点。通过结合数字声音信号和位置数据并且在信号处理器中执行必要的信号处理来获得选择性音频输出。在模数转换之前，可以对所有的麦克风同时进行来自麦克风的信号的采样或通过多路复用来自麦克风的信号多路复用来自麦克风的信号的采样。信号处理包括空间或频谱波束形成以及对由于多路复用采样导致的信号延迟的计算，用于在软件或硬件中执行校正。信号处理还包括计算从声音目标到麦克风的声压延迟，以便执行具有预定时间延迟的信号的同步。信号处理包括调整对所选择的麦克风元件的采样率，以获得最优信号采样和处理。信号处理使得具有声音的摇摄(panning )、倾斜和缩放的动态选择性音频能够同时输出到一个或多个地点，并且还将音频提供到包括周围系统的一个或多个信道。信号处理还提供可变采样频率(Fs )。在高频主动的麦克风元件上的Fs高于在低频主动的元件上的Fs。基于信号的频谙和瑞利准则(采样率至少是信号频率的两倍)的Fs给出了最优信号采样和处理，并且提供了更少的待存储和处理的数据量。信号处理包括改变麦克风阵列的孔径，以便获得给定频率的响应并减少麦克风阵列中主动元件的数量。聚焦点决定使用哪些空间加权函数，用于调整利用波束形成器的延迟和求和来聚焦与操纵空间波束形成的程度，并且改变旁波瓣的强度和波束宽度。通过才艮据所选择的主波瓣的波束宽度在Cosin、 Kaiser、 Hamming、 Hannig、 Blackmann-Harris和Prolate Spheroidal中选捧加权函数来执行空间波束形成。该系统对来自所有阵列中的所有元件或元件的选集的声学声压进行采样，并将数据存储在存储单元中。可以对所有信道同时进行或多路复用该采样。由于整个声场都被采样并存储，所以用于声音的所有操纵和缩放信号处理除了实时处理之外都可以进行后处理(时间上后进行并且从任何地点提取声音)。所存储的数据的后处理提供了与实时处理相同的功能，并且操作员可以提供来自设置系统覆盖的任何希望地点的音频。由于利用外部音频和视频装置提供同步非常重要，所以该系统能够估计并补偿由于信号从声源到麦克风阵列的传播时间导致的音频信号的延迟。操作员将设置系统需要覆盖的最大要求范围，并且将自动计算最大时间延迟。这将是该系统的输出延迟并且该系统的所有音频输出将具有该延迟。通过实现不同的传感器，该系统可以校正由于温度梯度、媒介(空气)中湿度导致的以及由风和冷热空气交换导致的媒介运动导致的声音传播中的误差。图2示出了可以根据所使用的摄像机从不同地点向周围系统提供音频的装备。该图示出了球场400，麦克风阵列IOO位于球场400中上方。该图还示出了覆盖球场400的最短侧的一个摄像机150和覆盖球场400的最长侧的另一个摄像机160。通过使用该装备，本发明可以从多个信道(CH1-CH4)向每个摄像机覆盖的场地提供相关声音。通过从系统接收地点信息，可以使得系统总是从活动所在处拾取声音，例如让该声音表示周围系统的中心信道，该系统包括置于球场中正被踢的球中的无线发射器，以及用于拾取该无线信号的天线。图3示出了用于利用阵列设计中空间滤波器频率优化的改变孔径的例子。该系统可以根据希望的波束宽度、频率响应以及阵列增益动态改变阵列的孔径，以获得优化波束。这可以通过仅处理来自所选择的阵列元件的数据来实现，并且如此该系统可以减低所必要的信号处理量。黑点表示主动麦克风元件，而白点表示被动麦克风元件。A显示所有麦克风元件都为主动的麦克风阵列。该配置将给出该阵列覆盖的所有频谱的最佳响应和定向。B显示当没有低频声音出现或当不需要空间滤波低频时可以使用的高频优化稀疏阵列。C显示当没有低频或高频声音出现或当不想要空间滤波低频或高频时可以使用的中频优化稀疏阵列，例如当仅出现正常话音时。D显示当没有高频声音出现或当不需要空间滤波高频时可以使用的低频优化稀疏阵列。该系统的几种改编都是可行的，从而使得能够以不同方式使用该系统。信号处理及最终声音输出可以被本地处理或在远程地点处理。通过在远程地点能够处理信号，使得终端用户(例如观看TV上运动事件)能够控制接收声音来源的地点。信号处理装置可以位于终端用户处，并且用户可以输入其希望接收声音的地点。用于输入地点的输入设备可以是例如控制显示体育赛事的屏幕上的光标的鼠标或操纵杆。然后可以在机顶盒中实现具有其输出和输入装置340、 350的信号处理装置300。替代地，终端用户可以向位于终端用户外的另一个地点处的信号处理装置发送位置数据，并且接着从相关位置接收被处理和操纵的声音。
权利要求
1.一种用于数字化定向聚焦和操纵目标区域(400)内的采样声音以产生选择性音频输出的系统，包括一个或多个宽带麦克风阵列(100，110)、模数(A/D)信号转换单元(200)、控制单元(300)，其特征在于该控制单元(300)包括-接收器装置(310)，用于接收来自该系统包括的所有麦克风的所捕获声音的数字信号；-输入装置(350)，用于接收包括以坐标形式的选择性位置数据的指令；-信号处理装置(330)，用于从阵列(100，110)中的相关麦克风的选集中选择信号来进行进一步处理；-信号处理装置(330)，用于根据相关指令对来自相关麦克风的选集中的信号执行信号处理来聚焦和操纵声音；-信号处理装置(330)，用于根据所执行的处理产生选择性音频输出。
2. 根据权利要求1所述的系统，其特征在于所述控制单元(300 ) 位于远程地点并且包括用于通过有线或无线网络接收所捕获声音的数字信号的装置(310)。
3. 根据权利要求1所述的系统，其特征在于所述控制单元(300 ) 中的输入装置(350 )包括用于通过有线或无线网络接收选择性位置数据的装置。
4. 根据权利要求1所述的系统，其特征在于所述控制单元(300 ) 还包括用于存储所接收的所捕获声音的数字信号的存储装置(320 )。
5. 根据权利要求1所述的系统，其特征在于所述控制单元(300 ) 基于一个或多个不同的输入坐标对多个信道执行信号处理。
6. 根据权利要求1所述的系统，其特征在于所述控制单元(300 ) 包括用于基于输入声音的频语成分改变麦克风阵列(100, 110)的孔径的装置。
7. 根据权利要求4所述的系统，其特征在于所述控制单元(300 ) 还包括用于在将所接收的信号存储在存储装置(320 )中之前将其转变成压缩格式的装置。
8. 根据权利要求1所述的系统，其特征在于所述控制单元(300 ) 还包括用于基于接收到的包括选择性位置数据的指令控制和聚焦一个或多个摄像机的装置。
9. 一种用于对目标区域(400 )内的采样声音进行数字化定向聚焦和操纵以产生选择性音频输出的方法，其中所述方法包括使用一个或多个宽带麦克风阵列(100, 110)、模数(A/D)信号转换单元(200 ) 以及控制单元(300 )，其特征在于所述方法包括由该控制单元(300 ) 执行的下列步骤-接收来自该系统中包括的所有麦克风的所捕获声音的数字信号；-通过控制单元(300 )中的输入装置(350 )接收包括以坐标形式的选择性位置数据的指令；-从宽带阵列(100， 110)中的相关麦克风的选集中选择信号来进一步处理，并且其中所执行的选择是基于信号的频语分析的；-根据所接收的指令对来自相关麦克风的选集的信号执行信号处理来聚焦和操纵声音；-根据所执行的处理产生一个或多个选择性音频输出。
10. 根据权利要求9所述的方法，其特征在于所接收的数字信号是压缩格式的。
11. 根据权利要求9所述的方法，其特征在于所接收的来自阵列 (100， 110)中的所有麦克风的所捕获声音的数字信号被存储在数据存储器(320 )中。
12. 根据权利要求9所述的方法，其特征在于所述信号处理单元 (300 )实时执行信号处理。
13. 根据权利要求9和11所述的方法，其特征在于所述信号处理单元(300 )通过使用所存储的捕获声音的信号在后处理过程中执行信号处理。
14. 根据权利要求9所述的方法，其特征在于所述信号处理包括空间和频谱波束形成。
15. 根据权利要求9所述的方法，其特征在于所述信号处理包括多路复用采样和对由于多路复用导致的信号延迟的计算，用于以软件或硬件执行校正。
16. 根据权利要求9所述的方法，其特征在于所述信号处理包括计算从声音目标到麦克风阵列的声压延迟，目的是以预定的时间延迟执行信号的同步。
17. 根据权利要求9所述的方法，其特征在于所述信号处理使得能够将具有声音的缩放和摇摄的动态选择性音频同时输出到一个或多个地点，并且还能够向一个或多个包括周围系统的信道提供音频。
18. 根据权利要求9所述的方法，其特征在于所述信号处理包括调整所选择的麦克风元件上的采样率，以获得最优信号采样和处理。
19. 根据权利要求9所述的方法，其特征在于执行对麦克风阵列孔径的改变，以获得给定频率响应并降低麦克风阵列中主动元件的数量。
20. 根据权利要求9所述的方法，其特征在于所接收的选择性位置数据包括用于定义聚焦点的二维或三维坐标。
21. 根据权利要求20所述的方法，其特征在于所接收的选择性位置数据来自跟踪一个或多个目标的系统。
22. 根据权利要求14和20所述的方法，其特征在于所述位置数据决定使用哪些空间加权函数，来以波束形成器的延迟和求和进行聚焦与操纵而调整空间波束形成的程度，并且改变旁波瓣的强度和波束宽度。
23. 根据权利要求22所述的方法，其特征在于所述空间波束形成是通过才艮据所选择的主波瓣的波束宽度在Cosin、 Kaiser、 Hamming、 Hannig、 Blackmann-Harris和Prolate Spheroidal中选捧力口权函数来执行的。
24. 根据权利要求20所述的方法，其特征在于所述坐标是通过拍摄在目标区域内的特定地点发生的事件的一个或多个摄像机的位置以及聚焦点定义的。
25. 根据权利要求20所述的方法，其特征在于所述坐标是通过用户控制用户界面、键盘、音频混合单元以及一个或多个操纵杆来定义的，所述用户界面包括显示目标区域的概略图的一个或多个显示器。
26. 根据权利要求20所述的方法，其特征在于所述坐标用于控制和聚焦一个或多个摄像机。
27.根据权利要求17所述的方法，其特征在于所述周围系统中的动态选择性音频输出与一个或多个摄像机一致。
全文摘要
用于对目标区域内的采样声音作数字定向的聚焦和操纵，以产生伴随视频的选择性音频输出的方法和系统。在优选实施方案中，该方法和系统的特征在于从拍摄事件的一个或多个摄像机接收位置和聚焦的数据，并且使用该输入数据以连同图像产生相关声音输出。
文档编号H04RGK101278596SQ200680036237
公开日2008年10月1日申请日期2006年9月29日优先权日2005年9月30日
发明者I·哈菲佐威克, M·卡勒贝肯, V·杰尔申请人:史克尔海德科技公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M.卡勒贝肯;V.杰尔;I.哈菲佐威克
技术所有人：史克尔海德科技公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。