用于静音与源相关联的音频的系统和方法

文档序号：7991598阅读：272来源：国知局

用于静音与源相关联的音频的系统和方法
【专利摘要】在一个实施例中，一种方法包括：在多个麦克风处接收音频，识别要被静音的声音源，处理音频以移除每个麦克风处从该声音源接收的声音，并且传输经处理的音频。同时公开了一种设备。
【专利说明】用于静音与源相关联的音频的系统和方法
【技术领域】
[0001]本公开一般地涉及处理通信系统中的音频。
【背景技术】
[0002]作为降低差旅费用、以及增强地理上分散的位置的人们之间的协作的手段，远程会议(teleconference)已越来越受欢迎。在大的远程会议房间中可能存在任意数目的麦克风。在传统系统中，当对一个麦克风静音时，所有的麦克风就处于静音状态，并且没有音频被发出。用户可能仅仅想要静音他们的麦克风(例如，为了他们能够进行侧面的沟通)，而不是屏蔽所有音频。然而，用户语音的声音可能泄漏到房间中的其它麦克风。这可能导致:人们认为他们不能(被其它人)听到，然而事实上，其它麦克风收集到他们的语音并且通过远程会议将收集到的语音进行传输。
【专利附图】

【附图说明】
[0003]图1示出了在其中可以实现本文所述的实施例的网络的示例。
[0004]图2示出了包含远程会议系统的会议房间的示例的俯视图，其中远程会议系统作为图1中网络中的端点进行操作。
[0005]图3是根据一个实施例，在图2中示出的会议房间中使用的系统的框图。
[0006]图4是根据一个实施例，示出了用于静音与声音源相关联的音频的过程的概述的流程图。
[0007]图5是根据一个实施例，示出了在图4中示出的过程中识别和移除声音源的细节的流程图。
[0008]图6是根据一个实施例，示出了用在图5的过程中的系统的框图。
[0009]图7是根据另一个实施例，示出了在图4中示出的过程中识别和移除声音源的细节的流程图。
[0010]图8是根据一个实施例，示出了用在图7的过程中的系统的框图。
[0011]在附图的不同视图中，对应的标记指示对应的部分。
【具体实施方式】
[0012]概沭
[0013]在一个实施例中，一种方法一般地包括:在多个麦克风处接收音频，识别要被静音的声音源，处理音频以移除每个麦克风处从该声音源接收的声音，并且传输经处理的音频。
[0014]在另一个实施例中，一种设备包括:处理器，所述处理器用于从多个麦克风接收音频，识别要被静音的声音源，处理音频以移除每个麦克风处从该声音源接收的声音，并且传输经处理的音频。该设备还包括存储器，所述存储器用于存储要被静音的声音源的标识符。
[0015]示例件实施例
[0016]下文的描述被呈现以使得本领域普通技术人员能够做出和使用实施例。具体实施例和应用的说明仅仅被作为示例提供，并且各种修改对本领域技术人员而言是显而易见的。在不背离实施例范围的情况下，本文描述的一般原理可以被应用到其它应用。因此，实施例并不受限于示出的内容，而是与和本文描述的原理和特征相符的最广泛范围相一致。出于清楚说明的目的，并未详细描述与和实施例相关的本【技术领域】中所公知的技术材料相关的细节。
[0017]本文描述的实施例允许用户通过选定静音选项(源识别(source-aware)音频静音)来从来自多个麦克风的音频输出移除他们的语音。例如，与用户或区域相关联的声音可以被从在会议房间中的所有麦克风处接收的音频中移除，以允许一个或多个用户在不被其它位置处的远程会议参与者听到的情况下自由地交谈，而无需静音整个会议房间。
[0018]本文使用的术语“远程会议”指多个用户之间的、使用任何音频或视频手段(包括经由语音或视频设备传输的信号、数据、或消息)进行传输的会谈(meeting)、会议(例如视频会议、音频会议)、广播、电视广播或者任何其它通信会话。音频、视频、数据及其任意组合(例如，多媒体)可以在远程会议中被传输。媒体可以被加密、压缩、或根据任何格式进行编码。
[0019]实施例运行在包括多个网络设备(节点)的数据通信网络的背景中。网络中的一些设备可以是呼叫管理器、服务点、媒体源、媒体接收器、媒体处理单元、媒体体验引擎、多媒体转换单元、多点会议单元、器具、交换机、路由器、网关、服务器或其它网络设备。
[0020]现在参考附图，首先参考图1，图1示出了可以在其中实现本文所述的实施例的网络的示例。多个端点(例如媒体源/接收器)10通过通信网络12进行通信。网络12可以包括一个或多个网络(例如，局域网、无线局域网、无线电接入网络、公共交换网络、虚拟局域网、虚拟专用网、城域网、广域网、企业网、互联网、内联网、或任何其它网络)。节点10通过通信链路进行连接。端点10之间的媒体流路径可以包括任何数量或类型的中间节点，这些中间节点辅助了节点之间的数据通行。
[0021]端点10被配置为通过网络12发起或终止通信。端点10可以是被配置为接收、传输、或接收并传输媒体的任何设备或者设备的组合。例如，端点10可以是能够参与网络12内的数据交换的媒体中心设备(例如远程呈现(TelePresence)设备)、移动设备(例如电话、个人数字助理)、个人电脑、或任何其它设备。一个或多个参与者(用户)可以存在于每个端点10处，或者一个或多个参与者(用户)可以与每个端点10相关联。如下文将详述的，参与者(例如图1中的一个端点10处的参与者I)可能希望从远程会议中移除他们的语音，此时，来自该端点的音频在没有来自该参与者的声音的情况下被传输至其它端点。
[0022]应当理解，图1中示出和上文描述的网络仅仅是示例，并且本文描述的实施例可以在具有不同的网络拓扑结构和网络设备的网络中实现，而不背离实施例的范围。
[0023]图2是用于远程会议的会议房间排布的示例的示意俯视图。参与者20可以围绕桌子22就坐或者可以在房间内站立或走动。例如，如图2所示，一个参与者20可以离开他的椅子并且走向其它参与者以进行次要的对话。一个或多个摄像头25位于会议房间中，并且优选地能够查看到(view)大部分的房间。如下所述，摄像头25可以用于跟踪房间中的参与者，以供用于识别要被静音的声音。房间还包括位于会议房间的一端的显示屏幕27。显示屏幕27可以位于，例如摄像头25之下。多个麦克风24被布置在桌子22上。每个麦克风24可以被放置于一个或多个参与者20的前方。一个或多个麦克风24还可以与会议房间中的区域28相关联。例如，如图2所示，区域28可以是桌子22的一部分，在该部分中有两个人20和一个麦克风24。
[0024]在一个实施例中，每个麦克风24包括以供用于选择静音选项的用户接口 26。用户接口 26可以是可操纵来接收来自用户的输入并发起静音模式操作的开/关按钮或者开关、键板(实体键板或触摸屏)上的选择、或者任何其它接口。用户接口 26可以与麦克风24相集成或者从麦克风中分离。例如，用户接口 26可以是麦克风24上的开关或者可以位于桌子22上靠近麦克风24处。用户接口 26还可以是可移动设备(例如具有“静音我”按钮的设备)，当用户在房间中移动时可以持握并携带这样的设备。用户接口 26可以与例如麦克风24、区域28、或用户20中的一个相关联。
[0025]用户接口 26被配置为通过连接到用户接口(或者与用户接口相关联)的麦克风
24、或者经由到处理系统的直接输入(例如在处理系统处接收的无线信号)来向处理系统提供输入。麦克风24的静音使得来自声音源(例如参与者20或者区域28中的参与者)的声音不仅不被从静音的麦克风传输，也不被从会议房间中的所有其它麦克风传输。如下所述，来自静音的麦克风的音频可以被用在处理系统中以移除在非静音麦克风处接收的、来自声音源的声音。因此，本文中使用的术语“静音的麦克风”指与要被静音的声音源(“静音的声音源”)相关联的麦克风。
[0026]在一个实施例中，麦克风24位于桌子22上的固定位置处,从而处理系统能够使用声音源相对麦克风的位置的二维过顶(overhead)映射，以在识别从声音源接收的声音中使用。如下所述，处理系统被耦合至麦克风并且可以被配置为生成音频数据和指示在麦克风处接收的声音的方向的方向信息。本领域技术人员了解使用多个麦克风来确定声音的方向的许多方法，并且本文描述的实施例并不限于任何特定方法。
[0027]应当理解，图2中示出的布置仅仅是示例，并且其它布置可以被使用而不背离实施例的范围。例如，一个或多个实施例可以使用具有麦克风24并且没有视频设备(例如摄像头25、显示器27)的音频会议系统来实现。同时，本文描述的系统还可以在除了会议房间之外的地点被使用。
[0028]图3是示出了可以用于实现本文描述的实施例的系统30 (例如远程会议系统)的示例的框图。系统30被连接至上文相对图1描述的一个或多个端点10和网络12。系统30可以包括一个或多个视频摄像头25、显示器27、麦克风24和处理系统31。处理系统31包括处理器32、存储器34、接口 36和编码器/解码器子系统38。处理系统31是可以是以硬件、软件、或它们的任意组合来实现的可编程机器。
[0029]存储器34可以是易失性存储器或非易失性存储器，其存储用于由处理器32执行以及使用的各种应用、模块、和数据。存储器可以存储，例如要被静音的声音源的标识符。标识符例如可以标识人、声音源所位于的区域、或者与区域或声音源相关联的麦克风。
[0030]逻辑可以被编码在由处理器32执行的一个或多个有形的计算机可读介质中。例如，处理器32可以执行存储在计算机可读介质(例如存储器34)中的代码。计算机可读介质可以例如是，电的(例如RAM(随机存取存储器)、R0M(只读存储器)、EPR0M(可擦除可编程只读存储器))、磁的、光的(如CD、DVD)、电磁的、半导体技术的、或任何其它合适的介质。
[0031]处理器32包括被配置为处理音频以移除来自声音源的声音的音频处理器37。如将在下文详细描述的，音频处理器37可操作来，例如处理音频信号、判断声音的方向、分离出不同的信号(语音)、以及减去(取消、过滤)静音声音源的信号。在一个实施例中，音频处理器37首先分别将从所有麦克风接收的声音数字化，而不求和。
[0032]接口 36可以包括用于接收信号或数据、或者传输信号或数据到其它设备的任何数量的无线或有线接口(线卡、端口)。接口 36可包括，例如用于连接到计算机或网络的以太网接口。
[0033]编码器/解码器子系统38可包括，例如被配置为接受音频和视频信号并且压缩音频和视频用于传输至远程会议的其它端点10的音频编解码器和视频编解码器。
[0034]处理系统31还可以包括可操作来辅助本文中描述的功能的硬件、软件、算法、处理器、设备、部件的任何适当组合。处理系统31可以位于会议房间中，或者位于端点10之间的通信路径上的任何其它位置。
[0035]应当理解，图3中示出和上文描述的系统30仅仅是一个示例，并且在不背离实施例的范围的情况下可以使用不同的组件和配置。例如如上所述，一个或多个实施例中可以不包括摄像头25或显示屏27。
[0036]图4是根据一个实施例，示出了用于静音与源相关联的音频的过程的概述的流程图。在步骤40，处理系统31从多个麦克风24(图3和图4)接收音频。一个或多个参与者可以选择静音选项以将它们的语音从音频输出中移除(步骤42)。处理系统识别要被静音的声音源(步骤44)。如下所述，声音源可以是设置了麦克风24静音(或以其它方式选定选项以静音他的声音)的人20，或者位于房间的区域28内的一个或多个人或其它声音源。系统处理音频以移除在每个麦克风24处从声音源接收的声音(步骤46)。从声音源接收的声音可以在处理音频期间的任何点处被从音频中移除。处理系统输出其中包含房间中各个讲话者的汇总的声音，并减去来自静音的声音源的声音的音频信号或信号。例如，音频可以被传输至远程会议中的其它端点(步骤48)。
[0037]图5是示出了用于识别和移除声音源(图4中的步骤44和步骤46)的一个示例的流程图。在一个实施例中，摄像头25检测与被静音或者选定了静音选项的麦克风相关联的人(步骤50)。摄像头25被用于跟踪房间中的人(步骤52)。系统将人(视觉上检测到的脸或者脸和身体)与语音(音频检测到的声音源)相关联。这种配对根据呈现的音频/视频景象被定期地更新。例如，如果人改变他在房间内的位置，则从摄像头25接收的信息要被用于识别声音源的位置。音频被处理以产生音频数据以及指示在麦克风24处接收的声音的方向的方向信息。人20的位置可以相对于麦克风24被标出(map),并且与麦克风的大约角度和距离用于识别从此人接收到的声音(步骤54)。被识别为来自该人的声音从在麦克风处接收的音频中被移除并且被拒绝(步骤56和步骤58)。
[0038]下文描述了用于跟踪静音的声音源(图5中的步骤52)的方法的示例。在一个实施例中，背景减除用来隔离前景对象。其它可以被使用的人体跟踪(people tracking)技术包括，例如运动跟踪、面部识别、或使用红外光的立体(纵深)摄像头。例如，面部识别可以包括将人的位置作为x，y坐标进行报告。许多面部识别方法是本领域技术人员所公知的并且可以被使用。例如，面部识别可以包括眼睛检测，或者对所检测到的、与面部相应的边缘的椭圆形状拟合。下列共同受让的专利申请描述了面部识别的示例:递交于2008年I月28日、题为“实时面部识别”的美国专利申请序列号12/021，198，以及递交于2008年2月14日、题为“使用时间差的实时面部识别”的美国专利申请序列号12/031，590，这两个专利被通过引用结合于此，尽管本领域技术人员已知的其它的面部识别算法也被认为是在实施例的范围内。应当理解，上述仅为示例，并且本领域技术人员已知的那样，可以使用其它方法来对人进行跟踪。
[0039]图6示出了用在分离声音(图5中的步骤56)中的系统的示例。在远程会议环境中，单一的声音源出现在每个麦克风信号中，但具有不同的音量、混响(reverberation)、回声和频率响应。如图6所示，来自三个不同的参与者20的语音在三个麦克风24处被接收。在一个实施例中，盲源分离模块60分离出不同的语音。盲源分离依赖于源信号不彼此关联的假设。盲源分离用于从多个麦克风中拒绝静音的声音源，这可以例如在时域和频域中实现。声音在不同麦克风处的幅度被跨时间和频率地识别。在两个维度中都相关的能量被认为来自相同的源。个体的声音可以基于这样的分组来进行分离。提供除了被识别出的静音声音源之外的所有声音源的综合。从请求静音他的声音的参与者20接收的声音因此被从音频中移除，同时其它语音被传递至输出。
[0040]图7是示出了用于识别和移除声音源(图4中的步骤44和步骤46)的过程的另一个示例的流程图。系统识别包含要被静音的声音源的区域(步骤70)(图2和图4)。声音源可以是位于区域中的一个或多个人20。区域28可以通过例如静音位于该区域中的麦克风24来被识别。在麦克风24处接收的声音是输入，该输入用于在其它麦克风处消除(cancell)从该声音源接收的声音(步骤72)。
[0041]图8示出了用在图7的过程中的系统的示例。来自用户20的音频被在麦克风24处接收。麦克风24中的一个被静音,并且系统从所有其它麦克风移除在该静音的麦克风处接收的声音。例如，被识别为来自特定频谱或频率上的声音源的信号可以被移除。算法可以被这样使用:假设来自静音的麦克风的输入是要被移除的信号，而不是尝试隔离可能在数个麦克风中的源。可以存在在静音的麦克风24处接收的、来自房间中的其它位置的次要声音。然而，只有主要声音(例如最大、最强的信号)被识别为来自要被从其它麦克风处的音频输出中移除的声音源的声音。
[0042]如图8中所示，来自静音的麦克风的输入在处理中被使用，尽管该输入并不通过网络被作为输出发送出。例如通过使用非线性自适应滤波器80可以在频域执行信号处理。在静音的麦克风24处接收的输入是提供至滤波器80、用于从在其它麦克风处接收的音频中消除该信号的信号。例如，类似于声学的回波消除的过程可以被使用。
[0043]尽管已根据示出的实施例描述了方法和设备，本领域普通技术人员将轻易地意识到在不背离实施例的范围的情况下可以做出变更。由此，上文说明书中和示出在附图中的所有内容旨在被理解为示例性而非限制性的。
【权利要求】
1.一种方法，包括: 在多个麦克风处接收音频；识别要被静音的声音源；处理所述音频以移除所述多个麦克风中的每个处从所述声音源接收的声音；以及传输经处理的音频。
2.如权利要求1所述的方法，其中所述多个麦克风位于远程会议中的一个端点处。
3.如权利要求1所述的方法，其中识别所述声音源包括:识别人。
4.如权利要求3所述的方法，还包括: 用视频摄像头跟踪所述人，以识别所述人的位置；以及使用所述人的位置来识别要被从所述音频中移除的所述声音。
5.如权利要求1所述的方法，其中移除所述声音包括:分离在所述多个麦克风处接收的信号，并且拒绝从所述声音源接收的所述声音。
6.如权利要求1所述的方法，其中识别所述声音源包括:识别包含所述声音源的区域。
7.如权利要求6所述的方法，其中移除所述声音包括:从在其它麦克风处接收的声音中消除所述多个麦克风中位于所述区域中的一个处接收的声音。
8.—种设备,包括:` 处理器，所述处理器用于接收来自多个麦克风的音频，识别要被静音的声音源，处理所述音频以移除所述多个麦克风中的每个处从所述声音源接收的声音，并传输经处理的音频；以及存储器，所述存储器用于存储所述要被静音的声音源的标识符。
9.如权利要求8所述的设备，其中所述声音源包括人。
10.如权利要求9所述的设备，其中所述处理器还被配置为:接收来自视频摄像头的输入以识别所述人的位置，并且使用所述位置来识别要被从所述音频中移除的所述声音。
11.如权利要求8所述的设备，其中移除所述声音包括:分离在所述多个麦克风处接收的信号，并且拒绝从所述声音源接收的所述声音。
12.如权利要求8所述的设备，其中所述标识符包括:包含所述声音源的区域的标识。
13.如权利要求12所述的设备，其中移除所述声音包括:从在其它麦克风处接收的声音中消除所述多个麦克风中位于所述区域中的一个处接收的声音。
14.如权利要求8所述的设备，还包括滤波器，所述滤波器可操作来接收来自静音的麦克风和所述多个麦克风的另一个的输入、并且使用所述输入来滤除从所述声音源接收的声曰?
15.一种设备，包括: 用于识别要被静音的声音源的装置；以及用于处理在所述多个麦克风处接收的音频以移除在所述多个麦克风中的每个处从所述声音源接收的声音的装置。
16.如权利要求15所述的设备，其中所述声音源包括人。
17.如权利要求16所述的设备，其中所述设备还包括:用于识别所述人的位置、并且使用所述人的位置来识别要被从所述音频中移除的所述声音的装置。
18.如权利要求15所述的设备，其中用于处理所述音频以移除所述声音的装置包括:用于分离在所述多个麦克风处接收的信号、并且拒绝从所述声音源接收的所述声音的装置。
19.如权利要求15所述的设备，其中用于识别声音源的装置包括:用于识别包含所述声音源的区域的装置。
20.如权利要求19所述的设备，其中用于处理所述音频以移除所述声音的装置包括:用于从在其它麦克风处接收的声音中消除所述多个麦克风中位于所述区域中的一个处接收的声音的装置。`
【文档编号】H04M3/56GK103733602SQ201280039916
【公开日】2014年4月16日申请日期:2012年8月3日优先权日:2011年8月16日
【发明者】威廉·J·穆澈利, 苏布拉马尼亚姆·V·库那普利, 杨非申请人:思科技术公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：威廉·J·穆澈利;苏布拉马尼亚姆·V·库那普利;杨非
技术所有人：思科技术公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。