用于控制多路并发电话会议中的音频信号的方法和系统的制作方法

文档序号：7983207阅读：522来源：国知局

专利名称：用于控制多路并发电话会议中的音频信号的方法和系统的制作方法
技术领域：
本发明一般地涉及电话会议，具体的涉及控制多路并发电话会议中的参与者的音
频信号。
背景技术：
电话会议减少对旅行的需求，并因此节省金钱和时间。过去，人们通过电话参加电话会议，但是现在很多不同类型的处理设备(包括台式计算机和笔记本电脑、薄板处理设备、平板处理设备、和智能电话)可以发送和接收音频信号、并因而可以用于举行会议。因为上述处理设备可以具有显示器，所以开发了使建立和/或参与电话会议简化的用户界面。上述处理设备的用户通常戴上耳机、头戴式耳机、或耳塞以及麦克风，以发送和接收声音信号。在彼此重叠的时间接收邀请参加预定的多路电话会议的情况并不少见。通常，被邀请者必须拒绝其中一个邀请，即使被邀请者想要参与通话，并且知道不论被邀请者是否接受或拒绝邀请，该通话仍然将在所要求的时间举行。电话会议的参与者会花费95%的时间聆听，花费5%或更少的时间讲话。但是，不能精确地知道在什么时候会期望被邀请者讲话、或被邀请者会希望讲话，被邀请者需要聆听整个通话，这削弱其同时参与多路会议的能力。通过电子设备产生的通信通常是单声道的；因此，在会议中参与者的声音通常听起来像从同一位置发出。在有少量参与者的电话会议中，其中每个参与者都知道其余参与者、并且可以识别其余参与者的声音，则单声道音频流可以令人满意。但是在电话会议中参与者开始同时讲话时，如在讨论开始激烈的时候经常发生，因为收听者不能识别谁在说什么，所以通信很快变得无法辨认。很多会议系统试图通过只向参与者提供最活跃的发言者的声音信号来改善这种状况，最大声的参与者的声音信号尝试去打断活跃的发言者。但是，这种方法事实上将会议限制到一或两个发言者，并且趋向于优先考虑大声并且坚持的发言者ο对于实际应用，使用同一通信设备来收听并发电话会议即使有可能也将会极其困难，因为在每个电话会议中产生的音频信号将听起来像是从同一位置发出的。因此，参与者很难或者不可能直觉地分辨哪个音频信号与哪个会议相关。研究表明人类大脑在立体声音频环境中可以比在单声道音频环境中更易于处理多路并发音频信号。因为现在很多通信设备(包括很多智能电话)能够向输出端口提供立体声信号，所以如果与多路同时电话会议相关的音频信号可以以立体声产生、并且定位在不同的听觉位置，以使得多路并发电话会议中的参与者可以容易并直觉地将从一个电话会议发出的这些音频信号与从另一电话会议发出的音频信号区分开，则将很有利。这将使得参与者能够参加多路并发电话会议，并且相对容易地区分每个电话会议中正在说什么
发明内容
本发明中公开的实施例涉及对与多路并发会议相关的音频信号的控制。在一个实施例中，用户界面显示在显示器上，用户界面绘制出与第一会议相关的第一定义区域、和与第二会议相关的第二定义区域。显示与第一定义区域相关的多个第一参与者标识符。多个第一参与者标识符中的每一个对应于第一会议中的参与者。与第二定义区域相关联的显示多个第二参与者标识符，多个第二参与者标识符中的每一个对应于第二会议中的参与者。例如，通过用户输入，确定第一会议是选定会议。相对于参考位置，听觉定位标识符标识可以在听觉上定位音频信号的听觉位置。确定多个第一听觉定位标识符。每个第一听觉定位标识符是基于与多个第一参与者标识符中的相应参与者标识符的位置和参考位置的。对第二定义区域确定第二听觉定位标识符，第二听觉定位标识符不同于每个第一听觉定位标识符。在基于与至少一个参与者相对应的第一听觉定位标识符的听觉位置处，将第一会议中的至少一个参与者的音频信号提供至输出端口。在基于第二听觉定位标识符的听觉位置处，同时将来自第二会议中的至少一个参与者的音频信号提供至输出端口。用户在由相应的第一听觉定位标识符所标识的听觉位置处听到第一会议中的参与者，并且同时在由第二听觉定位标识符所标识的听觉位置处听到第二会议中的参与者。因为来自不同会议的音频信号在不同的听觉位置处，所以用户可以容易地分辨出每个声音从哪个会议发出。此外，因为通过用户界面在听觉上定位音频信号，所以用户可以在视觉上将音频信号与具体会议相关联。由用户产生的音频信号可以被提供至选定会议，而不提供至非选定会议。因此，如果第一会议是选定会议，并且用户开始讲话，则与用户的声音相关的音频信号被提供给第一会议中的参与者，而不提供给第二会议中的参与者。用户可以容易地选择第二会议作为选定会议，并且之后由用户产生的音频信号将被提供至第二会议，而不提供至第一会议。在一个实施例中，第二定义区域可以与第一定义区域重叠，重叠区域可以包括多个第二参与者标识符。与多个第二参与者标识符之一相对应的每个参与者都是第一会议与第二会议两者的参与者。以此方式，用户可以容易地与会议中参与者的一部分发起“附加” 会议，并同时聆听原会议中未参与附加会议的这些参与者。在一个实施例中，音频信号的音量可以基于定义区域的位置相对于参考位置之间的距离。例如，用户可以将与非选定会议相关的定义区域从用户界面上的第一位置，拖到用户界面上的第二位置，第二位置比第一位置离参考位置更远。相应的，根据增加的距离，在非选定会议中产生的音频信号的音量可减小。本领域技术人员在阅读下面对结合附图的优选实施例的详细描述之后，将理解实施例的范围并了解实施例的附加特征。

结合于本说明书中并形成本说明书的一部分的附图，示出本发明的多个方面，并且附图与说明书一起用于说明实施例的原理。图1是可以实施说明书中公开的实施例的系统的框图；图2示出根据一个实施例的示例性用户界面；图3示出在控制参与者操作用户界面之后、图2中所示的示例性用户界面；
图4是根据一个实施例的示出用于控制多路同时电话会议中的音频信号的方法的高级流程图；图5示出在控制参与者操作用户界面之后、图3中所示的示例性用户界面；图6示出在控制参与者选定第二会议之后、图5中所示的示例性用户界面；图7示出在控制参与者取消选定第二会议之后、图6中所示的示例性用户界面；和图8A和图8B示出根据另一实施例的用于控制多路同时电话会议中的音频信号的方法。
具体实施例方式下面描述的实施例表示出使得本领域技术人员能够实现实施例的必要信息，并且说明实现实施例的最佳方式。在参照附图阅读下面的描述之后，本领域技术人员将理解实施例的概念，并将了解本文中未具体讨论的这些概念的应用。应当理解，这些概念和应用也落入本发明和所附权利要求书的范围内。说明书中公开的实施例涉及对来自多路并发(即，同时)会议的音频信号的控制。尽管为了进行说明，在说明书中将在商业会议的背景下描述实施例，但是说明书中公开的实施例可以用于任意背景下的电话会议。图1是示出可以实施说明书中公开的实施例的系统10的框图。系统10包括多个处理设备，所述多个处理设备包括媒体服务器12和多个通信设备14A-14E(概括为通信设备14或多个通信设备14)。通信设备14可以是能够发送和接收声音信号的任意设备，例如，通信设备14可以包括计算机、个人数字助理(PDA)、移动电话(例如，Apple 的iPhone )等。通常在会议的背景下来操作该实施例，其中至少两个用户(例如，控制参与者16A、和一个或多个参与者16B-16E(概括为参与者16或多个参与者16))使用通信设备14A-14E 来彼此交谈。说明书中使用术语“控制参与者”来区分会议中的特殊参与者与其他参与者，如在说明书中详细描述的，该特殊参与者操作用户界面，以控制他如何收听与多路并发会议相关的音频信号。但是，控制参与者在其他方面与任何其他参与者没有区别，在如下的意义上，每个参与者都可以是“控制参与者”每个参与者可以具有操作用户界面以控制他如何收听与多路并发会议相关的音频信号的能力。通信设备14通过网络18与媒体服务器12通信接合。通信设备14A-14E可以通过任何适当的网络访问路径20A-20E(概括为网络访问路径20或多个网络访问路径20)连接到网络18，该网络访问路径20A-20E例如，电话技术、数字用户线路技术、线缆调制解调器技术、蜂窝技术、Wi-Fi 、蓝牙(Bluetooth )等。在相应的网络访问路径20上传输说明书中详细描述的数据(例如，控制信号和音频信号)。示例性的通信设备14 (例如，通信设备14A)包括用于控制通信设备14A的整体操作的控制器22，该控制器22可以包括一个或多个中央处理器和随机存取存储器(RAM)(未示出)。存储在存储器中的程序模块(未示出)可以用于适配控制器，以实现说明书中描述的功能。通信设备14A还可以包括通信接口 24，该通信接口 M适合于与网络18通信，以促进通信设备14A和外部设备(例如，媒体服务器1 之间的通信。通信设备14A还包括或者连接到显示器沈，用户界面28可以显示在所述显示器沈上并且由控制参与者16A进行操作。在会议过程中，通过通信接口 M从媒体服务器12接收的数据可以用于更新用户界面观。可以将由通信设备14A响应于对用户界面观的操作而产生的数据，通过通信接口 M提供至媒体服务器12。通信设备14A还优选地包括音频处理器30，该音频处理器30 产生控制参与者16A的音频信号，并将该音频信号发送至媒体服务器12。术语“音频信号” 指的是参与者16的声音信号。音频信号通常是数字化的数据流，该数字化的数据流由音频处理器30产生、并且表示各个参与者16的声音信号。在会议过程中，由于音频信号通常只在参与者16实际讲话时产生，所以任何特殊参与者16的音频信号通常是非连续的。如说明书中所使用的，术语“输入音频信号”将表示从通信设备14发送至媒体服务器12的音频信号，术语“输出音频信号”将表示从媒体服务器12发送至通信设备14的音频信号。
音频处理器30从媒体服务器12接收输出音频信号，并将输出音频信号提供至输出端口 31，多通道能力设备(例如，立体声耳机3 可以连接至该输出端口 31。本领域技术人员将理解，其他多通道能力设备(例如，立体声扬声器)也可以用于将输出音频信号提供至控制参与者16A。每个通信设备14建立与媒体服务器12的通信会话34，该通信会话34分别由参考标记34A-34E表示。通信会话34可以包括各个通信设备14与媒体服务器12之间的任意类型的会话或连接，该会话或连接能够实现从各个通信设备14向媒体服务器12传送音频信号、并且能够实现将来自媒体服务器12的音频信号接收到各个通信设备14，而不用考虑用于传输音频信号的底层物理基础结构、或用于建立各个通信设备14与媒体服务器12之间的通信会话34的具体协议。例如，适合的协议可以包括TCP/IP、会话发起协议(SIP)、传统的PSTN(公共交换电话网络)信令等。通常在相应的网络访问路径20上物理实施通信会话；34。媒体服务器12包括通信接口 38，该通信接口 38与通信会话；34接合。通信接口 38可以包括从通信会话34接收输入音频流、并在各个通信会话34上发送输出音频流所需要的硬件和/或软件的任何适当组合。例如，如果通信会话34传输模拟声音信号，则通信接口 38可以包括线路卡，如果通信会话34传输分组化的声音信号，则通信接口 38可以包括以太网电路。媒体服务器12还可以包括交互式语音识别(IVR)处理器40，该交互式语音识别处理器40用于将通信会话34路由到适当的会议。媒体服务器12还包括会议处理器42，该会议处理器42可以在参与者16之间建立一个或多个会议。会议处理器42包括混频器44，根据控制参与者16A的指示，该混频器 44使得会议处理器42能够混合或组合多个音频信号，并且将混合的输出音频信号提供至一个或多个通信会话34。说明书中将详细描述混频器44提供的附加功能。会议处理器42 包括或连接到三维(3D)空间音频引擎(3DSAE) 46，该三维空间音频引擎46接收输入音频信号和听觉定位标识符、并修饰音频信号、并产生输出音频信号，该输出音频信号包括特征 (例如，相位和频率信息)，所述特征在由听觉定位标识符所指示的听觉位置处在听觉上定位输出音频信号。例如，3DSAE 46可以将一个参与者16的音频信号改变成仿佛从控制参与者16A的左前方发出的，并且可以将第二参与者16的音频信号改变成仿佛从控制参与者 16A的右前方发出的。尽管为了进行说明，会议处理器42示出为包括3DSAE 46，但是3DSAE 46可以如图所示与会议处理器42集成，或者3DSAE 46可以与会议处理器42分开并通过通信路径连接到会议处理器42。类似地，尽管混频器44示出为与3DSAE 46分开，但是除了(或代替) 混频器44中包括的混频能力，3DSAE 46也可以具有混频能力。因此，根据所需设计标准，会议处理器42、3DSAE 46、和混频器44提供的功能可以由媒体服务器12在一个或多个模块中实现。为了进行说明并为了简洁，在下文中，会议处理器42、3DSAE 46、或混频器44当中任意一个提供的功能将一般地描述成由会议处理器42所提供。媒体服务器12还包括控制器 48，该控制器48包括中央处理器和RAM(未示出)。控制器48连接到通信接口 38、IVR处理器40、和会议处理器42当中的每一个，并控制这些器件的操作。说明书中公开的实施例使得控制参与者16A能够在相对于控制参与者16A的所需听觉位置处、在听觉上定位由参与者16B-16E产生的音频信号。由会议处理器42通过3DSAE 46来提供听觉定位。3DSAE 46可以通过对输入音频信号进行修饰以产生包括特征(例如，频率和相位信息)的输出音频信号流，在听觉上定位输入音频信号，所述特征在听觉上定位输出音频信号，以使得收听者(例如，控制参与者16A)感觉该输出音频信号从指定的位置发出。输入音频信号可以是单声道的或者可以是多声道的。输出声音信号是多声道音频信号(例如，立体声或杜比数码5.1音频信号)，并且通过多通道输出设备(例如，立体声耳机32)被提供至控制参与者16A。适合用于实施例的3DSAE 46可以从位于211 Mt. Airy Road, Basking Ridge, NJ 07920 ^ Avaya Inc.图2示出根据一个实施例的示例性用户界面28，并且将结合图1对图2进行讨论。用户界面观具有第一定义区域50和第二定义区域52。定义区域50、52优选地可在视觉上彼此区分，并且与用户界面观的其他部分区分。在图2中所示的实施例中，定义区域50、 52包括分别从投影仪M、56发出的光束的图像，但是显而易见的，任何视觉区分特征都可以用于描述根据说明书中公开的实施例的定义区域。第一定义区域50与第一会议相关，第二定义区域52与第二会议相关。多个第一参与者标识符58B-58D(概括为标识符58或多个标识符58)显示为与第一定义区域50相关，多个第二参与者标识符58E-58F显示为与第二定义区域52相关。在一个实施例中，例如，可以通过控制参与者16A点击新会议按钮60，来发起第一会议，该新会议按钮60会引起绘制出第一定义区域50。控制参与者16A然后可以从联系人列表62将所需参与者标识符 58B-58D “拖放”到第一定义区域50中。在每个参与者标识符58被从联系人列表62拖出并放入到第一定义区域50中时，通信设备14A可以将控制信号、连同与参与者标识符58相对应的参与者16的联系人信息(例如，电话号码等)一起发送至会议处理器42，请求会议处理器42发起与由联系人信息所确定的通信设备14的通信会话34。以类似的方式，控制参与者16A可以发起与参与者16E和16F的第二会议。可替换地，第一会议可以是由参与者16B-16D当中的一个所发起的会议，并且在发起会议时，用户界面观可以绘制出第一定义区域50并请求控制参与者16A加入第一会议。尽管为了进行说明将参与者标识符58绘制成人像图像，但是参与者标识符58可以是相应参与者16的静态图像或照片，或者参与者标识符58可以通过视频数据来显示参与者16的实际视频，所述视频数据通过与参与者16相关的相应通信设备14所捕捉、并被提供至控制参与者16A的通信设备14A。在一个实施例中，控制参与者16A可以选择其中一个会议作为选定会议。例如，选定会议可以是控制参与者16A期望在预定时间点讲话的会议。控制参与者16A的音频信号可以被提供至参与选定会议的这些参与者16，而不提供至非选定会议的参与者。控制参与者16A可以根据需要选择第一会议或第二会议作为选定会议。在一个实施例中，控制参与者16A可以通过选择与控制参与者16A试图变成选定会议的会议相关的第一定义区域50 或第二定义区域52来选择会议。可以通过输入设备(例如，鼠标或键盘)、或者在显示器沈是触摸屏时通过触动来进行选择。如说明书所述，通过使限定定义区域的线变深或变粗，将与选定会议相关的定义区域与非选定会议的定义区域区分开。因此，在图2中，选定会议是第一会议，因为如图所示，相比于限定第二定义区域52的线，第一定义区域50具有限定第一定义区域50的实质变深的线。显而易见的，任何视觉区分特征都可以用于区分与选定会议相关的定义区域和与非选定会议相关的定义区域。为了在听觉上定位选定会议中的参与者16的音频信号，参与者标识符表示控制参与者16A的参考位置。选定会议中的每个参与者16具有相应的参与者标识符58，该参与者标识符58绘制成与第一定义区域50相关。如图所示，参与者16对应于具有相同字母参考标记的参与者标识符58。因此，控制参与者16A对应于参与者标识符，参与者16B对应于参与者标识符58B，参与者16C对应于参与者标识符58C，参与者16D对应于参与者标识符58D。对于用户界面28中的每个参与者标识符58B-58D，通信设备14A计算听觉定位标识符，该听觉标识符对应于各个参与者标识符58B-58D相对于参与者标识符的参考位置的位置。如下所述，参考位置还可以包括确定参考方向的方向特性，可以根据该方向特性来计算或以其他方式确定偏移。听觉定位标识符可以包括能够相对于参与者标识符的位置来识别或以其他方式定义各个参与者标识符58B-58D的位置的任何适当信息。例如，听觉定位标识符可以包括各个参与者标识符58B-58D相对于参与者标识符的方向的角度、和各个参与者标识符58B-58E与参与者标识符的距离。听觉定位标识符被提供至3DSAE 46，并被3DSAE 46使用以产生具有适当特征(例如，频率和相位信息)的、与各个参与者16相关的输出音频信号，以使得控制参与者16A感觉该输出音频信号从由听觉定位标识符指示的位置发出。3DSAE 46可以使用距离信息来改变输出音频信号的响度特征。例如，通过参与者标识符58相对于参与者标识符的具体方向的偏移的角度，听觉定位标识符可以限定听觉位置。假设参与者标识符58~具有朝向360°圆圈64上的 0° /360°位置的方向。也就是说，参与者标识符58、是“面向”360°圆圈64上的0/360° 标记。因此，控制参与者的“耳朵”分别定位成朝向90°标记和270°标记。应当注意，为了进行说明而提供360°圆圈64，360°圆圈64不需要在用户界面观中绘制。通信设备14A确定参与者标识符58B的位置在43°位置(即，在参与者标识符 58A,的左前方)，并且定位成与参与者标识符有距离66。因此在此示例中，听觉定位标识符可以包括角度43°和距离66。应当注意，可以从参与者标识符58B上的任意所需点、到参与者标识符上的任意所需点来计算距离66。通信设备14A向媒体服务器12发送听觉定位控制信号，该听觉定位控制信号包括听觉定位标识符和对要进行听觉定位的音频信号进行识别的标识符(例如，对与参与者16B相对应的通信会话34B进行识别的通信会话标识符)。3DSAE 46将与参与者16B相关的音频信号在听觉上定位在由听觉定位标识符所标识的听觉位置处。音频信号被提供至通信设备14A的输出端口，并通过多通道输出设备(例如，头戴式耳机32)由控制参与者16A听到。控制参与者16A感觉参与者16B的音频信号从与控制参与者16A面对的方向成43°的位置发出，所以音频信号的位置在听觉上对应于在用户界面观中参与者标识符58B相对于参与者标识符SSA1的方向的位置。类似的，相对于参与者标识符的位置和方向，分别根据参与者标识符58C和 58D的位置，可以对参与者16C和16D计算听觉定位标识符。将听觉定位标识符提供至媒体服务器12，3DSAE 46根据听觉定位标识符在听觉上定位参与者16C和16D的音频信号。在一个实施例中，参与者标识符58B-58D与参与者标识符的距离可以确定相应的参与者16的音频信号的音量。因此，例如，在图2中，参与者16D的音频信号的音量会低于参与者16B和16C的音频信号的音量，因为参与者标识符58D比参与者标识符58B或58C距离参与者标识符更远。还可以通过一个或多个其他技术来实现音频信号音量控制。例如，响应于具体参与者标识符58的选择，音量选择工具可以显示在用户界面28上。控制参与者16A可以调节音量选择工具，该音量选择工具然后会使通信设备14A产生并发送控制信号至媒体服务器12，该控制信号指示应当减小与选定的参与者标识符58相对应的参与者16的音频信号
的音量。在控制参与者16A听到第一会议中的参与者16B-16D的音频信号时，控制参与者 16A同时听到第二会议中的参与者16E或16F产生的任何音频信号。优选地，根据第二定义区域相对于参考位置(例如，参与者标识符的位置)的位置，或者根据参与者标识符58E或58F相对于参考位置(例如，参与者标识符的位置)的位置，在听觉上定位与第二会议相关的音频信号。例如，假设与第二会议相关的音频信号基于第二定义区域52 相对于参与者标识符的位置的位置。在此示例中，通信设备14A确定第二定义区域相对于参考位置的方向特性在观5°的位置。通信设备14A将听觉定位标识符提供至媒体服务器12，该听觉定位标识符标识观5°位置、并且选择性地标识第二定义区域52与参考位置的距离。3DSAE 46然后可以在指定听觉位置处向通信设备14A提供在第二会议中产生的音频信号，以使得控制参与者16A感觉参与者16E或参与者16F的音频信号处于控制参与者16A的右前方的位置上(S卩，与前向呈观5° )。图3示出在控制参与者16A已操作用户界面观之后、图2中所示的示例性用户界面洲。具体地，控制参与者16A将第二定义区域52从图2中所示的第一位置移动到图3中所示的第二位置。响应于第二定义区域52的移动，通信设备14A确定或以其他方式计算第二定义区域52相对于参考位置的新听觉定位标识符。通信设备14A确定第二定义区域52 现在相对于参考位置处于268°位置，并且产生标识该新位置的听觉定位标识符，并且将听觉定位标识符提供至媒体服务器12。3DSAE 46之后将在沈8°位置上提供第二会议中产生的任意音频信号(即，以使得控制参与者16A感觉音频信号从控制参与者16A的右侧略偏后方的位置发出)，而不再在观5°位置上提供在第二会议中产生的音频信号。图4是根据一个实施例的示出用于控制多路同时电话会议中的音频信号的方法的高级流程图。将结合图3对图4进行讨论。通信设备14A显示用户界面观，该用户界面洲绘制出第一定义区域50和第二定义区域52 (步骤1000)。多个第一参与者标识符58B-58D 显示在第一定义区域50中(步骤1002)。多个第二参与者标识符58E-58F显示在第二定义区域52中(步骤1004)。确定第一会议是选定会议(步骤1006)。如上所述，例如，通过用户输入选择第一定义区域50来进行上述确定。根据在第一定义区域50中各个参与者58 的位置和由参与者标识符指示的参考位置，对多个第一参与者标识符58B-58D中的每一个确定第一听觉定位标识符(步骤1008)。对第二定义区域52确定至少一个第二听觉定位标识符(步骤1010)。至少一个第二听觉定位标识符可以基于第二定义区域52的位置、或者基于参与者标识符58E、58F当中的一个或多个的位置。通信设备14A向音频输出端口同时提供在基于第一听觉定位标识符的听觉位置处的、第一会议中的参与者16B-16D 中的至少一个的音频信号，所述第一听觉定位标识符与至少一个参与者16相对应，参与者 16E-16F中的至少一个的音频信号被提供至基于至少一个第二听觉定位标识符的听觉位置处(步骤1012)。图5示出在控制参与者16A已操作用户界面观之后、图3中所示的示例性用户界面洲。具体地，控制参与者16A将第二定义区域52从图3中所示的第一位置移动到图5中所示的第二位置，所述第二位置离由参与者标识符指示的参考位置更远。响应于第二定义区域52的移动，通信设备14A确定或以其他方式计算第二定义区域52相对于参考位置的新听觉定位标识符。通信设备14A确定第二定义区域52处于相同的方向(S卩，相对于参考位置的268°位置)但是离参考位置更远，并且通信设备14A产生标识该新位置的听觉定位标识符，并且将听觉定位标识符提供至媒体服务器12。3DSAE 46之后将在沈8°位置上提供第二会议中产生的任意音频信号(即，以使得控制参与者16A感觉音频信号从控制参与者16A的右侧略偏后方的位置发出)，但是根据更远的距离，以比第二定义区域52移动之前增大的音量提供上述音频信号。图6示出在控制参与者16A选定第二会议之后、图5中所示的示例性用户界面观。具体地，控制参与者16A可以使用输入设备点击或以其他方式指示用户界面观，控制参与者16A选定第二定义区域52。相应的，例如，用户界面观通过使用比限定第一区域50的线更深或更粗的线来限定第二区域52，来在视觉上区分第二定义区域52。通信设备14A根据相应的参与者标识符58E和58F相对于由参与者标识符58A2指示的参考位置的位置，来确定参与者16E和16F的听觉定位标识符。具体地，通信设备14A确定参与者16E的音频信号应当是相对于参考位置在49°角度上，参与者16F的音频信号应当是相对于参考位置在 327°角度上。通信设备14A将听觉定位标识符、连同第二会议是选定会议的指示一起提供至媒体服务器12。3DSAE 46之后将在听觉位置处提供参与者16E和16F的音频信号，以使得控制参与者16A将感觉参与者16E的音频信号在控制参与者16A的左前方发出，并且感觉参与者16F的音频信号在控制参与者16A的右前方发出。此外，因为第二会议是选定会议，所以会议处理器42将控制参与在16A的音频信号提供至参与者16E和16F，而不提供至参与者16B-16D。通信设备14A还根据第一定义区域50的位置、或根据参与者标识符58B-58D相对于由参与者标识符58A2指示的参考位置的位置，来确定第一定义区域50的听觉定位标识符。假设通信设备14A将从第一会议发出的所有的音频信号，定位在基于第一定义区域50 的位置的听觉位置处。在此示例中，通信设备14A确定第一定义区域50相对于由参与者标识符58A2指示的参考位置在86°位置处。因此，控制参与者16A将感觉第一会议中发生的任何讨论直接在控制参与者16A的左侧发出。
图7示出在控制参与者16A取消选定第二会议之后、图5中所示的示例性用户界面观。在此示例中，第一会议和第二会议都不是选定会议。用户界面观可以绘制第一定义区域50和第二定义区域52，以使得第一定义区域50和第二定义区域52都不具有与选定会议相关的区别特征。参与者标识符58A3可以绘制成既不在第一定义区域50中也不在第二定义区域52中。通信设备14A根据第一定义区域50和第二定义区域52相对于由参与者标识符58A3指示的参考位置的位置，可以确定第一会议和第二会议的的听觉定位标识符。通信设备14A确定第一定义区域50相对于参考位置在117°位置处，并且第二定义区域52相对于参考位置在232°位置处。通信设备14A向媒体服务器12提供第一会议和第二会议分别的听觉定位标识符、和两个会议都不是选定会议的指示。3DSAE 46在117°位置处提供从第一会议发出的音频信号，以使得控制参与者16A感觉上述信号从控制参与者16A的左后方发出。3DSAE 46在 232°位置处提供从第二会议发出的音频信号，以使得控制参与者16A感觉上述信号从控制参与者16A的右后方发出。会议处理器42既不向第一会议也不向第二会议提供控制参与者16A的音频信号。图8A和图8B示出根据另一实施例的用于控制多路同时电话会议中的音频信号的方法。图8A示出具有第一定义区域68的用户界面观，该第一定义区域68与具有六个参与者16A-16F的第一会议相对应。如参考图1-图7所讨论的，通信设备14A可以根据相应的参与者标识符58B-58F相对于由参与者标识符指示的参考位置的位置，来确定与每个参与者16B-16F相对应的听觉定位标识符。假设在第一会议过程中，控制参与者16A期望与第一会议中的选定参与者16具有补充会议或第二会议。具体地，控制参与者16A希望对参与者16D-16F讲话，而不对参与者16B和16C讲话。现在参考图8B，假设控制参与者16A激活新会议按钮60，则在用户界面观中绘制出第二定义区域70。控制参与者16A(例如，通过输入设备)移动第二定义区域70，以使得第二定义区域70与第一定义区域68的一部分重叠，并且第二定义区域70只包括参与者标识符58D-58F。相应的，通信设备14A可向媒体服务器12发送控制信号，发起与参与者16A 和16D-16F的第二会议。如上所述，通信设备14A还根据相应的参与者标识符58D-58F相对于由参与者标识符58A2指示的参考位置的位置，来确定每个参与者16D-16F的第一听觉定位标识符。通信设备14A还根据第一定义区域68，来确定至少一个第二听觉定位标识符。通信设备14A将第一和第二听觉定位标识符、连同第二会议是选定会议的指示一起传送至媒体服务器12。相应的，3DSAE 46在由相应的第一听觉定位标识符所确定的听觉位置处产生与参与者16D-16F相关的音频信号，并在由第二听觉定位标识符所确定的听觉位置处产生由参与者16B或参与者16C在第一会议中发出的任何音频信号。可替换地，通信设备14A可以根据相应的参与者标识符58B和58C相对于由参与者标识符58A2指示的参考位置的位置，来确定参与者16B和参与者16C的第二听觉定位标识符。会议处理器42将控制参与者16A的音频信号提供给参与者16D-16F，而不提供给参与者16B和16C。控制参与者16A可以再次选择第一定义区域68作为选定会议，在这种情况下将向每个参与者16B-16F提供控制参与者16A的音频信号。尽管为了进行说明在说明书中只讨论了两路并发会议，但是本发明不限于两路并发会议，而是可应用于任意数量的并发会议。此外，尽管在控制参与者16A作为控制参与者的背景下讨论了实施例，但是每个参与者16在其各自的通信设备14上都具有类似的能力，并且每个参与者都能够控制多路并发电话会议中的音频信号。可以以存储在硬件中的指令来实现实施例的各个方面，并且例如，该指令可以存在于RAM、闪存、只读存储器(ROM)、可擦除ROM(EPROM)、电可擦除ROM(EEPROM)、寄存器、硬盘、可移动盘、CD-ROM、或本领域中已知的任何其他类型的计算机可读或计算机可使用的存储介质中。实施例的全部或一部分可以实现为计算机程序产品，例如，内部包括有计算机可读程序代码的计算机可使用或计算机可读的存储介质。计算机可读程序代码可以包括用于实现说明书中描述的实施例的功能的软件指令。示例性的存储介质可以连接到处理器，以使得处理器可以从存储介质读取信息并将信息写入到存储介质。可替换的，存储介质可以集成到处理器。处理器和存储介质可以存在于ASIC(专用集成电路)中。例如，ASIC可以存在于媒体服务器12或通信设备14中。本领域技术人员会认识到对说明书中公开的实施例的改进和修改。所有这些改进和修改都应当视为在说明书公开的概念和所附权利要求书的范围内。
权利要求
1.一种用于控制与多个会议相关的音频信号的计算机实现的方法，所述方法包括通过处理设备显示用户界面，所述用户界面绘制出第一定义区域和第二定义区域，其中，所述第一定义区域与第一会议相关，所述第二定义区域与第二会议相关；显示与所述第一定义区域相关的多个第一参与者标识符，其中，所述多个第一参与者标识符中的每一个对应于所述第一会议中的多个参与者中的不同参与者；根据相应的参与者标识符相对于参考位置的位置，确定多个第一听觉定位标识符，其中，每个第一听觉定位标识符对应于所述多个第一参与者标识符中不同的第一参与者标识符，并且其中，每个第一听觉定位标识符彼此不同；确定与所述第二定义区域相关的至少一个第二听觉定位标识符，其中，所述至少一个第二听觉定位标识符不同于每个第一听觉定位标识符；并且同时向音频输出端口，在基于与多个参与者中的至少一个相对应的所述第一听觉定位标识符的听觉位置处、提供所述第一会议中的多个参与者中的至少一个的音频信号，并且在基于所述至少一个第二听觉定位标识符的听觉位置处、提供所述第二会议中的至少一个参与者的音频信号。
2.根据权利要求1所述的方法，还包括确定所述第一会议是选定会议；接收与所述用户界面的用户相关的音频信号；并且响应于所述第一会议是选定会议，将所述用户的音频信号传送至所述第一会议，并且禁止将所述用户的音频信号发送至所述第二会议。
3.根据权利要求1所述的方法，其中，所述第二定义区域至少部分地与所述第一定义区域重叠以形成重叠区域，并且其中，与所述重叠区域中的多个第二参与者标识符相对应的多个第二参与者参与所述第一会议和所述第二会议两者。
4.根据权利要求1所述的方法，其中，同时向所述音频输出端口，在基于与多个参与者中的至少一个相对应的第一听觉定位标识符的听觉位置处、提供所述第一会议中的多个参与者中的至少一个的音频信号，并且在基于所述至少一个第二听觉定位标识符的听觉位置处、提供所述第二会议中的至少一个参与者的音频信号，还包括同时向所述音频输出端口，在基于相应的第一听觉定位标识符的听觉位置处、提供所述第一会议中的多个参与者的音频信号，并且在基于所述至少一个第二听觉定位标识符的同一听觉位置处、提供所述第二会议中的至少两个参与者的音频信号。
5.根据权利要求1所述的方法，其中，至少一个第二听觉定位标识符是基于与所述多个参与者中的至少一个相对应的参与者标识符相对于所述参考位置的位置的，并且其中，同时向所述音频输出端口，在基于相应的第一听觉定位标识符的听觉位置处、提供所述第一会议中的多个参与者的音频信号，并且在基于所述至少一个第二听觉定位标识符的听觉位置处、提供所述第二会议中的至少一个参与者的音频信号，还包括同时向所述音频输出端口，在基于相应的第一听觉定位标识符的听觉位置处、提供所述第一会议中的多个参与者的音频信号，并且在基于所述至少一个第二听觉定位标识符的第一听觉位置处、提供所述第二会议中的至少一个参与者的音频信号，并且在基于与第二参与者相对应的参与者标识符的位置和所述参考位置的听觉位置处、提供所述第二会议的所述第二参与者的音频信号。
6.根据权利要求1所述的方法，还包括通过用户输入，来接收指示用户将所述第二定义区域从第一位置移动到第二位置的数据，其中，所述第二位置比所述第一位置距离所述参考位置更远；并且相应的，减小与所述第二会议中的至少一个参与者的音频信号相关的音量。
7.一种计算机程序产品，其包括计算机可读介质，所述计算机可读介质中包括计算机可读程序代码，所述计算机可读程序代码适合于在处理器上执行，以实施用于控制与多个会议相关的音频信号的方法，所述方法包括通过处理设备显示用户界面，所述用户界面绘制出第一定义区域和第二定义区域，其中，所述第一定义区域与第一会议相关，所述第二定义区域与第二会议相关；在所述第一定义区域中显示多个参与者标识符，其中，所述多个参与者标识符中的每一个对应于所述第一会议中的多个参与者中的不同参与者；根据相应的参与者标识符相对于参考位置的位置，确定多个第一听觉定位标识符，其中，每个第一听觉定位标识符对应于所述多个第一参与者标识符中不同的第一参与者标识符，并且其中，每个第一听觉定位标识符彼此不同；确定与所述第二定义区域相关的至少一个第二听觉定位标识符，其中，所述至少一个第二听觉定位标识符不同于每个第一听觉定位标识符；并且同时向音频输出端口，在基于与多个参与者中的至少一个相对应的所述第一听觉定位标识符的听觉位置处、提供所述第一会议中的多个参与者中的至少一个的音频信号，并且在基于所述至少一个第二听觉定位标识符的听觉位置处、提供所述第二会议中的至少一个参与者的音频信号。
8.—种处理设备，其包括通信接口，其适合于与网络进行通信；显示器；和控制器，其包括连接到所述通信接口的处理器，所述控制器适合于在所述显示器上显示用户界面，所述用户界面绘制出第一定义区域和第二定义区域，其中，所述第一定义区域与第一会议相关，所述第二定义区域与第二会议相关；在所述第一定义区域中显示多个第一参与者标识符，其中，所述多个第一参与者标识符中的每一个对应于所述第一会议中的多个参与者中的不同参与者；根据相应的参与者标识符相对于参考位置的位置，确定多个第一听觉定位标识符，其中，每个第一听觉定位标识符对应于所述多个第一参与者标识符中不同的第一参与者标识符，并且其中，每个第一听觉定位标识符彼此不同；确定与所述第二定义区域相关的至少一个第二听觉定位标识符，其中，所述至少一个第二听觉定位标识符不同于每个第一听觉定位标识符；并且同时向音频输出端口，在基于与多个参与者中的至少一个相对应的所述第一听觉定位标识符的听觉位置处、提供所述第一会议中的多个参与者中的至少一个的音频信号，并且在基于所述至少一个第二听觉定位标识符的听觉位置处、提供所述第二会议中的至少一个参与者的音频信号。
9.根据权利要求8所述的处理设备，其中，所述控制器还适合于确定所述第一会议是选定会议；接收与所述用户界面的用户相关的音频信号；并且响应于所述第一会议是选定会议，将所述用户的音频信号传送至所述第一会议，并且禁止将所述用户的音频信号发送至所述第二会议。
10.根据权利要求8所述的处理设备，其中，所述控制器还适合于响应于对多个第一参与者标识符当中的一个的选择，显示出音量选择工具；通过用户输入，接收指示用户已操作所述音量选择工具的数据；并且相应的，将控制信号提供至媒体服务器，以减小与所述多个第一参与者标识符当中所述的一个相对应的参与者的音频信号的音量。
全文摘要
本发明涉及用于控制多路并发电话会议中的音频信号的方法和系统。本发明公开用于控制与多个会议相关的音频信号的方法和装置。用户界面显示绘制出第一定义区域和第二定义区域。第一定义区域与第一会议相关，第二定义区域与第二会议相关。显示与第一定义区域相关的多个第一参与者标识符，多个第一参与者标识符中的每一个对应于第一会议中的多个参与者中的不同参与者。对与第一会议相关的每个参与者确定听觉定位标识符，并且对于第二会议选择听觉定位标识符。在由听觉定位标识符所确定的听觉位置处提供音频信号，使得用户能够将不同参与者的声音与在用户界面上的相应位置进行关联，并且同时收听多个会议。
文档编号H04M3/56GK102469220SQ20111037495
公开日2012年5月23日申请日期2011年11月17日优先权日2010年11月17日
发明者约翰·H·尤库姆申请人:阿瓦雅公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：约翰·H·尤库姆
技术所有人：阿瓦雅公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。