电话会议中的在感知上连续的混合的制作方法

文档序号:10694506阅读:436来源:国知局
电话会议中的在感知上连续的混合的制作方法
【专利摘要】一种在音频电话会议混合系统中将多个当前音频上行传输流混合在一起以产生至少一个音频输出流的方法,所述音频电话会议混合系统是混合多个第一音频上行传输输入流以产生用于下行传输到至少一个会议参与者的至少一个音频下行传输输出流的类型,其中所述多个第一音频上行传输输入流包含包括被感测到的音频的音频信息以及相关联的控制信息,其中所述音频上行传输输入流可以潜在地包括连续传输(CTX)流和非连续传输(DTX)流,所述方法包括以下步骤:(a)确定指示每个当前音频上行传输流的可能重要性的冗长量度;以及(b)当至少一个当前音频上行传输流可以包括CTX流时,在混合中利用至少一个CTX流以产生所述至少一个音频输出流。
【专利说明】
电话会议中的在感知上连续的混合
[0001] 对相关申请的交叉引用
[0002] 本申请要求于2014年2月28日提交的、标题为"Perc邱tually Continuous Mixing in a Teleconference"的美国临时申请No.61/946042的优先权,该申请通过引用被并入于 此。
技术领域
[0003] 本发明设及音频电话会议领域,并且特别公开了用于混合音频电话会议中的多个 音频流的方法。
【背景技术】
[0004] 在整个说明书中对【背景技术】的讨论绝对不应该被认为是承认运种技术在本领域 中是众所周知的或者形成公知常识的一部分。
[0005] 其中多个参与方远程地交互W举行会议的视频和音频电话会议系统是重要的资 源。已知许多运种系统。大多数系统依赖于集中式或分布式的服务器资源来确保每个参与 者通过使用例如专用的电话会议设备、具有音频/输入输出设备的标准计算机资源或智能 电话类型的设备而能够听到和/或看到其他参与者。集中式或分布式的服务器资源负责将 来自每个会议参与者的上行传输音频信号适当地混合在一起,并且下行传输用于由每个音 频输出设备回放的音频信号。
[0006] 作为背景,在典型的(已知的)电话会议系统中,混合器从每个电话端点接收携带 有该电话端点捕获的音频信号的相应的"上行传输流(uplink stream)",并且向每个电话 端点发送相应的"下行传输流(downlink S化earn)",因此每个电话端点接收到能够携带其 它电话端点捕获的相应音频信号的混合的下行传输流。因此,当电话会议中的两个或更多 个参与者同时讲话时,其它的参与者可W听到全部参与者讲话。
[0007] 已知(并且通常期望)混合器采用自适应方法,由此它响应于感知到一个或多个音 频信号中的某些变化而改变混合。例如,响应于确定音频信号不包含语音(即,只包含背景 噪声),可W从混合中省略该音频信号。
[000引考虑其中电话端点各自将上行传输音频流发送到电话会议混合器的电话会议系 统。在运种系统中,上行传输和下行传输可W被数字地编码并且经由诸如互联网协议电话 (Voice over Internet Protocol,VoIP)网络之类的合适的包交换网络传送,或者它们可 W在诸如公共交换电话网(PSTN)之类的电路交换网络上传输。无论哪种方式,混合器的责 任都是产生下行传输音频流W发送回到每个端点,使得通常每个参与者听到除自己W外的 每个其他参与者。
[0009]运种系统中的一类端点在上行传输上采用非连续传输(DTX)。运种端点试图通过 W下中的一项或多项来在最小化网络资源使用的同时最大化可懂度(intelligibility): 采用靠近讲话者嘴己的麦克风布置;去除背景噪声的噪声抑制信号处理;仅发送存在人类 语音时的上行传输流。
[0010] 运种策略可能使得收听者听到较少的异常噪声,但是也可能导致较少的自然发声 体验,首先是因为当背景噪声是非平稳的时,噪声抑制信号处理典型地导致引入烦扰的动 态伪像(adefact),其次是因为噪声抑制影响了语音的均衡,第Ξ是因为基于来自话音活 动检测器(VAD)的不完善信息的二元的发射/不发射判定将有时候导致语音被截断W及在 其它时候导致残余噪声被传输为语音。因此,从DTX设备接收的音频流是被期望包含不多于 可忽略量的人类可感知的背景噪声的音频输入流的示例。
[0011] 第二类端点在上行传输上采用连续传输(CTX)。即,不管VAD(如果有的话)确定语 音存在与否,CTX端点都发送音频流。在运里,意图往往是最大化收听体验的自然度 (naturalness) W及允许远程收听者执行众所周知的双声道处理的鸡尾酒会问题 (coclaail party problem),就好像他或她亲自在现场一样。因此,CTX端点可W采用多个 麦克风来保持空间多样性,W允许双声道免于掩蔽。CTX设备的设计者也可W力图限制设备 所执行的噪声抑制处理的量,W便最小化烦扰的动态伪影和频谱染色(spectral colouration)的可能性。因此,从CTX设备接收的音频流是被期望包含多于可忽略量的能被 人类感知的背景噪声的音频输入流的示例。

【发明内容】

[0012] 一般地,DTX设备力图去除、抑制或W其它方式避免传输它认为不构成人类语音的 任何东西,而CTX设备力图是透明的、W尽可能在感知上最连续且相关的方式传输一切东 西。任何混合器必须将此考虑在内。由于在未检测到语音时DTX端点的上行传输基本上是静 默的,因此当未检测到语音时,混合器可W能够随意地丢弃它的上行传输流,而不会为收听 者带来感知影响。但是,当形成包含CTX流的下行传输混合时,混合器必须在它如何对流应 用混合转换方面小屯、。例如,在未检测到讲话时丢弃CTX流可能容易被收听者注意到,因为 与该流相关联的背景噪声可能听起来被关掉了,尤其是当没有其它CTX流存在来掩盖转换 时。收听者可能疑惑系统是否已出现故障,或CTX端点是否已从会议断开连接。在运种情况 下将无法满足提供自然的收听体验的目标。
[0013] 通常,电话会议混合器的目标是允许每个参与者听到来自除自己W外的每个其他 参与者的语音。但是,对运个目标,存在一些细微区别。例如,如果各自包含背景噪声的许多 CTX流同时被收听者听到,则所听到的总背景噪声功率会增大到令人分散注意力或有损可 懂度的程度。考虑其中多个上行传输流全都同时讲话的进一步示例。其结果可能是太杂乱 而无助于有用的交流。
[0014] 本文所公开的各种创造性的方法、设备、装置和系统提供了音频会议混合的改善 形式。
[0015] 根据本公开内容的第一方面,提供了一种在音频电话会议混合系统中将多个当前 音频上行传输流混合在一起W产生至少一个音频输出流的方法,所述音频电话会议混合系 统是混合第一多个音频上行传输输入流W产生用于下行传输到至少一个会议参与者的至 少一个音频下行传输输出流的类型,其中所述音频上行传输输入流包含包括被感测到的音 频的音频信息W及相关联的控制信息,其中所述音频上行传输输入流可W潜在地包括连续 传输(CTX)流和非连续传输(DTX)流,所述方法包括W下步骤:(a)确定指示每个当前音频上 行传输流的可能重要性(Ukely importance)的冗长(verbosity)量度;W及(b)当至少一 个当前音频上行传输流可W包括CTX流时,在混合中利用至少一个CTX流来产生至少一个当 前下行传输输出流。
[0016] 在一些实施例中,所述方法包括在混合中利用具有最高冗长量度的CTX流来产生 至少一个当前下行传输输出流的步骤。优选地,步骤(b)还可W包括如下步骤:(i)当优选地 存在其上未检测到语音的辅助CTX流时,衰减该辅助CTX流。优选地,步骤(b)还可W包括如 下步骤:(ii)当具有最高冗长量度的当前CTX流未被提供话音长达延长的时间段时,衰减该 当前CTX流。
[0017] 在一些实施例中,所述方法还包括如下步骤:(c)当音频输入流的数量超过预定的 限制时,丢弃具有最低冗长量度的CTX流。
[0018] 本公开内容的第二方面提供了一种在音频电话会议混合系统中基于多个音频输 入流产生至少一个音频输出流的方法,所述音频电话会议混合系统是被配置为混合所述多 个音频输入流W由此产生用于发送到至少一个电话端点的所述至少一个音频输出流的类 型,所述方法包括:确定所述多个音频输入流包括至少一个被期望包含多于可忽略量的人 类可感知的背景噪声的音频输入流(在下文中称为"携带噪声的音频输入流"),并且所述携 带噪声的音频输入流或所述携带噪声的音频输入流中的每一个是其中当前未检测到语音 的音频流;W及将所述携带噪声的音频输入流或所述携带噪声的音频输入流中的至少一个 包括在所述至少一个音频输出流中。
[0019] 尽管即使当包含可听到的背景噪声的至少一个音频输入流不包括语音时将所述 音频输入流包括在音频输出流中也可能被认为是违反直觉的,本发明人认识到,可听到的 背景噪声的存在会导致提供更自然的收听体验的"氛围"(例如,纸张翻页、打呵欠、玩钢笔 等)。
[0020] 在一些实施例中,所述方法包括:确定所述多个音频输入流包括多个其中当前未 检测到语音的携带噪声的音频输入流并且所述携带噪声的音频输入流中的每一个是的音 频流;针对所述携带噪声的音频输入流中的每个携带噪声的音频输入流,确定各自的感知 重要性量度;基于所述携带噪声的音频输入流的各自的感知重要性量度,选择所述携带噪 声的音频输入流的子集;W及将所述携带噪声的音频输入流的所述子集包括在所述至少一 个音频输出流中。
[0021] 在一些实施例中,所述方法包括:选择感知重要性量度最高的一个或多个携带噪 声的音频输入流;W及将所选择的携带噪声的音频输入流包括在所述至少一个音频输出流 中。
[0022] 本公开内容的第Ξ方面提供了一种在音频电话会议混合系统中基于多个音频输 入流产生至少一个音频输出流的方法,所述音频电话会议混合系统是被配置为混合所述多 个音频输入流W由此产生用于发送到至少一个电话端点的所述至少一个音频输出流的类 型,所述方法包括:确定所述多个音频输入流包括至少一个被期望包括不多于可忽略量的 人类可感知的背景噪声的音频输入流(在下文中称为"噪声可忽略的音频输入流")并且所 述噪声可忽略的音频输入流或所述携带噪声的音频输入流中的每一个是其中当前未检测 到语音的音频流;W及将所述噪声可忽略的音频输入流或所述噪声可忽略的音频输入流中 的至少一个包括在所述至少一个音频输出流中。
[0023] 在一些实施例中,所述方法包括:将所有噪声可忽略的音频输入流都包括在所述 至少一个音频输出流中。尽管将所有的噪声可忽略的音频输入流都包括在所述至少一个音 频输出流中会被认为是违反直觉的,但是本发明人认识到,运不会显著地损害呼叫的"自然 度",并且不省略运些音频信号会导致音频信号的较少交换。
[0024] 本公开内容的第四方面提供了一种在音频电话会议混合系统中基于多个音频输 入流产生至少一个音频输出流的方法,所述音频电话会议混合系统是被配置为混合所述多 个音频输入流W由此产生用于发送到至少一个电话端点的所述至少一个音频输出流的类 型,所述方法包括:确定所述多个音频输入流包括多于阔值数量的其中当前检测到语音的 携带噪声的音频输入流;针对所述携带噪声的音频输入流中的每个携带噪声的音频输入 流,确定各自的感知重要性量度;基于所述携带噪声的音频输入流的各自的感知重要性量 度,选择所述携带噪声的音频输入流的子集;W及将所述携带噪声的音频输入流的所述子 集包括在所述至少一个音频输出流中。
[0025] 本发明人意识到,在音频输出流中存在过多(例如,多于五个)携带噪声的音频输 入流在某些情况下将显著地损害呼叫的"自然度"。
[0026] 在一些实施例中,所述方法包括:确定所述多个音频输入流还包括其中当前检测 到语音的噪声可忽略的音频输入流;W及将所述噪声可忽略的音频输入流与所述携带噪声 的音频输入流的所述子集一起包括在所述至少一个音频输出流中。
[0027] 在一些实施例中,所述方法包括:确定所述多个音频输入流还包括多个其中当前 检测到语音的噪声可忽略的音频输入流;W及将所述噪声可忽略的音频输入流与所述携带 噪声的音频输入流的所述子集包括在所述至少一个音频输出流中。
[0028] 在一些实施例中,针对音频输入流确定感知重要性量度包括指示该音频输入流在 当前呼叫期间已包括多少语音的量度。运可能有助于参与者听到的"氛围"的感知连续性。
[0029] 在一些实施例中,所述携带噪声的音频输入流或所述携带噪声的音频输入流中的 每个是连续传输(CTX)音频输入流。
[0030] 在一些实施例中,所述噪声可忽略的音频输入流或所述噪声可忽略的音频输入流 中的每个是非连续传输(DTX)音频输入流。
[0031] 本公开内容的第五方面提供了用于在电话会议混合系统中使用的装置,该装置被 配置为接收多个音频输入流并基于音频输入流产生至少一个音频输出流,该装置包括被配 置为执行上述方法中的至少一个方法的处理器。
[0032] 本公开内容的第六方面提供了携带有计算机可解释指令的计算机可读介质,当所 述计算机可解释指令被用于在电话会议混合系统中使用的装置的处理器执行时,其中该装 置被配置为接收多个音频输入流并基于音频输入流产生至少一个音频输出流,使得该装置 执行上述方法中的至少一个方法。
[0033] 在各种实施例中,如果携带噪声的音频输入流在超过预定的最大时间内不包含语 音,则它将淡出(fade out),而不是突然从音频输出流中省略。
[0034] 本公开内容的运些方面和其它方面可W从示例性实施例的W下描述中得W理解。
【附图说明】
[0035] 现在将参照附图,W举例的方式描述各种实施例,其中:
[0036] 图1示意性地例示了优选实施例的自适应混合布置的一种形式;
[0037] 图2示意性地例示了优选实施例的电话会议混合器;W及
[0038] 图3是示出了电话会议混合器元件的示例的框图。
【具体实施方式】
[0039] 优选实施例在用于音频电话会议(具有或不具有相关联的视频流)的环境中操作, 并且提供了用于混合多个上行传输流的方法,W确保在CTX和DTX环境中对输出信号进行高 效的混合。
[0040] 在图1中示出了示例性的音频电话会议系统。在运种布置中,一系列会议参与者共 同提供音频输入与输出。例如,在布置1中,第一参与者2使用互连到计算机6的一对耳机5和 输入麦克风3来参与会议。计算机6通过网络9提供与混合器11的上行传输8和下行传输7连 接。
[0041] 第二组参与者(例如,20)使用音频设备21,音频设备21提供包括空间化信息的音 频输出。音频设备21也提供内部计算和通信能力,并且包括经由网络25与混合器11互连的 上行传输23和下行传输24通道。
[0042] 其它参与者也可W通过其它手段互连到混合器11。
[0043] 图1的布置包括使用DTX端点具有悬挂式麦克风(boom microphone)3的双耳耳 机5为例)的多个会议参与者2。所述多个DTX端点中的每个DTX端点典型地经由网络9来向电 话会议混合器11断言DTX上行传输流8。混合器产生用于每个DTX端点的下行传输流7,下行 传输流7通过网络9被传输回到端点2W被参与者2听到。
[0044] 多个CTX端点扬声电话设备21为例)中的每个CTX端点捕获另外的多个参与者 20的语音27。不平凡的背景噪声也可W被运种设备捕获。所述多个CTX端点中的每个CTX端 点典型地经由网络25向混合器11断言CTX上行传输流24。不失一般性,网络25可W是由DTX 端点使用的网络相同的网络。混合器11为每个CTX端点产生下行传输流23,下行传输流23通 过网络25被传输回到端点21W便回放给多个参与者20。
[0045] 在电话会议系统中,每个参与者端点发送上行传输音频流到电话会议混合器并且 从其接收下行传输流。在运种系统中,上行传输和下行传输可W被数字地编码并且经由诸 如互联网协议电话(VoIP)网络之类的合适的包交换网络传输,或者它们可W通过诸如公共 交换电话网(PSTN)之类的电路交换网络传送。无论哪种方式,混合器11的责任都是产生下 行传输音频流W发送回给每个端点5、21,使得通常每个参与者听到除自己W外的每个其他 参与者。
[0046] 但是,对于运个目标,存在一些细微区别。例如,如果各自包含背景噪声的许多CTX 流同时被收听者听到,则所听到的总背景噪音功率会增加到令人分散注意力或有损可懂度 的程度。作为进一步的示例,考虑多个上行传输流全部同时讲话。其结果可能是太杂乱而不 便于进行有用的交流。在运种情况下,只让两个或Ξ个在感知上最相关的流通过可能更好。 包括本作者在内的许多作者已提议了用于实现运个的方法。例如,Enbom等人的欧洲专利申 请EP 1855455B1公开了一种运样的方法。
[0047] 虽然混合器按照需要管理电话会议呼叫,但是图2示意性地例示了电话会议混合 器11的说明性形式。
[004引如图2中所示,多个上行传输流(一些DTX(31,32),一些CTX(33))被断言到混合器 11。每个上行传输流经过相应的解包单元35、36、37。取决于上行传输编码信息,每个解包单 元对相应的上行传输流进行解包,并且从上行传输流中提取VAD 38、掩蔽事件信息和音频 信息40,并且如下所述地识别掩蔽事件39。
[0049] 混合器11产生多个下行传输流42、43、44。在图2中示出了与下行传输流43之一相 关联的子混合装置46。为每个其它下行传输流42、44存在的各个类似的子混合装置未被示 出。用于该下行传输的混合控制单元47对由与其它下行传输相关联的解包单元35、37产生 的VAD和掩蔽事件信号进行操作,并且为除上行传输36之外的每个上行传输产生增益,因为 下行传输43将会被生成上行传输32的同一端点Y听到。运些增益被用于缩放48、49和混合50 来自上行传输的音频,W产生适合通过下行传输43重新打包和编码51回去的最终音频流。
[0050] 优选实施例提供了用于在电话会议系统中将DTX和CTX上行传输混合在一起W形 成具有整体唯一混合策略的一系列在感知上连续的下行传输的方法。
[0051] 考虑服务多个DTX端点(即,仅当估计存在语音时才在上行传输上传输音频的端 点)和多个CTX端点(即,连续地在上行传输上传输音频的端点)的VoIP(互联网协议电话)电 话会议服务器。周期性地(例如每20ms),服务器需要分析自从上次之后已通过网络接收到 的编码音频的上行传输包,并且产生包含编码音频的新的下行传输包W发送给每个端点。 由于发送端点上的时钟和服务器上的时钟之间的偏差W及由于网络中引入的抖动和包丢 失,所W上行传输包可能不是W服务器需要它们的正好相同的速率(例如每20ms巧Ij达。因 此,服务器将需要采用如本领域技术人员已知的抖动缓冲方案。在抖动缓冲之后,应该在任 何端点处的收听者听到来自除他自己W外的每个其它端点的语音的总体目标下、基于输入 包来形成下行传输包。
[0052] 优选实施例提供了通过根据W下原则W在感知上连续的方式处理DTX和CTX流运 两者来延伸先前技术的方法。
[0053] 关于哪些流被听到和哪些流不被听到的判定基于冗长度量,冗长度量是描述对话 中特定上行传输的重要性的度量。可W使用不同表征形式的冗长度量或类似物,包括诸如 每个通道的功率谱分析之类的简单的量度。冗长的一种较复杂的量度在于2012年9月27日 提交的、标题为('Method for Improving Perceptual Continuity in 曰 Spatial Teleconferencing System"的美国专利申请61/706315中获得,该申请的内容通过交叉引 用被并入于此。
[0054] 当人们讲话时,除非存在极端条件,否则他们期望被听到。因此,每当与CTX流相关 联的VAD估计流中存在语音时,该CTX流将被听到,除非超过了包含活动语音的CTX流的某个 最大计数N_MAX(例如,5)。在多于N_MAX个CTX流同时包含语音的情况下,具有最高冗长的N_ MAX个流将被听到,而其它的流可W被剔除。如果许多CTX流被听到,则结果立即很可能变得 杂乱或增杂,并且还会消耗显著的服务器资源来进行混合。
[0055] 期望的是:当CTX流都未包含活动语音时,在大部分时间,单个CTX上行传输在每个 下行传输中可听到。如果CTX流在讲话一停止就突然被关闭,则运将立即被注意到并且将听 起来不自然。另一方面,如果许多CTX流被听到,则结果立即可能是令人分屯、地杂乱或增杂, 并且也将消耗显著的服务器资源来混合。
[0056] 在优选实施例中,期望具有在任何时间在每个下行传输中活动的至少单个CTX流。 运个流被表示为发言者。选择最冗长(即,最高冗长)的流成为发言者是合乎逻辑的,因为考 虑到那是在最近的历史中在会议中已包含最多语音的数据流,所w它最有可能是收听者的 关注焦点。
[0057] 期望的是CTX流被文雅地中断。运意味着,当没有语音存在时,不是直接将其关闭, 而是服务器应该在等待某个最小保持时间W查看是否即将到来更多语音之后将它淡出。但 是,更重要的是,人们被听到。因此,当多于N_MX个CTX流活动时,不应该应用此原则。
[0058] 如果CTX流全都在长时间段(例如,1分钟)内不包含语音,则可逐渐降低"所听 到的最后一个CTX流。运可W通过每次声明掩蔽事件时应用量值G_STEP(例如,-2地)的离散 衰减步骤来完成。当端点在长度1'_1451((例如,3秒)的静默时间段之后开始讲话时,掩蔽事 件被检测到。一旦流被衰减超过一定量,例如G_THRES册LD(例如,-18地),它就可W被淡出 和中止。确定流已长时间段处于非活动状态的简单方法是检查其冗长是否处于某个小的阔 值¥_1'皿65册LD (例如,0.05) W下。
[0059] 具体实施例
[0060] 现在将描述图2的子混合单元46的实现的具体实施例的一种形式。
[0061] 对于每个连接的端点或下行传输,维护场景对象作为从帖到帖的状态。场景对象 可W包括:1.对输入流的一组引用(即,来自其它被连接的端点的上行传输流);2. -组输出 流定义,其中每个输出流定义又包括:a)对所分配的输入流的一组引用;b)关于对所分配输 入流的每个引用,相关联的混合增益。
[0062] 周期性地(例如,每20ms):
[0063] 1)将集合D(该帖将需要被执行解码的输入流的集合)初始化为空集合。
[0064] 2)将集合S(该帖将需要被混合和重新编码的场景的集合)初始化为空集合。
[0065] 3)执行准备遍历;对于每个被连接的端点:
[0066] a)从抖动缓冲区获取下一个上行传输音频包。
[0067] b)确定音频包中是否存在语音(讲话标志)。
[0068] 运可W通过对包进行解码并且应用合适的VAD或者通过提取已由发送端点在音频 包中提供的讲话标志元数据来完成。
[0069] 4)执行冗长更新遍历;对于每个被连接的端点:
[0070] 基于讲话标志为运个端点更新冗长度量。
[0071] 由于冗长是长期聚合体,因此使用来自先前帖的讲话标志也是能接受的,使得冗 长可W被计算为第一遍历的一部分。
[0072] 5)执行计划遍历;对于每个被连接的端点,更新场景对象:
[0073] a)在第一子遍历中,有必要确定哪些输入流要启用:
[0074] i .记录已断言其讲话标志的CTX输入流的数量n_ctx。
[0075] ii.创建不超过N_MAX个具有当前被断言的讲话标志的最冗长(即,最高冗长)输入 流的集合L。
[0076] iii.记录其讲话标志被设置、但不是集合L的成员的输入流的数量11_(31111。
[0077] iv.如果有的话,则找到哪个CTX输入流当前具有最高冗长(至少为¥_1'皿65册LD)。 指定运个流为发言者。
[0078] V.如果在不活动至少T_MASK的时间段之后,任何输入流的讲话标志经历从被清除 到被断言该帖,则声明与此场景相关联的掩蔽事件。
[0079] b)在第二子遍历中,有必要在场景中启用输入流。对于集合L中的每个输入流:
[0080] i.将混合增益设置为0地(一致)。
[0081] ii.确保输入流被分配给输出流。如果多个输入流被分配给相同的输出流,则它们 可W在服务器处被解码和混合。仅被分配单个输入流的任何输出流可W在不解码的情况下 被转发。输出包可W包含多个输出流,在运种情况下,它们被混合在一起并且在接收端点处 被呈现。
[0082] C)在第Ξ子遍历中,从场景中剔除之前听到的输入流。对于当前被分配给输出流 但不是集合L的成员的每个输入流:
[0083] i.如果输入流是DTX,则立即将它从其输出流解除分配。
[0084] ii.如果输入流是CTX并且n_cull非零,则将该流在运个输出流中标记为淡出。否 则:
[0085] iii.如果输入流没有被指定为发言者、n_ctx大于1并且该流已经不活动长达至少 T_H0LD,则将该输入流在其输出流中标记为淡出。
[0086] iv.如果输入流没有被指定为发言者并且11_(3*《是1(运是当前听到的唯一CTX流, 但它不是发言者),则在掩蔽事件已被声明时将其混合增益减少6_5了6?。如果混合增益现在 小于G_THRES册LD,则将运个输入流在其输出流中标记为淡出。
[0087] d)在第四子遍历中,对正在淡出的流的增益进行更新。对于当前被分配给输出流 的每个输入流:
[008引i .如果输入流被标记为淡出,则将其混合增益减少6_曰406。
[0089] ii.如果输入流的混合增益小于G_CUT,则将它从输出流解除分配。
[0090] iii.在第五子遍历中,我们把为了对场景进行混合而需要执行解码的任何输入流 添加到集合D,如果它们还不是成员的话。
[0091] iv.如果所得到的场景不是空的,则将它添加到集合S。
[0092] 6)可选地,通过定位和合并集合S中的相同场景来执行场景共享遍历。如果每个输 出流由具有相同混合增益的一组相同的输入流形成,则两个场景应该被视为相同的。相同 的场景应该被合并成单个场景对象,该单个场景对象记录了它应该被发送到哪些端点。
[0093] 7)执行集合D中的每个输入流解码,使得解码的音频数据可用于混合。
[0094] 8)执行混合遍历;对于S中的每个场景:
[00M] (a)对于场景中的每个输出流:
[0096] i.如果输出流具有分配给它的多个输入流,则将在解码遍历(7)中从输入流导出 的解码音频混合在一起,并且重新编码混合后的音频,W准备用于在下行传输包中传输。
[0097] ii.否则,如果输出流具有分配给它的单个输入流:则复制或引用该输入流,W准 备用于在下行传输包中发送,而无需重新编码。
[0098] 9)执行发送遍历;对于S中的每个场景,并且对于要接收运个场景的每个端点:
[0099] (a)通过利用任何所需要的特定于端点的头部信息(例如,序列号)预先考虑在混 合遍历(8)中产生的输出流数据来形成完整的下行传输包。
[0100] (b)将下行传输包发送到端点。
[0101] 10)当接收到下行传输包时,端点应该解码在其中发现的每个流、将它们混合在一 起、并且通过扬声器或耳机呈现它们。
[0102] 假设20毫秒的帖时段,在W上讨论中W斜体大写字母示出的每个常数的建议值在 下表中给出。
[0103]
图3是示出了电话会议混合器元件的示例的框图。图3中示出的部件的类型和数量I 仅仅W示例的方式示出。可替代的实现可W包括更多、更少和/或不同的部件。电话会议混 合器300例如可W是电话会议服务器的实例。在一些示例中,电话会议混合器300可W是另 一个设备的部件。例如,在一些实现中,电话会议混合器300可W是远程会议服务器的部件, 例如,线卡(line card)。电话会议混合器300可W至少部分地由如下控制系统来实现:该控 制系统可W包括通用的单忍片或多忍片处理器、数字信号处理器(DSP)、专用集成电路 (ASIC)、现场可编程口阵列(FPGA)或其它可编程逻辑器件、分立口或晶体管逻辑和/或分立 硬件部件。在一些实现中,电话会议混合器300可W根据存储在一个或多个非临时性介质上 的指令(例如,软件)来实现。运种非临时性介质可W包括存储器设备,诸如本文所描述的那 些,包括但不限于:随机存取存储器(RAM)设备、只读存储器(ROM)设备,等等。
[0105] 在图3示出的示例中,电话会议混合器300包括解包单元303A-303C,解包单元 303A-303C被示出为接收DTX上行传输流301A-301C。运里,电话会议混合器300还包括解包 单元304A-304C,解包单元304A-304C被示出接收CTX上行传输流302A-302C。在一些实现中, 解包单元303A-303C可W是图2和W上所述的解包单元35和36的实例,并且解包单元304A- 304C可W是图2和W上所述的解包单元37的实例。
[0106] 虽然解包单元303A-303C和解包单元304A-304C都没有示出输出事件信息(诸如在 图2中示出的X事件、Y事件和Z事件信息),但是,在一些实现中,解包单元303A-303C和/或解 包单元304A-304C可W能够确定所接收的上行传输流中的事件W及能够输出事件信息。根 据一些运种实现,解包单元303A-303C和/或解包单元304A-304C可W能够根据所接收的上 行传输流中的事件标志(或类似指示)确定事件。可替代地或附加地,在一些实现中,解包单 元303A-303C和/或解包单元304A-304C可W能够通过其它手段确定事件,诸如通过对所接 收的上行传输流进行分析。
[0107] -些此类示例可W包括特征提取器和事件检测器。在一些实现中,特征提取器和 事件检测器运两者都可W在解包单元或在电话会议混合器的一个或多个其它部件中实现。 在可替代的实现中,特征提取器和事件检测器运两者都可W在电话端点中实现。在其它实 现中,特征提取器可W在电话端点中实现,而事件检测器可W在解包单元中或在电话会议 混合器的一个或多个其它部件中实现。
[0108] 特征提取器可W能够分析输入波形W及产生对应于一种或多种特征的输出,诸如 等级的变化和/或谱通量的变化(例如,节距的变化)。在一些示例中,特征提取器可w能够 有VAD功能。根据一些运种示例,特征提取器可W能够分析输入波形W及能够输出VAD结果。
[0109] 事件检测器402可W能够分析由特征提取器提取的特征W及能够产生对应于一种 或多种事件的输出。在一些实现中,事件可W与语音的开始、语音的停止、特别音节的出现、 语音的词或类别、音量的变化、谱通量的变化或其它类似变化、和/或根据听觉场景分析而 确定的标准对应。在一些实现中,事件检测器的输出可W是"二元的",仅指示事件是否存在 或不存在。但是,在一些示例中,事件检测器的输出也可W指示事件量值。
[0110] 根据一些示例,解包单元303A-303C可W能够只处理DTX上行传输流并且解包单元 304A-304C可W能够只处理CTX上行传输流。但是,在一些实现中,解包单元303A-303C和/或 解包单元304A-304C可W能够处理CTX上行传输流和DTX上行传输流运两者。根据一些运种 实现,解包单元303A-303C和/或解包单元304A-304C可W能够根据标志、上行传输流中的头 部或其它信息来确定把上行传输流作为CTX上行传输流还是DTX上行传输流来处理。在一些 实现中,关于把上行传输流作为CTX上行传输流还是DTX上行传输流来处理的信息可W在上 行传输流的外部。在一些运种实现中,关于把上行传输流作为CTX上行传输流还是DTX上行 传输流来处理的信息可W在会话发起过程期间交换,例如,在端点和电话会议服务器(或其 一部分,诸如解包单元)之间根据会话发起协议(SIP)的协商期间。可替代地,关于把上行传 输流作为CTX上行传输流还是DTX上行传输流来处理的信息可能在上行传输流中或在会话 发起过程期间没有被显式地指示,但是可W根据对于上行传输流的包中的诸如VAD标志之 类的信息的分析来确定。在一个运种示例中,CTX上行传输流可W通过两个连续包的两个 VAD标志被设置为零的实例来识别。
[0111] 根据一些实现,解包单元的数量将取决于上行传输流的数量并且解包单元的功能 将取决于上行传输流是CTX上行传输流还是DTX上行传输流。例如,在一些运种实现中,控制 系统可W调用对应于上行传输流的数量的多个软件模块。每个软件模块可W具有取决于对 应的上行传输流是CTX上行传输流还是DTX上行传输流的解包单元功能。
[0112] 在图3中所示的示例中,解包单元303A-303C和解包单元304A-304C能够输出音频 信息306A-306F,每个音频信息306A-306F来自对应的上行传输流。取决于特定的实现,音频 信息306A-306F可W是在时域或频域中。在一些示例中,音频信息306A-306F可W被修改为 离散余弦变换(MDCT)音频数据。取决于特定的实现,音频信息306A-306F可W被编码或解 码。在本示例中,至少音频信息30抓-306F可W被解码。
[0113] 在本示例中,解包单元303A-303C和解包单元304A-304C能够输出语音活动信息 305A-305F,指示对应的上行传输流中的语音。在一些实现中,当DTX端点已检测到语音时, DTX端点将只发送上行传输流。根据一些此类示例,解包单元303A-303C可W能够输出与在 其间接收到DTX上行传输流的时间间隔对应的语音活动信息。
[0114] 在一些实现中,CTX端点可W能够进行语音活动检测,并且可W将诸如VAD标志之 类的信息包括在CTX上行传输流中,W指示CTX上行传输流中音频数据的哪些部分对应于语 音。根据一些运种示例,解包单元304A-304C可W能够输出与CTX上行传输流302A-302C中检 测到的VAD标志或其它运种信息对应的语音活动信息。但是,在可替代的示例中,解包单元 304A-304C可W能够进行语音活动检测,并且可W能够输出与CTX上行传输流302A-302C中 检测到的语音对应的语音活动信息。
[0115] 在本示例中,解包单元303A-303C和解包单元304A-304C能够将语音活动信息 305A-305F输出到冗长估计器模块308。因此,在运个实现中,来自电话会议中设及的所有上 行传输流的语音活动信息被输入到冗长估计器模块308。在本示例中,冗长估计器模块308 能够为CTX端点计算冗长度量,诸如对应于CTX上行传输流302A-302C的Ξ个CTX端点。如本 文其它地方所指出的,冗长度量可W指示上行传输流的可能重要性。
[0116] 计算冗长度量的过程和/或冗长度量本身可W根据实现而变化。在一些实现中,冗 长估计器模块308可W能够至少部分地基于每个上行传输流的功率谱分析来计算冗长度 量。在一些实现中,冗长估计器模块308可W能够根据在于2013年9月25日提交的国际专利 申请NO.PCT/US2013/061648中例如第24-29页描述的一种或多种方法来计算冗长量度,该 申请的内容通过引用被并入于此。
[0117] -些运种实现可能设及随着时间积累(例如,每个会话参与者或每个上行传输流 的)每个输入声场信号的冗长度量。运种实现可能设及为每个端点i的输入声场信号确定冗 长值Vi。冗长值Vi可W取决于会议中的活动而被修改。Vi的相对高的值可W指示端点i已更 加活跃,并且因此更可能或更适于被维持为多路复用输出声场信号中的最近活动的声场。 冗长度量Vi可W在每帖或根据一组规则和参数的时刻被修改。规则和参数的示例在下面表 1中列出。特别地,表1例示了机制和对冗长度量的建议修改。
[011 引
[0119] 表 1
[0120] -般而言,根据上面的一组参数,当端点i活动时,用于端点i的冗长Vi可W增加, 并且如果端点i是唯一的活动端点,则增加得更快。当端点i不活动时,并且至少一个其它端 点活动时,冗长Vi可W减少。如果只有一个活动端点,则冗长Vi可W减少得更快。在会议中没 有活动的情况下,在一些示例中当前冗长等级可W被维持。在一些实施例中,可W优选地应 用冗长Vi的适当衰减并且将衰减链接到端点i的相关联的声场信号的淡出。
[0121] 根据一些示例,如果第一会议参与者在第一时间间隔期间已比其他会议参与者讲 得更多,并且然后在第二时间间隔期间停止讲话,但是在第二时间间隔期间,没有其他会议 参与者在讲话,则第一会议参与者的冗长可W在该时间间隔期间保持恒定。但是,如果另一 个会议参与者在第二时间间隔期间开始讲话,则第一会议参与者的冗长可W在该时间间隔 期间减少。根据一些实现,如果多于一个其它会议参与者在第二时间间隔期间开始讲话,贝U 第一会议参与者的冗长可W在第二时间间隔期间减少得更快。
[0122] 在图3所示的示例中,冗长估计器模块308被示为输出冗长度量V1-V3,冗长度量 V1-V3分别对应于CTX上行传输流302A-302C之一。在一些实现中,冗长估计器模块308可W 能够输出〇(意味着交谈参与者在至少预定长度的时间内根本没有讲话)和1(意味着交谈参 与者在至少预定长度的时间内已是最主要的讲话者)之间的数字。
[0123] 根据本示例,冗长度量V1-V3被输入到增益控制单元309。在运个实现中,增益控制 单元309能够确定混合策略,混合策略包括用于CTX上行传输流302A-302C中的每一个CTX上 行传输流的至少部分基于冗长度量V1-V3的增益。运里,增益控制单元309能够将对应于冗 长度量V1-V3的增益信息314A-314C提供给对应的增益单元310A-310C。因此,在本示例中, 增益控制单元309可W为具有相对较高的冗长度量的CTX上行传输流确定相对较高的增益, 并且可W为具有相对较低的冗长度量的CTX上行传输流确定相对较低的增益。
[0124] 混合策略也可W基于其它因素。例如,在图3所示的示例中,为简单起见,只有单个 下行传输流320被示为正在从多路复用器313中输出。下行传输流320对应于电话会议中设 及的单个端点。电话会议混合器300将一般地输出多个下行传输流,电话会议中设及的每个 端点一个下行传输流。在一些实现中,电话会议混合器300可W能够允许每个会议参与者听 到来自除她或他自己W外的每个其他会议参与者的讲话(具有一些可能的约束)。因此,在 一些运种实现中,混合策略还可W包括为来自对应于下行传输流320的端点的CTX上行传输 流确定低(或零)增益。
[0125] 在一些示例中,增益控制单元309可W能够提供与W上参照图2描述的混合控制单 元47的功能类似的功能。根据一些运种示例,增益控制单元309可W能够至少部分地实现W 上描述的本公开内容的各个方面。例如,在一些实现中,增益控制单元309可W能够根据各 种标准(诸如本文所公开的那些标准)来衰减一个或多个CTX上行传输流、丢弃一个或多个 CTX流、即使在输入流中当前未检测到讲话也将携带噪声的CTX上行传输流包括在输出流 中、将当前检测到其中有讲话的携带噪声的CTX上行传输流的子集包括在输出流中、即使在 CTX上行传输流中当前未检测到讲话也将噪声可忽略的CTX上行传输流包括在输出流中,等 等。尽管在图3所示的示例中,增益控制单元309没有被示出从解包单元接收事件信息,但是 在可替代的示例中,增益控制单元309可W至少部分地基于由解包单元产生的事件信号来 确定混合策略。
[01%] 在本示例中,对应的增益单元310A-310C能够基于由增益控制单元309提供的增益 信息来将增益应用到CTX上行传输流中对应的一个。在运个实现中,CTX混合器311能够混合 从增益单元310A-310C输出的CTX上行传输流。在一些示例中,CTX混合器311可W能够提供 与W上参照图2描述的混合单元50的功能类似的功能。
[0127]在运个实现中,CTX混合器311能够将混合后的CTX流315提供给重新编码/重新打 包单元312。重新编码/重新打包单元312可W能够对混合后的CTX流315进行编码并且能够 将混合后的编码CTX流317提供给多路复用器313。
[0128] 在图3所示的示例中,DTX混合器307从解包单元303A-303C接收对应于DTX上行传 输流301A-301C的音频信息306A-306C。在一些实现中,音频信息306A-306C可W被编码,而 在其它实现中,音频信息306A-306C可W被解码。
[0129] 根据一些实现,DTX混合器307可W允许多达最大数量的编码DTX流被包括在下行 传输流320中。在一些运种实现中,DTX混合器307可W在虚拟空间中向每个编码DTX流分配 相关联的位置。根据一些实现,DTX混合器307可W能够根据一组规则,诸如在标题为 "Placement of Talkers in 2D or 3D Conference Scene"的国际申请号PCT/US2013/ 033270中例如第1-10和22-36页描述的那些规则,将会议参与者语音分配到虚拟空间中的 位置。在图3所示的实现中,多路复用器313能够向多路复用器313提供混合后的DTX流319。 在本示例中,多路复用器313能够将混合后的编码CTX流317与混合后的DTX流319多路复用, W产生下行传输流320。
[0130] 解释
[0131] 贯穿本说明书,对"一种实施例"、"一些实施例"或"实施例"的引用意味着联系该 实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此,在贯穿本 说明书的不同位置中,短语"在一种实施例中"、"在一些实施例中"或"在实施例中"的出现 不一定都指代相同的实施例,但是可W指代相同的实施例。此外,在一个或多个实施例中, 如本领域普通技术人员根据本公开内容而显而易见的,特定特征、结构或特性可任何 合适的方式进行组合,。
[0132] 在下面的权利要求和本文的描述中,术语"包括"、"包含"中的任何一个是意味着 至少包括后面的要素/特征但不排除其它要素/特征的开放性术语。因此,当在权利要求中 使用时,术语"包括"不应该被解释为受限于之后列出的手段或要素或步骤。例如,表述设备 包括A和B的范围不应该被限制为设备只由元素 A和B组成。如本文中所使用的术语"包括"或 "包含"中的任何一个也是开放性术语,其也意味着至少包括该术语之后的要素/特征,但不 排除其它的要素/特征。因此,包含与包括是同义词并且意味着包括。
[0133] 如本文中所使用的,术语"示例性"是在提供示例的意义上被使用,而不是指示质 量。即,"示例性实施例"是作为示例提供的实施例,而不一定是示例性质量的实施例。
[0134] 应当理解,在本发明的示例性实施例的W上描述中,出于组织本公开内容和帮助 对各种创造性方面中的一个或多个方面的理解的目的,本发明的各种特征有时在单个实施 例、附图或其描述中被组合在一起。但是,运种公开方法不应该被解释为反映所要求保护的 发明需要的特征要多于在每个权利要求中明确描述的特征的意图。相反,如W下权利要求 反映的,创造性方面在于少于单个上述公开实施例的所有特征。因此,【具体实施方式】后面的 权利要求由此被明确地结合到【具体实施方式】中,其中每项权利要求独立地作为本发明的单 独实施例。
[0135] 此外,虽然本文中所描述的一些实施例包括其它实施例中所包括的某些特征,而 不包括其它特征,但是如本领域技术人员将理解的,不同实施例的特征的组合意味着要在 本发明的范围之内,并且形成不同的实施例。例如,在下面的权利要求中,要求保护的任何 实施例可W W任何组合被使用。
[0136] 此外,一些实施例在本文中被描述为可由计算机系统的处理器或由执行功能的其 他手段实现的方法或方法要素的组合。因此,具有用于执行运种方法或方法要素的必要指 令的处理器形成用于执行方法或方法要素的装置。此外,装置实施例的在本文中所描述的 元件是用于执行由该元件执行的功能W便执行本发明的装置的示例。
[0137] 可W采用一个或多个计算机可读介质的任意组合。计算机可读介质可W是计算机 可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可W是但不限于电、磁、 光、电磁、红外、或半导体的系统、装置或设备,或者W上各项的任何合适的组合。计算机可 读存储介质的更具体的示例(非穷举的列表)包括W下:具有一个或多个导线的电连接、便 携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(ROM)、可擦可编程只读存储器 化PROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或者 W上各项的任何合适的组合。在本文件中,计算机可读存储介质可W是包含或存储程序的 任何有形介质,该程序可W被指令执行系统、装置或设备使用或者与其结合使用。
[0138] 计算机可读信号介质可W包括基带中的或者作为载波一部分的、其中包含了计算 机可读程序代码的传播数据信号。运种传播数据信号可W采用各种形式中的任何形式,包 括但不限于:电磁信号、光信号或其任何合适的组合。
[0139] 计算机可读信号介质还可W是计算机可读存储介质W外的、可W传送、传播或者 传输用于由指令执行系统、装置或设备使用或者与其结合使用的程序的任何计算机可读介 质。
[0140] 计算机可读介质上包含的程序代码可W用任何适当的介质传送,包括但不限于: 无线、有线、光缆、RF等等,或者W上各项的任何合适的组合。
[0141] 用于执行本申请的各方面的操作的计算机程序代码可-种或多种编程语言 的任何组合来编写,编程语言包括:面向对象的编程语言,诸如化va、Smallta化、C++等;W 及常规的过程式编程语言,诸如"C"编程语言或类似的编程语言。程序代码可W作为独立的 软件包完全地在用户计算机上执行、或者部分地在用户计算机上和部分地在远程计算机上 执行或完全地在远程计算机或服务器上执行。在后者的情形中,远程计算机可W通过任何 类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或者可W连接到外部计 算机(例如,利用互联网服务提供商通过互联网)。
[0142] 在本文提供的描述中,阐述了许多具体细节。但是,应该理解,本发明的实施例可 W在没有运些具体细节的情况下实践。在其它实例中,众所周知的方法、结构和技术没有被 详细示出,W免混淆对本描述的理解。
[0143] 虽然已描述了被认为是本发明的优选实施例的内容,但是本领域技术人员将认识 到,在不脱离本发明的精神的情况下,可W对其做出其它和进一步的修改,并且意在要求所 有运种变化和修改落入本发明的范围之内。例如,W上给出的任何公式仅仅代表可W使用 的过程。可W从框图中添加或删除功能,并且操作可W在功能块之间互换。在本发明的范围 之内可W对所描述的方法添加或删除步骤。
【主权项】
1. 一种在音频电话会议混合系统中将多个当前音频上行传输流混合在一起以产生至 少一个音频输出流的方法,所述音频电话会议混合系统是混合第一多个音频上行传输输入 流以产生用于下行传输到至少一个会议参与者的至少一个音频下行传输输出流的类型,其 中所述音频上行传输输入流包含包括被感测到的音频的音频信息以及相关联的控制信息, 其中所述音频上行传输输入流潜在地包括连续传输(CTX)流和非连续传输(DTX)流,所述方 法包括以下步骤: (a) 确定指示每个当前音频上行传输流的可能重要性的冗长量度;以及 (b) 当所述当前音频上行传输流中的至少一个包括CTX流时,在混合中利用至少一个 CTX流来产生所述至少一个音频输出流。2. 如权利要求1所述的方法,还包括在步骤(b)中利用混合中的具有最高冗长量度的 CTX流来产生至少一个当前下行传输输出流的步骤。3. 如权利要求1所述的方法,其中步骤(b)还包括如下步骤: (i)当存在其上未检测到语音的辅助CTX流时,在时间上衰减该辅助CTX流。4. 如权利要求3所述的方法,其中步骤(b)还包括如下步骤: (i i)当具有最高冗长量度的当前CTX流未被提供话音长达延长的时间段时,在时间上 衰减该当前CTX流。5. 如任何在前的权利要求所述的方法,还包括如下步骤: (c) 当音频输入流的数量超过预定的限制时,丢弃具有最低冗长量度的CTX流。6. -种在音频电话会议混合系统中基于多个音频输入流产生至少一个音频输出流的 方法,所述音频电话会议混合系统是被配置为混合所述多个音频输入流以由此产生用于发 送到至少一个电话端点的所述至少一个音频输出流的类型,所述方法包括: 确定所述多个音频输入流包括至少一个被期望包含多于可忽略量的人类可感知的背 景噪声的、被称为"携带噪声的音频输入流"的音频输入流并且所述携带噪声的音频输入流 或所述携带噪声的音频输入流中的每一个是当前未检测到语音的音频流;以及 将所述携带噪声的音频输入流或所述携带噪声的音频输入流中的至少一个包括在所 述至少一个音频输出流中。7. 如权利要求6所述的方法,包括: 确定所述多个音频输入流包括多个携带噪声的音频输入流并且所述携带噪声的音频 输入流中的每一个是其中当前未检测到语音的音频流; 针对所述携带噪声的音频输入流中的每个携带噪声的音频输入流,确定各自的感知重 要性量度; 基于所述携带噪声的音频输入流的各自的感知重要性量度,选择所述携带噪声的音频 输入流的子集;以及 将所述携带噪声的音频输入流的所述子集包括在所述至少一个音频输出流中。8. 如权利要求7所述的方法,包括: 选择感知重要性量度最高的一个或多个携带噪声的音频输入流;以及 将所选择的携带噪声的音频输入流包括在所述至少一个音频输出流中。9. 一种在音频电话会议混合系统中基于多个音频输入流产生至少一个音频输出流的 方法,所述音频电话会议混合系统是被配置为混合所述多个音频输入流以由此产生用于发 送到至少一个电话端点的所述至少一个音频输出流的类型,所述方法包括: 确定所述多个音频输入流包括至少一个被期望包括不多于可忽略量的人类可感知的 背景噪声的、被称为"噪声可忽略的音频输入流"的音频输入流并且所述噪声可忽略的音频 输入流或所述携带噪声的音频输入流中的每一个是其中当前未检测到语音的音频流;以及 将所述噪声可忽略的音频输入流或所述噪声可忽略的音频输入流中的至少一个包括 在所述至少一个音频输出流中。10. 如权利要求9所述的方法,包括:将所有噪声可忽略的音频输入流都包括在所述至 少一个音频输出流中。11. 一种在音频电话会议混合系统中基于多个音频输入流产生至少一个音频输出流的 方法,所述音频电话会议混合系统是被配置为混合所述多个音频输入流以由此产生用于发 送到至少一个电话端点的所述至少一个音频输出流的类型,所述方法包括: 确定所述多个音频输入流包括多于阈值数量的其中当前检测到语音的携带噪声的音 频输入流; 针对所述携带噪声的音频输入流中的每个携带噪声的音频输入流,确定各自的感知重 要性量度; 基于所述携带噪声的音频输入流的各自的感知重要性量度,选择所述携带噪声的音频 输入流的子集;以及 将所述携带噪声的音频输入流的所述子集包括在所述至少一个音频输出流中。12. 如权利要求11所述的方法,包括: 确定所述多个音频输入流还包括其中当前检测到语音的噪声可忽略的音频输入流;以 及 将所述噪声可忽略的音频输入流与所述携带噪声的音频输入流的所述子集一起包括 在所述至少一个音频输出流中。13. 如权利要求12所述的方法,包括: 确定所述多个音频输入流还包括多个其中当前检测到语音的噪声可忽略的音频输入 流;以及 将所述噪声可忽略的音频输入流与所述携带噪声的音频输入流的所述子集一起包括 在所述至少一个音频输出流中。14. 如权利要求7或11或者从属于权利要求7或11的任何在前的权利要求所述的方法, 其中针对音频输入流确定感知重要性量度包括指示该音频输入流在当前呼叫期间已包括 多少语音的量度。15. 如权利要求6或11或者从属于权利要求6或11的任何在前的权利要求所述的方法, 其中所述携带噪声的音频输入流或所述携带噪声的音频输入流中的每一个是连续传输 (CTX)音频输入流。16. 如权利要求9或12或者从属于权利要求9或12的任何在前的权利要求所述的方法, 其中所述噪声可忽略的音频输入流或所述噪声可忽略的音频输入流中的每一个是非连续 传输(DTX)音频输入流。17. -种用于在电话会议混合系统中使用的装置,该装置被配置为接收多个音频输入 流并基于音频输入流产生至少一个音频输出流,该装置包括被配置为执行以下方法中的至 少一个方法的处理器: 权利要求1至5中任一项所述的方法; 权利要求6至8中任一项或者从属于权利要求6至8的任何在前的权利要求所述的方法; 权利要求9或10中任一项或者从属于权利要求9或10的任何在前的权利要求所述的方 法;以及 权利要求11至13中任一项或者从属于权利要求11至13的任何在前的权利要求所述的 方法。18.-种携带计算机可解释指令的计算机可读介质,所述计算机可解释指令当被用于 在电话会议混合系统中使用的装置的处理器执行时,使得该装置执行以下方法中的至少一 个方法,其中该装置被配置为接收多个音频输入流并基于音频输入流产生至少一个音频输 出流: 权利要求1至5中任一项所述的方法; 权利要求6至8中任一项或者从属于权利要求6至8的任何在前的权利要求所述的方法; 权利要求9或10中任一项或者从属于权利要求9或10的任何在前的权利要求所述的方 法;以及 权利要求11至13中任一项或者从属于权利要求11至13的任何在前的权利要求所述的 方法。
【文档编号】H04M3/56GK106063238SQ201580010640
【公开日】2016年10月26日
【申请日】2015年2月17日
【发明人】R·J·卡特莱特
【申请人】杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1