音频混合的制作方法

文档序号:7677523阅读:277来源:国知局
专利名称:音频混合的制作方法
技术领域
本发明涉及混合音频信号的方法和被设计以根据这种方法来操作的音频 混合装置。
背景技术
在音频会议系统中,若干参与者被连接到会议桥(conference bridge)。会 议桥将处理参与者的入场控制、会议控制功能等。当正在进行音频会议时, 会议桥进行媒体处理以便从参与者接收音频信号,将音频信号混合为将被发 送到参与者的总信号(除了将减去其自身的信号以避免回声以外)。
总体上,会议系统应该可缩放,即,运行会议桥的硬件应该能够同时处 理若千会议和大量参与者。然而,在音频会议中的通常的行为是最大2或3 个人们同时讲话。而且,需要限制被允许同时讲话的人们的数量以使得该会 议对听众来说是有意义的。因此,有利的是,设计用于控制音频信号的混合 的逻辑,以便对于特定的会议,同时允许某一最大数量的活跃参与者。将根 据这些活跃的参与者计算所得总混合音频信号。活跃参与者将在已经减去其 自身的信号以避免参与者听到他自己的声音之后,接收该总混合信号。所有 其他参与者将接收并听到该总混合信号。以这种方式,仅需要发送少量不同 的信号。这减少了混合和编码两者的复杂性。
另外,即使活跃参与者的当前数量低,也期望最大化要混合的音频信道 的数量。这是因为,混合太多信道,其中一些仅包含背景噪声,这会降低质 量,如它会降低所得混合信号的信噪比。
本发明解决了如下问题当将相应的音频信号混合为所得混合音频信号 时如何选择音频信道,。
EP0 995 191公开了多个同时音频流的混合。每个流包括一系列帧,且从 同时帧选择要被混合的一个子组的特定帧。该选择包括按重要性的顺序对该 同时帧分级,并然后选择最重要的帧。该分级基于每个同时帧所固有的质量, 诸如其内能(energy content)。选4奪还可以基于内能与被分配给各个流的优先级现有技术的一个问题是难以将新的音频流包括到音频流的混合中。例如, 考虑新用户想参与的语音会议。如果该新用户的音频流不被分派足够高的等 级,由于其低的内能或由于其音频流的低优先级,具有更高等级的其他音频 流将阻止该新的参与者轻易加入该会议。
上述现有技术的另 一 问题是这种用于混合音频流的机制在某些普通情况 下将导致背景噪声中恼人的切换行为。在研究以下本发明的公开时,将更全 面地理解该问题。

发明内容
本发明的目的是减轻用于选择要被混合的音频信道的现有技术机制的一 些问题。
本发明通过提供根据权利要求1的用于混合音频信号的方法和根据权利
要求9的用于音频混合的音频混合装置来实现该目的。
本发明基于以下思想将混合什么音频信道的选择基于音频信道的动态 行为(按照音频信道是否活跃),而不是将该选择基于音频信道的定量测量。
根据本发明,在混合堆栈中排列一组音频信道,且从在堆栈中预定阈值 水平之上的最顶部信道产生混合音频信号。每当信道变得活跃时,则将其放 置在堆栈的顶部。这具有以下优点每当音频信道变得活跃时,它都将成为 混合音频输出信号的一部分,而不考虑其在系统中的分级。在语音会议应用 中,这意味着新用户可以容易地加入正在进行的会"^,而不必须依赖例如在 不同的用户之间由系统对他的分级。
本发明的另一优点在于将避免在一些情况下在背景噪声中的恼人的切 换行为。在当信道从活跃变为不活跃时、且不存在足够的活跃信道以将该不 活跃信道"推入"到阈值水平之下(即当前活跃信道比要混合的信道的数量 更少)的情况下,刚变成不活跃的信道的背景噪声将成为混合输出信号的一 部分。由于没有要被混合的不活跃信道的不必要改变,这将产生更自然的混 合输出信号。这可以与如下系统相比较在该系统中,某一标准确定要混合 什么信道,例如能量标准。在这种系统中,不活跃信道将经常被改变为另一 不活跃信道,这是由于例如后者的背景噪声的内能更高,或由于后者不活跃 信道更好地满足的一些其他标准。这随后会导致在混合输出信号的背景噪声中的恼人的切换行为。或者,这种系统可以选择在混合输出信号中不包括任 何不活跃信道,这也会导致不太自然的混合输出信号。
优选地,当活跃音频信道变得不活跃时,该信道被移动到堆栈中的活跃 信道之下。因此,原先恰好位于阈值水平之下的任何活跃信道都将会变为混 合输出信号的一部分,如它将在堆栈中向上移动一个位置,且位于阈值水平 之上。而且,如果混合堆栈具有比当前活跃信道的数量更多的、在阈值水平 之上的信道,则已经变为不活跃的信道将仍然是混合输出信号的一部分,并 且将避免背景噪声中的任何不必要的切换行为。
尽管本发明的 一个明显的应用是语音会议系统,但本领域技术人员将理
解,本发明背后的思想及其实施方式适用于需要在多个音频信道之间选择 要混合的音频信道(其中这种信道传送语音、音乐或任何其他类型的音频), 然后获得要被输出到期望目的地(如到扩音器、记录设备、返回一个或多个 音频源等)的混合音频信号的任何应用。因此,本发明不应该被解释为被限 制到语音会议系统或语音信道。
从多个本发明的示例实施例的以下详细描述,本发明的进一步的特征以 及其优点将变得更清楚。如所理解的,当学习在此阐述的普遍指导和以下详 细的描述时,本领域技术人员将清楚由所附权利要求定义的本发明的范围内 的特征的各种修改、变更和不同组合。


现在参考附图将描述本发明的示例实施例,在附图中
图1示出具有根据本发明的结构和操作的示例音频混合装置;
图2a、 2b、 3a、 3b、 4a、 4b示出根据本发明的混合堆栈上的示例操作;
图5示出可以由根据本发明的音频混合装置适当地实现的会议桥;以及
图6更详细地示出实现图5的会议桥的音频混合装置的一个实施例。
具体实施例方式
图1示意地示出具有根据本发明的结构和操作的示例音频混合装置110。 音频混合装置110包括混合器控制单元120和混合器单元130。混合器 控制单元120包括或可操作地连接到混合堆栈125和活跃性监视器127。该 混合堆栈包括多个层(level ),且每个层能够存储信道标识符。混合堆栈还可以被视为具有信道标识符的列表。活跃性监视器负责对可能应该由混合装置
110混合的所有信道监视所接收的活跃性信息。混合器控制单元120可操作 地连接到混合器单元130以便能够向其提供控制信息。被连接到音频混合装 置110的是向混合器控制单元120提供活跃性信息并向混合器单元130提供
信号片段(signal segments )的一组接收和解码单元140,、 1402....... 140n。
现在将描述图1中的音频混合装置的操作的示例模式。在左手侧,由各
个接收和解码单元140,、 1402.......140n接收一组音频信道1、 2.......n。典
型地,音频信道将音频信号提供为具有音频信号的片段的音频分组。该接收 和解码单元将使用本领域技术人员知道的适用于该目的的任何状态的现有技
术解码器来解码所接收的音频分组。优选地,每个接收和解码单元140"
1402....... 140n被配置以检测在其各自信道上的音频活跃性并向混合器控制
单元120转发活跃性信息。另外,每个接收和解码单元14(h、 1402.......140n
将向混合器单元130转发其各自解码的音频信号的片段。
可以以多种不同的方式来进行音频活跃性的检测。例如,其可以基于指 示在特定背景噪声水平之上的音频活跃性的能量标准。另外,作为由接收和
解码单元140!、 1402.......140n进行的替换,可以通过在音频混合装置110
内的或被连接到音频混合装置110的一些其他实体来进行^r测。应该注意, 在音频混合装置处的所述检测还可以基于在音频信道上接收到何种类型的信 息,在这种情况下,典型地,在音频源处已经远程地进行了音频活跃性的实 际确定。在语音会议应用中,可以根据在已授权美国专利6,993,481中描述的 声音活跃性检测、VAD、过程,例如在音频源处或在音频混合装置处进行声 音活跃性;险测。
混合器控制单元120的活跃性监视器127对所有音频信道监视所接收的 活跃性信息。基于信道的活跃性信息,混合器控制单元通过在混合堆栈的各 个层处存储和重新定位音频信道标识符来管理混合堆栈125。
混合堆栈的管理如下。当活跃性监视器127确定在堆栈中的已有不活跃 的信道已经变得活跃时,它从其在堆栈中的当前层移除对应的信道标识符, 且从顶部向混合堆栈中推入该信道标识符,在堆栈中将原先位于该被移除的 信道标识符之上的所有信道标识符依次向下推一层。当活跃性监视器确定在 堆栈中的已有活跃信道已经变得不活跃时,它从其在堆栈中的当前层移除对 应的信道标识符,并将现在不活跃信道的信道标识符插入到其他仍然活跃的信道的标识符之下的第一层处。将参考图2至图4描述不同的堆栈管理操作
的例子。
如图1所示,混合堆栈具有预定阈值水平128。在阈值之上的信道标识 符标识哪些信道要被混合到混合音频输出信号。取决于要混合到音频输出信 号上的所接收的音频信道的期望数量来预先确定该阈值的位置。图1中在混 合堆栈中第二和第三层之间的阈值的位置使得两个所接收的音频信道应该被 混合到混合音频输出信号,这仅是示例,且可以同样地定位阈值,使得三个 或更多个所接收的音频信道被混合到音频输出信号。在图1中,阈值水平的 位置将导致音频信道3和1是当前应该被混合到混合音频输出信号的信道。
按与音频信道提供的音频信号的一个或多个信号片段的时间长度相对应 的时间间隔,规律地进行信道标识符在混合堆栈125中的存储和重新定位, 即混合堆栈的更新。在语音会议应用中,应该一个片段接一个片段地产生混 合语音输出信号。因此,如果语音信号片段例如具有10ms的长度,则应该每 隔10ms更新混合堆栈,以便控制哪些所接收的语音信号片段应该被混合到混 合语音输出信号片段。
通过与混合器控制单元更新混合堆栈125相同的规律,混合器控制单元 120通过控制信号来控制混合器单元130。该控制信号将控制开关132,、
1322.......132n,使得由位于混合堆栈中阈值永平之上的信道标识符所标识的
音频信号被连接到加法器电路134。在图1中的示例情况下,控制信号将控
制开关132!、 1322....... 132n以使得音频信道1和3的音频信号片段被一直
连接到加法器电路134。加法器电路134将相加所接收的信号片段,以产生 混合音频输出信号片段。加法器电路134可以被配置以在进行加法操作之前 缩放(scale)所接收的信号。这在不同的信号具有不同的能量的情况下可以 是有利的,从而没有信号被混合输出信号中的任何其他信号所抑制。例如, 在语音会议应用中,通常期望可以按近似相同的强度听到所有当前活跃的讲 话者。
图2至图4示出混合堆栈125的示例管理操作。
图2a和2b图示了当不活跃的信道变得活跃时的堆栈管理。在图2a中, 有四个信道被连接到'音频混合装置,信道3、 1、 2、和4。例如,这可对应于 在语音会议中的4个已注册参与者。在更新图2a的混合堆栈之前,信道3和 1是活跃的(用A指示),且信道2和4是不活跃的(用I指示)。信道3和1都在阈值之上。因此,来自混合器控制单元120的控制信号将控制开关132。
1322.......132n使得由混合器单元130的加法器电路134相加信道3和1的
片段以产生混合音频输出信号的片段。
如果信道2现在变得活跃,则混合堆栈将被更新到图2b所示的内容,即 信道2将被移动到堆栈的顶部,将信道l推到阈值之下。来自混合器控制单 元120的控制信号现在将控制开关132^ 1322、……132n使得现在由混合器 单元130的加法器电路134相加信道2和3的片段,以产生混合音频输出信 号的片段。因此,在更新混合堆栈之前,信道3和1被混合以形成音频输出 信号,而在更新之后,信道2和3将被混合以形成音频输出信号。因此,即 使信道1在混合堆栈的更新之后仍然活跃,但其位于阈值之下,且将不被包 括在形成混合音频输出信号的信号的混合中。
图3a和3b图示了当信道被添加到音频混合装置时和当信道变得不活跃 时的堆栈管理。在图3a中,信道5被添加。由于信道5开始是不活跃的,因 此它被添加到堆栈中的最低层。来自混合器控制单元120的控制信号将控制 混合器单元130,使得信道2和3的各片段被混合以形成音频输出信号的片 段。
如果信道3现在变得不活跃,则根据图3b更新混合堆栈,即在堆栈中信 道3被移动到仍然活跃的信道2和1之下。因此现在信道1将位于阈值之上, 且来自混合器控制单元120的控制信号将控制混合器单元130,使得信道2 和1的各片段被混合以形成音频输出信号的片段。
图4a和4b图示了当信道变得不活跃时的堆栈管理的另一例子。图4a的 混合堆栈使得信道2和1的各片段被混合以形成音频输出信号的片段。如杲 信道2变得不活跃,则根据图4b来更新混合堆栈,即在堆栈中信道2被移动 到仍然活跃的信道l之下。由于信道2仍然处于在堆栈中阈值之上的层,因 此其片段将与信道l的片段混合以产生混合音频输出信号的片段,即使信道 2已经停止活跃。
图5示意地示出可以由根据本发明的音频混合装置实现的会议桥500。 该会议桥500被用于实现音频会议系统(典型地,语音会议系统),向其连接 了多个参与者510、 520、 530、 540。每个参与者对应于一个信道,且每个信 道是双向的,或者被实现为信道对,这是由于每个参与者都是音频源以及所 得混合音频信号的目的地。典型地,参与者是参与会议的用户,但也可以是另一实体,诸如如图5所示的另一会议桥540。可以适当地由IP (因特网协 议)连接或其他一些基于分组的连接来实现该信道。因此,根据本公开会议 桥将被理解为互连多个音频源的设备,以使得音频可以从源接收,在会议桥 上进行混合,且所得混合音频信号被发送回源。
图6示出可以适当地实现图5的会议桥的音频混合装置的实施例。图6 的音频混合装置的结构和操作对应于上面参考图1所述的那些,除了以下修 改以外。在语音会议系统中,每个会议参与者应该是所得混合音频输出信号 的目的地。但是,由这样的会议参与者输入的语音不应该被包括在被发送回 该参与者的.混合音频输出信号中。如果是这种情况,则参与者将会从会议系 统的扬声器中听到他自己的声音。因此,需要进行修改以便用适当的方式来 产生和发送混合音频输出信号。
关于产生混合音频输出信号,如下所述进行修改。关于发送混合音频输 出信号, 一组编码和发送单元160!、 1602、……160n被连接到音频混合装置
110,用于编码和在各个信道l、 2.......n上发送混合音频输出信号。典型地,
该编码和发送单元将发送音频信号,作为具有音频信号的片段的音频分组。
将混合输出信号编码为音频分组。
在图6中,现在,用已经相对于图1的混合器单元进行了修改的混合器 单元来产生音频输出信号。该修改涉及来自混合器控制单元的控制信号现 在还控制第二组开关138!、 1382……138n。而且,图1的加法器电路134已 经被加法器和缩放电路136替代,因为通常语音会议系统将需要在向混合输 出信号添加音频源之前、针对内能而缩放这些源。如参考图1-4所述,控制 信号可以例如控制开关132!、 1322……132n以使得信道2和3的各片段被混 合以形成音频输出信号的片段。通过开关138i、 1382......138n,相同控制信
号同时控制混合音频输出信号,以使得在向用于信道2的编码和发送单元转 发混合音频输出信号之前,从混合音频输出信号中减去信道2的片段,且在 向用于信道3的编码和发送单元转发混合音频输出信号之前,从混合音频输 出信号中减去-信道丄的片段。
权利要求
1. 一种混合至少两个音频信号的方法,所述至少两个音频信号被包括在由一组相应音频信道提供的一组音频信号中,该方法包括使用该组音频信道相应的信道标识符,在混合堆栈中排列该组音频信道,其中,具有对应的音频信号的一个音频信道被排列在所述堆栈的每层;以及规律地更新所述混合堆栈,以使得将先前不活跃但现在变得活跃的信道移动到所述混合堆栈的顶部;以及通过混合在混合堆栈中当前位于混合堆栈中的预定阈值水平之上的那些信道的音频信号,来产生混合音频输出信号。
2. 根据权利要求1所述的方法,其中,所述规律地更新所述混合堆栈的 步骤包括更新所述混合堆栈以使得在所述堆栈中将先前活跃但现在已经不 活跃的信道移动到活跃信道之下。
3. 根据权利要求1或2所述的方法,其中,基于对信道上的活跃性的监 #见,确定该信道活3夭或不活跃。
4. 根据权利要求1-3中的任何一个所述的方法,其中按照对应于所述混 合音频输出信号的一个或多个信号片段的时间长度的时间间隔,来进行所述 规律地更新所述混合堆栈的步骤。
5. 根据权利要求1-4中的任何一个所述的方法,其中,选择所述预定阈 值水平以使得有两个音频信道位于混合堆栈中的阈值水平之上。
6. 根据权利要求1-4中的任何一个所述的方法,其中,选择所述预定阈 值水平以使得有三个音频信道位于混合堆栈中的阈值水平之上。
7. 根据权利要求1-6中的任何一个所述的方法,其中,所述音频信道是 要在语音会议期间混合的语音信道。
8. 根据权利要求1-7中的任何一个所述的方法,其中,要被混合的至少 一个音频信道对应于从音频会议系统的会议桥接收的混合音频信号。
9. 一种用于混合至少两个音频信号的音频混合装置,所述至少两个音频 信号被包括在由一组相应音频信道4是供的一组音频信号中,所述装置包括混合堆栈,其中该组音频信道通过其相应信道标识符来排列,其中具有 对应的音频信号的 一个音频信道^皮排列在所述堆栈的每层;混合器控制单元,用于规律地更新所述混合堆栈,以使得将先前不活跃但现在变得活跃的信道移动到所述混合堆栈的顶部;以及混合器单元,用于通过混合在混合堆栈中当前位于混合堆栈中的预定阈 值水平之上的那些信道的音频信号来产生混合音频输出信号。
10.根据权利要求9所述的音频混合装置,其中,所述混合器控制单元 还适用于规律地更新所述混合堆栈以使得在所述堆栈中将先前活跃但现在已 经不活跃的信道移动到活跃信道之下。
11. 根据权利要求9或IO所述的音频混合装置,其中,所述混合器控制 单元包括活跃性监视器,其适用于对于每个信道,监视该信道的活跃性信息 并确定该信道是活跃还是不活跃。
12. 根据权利要求9-11中的任何一个所述的音频混合装置,其中,所述 混合器控制单元适用于按照对应于混合音频输出信号的一个或多个信号片段 的时间长度的时间间隔来规律地更新所述混合堆栈。
13. 根据权利要求9-12中的任何一个所述的音频混合装置,其中,定位 所述混合堆栈的预定阈值水平,以使得有两个音频信道位于混合堆栈中的阈 值水平之上。
14. 根据权利要求9-12中的任何一个所述的音频混合装置,其中,定位 所述混合堆栈的预定阈值水平,以使得有三个音频信道位于混合堆栈中的阈 值水平之上。
15. 根据权利要求9-14中的任何一个所述的音频混合装置,适用于混合 语音信道形式的音频信道。
16. 根据权利要求9-15中的任何一个所述的音频混合装置,其中,要被 混合的至少 一个音频信道对应于从另 一音频混合装置接收的混合音频信号。
17. —种在音频会议系统中的会议桥,所述会议桥包括如权利要求9-15 中的任何一个所述的音频混合装置。
18. 根据权利要求17所述的会议桥,其中,要被混合的至少一个音频信 道对应于从另 一会议桥接收的混合音频信号。
全文摘要
本发明涉及用于混合音频信号的方法和装置。本发明基于音频信道的动态行为按照它们是否活跃来选择混合什么音频信道的思想,而不是基于音频信道的定量测量来选择。根据本发明,在混合堆栈中排列一组音频信道,且从在堆栈中预定阈值水平之上的最顶部信道产生混合音频信号。每当信道变得活跃时,则将其放置在堆栈的顶部。
文档编号H04M3/56GK101473637SQ200780022591
公开日2009年7月1日 申请日期2007年5月2日 优先权日2006年5月11日
发明者尼克拉斯·恩博姆, 罗尔·哈根 申请人:环球Ip解决方法(Gips)有限责任公司;环球Ip解决方法股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1