会议中使用改变视盲的感知连续性的制作方法

文档序号:10664039阅读:334来源:国知局
会议中使用改变视盲的感知连续性的制作方法
【专利摘要】如下类型的音频会议混合系统中的方法,该类型的音频会议混合系统取得包括混合转换事件的会议参加者的输入音频信息的多个音频输入流,并输出包括输出音频信息的多个音频输出流,该方法混合音频输出流以降低混合转换事件的可检测性的方法,该方法包括以下步骤:(a)确定转换事件将发生;(b)确定掩蔽触发将发生;(c)安排转换事件基本上在掩蔽事件发生时发生。
【专利说明】
会议中使用改变视盲的感知连续性[0001]对相关申请的交叉引用[0002]本申请要求于2014年2月28日提交的美国临时专利申请N0.61/946,030的优先权 的权益;该申请通过引用被整体结合于此。
技术领域
[0003]本发明涉及音频电话会议领域,并且特别地,公开了利用改变视盲(change b 1 indness)机制来掩蔽电话会议中的改变。【背景技术】
[0004]在整个说明书中对【背景技术】的任何讨论绝不应该被视作承认这种技术广为人知或形成本领域公知常识的一部分。
[0005]多个参加者远程互动以实施会议的视频和音频电话会议系统是重要的资源。
[0006]许多系统是已知的。大多数系统依靠中央或分布式服务器资源来确保使用例如专用电话会议设备、带有音频输入/输出设施的标准计算机资源或智能手机类型的设备,每个参加者都能够听到和/或看到其他参加者。该分布式服务器资源负责将来自每个会议参加者的上行链路音频信号合适地混合在一起并将音频信号下行传输以供由每个音频输出设备回放。
[0007]作为背景,在典型的(已知的)电话会议系统中,混合器接收来自电话终端中的每个电话终端的相应的‘上行链路流’,该‘上行链路流’承载由该电话终端捕获的音频信号, 并发送相应的‘下行链路流’到电话终端中的每个电话终端。因而,每个电话终端接收下行链路流,该下行链路流能够承载由其他电话终端捕获的相应音频信号的混合。从而,当电话会议中两个或多个参加者同时说话时,其他一个(或多个)参加者可以听到参加者两方说话。
[0008]已知(且通常期望)混合器应用自适应手段,由此响应于在音频信号中的一个或多个中感知到某些变化而改变混合。例如,响应于确定音频信号不含有语音(即只有背景噪声),该音频信号可被从混合中省略。但是在错误的时间改变混合可能引起令人不安的伪影 (artefact)被参加者听到。
【发明内容】

[0009]本文中公开的各种方法、设备、装置和系统可以提供改进形式的音频会议混合。
[0010]根据本公开的第一方面,提供了一种在如下类型的音频会议混合系统中的方法, 该类型的音频会议混合系统取得包括混合转换事件的会议参加者的输入音频信息的多个音频输入流,并输出包括输出音频信息的多个音频输出流,该方法混合音频输出流以降低混合转换事件的可检测性的方法,该方法包括以下步骤:(a)确定转换事件将发生;(b)确定掩蔽触发将发生;(c)安排转换事件基本上在掩蔽事件发生时发生。
[0011]混合转换事件可以包括音频输入流编码中的改变,该改变在孤立收听时可被收听参加者注意到。
[0012]优选地,掩蔽触发可以包括以下至少一个:语音的起始或终止;语音特性的预定改变,或预定数目的参加者的同时语音的起始。安排可以包括延迟转换事件的发生直到掩蔽触发发生。
[0013]在一些实施例中,掩蔽触发可以包含会议参加者中的至少一个会议参加者对于预定文本的发言。在一些实施例中,在音频输入流中的一个音频输入流的音量和/或预定谱流量的增加的存在可以指示在音频输入流中的该一个音频输入流中的掩蔽触发。语音的起始或终止可以由音频输入流中的一个音频输入流中的声音活动标志的值的改变来表示。在一些实施例中,掩蔽事件可以由一系列音频输入流的听觉场景分析确定。
[0014]音频输入流可以包括至少一个CTX(连续传输)音频输入流和至少一个DTX(离散传输)音频输入流。
[0015]根据本公开的另外方面,提供了一种音频混合系统,该音频混合系统包括:多个音频流输入单元,该多个音频流输入单元接收来自多个音频输入/输出设备的音频输入上行链路流,音频输入上行链路信号包括在孤立收听时可被收听参加者注意到的音频上行链路流中的改变的转换事件信号,和表示音频输入上行链路流中的预定音频事件的掩蔽触发信号;以及一系列音频子混音单元,其中每个音频子混音单元形成用于返回到所述多个音频输入/输出设备中相应的一个的下行链路输出,音频子混音单元中的每个与音频流输入单元中的预定数个互连以混合与该数个音频流输入单元相关的音频输入上行链路流,音频子混音单元进一步包含:用于控制输入的音频流的混合的形式并且响应于转换事件信号而更改混合的形式的第一控制单元;用于延迟混合的形式的更改直到掩蔽触发信号存在于音频输入上行链路流中至少一个中时的第二控制单元。
[0016]本文中公开的各种实施例可以具有特定的应用,其中系统和服务器能够将空间和/或较连续的音频信号集成到混合器和呈现的场景中。具体地,实施例可以对于期望可扩展性、因此期望较低计算复杂度和/或带宽占用的情况是有用的。实施例也可以在不存在系统约束时是有价值的,在这种情况下其用途主要是实现一定程度的感知场景复杂度降低, 这必须还通过改变不同参加者音频信号在混合中的存在和贡献而发生。此外,存在使用这样的系统的情况,其中对于呈现的场景的行为和改变是由于来自用户控制输入或其他因素的传入的控制信号导致的。在这种情况下,本实施例的使用可以减小诸如声音流或对象结束、电平调整、空间渲染属性的改变、处理的改变,或任何其他改变的活动的影响,这样的活动通常将引发音频流的感知属性的突然改变,这样的突然改变是不希望的并因此对于实现感知连续性的目标构成问题。【附图说明】
[0017]现在将只以举例的方式参考附图描述示例实施例,其中
[0018]图1概略地示出了优选实施例的自适应混合布置的一种形式;
[0019]图2示出了优选实施例的电话会议混合器;及
[0020]图3示出了优选实施例的电话会议混合器的示例操作序列的时间线。
[0021]图4A是示出用于从音频波形确定事件的系统的单元的示例的框图;[〇〇22]图4B示出输入波形和可以由例如如图4A中显示的系统产生的、对应的特征和事件的示例;
[0023]图5A是示出用于从音频波形确定事件的可替代性系统的单元的示例的框图;[〇〇24]图5B示出可以被提取的特征的示例和可以由例如如图5A中显示的系统检测到的事件的示例;
[0025]图6A-6C示出用于实现特征提取器和事件检测器的不同的系统拓扑。【具体实施方式】
[0026]优选实施例在用于电话会议(带有或不带有相关联的视频流)的环境中操作。
[0027]示例性音频电话会议系统在图1中被示出为1。在这个布置中,一系列的会议参加者共同提供音频输入和输出。例如,在布置1中,第一参加者2使用与计算机6互连的一对头戴式耳机5和输入麦克风3以参加会议。计算机6提供通过网络9与混合器11的上行链路8和下行链路7连接。[〇〇28]第二组参加者例如20使用音频设备21,该音频设备21提供包括空间化信息的音频输出。该音频设备21也提供内部计算和通信能力,并包括上行链路23和下行链路24通道,该上行链路23和下行链路24通道经由网络25,26与混合器11互连。附加的参加者也可以经由其他手段与混合器互连。
[0029]图1的布置包括多个会议参加者2,该多个会议参加者2利用由双耳耳机5连同悬挂式麦克风3例示的DTX终端。所述的多个DTX终端中的每个通常经由网络9断言(assert) 10DTX上行链路流8到电话会议混合器11。混合器产生用于每个DTX终端的下行链路流7,该下行链路流7通过网络9被传输回到终端2而被参加者2听到。
[0030]由非手持电话设备21示例的多个CTX终端中的每个捕获另外多个会议参加者20的语音27。显著背景噪声也可以由这种设备捕获。所述的多个CTX终端中的每个通常经由网络 25断言CTX上行链路流26到混合器11。不失一般性,网络25可以是与由DTX终端使用的网络相同的网络。混合器11产生用于每个CTX终端的下行链路流23,该下行链路流23被通过网络 25传输回到终端21用于回放给多个参加者20。[0031 ]在电话会议系统中,参加者终端中的每个发送上行链路音频流到电话会议混合器并从电话会议混合器接收下行链路流。在这种系统中,上行链路和下行链路可以被数字编码并经由合适的分组交换网络(例如互联网协议语音(VoIP)网络)被传输,或它们可以通过电路交换网络(例如公共交换电话网络(PSTN))被输送。无论哪种方式,混合器11负责产生下行链路音频流以发送回每个终端,使得大体上,每个参加者听到除了他自己之外的每个其他参加者。
[0032]这种系统中的一类终端在上行链路上应用不连续传输(DTX)。这种终端尝试通过以下中的一项或多项最大化可理解性同时最小化网络资源的使用:应用接近说话者的嘴的麦克风放置;去除背景噪声的噪声抑制信号处理;在人语音存在时仅发送上行链路流。
[0033]这种策略可以导致收听者听到较少的异常噪声,但是它也可以导致较不自然的声音体验,首先是因为噪声抑制信号处理通常在背景噪声非平稳时导致引入干扰性动态伪影,其次是因为噪声抑制影响语音的均衡化,并且第三是因为基于来自相关联的声音活动检测器(VAD)的不完美信息的二值(binary)传输/不传输决定有时将导致语音被切断而在其它时候导致残留噪声被作为语音传输。
[0034]第二类终端在上行链路上应用连续传输(CTX)。即,不管VAD(如果存在)确定语音存在与否,它们都发送音频流。此处目的常常是最大化收听体验的自然性并允许远程收听者进行语音本地化或空间化的方面,就像他或她亲自出席一样。从而,CTX设备可以应用多个麦克风来保留空间多样性以允许双耳从掩蔽中释放。CTX设备的设计者也可以试图限制设备进行的噪声抑制处理的量,以便最小化干扰动态伪影和谱显色的可能。
[0035]—般地,DTX设备试图去除、抑制或以其他方式避免传输一切它认为不构成人类语音的事物,但是CTX设备试图是透明的,使用可能的最感知连续和相关的方式传输一切事物。[〇〇36]在设计电话会议混合器时牢记这些目的是重要的。因为DTX终端的上行链路在没有语音被检测到时是基本上静默的,当语音未被检测到、没有收听者的感知结果时,混合器 11可以能够自由地丢弃它的上行链路流。但是,当形成含有CTX流的下行链路混合时,混合器必须当心它怎样将混合转换应用到流。例如,在说话未被检测到时丢弃CTX流可以容易地由收听者注意到,这是因为与那个流相关联的背景噪声可以被听到关掉,特别是如果没有其他CTX流存在以掩蔽该转换。收听者可能想知道系统是否发生故障,或CTX终端是否与会议断开了。在这种情况下将不能实现提供自然收听体验的目标。
[0037]—般地,电话会议混合器11的目标是允许每个参加者听到来自每个其他参加者的语音,但听不到来自他自己的语音。但是,对于这一目标有一些细微差别。例如,如果许多 CTX流(每个都含有背景噪声)由收听者同时听到,听到的总的背景噪声功率可能增加到一点,在该点处它是令人分心的或不利于理解的。考虑另外的示例,其中多个上行链路流全部相同讲话。结果可能太嘈杂以致于无法促成有用的通信。在这种情况下仅让两个或三个最感知相关的流穿过可能会较好。许多作者,包括本文的作者,提出了用于实现这一点的方法。例如,Enbom等的欧洲专利公布N0.EP 1 855 455公开了一种这样的方法,2013年9月25 日提交的国际专利申请N0.PCT/US2013/061658也公开了实现这一点的第二种方式。
[0038]此外,通过简单地动态允许或减弱在下行链路混合中的上行链路的能力,电话会议混合器11此外可能能够实现其他种类的混合转换。例如,它可能能够在下行链路混合中降低上行链路的编码比特率或音频保真度,或(当上行链路含有来自多个麦克风的空间多样性时)它可能能够调节空间保真度,上行链路流以该空间保真度在下行链路混合中被听至IJ。如果下行链路被使用空间音频系统呈现给收听者,该空间音频系统例如是通过扬声器阵列进行渲染或通过头戴式耳机使用头部相关传递函数(HRTF)等进行虚拟化的空间音频系统,那么混合器可能另外能够影响空间中感知的位置或区域,对于收听者,流看起来从该位置或区域发出。
[0039]在特定的电话会议系统中,不管究竟哪个混合转换对于混合器是可用的,混合器都可以基于会议中的终端和参加者的行为动态地做这种转换,且一些类型的转换当被不小心应用时可以被收听者注意到或令收听者不安。优选的实施例包括用于在电话会议服务器处以如下方式处理混合转换的新一类的方法:该方式使得转换并不容易被收听者注意到, 因此保持了收听体验中的感知连续性和自然性。为了做到这样,利用了人类听觉场景分析中的选择性注意的现象。
[0040]选择性注意的现象的示例也许可以通过与视觉感知研究中的改变视盲或无意视盲的概念类比而立即得到理解。例如,无意视盲由Simons和Chabl is的著名的“invisiblegori 1 la”实验很好地不出(Most,SB; Simons,DJ; Schol 1,BJ; Jimenez,R;Clifford,E; Chabris,CF(January 2001)〇〃How not to be seen: the contribut1n of similarity and selective ignoring to sustained inattent1nal blindness^.Psychol Sci 12 (l):9-17.do1:10.1111/1467-9280.00303.PMID11294235.(也请见 www.1nvisiblegorilla.com),在该实验中,当篮球比赛视频的观看者被要求对传球次数计数时,他们不能注意到穿着大猩猩服装的人走进屏幕中心并挥手。这个自充的大猩猩高度可见且在其他情况下会被立即注意到,却经常完全逃过了观看者的注意,这是因为观看者的注意被转移到别处。[〇〇41]在优选的实施例中,提供了在电话会议混合器中做出混合转换的方法,否则混合转换将被立即注意到,但该混合转换因为它们被同步以与获取收听者注意的一些其他事件一致(例如,新参加者加入到会议或已经有一些时间没有说话的参加者开始发言)而不被注意到。
[0042]优选的实施例因此提供了用于利用选择性注意和改变视盲的概念来改善下行链路音频流中感知连续性的一类方法。该类的每个方法可以在电话会议混合器中被实现。在一些实施例中,电话会议混合器可以位于一个或多个中央服务器中。在其他实施例中,电话会议混合器可以位于一个或多个终端中。[〇〇43] 正如在电话会议设施领域已知的,对于通过混合器11主持的每个会议,上行链路流被接收自每个终端。混合器对于每个终端产生下行链路流。不失一般性,可被混合器应用以从多个上行链路流形成下行链路流的混合技术的示例包括:
[0044]混合:解码或部分地解码上行链路流,将解码的或部分解码的音频信号加在一起并重新编码下行链路流。
[0045]转码:解码上行链路并重新编码以形成下行链路成分。
[0046]转发:复制上行链路流中的编码信息中的全部或部分到下行链路流中。
[0047]元数据调节:添加、去除或修改与上行链路流相关联的元数据以更改它将被渲染给在下行链路终端处收听的参加者的方式。
[0048]有时,混合器在混合特定下行链路流时进行转换。转换是在被孤立地实现(S卩,没有任何掩蔽事件)的情况下可被位于下行链路终端处的收听参加者听得见并且注意到的下行链路音频流的任何改变。不失一般性,混合转换的示例包括:开启或关闭或淡入或淡出混合的下行链路流中的上行链路流;开始或停止作为下行链路流的成分的上行链路流的转发;改变下行链路流中的上行链路流的空间保真度或表示;改变作为下行链路流的成分的上行链路流的音频质量(例如,通过调节编码比特率);当下行链路流能够进行空间或位置音频渲染时,改变下行链路流的空间场景中的上行链路流的感知位置;按步长改变来降低或升高下行链路混合中的特定上行链路流的增益;从实际的上行链路音频流切换或交叉渐变到合成地产生的噪声场,该噪声场被设计成在谱和(在可适用的地方)空间上类似于上行链路流中存在的噪声。
[0049]混合器响应于触发进行一个或多个转换。触发是从会议的状态得出的事件。不失一般性,触发的示例包括:1)在上行链路流上的标记在该上行链路上的语音的起始或终止的VAD标志。该VAD可以在发送客户端中实现,结果是包括在上行链路流中的元数据中。可替代地,该VAD可以在混合器中被实现,并基于包括在上行链路流中的编码的或解码的音频做出它的语音存在决定;2)从VAD信息得出的启发式算法。例如,如果冗长度量被混合器应用并对于某个上行链路终端低于阈值,则淡出转换可以在下行链路上被触发;3)来自带有DTX 上行链路的终端的通话突发(talkburst)转换的起始或终止;4)同时说话者的最大值被超过。
[0050]冗余度量或启发式算法的不同形式的特征化可以被使用,包括诸如每个通道的功率谱分析的简单测量。冗余的一个较复杂的测量在2013年9月25日提交的国际专利申请 N0.PCT/US2013/061658中被获取,该申请的内容通过交叉引用被结合于此。[〇〇51]在触发断言时,优选的实施例的一个关键方面是混合器在应用由那个触发引发的任何转换前等待,直到合适的掩蔽事件发生。掩蔽事件是可以获取收听者的注意或以其他方式掩蔽转换的任何事件。不失一般性,掩蔽事件的示例包括:1)上行链路流上的、标记该上行链路上的语音的起始或终止的VAD。如果在特定上行链路上已经有一些时间没有存在语音,在该上行链路上的语音的起始作为掩蔽事件可以是尤其有价值的。因此,起始事件可以基于自上一次语音在上行链路上被检测到以来的时间长度被分级或选用。2)由在上行链路终端上(结果嵌入在上行链路流中)或在混合器上实现的语音识别或其他分类算法确定的语音的特定音节、单词或类的存在。3)在音量水平、谱流量中的跳变、或基于上行链路流中可用的音频或基于音频从其中被得出的麦克风信号的其他这样的启发。4)使用基于现存的听觉场景分析的技术被标记的事件,例如在诸如Dolby Volume的产品中应用的那些和在美国专利8,396,574和美国专利8,428,270中概述的那些技术。
[0052]在一类实施例中,掩蔽事件是二值的。即,事件或者存在或者不存在。在断言掩蔽事件时将简单地做出未决的转换。在第二类实施例中,事件可以根据事件幅度被分级,该事件幅度是对该事件将多有效地获取收听者的注意的估计。这个幅度被用于控制怎样做转换。例如,大幅度事件可能导致渐变转换(fade transit1n)在短时间段上发生,而小幅度事件可能导致渐变转换在长时间段上发生。作为另外的示例,考虑想要在作为触发的结果的一系列步长增益改变转换中衰减下行链路混合中的上行链路的混合器。在这种情况下, 应用在每个转换中的衰减量可以是对应的事件幅度的函数。
[0053]不失一般性,事件幅度可以基于的属性的示例包括:上行链路中语音的音量水平; 通话突发中语音的起始处的音量水平;在Dolby Volume型事件检测器中的事件的幅度;特定单词,音节或短语在上行链路流中被检测到的置信度;和自从上行链路上的前一个通话突发结束以来在通话突发开始时经过的时间。
[0054]虽然混合器按需控制电话会议通话,图2概略地示出了电话会议混合器11的一种形式。多个上行链路流,一些DTX(31,32),一些CTX(33)被断言到混合器11。该上行链路流中的每个通过拆包单元35,36,37。取决于上行链路编码信息,拆包单元对上行链路流拆包并提取VAD 38,从上行链路流获得事件信息和音频信息40,以识别如下面所述的掩蔽事件39。 混合器产生多个下行链路流42,43,44。图中显示的是与下行链路43相关联的混合装置46。 未显示的是对于其他下行链路42,44中的每个而存在的类似装置。用于这个下混链路的混合控制单元11操作VAD和由与其他下行链路相关联的拆包单元35,37产生的掩蔽事件信号, 并产生用于上行链路36以外的上行链路中的每个的增益,因为下行链路43将被产生上行链路32的相同的终端Y听到。这些增益被用于缩放(scale)48,49和混合50来自上行链路的音频,以产生适合重新打包和编码51的最终音频流,其通过下行链路43返回。
[0055]在这个优选的实施例中,当对应的VAD信号在超过阈值A T_nt的一段时间为低之后从低(没有语音被检测到)到高(语音被检测到)转换时,对应的拆包单元的掩蔽事件输出例如39例如被断言短时间段(例如20ms ),该阈值可以被设为例如10秒。[0〇56]控制单兀47关于DTX上彳丁链路(例如31)的彳丁为是每当相关联的VAD彳目号为尚,设置对应的增益为1。即,每当DTX终端发送语音,它们被混合到下行链路内。控制单元关于CTX终端33的行为是每当自从对应的上行链路的VAD标志为高以来经过的时间量超过阈值A Ttrigger,对内部触发信号解除断言,该阈值A Ttrigger可以被设置为例如60秒。每当对应的VAD 标志为高时,触发信号被断言。当触发信号被解除断言时,控制单元在应用转换前等待,直到对应于其他终端中任一终端的掩蔽事件信号被断言,在此优选的实施例的情况中该转换涉及在时间量A Ttransiticm中将CTX终端的增益从1下降到0,该时间量A Ttransiticm可以被设置为例如3秒。[〇〇57] 示例和说明[〇〇58]图3示出了用于上述实施例的操作的时间线60的示例。序列从终结通话突发61的 CTX终端Z开始。这之后,两个通话突发62,63从终端X被检测到。Y现在说话一段时间,并且三个通话突发64,65和66被检测到,此后X再次说话67。在时间ttrigger处触发事件63发生,因为对于超过△ 1\_^的时间段没有从CTX终端Z检测到语音。控制单元现在处于如下的状态, 在该状态中,它将在掩蔽事件的下一个实例开始转换,而不是立即淡出71。当Y开始说话64 时掩蔽事件68发生,但是这对于控制单元没有意义,因为它发生在触发之前且因为混合器当前正服务于讨论中的终端Y的下行链路。当X在长于A Tevent的静默时段70后重新开始说话 67时,第二事件被信令69,一旦接收到该事件,控制单元开始转换,经过数秒使下行链路Y中上行链路Z淡出72。[〇〇59]图4A是示出用于从音频波形确定事件的系统的单元的示例的框图。图4A中示出的部件的种类和数目只是以示例的方式显示。可替代的实现可以包括更多,更少和/或不同的部件。系统400可以例如是诸如图2中所示的和上面描述的电话会议混合器11的电话会议混合器的实例或部件。在一些实现中,系统400可以是电话会议服务器的部件,例如线路卡。但是,正如下面参考图6A-6C较详细地描述的,在一些实现中,系统400的功能特性可以至少部分地由一个或多个电话终端实现。系统400可以至少部分地由控制系统实现,该控制系统可以包括通用单芯片或多芯片处理器,数字信号处理器(DSP),专用集成电路(ASIC),现场可编程门阵列(FPGA)或其他可编程逻辑器件,离散门或晶体管逻辑和/或离散硬件部件。在一些实现中,系统400可以根据存储在一个或多个非暂态介质上的指令(例如软件)被实现。这种非暂态介质可以包括如本文中描述的那些存储设备,包括但不限于随机存取存储(RAM) 设备,只读存储(ROM)设备等。
[0060] 在图4A中显示的示例中,系统400包括特征提取器401和事件检测器402。这里,特征提取器401被示出接收输入波形403。在一些示例中,波形403可以对应于语音和/或背景噪声。波形403可以根据特定实现而改变。例如,如果特征提取器401在电话会议混合器、电话会议服务器或类似的设备中被实现,波形403可以是来自上行链路流的被拆包和解码的波形。但是,如果特征提取器401在电话终端中被实现,波形403可以是原始麦克风信号或预处理的麦克风信号。[0061 ] 在这个实现中,特征提取器401能够分析输入波形403和产生对应于一个或多个类型的特征404的输出。一些示例在图4B中被示出且在下面被描述。[〇〇62]在这个示例中,事件检测器402能够分析特征404和产生对应于一个或多个类型的事件405的输出。在一些实现中,事件405可以是如本文其他地方公开的掩蔽事件。从而,在一些示例中,事件405可以与语音的起始,语音的终止,语音的特定音节、单词或类的存在, 音量水平、谱流量中的改变或其他这种启发,和/或根据听觉场景分析确定的准则相对应。 在一些实现中,事件检测器402的输出可以是“二值”的,该输出仅指示事件存在或不存在。 但是,在一些示例中,事件检测器402的输出也可以指示事件幅度,例如在上面描述的。 [〇〇63]图4B示出输入波形和可以由诸如图4A中示出的系统产生的对应特征和事件的示例。在这个例子中,特征提取器401能够分析输入波形403和产生对应于水平中的改变和音高(pi tch)中的改变的输出。从而,在图4B中所示的示例中,特征404a与波形403的水平中的改变对应,但是特征404b与波形403的音高中的改变对应。[〇〇64] 在这个示例中,事件检测器402在时间tl-t4检测到了事件405a-405d,该事件 405a-405d分别与波形部分403a-403d对应。根据这个示例,事件检测器402的输出指示事件幅度,该事件幅度由对应于事件405a-405d的在图4B中所示的线的长度指示。例如,事件 405a具有小于事件405b的幅度。在这个示例中,事件检测器402在与波形403的水平和音高两者中的显著改变(例如处于预定阈值或高于预定阈值的改变)相对应的时间处检测到了事件405a_405d。
[0065]图5A是示出用于从音频波形确定事件的可替代系统的元件的示例的框图。在图5A 中所示的部件的种类和数目仅以示例的方式显示。可替代实现包括更多、更少和/或不同的部件。系统500可以例如是诸如图2中所示的和上面描述的电话会议混合器11的电话会议混合器的实例或部件。在一些实现中,系统500可以是电话会议服务器的部件,例如线路卡。但是,正如参考图6A-6C在下面较详细地描述的,在一些实现中,系统500的功能特性可以至少部分地由一个或多个电话终端实现。系统500可以至少部分地由控制系统实现,该控制系统可以包括通用单芯片或多芯片处理器,数字信号处理器(DSP),专用集成电路(ASIC),现场可编程门阵列(FPGA)或其他可编程逻辑器件,离散门或晶体管逻辑和/或离散硬件部件。在一些实现中,系统500可以根据存储在一个或多个非暂态介质上的指令(例如软件)被实现。 这种非暂态介质可以包括如本文中描述的那些存储设备,包括但不限于随机存取存储 (RAM)设备,只读存储(ROM)设备等。[〇〇66]在图5A中所示的示例中,系统500包括特征提取器401和事件检测器402。在这个实现中,特征提取器401能够用作声音活动检测器(VAD)。从而,在这个示例中,由特征提取器 401输出的特征包括VAD结果504。正如参考图5B在下面描述的,在这个示例中,事件检测器 402能够根据与参考图4A和4B在上面描述的方法不同的方法检测事件505。[〇〇67]图5B示出了可以被诸如图5A中所示的系统提取的特征和检测的特征的示例。在图 5B中所示的示例中,图4B中所示的相同的输入波形403被输入到特征提取器401。在这个实现中,特征提取器401确定波形部分403a不对应于语音,而是对应于背景噪声。因此,负的 VAD结果在时间。处被输出。这里,特征提取器401输出对应于波形部分403b和403c的VAD结果504a,该VAD结果504a在时间t2处开始并延伸到时间t3。根据这个示例,特征提取器401输出VAD结果504b,该VAD结果504b在时间t4处开始,对应于波形部分403d。
[0068]在这个示例中,事件检测器402能够确定与在预定的非语音的时间间隔后的语音的起始对应的事件。该预定的非语音的时间间隔可以根据实现而改变。例如,在一些实现中,预定的非语音的时间间隔可以是2秒,3秒,5秒,10秒,15秒,20秒,30秒,60秒等。根据一些实现,预定的非语音的时间间隔可以与△ Ttrigger对应,该A Ttrigger参考图2在上面被描述。 [〇〇69]在这个示例中,事件检测器402只检测单一事件505。在这个例子中,事件检测器 402输出二值事件。根据这个示例,事件检测器402没有在时间t检测到事件,因为特征提取器401已经确定波形部分403a不对应于语音且因此没有VAD结果在时间t被输出。在这个实现中,事件检测器402在时间t2检测到事件505,该时间t2对应于VAD结果504a的开始,因为这个特征对应于预定的非语音的时间间隔后的语音的起始。在这个示例中,预定的非语音的时间间隔大于在时间t3和时间t4之间的时间间隔。因此,事件检测器402没有在时间t4检测到事件,该时间t4对应于VAD结果504b的开始,因为这个特征对应于比预定的非语音的时间间隔短的非语音的时间间隔后的语音的起始。
[0070]图6A-6C显示了用于实现特征提取器和事件检测器的不同的系统拓扑。在图6A-6C 中显示的部件的种类和数目仅以示例的方式显示。可替代实现可以包括更多,更少和/或不同的部件。系统600A-600B可以至少部分地由控制系统实现,该控制系统可以包括一个或多个通用单芯片或多芯片处理器,数字信号处理器(DSP),专用集成电路(ASIC),现场可编程门阵列(FPGA)或其他可编程逻辑器件,离散门或晶体管逻辑和/或离散硬件部件。在一些实现中,系统600A-600B可以根据存储在一个或多个非暂态介质上的指令(例如软件)被实现。 这种非暂态介质可以包括如本文中描述的那些存储设备,包括但不限于随机存取存储 (RAM)设备,只读存储(ROM)设备等。
[0071]在图6A-6C中显示的示例中,系统600A-600C包括电话终端601A-601C和拆包单元 603A-603C。在一些实现中,拆包单元603A-603C中的每个可以具有类似于参考图2在上面描述的拆包单元35-37中的一个的功能特性。拆包单元603A-603C可以是诸如本文其他位置中公开的那些的电话会议混合器的一部分。电话终端601A-601C可以包括用于将声音转换成输入波形的一个或多个麦克风(未显不)。[〇〇72] 根据图6A中所示的实现,电话终端601A包括特征提取器401A,拆包单元603A包括事件检测器402A。在这个示例中,特征提取器401A能够接收输入波形610A并将VAD结果504A 输出到复用器606A。在这个实现中,音频编码器604A能够编码输入波形610A并将编码的音频数据607A输出到复用器606A。这里,复用器606A能够将VAD结果504A与编码的音频数据 607A组合。电话终端610A能够将上行链路流605A输出到网络602。[〇〇73] 在图6A中所示的示例中,拆包单元603A包括解复用器609A,该解复用器609A能够接收上行链路流605A,并能够将VAD结果504A与编码的音频数据607A分开。在这个实现中, 解复用器609A能够将VAD结果504A输出到事件检测器402A,该事件检测器402A能够检测并输出事件405A。这里,解复用器609A能够将编码的音频数据607A输出到解码器608A,该解码器608A能够解码音频数据607A并输出解码的音频数据613A。[〇〇74] 在图6B中所示的示例中,系统600B包括电话终端601B和拆包单元603B。根据这个实现,电话终端601B包括音频编码器604B,该音频编码器604B能够编码输入波形610B并输出编码的音频数据607B,该编码的音频数据607B在上行链路流605B中被提供给网络602。 [〇〇75] 在图6B中所示的示例中,拆包单元603B包括解码器608B,该解码器608B能够解码上行链路流605B并输出解码的音频数据613B。在这个实现中,拆包单元603B包括特征提取器401B,该特征提取器401B能够接收解码的音频数据613B并提取特征404。在这个示例中, 特征提取器401B能够将特征404输出到事件检测器402B,该事件检测器402B能够检测并输出事件405B。[〇〇76] 根据图6C中所示的实现,电话终端601C包括特征提取器401C和事件检测器402C。 在这个示例中,特征提取器401C能够具有VAD功能特性。从而,特征提取器401C能够接收输入波形610C并将VAD结果504C输出到复用器606C并输出到事件检测器402C。在这个实现中, 音频编码器604C能够编码输入波形610C并将编码的音频数据607C输出到复用器606C。在这个示例中,事件检测器402C能够基于VAD结果504C检测事件405C,并能够将事件405C输出到复用器606C。这里,复用器606C能够将VAD结果504C,事件405C与编码的音频数据607C组合, 该VAD结果504C,事件405C与编码的音频数据607C都在上行链路流605C中被提供给网络 602〇[〇〇77] 在图6C中所示的示例中,拆包单元603C包括解复用器609C,该解复用器609C能够接收上行链路流605C并能够将VAD结果504C和事件405C与编码的音频数据607C分开。在这个实现中,解复用器609C能够将编码的音频数据607C输出到解码器608C,该解码器608C能够对编码的音频数据607C解码并输出解码的音频数据613C。
[0078]
[0079]因此,很明显,优选的实施例提供了用于通过监控音频环境中的合适的触发和延迟转换直到触发发生的时刻来掩蔽音频会议转换的方法和系统。
[0080]SW
[0081]在本说明书各处的对于“一个实施例”,“一些实施例”或“实施例”的引述意味着结合该实施例描述的特定的特征,结构或特点被包括在本发明的至少一个实施例中。因而,短语“在一个实施例中”,“在一些实施例中”或“在实施例中”在本说明书各种位置的出现并不一定都指的是同一实施例,但是可能指的是同一实施例。此外,如本领域的技术人员从本公开一个或多个实施例中将显见的,特定的特征,结构或特点可以以任何合适的方式组合。
[0082]在下面的权利要求和本文的描述中,术语“包含”或“其包含”中的任一个是开放性术语,该开放性术语意味着包括至少一个随后的单元/特征,但不排除其他的。因而,当用于权利要求书中时,术语“包含”不应该被解释为局限于此后列出的装置,单元或步骤。例如, 设备包含A和B的表达的范围不应该限于设备仅由A和B组成。在本文中使用的术语“包括”或 “其包括”中任何一个也是开放性术语,该开放性术语也意味着包括该术语后面的至少一个的单元/特征,但不排除其他的。因而,包括与包含意义相同,且包括意味着包含。
[0083]正如在本文中使用的,术语“示例性”在提供示例的意义上被使用,而不是指示质量。即,“示例性实施例”是作为示例被提供的实施例,而不一定是具有示例质量的实施例。
[0084]应该注意到,在本发明的示例实施例的以上描述中,本发明的各种特征在单一实施例,图或其描述中有时被分组在一起,以理顺本公开并有助于对各种发明方面中的一个或多个方面的理解。但是,公开的此方法不应被解释为反映由权利要求保护的本发明需要比在每个权利要求中明确地陈述的特征多的特征的意图。相反,如下面的权利要求反映的, 发明性的各方面在于比单个先前公开的实施例的所有特征少的特征。因而,【具体实施方式】后面的权利要求特此被明确地引入本【具体实施方式】,其中每项权利要求独立地作为本发明的单独的实施例。
[0085]此外,尽管本文中描述的一些实施例包括在其他实施例中包括的一些特征但不包括其他特征,但是如本领域的技术人员可理解的,不同实施例的特征的组合意在在本发明的范围之内,并形成不同的实施例。例如,在下面的权利要求中,权利要求保护的实施例中的任何一个可被以任何组合使用。
[0086]此外,实施例中的一些在本文中被描述为方法或方法的元素的组合,该方法或方法的元素的组合可以由计算机系统的处理器实现或通过实施该功能的其他手段实现。因而,具有用于实施这种方法或方法的元素的必要的指令的处理器形成实施该方法或方法的元素的手段。此外,在本文中描述的、装置实施例的元件是实施由该元件进行的用以实施本发明的功能的手段的示例。
[0087]可以利用一个或多个计算机可读介质的组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子,磁性,光学,电磁,红外或半导体系统,装置或设备,或前面的任何合适的组合。计算机可读存储介质的更具体的示例(非穷尽列表)将包括下面各项:具有一个或多个线的电连接,便携式计算机软盘,硬盘,随机存取存储器(RAM),只读存储器(R0M),可擦除可编程只读存储器(EPR0M或闪存),光纤,便携式光盘只读存储器(CD-ROM),光存储设备,磁性存储设备或前面的任何合适的组合。在本文档的语境中,计算机可读存储介质可以是可含有或存储程序的任何实体介质,该程序由指令执行系统,装置或设备使用或与其有关。
[0088]计算机可读信号介质可以包括其中体现有计算机可读程序代码的传播的数据信号,例如,在基带中或作为载波的一部分。这种传播的信号可以为各种形式中的任何一种,包括但不限于电磁或光学信号,或它们的任何合适的组合。
[0089]计算机可读信号介质可以是任何如下的计算机可读介质,该计算机可读介质不是计算机可读存储介质,并且可以传达,传播或输送由指令执行系统,装置或设备使用或与其有关的程序。
[0090]在计算机可读介质上体现的程序代码可以使用任何合适的介质被传输,包括但不限于无线,有线,光线电缆,RF等或前面的任何合适的组合。
[0091]用于实施本申请的各方面的操作的计算机程序代码可以以一个或多个编程语言的任意组合被书写,包括诸如Java,Sma11 taIk,C++等的面向对象的编程语言,和例如“C”编程语言或类似的编程语言的传统过程编程语言。程序代码可以作为独立的软件包完全在用户的电脑上执行,或部分地在用户的电脑上部分地在远程计算机上执行,或完全在远程计算机或服务器上执行。在后者的情况下,远程计算机可以通过任何种类的网络连接到用户的计算机,该网络包括局域网(LAN)或广域网(WAN),或可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。
[0092]在本文中提供的描述中,阐述了大量的具体细节。但是,可以理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在其他例子中,为了使描述容易理解,广为人知的方法,结构和技术没有被详细示出。
[0093]尽管已经描述了被认为是本发明的优选实施例的东西,但是本领域的技术人员将认识到,可以对其做其他和进一步的修改而不会背离本发明的精神,且其意图是要求保护所有这些改变和修改落入本发明的范围内。例如,上面给出的任何方案仅是可以使用的过程的代表。可以向框图中添加或从框图中移除功能特性,且操作可以在功能框中被交换。可以在本发明的范围内描述的方法中添加或删除步骤。
【主权项】
1.一种在如下类型的音频会议混合系统中的方法,该类型的音频会议混合系统取得包 括混合转换事件的会议参加者的输入音频信息的多个音频输入流,并输出包括输出音频信 息的多个音频输出流,该方法混合音频输出流以降低混合转换事件的可检测性,该方法包 括以下步骤:(a)确定转换事件将发生;(b)确定掩蔽触发将发生;(c)安排转换事件基本上在掩蔽事件发生时发生。2.如权利要求1所述的方法,其中所述混合转换事件包括当孤立地收听时能被收听参 加者注意到的音频输入流编码中的改变。3.如前面任一权利要求所述的方法,其中所述掩蔽触发包括以下中的至少一个:语音的起始或终止;语音特性的预定的改变,或预定数目的参加者的同时语音的起始。4.如前面任一权利要求所述的混合音频输出流的方法,其中所述安排包含延迟转换事 件的发生直到掩蔽触发发生。5.如前面任一权利要求所述的混合音频输出流的方法,其中所述掩蔽触发包括所述音 频输入流中的一个音频输入流的语音的起始或终止。6.如前面任一权利要求所述的方法,其中掩蔽触发包含由会议参加者中的至少一个对 于预定文本的发言。7.如前面任一权利要求所述的方法,其中在音频输入流中的一个音频输入流中的音量 和/或预定谱流量的增加的存在指示在音频输入流中的所述一个音频输入流中的掩蔽触发。8.如权利要求3或前面任一从属于权利要求3的权利要求所述的混合音频输出流的方 法,其中语音的所述起始或终止由所述音频输入流中的一个音频输入流中的声音活动标志 值的改变来表示。9.如前面任一权利要求所述的方法,其中掩蔽事件由一系列音频输入流的听觉场景分 析确定。10.如前面任一权利要求所述的方法,其中音频输入流包括至少一个CTX(连续传输)音 频输入流和至少一个DTX(离散传输)音频输入流。11.一种首频混合系统,包括:多个音频流输入单元,该多个音频流输入单元接收来自多个音频输入/输出设备的音 频输入上行链路流,音频输入上行链路信号包括在孤立收听时能被收听参加者注意到的音 频上行链路流中的改变的转换事件信号、和表示音频输入上行链路流中的预定音频事件的 掩蔽触发信号;以及一系列音频子混合单元,每个音频子混合单元形成用于返回到所述多个音频输入/输 出设备中相应的一个的下行链路输出,所述音频子混合单元中的每个与所述音频流输入单 元中的预定数个互连以混合与该数个音频流输入单元相关的音频输入上行链路流,所述音 频子混和单元进一步包含:第一控制单元,用于控制输入的音频流的混合的形式,并且响应于所述转换事件信号而更改混合的形式;第二控制单元,用于延迟混合的形式的更改直到掩蔽触发信号存在于音频输入上行链 路流中的至少一个中时。12.—种承载计算机可译解指令的计算机可读介质,该计算机可译解指令在由用于电 话会议混合系统的装置的处理器执行时导致装置实施如权利要求1到10中任一权利要求所 述的方法,该装置被配置成接收多个音频输入流并且基于音频输入流产生至少一个音频输 出流。
【文档编号】H04M3/56GK106031141SQ201580010641
【公开日】2016年10月12日
【申请日】2015年2月17日
【发明人】R·J·卡特莱特, G·N·迪金斯
【申请人】杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1