用于实施语音会议的方法和语音会议系统的制作方法

文档序号:7642720阅读:248来源:国知局
专利名称:用于实施语音会议的方法和语音会议系统的制作方法
用于实施语音会议的方法和语音会议系统
背景技术
语音会议系统允许多个语音终端设备互相连接成一个电话会议,从 而向各个用户榆入通过其余用户的语音终端设备的各自话筒所接收的 音频信号作为用作音频输出的"混合的信号".输入用户的"混合的信 号",下面也称为混合信号,在此是施加的所有音频信号的叠加,然而 该用户的音频信号除外,因为这个他自身在会议中的讲话部分不需要或 者不允许被他自己听到,因为这会产生自身讲话的非期望的回声效应.
因此,必须为电话会议的N个用户中的每一个形成特殊的混合信号,在 这种情况下,将该电话会议的其余用户的(N-l)个语音信号加工成该 特殊的混合信号。
例如,在具有语音终端设备的基于分组的通信系统中,该语音终端 设备借助基于分组的方法通过基于分组的网络一例如基于IP的UP: Internet Protocal,互联网协议)网络一来通信,将通过话筒接收的
音频信号通过编码器转换为用于该基于分组的网络的数据分组,并且借 助解码器将来自该基于分组的网络的数据分组转换为用于通过例如位
于电话听筒中的扬声器音频输出的音频信号.组合的编码和解码单元通 常称作C0DE(X编解码器)(编码/解码)。已知的编码方法例如通过ITU-T (ITU-T: ITU的电信标准化部门;ITU:国际电信联盟)来进行标准化。 它们例如是具有名称G. 711, G. 726或者G. 729的CODEC,这些CODEC 尤其通过各自的语音质量、各自的压缩率以及各自编码方法的复杂性来 相互区分.例如CODBCG. 729的优点是,该CODEC可以用于语音质量比
较好时的高压缩,但是其中必须执行计算强度大的运算.
语音终端设备经常支持多个CODEC,其中协商用一个共同的CODEC 来用于各个通信伙伴的连接和/或各个通信伙伴的连接的部分片段,
为了通过电话会议将语音终端设备相互连接,通常这样处理,即在 语音终端设备的语音会议系统中将传入的经过编码的语音数据进行解 码,从中为各自的语音终端设备分别产生混合信号,并且该分别产生的
6混合信号利用与各自的语音终端设备匹配的编码器来转换.分别生成的 混合语音数据于是通过面向分组的方法传输给各自语音终端设备来进 行各自的语音输出,
由此给出,在具有N个用户的电话会议中,通过语音会议系统同时 对N个传入的语音数据流进行解码,并且通过N个编码器将随后形成的 N个混合信号转换为N个传出的语音数据流.尤其在具有许多用户的电 话会议中,这可能导致可观的用于编码和解码的计算消耗,除此以外, 为了支持具有许多用户的电话会议,必须维持大量的编码器和解码器.
为了减少编码和解码的复杂性,可以在语音会议系统中只使用需要 较少计算能力的CODEC.然而已经证实,在语音质量和/或用于传输经过 编码的语音数据所需要的带宽方面,这种计算强度较低的CODEC大多是
不利的.
可替换地,并且为了解决这个高计算消耗的问题,通过将各自语音 终端设备的经过编码的语音数据传输给所有其它的语音终端设备,然后 分别在语音终端设备中进行解码和混合,语音会议系统可以放弃解码和 对经过解码的信号的混合.然而这种方法引出了其它的或者进一步的问 题,因为对语音终端设备的带宽要求极度地提高,并且语音终端设备必 须为此如此设置,即必须能对多个传入的语音数据流进行并行处理.由 此,语音终端设备中的复杂性显著提高了.
在前述所有的方法中,证实这样做是困难的,即通过语音会议系统 服务大量的用户而不将语音会议系统中的计算复杂性极度提高,并且对 语音质量或传输带宽没有明显的消极影响.

发明内容
本发明要解决的技术问题是,给出一种用于执行语音会议的方法以 及一种语音会议系统,即使在会议用户较多时,该语音会议系统也可以 为所有语音信号的编码保持较低的计算复杂性。
这个任务通过根据权利要求1的用于执行语音会议的方法,以及通 过根据权利要求14的语音会议系统来解决。
所述方法的优选实施形式和扩展在从属权利要求中给出.
在本发明的方法中,该方法用于在通信系统中实施具有至少三个语音终端设备的语音会议,优选为同时、双向的通信而设置的语音终端设
备分別具有接收信道(Empfangskanal)和记录信道(Aufnahmekanal ), 该接收信道用于接收在语音会议中累积的经过编码的语音数据,并且将 通过对接收到的语音数据进行解码而形成的语音信号输出给各自的语 音终端设备。该记录信道用于为语音会议提供经过编码的语音数据,其 中要提供的语音数据由编码器根据在各自的语音终端设备上记录的语 音信号来形成。在本发明的方法中,将语音终端设备中的至少一个设备 至少暂时地分配给第一组,使得为该第一组将通过它们各自的记录信道 提供的语音数据分别解码成单个语音信号(Einzelsprachsignal),将 该单个语音信号叠加成合成语音信号(Su咖ensprachsignal ),并且将 该合成语音信号编码为第一合成语音数据(Summensprachdaten ),此外, 将语音终端设备中的至少两个设备至少暂时地分配给第二组,使得第二 组只包括这样的语音终端设备,即在该语音终端设备中在它们各自的记 录信道上识别出广泛的(weitgehend)非主动性.根据本发明,向分配 给笫二组的语音终端设备通过它们各自的接收信道输入第一合成语音 数据来用于分别输出该第一合成语音数据.
本发明证明其自身尤其是有益的,即当从多个单个语音信号中形成 唯一的、共同的合成语音信号,并且将经过编码的合成语音信号,即笫 一合成语音数据,不经过特殊的改变而输入给多个语音终端设备.因此 只对一个语音信号一合成语音信号一优选通过共同的CODEC来编码,由 此在语音会议中同时使用的CODEC的数量可以明显地减少。例如,如果 将X个非主动的语音终端设备分配给第二组,则为了对特定于终端设备 的语音数据进行编码而不使用本发明的方法,通常需要同时使用X个 C0DEC。相反地,在使用本发明的方法时,只需要使用一个CODEC,因此 可以节约X-l个CODEC,原因是需要相应更少的CODEC,语音会议的最 大数量用户所需要的CODEC的最大数量,可以例如在为真实环境中运行 的电话会议所做的准备阶段调查的范围内根据经验确定,
从前文所述中可以看出, 一方面用于执行根据本发明的方法的语音 会议系统可以保持少于语音会议中存在地用户的CODEC,并且尽管如此 该语音会议系统可以用语音数据来服务所有用户。另一方面,通过更少 的同时主动的CODEC—即通过语音会议中的所有语音终端设备而同时使用的所有CODEC的总计,或者通过所有同时举行的语音会议的语音终端 设备而同时使用的所有CODEC的总计,减少了在语音会议系统中的计算 复杂性,从而或者可以节约计算容量,或者可以使用质量更好的CODEC, 其中后者又对语音质量和所占用的传输带宽具有积极作用.
单个语音信号的叠加可以理解为对单个语音信号的求和,并且必要 时理解为连接在求和后面的信号表减.后者在此可以保证最大电平不会 被合成语音信号超过.此外,通过在叠加时对单个语音信号进行不同的 加权,单个语音信号在叠加时可以被匹配到共同的音量水平.
在本发明的优选设置中,可以这样形成第一组,即只将在各自的记 录信道上识别出主动性的语音终端设备分配给第一组,因此第一组和第 二组可以保持不相交.这样做是有益的,因为在形成叠加时只需要注意 主动的单个语音信号.由此,要叠加的单个语音信号的数量减少了,并 且因此也降低了叠加的复杂性,除此之外也改善了叠加的合成语音信号 的语音质量,因为那些虽然包括通常会引起干扰的背景噪声但除此之外 不具有主动性的语音信号并不传入合成语音信号中,因此通过本发明隐 含性地被滤出,
可替换地在本发明的另一个优选设置中,可以这样形成第一组,即 将语音会议的基本上非主动的语音终端设备或者将所有语音终端设备 也分配给第一组.用这种方式不需要对单个语音信号进行关于主动性/ 非主动性的提前检查,由此可以避免在执行本方法时的延迟.合成语音 信号在本设置中还包括非主动的单个语音信号,这些非主动的单个语音 信号通过广泛的非主动性表征,其中主动的语音终端设备是占支配地位 的,从而满足了合成语音信号基本上是主动语音终端设备的叠加信号的 目的.
按照本发明的优选扩展,分配或者划分到第一和/或第二组可以动 态地进行.第一个可能性是,通过在一个时间段过去之后对语音终端设 备的主动性进行分析,在规则的或者不规则的时间段过去之后对语音终 端设备的组的归属性进行检查,根据在这个时间点占主导的主动性或者 根据在该时间段期间的主动性频率和/或主动性持续时间,可以将已在 记录信道上识别了主动性的语音终端设备标记为主动发言方,并且分配 给笫一组,类似地,可以在记录信道上识别了非主动性时在将所属的语20
音终端设备标记为被动的听众方,并且分配给笫二组.
除此之外或者可替换地可以重新执行组的分配,所述组的分配通过 在一个记录信道上的主动性改变而引发,而主动性改变例如是从广泛的 非主动性转换成主动性或者相反,或者通过在一个语音终端设备上的使 用者动作来引发,使用者动作例如可能是在一个语音终端设备上的按 鍵,通过该使用者动作表示,相应的用户想要主动地参与语音会议。可 替换地,为了向每个用户分配讲话的权利,可以通过语音会议的主持人 来执行该使用者动作。
在本发明的另一种优选扩展中可以形成第三组,所述第三组与第二 组类似只包括这样的语音终端设备,则这些语音终端设备在它们的记录 信道上具有广泛的非主动性.优选对第二组以及第三组分别使用互不相 同的编码器,来对同样输入的合成语音信号进行编码,从而向笫二组的 语音终端设备榆入通过第 一编码器编码的第 一合成语音数据,而向第三 组的语音终端设备输入通过笫二编码器编码的笫二合成语音数据.因
此,例如可以这样形成组,即将支持CODECG. 729的语音终端设备分配 给第二组,而支持G. 711的语音终端设备分到第三组.用这种方式可以 促使分别使用各个语音终端设备的质量最好的CODEC,优选将笫二组和 第三组分离,从而分配给这两组中一组的语音终端设备只获得第一合成 语音数据或者可替换地只获得笫二合成语音数据,其中支持多个CODEC 的语音终端设备,优选分配给这样的组,即该组使得可以输出质量最高 的输出信号,和/或该组通过传输相应的合成数据实现了最小的带宽负 荷,
除了根据本发明的方法,前面所述的优点、扩展和实施形式以类似 的方式适用于根据本发明的语音会议系统.


下面借助于附图进一步阐释本发明的实施例。 在此在示意图中
图l示出具有语音会议服务器和参与语音会议的语音终端设备的通 信系统,以及
图2-图5示出语音会议服务器的部件以及在各个不同的方法阶段中在语音会议中这些部件之间的逻辑信号流和数据流.
具体实施例方式
在闺1以示意闺示出具有语音会议系统K0NF和多个语音终端设备 A, B, C, D, E, F和G的通信系统.语音会议系统K0NF以及语音终端 设备A, B, C, D, E, F, G在所述实施例中基于面向分组的原理,其中 为了语音的传输以及发信号设置了没有进一步示出的基于IP的传输网 络.语音终端设备A, B, C, D, E, F, G与语音会议系统K0NF的耦合 在图1中分别通过各自的语音终端设备A, B, C, D, E, F, G与语音会 议系统K0NF之间的连接V来形象地说明,
在图1至图5中假设,已经通过语音会议系统K0NF建立了语音会 议,并且连接建立阶段已经结束.参与该语音会议的是所有的前述语音 终端设备A至G,
在闺1中示出的输出情况是,在语音会议KONP中,就传送语音来 说,语音终端设备A, B和C是主动的,而语音终端设备D, E, F和G 是非主动的.这个划分在图1中通过第一组和第二组GR1和GR2的椭圆 图形来表明,其中GR1的椭圃形包括语音终端设备A, B, C, GR2的椭 圃形包括其余的语音终端设备D, E, F, G.通过连接V流动的语音数据 流在图1中通过有方向的箭头示出,其中将从各自的语音终端设备A, B, C, D, E, F, G向语音会议系统KONF传输的语音数据流称为单个语音数 据ESD,而将从语音会议系统KONF向各自的语音终端设备A, B, C, D, E, F, G传输的语音数据流标记为合成语音数据SSD。
语音终端设备A, B, C, D, E, F, G中的一个语音终端设备上的用 户是主动地参与语音会议还是仅仅被动地参与语音会议,在附图标记 ESD中通过上标A来表示主动,通过上标P来表示被动(因此给出了 ESD' 或者ESDP)。产生各自的单个语音数据ESD的各语音终端设备A, B, C, D, E, F, G在参考标记ESD中通过语音终端设备A, B, C, D, E, F, G 的下标字母来表示.因此例如通过参考标记ESDPB来标记从语音终端设 备B输出的单个语音数据的被动数据流.就合成语音数据而言,在各自 的参考标记SSD中给出从哪些源数据流叠加成合成语音数据流。这通过 将源语音终端设备A, B, C, D, E, F, G的字母作为下标来表明.因此例如将传入语音终端设备A和B的数据流标记为SSD".
在该实施例中,在语音会议系统K0NF中,在给定的时间段内对传 入的语音数据进行分析,并且尤其是分析在该时间段内是否识別出各语 音终端设备A, B, C, D, E, F, G的主动性或者被动性。该分析借助于 语音终端设备A, B, C, D, E, F, G的所有的单个语音数据ESD或者从 该ESD中解码的单个语音信号来进行,困1的通信系统在此在这样一个 时间点示出,即在该时间点语音终端设备A, B和C被识别为是主动的, 而语音终端设备D, E, F和G被确定为是非主动的.因此按照前面解释 过的命名,单个语音数据ESD\, ESD ,ESD'是为主动的语音终端设备A, B, C传入的.另外,语音会议系统KONF中的单个语音数据ESDV ESDP8, ESD 以及ESD 是为被动的语音终端设备D, E, F和G传入的.根据本 发明,将从语音终端设备A, B和C传入的单个语音数据ESD、 ESDV ES叭解码成单个语音信号,并且叠加为共同的合成语音信号一 该合成语 音信号没有示出.将该合成语音信号在另一个步骤中编码成合成语音数 据.由于对语音终端设备A, B和C的信号的叠加,将该合成语音数据 称为SSD道,并且将该合成语音数据作为输出数据流传输给被动的语音 终端设备D, E, F, G,也就是这些语音终端设备D, E, F, G通过在它 们各自记录信道上的进一步的非主动性表征。因此,将相同的合成语音 数据SSDm输入给所有被动的语音终端设备D, E, F, G.接着,在各语 音终端设备D, E, F, G中对在该各语音终端设备D, E, F, G中接收到 的合成语音数据SSD縱进行解码,并且通过电话听筒的扬声器输出给各 个用户。
除此之外,为主动的语音终端设备A, B, C单独传输合成语音数据 SSD,例如为语音终端设备A传榆经过编码的数据,该数据是语音终端 设备B和语音终端设备C的单个语音信号的特定于终端设备的叠加.因 此将B和C的单个语音信号的经过编码的叠加作为合成语音数据SSDBC 传输给语音终端设备A.用类似方式分別将其余语音终端设备的单个语 音信号经过叠加然后经过编码地输入其他的主动语音终端设备B和C。
为语音端设备B输入合成语音数据SSDm;,并且为语音终端设备C输入
合成语音数据SSD,b,该合成语音数据SSDw和SSDw分别特定于终端设备 (特定于B或者C)而形成。因此为各自的语音终端设备A, B, C, D, E, F, G输入合成语音数 据SSD,该合成语音数据SSD在各自的语音终端设备A, B, C, D, E, F, G上经过解码之后通过扬声器输出.在此合成语音数据SSD分别包含每 个用户分别需要的语音会议的音频分量.在各个语音终端设备A, B, C, D, E, F, G中对语音信号或者语音数据进行的广泛的后处理,例如通过 音频信号的叠加、提取和/或倒置(Inversion)而进行的后处理,在本 发明的范围内是不需要的.
至于主动性和非主动性(或者被动性)的确定到目前为止还没有详 细讨论。主动性例如通过信号一次性地超过阈值电平来表征,可替换地, 在把信号分类为主动信号之前, 一个电平必须被多次超越。此外可以将 平均的和统计的分析引入到主动性评估中,可以检查均匀的或者不均匀 的时间段;除此之外或者可替换地,超过或者不超过阈值可以引起关于 主动性的重估.
在解释过图1中关于实施本发明语音会议的粗略关联之后,现在借 助于图2以及其他的图3-5来解释,语音会议系统KONF如何执行语音 数据的分析以及语音信号和语音数据的加工.在此在图2中的输出情况 与在图l中的情况相同;也就是说语音终端设备A, B和C是主动的, 并且语音终端设备D, E, F和G是非主动的.在图1中引入的单个语音 数据ESD、合成语音数据SSD—包括上下标、组GR1, GR2以及语音终端 设备A, B, C, D, E, F, G的标志,在图2至困5中保持不变。
在图2至困5中,将语音会议系统KONF分割成解码单元DE、信号 混合单元MIX、编码单元KE、主动性识别单元AE以及编码控制单元KSE. 在这些图中从左向右提供信号流,由此在语音会议系统K0NF中在左側 提供传入的语音终端设备A, B, C, D, E, F, G的单个语音数据ESD, 并且分别在困2至图5的右側示出从语音会议系统KONF输出给各个语 音终端设备A, B, C, D, E, F, G的合成语音数据SSD.解码单元DE 用长方形来表示,该解码单元DE包括多个同样用长方形来表示的解码 器Dl至D7,解码器Dl至D7在此是CODEC的解码实例,例如G. 723 CODEC 或者G. 729 CODEC,解码单元DE的输入信息是语音终端设备A, B, C, D, E, F, G的单个语音数据ESD\, BSDV ESDac, ESDpd, ESDpb, ESDpp, ESD 的数据分组.为了将面向分组的经过编码的数据与未经编码的语音
13信号区分开来,在图2至困5中用双箭头来表示数据或者数据分组,而用单箭头来表示信号(也表示控制数据)。
解码单元DE的解码器Dl至D7拥有用于将单个语音信号ESS传输至信号混合单元MIX的信号输出端来作为输出端.在信号混合单元MIX中基于传入的单个语音信号ESS而形成不同的、叠加的混合信号作为合成语音信号,该合成语音信号又传输给编码单元KE.该混合信号(在图中表示为相加的单个语音信号一例如ESSb + ESS,)或合成语音信号通过各自CODEC的编码器实例(Kodierins tanz ) Kl至K6编码成合成语音数据SSD,并且传输给各自的语音终端设备A至G.
向主动性识別单元AE(根据权利要求15也称为信号混合控制单元)输入所有通过解码单元DE榆出的单个语音信号ESS" ESSb, ESSc, ESSd,ESSb, ESSp, ESS"可替换地,也可以在将单个语音数据ESDAA, ESDAB,ESD、, ESDPD, ESDPB, ESDPP, ESD 输入解码单元DE之前,通过主动性识别单元AE来处理该单个语音数据.主动性识别单元AE确定一定时间段内的主动和被动的语音终端设备。所确定的信息接着通过该实施例范围内没有进一步特殊化的信令输入信号混合单元MIX以及编码控制单元KSE,从而主动性识别单元AE除了识别主动性和被动性以外,还执行用于控制信号混合的功能。借助输入的信息,在信号混合单元MIX中控制并执行不同的单个语音信号ESSA, ESSb, ESSc, ESSd, ESSb, ESSp, ESSc的混合.
除此之外,将该信息以及其他关于语音终端设备A至G的CODEC的信息INF传输给编码控制单元KSE,接着编码控制单元KSE确定语音终端设备A至G的组分配,所确定的组的归属性在此在图2至固5中在编码单元KE的输出端上用虚线画出的椭圃表示。在解码单元DE、信号混合单元MIX以及编码单元KE中的信号路径同样通过虚线示出,
在图2中根据图1中的示意困,将主动的语音终端设备A, B和C的单个语音数据ESDAA, ESDV ES叭输入解码单元DE.除此之外,将语音终端设备D, E, F和G的非主动单个语音数据ESDPD, BSDPB, ESDPP,ESD 同样输入解码单元DE,在此,解码通过各自的解码器Dl至D7单独进行。解码器Dl至D7产生各自的单个语音信号ESSA, ESSb, ESSc,ESSd, ESSb, BSSp, ESSfi.将所述的单个语音信号ESS输入信号混合单元MIX以及主动性识别单元AE.
主动性识别单元AE分析单个语音信号ESS,并且识别出语音终端设备A, B和C通过广泛的主动性来表征,相反语音终端设备D, E, F和G通过广泛的非主动性来表征.这借助一个或者多个信息消息传输给信号混合单元MIX.这在图2中通过消息ACT和PAS来表示,其中消息ACT包括主动的语音终端设备A, B, C的列表,而消息PAS包括被动的语音终端设备D, E, F和G的列表.信号混合单元MIX处理这些消息,并且将三个主动语音终端设备信号ESSA, ESSb, ESSc中的两个叠加成三个语音终端设备A, B, C中的每两个的相应的合成语音信号,以及叠加成所有三个语音终端设备信号ESSA, ESSb, ESSe的叠加.语音终端设备B和C的信号叠加一在图2中称为ESSB + ESSC—在此设置为给语音终端设备A的输出,并且仍必须为此传输给编码单元KE.类似地,为语音终端设备B进行语音终端设备A和C的单个语音信号的叠加ESSA + ESSe,以及为语音终端设备C进行语音终端设备A和B的单个语音信号的叠加ESSA+ ESSB,除此之外,根据本发明执行所有三个主动语音终端设备信号的叠加BSSA + ESSB + ESSc,并且同样输入编码单元KE。
编码控制单元KSE得到关于主动的语音终端设备(A, B, C)和非主动的语音终端设备(D, E, F, G)的消息,并且額外地询问哪个CODEC由哪个语音终端设备A, B, C, D, E, F, G来支持,这通过信息INF的输入来表示.基于这些信息,现在编码控制单元KSB可以将语音终端设备A, B, C, D, E, F, G分组,从而在第一组GR1中包括了所有主动的语音终端设备(即A, B, C),以及在第二组GR2中组合了所有被动的语音终端设备(即D, E, F, G).这样做的前提是,所有被动的语音终端设备D, E, F, G分别支持同一个CODEC,从而随后在语音终端设备D,E, F, G上的编码又可以被解码,
将组信息从编码控制单元KSE传输给编码羊元KE(在闺2中表示为消息"GR1: A, B, C"和"GR2: D, E, F, G").接着编码单元1[B为分配给第一组GR1的主动语音终端设备A, B, C分别产生一个编码器实例(或者从给出的编码器池中检索出 一个实例),以及为分配给第二组GR2的所有语音终端设备D, E, F, G产生一个共同的实例。所述笫一种情况在图2中是编码器U, K2和K3。用于非主动语音终端设备D, E, F,G的共同编码器在困2中称为K4.编码器U通过对叠加的单个语音信号ESSb和ESSe进行编码来对用于语音终端设备A的合成语音数据SSDBC进行编码.用类似的方式通过编码器K2处理语音终端设备A和C的叠加的单个语音信号ESS, + ESSe,并且借助合成语音数据SSDAe继续传递给语音终端设备B,相应地,通过编码器K3来对语音终端设备A和B的叠加的单个语音数据ESS,和ESSB进行编码,并且作为合成语音数据SSDAB输入语音终端设备C.
编码器K4处理三个主动语音终端设备A,B和C的经过叠加的信号,即ESSA + ESSB + ESSe.通过编码器K4产生共同的合成语音数据SSDABC,该合成语音数据SSD縦经过复制并且通过各自的连接传输给非主动的语音终端设备D, E, F和G,
通过这种方式,对于语音终端设备D, E, F和G来说只需要一个编码器K4,该编码器为所有四个非主动的语音终端设备D, E, F, G共同产生待输入的合成语音数据SSDABC.因此相对于现有技术节约了大量的编码器.这种非主动语音终端设备的逻辑组合在图2中通过具有标记GR2的椭圃示出,该椭圆包括用于语音终端设备D, E, F和G的合成语音数据SSDABC.
基于该配置以及图2中示出的情况,现在在图3中通过一个属于到目前为止主动的语音终端设备C的用户在一定的时间间隔内没有产生被识别为主动语音信号的语音信号,该到目前为止主动的语音终端设备C变为非主动。
通过主动性识别单元AE确定,现在只有语音终端设备A和B是主动的,而语音终端设备C, D, E, F和G是非主动的。这借助消息ACT和PAS传输给信号混合单元MIX,接着通过信号混合单元MIX形成来自两个主动语音终端设备A和B的混合信号一ESS* + ESSB。此外,每一个主动语音终端设备的信号混合单元MIX本来会产生其余语音终端设备的混合信号.因为在这种情况下只有两个主动语音终端设备A和B,所以在产生混合信号的情况下就不需要叠加了 .只将语音终端设备B的单个语音信号ESSB提供给语音终端设备A,以及反过来将语音终端设备A的单个语音信号ESSA提供给语音终端设备B,两个最后所述的单个语音信号ESS,和ESSB分别通过编码器Kl和K2编译成合成语音数据SSDb和SSIX,并且分别向语音终端设备A和B传输,使得传输给语音终端设备A的合成语音数据SSDB只表示对语音终端设备B的单个语音信号ESSB的编码.类似地,向语音终端设备B只输入语音终端设备A的语音数据.
两个主动语音终端设备A和B的经过叠加的合成语音信号ESSA +ESSB与根据本发明的合成语音信号相对应,本发明的合成语音信号现在通过编码器K4转换为第一合成语音数据SSDAB.经过转换的合成语音数据SSD,B现在被复制到不同的连接V上,并且输入给各个非主动的语音终端设备C至G.这基于通过编码控制单元KSE的控制进行,该编码控制单元KSE已识别出主动语音终端设备的第一组GR1只包括了语音终端设备A和B,而非主动语音终端设备的第二组GR2包括了语音终端设备C, D, E, F和G。这又通过具有标记GR2的椭圃在闺3中表示出来.
基于困2和图3可以看出,在通常只有一个主发言方和多个次发言方暂时同时存在的语音会议中,借助本发明能够明显减少所使用的编码器.这在最优的极端情况下可以导致,为了能够服务于该语音会议的所有语音终端设备而只需要使用两个编码器.
基于图2,在图4中观察到一种相反的情况,其中到目前为止一直被动的语音会议成员 一语音终端设备D—通过在它自己的记录信道上的主动性来表征,并且因此被分配到主动语音终端设备的组GR1中.语音终端设备A至D现在都是基本上主动的,并且所有的语音终端设备A至G相应于它们的主动性通过主动性识别单元AE分类为或分组为主动的和被动的语音终端设备,这个分组信息又传输给信号混合单元MIX。该信号混合单元MIX用与之前的图2和困3中类似的方式分别形成多个混合信号.分别给主动的语音终端设备A, B, C和D—个混合信号,而给被动的语音终端设备E, F和G共同的混合信号,最后所述的混合信号在此是四个主动语音终端设备A, B, C和D的单个语音信号的叠加ESSA+ ESSB+ESSc + ESSD.基于它们的主动性加上所支持的CODEC的信息,现在通过编码控制单元KSE形成笫一组GR1和第二组GR2,从而在第一组GR1中包括主动的语音终端设备A, B, C和D,在笫二组GR2中包括非主动的语音终端设备E, P和G,
此外与图2类似,使用编码器K1, K2, K3和K4来为语音终端设备A, B, C, D, E, F和G产生信号.为了给到目前为止一直是非主动的但
17是现在被激活的语音终端设备D产生合成语音数据SSDm,在编码单元KE中产生新的编码器实例K5,该编码器实例K5对语音终端设备A, B和C传入的叠加的合成语音信号ESS, + ESSB + ESSc进行编码,并且作为合成语音数据将SSDw传输给语音终端设备D。通过这种对编码器的动态增加,可以灵活地对在语音终端设备的各个记录信道上的主动性改变进行反应,与图2相反,通过编码器K4产生的合成语音数据SSD,歸只输入现在还是非主动的语音终端设备E, F和G.
在图5中进行根据本发明的一个扩展,其中并不是所有的语音终端设备都支持CODEC的一致准则.在此假设,终端设备D和E分别支持具有极高语音质量的共同的CODEC,而语音终端设备F和G只支持具有中等语音质量的CODEC.此外如在图2中一样,所述的语音终端设备D, E,F和G通过它们的非主动性来表征,语音终端设备A, B和C同样如在图2中一样是主动的.因此与图2类似,主动性识别单元AE识别出语音终端设备A, B, C是主动的,而语音终端设备D, E, F和G是非主动的,并且主动性识别单元AE将该信息传榆给信号混合单元MIX以及编码控制单元KSE,用与在图2中示出的同样的方式,信号混合单元MIX为主动的语音终端设备A, B, C产生混合信号,以及为所有被动的语音终端设备D, E, F和G产生共同的叠加的合成语音信号ESS, + BSSb + ESSc,编码控制单元KSE分析所传输的关于主动性和被动性的信息,以及关于通过语音终端设备A至G来支持的CODEC的信息INF,然后根据语音终端设备A至G的主动性和对CODEC的支持性,将语音终端设备A至G分为三组GRl, GR2和GR3。 GR1包括主动的语音终端设备A, B和C. GR2包括非主动的、支持尽可能最好的CODEC的语音终端设备。这在该实施例中只通过语音终端设备D和E给出.此外,编码控制单元KSE将那些非主动的、但是不支持最高编码质量的非主动语音终端设备分成组GR3。那些是语音终端设备F和G.
然后,通过编码单元KE为第一组GR1的语音终端设备A, B, C分别产生编码器K1, K2和K3.为组GR2产生编码器实例K4,并且为第三組GR3产生编码器实例K6,其中在两个最后所述的编码器中输入三个主动语音终端设备A, B和C的叠加的合成语音信号ESSa + ESSb + ESS"现在通过编码器K4,将这个输入的合成语音信号转换为特定于该编码器的
18第一合成语音数据SSD"m,并且将该第一合成语音数据SSD"成输入语音终端设备D和E。此外,编码器K6同样从相同的合成语音信号中产生第二合成语音数据SSD"成,该相同的合成语音信号也将输入笫四编码器K4.因此通过编码器K6产生特定于编码器的合成语音数据SSD"痕,该合成语音数据SSD"度接着将输入两个非主动的语音终端设备F和G.因此,即使对CODEC的支持性不一致,本发明还是可以在编码单元KE中明显减少要使用的编码器,而不必使用次优的编码器,尽管各个语音终端设备可以支持质量更好的编码器.
用类似的方式,本发明可以扩展到多个由非主动语音终端设备构成的组,从而按照一定的判据为各组的语音终端设备进行最佳编码,其中在下面的段落中解释可能的优化判据.
当在前面的第二组和第三组GR2, GR3的分组基本上是根据待执行的编码的质量判据而且由此根据要达到的语音质量来进行时,也可以按照其他的适配判据或者不同判据的组合来进行编码器选择.从而例如可以考虑形成尽可能少的组.可替换地可以有这样的判据,即为组GR2,GR3中的至少一个分配非常多的语音终端设备.只要不存在任意多数量的编码器,并且只能为确定的CODEC类型产生有限数量的实例,则另外的判据可以是产生一种CODEC类型的尽可能少的实例.除此之外,可以将针对编码的期望计算消耗引入编码器的选择中,从而将语音会议服务
器中的计算消耗保持得很低或者最小化,另外可以注意用于所产生的合成语音数据的传输带宽,从而不会产生与语音终端设备的连接的过髙负荷.应该注意与一个或多个前述判据相关联的判据是,使在同时举行的所有语音会议中同时使用的编码器数量最小化.
优选按照混合的质量判据和数量判据来选择编码器,从而例如作为最重要的判据优选质量最好的CODEC,该CODEC受到至少一个其它的语音终端设备支持,或者受到预定最小数量的其它语音终端设备支持.因此对于这样的优化,可能根据不同的判据并不选择绝对的最佳,其中例如通过评估各个判据确定整体最佳,并且根据该整体最佳进行编码器选择.因此,优选与确定要使用的编码器一起确定组GR2、 GR3和可能的
其它组,因为这两者相互影响并具有反馈。
在语音会议中只有少数用户同时主动地参与语音会议的前提条件
19下,可以借助本发明的方法在编码单元KE中明显地减少计算消耗.在 此可以自适应地执行关于主动性和非主动性的分析,从而例如当语音信 道通过极度增大的主动语音数据流来表征时,改变主动性阈值,使得只 将两个或者最多三个语音终端设备分组为主动的语音终端设备.因此可 以实现,绝对不存在由许多主动语音终端设备产生的语音混乱,该语音 混乱反正也没有语音终端设备的用户可以理解.因此本发明还附加地用 于使语音会议的实施流水线化,以及提髙语音可理解性和语音清晰性。
为了在编码单元中实现对编码器的没有干扰的激活和停用,适当的 是信号只在基于相同的CODEC的编码器之间输入和输出。例如,到目前 通过G. 723 CODEC来编码的主动信号,可以在转换为非主动性时被分配 给同样使用该G. 723 CODEC的非主动语音终端设备组。用这种方式,在 编码单元KE中转换编码器对语音终端设备来说是透明的.因此信息通 过编码单元KE传给各个语音终端设备不是强制性必须的.
可替换地,还可以在转换编码器时转换到另一种方法。但是,在此 向语音终端设备附加地发出相应的通知是有意义的,该通知表明向新 CODEC的转换,从而向该语音终端设备指示同样转换成匹配的CODEC.
如果在语音通信系统中同时实施多个会议,那么本发明是尤其有益
的,因为通过这种方式明显提高了要节约的编码器的数量。解码器的数 量在给出的发明中没有减少,但是这并不是不利的,因为编码单元KE 的计算消耗明显超过解码单元DE的计算消耗。
对于主动性和非主动性的识别可以应用极为不同的方法。例如,在 此可以确定在确定的时间段内的最大信号,该最大信号将与阈值相比 较。除此之外也可以确定平均的信号电平,该平均的信号电平将与阈值 相比较.优选也可以识別信号电平的改变或者识别趋势,从而在信号电 平稍微提高时就已经可以识别出在短时间内将传输关于记录信道的重 要信息,从而激活该记录信道.此外尤其优选,主动性和非主动性之间 的转换并不是在每个时间段内都促使组的从属性发生明显的改变,因为 这也许对所产生的语音质量不利。因此,包含滞后或者阈值开关是合理 的,从而当在较长时间段内信号超过或者低于比较值时,才能识别主动 性和非主动性。此外可以定义多个阈值,从而转换到一个组也许比转换 到其它方向运行得快.由此可能考虑到以下亊实对于主动的用户也会 出现谈话间隙,该谈话间隙不应该立刻引起向非主动组的转换.即使借助于语音终端设备来阐释本发明,本发明也可以一般地用于 多媒体连接或者视频连接,除此之外,所介绍的原理也可以应用于面向 线路的通信系统来应用.语音终端设备优选是电话,然而在此也可以是
在工位计算机(Arbeitsplatzrechner )上的软件应用,通常也称为软 客户端,语音会议系统可以是通信系统的中央设备,其中还可以考虑分 布式的架构,其中尤其是可以实现不依赖于是中央的还是分布式的服务 器方的信号混合和信号编码,并且在终端设备中实现更小的复杂性.
权利要求
1. 一种用于在通信系统中实施具有至少三个语音终端设备(A,B,C,...)的语音会议的方法,其中语音终端设备(A,B,C,...)分别具有一接收信道,该接收信道用于接收经过编码的、在语音会议中累积的编码语音数据(SSD),并且将通过对接收的语音数据(SSD)进行解码而形成的语音信号输出给各自的语音终端设备,和一记录信道,该记录信道用于为语音会议提供经过编码的语音数据(ESD),其中所提供的语音数据(ESD)通过编码器形成在各个语音终端设备上记录的语音信号,其特征是,将语音终端设备(A,B,C,...)中的至少一个设备至少暂时地分配给第一组(GR1),使得对于该第一组将通过它们各自的记录信道提供的语音数据(ESD)分别解码成单个语音信号(ESS),将所述单个语音信号(ESS)叠加成合成语音信号,并且将所述合成语音信号编码为第一合成语音数据中(SSD),将语音终端设备(A,B,C,...)中的至少两个至少暂时地分配给第二组(GR2),使得第二组(GR2)只包括这样的语音终端设备(A,B,C,...),即在该语音终端设备(A,B,C,...)中识别出它们各自记录信道上的广泛的非主动性,以及向分配给第二组(GR2)的语音终端设备(A,B,C,...)通过它们各自的接收信道输入第一合成语音数据(SSD),以用于各自输出第一合成语音数据(SSD)。
2. 根据权利要求1所述的方法,其特征是,将语音终端设备(A, B, C,…)分配给笫一组(GR1)是这样进行的,即第一组(GR1)只包 括在各自的记录信道上被识別出广泛的主动性的语音终端设备(A, B, C, .. ).
3. 根据前面任何一项权利要求所述的方法,其特征是,所述笫一 组(GR1)和/或第二组(GR2)一在一个时间段过去之后,和/或—通过在各个记录信道中的一个记录信道上识别出主动性改变,和/或—通过在所述语音终端设备(A, B, C,…)中的一个语音终端设 备上识别出使用者动作而重新形成.
4. 根据前面任何一项权利要求所述的方法,其特征是,通过对笫 一组(GR1)中的语音终端设备(A, B, C,…)的单个语音信号(ESS) 进行叠加,为笫一组(GR1 )中的语音终端设备(A, B, C,...)形成特 定于终端设备的合成语音信号,并且所述合成语音信号被编码成特定于 终端设备的合成语音数据(SSD ),并且将特定于终端设备的合成语音数 据(SSD)通过所属的接收信道输入语音终端设备(A, B, C,...),以作为特定于终端设备的输出.
5. 根据前面任何一项权利要求所述的方法,其特征是,将合成语 音信号编码成与笫一合成语音数据(SSD")不同的笫二合成语音数据(SSD"),将语音终端设备中的至少两个语音终端设备(F, G)至少暂时地分 配给第三组(GR3),使得笫三组(GR3)只包括在各自的记录信道上识 别出广泛的非主动性的语音终端设备,并且向分配给第三组(GR3)的语音终端设备(F, G)通过各自的接收 信道输入第二合成语音数据(SSD"),以用于分别输出第二合成语音数 据(SSD"),
6. 根据前面任何一项权利要求所述的方法,其特征是,合成语音 信号被编码成第 一合成语音数据(SSD")通过恰好一个第 一编码器(K4 ) 进行.
7. 根据前面任何一项权利要求所述的方法,其特征是,合成语音 信号被编码成第二合成语音数据(SSD")通过恰好一个与第一编码器(W)不同的第二编码器(K5)进行.
8. 根据前面任何一项权利要求所述的方法,其特征是,自适应地 进行编码器的选摔.
9. 根据权利要求8所述的方法,其特征是,这样进行各编码器(Kl,2,...)的自适应选择,即—优化所涉及的语音终端设备(A, B, C...)上的输出质量,或者 一优化所涉及的语音终端设备(A, B, C...)的各自接收信道上的 传输带宽,或者一将为语音会议同时使用的编码器(n, K2,...)的数量最小化.
10. 根据前面任何一项权利要求所述的方法,其特征是,在识别分配给第一组(GR1)的语音终端设备(A, B, C…)的至少暂时的广泛非 主动性时,—取消将非主动的语音终端设备(C)分配给第一组(GR1),并且 —将该非主动的语音终端设备(C)分配给第二组(GR2),
11. 根据前面任何一項权利要求所述的方法,其特征是,在识别分 配给第一组(GR1)的语音终端设备(C )的至少暂时的广泛非主动性时, 将到目前为止用于将语音数据传输给该非主动语音终端设备的编码器(K3)标记为可用.
12. 根据前面任何一项权利要求所述的方法,其特征是,在识别分 配给第二组(GR2)的语音终端设备(D)的至少暂时的广泛主动性时,—取消将主动的语音终端设备(D)分配给第二组(GR2),并且 —将该主动的语音终端设备(D)分配给第一组(GR1).
13. 根据前面任何一项权利要求所述的方法,其特征是,在识别分 配给第二组(GR2)的语音终端设备(D)的至少暂时的广泛主动性时,—为该主动的语音终端设备(D)形成特定于终端设备的合成语音 信号,并且—将标记为可用的编码器U6 )分配给该主动的语音终端设备(D),并且—利用所述编码器(K6)将用于该主动的语音终端设备(D)的特 定于终端设备的合成语音信号编码成特定于主动语音终端设备(D)的 合成语音数据(SSDABC).
14. 一种用于通信系统中多个语音终端系统的语音会议系统,其特 征是,具有用于执行根据前面任一项方法权利要求所述方法的装置.
15. 根据权利要求14所述的语音会议系统,其特征是,具有—信号混合单元(MIX),所述信号混合单元(MIX)用于将分配给 第一组(GR1 )的语音终端设备(A, B, C…)的单个语音信号(ESS ) 叠加成合成语音信号,和/或将选择的分配给第一组(GR1)的语音终端 设备(A, B, C...)的单个语音信号(ESS)分别叠加成特定于终端设备 的合成语音信号,和/或—信号混合控制单元(AE),所述信号混合控制单元(AE)用于从 语音会议的语音终端设备(A, B, C...)传入的单个语音信号(ESS)中 选择要通过信号混合单元(MIX)叠加的单个语音信号(ESS),和/或—具有多个可供使用的编码器(n, K2,…)的编码羊元(KE), 所述编码单元(KE)通过分別选择的编码器(Kl, K2...)将合成语音信 号编码成第一合成语音数据(SSD),和将特定于终端设备的合成语音信 号编码成特定于终端设备的合成语音数据(SSD),和/或—编码控制单元(KSE ),所述编码控制单元(KSE )用于选择和/或 配置要通过编码单元(KE)使用的编码器(Kl, K2,...),所述编码器 (n, K2,...)分别是为合成语音信号和特定于终端设备的合成语音信 号而选择的.
全文摘要
本发明涉及一种用于在通信系统中实施具有至少三个语音终端设备(A,B,C,…)的语音会议的方法和语音会议系统,其中将语音终端设备(A,B,C,…)中的至少一个设备至少暂时地分配给第一组(GR1),使得对于该第一组将通过它们各自的记录信道提供的语音数据(ESD)分别解码成单个语音信号(ESS),将所述单个语音信号(ESS)叠加成合成语音信号,并且将所述合成语音信号编码为第一合成语音数据中(SSD)。此外将语音终端设备(A,B,C,…)中的至少两个至少暂时地分配给第二组(GR2),使得第二组(GR2)只包括这样的语音终端设备(A,B,C,…),即在该语音终端设备(A,B,C,…)中识别出它们各自记录信道上的广泛的非主动性。此外向分配给第二组(GR2)的语音终端设备(A,B,C,…)通过它们各自的接收信道输入第一合成语音数据(SSD),以用于各自输出第一合成语音数据(SSD)。
文档编号H04M3/56GK101502043SQ200680055414
公开日2009年8月5日 申请日期2006年7月28日 优先权日2006年7月28日
发明者S·哈特曼, T·克利曼, V·吉尔格, W·施米德 申请人:西门子公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1