会议电话语音选择合成的方法

文档序号：7596780阅读：217来源：国知局

专利名称：会议电话语音选择合成的方法
技术领域：
本发明属于通讯技术领域，涉及一种会议电话业务，特别涉及一种会议电话语音选择合成的方法。
背景技术：
会议电话，顾名思义就是通过电话召开会议，其原理简言之，即将同一个会议的参加者的话路输出信号合成后，作为该会议电话所有参加者的话路输入信号，使每一个参加者听到其他参加者的声音。
传统的会议电话语音合成的方法是将一个会议的所有参加者直接合成，即将所有参加者的话路信号衰减后叠加输出，如图1所示。之所以要衰减，是为了防止多路信号叠加导致溢出，且衰减因子必须和参加者人数成正比。显然这种衰减导致的问题是当参加者很多时，衰减因子很大，处理后输出的语音幅度很小甚至听不清；而且由于参加者很多，会出现语音混杂现象，听觉效果差。产生这个问题的根本原因是对所有参加者都进行了统一处理，没有判别当前哪些参加者正在说话，哪些没有说话。由于存在上述缺点，传统会议电话为了保证听觉效果，一般将参加人数限制在一定的范围内。
专利号为99105937.9的中国专利提出了一种会议电话的控制方法，该方法涉及改进的会议电话选择方法，在会议的所有参加者中选择一个输出，这种选择方法虽然避免了传统会议电话语音合成方法中的语音幅度减小问题，但是输出的信息量太少，降低了会议电话的工作效率。

发明内容
本发明的目的在于克服上述已有技术存在的听觉效果差、工作效率低的问题，提供一种会议电话语音选择合成的方法，在会议电话的参与者中进行适当的选取后，再进行语音合成并输出，以实现高清晰度、高信息量的会议电话业务。
本发明的技术方案是这样实现的设定时间窗Tw和时间单元ΔT，其中Tw大于ΔT，时间窗Tw以一个时间单元ΔT为单位向前推进。在时间窗Tw内，计算每个会议电话成员的语音信号平均能量，作为每个会议电话成员在时间窗Tw内的最后一个时间单元ΔT内的语音信号累积平均能量；
根据会议电话的各个成员在当前时间单元ΔT内的语音信号累积平均能量进行比较和选择淘汰，动态更新当前发言成员的名单，并认为其他成员在当前时间单元内保持沉默；然后将发言的成员对应的语音信号衰减叠加后输出，作为会议电话当前时间单元内的语音输出。
假设会议电话共有N个成员参加，其中主发言者有N1个人，N≥N1≥1；次发言者有N2个人，N≥N2≥0；未发言者有N3个人，N≥N3≥0。
N1+N2+N3＝N，且 N1+N2＞1，即有多个发言者输出。则按如下过程对会议电话语音进行选择合成(1)根据设定的时间窗Tw和时间单元ΔT，计算每个时间单元内每个会议电话成员的语音信号累积平均能量；(2)在会议电话开始的第一个时间单元ΔT内，对会议电话各个成员在该时间单元的语音信号累积平均能量进行比较，选择N1个能量最大的成员作为当前的主发言者，其他成员为未发言者，次发言者初始数目为0；(3)在第二个时间单元，根据会议电话每个成员在该时间单元的语音信号累积平均能量的大小，通过淘汰环节对主发言者与次发言者进行淘汰更新；(4)淘汰环节结束后，检查次发言者集合中的所有成员，控制次发言者集合中的成员数目；(5)次发言者集合中的成员数目被控制之后，捋当前主发言者集合和次发言者集合中的成员的语音信号作适当地衰减，叠加后合成的语音信号作为会议电话在第二个时间单元内的输出；(6)重复(3～5)，处理以后每个时间单元ΔT内的语音数据。
上述(3)中的淘汰环节包括次发言者和未发言者对主发言者进行的他人淘汰环节，以及主发言者和次发言者的自我淘汰环节。其中他人淘汰环节，首先比较所有主发言者在当前时间单元的语音信号累积能量，得到主发言者中语音信号累积平均能量最小的成员A，并在次发言者的和未发言者的集合中选取语音信号累积平均能量最大的成员B；然后比较成员A和成员B，如果发现成员B的语音信号累积平均能量大于成员A的语音信号累积平均能量，则记录A和B这一对会议电话成员处于他人淘汰的预备状态；其中A处于被淘汰的预备状态，B处于淘汰他人的预备状态。如果该对成员在连续的若干个时间单元内一直处于他人淘汰的预备状态，即该对成员连续处于他人淘汰的预备状态的时间超过他人淘汰时间门限T1，则更新成员B为主发言者，成员A为次发言者，即实现主发言者的他人淘汰更新。
自我淘汰环节，是针对在上一个时间单元内已经被认定是发言的成员，如果在当前的时间单元内，主发言者集合或次发言者集合中的某个成员C的语音信号累积平均能量值小于特定的语音信号能量门限G1，则记录成员C处于自我淘汰的预备状态；如果成员C在连续的若干个时间单元内一直处于自我淘汰的预备状态，即成员C连续处于自我淘汰的预备状态的时间超过自我淘汰的时间门限T2，则认为成员C发言结束，将成员C更新为未发言者，即该成员被自我淘汰。
所述的自我淘汰环节中语音信号能量门限G1按如下动态更新的方法选取首先，在成员C未进入自我淘汰的预备状态时，如果成员C当前的语音信号累积平均能量小于上一次该成员的语音信号累积平均能量GX的1/2，则记录成员C处于自我淘汰的预备状态，同时暂时固定成员C的自我淘汰语音信号能量门限G1＝GX/2；随后，成员C的本次自我淘汰都以语音信号能量G1为标准，如果成员C的本次自我淘汰过程中，有一次语音信号累积平均能量大于G1，则成员C的本次自我淘汰失败，即成员C脱离自我淘汰的预备状态，然后在下一轮，按照前面叙述的方法，重新开始判断成员C是否可以再进入自我淘汰的预备状态。
上述(4)中的控制次发言者集合中成员数目，是根据延时门限或预定成员的数目来进行，即如果次发言者集合中的某个成员D在次发言者集合中停留的时间超过延时门限T3，可强行将成员D淘汰为未发言者；或者当次发言者集合中的成员数超过预定的数目N2时，再强行将次发言者集合中当前累积平均能量最小的成员E淘汰为未发言者。
本发明与现有技术相比具有如下优点通过比较会议电话的所有成员在一定时间内的语音能量值，选择一定数目的当前发言的成员，将其相应的语音衰减合成后输出，避免了会议电话成员过多时，衰减因子过大导致的语音过小而无法分辨。仅合成发言成员的语音，避免了会议电话成员过多时，语音和噪声混杂的情况。选择合成后的语音清晰，易分辨。
选择会议电话的多个成员作为当前发言的成员，在比较选择发言成员时，综合采用自我淘汰和他人淘汰，及时更新发言成员，保证了会议电话的信息量和效率。
在比较选择发言成员时，充分考虑到语音本身的特点，使用适当的比较方法，并设计适当的延时，即他人淘汰时的延时门限与自我淘汰时的延时门限，并进行延时处理，即他人淘汰后，由主发言者降为次发言者，语音继续输出，避免发生语音截断，合成后的语音听觉效果好。

图1为传统会议电话语音合成方法框图，在所有时刻将所有的会议电话成员的语音衰减合成后输出；图2为本发明的会议电话语音合成方法示意图，在每个时间段内，通过选择合成方法，选择若干个正在发言的会议电话成员的语音，作适当的衰减和合成输出；图3为本发明会议电话语音选择方法中他人淘汰的流程示意图；图4为本发明会议电话语音选择方法中针对单个成员的自我淘汰的流程示意图。
具体实施例方式
下面将结合具体完成的实施例，对本发明作进一步详述。
本实施例中采用8000Hz的采样速率对语音信号进行采样，设时间单元为ΔT＝5ms，时间窗Tw＝ΔT×n，n的最佳取值在5-50之间。设计允许参加会议的成员数为M最大值为128，主发言者数目N1＝1，次发言者数目N2＝5。
下面详细描述本实施例中使用的语音合成选择的处理过程第一步缓存ΔT内所有的会议电话成员输出的语音信号，利用信号的幅值计算信号能量。因为能量计算的目的只是提供一个比较的依据，并非真的需要知道该语音信号具体的能量值，所以本发明计算能量采用的方法是对每个参加者的语音样本值取绝对平均值，作为该参加者在当前ΔT内的语音信号能量。
第二步计算每个成员最近n次ΔT时间内的语音信号平均能量值，得到(ΔT×n)ms内每个成员的语音信号平均能量，作为该成员在当前时间单元的语音信号累积平均能量。计算和使用累积平均能量，可以更好的保持下一步比较后输出语音的连贯性。
在做好上面的两步准备工作以后，下面就可以根据每个成员在当前时间单元的语音信号累积平均能量，进行发言者选择和比较淘汰。选择与比较淘汰方法中涉及了这样几个集合和记录表集合1主发言者集合，包括所有的主发言者；集合2次发言者集合，包括所有的次发言者；集合3未发言者集合，包括所有的未发言者；在一轮比较淘汰开始之前集合1+集合2+集合3＝全体会议电话参加人员；
集合1、集合2和集合3两两互不相交。
记录表1他人淘汰记录表，该记录表中记录处于替代他人和被替代的预备状态的一对成员，即淘汰他人者和被淘汰者，以及该对成员处于替代他人和被替代的预备状态的时间长度，即该对成员在记录表1中的停留时间。
记录表2自我淘汰记录表，该记录表中记录处于自我淘汰的预备状态的成员，和每个成员处于自我淘汰的预备状态的时间长度，即该成员在记录表2中的停留时间，以及该成员的自我淘汰门限。
为了完成发言成员选择，以及稍后的比较淘汰，设计这样2个排序排序1主发言者语音能量排序，即根据当前时间单元的累积平均能量对集合1中的所有成员排序。
排序2非主发言者语音能量排序，即根据当前时间单元的累积平均能量对集合2和集合3的和集中所有成员排序。
对集合1、集合2和集合3进行初始化。从会议电话的所有成员当中选取N1个语音累积平均能量最大的成员，将这些成员归入集合1；其它成员归入集合3；集合2初始状态为空。
对记录表1和记录表2进行初始化，将其设置为空。
做好前面的准备工作后，开始正式进入发言者的选择和淘汰过程。
第三步他人淘汰。下面结合图3，详细叙述他人淘汰的流程。
Step 3-1检查记录表1中是否为空。
Step 3-2如果记录表1为空，则将排序1中的最小成员，即主发言者中当前语音累积平均能量最小的成员A，和排序2中的最大成员，即非主发言者中当前语音累积平均能量最大的成员B作为一对记入记录表1；将这一对成员在记录表1中的停留时间计时器Timer1初始化为0；然后给出记录表1非空标志。
如果记录表1非空，则不需要上面的操作。
Step 3-3比较记录表1中成员A当前时间单元的语音累积平均能量Energy_A和成员B在当前时间单元的语音累积平均能量Energy_B。
Step 3-4如果Energy_B≤Energy_A，则清空记录表1，本时间单元的他人淘汰结束。
Step 3-5如果Energy_B＞Energy_A，则这对成员在记录表1中的停留时间计时器Timer1＝Timer1+ΔT。其中ΔT＝5ms，即为前面说明的方法的时间处理最小单元。
Step 3-6比较记录表1中一对成员在记录表1中的停留时间Timer1和他人淘汰时间门限T1。
Step 3-7如果Timer1＞T1，则将成员B更新为主发言者，列入集合1；将成员A更新为次发言者，列入集合2；即成员B成功淘汰成员A。将记录表1清空，本时间单元的他人淘汰结束。
Step 3-8如果Timer1≤T1，则保留当前他人淘汰的状态记录。本时间单元的他人淘汰结束。根据语音信号的特点，他人淘汰时间门限T1的取值范围设定在250-3000之间。
第四步自我淘汰。本具体实施例中的自我淘汰环节仅针对次发言者集和，即对集合2内的所有成员逐个进行自我淘汰处理。下面结合图4，详细描述在一个时间单元内对单个成员进行自我淘汰的过程。
Step 4-1考察集合2中的一个成员C，是否在记录表2中。
Step 4-2如果成员C不在记录表2中，则比较成员C在当前时间单元内的语音累积平均能量Energy_C和成员C在上一个时间单元内的语音累积平均能量Last_energy_C。如果成员C在记录表2中，转到Step 4-4。
Step 4-3如果Energy_C＜(Last_energy_C/2)，则在记录表2记录成员C处于自我淘汰的预备状态；设置成员C在记录表2中的停留时间计时器Timer2＝ΔT；并在记录表2中记录成员C的本次自我淘汰门限G1＝Last_energy_C/2。在本时间单元针对成员C的自我淘汰过程结束。成员C的自我淘汰将在下一个采样时间处理单元继续进行，如果Energy_C≥(Last_energy_C/2)，则直接结束在本时间单元针对成员C的自我淘汰过程。
Step 4-4如果成员C在记录表2中，则比较成员C在当前时间单元内的语音累积平均能量Energy_C和记录表2中记录的成员C的本次自我淘汰语音信号门限G1。
Step 4-5如果Energy_C＜G1，则成员C在记录表2中的停留时间计时器Timer2＝Timer2+ΔT。否则，转到Step 4-9。
Step 4-6比较成员C在记录表2中的停留时间Timer2和自我淘汰时间门限T2。
Step 4-7如果Timer2＞T2，则更新成员C为未发言者，列入集合3，即成员C自我淘汰成功。将记录表2中关于成员C的记录清空，本时间单元针对成员C的自我淘汰过程结束。
Step 4-8如果Timer2≤T2，则保留当前成员C在记录表2中的自我淘汰的状态记录。本时间单元的针对成员C的自我淘汰过程结束。
Step 4-9如果Energy_C≥G1，则成员C的自我淘汰失败，清空记录表2中关于成员C的记录，成员C不再处于自我淘汰的预备状态。本时间单元的针对成员C的自我淘汰过程结束。
根据语音信号的特点，自我淘汰时间门限T2的取值范围设定在250-3000ms之间。
第五步控制集合2中的成员数目。控制集合2中的成员数目的方法有以下两种(1)查看集合2中成员的数目，如果超过预定的数目N2，则将集合2中当前语音累积平均能量最小的成员E强行淘汰出集合2，归入集合3。
(2)为集合2中的每个成员设计一个停留时间计时器，并实时更新。在一个时间单元的自我淘汰过程完成后，查看集合2中的每个成员在集合2中的停留时间。如果某个成员D在集合2中的停留时间超过延时门限T3，则将成员D强行淘汰出集合2，归入集合3。
根据语音信号的特点，延时门限T3的取值范围设定在2-15s之间。
第六步经过上述他人淘汰和自我淘汰以及对集合2的成员控制过程以后，得到更新后的集合1、集合2和集合3。将集合1和集合2中的所有成员，即所有的主发言者和次发言者的语音信号作适当的衰减后累加，得到会议电话的合成语音，然后输出到会议电话的所有参加者。本实施例中，根据设计的输出成员数，衰减因子取4。
第七步重复到第一步，处理下一个ΔT时间内的语音数据。
按照前面描述的过程，会议电话语音选择合成的处理延时小于2倍ΔT，即10ms。使用本发明的方法，可做到不必限制会议电话的参加人数，而是通过语音选择合成，自动控制当前的发言人数，自动更新当前的发言成员名单，输出的语音清晰，连贯，听觉效果良好，且有足够的会议电话信息量。
对于本领域的专业人员来说，在了解了本发明内容和原理后，能够在不背离本发明的原理和范围的情况下，根据本发明的方法进行形式和细节上的各种修正和改变，但是这些基于本发明的修正和改变仍在本发明的权利要求保护范围之内。
权利要求
1.一种会议电话语音选择合成方法，按如下过程进行(1)设定时间窗Tw和时间单元ΔT，其中Tw大于ΔT，时间窗Tw以一个时间单元ΔT为单位向前推进，在时间窗Tw内，计算每个会议电话成员的语音信号平均能量，作为每个会议电话成员在时间窗Tw内的最后一个时间单元ΔT内的语音信号累积平均能量；(2)在会议电话开始的第一个时间单元，对会议电话各个成员在该时间单元的语音信号累积平均能量进行比较，选择能量最大的成员作为在该时间单元的主发言者，其他成员为未发言者，次发言者初始数目为0；(3)在第二个时间单元，根据会议电话每个成员在该时间单元的语音信号累积平均能量的大小，通过淘汰环节对主发言者与次发言者进行淘汰更新；(4)淘汰环节结束后，检查次发言者集合中的所有成员，控制次发言者集合中的成员数目；(5)次发言者集合中的成员数目被控制之后，将当前主发言者集合和次发言者集合中的成员的语音信号作适当地衰减，叠加后合成的语音信号作为会议电话在第二个时间单元内的输出；(6)重复(3～5)，处理以后每个时间单元ΔT内的语音数据。
2.根据权利要求1所述的会议电话语音选择合成方法，其中淘汰环节包括次发言者和未发言者对主发言者进行的他人淘汰环节，以及主发言者和次发言者的自我淘汰环节。
3.根据权利要求2所述的会议电话语音选择合成方法，其中他人淘汰环节按如下过程进行首先，在当前时间单元内，比较所有主发言者的语音信号累积平均能量，得到主发言者中语音信号累积平均能量最小的成员A，并在次发言者的和未发言者的合集中选取语音信号累积平均能量最大的成员B；然后，比较成员A和成员B，如果成员B的语音信号累积平均能量大于成员A的语音信号累积平均能量，则A处于被淘汰的预备状态，B处于淘汰他人的预备状态；如果A和B这对成员在连续的若干个时间单元内一直处于他人淘汰的预备状态，即该对成员连续处于他人淘汰的预备状态的时间超过他人淘汰时间门限T1，则更新成员B为主发言者，成员A为次发言者。
4.根据权利要求2所述的会议电话语音选择合成方法，其中自我淘汰环节是针对在上一个时间单元内已经被认定是发言的成员，如果在当前的时间单元内，主发言者集合或次发言者集合中的某个成员C的语音信号累积平均能量值小于特定的语音信号能量门限G1，则记录成员C处于自我淘汰的预备状态；如果成员C在连续的若干个时间单元内一直处于自我淘汰的预备状态，即成员C连续处于自我淘汰的预备状态的时间超过自我淘汰的时间门限T2，则认为成员C发言结束，将成员C更新为未发言者，即该成员被自我淘汰。
5.根据权利要求4所述的会议电话语音选择合成方法，其中语音信号能量门限G1的选取按如下动态更新过程进行(1)在成员C未进入自我淘汰的预备状态时，如果成员C当前的语音信号累积平均能量小于上一次该成员的语音信号累积平均能量GX的1/2，则记录成员C处于自我淘汰的预备状态，并暂时固定成员C的自我淘汰语音信号能量门限G1＝GX/2；(2)将成员C的本次自我淘汰以语音信号能量门限G1作为标准，如果成员C的本次自我淘汰过程中，有一次语音信号累积平均能量大于G1，则成员C的本次自我淘汰失败，即成员C脱离自我淘汰的预备状态；(3)在下一个时间单元，按照本条第(1)、(2)步，重新开始判断成员C是否可以再进入自我淘汰的预备状态。
6.根据权利要求1所述的会议电话语音选择合成方法，其中控制次发言者集合中的成员数目，是根据延时门限或预定成员的数目来进行，即如果次发言者集合中的某个成员D在次发言者集合中停留的时间超过延时门限T3，可强行将成员D淘汰为未发言者；或者当次发言者集合中的成员数超过预定的数目N2时，再强行将次发言者集合中当前语音信号累积平均能量最小的成员E淘汰为未发言者。
7.根据权利要求3或4或6所述的会议电话语音选择合成方法，其中他人淘汰时间门限T1的取值范围设定在250-3000ms之间；自我淘汰时间门限T2的取值范围设定在250-3000ms之间；延时门限T3的取值范围设定在2-15s之间；时间窗Tw的取值范围设定在200-2500ms之间。
全文摘要
本发明涉及一种会议电话语音选择合成方法。主要解决传统会议电话语音合成方法听觉效果差、工作效率低的问题。该方法对ΔT内所有会议电话成员输出的话音信号样本值取绝对平均值，作为该参加者在当前ΔT内的信号能量，再取n次ΔT时间内的能量平均值，作为该成员在当前时间单元ΔT的话音信号累积平均能量；比较各个主发言成员和次发言成员的语音输出的话音信号累积平均能量，通过淘汰环节对主发言者与次发言者进行淘汰替换，更新当前发言成员的名单；最后，将当前主发言者和次发言者集合中的成员话音信号衰减、叠加后作为会议电话的语音输出。本方法具有允许参加会议电话成员数多，话音清晰，易于分辨之优点，可用于各种会议电话业务。
文档编号H04M3/56GK1620090SQ20041007339
公开日2005年5月25日申请日期2004年12月9日优先权日2004年12月9日
发明者李卫华, 廖延娜, 戴明, 赵占富申请人:西安大唐电信有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李卫华;廖延娜;戴明;赵占富
技术所有人：西安大唐电信有限公司
我是此专利的发明人

上一篇：Web服务传输协议适配器及其生成方法
上一篇：空间维独立的干涉多光谱图像无损及近无损编码方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。