声音信号通道间延时估计的方法及装置的制作方法

文档序号：2823699阅读：203来源：国知局

专利名称：声音信号通道间延时估计的方法及装置的制作方法
技术领域：
本发明涉及通信领域，尤其涉及一种声音信号通道间延时估计的方法及装置。
背景技术：
在立体声编码中，通常并不是直接对左右声道信号进行编码，而是将左右声道信号进行下混，对下混之后的信号进行编码。再编码一些额外的边带信息。在解码端通过下混信号和边带信息来恢复立体声信号。通常情况，发声物体相对于录制左右声道的两个麦克来说，会有距离的变动或者距离差，这样必然造成左右两路声道信号之间不能完全同步，即左右两路声道信号之间有一定的延时。如何正确估计这个延时，并在解码端恢复出这个延时，以保证合成后信号的场强是必要的。目前在进行通道间延时估计时，通过求左右通道间的加权互相关函数，并搜索求取加权互相关函数的最大值所对应的延时作为左右通道间的延时。对于单一的发生体，由于其存在单一的左右声道，且该左右声道相对于录制左右声道的两个麦克来说位置固定，因此采用上述的方法可以估计出比较准确的通道间延时。对于多个发生体即交叉说话时，由于存在多个左声道和多个右声道，使得声场出现一会向左一会向右的摆动，以及右声场向左偏左声道向右偏的情况，致使不能辨别哪个左右声道是由同一发生体发出；若采用上述方法对交叉说话时的通道间延时进行估计，估计出的通道间延时是不准确的，导致估计的声场的不稳定。

发明内容
本发明的实施例提供一种声音信号通道间延时估计的方法及装置，能够在交叉说话时，实现声场的稳定。本发明实施例提供一种声音信号通道间延时估计的方法，包括计算声音信号通道间的实际相位差与预测相位差之间的误差，所述预测相位差根据所述声音信号通道间预定延时预测；根据所述误差判断所述声音信号是否为交叉说话时的声音信号；若所述声音信号为交叉说话时的声音信号，则将所述声音信号对应的通道间延时设置为固定值。本发明实施例还提供一种声音信号通道间延时估计的装置，包括计算单元，用于计算声音信号通道间的实际相位差与预测相位差之间的误差，所述预测相位差根据所述声音信号通道间预定延时预测；第一判断单元，用于根据所述计算单元计算得到的所述误差判断所述声音信号是否为交叉说话时的声音信号；处理单元，用于在所述第一判断单元判定所述声音信号为交叉说话时的声音信号时，将所述声音信号对应的通道间延时设置为固定值。本发明实施例提供的技术方案，对声音信号进行是否为交叉说话时的声音信号的检测，当检测到声音信号为交叉说话时的声音信号，则将该声音信号对应的通道间延时设置为固定值；与现有技术中不区分是否为交叉说话时的声音信号，统一采用通道间延时估计的方法相比，本发明的技术方案将检测出的交叉说话时的声音信号对应的通道间延时设置为一固定值，避免了通道间错误的延时估计，造成的声场的不稳定，从而能够在交叉说话时，实现声场的稳定。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1为本发明实施例1中声音信号通道间延时估计的方法流程图；图2为本发明实施例2中声音信号通道间延时估计的方法流程图；图3为现有技术中估计声音信号通道间延时的方法流程图；图4为本发明实施例3中声音信号通道间延时估计的方法流程图；图5为本发明实施例4中声音信号通道间延时估计的方法流程图；图6为本发明实施例5中声音信号通道间延时估计的方法流程图；图7为本发明实施例6中声音信号通道间延时估计的方法流程图；图8为本发明实施例7中一种声音信号通道间延时估计的装置组成框图；图9为本发明实施例7中另一种声音信号通道间延时估计的装置组成框图；图10为本发明实施例7中另一种声音信号通道间延时估计的装置组成框图；图11为本发明实施例7中另一种声音信号通道间延时估计的装置组成框图；图12为本发明实施例7中另一种声音信号通道间延时估计的装置组成框图；图13为本发明实施例7中另一种声音信号通道间延时估计的装置组成框图。
具体实施例方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。实施例1本发明的实施例提供一种声音信号通道间延时估计的方法，如图1所示，该方法包括101、计算声音信号通道间的实际相位差与预测相位差之间的误差，所述预测相位差根据所述声音信号通道间预定延时预测。其中，所述通道间预定延时包括通道间估计延时或通道间固定值延时中的至少一个，所述通道间估计延时为利用通道间的相关性估计的延时；所述误差可以通过计算声音信号通道间的实际相位差，与根据通道间估计延时或通道间固定值延时中的至少一个预测的所述声音信号通道间的预测相位差获取。
其中，所述误差可以为在某段频带内各频点对应的实际相位差与预测相位差之差的绝对值之和，或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的绝对值的平均值，本发明实施例对此不进行限制；所述误差还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方和，或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方的平均值。102、根据所述误差判断所述声音信号是否为交叉说话时的声音信号。103、若所述声音信号为交叉说话时的声音信号，则将所述声音信号对应的通道间延时设置为固定值。其中，所述固定值为一经验值，用户可以根据具体的实施具体设置，本发明实施例对此不进行限制，例如，该固定值可以为“0”。将所述声音信号对应的通道间延时设置为固定值，以便保持场强的稳定性。本发明实施例中，对声音信号进行是否为交叉说话时的声音信号的检测，当检测到声音信号为交叉说话时的声音信号，则将该声音信号对应的通道间延时设置为固定值; 与现有技术中不区分是否为交叉说话时的声音信号，统一采用通道间延时估计的方法相比，本发明实施例将检测出的交叉说话时的声音信号对应的通道间延时设置为一固定值，避免了通道间错误的延时估计，造成的声场的不稳定，从而能够在交叉说话时，实现声场的稳定。实施例2本发明的实施例提供一种声音信号通道间延时估计的方法，为了保证准确的检测声音信号是否为交叉说话时的声音信号，设置了声音信号为交叉说话时的声音信号时的次数，当达到该次数表明当前的声音信号为非常稳定的交叉说话时的声音信号，如图2所示，该方法包括201、计算声音信号通道间的实际相位差与预测相位差之间的误差，所述预测相位差根据所述声音信号通道间预定延时预测。其中，所述通道间预定延时包括通道间估计延时或通道间固定值延时中的至少一个，所述通道间估计延时为利用通道间的相关性估计的延时；所述误差可以通过计算声音信号通道间的实际相位差，与根据通道间估计延时或通道间固定值延时中的至少一个预测的所述声音信号通道间的预测相位差获取。其中，所述误差可以为在某段频带内各频点对应的实际相位差与预测相位差之差的绝对值之和，或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的绝对值的平均值，本发明实施例对此不进行限制；所述误差还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方和，或者还可以为在某个频带内各频点对应的实际相位差与预测相位差之差的平方的平均值。202、根据所述误差判断所述声音信号是否为交叉说话时的声音信号；若所述声音信号为交叉说话时的声音信号，则执行步骤203 ；若所述声音信号不是交叉说话时的声音信号，则执行步骤205。进一步，需要说明的是，当接收到当前帧的声音信号并判断其为交叉说话时的声音信号时，有可能是由于说话时的声音信号不稳定，出现了误判的情况，为了更准确的判定当前接收到的声音信号是否为交叉说话时的声音信号，设定了声音信号为交叉说话时的声音信号的次数门限，当声音信号为交叉说话时的声音信号的次数达到该设置的次数门限时，可以确定当前接收到的声音信号确实是交叉说话时的声音信号，因此当根据所述误差判断所述声音信号为交叉说话时的声音信号之后，执行步骤203。203、统计声音信号为交叉说话时的声音信号的次数，并判断所述次数是否大于预设次数门限；若所述次数大于所述预设次数门限，表明当前的说话情景确实是交叉说话，接收到的声音信号确实为交叉说话时的声音信号，则执行步骤204;若所述次数小于或等于所述预设次数门限，表明当前的说话情景并不是交叉说话，接收到的声音信号也并不是交叉说话时的声音信号，则执行步骤205。其中，所述预设门限次数为一经验值，用户可以根据具体的需求具体设置，本发明实施例对此不进行限制，例如可以将该门限次数设置为3次。204、将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定
值。其中，所述固定值为一经验值，用户可以根据具体的实施具体设置，本发明实施例对此不进行限制，例如，该固定值可以为“0”。将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值，以便保持场强的稳定性。205、根据现有技术中的声音信号通道间延时估计的方法，获取所述声音信号对应的通道间延时。其中，根据现有技术中的声音信号通道间延时估计的方法，可以采用但不局限于如下的方法实现，通过求左右通道间的加权互相关函数，并搜索求取加权互相关函数的最大值所对应的延时作为左右通道间的延时。具体可以包括，如图3所示2051、对所述声音信号的左右两个声道信号进行时频变换，所述声音信号的左右两个声道信号变换到频域。2052、计算所述左右两个声道信号频域的加权互相关函数。其中，在计算所述左右两个声道信号频域的加权互相关函数时，可以在部分频带或者全部频带计算。当在全频带计算时，可以采用公式1获取加权的互相关函数CJk)，公式1-1为广，，、\W{k)XAk)X\{k) 0 < k < N/2 x M 、Q(叫 0N/2<k<N (公式”当在部分频带计算时，可以采用公式2获取加权的互相关函数CJk)，公式2为
\W{k)XAk)X\{k) 0<k<M x M 、= 1οM<k<N (公式幻其中，W(k)为加权函数，I2'(幻为)(2(k)的共轭函数，X1GO，X2 (k)分别为左路声道信号、右路声道信号的时频变换，k为频率点索引，N为时频变换长度。2053、将所述频域的加权互相关函数进行频时变换，得到时域的加权互相关函数。其中，所述频时变换可以采用现有技术中的任一中频时变换方法，例如，FFT(Fast Fourier Transform，快速傅立叶变换)变换。2054、搜索时域的加权互相关函数的最大值，并将所述最大值对应的时间索引作为所述声音信号对应的通道间延时。其中，在搜索时域的加权互相关函数的最大值时，可以从加权互相关函数绝对值
8中搜索得到所述最大值，也可以从加权互相关函数中搜索得到所述最大值，本发明实施例对此不进行限制。例如，当从加权互相关函数绝对值中搜索得到所述最大值时，可以采用公式3获取所述最大值dg，所述公式3为当从加权互相关函数中搜索得到所述最大值时，可以采用公式4获取所述最大值 dg，所述公式4为
权利要求
1.一种声音信号通道间延时估计的方法，其特征在于，包括计算声音信号通道间的实际相位差与预测相位差之间的误差，所述预测相位差根据所述声音信号通道间预定延时预测；根据所述误差判断所述声音信号是否为交叉说话时的声音信号；若所述声音信号为交叉说话时的声音信号，则将所述声音信号对应的通道间延时设置为固定值。
2.根据权利要求1所述的方法，其特征在于，所述通道间预定延时包括通道间估计延时或通道间固定值延时中的至少一个，所述通道间估计延时为利用通道间的相关性估计的延时。
3.根据权利要求2所述的方法，其特征在于，当所述通道间预定延时为通道间估计延时时，所述计算声音信号通道间的实际相位差与预测相位差之间的误差包括计算声音信号通道间的实际相位差，与根据通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差；所述根据所述误差判断所述声音信号是否为交叉说话时的声音信号包括判断所述第一误差是否在第一预定范围内；若所述第一误差不在第一预定范围内，则判定所述声音信号为交叉说话时的声音信号。
4.根据权利要求2所述的方法，其特征在于，当所述通道间预定延时为通道间固定值延时时，所述计算声音信号通道间的实际相位差与预测相位差之间的误差包括计算声音信号通道间的实际相位差，与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差；所述根据所述误差判断所述声音信号是否为交叉说话时的声音信号包括判断所述第二误差是否在第二预定范围内；若所述第二误差在第二预定范围内，则判定所述声音信号为交叉说话时的声音信号。
5.根据权利要求2所述的方法，其特征在于，当所述通道间预定延时为通道间估计延时和通道间固定值延时时，所述计算声音信号通道间的实际相位差与预测相位差之间的误差包括计算声音信号通道间的实际相位差，与根据通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差；计算声音信号通道间的实际相位差，与根据固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差；所述根据所述误差判断所述声音信号是否为交叉说话时的声音信号包括根据所述第二误差和第一误差的比值判断所述声音信号是否为交叉说话时的声音信号；或者根据所述第二误差和第一误差的比值以及第一误差判断所述声音信号是否为交叉说话时的声音信号。
6.根据权利要求5所述的方法，其特征在于，所述根据所述第二误差和第一误差的比值判断所述声音信号是否为交叉说话时的声音信号，包括判断所述比值是否小于第一门限值；若所述比值小于所述第一门限值，则判定所述声音信号为交叉说话时的声音信号。
7.根据权利要求5所述的方法，其特征在于，所述根据所述第二误差和第一误差的比值以及第一误差判断所述声音信号是否为交叉说话时的声音信号，包括判断所述声音信号的前一帧声音信号是否为交叉说话时的声音信号；若所述声音信号的前一帧声音信号不是交叉说话时的声音信号，则判断所述第二误差和第一误差的比值是否小于第一门限值，并且所述第一误差是否大于第二门限值；若所述比值小于第一门限值，并且所述第一误差大于第二门限值，则判定所述声音信号为交叉说话时的声音信号；若所述声音信号的前一帧声音信号是交叉说话时的声音信号，则判断所述第二误差和第一误差的比值是否小于第一门限值，并且所述第一误差是否大于第三门限值；若所述比值小于第一门限值，并且所述第一误差大于第三门限值，则判定所述声音信号为交叉说话时的声音信号。
8.根据权利要求1或3或4或6或7所述的方法，其特征在于，在判定所述声音信号为交叉说话时的声音信号之后，该方法还包括统计声音信号为交叉说话时的声音信号的次数，并判断所述次数是否大于预设次数门限；若所述次数大于所述预设次数门限，则所述将所述声音信号对应的通道间延时设置为固定值包括将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。
9.一种声音信号通道间延时估计的装置，其特征在于，包括计算单元，用于计算声音信号通道间的实际相位差与预测相位差之间的误差，所述预测相位差根据所述声音信号通道间预定延时预测；第一判断单元，用于根据所述计算单元计算得到的所述误差判断所述声音信号是否为交叉说话时的声音信号；处理单元，用于在所述第一判断单元判定所述声音信号为交叉说话时的声音信号时，将所述声音信号对应的通道间延时设置为固定值。
10.根据权利要求9所述的装置，其特征在于，所述通道间预定延时包括通道间估计延时或通道间固定值延时中的至少一个，所述通道间估计延时为利用通道间的相关性估计的延时。
11.根据权利要求9所述的装置，其特征在于，当所述通道间预定延时为通道间估计延时时，所述计算单元包括第一计算模块，用于计算声音信号通道间的实际相位差，与根据通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差；所述第一判断单元包括第一判断模块，用于判断所述第一计算模块计算得到的所述第一误差是否在第一预定范围内；当所述第一误差不在第一预定范围内时，判定所述声音信号为交叉说话时的声音信号。
12.根据权利要求9所述的装置，其特征在于，当所述通道间预定延时为通道间固定值延时时，所述计算单元包括第二计算模块，用于计算声音信号通道间的实际相位差，与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差；所述第一判断单元包括第二判断模块，用于判断所述第二计算模块计算得到的所述第二误差是否在第二预定范围内；当所述第二误差在第二预定范围内时，判定所述声音信号为交叉说话时的声音信号。
13.根据权利要求9所述的装置，其特征在于，当所述通道间预定延时为通道间估计延时和通道间固定值延时时，所述计算单元包括第三计算模块，用于计算声音信号通道间的实际相位差，与根据通道间估计延时预测的所述声音信号通道间的预测相位差之间的第一误差；第四计算模块，用于计算声音信号通道间的实际相位差，与根据通道间固定值延时预测的所述声音信号通道间的预测相位差之间的第二误差；所述第一判断单元，包括第三判断模块，用于根据所述第二误差和第一误差的比值判断所述声音信号为交叉说话时的声音信号；或者所述第一判断单元还包括第四判断模块，用于根据所述第二误差和第一误差的比值，以及第一误差判断所述声音信号是否为交叉说话时的声音信号。
14.根据权利要求13所述的装置，其特征在于，所述第三判断模块用于判断所述比值是否小于第一门限值；当所述比值小于所述第一门限值时，判定所述声音信号为交叉说话时的声音信号。
15.根据权利要求13所述的装置，其特征在于，所述第四判断模块用于，判断所述声音信号的前一帧声音信号是否为交叉说话时的声音信号；当所述声音信号的前一帧声音信号不是交叉说话时的声音信号时，判断所述第二误差和第一误差的比值是否小于第一门限值，并且所述第一误差是否大于第二门限值；在所述比值小于第一门限值，并且所述第一误差大于第二门限值时，判定所述声音信号为交叉说话时的声音信号；当所述声音信号的前一帧声音信号是交叉说话时的声音信号时，判断所述第二误差和第一误差的比值是否小于第一门限值，并且所述第一误差是否大于第三门限值；当所述比值小于第一门限值，并且所述第一误差大于第三门限值时，判定所述声音信号为交叉说话时的声音信号。
16.根据权利要求9或11或12或14或15所述的装置，其特征在于，该装置还包括统计单元，用于在所述第一判断单元判定所述声音信号为交叉说话时的声音信号之后，统计声音信号为交叉说话时的声音信号的次数；第二判断单元，用于判断所述统计单元统计的所述次数是否大于预设次数门限；所述处理单元还用于，在所述次数大于预设次数门限时，将统计中的最后一帧交叉说话时的声音信号对应的通道间延时设置为固定值。
全文摘要
本发明实施例公开了一种声音信号通道间延时估计的方法及装置，涉及通信领域，能够在交叉说话时，实现声场的稳定。本发明的方法包括计算声音信号通道间的实际相位差与预测相位差之间的误差，所述预测相位差根据所述声音信号通道间预定延时预测；根据所述误差判断所述声音信号是否为交叉说话时的声音信号；若所述声音信号为交叉说话时的声音信号，则将所述声音信号对应的通道间延时设置为固定值。本发明实施例主要用于声音信号通道间延时估计的过程中。
文档编号G10L19/02GK102314882SQ20101022247
公开日2012年1月11日申请日期2010年6月30日优先权日2010年6月30日
发明者刘泽新, 吴文海, 苗磊, 郎玥申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴文海;苗磊;郎玥;刘泽新
技术所有人：华为技术有限公司
我是此专利的发明人