基音滞后估计的制作方法

文档序号：2830576阅读：326来源：国知局

专利名称：基音滞后估计的制作方法
技术领域：
本发明涉及音频信号中的基音(pitch)滞后估计
背景技术：
基音是语音信号的基本频率。它是语音编码和处理中的关键参数之一。利用基音检测的应用包括语音增强、自动语音识别和理解、韵律分析和建模、以及语音编码，特别是低比特率语音编码。基音检测的可靠性常常是整个系统输出质量的决定性因素。
通常，语音编解码器处理10-30 ms片段中的语音。这些片段称为帧。出于不同目的，帧通常划分为具有5-10ms长度的片段，称为子帧。
基音直接与基音滞后相关，其中基音滞后是信号在基本频率处的周期持续时间。基音滞后例如可以通过对音频信号片段应用自相关计算来确定。在这些自相关计算中，将原始音频信号片段的采样乘以相同音频信号片段的已校准采样，其中所述已校准采样已经延迟了相应的量。利用特定延迟的乘积的和是相关值。最高相关值由延迟得到，其对应于基音滞后。基音滞后也称为基音延迟。
在确定最高相关值之前，可以对相关值进行预处理，以提高结果的精度。还可以将所考虑的延迟的范围划分为区段(section),并
值。自相关计算在区段之间可以有所不同，例如在所考虑采样的数目方面。此外，在确定最高相关值之前应用于相关值的预处理中，可以利用区段化。
基音轨迹是针对音频信号的片段序列而确定的基音滞后的序列。
所采用的音频处理系统的框架为基音检测设定了要求。特别是对于对话式语音编码方案，复杂性和延迟要求常常相当严格。而且，基音估计的精度和基音轨迹的稳定性在很多音频处理系统中是重要问题。
准确的基音估计是一项困难的任务。尽管低复杂性的基音检测可能能够提供总体上非常可靠的基音估计，但是其常常无法维持稳定的基音轨迹。可以利用复杂的方法来实现非常有效的基音估计，但是这些方法常常产生在所使用的框架中不是十分优化的基音轨迹和/或为对话应用引入过大的延迟。

发明内容
本发明适于增强传统的基音估计方法。
提出了一种方法，包括确定音频信号片段的第一自相关值。将第一所考虑延迟范围划分为第一组区段，并且针对该第一组区段的多个区段中的延迟来确定所述第一自相关值。该方法还包括确定音频信号片段的第二自相关值。将第二所考虑延迟范围划分为第二组区段，使得第一组区段和第二组区段重叠。针对该第二组区段的多个区段中的延迟来确定第二自相关值。该方法还包括提供所确定的第一自相关值和所确定的第二自相关值，以用于音频信号片段中的基音滞后估计。
提出了一种装置，包括相关器。该相关器配置用于确定音频信号片段的第一自相关值，其中第一所考虑延迟范围被划分为第一组区段，所述第一自相关值是针对该第一组区段的多个区段中的延迟而确定的。该相关器还配置用于确定该音频信号片段的第二自相关值，其中第二所考虑延迟范围被划分为第二组区段，使得第一组区段和第二组区段重叠，所述第二自相关值是针对该第二组区段的多个区段中的延迟而确定的。该相关器还配置用于提供所确定的第一自相关值和所确定的第二自相关值，以用于音频信号片段中的基音滞后估计。
该装置例如可以是基音分析器，比如开环基音分析器、音频编码器或者包括音频编码器的实体。
注意，该装置的相关器以及可选的其他组件可以通过硬件和/或软件来实现。如果通过硬件实现，该装置例如可以是芯片或者芯片组，比如集成电路。如果通过软件实现，组件可以是计算机程序代码的模块。在这种情况下，该装置例如也可以是存储计算机程序代码的存储器。
而且，提出了一种设备，其包括所提出的装置以及音频输入组件。
该设备例如可以是无线通信网络的无线终端或者基站，但是同样可以是执行需要基音估计的音频处理的任何其他设备。该设备的音频输入组件例如可以是麦克风或者与提供音频数据的其他设备的接口。
而且，提出了一种系统，其包括包含所提出装置的音频编码器以及音频解码器。
最后，提出了一种计算机程序产品，其中计算机代码存储在计算机可读介质中。当该计算机代码由处理器执行时，其实现所提出的方法。
该计算机程序产品例如可以是独立的存储器设备，或者集成在电子设备中的存储器。
应当将本发明理解为还包括独立于计算机程序产品和计算机可读介质的计算机程序代码。
本发明从以下考虑出发将针对应用于音频信号片段的自相关计算而考虑的延迟范围划分为区段，尽管这样做可能有利于基音估计，但也引起了区段之间边界处的不连续。因此提出并行地提供延迟的两组区段，并且针对这两组的区段中的延迟来确定自相关值。如果一组的区段与另一组的区段重叠，则一组中区段之间的不连续区域总是由另一组中的区段覆盖。
因此，可以实现改进的基音估计精度和改进的基音轨迹稳定性。改进的基音估计性能还提高了采用基音估计的总体处理的输出质量。
本发明可以在各种基音估计方法的范围内使用。与采用没有重叠特性的类似区段化的已有基音估计方法相比，必须确定更多的相关值，尽管如此，但是由于区段的重叠特性，因此很多计算可以重用，从而可以将复杂性的增加保持在最小。
本发明例如还可以用于新的音频编解码器或者用于对现有音频
编解码器(例如，传统的码激励线性预测(CELP)编解码器)的增强。在CELP语音编码器中，通常在两步中执行基音估计，即开环分析，用以发现正确的基音区域；以及闭环分析，用以围绕开环估计选择最佳自适应码本索引。本发明例如适于提供对这种CELP语音编码器的开环分析的增强。
在示例性实施方式中，音频信号划分为帧的序列，并且每个帧进一步划分为前半帧和后半帧。继而，前半帧可以是音频信号的第一片段，针对其来确定第一和第二自相关值，而后半帧可以是音频信号的第二片段，针对其来确定第一和第二自相关值。此外，后续
帧的前半帧可以是音频信号的第三片段，针对其来确定第一和第二自相关值。后续帧的后半帧作为当前帧的超前(lookahead)帧。
第一组区段和第二组区段可以包括任意适当数目的区段。两组中的区段数目可以相同或者不同。此外，两组所覆盖的延迟范围可以相同或者略有不同。而且，自相关值可以针对每组区革殳来确定，或者仅针对一组的某些区段来确定。在一些情况下，例如，与具有最低延迟的区段相对应的非常高的基本频率对于系统质量而言可能并不重要。在示例性实施方式中，两组都包括四个区段，并且针对每组区段的至少三个区段中的延迟来确定自相关值。
在示例性实施方式中，从所提供的自相关值中选择每组的每个区段中的最强自相关值。继而可以将相关联的延迟视为选定的基音滞后候选。
在每组区段的每个区段中选择最强自相关值之前，可以基于针对在前帧而估计的基音滞后来加强自相关值。
10在从每组区段的每个区段中选择最强自相关值之后，可以基于对相应区段组中基音滞后的倍数的检测来加强选定的自相关值。可以将延迟范围划分为区段，使得区段不包含基音滞后倍数。换言之, 区段中的最大延迟小于该区段中最小延迟的两倍。这保证了仅需从一个区段到下一区段来搜索基音滞后倍数。
在从每组区段的每个区段中选择最强自相关值之后，并且可选地在对选定的自相关值进行某些进一步处理之前或者之后，可以对跨越音频信号的片段而稳定的选定自相关值进行加强。针对稳定性而考虑的片段可以是两个连续的片段，但是同样可以是在其间具有一个或多个其他片段的两个片段。稳定性例如可以跨越帧中的片段和超前帧来考虑。与在跨越音频信号片段的不同区段中稳定的自相关值相比，可以将在跨越音频信号片段的相同区段中稳定的自相关值加强得更强。
这种针对区段的稳定性加强提高了输出的稳定性，而没有为轨迹引入不正确的基音滞后候选。
跨越区段的稳定性例如可以通过如下确定确定两个片段中的自相关值的相应配对之间的一致性。换言之，如果彼此之间的值的差异小于预定量，则可以假设稳定。
的采样而确定的，以下这样可能是适当的在执行分别与不同的区段或者延迟相关联的自相关的任何比较之前，最后对值进行规范化。应当理解，所有给出实施方式的特征和步骤可以按照任何适当的方式来组合。
还应注意，针对区段的加强的方面也可以独立于对用于自相关计算的两组区段的使用而实现。
这可以通过一种方法来实现，该方法包括确定音频信号片段的自相关值，其中所考虑的延迟范围被划分为区段，所述自相关值是针对这些区段的多个区段中的延迟而确定的；在每个区段中，从得到的自相关值中选择最强的自相关值；对在跨越音频信号片段而稳定的选定自相关值进行加强，其中与在跨越音频信号区段的不同分区中稳定的自相关值相比，将在跨越音频信号片段的相同区段中稳定的自相关值加强的更强；以及提供得到的自相关值，以用于音频信号片段中的基音滞后估计。
一种相应的计算机程序产品，可以存储计算机代码，当该代码由处理器执行时，其实现该方法。
一种相应的装置、设备和系统，
可以包括配置用于执行这种自相关计算机的相关器，或者用于执行这种自相关计算机的装置；配置用于执行这种选择的选择组件，或者用于执行这种选择的装置；以及配置用于执行这种加强以及提供得到的自相关值的加强组件，或者用于执行这种加强以及提供得到的自相关值的装置。
通过结合附图来考虑下文的详细描述，本发明的其他目的和特征将变得易见。然而，应当理解，设计附图仅仅是为了示范目的，而并非作为对本发明限制的限定，本发明的限定应当参考所附权利要求书。还应当理解，附图不是按比例绘制的，其仅仅意在从概念上示出在此描述的结构和过程。

图1是根据本发明示例性实施方式的系统的示意性框图2是示出图1系统中的示例性编码器的示意性框图3是示出图2中编码器的操作的流程图4是示出图2的编码器所使用的重叠区段以及针对区段的基音滞后选择的图示；
图5是表示标准VMR-WB基音估计与利用本发明实施方式的基音估计之间的性能对比的图示；以及
图6是根据本发明示例性实施方式的设备的示意性框图。
具体实施例方式
尽管本发明可以通过各种框架来使用，但是将以示例的形式给出本发明的第一实施方式，该示例作为对以下中定义的语音编码的
增强3GPP2标准C.S0052-0,版本1.0: "Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR画WB)， Service Option 62 for Spread Spectrum Systems" ， 2004年6月11日。以全
速率或者半速率帧按照此标准使用的编码技术是关于代数CELP (ACELP)编码建模的。
图1是一个系统的示意性框图，该系统支持按照本发明第一实施方式的增强基音跟踪。在本文件的上下文中，基音跟踪主要表示基音检测方法，其通过结合音频信号的后续片段上的暂时基音信息来提供更为可靠的基音估计。然而，为了有助于某些编码方法以及避免赝像(artifact)，还期望对基音估计进行选择，其在发声语音期间得到稳定的总体基音轨迹。
该系统包括第一电子设备IIO和第二电子设备120。设备110、 120中的一个例如可以是无线终端，而另一个设备120、 110例如可以是该无线终端可以通过空中接口访问的无线通信网络的基站。这种无线通信网络例如可以是移动通信网络，但是同样可以是无线局域网(WLAN)等。相应地，这种无线终端例如可以是移动终端，但是同样可以是适于访问WLAN等的任何设备。
第一电子设备110包括音频数据源111，其经由编码器112链接至发射部件(TX) 114。应当理解，所示的连接可以通过各种其他未示出的元件来实现。
如果第一电子设备IIO是无线终端，则音频数据源lll例如可以是麦克风，其允许用户输入模拟音频信号。在这种情况下，音频数据源111可以经由包括模数转换器的处理组件链接至编码器112。如果第一电子设备110是基站，则音频数据源111例如可以是与提供数字音频信号的、无线通信网络的其他网络组件的接口。在这两种情况下，音频数据源111也可以是存储数字音频信号的存储器。
编码器112可以是电路，其实现在集成电路(IC) 113中。可以在相同的集成电路113中实现其他组件，例如解码器、模数转换器或者数模转换器。
第二电子设备120包括接收组件(RX) 121，其经由解码器122 链接至音频数据宿(data sink) 123。应当理解，所示连接可以通过各种其他未示出的元件来实现。
如果第二电子设备120是无线终端，则音频数据宿123例如可以是输出模拟音频信号的扬声器。在这种情况下，解码器122可以经由包括数模转换器的处理组件链接至音频数据宿123 。如果第二电子设备120是基站，则音频数据宿123例如可以是与数字音频信号将要转发至的无线通信网络的其他网络组件的接口。在这两种情况下，音频数据宿123也可以是存储数字音频信号的存储器。
图2是表示第一电子设备110的编码器112的细节的示意性框图。
编码器112包括第一块210,其概括了未在本文件中详细考虑的
各种组件。
第一块210链接至根据本发明实施方式而配置的开环基音分析器220。开环基音分析器220包括相关器221、加强和选择组件222、加强组件223和基音滞后选择器224。
开环基音分析器220还链接至其他块230，该其他块230同样概括了未在本文件中详细考虑的各种组件。
第一块210的组件还直接连接至其他块230的组件。
编码器112、集成电路113或者开环基音分析器220可以视作按照本发明的示例性装置，而第一电子设备IIO可以视作按照本发明的示例性设备。
现在将参考图3来描述图1系统的操作。图3是示出了第一电子设备110的编码器112的开环基音分析器220中操作的流程图。
当充当第一电子设备110的基站通过充当音频数据源111的接口从无线通信网络接收数字音频信号以便发射给充当第二电子设备 120的无线终端时，其将数字音频信号提供给编码器112。类似地，当充当第一电子设备110的无线终端经由充当音频数据源111的麦
14克风接收到音频输入以便发射给服务提供者或者充当第二电子设备 120的其他无线终端时，其将模拟音频信号转换为数字音频信号，并
且将数字音频信号提供给编码器112。
第一块210的组件负责对接收的数字音频信号的预处理，包括采样转换、高通滤波以及频谱预加重。第一块210的组件还执行频谱分析，其每帧两次地提供每个关键频带的能量。而且，其执行语音活跃检测(VAD),降噪以及LP分析，其中LP分析得到LP合成滤波器系数。此外，对通过根据LP合成滤波器系数得出的感知加权滤波器的数字音频信号进行滤波，从而执行感知加权，以便得到经过加权的语音信号。这些处理步骤的细节可以在上文提到的标准 C.S0052-0中找到。
第一块210将经过加权的语音信号以及其他信息提供给开环基音分析器220。
开环基音分析器220 二取一地对经过加权的信号执行开环基音分析(步骤301-310)。在此开环基音分析中，开环基音分析器220 针对每个帧计算基音滞后的三个估计，当前帧的每半帧中一个，下一帧的前半帧中一个，其中下一帧用作超前帧。三个半帧对应于所
按照标准C.S0052-0,基音延迟范围(2取1)分为四个区段[IO, 16]、 [17,31]、 [32, 61]以及[62， 115],并且至少针对后三个区段中的延迟，针对三个半帧中的每一个确定相关值。
相反，对于给出的实施方式的开环基音分析，将基音延迟两次划分为四个重叠的区段。以此方式，一组中的区段之间的不连续区域总是由其他组中的区段覆盖。第一组区段例如可以包括与标准 C.S0052-0中定义的相同的区段，即[10，16]、 [17,31]、 [32，61〗以及 [62,115]。第二组区段例如可以包括区段[12,21]、 [22,40]、 [41,77] 以及[78，115]。应当理解，两组也可以基于不同的分割。
图4中输出了对基音延迟范围的双重区段化。用于前半帧的区段化在左侧给出，用于后半帧的区段化在中间给出，而用于超前帧的区段化在右侧给出。相同的区段化用于三个半帧中的每一个。
对于每个半帧，通过布置在彼此顶部的四个矩形来表示四个区
段的第一组S1-1、 S2-l、 S3-l (基于标准C.S0052-0)。对于每个半帧，通过布置在彼此顶部的四个矩形来表示四个区段的第二组Sl-2、 S2-2、 S3-2。为了示范目的，相应的第二组Sl-2、 S2-2、 S3-2与相应的第一组S1-1、 S2-l、 S3-l相比略微向右偏移。区段所覆盖的延迟从下到上增加。可以看到，相应的第一组S1-1、 S2-l、 S3-l和相应的第二组Sl-2、 S2-2、 S3-2中的区段具有不同的边界，并且区段因此重叠。
在标准C.S0052-0中，选择区段以便使其不包括基音滞后倍数。如果针对所给出实施方式的两组区段都遵循在任何区段中不允许潜在基音滞后倍数这一原则，则一个组中的区段将无法覆盖基音延迟的所有候选值。更具体地，在一个组中，具有最短延迟的区段将不覆盖如下这些延迟，该延迟对应于允许估计器搜索的最高基音频率。例如，在上面给出的示例性第二组中，第一区段没有覆盖10个和11 个采样的最小延迟。然而，测试已经表明，该人为限制并不影响系统的性能。而且，还可以通过如下来克服该限制向第二组区段添加一个区段，以便也覆盖最高基音频率。然而，在标准C.S0052-0 或者任何类似方法的情况下，第二组区段中的额外区段需要使其延迟范围适应最短延迟区段的使用决策。
在开环基音分析器220中，相关器接收经过加权的信号釆样，并且对帧的两个半帧的每个以及超前帧分别应用自相关计算。换言之，每个半帧的采样乘以相同输入信号的延迟采样，并将得到的乘积相加，以获得相关值。延迟采样例如可以来自相同的半帧，来自前一半帧，或者甚至这之前的半帧，或者来自这些的组合。此外，相关范围还可以考虑随后半帧中的某些采样。
一方面，对于每个半帧，从区段的第一组S1-1、 S2-l、 S3-l的第二、第三和第四区段选择用于自相关计算的延迟(步骤301)。
另一方面，对于每个半帧，从区段的第二组Sl-2、 S2-2、 S3-2的第二、第三和第四区段选择用于自相关计算的延迟(步骤302 )。在特定的环境下，还可以考虑每组的第一区段。
例如可以按照标准C.S0052-0中提供的公式来针对每组区段计算相关值。这里，通过以下公式，针对相应区段中的每个延迟来计算相关值
其中爻/")是加权的、抽取的语音信号，其中d是区段中的不同延迟，
其中C(^是延迟d处的相关，并且其中丄,ec是求和极限，其取决于延迟所属的区段。
由于相关值是在两组区段中确定的，得到的相关值cr力的总数
几乎是按照标准C.S0052-0得到的相关值CY《的数量的两倍。
接下来，加强和选择组件222对每个半帧的每组区段的相关值执行第一加强。在此第一加强中，对相关值进行加权，以强调与针对在前帧而确定的音频滞后的邻域内的延迟相对应的相关值(步骤 303 )。接下来，针对每组的每个区段，选择已加权的相关值的最大值，并且将相关联的延迟标识为基音延迟候选。而且，对选定的相关值进行规范化，以补偿在针对不同区段的自相关计算中所使用的不同求和极限丄^。针对一组区段的加权、选择以及规范化的示例性细节可以从标准C.S0052-0获得。
其余处理仅使用经过规范化的相关值来执行。
在图4中，18个选定的相关值通过圆点(黑色和白色)在示例性的关联延迟位置示出，其中每个半帧的两组区段中的第二、第三和第四区段的每一个都具有一个相关值。
例如对于前半帧的第一组，针对第二区段保留相关值C1-1-2, 针对第三区段保留相关值Cl-l-3,并且针对第四区段保留相关值 Cl-l-4。对于前半帧的第二组，针对第二区段保留相关值C1-2-2, 针对第三区段保留相关值C1 -2-3,并且针对第四区段保留相关值 Cl-2-4，等。
选定的相关值的数目是按照标准C.S0052-0在此阶段保留的相
17关值数目的两倍。
而且，加强和选择组件222对每个半帧的每组的相关值执行第
二加强，以避免选择基音滞后的倍数(步骤304)。在此第二加强中，
区段的较高区段中的选定相关值相关联的延迟的邻域内，则进一步强调所述与较低区段中的延迟相关联的选定相关值。针对一组区段的这种加强的示例性细节可以从标准C.S0052-0获得。
加强组件223对相关值执行第三加强，其不同于标准C.S0052-0 中所定义的第三加强。
标准C.S0052-0定义如果一个半帧中的相关值具有另一半帧的任何区段中的一致相关值，则对其进一步加重。
如果满足以下条件，则认为两个半帧的相关值是一致的
其中max—vfl/we和w/"—va/we分别表示两个相关值的最大值和最小值。
这种方法带来的问题是当最佳轨迹跨越区段边界时，将潜在地选择当前帧的次佳轨迹。由于跨越可能导致轨迹之一的不连续，错误的相关值可能得到加强并由此被选择。
相反，图2的加强组件223针对区段来加重所选的相关值，以便加强产生当前帧的最稳定基音轨迹的基音延迟候选。
如果一个半帧的区段中所考虑的相关值与另一半帧中的相同组的最大相关值是一致的，并且该最大相关值与所考虑的相关值属于相同的区段，则着重加重所考虑的相关值(步骤305、 306 )。如果一个半帧的区段中所考虑的相关值与另一半帧中的相同组的最大相关值是一致的，并且该最大相关值与所考虑的相关值属于不同区段，或考虑的相关值与另一半帧中另一组最大相关值一致，则仅仅较弱地加重所考虑的相关值(步骤305、 307、 308 )。与另一半帧的相同组或者另一组中的最大相关值不一致的候选没有被进行加强(步骤 305、 307、 309)。由此，针对区段的稳定性测量对与每个半帧的最佳候选位于相同区段的那些相邻候选应用了更多加强，而对那些不同区段中的候选应用较为适度的加强。这样，显示出对最佳候选的稳定性的所有相邻候选得到了用于最终选择的正权重，而这确保了与可能不正确的候选相比，对那些期望是正确的候选给予了更多权重。
图4中的圓点表示所有选择的相关值，同时白色的圆点标记在第三加强之后每个半帧的每组中的最高相关值。在前半帧中，例如
对于第一组Sl-l是相关值Cl-l-2，而对于第二组S2-l是相关值 Cl画2-2。
如果没有针对区段的稳定性的方案，在某些情况下，最高相关值可能是与按照稳定基音轨迹的次优延迟相关联的相关值，例如超前帧的第一组S3-l中的相关值C3-l-2。相反，在使用针对区段的稳定性方案时，更有可能选择与超前帧的第一组S3-l中的相关值 C3-l-3相关联的最优基音滞后。
最后，对于每个半帧，基音滞后选择器224从两组区段中的所有区段中选择最优相关值(步骤310)。基音滞后选择器224提供三个延迟作为对第二块230的最终基音滞后，这三个延迟与三个最终相关值相关联。这三个最终基音滞后形成当前帧的基音轨迹。
第二块230的组件执行噪声消除，并将相应的反馈提供给第一块210。此外，其应用信号修改，其对原始信号进行修改以使得编码对于语音编类型而言较为容易，并且其包含用于对适合于半速率语音编码的那些帧进行分类的固有分类器。第二块230的组件还执行
确定其他编码技术的速率选择。而且，其使用适当的编码技术在子帧回路中处理活跃语音。该处理包括闭环基音分析，其从上文描述
的开环基音分析中确定的基音滞后进行。第二块230的组建还负责舒适噪声生成。将语音编码和舒适噪声生成的结果作为编码器112 的输出比特流来提供。
该输出比特流可以由发射组件114经由空中接口发射至第二电子设备120。第二电子设备120的接收组件121接收比特流，并将其提供给解码器122。解码器122对比特流进行解码，并将得到的解码音频信号提供给音频数据宿i23,以便呈现、传输或者存储。
与标准C.S0052-0的方法相比，在所给出的本发明实施方式中，在相关计算中使用重叠区段以及使用针对区段的稳定性计算，使得某些有问题的语音片段中的基音轨迹的精度和稳定性得到改进。继而，这适于提高输出语音质量。
图5给出了不具有和具有所提出修改的标准C.S0052-0的 VMR-WB基音估计之间的对比。
图5顶部的第一图示示出了 5帧的示例性输入语音信号。图5 中间的第二图示示出了在将标准C.S0052-0的VMR-WB基音估计应用于所描述的输入语音信号时得到的基音滞后的轨迹。多数时间下， VMR-WB基音估计具有非常好的性能。然而，在某些情况下， VMR-WB可能不稳定，例如在帧2的后半帧和帧3的前半帧。图5 底部的第三图示示出了在将上面给出的经过修改的VMR-WB基音估计应用于所描述的输入语音信号时得到的基音滞后的轨迹。可以看出，在标准C.S0052-0的VMR-WB基音估计失效的多数情况下，经修改的VMR-WB基音估计也适于提供可靠的和稳定的基音轨迹。
当结合不同于标准C.S0052-0的基音估计的某些其他类型的基音估计来使用本发明时，可以期待类似的效果。
相关器211所示的功能也可以视作用于确定音频信号片段的第一自相关值的装置，其中第一所考虑的延迟范围被划分为第一组区段，针对该第一组区段的多个区段中的延迟来确定第一自相关值。相关器221所示的功能同样可以视作用于确定音频信号片段的第二自相关值的装置，其中第二所考虑延迟范围被划分为第二组区段，使得第一组区段和第二组区段重叠，针对该第二组区段的多个区段中的延迟来确定第二自相关值。相关器221所示的功能还可以视作用于提供所确定的第一自相关值和所确定的第二自相关值以便估计音频信号片段中的基音滞后的装置。
加强和选择组件222所示的功能也可以视作用于在每组区段的每个区段中从所提供的自相关值中选择最强的自相关值。
加强组件223所示的功能也可以视作用于对跨越音频信号的片段而稳定的所选自相关值进行加强的装置，其中与跨越在音频信号片段的不同区段中稳定的自相关值相比，将在跨越音频信号片段的相同区段中稳定的自相关值加强得更强。
图6是按照本发明另一实施方式的设备600的示意性框图。设备600例如可以是移动电话。其包括麦克风611,其经由模数转换器 (ADC) 612链接至处理器631。处理器631进一步经由数模转换器 (DAC )621链接至扬声器622。处理器631还链接至收发机(RX/TX ) 632和存储器633。应当理解，所示连接可以通过各种其他未示出的元件来实现。
处理器631配置用于执行计算机程序代码。存储器633包括用于计算机程序代码的部分634和用于数据的部分。所存储的计算机程序代码包括编码代码和解码代码。处理器631可以在需要时从存储器633取回例如计算机程序代码以便执行。应当理解，同样可以执行各种其他计算机程序代码，例如操作程序代码和用于各种应用的程序代码。
存储的编码计算机程序代码或者与存储器633相结合的处理器 631可以视作按照本发明的示例性装置。存储器633也可以视作按照本发明的示例性时计算机程序产品。
当用户选择移动电话600的功能时(该功能需要对音频输入的编码)，提供该功能的应用使处理器631从存储器633取回编码代码。
当用户现在经由麦克风611输入例如语音的模拟音频信号时，该模拟音频信号由模数转换器612转换为数字语音信号，并且被提供给处理器631。处理器631执行取回的编码软件，以便对数字语音信号进行编码。经过编码的语音信号或者存储在存储器633的数据存储部分635中以备后用，或者由收发机632发射给移动通信网络的基站。再次，编码可以给予具有与参考上文第一实施方式而描述的类
似修改的标准C.S0052-0的VMR-WB编解码器。在这种情况下，上文参考图3描述的处理仅有所执行的计算机程序代码来执行，而不由电路执行。备选地，编码可以基于某些其他编码方法，该方法通过使用基于至少两组重叠区段和/或针对区段的加强而得以增强。
处理器631还可以从存储器633取回解码软件，并执行它以便对经由收发机632接收到的、或者从存储器633的数据存储部分635 取回的经过编码的语音信号进行解码。经过解码的数字语音信号继而由数模转换器621转换为模拟音频信号，并且经由扬声器622呈现给用户。备选地，经过解码的数字语音信号可以存储在存储器633 的数据存储部分635中。
总体上，所给出的实施方式中的重叠区段确保了最佳轨迹总是包括在一个区段中，并且所给出的实施方式中的针对区段的稳定性加强继而相应地偏向这些4九迹。
尽管已经示出、描述和指出了本发明应用于其优选实施方式的基本的新颖特征，但是将会理解，在不脱离本发明精神的情况下，本领域的技术人员可以在形式上和细节上对所描述的设备和方法进行各种省略、替换和改变。例如，显然的意图是，以基本上相同的方式执行基本上相同的功能以实现相同结果的、这些元件和/或方法步骤的所有组合都属于本发明的范围。而且，应当认识到，结合本发明的任何所公开形式或者实施方式而示出和/或描述的结构和/或元件和/或方法步骤可以作为一般性内容并入任何其他所公开或者描述或者建议的形式或者实施方式。因此，本发明仅受到所附权利要求书的范围所指示的限制。此外，在权利要求书中，装置加功能的条款意在将在此描述的结构涵盖为执行所记载的功能，并且不仅是结构性等效物，而且还有等效的结构。
权利要求
1.一种方法，包括确定音频信号片段的第一自相关值，其中将第一所考虑延迟范围划分为第一组区段，所述第一自相关值是针对所述第一组区段的多个区段中的延迟来确定的；确定音频信号的所述片段的第二自相关值，其中将第二所考虑延迟范围划分为第二组区段，使得所述第一组的区段和所述第二组的区段重叠，所述第二自相关值是针对所述第二组区段的多个区段中的延迟来确定的；以及提供所述确定的第一自相关值和所述确定的第二自相关值，以用于所述音频信号的所述片段中的基音滞后估计。
2. 如权利要求1的方法，其中将所述音频信号划分为帧的序列，并且其中将每个帧进一步划分为前半帧和后半帧，并且其中对于每个帧，分别针对作为所述音频信号第一片段的所述帧的所述前半帧、针对作为所述音频信号第二片段的所述帧的所述后半帧、以及针对作为所述音频信号第三片段的后续帧的前半帧，来确定第一自相关值和第二自相关值。
3. 如权利要求l的方法，其中所述第一组区段和所述第二组区段的每一个包括四个区段，并且其中所述自相关值是针对每组区段的至少三个区段中的延迟来确定的。
4. 如权利要求l的方法，其中选择所述第一组区段中和所述第二组区段中的所述区段，使得区段不包括基音滞后倍数。
5. 如权利要求l的方法，还包括在每组区段的每个区段中从所述提供的自相关值中选择最强的自相关值。
6. 如权利要求5的方法，还包括在每组区段的每个区段中选择最强的自相关值之前，基于针对在前帧而估计的基音滞后来加强自相关值。
7. 如权利要求5的方法，还包括基于针对相应区段组的基音滞后倍数检测来加强所选的自相关值。
8. 如权利要求5的方法，还包括加强跨越所述音频信号的片段稳定的所选自相关值，其中与在跨越所述音频信号片段的不同区段中稳定的自相关值相比，将在跨越所述音频信号片段的相同区段中稳定的自相关值加强得更强。
9. 如权利要求l的方法，其中所述自相关值是在开环基音分析的范围内确定的。
10. —种装置，包括相关器，所述相关器配置用于确定音频信号片段的第一自相关值，其中将第一所考虑延迟范围划分为第一组区段，所述第一自相关值是针对所述第一组区段的多个区段中的延迟来确定的；所述相关器配置用于确定音频信号的所述片段的第二自相关值，其中将第二所考虑延迟范围划分为第二组区段，使得所述第一组的区段和所述第二组的区段重叠，所述第二自相关值是针对所述第二组区段的多个区段中的延迟来确定的；以及所述相关器配置用于提供所述确定的第一自相关值和所述确定的第二自相关值，以用于所述音频信号的所述片段中的基音滞后估计。
11. 如权利要求10的装置，其中所述音频信号被划分为帧的序列，并且其中每个帧进一步划分为前半帧和后半帧，并且其中所述相关器配置用于对于每个帧，分别针对作为所述音频信号第一片段的所述帧的所述前半帧、针对作为所述音频信号第二片段的所述帧的所述后半帧、以及针对作为所述音频信号第三片段的后续帧的前半帧，来确定第一自相关值和第二自相关值。
12. 如权利要求10的装置，其中所述第一组区段和所述第二组区段的每一个包括四个区段，并且其中所述相关器配置用于针对每组区段的至少三个区段中的延迟来确定所述自相关值。
13. 如权利要求10的装置，其中选择所述第一组区段中和所述第二组区段中的所述区段，使得区段不包括基音滞后倍数。
14. 如权利要求10的装置，还包括选择组件，其配置用于在I , 、、、、、、
15. 如权利要求14的装置，还包括加强组件，其配置用于加强跨越所述音频信号的片段而稳定的所选自相关值，其中与在跨越所述音频信号片段的不同区段中稳定的自相关值相比，将在跨越所述音频信号片段的相同区段中稳定的自相关值加强得吏强。
16. 如权利要求10的装置，其中所述装置是开环基音分析器。
17. 如权利要求10的装置，其中所述装置是音频编码器。
18. —种设备，包括如权利要求10的装置；以及音频输入组件。
19. 如权利要求18的设备，其中所述音频输入组件是以下之一麦克风，以及与其他设备的接口。
20. 如权利要求18的设备，其中所述设备是以下之一无线终端，以及无线通信网络的网元。
21. —种系统，包括音频编码器，包括如权利要求10的装置；以及音频解码器。
22. —种计算机程序产品，其中程序代码存储在计算机可读介质中，当所述程序代码由处理器执行时，其实现以下内容确定音频信号片段的第一自相关值，其中将第一所考虑延迟范围划分为第一组区段，并且所述第一自相关值是针对所述第一组区段的多个区段中的延迟来确定的；确定音频信号的所述片段的第二自相关值，其中将第二所考虑延迟范围划分为第二组区段，使得所述第一组的区段和所述第二组的区段重叠，所述第二自相关值是针对所述第二组区段的多个区段中的延迟来确定的；以及提供所述确定的第一自相关值和所述确定的第二自相关值，以用于所述音频信号的所述片段中的基音滞后估计。
23. 如权利要求22的计算机程序产品，其中所述音频信号被划分为帧的序列，并且其中每个帧进一步划分为前半帧和后半帧，并且其中对于每个帧，分别针对作为所述音频信号第一片段的所述帧的所述前半帧、针对作为所述音频信号第二片段的所述帧的所述后半帧、以及针对作为所述音频信号第三片段的后续帧的前半帧，来确定第一自相关值和第二自相关值。
24. 如权利要求22的计算机程序产品，其中所述第一组区段和所述第二组区段的每一个包括四个区段，并且其中所述自相关值是针对每组区段的至少三个区段中的延迟来确定的。
25. 如权利要求22的计算机程序产品，其中选择所述第一组区段中和所述第二组区段中的所述区段，使得区段不包括基音滞后倍数。
26. 如权利要求22的计算机程序产品，所述程序代码还在每组区段的每个区段中从所述提供的自相关值中选择最强的自相关值。
27. 如权利要求26的计算机程序产品，所述程序代码还加强跨越所述音频信号的片段而稳定的所选自相关值，其中与在跨越所述音频信号片段的不同区段中稳定的自相关值相比，将在跨越所述音频信号片段的相同区段中稳定的自相关值加强得更强。
28. 如权利要求22的计算机程序产品，其中所述自相关值是在开环基音分析的范围内确定的。
29. —种装置，包括用于确定音频信号片段的第一自相关值的装置，其中第一所考虑延迟范围被划分为第一组区段，并且所述第一自相关值是针对所述第一组区段的多个区段中的延迟来确定的；用于确定所述音频信号片段的第二自相关值的装置，其中第二所考虑延迟范围被划分为第二组区段，使得所述第一组的区段和所述第二组的区段重叠，所述第二自相关值是针对所述第二组区段的多个区段中的延迟来确定的；以及用于提供所述确定的第一自相关值和所述确定的第二自相关值以便估计所述音频信号的所述片段中的基音滞后的装置。
30. 如权利要求29的装置，还包括用于在每组区段的每个区段中从所述提供的自相关值中选择最强的自相关值的装置。
31. 如权利要求30的装置，还包括用于加强跨越所述音频信号的片段而稳定的所选自相关值的装置，其中与在跨越所述音频信号片段的不同区段中稳定的自相关值相比，将在跨越所述音频信号片段的相同区段中稳定的自相关值加强得更强。
全文摘要
确定自相关值，作为音频信号片段中的基音滞后估计的基础。将用于自相关计算的第一所考虑延迟范围划分为第一组区段，针对该第一组区段的多个区段中的延迟来确定第一自相关值。将用于自相关计算的第二所考虑延迟范围划分为第二组区段，使得第一组的区段和第二组的区段重叠。针对该第二组区段的多个区段中的延迟来确定第二自相关值。
文档编号G10L11/04GK101542589SQ200780043838
公开日2009年9月23日申请日期2007年10月1日优先权日2006年10月13日
发明者A·拉莫, A·瓦西拉谢, L·拉克索南申请人:诺基亚公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：L.拉克索南;A.拉莫;A.瓦西拉谢
技术所有人：诺基亚公司
我是此专利的发明人