使用质量控制的时间缩放器、音频解码器、方法和计算机程序的制作方法

文档序号：9713666阅读：229来源：国知局

使用质量控制的时间缩放器、音频解码器、方法和计算机程序的制作方法
【技术领域】
[0001]根据本发明的实施例涉及一种用于提供输入音频信号的时间缩放版本的时间缩放器。
[0002]根据本发明的另外实施例涉及一种用于基于输入音频内容来提供已解码音频内容的音频解码器。
[0003]根据本发明的另外实施例涉及一种用于提供输入音频信号的时间缩放版本的方法。
[0004]根据本发明的另外实施例涉及一种用于执行所述方法的计算机程序。
【背景技术】
[0005]音频内容(包括常规音频内容，如音乐内容、话语内容、混合常规音频/话语内容)的存储及传输是重要的技术领域。由以下事实引起特别挑战:收听者期望音频内容的连续播放，而没有任何中断，且没有由音频内容的存储和/或传输引起的任何可听到的假象。同时，需要使关于存储方式及数据传输方式的要求保持尽可能地低，以将成本保持在可接受的限度内。
[0006]例如，如果从存储介质的读出暂时被中断或延迟，或如果在数据源与数据宿之间的传输暂时被中断或延迟，则会造成问题。例如，经由因特网的传输并不十分可靠，这是由于TCP/IP分组可能会丢失，且由于在因特网上的传输延迟可以(例如)取决于因特网节点的变化的负载情形而变化。然而，为了具有令人满意的用户体验，需要音频内容的连续播放，而没有可听到的“间隙”或可听到的假象。此外，需要避免将由大量音频信息的缓冲引起的实质延迟。
[0007]鉴于以上论述，可认识到，甚至在不连续提供音频信息的情况下仍然需要提供良好音频质量的概念。

【发明内容】

[0008]根据本发明的实施例创建了一种用于提供输入音频信号的时间缩放版本的时间缩放器。所述时间缩放器配置为计算或估计可通过对所述输入音频信号的时间缩放获得的所述输入音频信号的时间缩放版本的质量。此外，所述时间缩放器配置为取决于可通过所述时间缩放获得的所述输入音频信号的时间缩放版本的质量的所述计算或估计来执行对所述输入音频信号的时间缩放。根据本发明的这一实施例是基于以下理念:存在输入音频信号的时间缩放将导致实质可听到的失真的情形。此外，根据本发明的实施例是基于以下发现:质量控制机制通过评估所需的时间缩放是否将实际提供输入音频信号的时间缩放版本的足够质量来有助于避免这种可听到的失真。因此，时间缩放不仅受到所需的时间伸展或时间收缩控制，且也受到可获得的质量评估的控制。因此，举例而言，如果时间缩放将导致输入音频信号的时间缩放版本的不可接受的低质量本则推迟时间缩放。然而，也可使用输入音频信号的时间缩放版本的(预期)质量的计算估计来调整时间缩放的任何其他参数。总之，在以上提到的实施例中使用的质量控制机制有助于减少或避免应用时间缩放的系统中的可听到的假象。
[0009]在优选实施例中，所述时间缩放器配置为使用所述输入音频信号的第一样本块及所述输入音频信号的第二样本块执行重叠相加操作(其中所述输入音频信号的所述第一样本块与所述输入音频信号的所述第二样本块可以是属于单一帧或属于不同帧的重叠或不重叠样本块)。所述时间缩放器配置为相对于所述第一样本块对所述第二样本块进行时间移位(例如，当与所述第一样本块及所述第二样本块相关联的原始时间线比较时)，以及对所述第一样本块和时间移位的第二样本块进行重叠相加，从而获得所述输入音频信号的时间移位版本。根据本发明的这一实施例是基于以下发现:使用第一样本块及第二样本块的重叠相加操作通常导致良好的时间缩放，其中在许多情况下，相对于第一样本块调整第二样本块的时间移位允许使失真保持合理地小。然而，也已发现，引入检查第一样本块与时间移位的第二样本块的预想的重叠相加是否实际导致输入音频信号的时间缩放版本的足够质量的额外质量控制机制有助于以甚至更好的可靠性避免可听到的假象。换句话说，已发现，在已识别第二样本块相对于第一样本块的所需(或有利)时间移位后执行质量检查(基于可通过时间缩放获得的输入音频信号的时间缩放版本的质量估计)是有利的，这是由于此过程有助于减少或避免可听到的假象。
[0010]在优选实施例中，所述时间缩放器配置为计算或估计所述第一样本块与时间移位的第二样本块之间的所述重叠相加操作的质量(例如，预期质量)，以便计算或估计可通过所述时间缩放获得的所述输入音频信号的时间移位版本的(预期)质量。已发现，重叠相加操作的质量实际上对可通过时间缩放获得的输入音频信号的时间缩放版本的质量具有较强的影响。
[0011]在优选实施例中，所述时间缩放器配置为取决于确定所述第一样本块或所述第一样本块的一部分(例如，右侧部分，也即，在所述第一样本块的末端的样本)与所述第二样本块或所述第二样本块的一部分(例如，左侧部分，也即在所述第二样本块的开头的样本)之间的类似程度来确定所述第二样本块相对于所述第一样本块的时间移位。这种概念是基于以下发现:确定第一样本块与时间移位的第二样本块之间的类似性提供了对重叠相加操作的质量的估计，且因此也提供对可通过时间缩放获得的输入音频信号的时间缩放版本的质量的有意义估计。此外，已发现，可使用适度计算复杂性以良好的精确度来确定第一样本块(或第一样本块的右侧部分)与时间移位的第二样本块(或经时间移位的第二样本块的左侧部分)之间的类似程度。
[0012]在优选实施例中，所述时间缩放器配置为针对所述第一样本块与所述第二样本块之间的多个不同时间移位，确定与在所述第一样本块或所述第一样本块的一部分(例如，右侧部分)与所述第二样本块或所述第二样本块的一部分(例如，左侧部分)之间的类似程度有关的信息，并且基于针对该多个不同时间移位的与类似程度有关的所述信息确定将用于所述重叠相加操作的(候选)时间移位。因此，第二样本块相对于第一样本块的时间移位可以选择以适用于音频内容。然而，可以在确定将用于重叠相加操作的(候选)时间移位后，执行包括可通过输入音频信号的时间缩放获得的输入音频信号的时间缩放版本的(预期)质量的计算或估计的质量控制。换句话说，通过使用质量控制机制，可确保基于针对多个不同时间移位的与在第一样本块(或第一样本块的一部分)与第二样本块(或第二样本块的一部分)之间的类似程度有关的信息所确定的时间移位实际上导致足够良好的音频质量。因此，可有效地减少或避免假象。
[0013]在优选实施例中，所述时间缩放器配置为取决于的目标时间移位信息而确定所述第二样本块相对于所述第一样本块的时间移位，所述时间移位将用于所述重叠相加操作(除非响应于不足的质量估计而推迟所述时间移位操作)。换句话说，考虑目标时间移位信息并且进行以下尝试:确定第二样本块相对于第一样本块的时间移位，使得第二样本块相对于第一样本块的时间移位接近由目标时间移位信息描述的目标时间移位。因此，可以实现通过第一样本块与时间移位的第二样本块的重叠相加获得的(候选)时间移位与(由目标时间移位信息定义)要求一致，其中如果可以通过时间缩放获得的输入音频信号的时间缩放版本的(预期)质量的计算或估计指示不足的质量，则可防止重叠相加操作的实际执行。
[0014]在优选实施例中，所述时间缩放器配置为基于与在所述第一样本块或所述第一样本块的一部分(例如，右侧部分)与按照所确定的时间移位进行时间移位的所述第二样本块或按照所确定的时间移位进行时间移位的所述第二样本块的一部分(例如，左侧部分)之间的类似程度有关的信息，计算或估计可通过所述输入音频信号的时间缩放获得的所述输入音频信号的时间移位版本的质量(例如，预期质量)。已发现，第一样本块或第一样本块的一部分与按照所确定的时间移位进行时间移位的第二样本块或按照所确定的时间移位进行时间移位的第二样本块的一部分之间的类似程度构成用于决定可通过时间缩放获得的输入音频信号的时间缩放版本是否具有足够质量的良好准则。
[0015]在优选实施例中，所述时间缩放器配置为基于与在所述第一样本块或所述第一样本块的一部分(例如，右侧部分)和按照所确定的时间移位进行时间移位的所述第二样本块或按照所确定的时间移位进行时间移位的所述第二样本块的一部分(例如，左侧部分)之间的类似程度有关的信息决定是否实际执行时间缩放。因此，使用第一(通常在计算上较简单且不十分可靠)算法的识别为候选时间移位的时间移位的确定后接着是质量检查，其是基于与在第一样本块(或第一样本块的一部分)和按照所确定的时间移位进行时间移位的第二样本块(或按照所确定的时间移位进行时间移位的第二样本块的一部分)之间的类似程度有关的信息。基于所述信息的“质量检查”通常比仅确定候选时间移位更可靠，且因此用以最终决定是否实际上执行时间缩放。因此，如果时间缩放将导致过多可听到的假象(或失真)，则可以防止时间缩放。
[0016]在优选实施例中，所述时间缩放器配置为在可通过所述时间缩放获得的所述输入音频信号的时间缩放版本的质量的所述计算或估计指示大于或等于质量阈值的质量的情况下，相对于第一样本块对第二样本块进行时间移位，并且对所述第一样本块与时间移位的第二样本块进行重叠相加，从而获得所述输入音频信号的时间移位版本。所述时间缩放器配置为取决于对使用第一类似性度量评估的在所述第一样本块或所述第一样本块的一部分(例如，右侧部分)和所述第二样本块或所述第二样本块的一部分(例如，左侧部分)之间的类似程度的确定，来确定所述第二样本块相对于所述第一样本块的时间移位。所述时间缩放器还配置为基于与使用第二类似性度量评估的在所述第一样本块或所述第一样本块的一部分(例如，右侧部分)与按照所确定的时间移位进行时间移位的所述第二样本块或按照所确定的时间移位进行时间移位的所述第二样本块的一部分(例如，左侧部分)之间的类似程度有关的信息，计算或估计可通过所述输入音频信号的时间缩放获得的所述输入音频信号的时间移位版本的质量(例如，预期质量)。第一类似性度量和第二类似性度量的使用允许以适度计算复杂性快速确定第二样本块相对于第一样本块的时间移位，并且也允许以高精确度计算或估计可通过输入音频信号的时间缩放获得的输入音频信号的时间缩放版本的质量。因此，即使将通常在计算上简单的第一类似性度量用于确定第二样本块相对于第一样本块的(候选)时间移位(其中当确定第二样本块相对于第一样本块的候选时间移位时，使用如第二类似性度量的高计算复杂性的类似性度量通常将过于要求严格)，使用两个不同类似性度量的两步骤过程允许组合第一步骤中的比较小的计算复杂性与第二 (质量控制)步骤中的高精确度，并且允许减少或避免可听到的假象。
[0017]在优选实施例中，所述第二类似性度量在计算上比所述第一类似性度量复杂。因此，可以以高精确度执行“最终”质量检查，而可按有效率的方式执行第二样本块相对于第一样本块的时间移位的容易确定。
[0018]在优选实施例中，所述第一类似性度量是互相关、或归一化的互相关、或平均幅度差函数、或平方误差之和。优选地，所述第二类似性度量是针对多个不同时间移位的互相关或归一化的互相关的组合。已发现，互相关、归一化的互相关、平均幅度差函数或均方误差之和允许对第二样本块相对于第一样本块的(候选)时间移位的良好且有效率的确定。此夕卜，已发现，为针对多个不同时间移位的互相关或归一化的互相关的组合的类似性度量是用于评估(计算或估计)可通过时间缩放获得的输入音频信号的时间缩放版本的质量的十分可靠的量。
[0019]在优选实施例中，所述第二类似性度量是至少四个不同时间移位的互相关的组合。已发现，至少四个不同时间移位的互相关的组合允许对质量的精确评估，这是由于也可以通过确定至少四个不同时间移位的相关性来考虑信号随时间的变化。同样，可以通过使用至少四个不同时间移位的互相关性而在一定程度上考虑谐波。因此，可以实现可获得的质量的特别好的评估。
[0020]在优选实施例中，所述第二类似性度量为针对间隔所述第一样本块或所述第二样本块的音频内容的基频的周期持续时间的整数倍的时间移位所获得的第一互相关值与第二互相关值以及针对间隔所述音频内容的基频的周期持续时间的整数倍的时间移位所获得的第三互相关值与第四互相关值的组合，其中获得第二互相关值的时间移位与获得该第三互相关值的时间移位间隔该音频内容的基频的周期持续时间的一半的奇数倍。因此，该第一互相关值和第二互相关值可以提供关于音频内容是否在时间上至少大致固定的信息。类似地，该第三互相关值及该第四互相关值也可提供关于音频内容是否在时间上至少大致固定的信息。此外，第三互相关值及第四互相关值相对于第一互相关值及第二互相关值“在时间上偏移”的事实允许考虑谐波。总之，基于第一互相关值、第二互相关值、第三互相关值与第四互相关值的组合的第二类似性度量的计算带来高度精确性，及因此带来可通过时间缩放获得的输入音频信号的时间缩放版本的(预期)质量的计算(或估计)的可靠结果。
[0021 ]在优选实施例中，根据9 = (3(口)*(3(2吨)+(3(3/2印)*(3(1/2印)或根据9 = (3(口)*(3(-p)+c(-l/2*p)*c(l/2*p)获得所述第二类似性度量q。在以上等式中，c(p)是第一样本块与在时间上移位(相对于彼此，且相对于原始时间线)第一样本块或第二样本块的音频内容的基频的周期持续时间P的所述第二样本块之间的互相关值。c(2*p)是第一样本块与在时间上移位2*p的第二样本块之间的互相关值。c(3/2*p)是第一样本块与在时间上移位3/2*p的第二样本块之间的互相关值。c(l/2*p)是第一样本块与在时间上移位l/2*p的第二样本块之间的互相关值。c(-p)是第一样本块与在时间上移位-P的第二样本块之间的互相关值，且c(-l/2*p)是第一样本块与在时间上移位-l/2*p的第二样本块之间的互相关值。已发现，以上等式的使用导致可通过时间缩放获得的输入音频信号的时间缩放版本的(预期)质量的特别好且可靠的计算(或估计)。
[0022]在优选实施例中，所述时间缩放器配置为将基于可通过所述时间缩放获得的所述输入音频信号的时间缩放版本的质量的计算或估计的质量值和可变阈值进行比较，以决定是否应执行时间缩放。可变阈值的使用允许调适所述阈值以用于决定是否应针对该情形执行时间缩放。因此，在一些情形下，可以提高用于执行时间缩放的质量要求，且在其他情形下可降低所述质量要求，例如取决于先前时间缩放操作或信号的任何其他特性。因此，可进一步增加是否执行时间缩放的决策的重要性。
[0023]在优选实施例中，所述时间缩放器配置为响应于对于时间缩放的质量将针对一个或多个先前样本块不足够的发现，减小所述可变阈值，从而降低质量要求。通过减小可变阈值，可避免在延长的时段中省略时间缩放，这是因为此可导致缓冲器欠载运行或缓冲器超限运行，且将因此比由时间缩放引起产生一些假象更有害。因此，可以避免将由时间缩放的过度延迟引起的问题。
[0024]在优选实施例中，所述时间缩放器配置为响应于时间缩放已经应用于一个或多个先前样本块的事实，增大所述可变阈值，从而提高质量要求。因此，可以确保只在可达到比较高的质量等级(比“正常”质量等级高)的情况下才对后续的样本块进行时间缩放。相比之下，如果时间缩放将不能满足比较高的质量要求，则防止一连串后续样本块的时间缩放。这是适当的，因为将时间缩放应用至多个后续的样本块将通常导致假象，除非时间缩放满足比较高的质量要求(其通常比在仅时间缩放单一样本块而非一连串相邻样本块的情况下可应用的“正常”质量要求高)。
[0025]在优选实施例中，所述时间缩放器包括范围有限的第一计数器，用于对因为已达到可通过所述时间缩放获得的所述输入音频信号的时间移位版本的相应质量要求而已经进行时间缩放的样本块的数目或帧的数目进行计数。此外，所述时间缩放器包括范围有限的第二计数器，用于对因为尚未达到可通过所述时间缩放获得的所述输入音频信号的时间移位版本的相应质量要求而尚未进行时间缩放的样本块的数目或帧的数目的、进行计数。所述时间缩放器配置为取决于所述第一计数器的值及取决于所述第二计数器的值计算所述可变阈值。通过使用范围有限的第一计数器及范围有限的第二计数器，获得用于调整可变阈值的简单机制，其允许使可变阈值适宜的各种情形，同时避免阈值的过小或过大值。
[0026]在优选实施例中，所述时间缩放器配置为将与所述第一计数器的值成比例的值与初始阈值相加，并且从中减去与所述第二计数器的值成比例的值以便获得所述可变阈值。通过使用这种概念，可以非常简单的方式获得可变阈值。
[0027]在优选实施例中，所述时间缩放器配置为取决于可通过所述时间缩放获得的所述输入音频信号的时间缩放版本的质量的所述计算或估计而执行所述输入音频信号的时间缩放，其中对所述输入音频信号的时间缩放版本的质量的所述计算或估计包括对在所述输入音频信号的时间移位版本中的将由时间缩放引起的假象的计算或估计。通过对在输入音频信号的时间缩放版本中的将由时间缩放引起的假象进行计算或估计，可以使用用于质量的计算或估计的有意义的准则，这是因为假象将通常使人类收听者的听觉印象退化。
[0028]在优选实施例中，对所述输入音频信号的时间移位版本的所述(预期)质量的计算估计包括对在所述输入音频信号的时间移位版本中的将由所述输入音频信号的后续样本块的重叠相加操作引起的假象的计算或估计。已认识到，重叠相加操作可能是当运行时间缩放时的主要假象源。因此，已发现这是计算或估计将由输入音频信号的后续样本块的重叠相加操作引起的输入音频信号的时间缩放版本的假象是一种有效率的方法。
[0029]在优选实施例中，所述时间缩放器配置为取决于所述输入音频信号的后续样本块的类似程度来计算或估计可通过所述输入音频信号的时间缩放获得的述输入音频信号的时间缩放版本的(预期)质量。已发现，如果输入音频信号的后续块或样本包括比较高的类似性，则通常可以以良好的质量执行时间缩放，而如果输入音频信号的后续样本块包括实质差异，则通常由时间缩放产生失真。
[0030]在优选实施例中，所述时间缩放器配置为计算或估计在可通过所述输入音频信号的时间缩放获得的所述输入音频信号的时间缩放版本中是否存在可听到的假象。已发现，可听到的假象的计算或估计提供良好地适宜于人类听觉印象的质量信息。
[0031 ]在优选实施例中，所述时间缩放器配置为在可通过所述时间缩放获得的所述输入音频信号的时间移位版本的所述(预期)质量的所述计算或估计指示不足的质量的情况下将时间缩放推迟至后续帧或至后续样本块。因此，有可能在因为产生较少假象而更适宜于时间缩放的时间执行时间缩放。换句话说，通过取决于可通过时间缩放实现的质量来灵活地选择运行时间缩放的时间，可以改进输入音频信号的时间缩放版本的听觉印象。此外，这种想法是基于以下发现:时间缩放操作的轻微延迟通常不提供任何实质问题。
[0032]在优选实施例中，所述时间缩放器配置为在可通过所述时间缩放获得的所述输入音频信号的时间移位版本的所述(预期)质量的所述计算或估计指示不足的质量的情况下，将时间缩放推迟至所述时间缩放较难被听到的时间。因此，可通过避免可听到的失真来改进听觉印象。
[0033]根据本发明的实施例创建了一种用于基于输入音频内容来提供已解码音频内容的音频解码器。所述音频解码器包括抖动缓冲器，其配置为对表示音频样本块的多个音频帧进行缓冲。所述音频解码器也包括解码器内核，其配置为基于从所述抖动缓冲器接收的音频帧来提供音频样本块。此外，所述音频解码器包括如上概述的基于样本的时间缩放器。该基于样本的时间缩放器配置为基于由该解码器内核提供的音频样本块来提供时间缩放的音频样本块。此音频解码器是基于以下理念:配置为取决于对可通过时间缩放获得的输入音频信号的时间缩放版本的质量的计算或估计而执行输入音频信号的时间缩放的时间缩放器良好地适宜于在包括抖动缓冲器及解码器内核的音频解码器中使用。抖动缓冲器的存在允许(例如)在可通过时间缩放获得的输入音频信号的时间缩放版本的预期)质量的计算或估计指示将获得不良质量的情况下，推迟时间缩放操作。因此，包括质量控制机制的基于样本的时间缩放器允许避免或至少减少包括抖动缓冲器及解码器内核的音频解码器中的可听到的假象。
[0034]在优选实施例中，所述音频解码器还包括抖动缓冲器控制器。所述抖动缓冲器控制器配置为将控制信息提供给该基于样本的时间缩放器，其中所述控制信息指示是否应该执行基于样本的时间缩放。替代地，或另外，所述控制信息可以指示所需的时间缩放量。因此，可取决于音频解码器的要求来控制基于样本的时间缩放器。举例而言，抖动缓冲器控制器可执行信号自适应控制，且可以按信号自适应方式选择应该执行基于帧的时间缩放还是基于样本的时间缩放。因此，存在额外的灵活度。然而，基于样本的时间缩放器的质量控制机制以可(例如)超越由抖动缓冲器控制器提供的控制信息，使得即使在由抖动缓冲器控制器提供的控制信息指示应该执行基于样本的时间缩放的情况下仍然避免(或停用)基于样本的时间缩放。因此，“智能”的基于样本的时间缩放器可以超越抖动缓冲器控制器，

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：斯蒂芬·雷乌施;斯蒂芬·朵拉;热雷米·勒康特;曼努埃尔·扬德尔;尼古拉斯·费伯尔;
技术所有人：弗劳恩霍夫应用研究促进协会;
我是此专利的发明人

上一篇：蚀刻停止配置的制作方法
上一篇：用于自动语音识别(asr)的自适应的基于相位差的噪声消减的制作方法