有效内容分类及响度估计的制作方法

文档序号：2825631阅读：241来源：国知局

有效内容分类及响度估计的制作方法
【专利摘要】有效内容分类及响度估计。本文献涉及用于对音频信号进行编码的方法及系统。该方法包括确定音频信号的频谱表示。确定频谱表示步骤可以包括确定音频信号的改进型离散余弦变换（MDCT）系数或正交镜像滤波器（QMF）滤波器组表示。所述方法还包括：使用所确定频谱表示来对音频信号进行编码；基于所确定频谱表示将音频信号的部分分类成话音或非话音。最终，基于所述话音部分来确定音频信号的响度度量。
【专利说明】有效内容分类及响度估计
【技术领域】
[0001]本文涉及用于音频信号的有效内容分类以及响度估计的方法及系统。具体地，涉及音频编码器内的有效内容分类和栅控响度估计。
【背景技术】
[0002]例如PDA、智能手机、移动电话和便携式媒体播放器等便携式手持设备通常包括音频和/或视频渲染能力并且已经变为重要的娱乐平台。无线或有线传输能力不断渗透至这样的设备向前推动了其发展。由于如高效高级音频编码(HE-AAC)格式等媒体传输和/或存储协议的支持，媒体内容可以持续地被下载并且被存储至便携式手持设备，从而提供实际上数量几乎不受限制的媒体内容。
[0003]HE-AAC是定义作为IS0/IEC14496-3中的MPEG-4音频框架的用于数字音频的有损数据压缩方案。它是针对如流音频等低比特率应用而优化了的低复杂度AACXAAC LC)的扩展。HE-AAC版本I轮廓(HE-AAC vl)使用频带复制(SBR)来增强频域的压缩效率。HE-AAC版本2框架(HE-AAC v2)将SBR与参数立体声(PS)耦合来增强立体声信号的压缩效率。它是AAC+编解码器的标准化和提升版本。
[0004]随着数字广播的引入，建立了时变元数据的概念，时变元数据使得能够控制接收端处的增益值以针对具体的收听环境来裁剪内容。一个示例是在Dolby Digital中包括的元数据，该元数据包括关于对白的一般响度归一信息(“对白归一”)。应当注意，贯穿本说明书及权利要求，对Dolby Digital的引用应当理解为包含Dolby Digital编码系统和DolbyDigital Plus编码系统两者。
[0005]确保跨越不同内容类型和媒介格式的响度水平的一致性的一种可能是响度归一化。响度归一化的先决条件是信号响度的估计。在ITU-R BS.1770-1推荐标准中提出了一种响度估计方法。
[0006]ITU-R BS.1770-1推荐标准是一种在将人类听力的心理声学模型考虑在内的同时测量数字音频文件的响度的方法。其提出了使用用于对收听效果(head effect)进行建模的滤波器和高通滤波器来预处理每个声道的音频信号。然后，在测量间隔上估计经滤波后的信号的功率。对于多声道音频信号，响度被计算为所有声道的估计功率值的加权和的对数。
[0007]ITU-R BS.1770-1推荐标准的一个缺点是所有信号类型被平等处理。长时间的静默会降低响度结果，但是该静默不会影响主观的响度印象。这样的停顿的示例可以是两首歌曲之间的静默。
[0008]圆满解决该问题的简单而有效的方法是仅将主观上明显的信号部分考虑在内。该方法称为栅控。信号部分的明显性可以基于最小能量、响度水平阈值或其他准则来确定。不同栅控方法的示例是静默栅控、自适应阈值栅控和话音栅控。
[0009]对于栅控，通常对音频信号执行离散傅里叶变换(DFT)和其他操作。但是，这引起不期望的附加处理工作。此外，为了对响度计算进行栅控而将音频信号分成不同类的分类方法通常不完美，因此导致了影响响度计算的误分类。
[0010]因此，需要改善了的音频分类以增强栅控和响度计算。此外，期望减小栅控中的计
算工作。

【发明内容】

[0011]本申请涉及对数字音频信号中的话音/非话音段(segment)的检测。该检测结果可以用于计算数字音频信号的响度水平。通常，话音/非话音段检测依赖于从数字音频信号中提取的多个特征的聚集。换言之，许多准则被使用以决定数字音频信号段是话音还是非话音段。
[0012]通常，这些特征中的至少一些基于计算段的频谱。对于计算频谱，可以使用给编码系统施加高的计算负担的DFT。但是，近来的研究显示例如可以通过替代地使用改进型离散余弦变换(MDCT)数据来避免使用DFT的显式的频谱计算。即，可以使用MDCT系数来确定基于对数字音频信号段的频谱的计算的特征。这在产生MDCT数据的同时对数字音频信号进行编码的数字音频信号编码器的情况下尤其有利。在该情况下，来自编码方案的MDCT数据可以用于话音/非话音检测，从而避免数字音频信号段的DFT。以此，由于已经可用的MDCT数据被重复使用(这使得对数字音频信号段的DFT多余)，所以总体计算复杂度被减小。应当注意，尽管在上述示例中MDCT数据可以有利地用于避免对数字音频信号段的DFT，但是编码器中的任意变换表示可以被用作频谱表示。从而，该变换表示可以例如是MDST (改进的离散正弦变换)或MLT (改进的重叠变换)的实部或虚部。此外，频谱表示可以包括音频信号的正交镜像滤波器QMF滤波器组表示。
[0013]在编码方案产生比例因子带能量的情况下，比例因子带能量可以被用于基于频谱倾斜对特征进行确定。此外，如果编码方案针对数字音频信号段(例如，针对一个或多个块)产生能量值，则替代显式计算该能量本身，基于时域中上述段的能量的能量特征可以使用该信息。
[0014]此外，如果频带复制(SBR)数据可获得，则SBR有效负载量可以被有利地用作信号开始的指示，并且话音/非话音的信号分类可以基于提供节奏信息的、SBR有效负载量的经处理版本。因此，已经可用的SRB数据可以进一步用于对基于节奏的特征进行确定以对数字音频信号中的话音/非话音段进行检测。
[0015]一般来讲，如在下面进一步详细描述的所提出的信息的重复使用减小了系统的总体计算复杂度，从而提供了协同效应。
[0016]根据一个方面，描述了一种用于对音频信号进行编码的方法。该方法包括确定了音频信号的频谱表示。确定频谱表示可以包括确定MDCT (改进型离散余弦变换)系数。一般地，编码器中的任意变换表示可以用作频谱表示。该变换表示可以例如是MDST (改进的离散正弦变换)或MLT (改进的重叠变换)的实部或虚部。此外，频谱表示可以包括音频信号的正交镜像滤波器QMF滤波器组表示。
[0017]该方法还包括使用所确定的频谱表示来对音频信号进行编码。音频信号的部分可以基于所确定的频谱表示被分类为话音或非话音，并且音频信号的响度度量可以基于所分类的话音部分来确定，而忽略所标识的非话音部分。因此，关注于音频信号的栅控度量是根据还用于编码音频信号的频谱表示来确定。没有针对响度估计而计算单独的音频信号的频谱表示，因此编码器中用于计算栅控响度度量的工作减小。
[0018]该方法还包括根据MDCT系数来确定伪频谱。话音/非话音部分的分类可以至少部分地基于所确定的伪频谱的值。从MDCT系数推导的伪频谱可以用作对DFT频谱的近似，DFT频谱一般在响度估计中用于话音部分的分类。可替代地，MDCT系数可以直接用作话音/非话音分类的特征。
[0019]该方法还可以包括确定频谱通量方差。因为已经显示出了频谱通量方差是话音/非话音分类的良好特征，所以话音/非话音部分的分类可以至少部分地基于所确定的频谱通量方差。频谱通量方差可以根据伪频谱来确定。此外，频谱通量方差可以根据MDCT系数来确定并且被证明是有用的分类特征。
[0020]该方法还包括根据MDCT系数来确定比例因子带能量。话音/非话音部分的分类可以至少部分地基于所确定的比例因子带能量。比例因子带能量通常用在对音频信号进行编码的编码器中。此处，比例因子带能量被推荐标准作为音频信号的话音/非话音部分的分类的特征。
[0021]该方法还包括根据比例因子带能量来确定平均频谱倾斜。话音/非话音部分的分类可以至少部分地基于平均频谱倾斜。因此，提出基于比例因子带能量来计算用于话音分类的平均频谱倾斜特征，其是一种非常有效的计算方法并且不需要附加频谱信号表示的计
笪
ο
[0022]该方法还可以包括确定音频信号的块的能量值。该方法可以通过基于块能量确定音频信号的瞬态来继续并且响应地确定音频信号的编码块长度。此外，基于能量的特征基于块能量来确定。话音/非话音部分的分类可以至少部分地基于基于能量的特征。因此，出于决定用于编码音频信号(块切换)的适当块大小的目的而在编码器中计算的能量值被直接用于计算基于能量的分类特征如停顿计数度量、短节奏和长节奏度量等。
[0023]话音/非话音部分的分类可以基于机器学习算法，尤其是AdaBoost算法。当然，也可以使用其他机器学习算法如神经网络。
[0024]该方法还可以包括基于话音数据和非话音数据的机器学习算法的训练，从而调节机器学习算法的参数以最小化误差函数。在训练期间，机器学习算法学习各个特征的重要度，例如频谱通量或平均频谱倾斜，并且修改其用于评估分类期间的特征的内部权重。
[0025]该频谱表示可以针对短块和/或长块来确定。如AAC编码器等许多编码器针对编码音频信号使用不同的块长度，并且具有基于输入信号在不同的块长度之间切换的能力以相对于输入信号的属性来调节块长度。该方法还包括将短块表示与用于与预定数量个短块对应的长块表示的帧进行校准，从而将所述预定数量个短块的MDCT系数重新排序成长块的帧。换言之，短块被转换成长块。因为用于分类和响度计算的后续模块仅需要处理一种块类型，所以这可以是有益的。此外，其允许在分类和响度的计算中基于长块的固定时间结构。
[0026]在频谱表示包括音频信号的正交镜像滤波器组表示的情况下，该方法可以包括使用所确定的频谱表示来对音频信号的频带复制`参数进行编码，并且基于所确定频谱表示来将音频信号的部分分类为话音或非话音。然后，基于话音部分的音频信号的栅控度量可以被确定。类似于上述情况，这允许基于还用于编码音频信号的频谱表示的栅控响度计算，这里是针对基于高频重构或频带复制技术对信号的高频部分进行编码。[0027]该方法还可以包括使用所确定的频谱表示将音频信号编码到比特流中并且将所确定的响度度量编码到该比特流中。因此，描述了一种编码器，其有效地计算如对白归一或程序参考水平等响度度量并且将其与音频信号编码在一起。
[0028]音频信号可以是多声道信号，并且该方法还可以包括下混合多声道音频信号并且对经下混合的信号执行分类步骤。这使得能够基于单声道信号计进行信号分类和/或响度测量的计算。
[0029]该方法还可以包括下采样音频信号并且对经下采样的信号执行分类步骤。因此，基于经下采样的信号进行信号分类和/或响度测量的计算进一步减少了所需的计算工作。
[0030]根据另一个方面，公开了一种执行上述方法的系统，具体地为用于将音频信号编码到比特流中的音频编码器。音频信号可以根据HE-AAC、MP3、AAC、Dolby Digital或DolbyDigital Plus之一来编码，或根据基于AAC的任何其他编解码器来编码，或者根据基于上述变换的任何其他编解码器来编码。
[0031 ] 该系统可以包括:MDCT计算单元，其基于改进型离散余弦变换MDCT系数来确定音频信号的频谱表示；和或包括正交镜像滤波器QMF滤波器组的SBR计算单元，其确定频带复制或高频重构的频谱表示。
[0032]根据一个方面，描述了一种用于对音频信号的话音部分进行分类的方法。音频信号可以包括话音信号和/或其他非话音信号。该分类用于确定音频信号是否为话音和/或音频信号的哪些部分为话音信号。该分类可以有益地用于音频信号的栅控响度度量的计算中。由于频带复制(SBR)有效负载是信号开始的良好指示，所以信号分类可以基于提供了节奏信息的SBR有效负载的经处理版本。
[0033]该方法可以包括确定与音频信号的时间间隔的频带复制数据量相关联的有效负载量的步骤。频带复制有效负载量可以用作音频信号频谱变化的指示，从而提供节奏信息。有效负载量可以包括SBR包络数据、时间/频率(T/F)网格数据、音调分量数据和噪声本底数据或其任意组合。具体地，这些分量连同SBR包络数据的任意组合也是可能的。
[0034]通常，有效负载量确定步骤是当确定音频信号的频带复制数据时在对音频信号进行编码期间进行。在该情况下，与频带复制数据量相关联的有效负载量可以直接从编码器的频带复制组件中接收。频带复制有效负载量可以指示由频带复制组件在音频信号的时间间隔上生成的频带复制数据量。换言之，有效负载量表示该时间间隔的要被包括在编码比特流中的频带复制数据量。
[0035]包括所生成的频带复制数据的音频信号优选地被编码在比特流中以便存储或传输。该编码比特流例如可以是HE-AAC比特流或mp3PR0比特流。其他比特流也可以并且位于本领域技术人员可以获得的范围内。
[0036]该方法可以包括针对音频信号的连续时间间隔重复上面的确定步骤的另外步骤，从而确定有效负载量序列。
[0037]在另外的步骤中，该方法可以在有效负载量序列中标识周期。这可以通过在有效负载量序列中标识尖峰或重现图形来完成。周期的标识可以通过对有效负载量序列进行频谱分析来完成，其可以生成一组功率值和相应的频率。可以通过确定该组功率值中的有关的最大值以及通过将周期选择为相应的频率来在有效负载量序列中确定该周期。在一种实施方式中，绝对最大值被确定。[0038]通常沿着有效负载量序列的时间轴来进行频谱分析。此外，通常是对有效负载量序列的多个子序列执行频谱分析，从而生成多个功率值集合。例如，子序列可以覆盖特定长度(例如2秒)音频信号。此外，子序列可以例如以50%彼此交叠。同样地，可以获得多个功率值集合，其中每个功率值集合对应于音频信号的某一摘录(excerpt)。通过对上述多个功率值集合进行平均可以获得对于完整音频信号的总体功率值集合。应当理解，词语“平均”涵盖了如计算平均值或确定中值等各种类型的数学运算。即，可以通过计算多个功率值集合的平均功率值集合或中间功率值集合来获得总体的功率值集合。在一种实施方式中，进行频谱分析包括进行频率变换，如傅里叶变换(FT)或快速傅里叶变换(FFT)。
[0039]功率值集合可以提交至进一步的处理。在一种实施方式中，将功率值乘以与它们的对应频率的人类感知偏好相关联的权重。例如，这样的感知权重可以对与人类所更频繁地检测到的节拍对应的频率进行强调，而对与人类不太频繁地检测到的节拍对应的频率进行削弱。
[0040]接着，该方法可以包括对音频信号的包括话音信号或非话音信号的至少一部分进行分类的步骤。该分类优选地基于所提取的节奏信息。所提取的节奏信息在任何种类的分类器中可能与其他特征一起用作针对音频信号的部分作出话音/非话音判定的特征。
[0041]话音/非话音分类则可以用于音频信号的栅控响度的计算，响度的计算限于音频信号的话音部分。因此，提供了在感知上更加准确的响度，其仅考虑音频信号的感知相关话音部分而忽略非话音部分。响度数据可以被包括到编码比特流中。
[0042]该方法可以包括提供音频信号的响度值的步骤。响度相关值还可以称为调整信息。用于确定响度值的步骤或算法可以是一组音频信号操作以确定表示音频信号的感知响度(即，感知能量)的响度相关值。这样的步骤或算法可以是测量音频节目响度的ITU-RBS.1770-1算法和/或重播增益响度计算方案。在一种实施方式中，响度是根据忽略音频信号的静默和/或非话音时间段的ITU-R BS.1770-1算法来确定。
[0043]该分类可以使用从SBR有效负载中提取的节奏信息作为在将话音信号与非话音信号区分开的机器学习算法如AdaBoost算法中的特征。当然，也可以使用其他机器学习算法如神经网络。为了最大限度地使用节奏信息，分类器针对训练数据进行训练以将话音信号与非话音信号区分开。该分类器可以使用所提取的节奏信息作为分类的输入信号并且调节其内部参数(例如，权重)以减小对训练数据的误差度量。所提出的节奏信息可以与如在HE-AAC编码器中使用的“经典”特征等其他特征一起由分类器使用。机器学习算法可以确定对为分类提供的特征进行组合的权重。
[0044]在一种实施方式中，音频信号由沿着时间轴的连续子带系数块序列来表示。这样的子带系数例如可以是如在 MP3、AAC、HE-AAC、Dolby Digital 和 Dolby Digital Plus 编解码器的情况下的MDCT系数。
[0045]在一种实施方式中，音频信号由包括频带复制数据和沿着时间轴的多个连续帧的编码比特流来表示。例如，编码比特流可以是HE-AAC或mp3PR0比特流。
[0046]该方法可以包括将响度相关值存储在与音频信号相关联的元数据中。该元数据可以具有预定语法或格式。在一种实施方式中，预定格式使用重播增益语法。可替代地或另外地，预定格式可以与iTunes风格的元数据或ID3v2标签兼容。在另一种实施方式中，根据MPEG标准IS014496-3，响度相关值可以作为填充元素例如“节目参考水平”参数在DolbyPluse或HE-AAC比特流中传输。
[0047]该方法可以包括将元数据提供给媒体播放器的步骤。元数据可以随着音频信号一起被提供。在一种实施方式中，音频信号和元数据可以存储在一个或更多个文件中。上述文件可以存储在例如随机存取存储器(RAM)或光盘等存储介质中。在一种实施方式中，音频信号和元数据例如可以位于如HE-AAC等媒体比特流内而被传输至媒体播放器中。
[0048]根据另外的方面，描述了一种软件程序，其适于在处理器上执行并且当在计算设备上执行时适于执行在本文献中概括的方法步骤。
[0049]根据另一个方面，描述了一种存储介质，其包括适于在处理器上执行并且当在计算设备上执行时适于执行在本文献中概括的方法步骤的软件程序。
[0050]根据另一个方面，描述了一种计算机程序，其包括当在计算机上被执行时执行用于执行在本文献中概括的方法步骤的可执行指令。
[0051]根据另一个方面，描述了一种配置成对音频信号的话音部分进行分类的系统。该系统包括:用于对与音频信号的时间间隔上的频带复制数据量相关联的有效负载量进行确定的装置；用于针对音频信号的连续时间间隔重复上述确定步骤从而确定有效负载量序列的装置；用于标识有效负载量序列中的周期的装置；和/或用于从所标识的周期中提取音频信号的节奏信息的装置。该系统还可以包括用于基于所提取的节奏信息对包括话音或非话音的音频信号的至少一部分进行分类的装置。此外，提供了用于基于对音频信号的话音和非话音部分的分类来确定音频信号的响度数据的装置。具体地，响度数据的确定可以限于音频信号的如由分类装置标识的话音部分。
[0052]根据另一个方面，描述了一种用于生成包括音频信号的元数据的编码比特流的方法。该方法可以包括将音频信号编码为有效负载数据序列从而生成编码比特流的步骤。例如，音频信号可以被编码为AAC、MP3、AAC、Dolby Digital或Dolby Digital Plus比特流。该方法可以包括确定与音频信号的响度相关联的元数据并且将该元数据插入编码比特流中的步骤。优选地，响度数据仅针对音频信号的如由分类器基于音频信号的节奏信息确定的话音部分来确定。应当注意，音频信号的节奏信息可以根据本文献中概括的任何方法来确定。
[0053]根据另外的方面，描述了音频信号的包括元数据的编码比特流。编码比特流可以是AAC、MP3、AAC、Dolby Digital或Dolby Digital Plus比特流。该元数据可以包括表示音频信号的栅控响度度量的数据，栅控响度度量是由在本文献中概括的任何分类器从音频信号的话音部分推导的。
[0054]根据一个方面，描述了一种被配置为生成包括音频信号的元数据的编码比特流的音频编码器。该编码器可以包括:用于将音频信号编码为有效负载数据序列从而产生编码比特流的装置；用于确定音频信号的响度元数据的装置；以及用于将该元数据插入到编码比特流中的装置。以与上面概括的方法类似的方法，编码器可以依赖于针对音频信号计算的频带复制数据(具体地为插入到比特流中的频带复制数据的有效负载量)，其作为确定音频信号的节奏信息的基础。节奏信息然可以用于将音频信号分类成话音部分和非话音部分以栅控响度估计。
[0055]应当注意，根据另外的方面，描述了用于对音频信号的编码比特流进行解码的相应方法以及被配置成对音频信号的编码比特流进行解码的解码器。该方法和解码器被配置成从编码比特流中提取相应的元数据，尤其是与节奏信息相关联的元数据。
[0056]初步的复杂度分析显示:所提出的话音/非话音分类方法相比较现有技术而言潜在的复杂度降低是明显的。根据假设所提出的实施不需要重取样器并且不使用单独的频谱分析的理论方法，该节省高至98%。
[0057]应当注意，在本文献中描述的实施方式和方面可以按照许多不同的方式来组合。具体地，应当注意，在系统环境下概括的方面和特征还适应于相应的方法环境，同样在方法环境下概括的方面和特征也适应于相应的系统环境。此外，应当注意，本文献的公开内容还涵盖除了由从属权利要求中的回引显式地给出的权利要求组合以外的其他权利要求组合，即，权利要求及其技术特征可以按照任何次序和任何格式来组合。
【专利附图】

【附图说明】
[0058]将参考附图通过不限制本发明的范围和精神的示意性示例来描述本发明，其中:
[0059]图1示意性地示出了使用来自输入音频信号的响度水平信息来产生经编码的输出音频信号的系统；
[0060]图2示意性地示出了根据输入音频信号来对响度水平信息进行估计的系统；
[0061]图3示意性地示出了使用来自音频编码器的信息来对来自输入音频信号的响度水平信息进行估计的系统；
[0062]图4示出了对短块的MDCT系数进行交错的示例；
[0063]图5a示出了通过不同的频谱变换生成的示例音频信号的频谱表示；
[0064]图5b示出了通过不同的频谱变换计算的示例音频信号的频谱通量；
[0065]图6示出了加权函数的示例；以及
[0066]图7示出了示例SBR有效负载数据序列和结果的调制频谱。
【具体实施方式】
[0067]下述实施方式对于节奏特征提取、话音分类和响度估计的方法与系统的原理仅仅为示意性的。应当理解，本文所描述的布置和细节的修改和变型对于本领域其他技术人员是显而易见的。因此，意欲仅由后附专利权利要求的范围进行限制，而不由本文的实施方式的描述和说明所呈现的具体细节进行限制。
[0068]一种以恒定感知水平提供音频输出的方法将要限定目标输出水平(要以该目标输出水平渲染音频内容)。这样的目标输出水平例如可以是-1ldBFS (相对于全刻度(FullScale)的分贝)。具体地，目标输出水平可以取决于当前的收听环境。此外，可以确定音频内容的实际响度水平，也称作参考水平。优选地随着媒体内容一起来提供响度水平，例如，作为结合媒体内容提供的元数据。为了对处于目标输出水平的音频内容进行渲染，可以在回放期间应用匹配增益值。匹配增益值可以被确定为目标输出水平与实际的响度水平之间的差。
[0069]如在上面已经指示出的,用于流处理和广播的系统(如Dolby Digital)通常依赖将包括“对白归一”值的元数据传输到解码设备，“对白归一”值指示当前节目的响度水平。“对白归一”值对于不同的节目通常是不同的。鉴于“对白归一”值是在编码器处确定的事实，因此使得内容拥有者能够控制长至解码器的完整信号链。此外，由于不需要在解码器处确定当前节目的响度值，所以解码设备上的计算复杂度可以减小。替代地，响度值被提供在与当前节目相关联的元数据中。
[0070]将元数据与音频信号包括在一起使得在用户收听体验上有明显的提升。对于愉快的用户体验，一般期望不同节目的总体声音水平或响度一致。但是不同节目的、一般源自不同的源的音频信号由不同的生产商者掌控并且可以包括范围从话音对白到音乐再到具有低频效果的电影配乐的多样内容。声音水平变化的该可能性使得在回放期间跨越各种节目维持相同的总体声音水平成为挑战。具体来讲，不期望收听者从一个节目切换至另一个节目时由于不同节目的感知声音水平的差异而感觉需要调节回放音量以将一个节目相对于另一个节目调得较响亮或较安静。改变音频信号以在节目之间维持一致声音水平的技术一般已知为信号调整。在对白音频轨道的环境下，与感知声音水平相关的度量(measure)已知为对白水平，其基于音频信号的平均加权水平。经常使用“对白归一”参数来指定对白水平，该参数表示关于数字全刻度的分贝(dB )水平。
[0071]在音频编码中，在像AC-3或HE-AAC等编解码器中发展的大量元数据类型包括动态范围压缩和响度描述。例如，AC-3使用被称作“对白归一”的值来提供编码音频信号的响度信息。在HE-AAC中，等同的值被称为“节目参考水平”，其包括在数据流元素中。回放设备读取响度值并且相应地通过增益因子来调节输出信号。该方式不改变原始的音频信号。元数据模型因此被称为非破坏性模型。
[0072]下面，描述用于将音频信号分类成话音和非话音部分的方法。该分类然后可以用于如根据ITU-R推荐标准BS.1770-1 (该文献通过引用合并于此)来对响度估计的计算进行栅控。响度计算则可以关注于包含话音内容的音频部分，例如以确定插入到编码比特流中的“对白归一”值(例如根据HE-AAC格式)。另一方面，音频的分类应该尽可能地正确以实现良好的响度估计。另一方面，响度计算以及尤其是话音/非话音分类应该是有效的并且尽可能对编码器施加很小的计算负担。因此，根据本文的一个方面，提出替代重新计算用于响度估计的类似值，而将响度计算以及尤其是话音/非话音分类结合到编码器运算中并且使用现有的计算和已经产生的数据。
[0073]如已经提到的，将响度估计的计算限于音频信号的话音部分是有益的。话音的以下特征中的一些对于将话音与其他类型区分开至关重要。话音是语音和非语音部分(也已知为摩擦噪声和元音)的组合。摩擦噪声可以分成两个子类。像“k”和“t”等声音非常短暂而像“s”和“f”等声音具有像频谱的噪声。话音的语音和非语音部分与单词以及句子之间的短中断导致了音频信号的持续变换的频谱。音乐另一方面在频谱中具有慢得多并且相当小的波动。观察信号的频谱幅度，还可以观察到具有很小能量的非常短的部分。这些短的中断是话音内容的指示。
[0074]由于信号中的话音内容在感知上的相关性，提出识别话音部分并且仅根据信号的这些部分计算响度。该话音响度值可以用于所描述的元数据类型中的任意一种。
[0075]根据实施方式，用于计算栅控音量度量的系统具有4个组件。第一个组件与信号预处理相关并且包括重采样器和混合器。在对来自输入信号的单声道信号进行下混合之后，以16kHz对该信号进行重采样。第二个组件计算涵盖信号的不同标准的7个特征，其对于标识话音是很有用的。这7个特征可以分类为两组:如频谱通量等频谱特征和如停顿计数和过零率等时域特征。第三个组件是被称作AdaBoost的机器学习算法，其基于这7个特征的特征向量来作出二元判定。通过16kHz的采样频率基于单声道信号来计算每个特征。时间分辨率可以针对每个特征来单独设置以实现最佳的可能结果。因此，每个特征可以具有其自己的块长度。在该情况下，块是通过该特征处理的特定量的时间样本。最后一个组件计算涉及初始采样速率的响度测量结果，其遵循ITU-R推荐标准。使用来自分类器的当前信号状态(话音/其他)每0.5秒更新响度测量结果。从而，可以计算话音和总体响度。
[0076]上述响度测量结果可以应用在例如HE-AAC编码方案中，其包括包含有MDCT滤波器组的AAC核心编码器。SBR编码器用于低比特率并且包含QMF滤波器组。根据一种实施方式，由MDCT滤波器组和/或QMF滤波器组提供的频谱表示用于信号分类。话音/其他分类可以置于AAC核心中(紧在MDCT滤波器组之后)。时间信号和MDCT系数可以在此处提取。这也是窗切换的地方，其计算由128个样本构成的块中的信号能量。包括具体频带的能量的比例因子带可以用于估计所需的信号量化的准确度。
[0077]图1示意性地示出了使用来自所输入的音频信号的响度水平信息来产生编码输出音频信号的系统100 ;该系统包括编码器101和响度估计模块102。此外，该系统包括栅控模块103。
[0078]编码器101从信号源接收音频信号。例如，信号源可以是电子设备，其将音频数据存储在电子设备的存储器中。音频信号可以包括一个或更多个声道。例如，音频信号可以是单声道音频信号、立体声音频信号或5 (.1)声道音频信号。音频信号可以包括话音、音乐或任何类型的音频信号内容。
[0079]此外，音频信号可以以任何适合的格式存储在电子设备的存储器中。例如，音频信号可以存储在WAV、AIFF、AU或原始的缺少题头的PCM文件中。可替代地，音频信号可以存储在 FLAC、Monkey’s Audio (文件名扩展 APE)、WavPack (文件名扩展 WV)、Shorten、TTA、ATRAC、Advanced Lossless、Apple Lossless (文件名扩展 m4a)、MPEG-4SLS、MPEG-4ALS、MPEG-4DST、Windows Media Audio Lossless (WMA Lossless)和 SHN 文件中。此外，音频信号可以存储在 MP3、Vorbis、Musepack、AAC、ATRAC 和 Windows Media Audio Lossy (WMAlossy)文件中。
[0080]音频信号可以通过有线或无线连接从信号源传输至系统100。可替代地，信号源可以是该系统的一部分，即，系统100可以寄宿在还存储了音频文件的计算机上。寄宿系统100的计算机可以是通过例如互联网或接入网等有线或无线网络连接至其他计算机的台式计算机或服务器。
[0081]编码器101可以根据具体的编码技术来对音频信号进行编码。具体的编码技术可以是DD+。可替代地，具体的编码技术可以是先进音频编码(ACC)。再此外，具体的编码技术可以是高效ACC (HE-AAC)。HE-AAC编码技术可以基于AAC编码技术和SBR编码技术。AAC编码技术可以至少部分地基于MDCT滤波器组。SBR编码技术可以至少部分地基于正交镜像滤波器(QMF)滤波器组。
[0082]响度估计模块102根据具体的响度估计技术来对音频信号的响度进行估计。具体的响度估计技术可以遵循ITU-R BS.1770-1推荐标准。可替代地，具体的响度估计技术可以遵循由David Robinson给出的回放增益建议(Replay Gain proposal)(参见http://www.replaygain.0rg/)。当具体的响度估计遵循ITU-R BS.1770-1推荐标准时,可以对输入音频信号的包括非静默的内容的段估计响度。例如，可以对包括话音的输入音频信号的段估计响度。在此，响度估计模块可以从栅控模块103接收栅控信号，该信号指示响度估计模块是否应该基于当前音频输入样本来估计响度。例如，栅控模块103可以将信号提供(例如，发送)给响度估计模块102，该信号指示音频信号的当前样本或部分包括话音。该信号可以是包括单个比特的数字信号。例如，如果比特为高，则信号可以指示当前音频样本包括话音并且要由用于估计输入音频信号的响度的响度估计模块102进行处理。如果比特为低，则信号可以指示当前音频信号不包括话音并且不会由用于估计输入音频信号的响度的响度估计模块102进行处理。
[0083]栅控模块103按照不同的内容种类对输入音频信号进行分类。例如，栅控模块103可以按照非静默和静默，或者话音和非话音部分来对输入音频信号进行分类。对于将输入音频信号分类成话音和非话音段，栅控模块103可以采用如图2所示的各种技术，图2示意性示出了用于根据输入音频信号估计响度水平信息的系统200。例如，栅控模块103可以包括用于特征计算的以下子模块中的一个或更多个。
[0084]便于以下讨论，简单地对词语“特征”、“块”和“帧”进行说明。特征是从信号提取某些特性的度量，其能够指示具体类在信号中的存在，例如，信号中的话音部分。每个特征可以以两个处理水平来操作。短信号摘录是以块为单位来处理的。特征的长期估计是以长度为2秒的帧来作出的。块是用于计算每个特征的低水平信息的数据量。其保存信号的时间样本或频谱数据。在以下等式中M被定义为块大小。帧是基于特定量的块的长期度量。更新率通常为0.5秒，时间窗为2秒。在以下等式中N被定义为帧大小。
[0085]栅控模块103可以包括频谱通量方差(SFV)子模块203。SFV子模块203工作在变换域并且适于将话音信号的频谱快速变化考虑在内。作为频谱中的通量的度量，F1U)被计算为帧t的频谱通量的均方I2范数(其中M是帧中的块的数量):
[0086]
【权利要求】
1.一种用于对音频信号进行编码的方法，所述方法包括: 确定所述音频信号的频谱表示，确定频谱表示包括确定改进型离散余弦变换MDCT系数；使用所确定的频谱表示对所述音频信号进行编码；基于所确定的频谱表示，将所述音频信号的部分分类成话音或非话音；以及基于所述话音部分，确定用于所述音频信号的响度度量。
2.根据权利要求1所述的方法，其中所述确定频谱表示包括确定改进型离散余弦变换MDCT系数。
3.根据权利要求1或2所述的方法，其中所述确定频谱表示包括确定正交镜像滤波器QMF滤波器组表不。
4.根据权利要求2所述的方法，还包括: 根据所述MDCT系数确定伪频谱；其中话音/非话音部分的分类至少部分地基于所确定的伪频谱的值。
5.根据任一前述权利要求所述的方法，还包括: 确定频谱通量方差；其中话音/非话音部分的分类至少部分地基于所确定的频谱通量方差。
6.根据任一前述权利要求所述的方法，还包括: 根据所述MDCT系数确定比例因子带能量；其中话音/非话音部分的分类至少部分地基于所确定的比例因子带能量。
7.根据权利要求6所述的方法，还包括: 根据所述比例因子带能量确定平均频谱倾斜；其中话音/非话音部分的分类至少部分地基于所述平均频谱倾斜。
8.根据任一前述权利要求所述的方法，还包括: 确定用于由所述音频信号构成的块的能量值；基于块能量确定基于能量的特征；其中话音/非话音部分的分类至少部分地基于所述基于能量的特征。
9.根据任一前述权利要求所述的方法，其中话音/非话音部分的分类基于机器学习算法，具体是AdaBoost算法。
10.根据权利要求9所述的方法，还包括: 基于话音数据和非话音数据对所述机器学习算法进行训练，从而调节所述机器学习算法的参数以使误差函数最小化。
11.根据任一前述权利要求所述的方法，其中所述频谱表示是针对短块和/或长块而确定的，所述方法还包括: 将短块表示和用于与预定数量个短块相对应的长块表示的帧进行校准，从而将所述预定数量个短块的MDCT系数重排为用于长块的帧。
12.根据任一前述权利要求所述的方法，还包括: 使用所确定的频谱表示将所述音频信号编码到比特流中；以及将所确定的响度度量编码到所述比特流中。
13.根据任一前述权利要求所述的方法，其中所述音频信号是多声道信号，所述方法还包括: 对所述多声道音频信号进行下混合，并且对下混合后的信号执行所述分类步骤。
14.根据任一前述权利要求所述的方法，还包括: 对所述音频信号进行下采样，并且对下采样的信号执行所述分类步骤。
15.根据任一前述权利要求所述的方法，其中所述音频信号根据HE-AAC、MP3、AAC、Dolby Digital 或 Dolby Digital Plus 之一来编码。
16.一种基于节奏信息来对音频信号的话音部分进行分类的方法，所述方法包括: 确定与频带复制数据量相关联的有效负载量，所述频带复制数据量和所述音频信号的时间间隔相关联；针对所述音频信号的连续时间间隔重复所述确定步骤，从而确定有效负载量序列；标识所述有效负载量序列中的周期；根据所标识的周期，提取所述音频信号的节奏信息；以及基于所提取的节奏信息，对所述音频信号的、包括话音或非话音的至少一部分进行分类。
17.根据权利要求16所述的方法，还包括: 确定所述音频信号的频带复制数据；将包括所述频带复制数据的所述音频信号编码在比特流中。
18.根据权利要求17所述的方法，还包括: 确定所述音频信号的响度数据，所述确定限于所述音频信号的、由所述分类步骤确定的话音部分；将所述响度数据包括在编码后的比特流中。
19.根据权利要求16至18中任一项所述的方法，其中标识周期包括: 标识所述有效负载量序列中的尖峰的周期。
20.根据权利要求16至19中任一项所述的方法，其中标识周期包括: 对所述有效负载量序列进行频谱分析，从而生成功率值集合和相应的频率；以及通过确定所述功率值集合中的相对最大值并且通过选择所述有效负载量序列中的周期作为所述相应的频率，对所述周期进行标识。
21.根据权利要求20所述的方法，其中执行频谱分析包括: 对所述有效负载量序列的多个子序列执行频谱分析，从而产生多个功率值集合；以及对所述多个功率值集合进行平均。
22.根据权利要求20至21中任一项所述的方法，其中执行频谱分析包括执行傅里叶变换。
23.根据权利要求16至22中任一项所述的方法，其中对所述音频信号的、包括话音或非话音的至少一部分进行分类包括: 使用所提取的节奏信息作为机器学习算法中的特征，以将话音信号与非话音信号进行区分。
24.根据权利要求16至23中任一项所述的方法，其中对所述音频信号的、包括话音或非话音的至少一部分进行分类包括: 基于训练数据对分类器进行训练以将话音信号与非话音信号进行区分，所述分类器使用所提取的节奏信息作为用于分类的输入特征。
25.根据权利要求17至24中任一项所述的方法，其中对所述音频信号进行编码包括:使用HE-AAC、MP3PR0或例如USAC (MPEG-D统一话音与音频编码器)的任意其他基于频带复制(SBR)的编码器之一来生成所述编码比特流的有效负载数据序列。
26.一种软件程序，所述软件程序适于在处理器上执行，并且当在计算设备上执行所述软件程序时所述软件程序适于执行根据权利要求1至25中任一项所述的方法步骤。
27.一种存储介质，所述存储介质包括软件程序，所述软件程序适于在处理器上执行，并且当在计算设备上执行所述软件程序时所述软件程序适于执行根据权利要求1至25中任一项所述的方法步骤。
28.一种计算机程序产品，所述计算机程序产品包括可执行指令，当在计算机上执行所述可执行指令时，所述可执行指令用于执行根据权利要求1至25中任一项所述的方法。
29.一种用于对音频信号进行编码的系统，所述系统包括: 用于确定所述音频信号的频谱表示的装置；用于使用所确定的频谱表示来对所述音频信号进行编码的装置；用于基于所确定的频谱表示将所述音频信号的部分分类成话音或非话音的装置；以及用于基于所述话音部分确定所述音频信号的响度度量的装置。
30.一种被配置成对音频信号的话音部分进行分类的系统，所述系统包括: 用于对和频带复制数据量相关联的有效负载量进行确定的装置，所述频带复制数据量与所述音频信号的时间间隔相关联；用于针对所述音频信号的连续时间间隔重复所述确定步骤从而确定有效负载量序列的装置；用于对所述有效负载量序列中的周期进行标识的装置；用于根据所标识的周期提取所述音频信号的节奏信息的装置；以及用于基于所述提取的节奏信息，对所述音频信号的、包括话音或非话音的至少一部分进行分类的装置。
31.一种被配置为生成编码比特流的音频编码器，所述编码比特流包括音频信号的元数据，所述编码器包括: 用于将所述音频信号编码到所述比特流中的装置；被配置成执行根据权利要求16至25中任一项所述的方法的、对音频信号的话音部分进行分类的装置；用于确定所述音频信号的响度数据的装置；用于确定与所述音频信号的响度数据相关联的元数据的装置；以及用于将所述元数据插入到所述编码比特流的装置。
【文档编号】G10L19/16GK103582913SQ201280020099
【公开日】2014年2月12日申请日期:2012年4月27日优先权日:2011年4月28日
【发明者】哈拉尔德·蒙特, 阿里希特·比斯瓦斯, 罗尔夫·迈斯纳申请人:杜比国际公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：哈拉尔德·蒙特;阿里希特·比斯瓦斯;罗尔夫·迈斯纳
技术所有人：杜比国际公司
我是此专利的发明人

上一篇：语言模型的跨语种初始化的制作方法
上一篇：用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法