增强音频信号中的语音内容的可理解性的制作方法

文档序号：9580347阅读：429来源：国知局

增强音频信号中的语音内容的可理解性的制作方法
【技术领域】
[0001] 本发明总体上涉及信号处理，更具体地，涉及增强音频信号中的语音内容的可理解性。
【背景技术】
[0002] 音频信号可以包括语音和非语音分量二者。语音分量包括语音内容，而非语音分量可以包括例如多声道音频信号的环绕声道中的音频内容。而且，当向用户播放音频信号时，在音频信道外部可能同时存在环境噪声信号。为了提高用户体验，期望在存在诸如音频信号中的非语音分量和/或音频信号外部的环境噪声信号之类的干扰声音信号时增强语音分量中包含的语音内容的可理解性。
[0003] 在此使用的术语"语音内容的可理解性"是指对语音内容的能够理解的程度的指示。术语"响度"是指与音频信号的物理强度相对应的感知量。术语"局部响度"是指在存在诸如环境噪声信号的干扰声音信号时音频信号的感知响度。术语"环境噪声"是指音频信号外部的周围环境中的噪声信号。术语"语音分量"是指音频信号中包含语音内容的分量，并且术语"非语音分量"是指音频信号中包含非语音内容的分量。
[0004] 用以增强语音内容的可理解性的某些传统方法基于响度域处理而工作。在这种方法中，可以通过控制语音信号中的语音分量的局部响度来增强语音内容的可理解性。更具体而言，将语音分量的局部响度维持在不考虑环境噪声情况下的参考响度水平。然而，没有机制用于验证得到的语音内容的可理解性对于个体用户而言是否是期望的或者舒适的。
[0005] 基于激励域处理来增强语音内容的可理解性也是已知的。语音内容的可理解性通过基于语音分量和干扰声音信号之间的比率调整音频信号而被增强。这种方法可应用于存在内部干扰语音信号或者存在外部干扰语音信号的场景中。然而，此方法在存在非语音分量和环境噪声信号二者时不起作用。

【发明内容】

[0006] 为了解决上述问题，本发明提出用于增强音频信号中的语音内容的可理解性的方法和系统。
[0007] 在一个方面，本发明的实施例提供一种用于增强音频信号中的语音内容的可理解性的方法，该语音内容被包含在音频信号的语音分量中。该方法包括：获得音频信号的参考响度；以及通过基于参考响度和语音内容的可理解性的程度调整音频信号的局部响度来增强语音内容的可理解性。这方面的实施例还包括相应的计算机程序产品。
[0008] 在另一方面，本发明的实施例提供一种用于增强音频信号中的语音内容的可理解性的系统，该语音内容被包含在音频信号的语音分量中。该系统包括：参考响度获得单元，被配置为获得音频信号的参考响度；以及可理解性增强单元，被配置为通过基于参考响度和语音内容的可理解性的程度调整音频信号的局部响度来增强语音内容的可理解性。
[0009] 在又一方面，本发明的实施例提供一种用于增强音频信号中的语音内容的可理解性的方法，音频信号包含语音分量和非语音分量，语音分量包含语音内容。该方法包括：计算指示语音分量与非语音分量的比率的第一度量；获得指示语音分量与非语言分量加环境噪声信号的参考比率的第二度量；以及通过基于第一度量和第二度量调整语音分量与非语音分量加环境噪声信号的比率来增强语音内容的可理解性。这方面的实施例还包括相应的计算机程序产品。
[0010] 在另一方面，本发明的实施例提供一种用于增强音频信号中的语音内容的可理解性的系统，音频信号包含语音分量和非语音分量，语音分量包含语音内容。该系统包括：第一度量计算单元，被配置为计算指示语音分量与非语音分量的比率的第一度量；第二度量获得单元，被配置为获得指示语音分量与非语言分量加环境噪声信号的参考比率的第二度量；以及可理解性增强单元，被配置为通过基于第一度量和第二度量调整语音分量与非语音分量加环境噪声信号的比率来增强语音内容的可理解性。
[0011] 通过下文描述将会理解，根据本发明的一个方面的实施例，基于音频信号的语音分量中包含的语音内容的可理解性的程度来调整音频信号的局部响度，使得可以对语音内容的可理解性进行增强以达到某个可理解性水平。以此方式，通过局部响度处理所产生的语音内容的可理解性可以被验证，因此可以确保可理解性的程度高。
[0012] 还将理解，根据本发明的另一方面的实施例，在激励域，当存在非语音分量和环境噪声信号二者时，基于语音分量与非语音分量的比率以及语音分量与非语言分量加环境噪声信号的参考比率来调整音频信号。以此方式，提供了激励域中针对存在非语音分量和环境噪声信号二者的场景的解决方案。
[0013] 本发明的实施例所带来的其他益处将通过下文描述而清楚。
【附图说明】
[0014] 通过参考附图阅读下文的详细描述，本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例而非限制性的方式示出了本发明的若干实施例，其中：
[0015] 图1是示出了局部响度域处理中环境噪声信号对用于音频信号的增益的影响的示例图形；
[0016] 图2示出了根据本发明的某些示例实施例的用于增强音频信号中的语音内容的可理解性的方法的流程图；
[0017] 图3示出了根据本发明的某些其他示例实施例的用于增强音频信号中的语音内容的可理解性的方法的流程图；
[0018] 图4示出了根据本发明的某些示例实施例的用于响应于可理解性标准未被满足而确定目标响度的方法的流程图；
[0019] 图5是示出了根据本发明的一个示例实施例的语音分量与非语音分量的比率和语音分量与非语音分量加环境噪声信号的比率之间的示例关系的图形；
[0020] 图6示出了根据本发明的某些示例实施例的用于增强音频信号中的语音内容的可理解性的系统的框图；
[0021] 图7示出了根据本发明的某些示例实施例的用于增强音频信号中的语音内容的可理解性的方法的流程图；
[0022] 图8是示出了根据本发明的一个示例实施例的指示语音分量与非语音分量加环境噪声信号的参考比率的频率相关度量的示例的图形；
[0023] 图9示出了根据本发明的某些示例实施例的用于增强音频信号中的语音内容的可理解性的系统的框图；以及
[0024] 图10示出了适于实现本发明的示例实施例的计算机系统的框图。
[0025] 在各个附图中，相同或对应的标号表7K相同或对应的部分。
【具体实施方式】
[0026] 下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解，描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。
[0027] 如上所述，用于在响度域增强语音内容的可理解性的示例方法是将音频信号的局部响度维持在没有环境噪声信号时的参考响度水平。相应地，可以导出用于修改音频信号的适当增益，以确保在存在环境噪声信号时音频信号的局部响度不变。例如，首先导出在没有噪声信号时的音频信号的响度。然后导出用于音频信号的适当增益，以用于将局部响度调整到目标响度。
[0028] 通常而言，音频信号的局部响度随着其他干扰声音信号的响度的提高而降低。因此，环境噪声信号的电平越高，要施加到音频信号的增益越大。
[0029] 图1是示出了局部响度域处理中环境噪声信号对用于音频信号的增益的影响的示例图形，其中横轴代表用于音频信号的激励电平。如图1所示，左侧曲线代表环境噪声信号为10dB情况下的局部响度，而右侧曲线代表环境噪声信号为40dB情况下的局部响度。为了维持同一局部响度（例如如纵轴中示出的dB形式的0. 1宋），当噪声信号电平从10dB增加到40dB时，如图1所示，需要大于20dB的附加增益。因此，通过施加适当增益，可以在不同噪声信号电平的情况下保持音频信号的局部响度。如上所述，在传统方法中，没有机制用于验证得到的语音内容的可理解性是否是期望的。
[0030] 在本发明的一个方面，为了解决上述以及其他潜在的问题，本发明的某些实施例提供了一种用于增强语音内容的可理解性的方法和系统以使得增强后的可理解性达到一定可理解性程度，例如满足一定可理解性标准。在将语音内容的局部响度调整到参考响度，例如没有环境噪声信号的响度之后，确定得到的可理解性是否达到一定可理解性程度。如果得到的可理解性未达到一定可理解性程度，则将基于所确定的结果进一步调整语音内容的局部响度。以此方式，可以对通过局部响度处理产生的语音内容的局部响度进行验证，因此可以确保可理解性程度高。
[0031] 首先参照图2,其示出了根据本发明的某些示例实施例的用于增强音频信号中的语音内容的可理解性的方法200的流程图。
[0032] 在本发明的这些实施例中，音频信号可以至少包括包含语音内容的语音分量。可选地，音频信号可以包含非语音分量。当语音分量与非语音分量在音频信号中混音时，可以通过例如盲源分离技术来将语音与非语音分量分离。备选地，当采用基于对象的音频格式时，可以直接将语音和非语音分量分离，在这种音频格式中，提前已知多声道音频信号的中心声道包含语音还是非语音对象音轨。
[0033] 在本发明的该实施例中，方法200可以应用于以下三种场景：1)存在语音分量和环境噪声信号；2)存在语音分量和非语音分量；3)存在语音分量、非语音分量和环境噪声信号。现在将参照图2详细描述方法200。
[0034] 如图2所示，在步骤S2

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马桂林;郑羲光;P·C·布朗;
技术所有人：杜比实验室特许公司;
我是此专利的发明人

上一篇：语音识别结果评价方法及系统的制作方法
上一篇：一种用于低空目标声探测系统的风噪抑制方法和装置的制造方法