用于改进声频信号的感知的设备和方法_3

文档序号：9932720阅读：来源：国知局

避免噪声的抑制时典型的语音增强伪声不太显著，例如，音乐噪声不太显著。通过使用可促进语音清晰度且减少收听疲劳的本发明来实现更自然的通信方式。
[0070]图3示出根据本发明的实施例的用于改进声频信号的感知的方法的示意框图。
[0071]用于改进声频信号的感知的方法可以包括以下步骤:
[0072]作为所述方法的第一步骤，执行例如，借助于分离单元10将声频信号S分离SI成至少一个语音分量(speech component，SC)和至少一个噪声分量(noise component,NC)，例如，如基于图1所描述。
[0073 ]作为所述方法的第二步骤，当通过变换器单元30输出时，例如，借助于空间再现单元20执行在相对于用户的第一虚拟位置VPl处产生S2至少一个语音分量SC的听觉效果。此夕卜，当通过变换器单元30输出时，例如，借助于空间呈现单元20执行在相对于用户的第二虚拟位置VP2处产生至少一个噪声分量NC。
[0074]图4示出根据本发明的另一实施例的包括用于改进声频信号的感知的设备的装置的示意图。
[0075]图4示出用于改进声频信号S的感知的设备100。设备100包括分离单元10和空间再现单元20以及变换器单元30。
[0076]分离单元10用于将声频信号S分离成至少一个语音分量SC和至少一个噪声分量
NC0
[0077]空间呈现单元20用于在通过变换器单元30输出时在相对于用户的第一虚拟位置VPl处产生至少一个语音分量SC的听觉效果且在通过变换器单元30输出时在相对于用户的第二虚拟位置VP2处产生至少一个噪声分量NC的听觉效果。
[0078]任选地，在本发明的一个实施例中，设备100可以实施成或集成到用于声音产生的任何种类的移动或便携式或平稳装置200中，其中设备100的变换器单元30由至少一对扩音器提供。变换器单元30可以是设备100的一部分(如图4中所示)或装置200的一部分(S卩，集成到设备100或装置200中)或分离装置，例如，分离的扩音器或头戴式耳机。
[0079]设备100或装置200可以构造为所有种类的基于语音的通信终端，其具有例如使用多个扩音器或常规头戴式耳机将声波源置于收听者周围的空间中的构件。具体而言，移动装置、智能电话和平板计算机可以用作通常用于有噪声的环境中且因此受背景噪声影响的设备100或装置200。此外，设备100或装置200可以是电话会议产品，具体而言，以免提模式为特征。
[0080]图5示出根据本发明的另一实施例的用于改进声频信号的感知的设备的示意图。[0081 ] 设备100包括分离单元10和空间呈现单元20，并且可以任选地包括变换器单元30。
[0082]分离单元10可以耦合到空间呈现单元20，所述空间呈现单元耦合到变换器单元30。如图5中所说明的变换器单元30包括安排在头戴式耳机中的至少两个扩音器。
[0083]如基于图1所说明，声频信号S可以包括多种语音和/或噪声信号的混合物或不同源的分量。然而，例如，所有多种语音和/或噪声信号通过单个麦克风或任何其它变换器实体变换，例如，通过如图1所示的移动装置的麦克风变换。
[0084]呈现通过虚线圆表示的一个语音源，例如人类话音以及未进一步定义的一个噪声源并且这些源通过单个麦克风变换。
[0085]在本发明的一个实施例中，分离单元10适用于应用常规的语音增强算法以在时频域中将噪声分量NC与语音分量SC分离，或在频谱域中应用对过滤的估计。可以通过对噪声和语音的行为，例如，平稳性或非平稳性以及统计标准，例如，最小均方差进行假设来作出这些估计。
[0086]时间序列分析是关于通过时间收集的数据的研究。平稳过程是其统计特性并不随时间推移变化或假设不随时间推移变化的过程。
[0087]此外，语音增强算法可以通过从训练数据收集的知识构造，例如，非负矩阵分解或深度神经网络。
[0088]可以在若干秒的间隔期间观察噪声的平稳性。由于语音在此类间隔中是非平稳的，因此可以仅通过对观察到频谱进行平均来估计噪声。或者，话音活动检测可以用于找到其中讲话者沉默而仅呈现噪声的部分。
[0089]在获得噪声估计后，可以通过例如最小统计量的标准或最小化均方差在线重新估计噪声以更佳地拟合观察结果。随后从语音和噪声的混合物中减去最终噪声估计以获得语音分量和噪声分量的分离。
[0090]因此，语音估计和噪声估计总计等于原始信号。
[0091]空间呈现单元20用于在通过变换器单元30输出时在相对于用户的第一虚拟位置VPl处产生至少一个语音分量SC的听觉效果且在通过变换器单元30输出时在相对于用户的第二虚拟位置VP2处产生至少一个噪声分量NC的听觉效果。
[0092]任选地，在本发明的一个实施例中，第一虚拟位置VPl和第二虚拟位置VP2间隔某一距离，因此相对于用户跨越大于20度弧，优选地大于35度弧，尤其优选地大于45度弧的平
角 α。
[0093]设备100的替代实施例可以包括或连接到变换器单元30，所述变换器单元包括相对于用户和参考方向RD安排在不同方位角处的至少两个扩音器，而不是头戴式耳机。
[0094]任选地，第一虚拟位置VPl由相对于参考方向RD的第一方位角范围α?界定和/或第二虚拟位置VP2由相对于参考方向RD的第二方位角范围α2界定。
[0095]换句话说，第一虚拟位置VPl的虚拟空间维度或虚拟空间扩展和/或第二虚拟位置VP2的空间扩展分别对应于第一方位角范围α?和/或第二方位角范围α2。
[0096]任选地，第二方位角范围α2由一个整圆界定，换句话说，第二虚拟位置VP2的虚拟位置是扩散的或非离散的，即，普遍存在的。相反地，第一虚拟位置VPl可以高度局域化，SP，受限于小于5°的平面角。这有利地提供噪声源与语音源之间的空间对比度。
[0097]任选地，空间呈现单元20可以用于获得第二方位角范围α2，方法是再现具有使用去相关实现的扩散特征的至少一个噪声分量NC。
[0098]设备100和所述方法提供所估计语音和噪声的空间分布。空间分布用于将语音源和噪声源置于不同位置处。用户使语音和噪声源定位成来自不同方向，如图5中所说明。
[0099]任选地，在本发明的一个实施例中，使用基于扩音器和/或头戴式耳机的变换器单元30:可以使用包括相对于收听者处于至少两个不同位置中，S卩，处于至少两个不同方位角的扩音器的扩音器设定。
[0100]任选地，在本发明的一个实施例中，提供具有置于-30度和+30度的两个扬声器的立体声设定。围绕扩音器设定的标准5.1允许使源位于整个方位平面中。随后，使用振幅平移，例如，使用向量基础振幅平移(Vector Base Amplitude Panning，VBAP)和/或延迟平移，这有助于将语音和噪声源定位成处于扬声器之间的任意位置处的方向性源。
[0101]为了在人类听觉系统中实现更佳语音/噪声分离的所需效果，源应该至少分离约20度ο
[0102]任选地，在本发明的一个实施例中，进一步处理噪声源分量以便实现扩散源的感知。扩散源在不具有任何方向性信息的情况下由收听者感知;扩散源来自“各处”；收听者不能够定位扩散源。
[0103]这个想法是如先前所描述在空间中的特定位置处再生语音源作为方向性源并且再生噪声源作为不具有任何方向的扩散源。这样模拟其中噪声源与向噪声源提供扩散特征的语音源相比通常更远地定位的自然收听环境。因此，提供人类听觉系统中的更佳源分离性能。
[0104]通过首先对噪声源进行去相关且在围绕收听者的多个扬声器上播放噪声源而获得扩散特征。
[0105]任选地，在本发明的一个实施例中，当使用具有串音消除的头戴式耳机或扩音器时，可以向用户呈现立体声信号。这些具有类似非常自然的三维收听体验的优点，其中声波源可以

完整全部详细技术资料下载

当前第3页1 2 3 4