用于改进声频信号的感知的设备和方法

文档序号：9932720阅读：440来源：国知局

用于改进声频信号的感知的设备和方法
【技术领域】
[0001]本申请案涉及声音产生的领域，且确切地说，涉及一种用于改进声频信号的感知的设备和方法。
【背景技术】
[0002]常见的音频信号由多个个别声源组成。例如，在大部分播放时间音乐录制品包括几种乐器。在语音通信的情况下，除了语音本身之外，声频信号通常包括通过同一麦克风记录的其它干扰声，例如，环境噪声或同一房间中其它人说话声。
[0003]在典型的语音通信情形中，参与者的话音使用一个或多个麦克风俘获且在信道上传输到接收器。麦克风不仅俘获所需的话音，而且还捕获不合需要的背景噪声。因此，所传输信号是语音和噪声分量的混合物。具体而言，在移动通信中，强烈的背景噪声通常会严重影响客户的体验或声音效果。
[0004]三十多年来口语交流中的噪声抑制，也称为“语音增强”已受到大量关注并且已提出多种方法来减小此类混合物中的噪声级。换句话说，此类语音增强算法用于减小背景噪声的目标。如图1中所示，给定将有噪声的语音信号(例如，语音和背景噪声的单信道混合物)，即，信号S例如通过分离单元10分离，以便获得两种信号:语音分量SC，还称为“增强的语音信号”；以及噪声分量Ne，还称为“估计的噪声信号”。增强的语音信号SC应该含有少于有噪声的语音信号S的噪声且提供较高的语音清晰度。在最佳情况下，增强的语音信号SC与初始干净的语音信号类似。典型的语音增强系统的输出是单信道语音信号。
[0005]例如，现有技术解决方案基于在时频域中扣除此类噪声估计量或在频谱域中估计过滤。可以通过对噪声和语音的行为，例如，平稳性或非平稳性以及统计标准，例如，最小均方差进行假设来作出这些估计。此外，例如，如在最新的方法中，这些估计可以通过从训练数据收集的知识构造，所述方法例如，非负矩阵分解(η ο η - n e g a t i V e matrixfactorizat1n，NMF)或深度神经网络。例如，非负矩阵分解基于将混合物的功率谱分解成若干频谱基础的非负组合，每一个与当前源中的一个相关联。在所有这些方法中，通过从信号S中清除噪声来实现语音信号的增强。
[0006]综上所述，这些语音增强方法将语音和噪声的单信道或多信道混合物转换成具有噪声抑制目标的单信道信号。这些系统中的大部分依赖于“背景噪声”的在线估计，所述背景噪声假设为平稳的，即，随时间推移变化缓慢。然而，在现实有噪声的环境的情况下，此假设不一定得到验证。实际上，卡车经过、关门或例如打印机等一些种类的机器的操作是非平稳噪声的实例，这些噪声在每日的语音通信中，具体而言在移动情形中经常出现并且会不利地影响用户体验或声音效果。
[0007]具体来说，在非平稳的情况下，从信号中估计此类噪声分量是易于出错的步骤。由于不完全分离，因此旨在抑制信号中含有的噪声的当前语音增强算法通常无法引起更佳的用户体验或声音效果。

【发明内容】

[0008]本发明的目标是提供一种声音产生的改进技术。
[0009]此目标通过独立权利要求的特征实现。另外的实施形式通过从属权利要求、说明书以及图式清楚可见。
[0010]根据第一方面，提供一种用于改进声频信号的感知的设备，所述设备包括:分离单元，用于将声频信号分离成至少一个语音分量和至少一个噪声分量；以及空间呈现单元，用于在通过变换器单元输出时在相对于用户的第一虚拟位置处产生至少一个语音分量的听觉效果且在通过变换器单元输出时在相对于用户的第二虚拟位置处产生至少一个噪声分量的听觉效果。
[0011]本发明并不旨在提供常规的噪声抑制，例如，噪声信号的纯振幅相关的抑制，而是旨在提供所估计语音和噪声的空间分布。将此种空间信息添加到声频信号允许人类听觉系统采用空间定位线索，以便分离语音和噪声源且改进声频信号的感知质量。
[0012]此外，感知质量由于在避免噪声的抑制时典型的语音增强伪声，例如，音乐噪声不太显著而得到增强。
[0013]通过使用可增强语音清晰度且减少收听者疲劳的本发明的原理来实现更自然的通信方式。
[0014]给定前景语音和背景噪声的混合物，例如，如在具有频域独立分量分析的多信道前端中呈现的混合物，电子电路用于使用语音增强的各种解决方案分离语音和噪声以获得语音和噪声信号分量，并且进一步用于使用空间音频呈现的各种解决方案来将语音和噪声分布在三维空间中的不同位置，所述空间音频呈现使用多种扩音器，S卩，两个或两个以上扩音器或头戴式耳机实现。
[0015]本发明有利地规定人类听觉系统可以采用空间线索分离语音和噪声。此外，在更新自然空间线索时，语音清晰度和语音质量增加并且实现更自然的语音通信。
[0016]本发明有利地恢复无法在常规的单信道通信情形下传输的空间线索。人类听觉系统可以采用这些空间线索，以便分离语音和噪声源。避免如通常通过当前的语音增强方法完成的噪声的抑制可进一步增加语音通信的质量，这是因为引入的伪声极少。
[0017]本发明有利地提供抵抗不完全分离的改进的稳定性以及与将在使用噪声抑制的情况下出现的伪声数相比出现的较少伪声。本发明可以与任何语音增强算法组合。本发明有利地可以用于语音和噪声的任意混合物且不必改变通信信道和/或语音记录。
[0018]本发明有利地提供甚至一个麦克风和/或一个传输信道的有效利用。有利的是，许多不同的呈现系统是可能的，例如，包括两个或两个以上扬声器或立体声头戴式耳机的系统。用于改进声频信号的感知的设备可以包括变换器单元或者变换器单元可以是分离单元。例如，用于改进声频信号的感知的设备可以是智能手机或平板计算机，或任何其它装置，并且变换器单元可以是集成到设备或装置中的扩音器，或变换器单元可以是外部扩音器布置或头戴式耳机。
[0019]在根据第一方面的设备的第一可能实施形式中，第一虚拟位置和第二虚拟位置是间隔开的，相对于用户跨越大于20度弧的平面角，优选地跨越大于35度弧的平面角，尤其优选地跨越大于45度弧的平面角。
[0020]这有利地允许收听者或用户感知噪声和语音信号的空间分离。
[0021]在根据第一方面本身或根据第一方面的第一实施形式的设备的第二可能实施形式中，分离单元用于确定声频信号的时频特征并且基于所确定的时频特征将声频信号分离成至少一个语音分量和至少一个噪声分量。
[0022]在信号处理时，产生时频特征的时频分析包括使用各种时频同时研究在时域和频域两者中的信号的那些技术。
[0023]在根据依据第一方面的设备的第二可能实施形式的设备的第三可能实施形式中，分离单元用于在时间窗期间和/或在频率范围内确定声频信号的时频特征。
[0024]因此，可以确定各种特征时间常数且随后用于有利地将声频信号分离成至少一个语音分量和至少一个噪声分量。
[0025]在根据第一方面的第三实施形式或根据依据第一方面的设备的第二可能实施形式的设备的第四可能实施形式中，分离单元用于基于非负矩阵分解确定时频特征，从而计算至少一个语音分量和至少一个噪声分量的基础表示。
[0026]非负矩阵分解允许通过与显现原始数据矩阵中的列相同的方式显现基础列。
[0027]在根据第一方面的第三实施形式或根据依据第一方面的设备的第二可能实施形式的设备的第五可能实施形式中，分离单元用于借助于时间序列分析相对于声频信号的平稳性分析声频信号并且基于平稳分析将声频信号分离成对应于至少一个非平稳分量的至少一个语音分量以及基于平稳分析将声频信号分离成对应于至少一个平稳分量的至少一个噪声分量。
[0028]通过时间序列分析获得的各种特征平稳特性可以用于有利地从非平稳语音分量中分尚平稳噪声分量。
[0029]在根据第一方面本身或根据第一方面的以上实施形式中的任一个的设备的第六可能实施形式中，变换器单元包括相对于用户安排在不同方位角处的至少两个扩音器。
[0030]这有利地为用户提

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：比约恩·舒勒;费利克斯·威宁格;克里斯蒂安·柯斯特;彼得·格罗舍;
技术所有人：华为技术有限公司;
我是此专利的发明人

上一篇：磁记录介质的制造方法
上一篇：从变换编码/解码过渡到预测编码/解码的制作方法