适用于耳机的信号均衡方法、处理器及耳机与流程

文档序号:23665366发布日期:2021-01-15 14:04阅读:172来源:国知局
适用于耳机的信号均衡方法、处理器及耳机与流程

本发明涉及信号处理技术领域,尤其涉及一种适用于耳机的信号均衡方法、处理器及耳机。



背景技术:

随着微型传感技术的成熟和无线传输技术的进步,可穿戴设备市场大幅增长,而作为可穿戴设备代表的真无线立体声耳机(tws,turewirelessstereo)和双耳头戴式耳机更是具有巨大的市场潜力。随着用户对降噪需求的提升,各种耳机都开始配备有源降噪功能。为了实现更好的有源降噪,一般在耳内同时布放一个反馈传声器,用于实现自适应的有源降噪;另外,一些耳机为了实现更好的通话降噪,会在耳内布放拾音装置,比如单轴加速度传感器或者三轴加速度传感器以及骨导传声器。

耳内拾音装置拾取佩戴者语音以及外部环境噪声的声学通道是不同于耳外传声器的,此外加速度传感器和骨导传声器的频响通常也与常用的传声器(如mems电容传声器或者压电式传声器)差异较大。因此,耳内拾音装置拾取的语音信号,特别是拾取佩戴者的语音信号时,往往存在声音低沉发闷的问题,语音质量和可懂度较低,当耳内拾音装置拾取的语音信号用于语音识别时,语音识别率较低,难以满足应用场景的需求。



技术实现要素:

本发明提供一种适用于耳机的信号均衡方法、处理器及耳机,采用均衡滤波器对耳内拾音装置拾取的语音信号进行信号均衡,以解决现有技术中耳机中耳内拾音装置拾取的语音信号的质量差的问题和语音识别率低的问题。

第一方面,本发明提供一种适用于耳机的信号均衡方法,所述耳机包括:耳内拾音装置、耳外拾音装置和均衡滤波器;

所述方法应用于耳机中耳内拾音装置,具体包括:

根据耳内拾音装置和耳外拾音装置在同一历史时段拾取的语音信号调整均衡滤波器,获得第一均衡滤波器;

将耳内拾音装置拾取的语音信号转换到频域中,获得第一频域信号;

利用第一均衡滤波器对第一频域信号进行信号均衡,获得第二频域信号;

将第二频域信号转换到时域中并输出。

由上,通过对耳内拾音装置的语音信号进行信号均衡,解决语音信号低沉发闷、质量低的问题,提升了用户体验。

在一种可能的实现方式中,所述根据耳内拾音装置和耳外拾音装置在同一历史时段拾取的语音信号调整均衡滤波器,获得第一均衡滤波器,包括:

分别将所述耳内拾音装置和所述耳外拾音装置在同一历史时段拾取的语音信号转换到频域中,获得第一频域样本信号和第二频域样本信号;

分别获得各历史时段对应的第一频域样本信号和第二频域样本信号之间的传递函数;

根据所述各历史时段对应的第一频域样本信号和第二频域样本信号之间的传递函数获得所述第一均衡滤波器。

由上,耳外拾音装置由于靠近用户发音处,噪声小,拾取的语音信号质量更高。因此将耳外拾音装置拾取的语音信号作为耳内拾音装置的语音信号均衡的目标信号,使均衡后的耳内拾音装置的语音信号更加贴近用户发出的原音。

进一步地,所述分别获得各历史时段对应的第一频域样本信号和第二频域样本信号之间的传递函数,包括:

对各历史时段对应的第一频域样本信号或第二频域样本信号进行噪点检测;

根据各历史时段对应的噪点检测结果滤除各历史时段对应的第一频域样本信号和第二频域样本信号的噪声;

根据各历史时段对应的滤除噪声后的第一频域样本信号和第二频域样本信号之间的比值,确定所述各历史时段对应的第一频域样本信号和第二频域样本信号之间的传递函数。

进一步地,所述根据所述各历史时段对应的第一频域样本信号和第二频域样本信号之间的传递函数获得所述第一均衡滤波器,包括:

对各历史时段对应的第一频域样本信号和第二频域样本信号之间的传递函数进行均值运算,获得第一初始滤波器;

利用最小二乘法对所述第一初始滤波器进行优化,获得第二初始滤波器;

将所述第二初始滤波器中预设频带区间对应的幅度调整为预设值,并将经幅度调整后的第二初始滤波器作为所述第一均衡滤波器。

在一种可能的实现方式中,所述利用所述第一均衡滤波器对所述第一频域信号进行信号均衡,获得第二频域信号之后,包括:

获取所述第二频域信号对应的第一长时幅度谱;

将耳外拾音装置在同一时段拾取的第二语音信号转换到频域中,获得第三频域信号,并获得所述第三频域信号对应的第二长时幅度谱;

根据所述第一长时幅度谱和所述第二长时幅度谱获得第二均衡滤波器;

利用所述第二均衡滤波器对所述第二频域信号进行信号均衡,获得第四频域信号;

将所述第四频域信号转换到时域中并输出。

由上,利用根据长时幅度谱获得的均衡滤波器对信号进一步均衡,可以解决由于用户发生差异导致的第一次均衡效果差的问题。

进一步地,所述根据所述第一长时幅度谱和所述第二长时幅度谱获得第二均衡滤波器,包括:

分别统计所述第一长时幅度谱和第二长时幅度谱在预设的高频带限值和低频带限值之间的幅度之和,并计算两个幅度之和的比值;

利用两个幅度之和的比值对所述第一长时幅度谱进行修正,获得第三长时幅度谱;

根据所述第二长时幅度谱与第三长时幅度谱之间的的传递函数、预设的最大幅度和最小幅度之间的大小关系,确定所述第二均衡滤波器。

在一种可能的实现方式中,所述方法还包括:

将所述第二频域信号代入谱减法的增益函数获得第一增益因子;其中,所述谱减法的增益函数中的低频带信号的过减因子小于中高频带信号的过减因子;

根据所述第一均衡滤波器选择第一增益因子约束值;

将所述第一增益因子约束值和所述第一增益因子中的最小值与所述第二频域信号做乘运算后转换到时域中输出。

进一步地,所述方法还包括:

将所述第四频域信号代入谱减法的增益函数获得第二增益因子;其中,所述谱减法的增益函数中的低频带信号的过减因子小于中高频带信号的过减因子;

根据所述第二均衡滤波器选择第二增益因子约束值;

将所述第二增益因子约束值和所述第二增益因子中的最小值与所述第四频域信号做相乘运算后转换到时域中输出。

在一种可能的实现方式中,所述方法还包括:

将所述第二频域信号代入预先训练的深度语音增强模型,获得第三增益因子;其中,所述深度语音增强模型根据带噪声的语音样本信号及其增益因子训练神经网络模型获得;

根据第一均衡滤波器与预设的最大幅度和最小幅度差值的比值确定第一初始指数,对所述第二频域信号和第三增益因子做相乘运算;

获得乘运算前后第二频域信号对应的能量比值,根据所述第二频域信号对应的能量比值和第一初始指数确定第一指数;

根据所述第一指数和第三增益因子获得第四增益因子,将所述第二频域信号和第四增益因子做相乘运算后转换到时域中输出。

在一种可能的实现方式中,所述方法还包括:

将所述第四频域信号代入预先训练的深度语音增强模型,获得第五增益因子;其中,所述深度语音增强模型根据带噪声的语音样本信号及其增益因子训练神经网络模型获得;

根据第二均衡滤波器与预设的最大幅度和最小幅度差值的比值确定第二初始指数,对所述第四频域信号和第五增益因子做相乘运算;

获得乘运算前后第四频域信号对应的能量比值,根据所述第四频域信号对应的能量比值和第二初始指数确定第二指数;

根据所述第二指数和第五增益因子获得第六增益因子,将所述第四频域信号和第六增益因子做相乘运算后转换到时域中输出。

由上,利用谱减法或深度语音增强模型对经信号均衡后的频域信号进行降噪,可以解决由于均衡导致信号局部噪声被放大的问题。降噪方法中,通过对频域信号中的低频信号和中高频信号设置不同的过减因子和增益因子,有针对性地处理不同频带的信号,进一步提升语音质量和提高语音信号的自然度。

第二方面,基于同一发明构思,本发明还提供一种处理器,所述处理器,包括:

滤波器单元,用于根据耳内拾音装置和耳外拾音装置在同一历史时段拾取的语音信号调整均衡滤波器,获得第一均衡滤波器;

处理单元,用于将耳内拾音装置拾取的语音信号转换到频域中,获得第一频域信号;

均衡单元,用于利用第一均衡滤波器对第一频域信号进行信号均衡,获得第二频域信号;以及将第二频域信号转换到时域中输出。

在一种可能的实现方式中,所述滤波器单元,包括:

第一处理模块,用于分别将所述耳内拾音装置和所述耳外拾音装置在同一历史时段拾取的语音信号转换到频域中,获得第一频域样本信号和第二频域样本信号;

第二处理模块,用于分别获得各历史时段对应的第一频域样本信号和第二频域样本信号之间的传递函数;

第三处理模块,用于根据所述各历史时段对应的第一频域样本信号和第二频域样本信号之间的传递函数获得所述第一均衡滤波器。

进一步地,所述第二处理模块,具体用于:

对各历史时段对应的第一频域样本信号或第二频域样本信号进行噪点检测;

根据各历史时段对应的噪点检测结果滤除各历史时段对应的第一频域样本信号和第二频域样本信号的噪声;

根据各历史时段对应的滤除噪声后的第一频域样本信号和第二频域样本信号之间的比值,确定所述各历史时段对应的第一频域样本信号和第二频域样本信号之间的传递函数。

进一步地,所述第三处理模块,用于:

对各历史时段对应的第一频域样本信号和第二频域样本信号之间的传递函数进行均值运算,获得第一初始滤波器;

利用最小二乘法对所述第一初始滤波器进行优化,获得第二初始滤波器;

将所述第二初始滤波器中预设频带区间对应的幅度调整为预设值,并将经幅度调整后的第二初始滤波器作为所述第一均衡滤波器。

在一种可能的实现方式中,所述均衡单元,还用于:

获取所述第二频域信号对应的第一长时幅度谱;以及

将耳外拾音装置在同一时段拾取的第二语音信号转换到频域中,获得第三频域信号,并获得所述第三频域信号对应的第二长时幅度谱;

根据所述第一长时幅度谱和所述第二长时幅度谱获得第二均衡滤波器;

利用所述第二均衡滤波器对所述第二频域信号进行信号均衡,获得第四频域信号;

将所述第四频域信号转换到时域中并输出。

进一步地,所述根据所述第一长时幅度谱和所述第二长时幅度谱获得第二均衡滤波器,包括:

分别统计所述第一长时幅度谱和第二长时幅度谱在预设的高频带限值和低频带限值之间的幅度之和,并计算两个幅度之和的比值;

利用两个幅度之和的比值对所述第一长时幅度谱进行修正,获得第三长时幅度谱;

根据所述第二长时幅度谱与第三长时幅度谱之间的的传递函数、预设的最大幅度和最小幅度之间的大小关系,确定所述第二均衡滤波器。

在一种可能的实现方式中,所述处理器还包括降噪单元,具体用于:

将所述第二频域信号代入谱减法的增益函数获得第一增益因子;其中,所述谱减法的增益函数中的低频带信号的过减因子小于中高频带信号的过减因子;

根据所述第一均衡滤波器选择第一增益因子约束值;

将所述第一增益因子约束值和所述第一增益因子中的最小值与所述第二频域信号做相乘运算后转换到时域中输出。

进一步地,降噪单元,还用于:

将所述第四频域信号代入谱减法的增益函数获得第二增益因子;其中,所述谱减法的增益函数中的低频带信号的过减因子小于中高频带信号的过减因子;

根据所述第二均衡滤波器选择第二增益因子约束值;

将所述第二增益因子约束值和所述第二增益因子中的最小值与所述第四频域信号做相乘运算后转换到时域中输出。

在一种可能的实现方式中,所述处理器还包括降噪单元,具体用于:

将所述第二频域信号代入预先训练的深度语音增强模型,获得第三增益因子;其中,所述深度语音增强模型根据带噪声的语音样本信号及其增益因子训练深度神经网络模型获得;

根据第一均衡滤波器与预设的最大幅度和最小幅度差值的比值确定第一初始指数;

对所述第二频域信号和第三增益因子做相乘运算,获得相乘运算前后第二频域信号对应的能量比值;

根据所述第二频域信号对应的能量比值和第一初始指数的大小关系确定第一指数;

根据所述第一指数和第三增益因子获得第四增益因子,将所述第二频域信号和第四增益因子做相乘运算后转换到时域中输出。

进一步地,降噪单元,还用于:

将所述第四频域信号代入预先训练的深度语音增强模型,获得第五增益因子;其中,所述深度语音增强模型根据带噪声的语音样本信号及其增益因子训练神经网络模型获得;

根据第二均衡滤波器与预设的最大幅度和最小幅度差值的比值确定第二初始指数,对所述第四频域信号和第五增益因子做相乘运算;

获得乘运算前后第四频域信号对应的能量比值,根据所述第四频域信号对应的能量比值和第二初始指数确定第二指数;

根据所述第二指数和第五增益因子获得第六增益因子,将所述第四频域信号和第六增益因子做相乘运算后转换到时域中输出。

第三方面,基于同一发明构思,本发明还提供一种耳机,所述耳机,包括:耳内拾音装置、耳外拾音装置和均衡滤波器以及如前所述的处理器。

附图说明

图1是本发明实施例提供的带耳内拾音装置的耳机结构示意图;

图2是本发明实施例提供的适用于耳机的信号均衡方法流程图;

图3是本发明实施例提供的获取第一均衡滤波器的方法流程图;

图4是本发明实施例提供的第一初始滤波器和第二初始滤波器的幅频响应曲线;

图5是本发明实施例提供的耳内拾音装置拾取的语音信号的语谱图;

图6是本发明实施例提供的各历史时段的频率样本信号之间的传递函数;

图7是本发明实施例提供的获取第二均衡滤波器的方法流程图;

图8是本发明实施例提供的耳内拾音装置拾取的语音信号经过信号均衡后语谱图;

图9是本发明实施例提供的处理器的功能结构示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本发明实施例中的技术方案进行描述。

在本发明实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本发明实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,单独存在b,同时存在a和b这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。

图1是带耳内拾音装置的耳机结构示意图。如图1所示,该配对的耳机包括:一只两麦通话降噪耳机和一只三麦通话降噪耳机。两麦通话降噪耳机包括布放于耳内的拾音装置m3和耳外的拾音装置m1,三麦通话降噪耳机包括:布放于耳内的拾音装置m3和布放于耳外的拾音装置m1、m2。

耳内拾音装置m3位于耳机在佩戴时与人耳接触的一侧,用于接收人耳内部的第一语音信号,可以是单轴加速度传感器或者三轴加速度传感器以及骨导传声器中的一种。耳外拾音装置m1和m2设置于耳机在佩戴时远离人耳的一侧,用于接收人耳外部的第二语音信号,可以是常见的驻极体传声器、mems电容式传声器或者压电式传声器。

可以理解的是,本发明实施例示意的带耳内拾音装置的耳机的结构并不构成对本发明耳机的具体限定。在本发明另一些实施例中,耳机可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以通过硬件,或软件和硬件的组合实现。

当佩戴者佩戴如图1所示的耳机,并通过耳机进行语音通话时,耳机接收的信号包括目标语音和噪声,其中,目标语音为佩戴者发出的语音,噪声包括混响声、稳态的环境噪声以及其他方向的非稳态噪声,由此,耳内拾音装置接收到的语音信号xin(n)包括其接收到的目标语音sin(n)和噪声din(n),同样地,耳外拾音装置接收到的语音信号xout(n)包括其接收到的目标语音sout(n)和噪声dout(n),如公式(1)所示:

公式(1)中,n为接收语音的时刻,xin(n)和xout(n)均为时域下的语音信号。

sin(n)和sout(n)还满足如下关系:sout(n)=sin(n)*h(n),h(n)为sin(n)和sout(n)之间的传递函数,sin(n)*h(n)表示sin(n)和h(n)的卷积运算。为了描述方便,对时域信号做傅里叶变换,得到如公式(2)的频域表达式:

公式(2)中,xin(k,l)、xout(k,l)、sin(k,l)、sout(k,l)、din(k,l)、dout(k,l)和h(k)分别为xin(n)、xout(n)、sin(n)、sout(n)、din(n)、dout(n)和h(n)经傅里叶变换得到的频域形式,k为频率索引,l为帧索引,此信号系统假定为线性时不变系统,h(n)的频域表达式和帧索引l无关,而仅和频率索引k相关。

基于上述分析,为了提升耳内拾音装置m3拾取的语音信号的质量和对佩戴者语音的识别准确度。图2是本发明实施例提供的适用于耳机的信号均衡方法流程图。通过如图2的方法对如图1所示耳机的耳内拾音装置m3拾取的语音信号进行信号均衡,具体包括:

步骤s1.根据图1中耳内拾音装置m3和耳外拾音装置m1在同一历史时段拾取的语音信号调整均衡滤波器,获得第一均衡滤波器;其中,当耳机具有多个耳外拾音装置时,将则应采集耳机中设置于耳外的主传声器的语音信号作为样本;

步骤s2.将耳内拾音装置m3拾取的语音信号转换到频域中,获得第一频域信号;

步骤s3.利用第一均衡滤波器对第一频域信号进行信号均衡,获得第二频域信号;

步骤s4.将第二频域信号转换到时域中并输出。

本发明的实施例中,通过历史时段的语音信号调整均衡滤波器,如图3所示,具体包括如下步骤:

步骤s101.分别将图1所示耳机的耳内拾音装置m3和耳内拾音装置m3对应的耳外拾音装置m1在同一历史时段拾取的语音信号转换到频域中,获得耳内拾音装置m3对应的第一频域样本信号和耳内拾音装置m3对应的耳外拾音装置m1对应的第二频域样本信号;

步骤s102.分别获得各历史时段对应的第一频域样本信号和第二频域样本信号之间的传递函数;

步骤s103.根据各历史时段对应的第一频域样本信号和第二频域样本信号之间的传递函数获得第一均衡滤波器。

步骤s101可以在用户允许的情况下,提取存储耳内拾音装置和耳外拾音装置在历史时段中拾取的语音信号,并按照一定规则重新选取语音信号。按照步骤s101的方法获得频域样本信号,并执行步骤s102和s103更新第一均衡滤波器。这样,当耳机使用者发生变化时,也能在短时间内响应,精准适配不同用户,提升新用户的体验。

本发明实施例中,将实验室采集的不同测试者的语音作为上述历史时段的语音信号。由于耳机的耳内拾音装置和耳外拾音装置拾取的语音信号对应频域信号之间的传递函数会因耳机的佩戴者不同而存在差异,因此,上述步骤s101中历史时段对应的两个语音信号在采集时,测试人数不宜过少。在本发明的实施例中,样本数和测试人数定为10,且男女各5人,即每个人录制一段语音信号,最终得到10个历史时段的样本信号。

本领域技术人员公知的,当噪声din(n)和dout(n)相关时,即使是最优维纳滤波器也无法减少噪声对hp(n)估计的影响,因此,在耳内拾音装置m3拾取语音信号xin(n)和耳外拾音装置m3拾取语音信号xout(n)时,应尽可能避免环境噪声的干扰。本发明的实施例中,上述图1所示耳机的耳内拾音装置m3和耳内拾音装置m3对应的耳外拾音装置m1在同一历史时段拾取的语音信号时,应在相对安静的办公室环境或者专业的声学实验室中进行信号数据采集,具体过程如下:

1)第p个佩戴者佩戴带图1所示的耳机;

2)操作人启动录音程序,采样率设置为16khz,同步录制至少一个通道的耳外拾音装置信号和一个耳内拾音装置信号;

3)第p个佩戴者以正常话音念一段文字,有效语音段时长不少于一分钟;

4)操作人截取第p个佩戴者有效语音段的耳内拾音装置和耳外拾音装置录制的语音信号;

5)重复步骤1)~4),直至所有佩戴者佩戴图1所示耳机的耳内拾音装置和耳外拾音装置语音信号均被采集。

需要注意的是,当耳机的拾音装置包含多个拾音通道时,获取该装置的语音信号,需同时截取多个通道的有效的语音信号,且要保证所有通道的信号数据长度一致且对齐。因此,上述步骤4)中,获取耳内拾音装置m3拾取的语音信号时,需在m3提供的所有通道中,同时截取有效的语音信号;同理,获取耳外拾音装置拾取的语音信号时,需在m1或m2提供的所有通道中,同时截取有效的语音信号。然后利用第一均衡滤波器对多个通道的语音信号进行信号均衡。

为了避免信号采集中出现的环境噪声影响采集的耳内拾音装置和耳外拾音装置拾取的语音样本信号,可以对采集的语音样本信号进行降噪处理。本发明的实施例中,将利用m3和m1采集的历史时段的语音样本信号转换为频域样本信号后,利用语音端点检测方法对其进行噪点检测,识别频域样本信号中每个时频点是噪声信号还是语音信号。对于同一佩戴者,两个频域样本信号的语音端点检测结果应是一致的,所以只需对其中一个拾音装置采集的语音信号进行检测。当检测结果v(k,l)等于1时,表明当前时频点有语音信号,当v(k,l)等于0时,表明当前时频点为噪声信号。

由此,利用噪声检测结果滤除频域样本信号中噪声,然后计算两个频域样本信号的比值,进而获得两个信号之间的传递函数,具体过程如下:

按下式获得第p个历史时段对应的第一频域样本信号和第二频域样本信号之间的传递函数

公式(3)中,k为频率索引,k∈[0,k-1],k为频率索引总数,l为帧索引,l∈[0,l-1],l为总帧长,γ为常数,p∈[1,p],p为历史时段总数,|xin,p(k,l)|为第p个历史时段对应的第一频域样本信号,|xout,p(k,l)|为第p个历史时段对应的第二样本频域信号。

对p个传递函数进行均值运算,就可以获得第一初始滤波器此时得到的第一初始滤波器的频带存在较大的变化,而实际通用的均衡滤波器是一个低阶系统,因此需对得到的第一初始滤波器进行进一步优化。在本发明的实施例中,采用最小二乘法对第一初始滤波器进行优化处理,获得第二初始滤波器。图4是第一初始滤波器和第二初始滤波器幅频响应曲线。如图4所示,第二初始滤波器的幅频响应曲线相比第一均衡滤波器更加平滑。

图5是本实施例提供的耳内拾音装置拾取的语音信号的语谱图。可以看出,在3khz或3.5khz以上语音信号的信噪比都很低,几乎不含有语音信号。因而需基于该频率预设频带区间和预设幅度值(0或1),对第二初始滤波器中介于预设频带区间的幅度值进行调整,得到最终的第一均衡滤波器,具体过程如下式:

公式(4)中,|h(k)|为第一均衡滤波器,fu为频率阈值,fs为采样频率,表示对fuk/fs取整,其中,对于k/2<k≤k-1的表达形式,可根据傅里叶变换后频谱的对称特性得到;这里的fu取值可为3khz或3.5khz。

上述中,γ取1时,示幅度谱;γ取2时,表示功率谱;γ取0.5时,表示幅度谱的开方。本发明的实施例中采用幅度谱进行均衡滤波器的设计,因此,将γ取1。

本发明的实施例中,上述步骤s2中,采用预先获得的第一均衡滤波器对第一频域信号进行信号均衡,可以有效提高第一语音信号的质量。上述步骤s2中的频域转换是采用傅里叶变换实现的,本发明实施例的后续方案中,在频域、时域转换时,均分别采用傅里叶变换和傅里叶反变换进行。

执行上述步骤s1的方法之后,可以得到各历史时段对应的两个频域样本信号之间的传递函数,图6示出了4个时段对应的第一频域样本信号和第二频域样本信号之间的传递函数。如图6所示,第4个时段对应的传递函数在频带750~1250hz之间(对应的频率索引为)存在大于其他时段传递函数同频率对应幅度的幅度值。如果在实际应用中,采用第一均衡滤波器对第四个时段中耳内拾音装置拾取的语音信号进行均衡处理时,会出现对该频带的均衡不充分的问题,导致均衡处理后的频域信号的幅度中仍会存在较大的峰值,最后导致均衡后的语音质量提升不高。

因此,为进一步提升语音的质量,当经过第一均衡滤波器均衡获得的第二频域信号中仍存在大于预设幅度值的幅度,则可以根据该信号的长时幅度谱对经第一均衡滤波器信号均衡后的信号进行进一步均衡。在本发明的实施例中,该过程具体为:

步骤t1.获取经过第一均衡滤波器均衡后的第二频域信号对应的第一长时幅度谱|tc(k)|,以及获取耳外拾音装置拾取的第二语音信号经频域转换后的第三频域信号对应的第二长时幅度谱|t(k)|;

步骤t2.基于所述|tc(k)|和|t(k)|之间的传递函数获得第二均衡滤波器;

步骤t3.利用第二均衡滤波器对第二频域信号进行进一步信号均衡,获得第四频域信号;

步骤t4.将第四频域信号转换到时域中,就得到了相比于第二频域信号更纯净的语音信号。

上述步骤t1中长时幅度谱的获取方法相同,以|tc(k)|为例,具体方法如下式:

图7是本发明实施例中获取第二均衡滤波器的方法流程图,上述步骤t2获得第二均衡滤波器的具体过程,如图7所示,包括如下步骤:

t201.分别统计|tc(k)|和|t(k)|在预设的高频带限值klow和低频带限值kup之间的幅度之和,并计算其比值ρ,具体过程如下式:

公式(6)中,klow=0hz,kup=k/4。

t202.通过将ρ与|tc(k)|相乘,对第一长时幅度谱|tc(k)|进行修正,可以得到第三长时幅度谱ρtc(k)|,然后计算|t(k)|与ρtc(k)|的比值;

t203.根据第二长时幅度谱与第三长时幅度谱的比值预设的最大幅度hmax和最小幅度hmin的大小关系确定第二均衡滤波器,具体如下式:

公式(7)中,hmax为均衡滤波器的最大约束值,hmin为均衡滤波器的最小约束值。

图8是本发明实施例提供的耳内拾音装置拾取的语音信号经过信号均衡后语谱图。图8与图5相比,图1的耳内拾音装置m3拾取的语音信号经均衡滤波器均衡后,不同频带的噪声差异增大,并且中高频带的噪声被显著放大,降低了用户的听感。本发明的实施例中,还对经均衡后的频域信号进行降噪处理,以进一步提升语音质量和提高语音信号的自然度。

本发明实施例中,一种方法是采用谱减法进行降噪处理,具体过程如下:

以第二频域信号|xin(k,l)h(k)|为例,将第二频域信号|xin(k,l)h(k)|代入谱减法的增益函数获得第一增益因子,其中,为了平衡中高频、低频噪声的差异,谱减法的增益函数中低频带信号的过减因子小于中高频带信号的过减因子;

根据获得的第一增益因子,按下式对第二频域信号进行处理:

公式(8)中,为处理后的信号,f(|xin(k,l)h(k)|)为谱减法的增益函数,n(k)为过减因子,gmin(k)为增益因子约束值,为了平衡各个频带的残留噪声,gmin(k)的设计准则为:当|h(k)|值较小,gmin(k)较大,如取值为0.1;当|h(k)|值较大,gmin(k)取值应较小,如取值为0.01。

采用谱减法对第四频域信号进行降噪处理时,低频和中高频对应的过减因子的大小关系和第二频域信号的一致,具体取值可以根据实际情况或实验室统计分析数据后确定;第二增益因子约束值同样根据第二均衡滤波器来确定,具体方法如上,此处不再叙述。

另一种方法是采用深度学习语音增强方法进行降噪,具体过程如下:

将第二频域信号|xin(k,l)h(k)|代入预先训练的深度语音增强模型,获得第三增益因子;其中,深度语音增强模型的构建过程为:同时采集带噪声的语音样本信号及其对应的纯净的语音信号,计算纯净的语音信号相较于带噪声的语音样本信号的增益因子;并利用带噪声的语音样本信号及其对应的增益因子训练神经网络模型。

为了平衡各个频带的残留噪声,同时为避免在语音段有过多的语音失真,根据第一均衡滤波器|h(k)|与预设的最大幅度hmax和最小幅度hmin差值的比值确定第一初始指数p(k),如下式:

公式(9)中,β为常数。

根据第二频域信号和第三增益因子处理前后的整帧能量比β(l),按下式确定第一指数p(k,l):

p(k,l)=min{p(k),β(l)}(10)

公式(10)中,β(l)为第l帧的能量比,g′dl(k,l)为第三增益因子。

根据第一指数对深度语音增强模型输出的第三增益因子进行指数处理,具体如下式:

gdl(k,l)=[g(|xin(k,l)h(k)|,θ)]p(k,l)(11)

公式(11)中,gdl(k,l)为第四增益因子,g(xin(k,l)|h(k)|,θ)是以均衡后的耳内拾音装置频谱|xin(k,l)h(k)|作为输入,以深度语音增强模型参数θ对应的增益因子非线性映射函数。

同样地,采用深度语音增强模型对第四频域信号进行降噪处理时,深度语音增强模型的构建如前所述。根据第二均衡滤波器获得第二初始指数、能量比值、第二指数和第六增益因子的方法参照上述公式(9)~(11),此处不再具体叙述。

耳内拾音装置m3拾取的语音信号经过本发明实施例提供的信号均衡方法后,将信号转换到时域中,就可以得到纯净的语音信号。

此外,基于同一发明构思,本发明实施例中还提供一种处理器,处理器具体用于执行本发明实施例中提供的前述信号均衡的方法,如图9所示,包括:滤波器单元、处理单元、均衡单元以及降噪单元,各单元具体功能详见发明内容中的叙述。

本发明实施例还提供了一种耳机,耳机包括:耳内拾音装置、耳外拾音装置和均衡滤波器以及如前提供的处理器。

本发明的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(randomaccessmemory,ram)、闪存、只读存储器(read-onlymemory,rom)、可编程只读存储器(programmablerom,prom)、可擦除可编程只读存储器(erasableprom,eprom)、电可擦除可编程只读存储器(electricallyeprom,eeprom)、寄存器、硬盘、移动硬盘、cd-rom或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solidstatedisk,ssd))等。

可以理解的是,在本发明的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本发明的实施例的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1