技术简介:
本专利针对声学回声消除中语速改变后需频繁进行时频转换导致的效率问题,提出通过加权合成语速改变前频域信号与处理后时域信号的混合比例,直接生成所需频域信号,避免重复转换,提升处理效率。
关键词:声学回声消除,语速改变处理,频域信号合成
信号处理设备和信号处理方法
【专利摘要】本发明涉及信号处理设备和信号处理方法。一种将接收语音信号的频域信号的帧馈送给声学回声消除器的信号处理设备包括:第一接收部,其接收进行语速改变处理之前的频域中的接收语音信号的帧;第二接收部,其接收以帧为单位进行了所述语速改变处理后的时域中的信号的帧;以及频域帧合成部,其基于所述信号处理设备当前正在处理的帧处的进行了所述语速改变处理后的时域信号以及与进行了所述语速改变处理后的时域信号对应的频域中的所述接收语音信号的帧,合成所述接收语音信号的频域信号帧。
【专利说明】信号处理设备和信号处理方法
【技术领域】
[0001]本文的公开总体涉及一种信号处理设备和信号处理方法。
【背景技术】
[0002]用于电话呼叫的全双工收发器(例如,电话)包括麦克风和扬声器。在这种情况下,如果麦克风拾取从扬声器输出的声音并且经由网络从扬声器输出该声音,则可能产生回声。这种类型的回声称为“声学回声(sound echo)”。避免声学回声的处理称为“声学回声消除”。用于管理声学回声消除处理的处理部称为“声学回声消除器”。
[0003]如果用通常的固定电话或蜂窝电话使用免提功能,则从扬声器到麦克风的声反馈更大。因此,为了实现清晰的电话呼叫,非常重要的是执行声学回声消除。在电话会议系统等中同样如此。通常的固定电话或蜂窝电话的平常使用也会发生从扬声器到麦克风的声反馈。因此,执行声学回声消除是重要的。
[0004]声学回声消除的方法包括在时域中处理语音信号的方法、通过将语音信号变换成频域中的信号来处理语音信号的方法等。对于如今的电话而言很普遍的是通过AD转换器将麦克风所检测的语音信号变换成数字信号以进行数字信号处理。在这种情况下,声学回声消除器通常使用通过将时域中的数字信号变换到频域而获得的信号。
[0005]另外,存在安装有语速(rate-of-speech)改变功能的电话,该语速改变功能在保持音调的同时将电话呼叫伙伴的语音的再现速度改变得更慢或更快。当用于电话呼叫时,语速改变功能主要用于使语音的速度变慢以使得更容易听见电话呼叫伙伴的语音。
[0006]从以上可以看出,电话需要时域以及频域中的多个处理。在许多情况下,以帧为单位进行数字信号处理,其中帧包括数字信号的多个采样值。广泛使用的基于帧的数字信号处理包括将时域中的信号的帧变换为频域中的信号的帧的时频变换以及将频域中的信号的帧变换为时域中的信号的帧的频时变换。
[0007]图1示出电话的功能框图的示例。接收语音信号100是接收语音信号的频域中的信号,可对其进行包括AGC处理、降噪处理、语音着重处理等等(未示出)的处理。
[0008]频时变换部110将频域中的接收语音信号100变换成时域中的信号111,并将其馈送给语速改变部112。语速改变部112对时域中的信号111进行语速改变处理,将时域中的语速改变之后的信号113输出给扬声器114和时频变换部108。
[0009]时频变换部108将时域中的语速改变之后的信号113变换为频域中的信号109A,并将其馈送给声学回声消除器106。
[0010]从扬声器114输出的模拟声音信号120通过空气和电话的壳体到达麦克风102。麦克风102将来自扬声器114的模拟声音信号120的一部分变换成时域中的数字发送语音信号103。这里,为了简单起见,AD转换器、DA转换器、放大器等未示出。
[0011]时频变换部104将时域中的发送语音信号103变换为频域中的发送语音信号105,并将其馈送给声学回声消除器106。
[0012]这里,存在从语速改变部112开始经由扬声器114、麦克风102和时频变换部104到声学回声消除器106的信号传输路径所特定的传输特性。频域中的发送语音信号105的来源是与受所述传输特性影响的信号混合的时域中的语速改变之后的信号113。所述混合信号是声学回声的原因。
[0013]声学回声消除器106例如处理频域中的发送语音信号105,以基于所述传输特性利用频域中的信号109A和频域中的自适应滤波器(未示出)消除混合信号。该处理抑制声学回声的产生。声学回声消除器106输出抑制了声学回声的频域中的发送语音信号130。
[0014]这里,存在这样一种技术,其提供用于改变经由电话通信信道发送的电话呼叫伙伴的语音信号的时间轴的语速改变部以及用于删除侧音信号(回声)的回声消除器部,其中通过设置在语速改变部的前一级处的回声消除器部来移除侧音,以使得侧音不会到达语速改变部,以防止进行了语速改变的侧音妨碍电话呼叫伙伴的讲话(参见例如专利文献I)。
[0015]另外,存在这样一种技术,其中用于将自适应语速改变应用于输入信号的语速改变装置包括:物理索引计算部,其用于计算通过以时间为单位将输入信号划分而获得的输入信号的各个片段的物理索引;以及语速改变因子确定部,其用于根据物理索引计算部所计算的物理索引来确定输入信号的各个片段执行语速改变所指定的语速改变放大因子。通过该技术,可将语速改变稳定地应用于混合有背景声音和语音的输入信号(参见例如专利文献2)。
[0016][相关技术文献]
[0017][专利文献]
[0018][专利文献I]日本特开2001-16319号公报
[0019][专利文献2]日本特开2011-33789号公报
[0020]如上所述,如果采用需要频域中的信号的声学回声消除方法,则需要将语速改变之后的时域中的信号变换为频域中的信号。如果在语速改变之前频域中的信号可用,则需要将频域中的信号变换为时域中的信号以便于语速改变。
[0021]因此,为了向声学回声消除器提供语速改变之后的频域中的信号,需要通过时频变换将语速改变之后的信号再次变换到频域。这意味着需要可观的资源来进行信号变换。
【发明内容】
[0022]本发明的一个实施方式的目的在于减少用于上述信号处理的资源量。
[0023]根据本发明的至少一个实施方式,一种将接收语音信号的频域信号的帧馈送给声学回声消除器的信号处理设备包括:第一接收部,其接收进行语速改变处理之前的频域中的所述接收语音信号的帧;第二接收部,其接收以帧为单位进行了所述语速改变处理后的时域中的信号的帧;以及频域帧合成部,其基于所述信号处理设备当前正在处理的帧处的进行了所述语速改变处理后的时域信号以及与进行了所述语速改变处理后的时域信号对应的频域中的所述接收语音信号的帧,合成所述接收语音信号的频域信号的帧。
[0024]根据本发明的至少一个实施方式,可减少用于信号处理的资源量。
【专利附图】
【附图说明】
[0025]图1是示出语速改变处理和实施方式之间的关系的示意图;
[0026]图2是示出与语速改变处理相关的信号处理和本发明的实施方式之间的关系的示意图;
[0027]图3是实施方式的功能框图;
[0028]图4是实施方式的详细功能框图;
[0029]图5是实施方式的硬件配置图;
[0030]图6是实施方式的便携式终端的配置图;
[0031]图7是总结实施方式的方法的流程图;以及
[0032]图8是示出实施方式的频域信号估计方法的流程图。
【具体实施方式】
[0033]下面将参照附图描述本发明的实施方式。贯穿附图相同的元件将指派相同的标号。
[0034]图2示出与语速改变处理相关的信号处理和本发明的实施方式之间的关系。
[0035]本实施方式中的数字信号处理可将预定数量的数字值作为单个帧处理。例如,可按照8kHz的采样频率对声音信号的数据进行采样,并且可将160个样本作为一个帧处理。在这种情况下,一个帧为20ms长。可以帧为单位执行各种数据处理。另外,如果将时频变换应用于具有256个样本的数据,则根据采样定理将其变换为频域中的具有128个频率窗口(频谱)的信号。另外,例如,傅里叶变换(FFT)和傅里叶逆变换(IFFT)可用作下述的时频变换和频时变换。这里,所述变换不限于傅里叶变换和傅立叶逆变换。
[0036]另外,在以下描述中,以帧为单位依次执行各种信号处理。这里,为了避免信号的处理延迟,理想的是将所有信号处理设计得足够短,以使得用于处理的时间短于一个帧的时间。这里,在图2中,为了说明,具有相同帧号的帧垂直排列,尽管用于处理一个帧的时间取决于处理。
[0037]这里,在本说明书中,通过对时域中的信号进行时频变换而获得的信号称为“频域中的信号”。另外,包含预定条数的采样数据的帧称为“时域中的信号的帧”。另外,通过对时域中的信号的帧进行时频变换而获得的信号的帧称为“频域中的信号的帧”。
[0038]在图2中,最上面的帧号210表示分别指派给帧的编号。语音确定220例如可由语速改变部112执行。如果经由通信信道接收的接收语音信号被确定为语音,则将其指定为“S”,或者如果其被确定非语音(例如噪声),则将其指定为“N”。
[0039]如上所述确定接收语音信号是不是语音,以便于语速改变部112扩展接收语音信号的与语音对应的部分并且切去(或压缩)与非语音对应的部分。这样,语速改变部112压缩字之间的非语音部分以消减扩展的语音部分的时间。可用本领域技术人员已知的语音检测技术来实现语音确定220。
[0040]接收语音信号的被确定为语音的部分通过与预定的扩展放大因子当中的放大因子相乘而被扩展。作为语速改变技术,已提出各种技术,例如PICOLA方法、STRAIGHT方法等。在本实施方式中,可使用本领域技术人员已知的语速改变技术。因此,在本说明书中省略对语速改变技术的描述。
[0041]图2中的接收语音信号100是频域中的信号。从通信信道接收的信号被变换为频域中的信号,以在频域中进行各种信号处理,例如AGC处理、着重处理和降噪处理(未示出)。根据需要,接收语音信号100可进行这些信号处理中的各种信号处理。
[0042]在频时变换部110处按照顺序以帧为单位将频域中的接收语音信号100的帧(帧100-1至100-5)变换为时域中的语速改变之前的信号111的帧(帧111-1至111-5)。变换为时域中的信号是理想的,因为语速改变处理使用时域中的信号。
[0043]利用图2中所示的扩展比240,语速改变部112扩展或压缩各个帧。在本实施方式中,语音部分的扩展比大于一,以便扩展该部分。非语音部分帧的长度被压缩或设置为零,以补偿语音部分的扩展长度。这里,扩展比不采用恒定值,以使得根据各个帧的语音图案实现自然的扩展。
[0044]图2还示出时域中的语速改变之后的信号113的示例。S卩,帧111-1被扩展至1.2倍,以获得信号113a。帧111-2被扩展至2.0倍,以获得信号113b。帧111_3被切去(减小至零倍),因为它是要删除的非语音部分。尽管帧111-4也是非语音部分,但它被减小至0.8倍以获得信号113c,以填充帧号(4)。帧111-5被扩展至1.1倍,以获得信号113d。这里,假设直到帧号(5)的帧是到当前时间为止已处理的帧,当前时间恰好超过帧号(5)。因此,未不出巾贞号(5)之后的中贞。
[0045]在电话中,实时地执行语音处理。因此,理想的是获得恰好在当前时间之前的帧作为将进行声学回声消除等处理的帧。然而,无法确保实时处理的完整性,因为以帧为单位执行AD/DA变换、时频变换、频时变换等(类似于其它数字信号处理)。
[0046]例如,利用图1所示的时频变换部108,获得图2中的频域中的语速改变之后的信号 109A (帧 109-1 至 109-5)。
[0047]首先,如下详细分析帧号(I)。即,对于帧号(I),语速改变之前的信号的帧111-1被扩展至1.2倍以获得时域中的语速改变之后的信号113a。这里,语速改变在维持语音的音调的同时扩展了语音的时长。因此,对于帧号(I),接收语音信号的帧100-1可具有与语速改变之后的帧109-1相同(或者严格意义上讲,基本上相同)的频率成分。
[0048]假设在保持语音的音调的同时进行语速改变,而不改变频率成分,基于该假设,语速改变处理被设计为使得仅语音的长度改变。通过实际实现的语速改变处理,没有观察到频率成分的影响。
[0049]因此,通常,在通过将语速改变之前的对应帧扩展而获得的语速改变之后的帧与语速改变之前的对应帧之间,频率成分保持不变。因此,以下各对帧具有相同(或者严格意义上讲,基本上相同)的频率成分:巾贞100-1和帧109-1 ;巾贞100-2和帧109-3 ;以及帧100-5和帧109-5。
[0050]接下来,下面作为示例分析图2中的帧号(2)。
[0051]即,在时域中的语速改变之后的信号的帧113-2中,与帧111-1对应的信号(或信号113a)占据约20%,与帧111-2对应的信号(或信号113b)占据约80%。因此,根据遍历假设,频域中的语速改变之后的信号的帧109-2包括帧100-1的频率成分的20%以及帧100-2的频率成分的80%。
[0052]在图2中由标号260指定的行中,针对各个帧以简化形式示出频率成分的比率,其中将语速改变之后的信号中所包括的语速改变之前的帧的相应频率成分的比率表示为公式中的各个因子项。
[0053]从以上可以看出,可以帧为单位根据频域中的语速改变之前的信号以及有关时域中的语速改变之后的信号的扩展比的信息估计频域中的语速改变之后的信号。
[0054]这可表示为如下的通式:
【权利要求】
1.一种将接收语音信号的频域信号的帧馈送给声学回声消除器的信号处理设备,该设备包括:第一接收部,其接收进行语速改变处理之前的频域中的所述接收语音信号的多个帧,所述语速改变处理是改变所述接收语音信号的语速;第二接收部,其接收以帧为单位进行了所述语速改变处理后的时域中的信号的多个帧;以及频域帧合成部,其基于所述信号处理设备当前正在处理的帧处的进行了所述语速改变处理后的时域信号以及与进行了所述语速改变处理后的时域信号对应的频域中的所述接收语音信号的帧,合成将馈送给所述声学回声消除器的所述接收语音信号的频域信号的帧。
2.根据权利要求1所述的信号处理设备,其中,所述频域帧合成部包括帧比率识别部,该帧比率识别部针对进行了所述语速改变处理后的时域信号,识别当前正在处理的帧中所包括的进行了所述语速改变处理后的时域信号部分的长度与当前正在处理的帧的长度的比率,其中,所述比率用于合成所述接收语音信号的频域信号的帧。
3.根据权利要求2所述的信号处理设备,其中,所述频域帧合成部包括加权加法部,该加权加法部根据所述比率,对与进行了所述语速改变处理后的时域信号对应的频域中的所述接收语音信号的帧中包含的频率成分的值执行加权加法,以计算合成的所述接收语音信号的频域信号的帧。
4.一种将接收语音信号的频域信号的帧馈送给声学回声消除器的信号处理方法,该方法包括以下步骤:首先接收进行语速改变处理之前的频域中的所述接收语音信号的多个帧,所述语速改变处理是改变所述接收语音信号的语速;其次接收以帧为单位进行了所述语速改变处理后的时域信号的多个帧;以及基于信号处理设备当前正在处理的帧处的进行了所述语速改变处理后的时域信号以及与进行了所述语速改变处理后的时域信号对应的频域中的所述接收语音信号的帧,合成将馈送给所述声学回声消除器的所述接收语音信号的频域信号的帧。
5.根据权利要求4所述的信号处理方法,其中,所述合成步骤包括针对进行了所述语速改变处理后的时域信号,识别当前正在处理的帧中所包括的进行了所述语速改变处理后的时域信号部分的长度与当前正在处理的帧的长度的比率,其中,所述比率用于合成所述接收语音信号的频域信号的帧。
6.根据权利要求5所述的信号处理方法,其中,所述合成步骤包括根据所述比率,对与进行了所述语速改变处理后的时域信号对应的频域中的所述接收语音信号的帧中包含的频率成分的值执行加权加法,以计算合成的所述接收语音信号的频域信号的帧。
7.一种存储有程序的计算机可读记录介质,所述程序使得计算机执行将接收语音信号的频域信号的帧馈送给声学回声消除器的信号处理方法,该方法包括以下步骤:首先接收进行语速改变处理之前的频域中的所述接收语音信号的多个帧,所述语速改变处理是改变所述接收语音信号的语速;其次接收以帧为单位进行了所述语速改变处理后的时域信号的多个帧;以及基于信号处理设备当前正在处理的帧处的进行了所述语速改变处理后的时域信号以及与进行了所述语速改变处理后的时域信号对应的频域中的所述接收语音信号的帧,合成将馈送给所述声学回声消除器的所述接收语音信号的频域信号的帧。
8.根据权利要求7所述的计算机可读记录介质,其中,所述合成步骤包括针对进行了所述语速改变处理后的时域信号,识别当前正在处理的帧中所包括的进行了所述语速改变处理后的时域信号部分的长度与当前正在处理的帧的长度的比率,其中,所 述比率用于合成所述接收语音信号的频域信号的帧。
9.根据权利要求8所述的计算机可读记录介质,其中,所述合成步骤包括根据所述比率,对与进行了所述语速改变处理后的时域信号对应的频域中的所述接收语音信号的帧中包含的频率成分的值执行加权加法,以计算合成的所述接收语音信号的频域信号的帧。
【文档编号】G10L21/02GK104078049SQ201410042005
【公开日】2014年10月1日 申请日期:2014年1月28日 优先权日:2013年3月28日
【发明者】远藤香绪里 申请人:富士通株式会社