一种用于移动电话机抑制话音噪声的方法

文档序号：2837244阅读：413来源：国知局

专利名称：一种用于移动电话机抑制话音噪声的方法
技术领域：
本发明属于移动电话机技术领域，特别涉及到移动电话中抑制话音中噪声的方法。
背景技术：
移动电话除了在安静的环境中使用，在喧闹的环境中也经常使用。例如，在一个鸡尾酒会上，移动电话经常使用。
从通话对方传来的话音在具备较好噪声屏蔽的移动电话上能够清晰地听见。一个简单的例子是可以将移动电话的扬声器做成人耳的生物构造形状，以最大限度地从物理上隔离噪声。但是通话对方可能无法听清在喧闹环境中的话音。
于是人们发明了受话器阵列以提供更多话音信息以更好抑制噪声。例如，在大会场经常会使用多个麦克风来把更清晰的话音传递给听众。
名称为《噪声抵消装置(Noise canceler)》的美国专利(专利号5754665)提出了用于车载通信系统的抑制噪声的方法，将两个受话器分别安装在驾驶员和乘客的位置，当驾驶员讲话时，离驾驶员近的受话器主要接收有用信号，离乘客近的受话器用来收集噪声，当乘客讲话时，离乘客近的受话器主要接收有用信号，而离驾驶员近的受话器用来收集噪声。安装在噪声端(即离讲话者远的)的受话器中的有限冲激响应自适应滤波器的输出端就是有用信号，当有用信号也被收集噪声的受话器收集到一部分时，其发明又通过安装在有用信号端(即离讲话者近的)的受话器中的有限冲激响应自适应滤波器来得到该小部分有用信号，然后把两个滤波器输出的有用信号叠加得到更佳的有用信号。但在其专利叙述中，没有说明滤波器的具体实施方法。但从原理上讲，其技术方案可能对变化较大的噪声的抑制效果不好，例如收音机广播或音乐，因此可能不适合噪声时大时小的喧闹的公共场合或者有表演的鸡尾酒会的场合。

发明内容
本发明的目的是为克服已有技术的不足之处，提出一种用于移动电话机抑制话音噪声的方法，不但具有结构简单、实现容易、成本低廉、抑制移动电话话音噪声效果显著、便于开发实施的特点，还可适用于任何场合。
本发明提出的用于移动电话机抑制话音噪声的方法，其特征在于设置一个受话器，该受话器与采用该方法的移动电话机的受话器之间的距离使得移动电话机的受话器获得的话音的能量大于该受话器获得的话音的能量，而两个受话器获得的噪声能量为相同数量级；该方法包括以下步骤1)分别接收所述两个受话器的模拟信号，并将该模拟信号转换成数字信号；
2)将所述两个输出的数字信号变换成频域信号；3)根据所述频域信号检测话音的激活状况；4)根据所述话音激活状况抑制噪声得到抑制噪声后频域信号；5)将所述频域信号变换成时域信号后输出有用的语音信号。
本发明的特点及效果本发明利用2个与使用者距离不同的受话器来抑制移动电话话音噪声。即利用两个受话器收到的使用者的话音的强度有很大差别，而收到的噪声的强度却基本相当的特点，通过将信号变换到频域，通过频谱幅度减法和去除残余噪声分量抑制噪声，并当话音激活检测器输出话音被激活的指示信号时抑制更多的噪声的方法，然后通过时域变换得到有用的使用者的话音信号，达到抑制移动电话话音噪声的目的。
本发明方法但具有结构简单、实现容易、成本低廉、抑制移动电话话音噪声效果显著、便于开发实施、可适用于任何场合的特点。在具体实施时，还可以灵活地选择硬件、软件或者软硬件结合的各种实施方式。

图1是本发明的用于移动电话机抑制话音噪声的方法总体流程框图。
图2是使用本发明的移动电话机的受话器的位置实施例1示意图。
图3是使用本发明的移动电话机的受话器的位置实施例2示意图。
图4是使用本发明的步骤2)频域变换的实施例示意图。
图5是使用本发明的步骤3)话音激活检测的实施例示意图。
图6是使用本发明的步骤4)频域噪声抑制的实施例示意图。
图7是使用本发明的步骤5)时域变换的实施例示意图。
具体实施例方式
本发明提出的一种用于移动电话机抑制话音噪声的方法，结合附图及实施例详细说明如下本发明的方法需设置一个受话器，该受话器与采用该方法的移动电话机的受话器之间的距离使得移动电话机的受话器获得的话音的能量大于该受话器获得的话音的能量，而两个受话器获得的噪声能量为相同数量级；本发明的方法的总体流程如图1所示，该方法包括以下步骤1)分别接收所述两个受话器输出的模拟信号1、2，并将该模拟信号转换成数字信号3、4；2)将所述两个输出的数字信号3、4变换成频域信号5、6；3)根据所述频域信号检测话音的激活状况并输出信号7；4)根据所述话音激活状况的输出信号7抑制噪声得到抑制噪声后频域信号9；
5)将所述频域信号9变换成时域信号11后输出有用的语音信号。
本发明所述的两个受话器，可采用多种方式实现，例如第一种实现方式如图2所示，第一个受话器为移动电话机41原来的受话器43，42是原来通常的扬声器。第二个受话器为新安装的受话器44(具体安装方法为常规技术)，它可位于移动电话机的扬声器42的背面，距离43较远并亦可以很好地接收噪声。
第二种实现方式如图3所示。第一个受话器是移动电话机51原来的受话器53，52是原来通常的扬声器。第二个受话器是移动电话的有线或无线耳机56的受话器55。移动电话使用者可以通过56上的受话器55将话音传递到通信的对方。为了达到远近两个受话器的效果，使用者需要将受话器55放置在离使用者的嘴的附近，并将受话器53放置在离受话器55较远的位置，以模拟第一种方式的受话情况。受话器55的输出通过模数转换后得到的数字语音信号送往所述步骤2)的一个输入端；受话器53的输出通过有线或无线耳机固有的模数转换器后不再需要通过本发明的模数转换而直接将数字语音信号送往本发明的所述步骤2)的另一个输入端，该数字语音信号的传输方法不属于本发明的涉及范围，属于常规方法，例如采用蓝牙无线传输技术。该第二种实现方式与第一种实现方式相比，可以不需要修改移动电话机硬件。
本发明的两个受话器不仅限于上述两种实现方式，凡是按本发明所述原理通过其他方式获得两个受话器也属于本发明的范围。
采用本发明方法实现移动电话机抑制话音噪声的工作原理说明如下将按本发明方法制成的抑制话音噪声的模块安装在电话机壳内适当处，并将该模块的两个输入端分别与上述的两个受话器相连，其输出端与电话机的输入端相连(即原电话受话器相连的端口)即可工作。
在图2或图3中，用a和b分别表示两个受话器离讲话者的嘴的距离，用Ea和Eb分别表示两个受话器收到的有用话音信号的能量，用e和f分别表示噪声源离两个受话器的距离，用Ee和Ef分别表示两个受话器收到的噪声的能量。那么以声音能量的传播衰减与距离的平方成反比来计算，在合理的假设b＞＞a(“＞＞”表示远远大于)和f～e(“～”表示约等于)下，有Ea/Eb＞＞1和Ee/Ef～1。信号1对应于图2中的受话器43或图3中的受话器55输出的模拟信号；信号2对应于图2中的受话器44或图3中的受话器53输出的模拟信号。信号1的能量与Ea和Ee对应，信号2的能量与Eb和Ef对应，可以知道信号1由有用信号和噪声信号组成，信号2由很小强度的有用信号和噪声信号组成。当讲话者讲话时，信号1具有比信号2大的强度。当讲话者没有讲话时，无有用信号，那么信号1和信号2就具有基本相当的强度。
信号3和4分别是信号1和2经过模数转换得到的数字信号，该数字信号经过频域变换后得到频域信号。话音激活检测通过计算5和6的频谱强度来判断讲话者是否有讲话，即话音激活检测。信号7用来表示此话音激活情况。当话音激活时，通过频谱幅度减法和去除残余噪声分量抑制噪声，当话音未激活时，通过频谱幅度减法和去除更多的残余噪声分量后得到抑制噪声的信号。然后，将经噪声抑制后输出的频域信号9变换到时域并叠加作为有用信号11传送给通话对方。
本发明的各步骤的实施例分别说明如下本发明方法的步骤1)中将所述两个受话器输出的模拟信号转换为数字信号可以采用常规的模数转换器。
本发明方法的步骤2)中将所述两个输出的数字信号变换成频域信号的具体实施方法如图4所示，它对两输入信号分别进行串并转换、加窗以及傅立叶变换。其输出信号与输入信号之间的关系及串并转换、加窗以及傅立叶变换的具体运算方法详细描述如下在本实施方式中，为了便于处理，在模数转换中两个信号具有相同的采样频率，如果不同，那么可以通过上采样或下采样使得送入的信号3和4具有相同的采样频率，因此设信号3和4具有相同的采样频率也不失一般性。用fs表示该采样频率。频域变换方法是对其输入的数字信号3和4按帧的方式处理。用s3(n)和s4(n)分别表示信号3和4在第n(非负整数)个采样点的值。设帧的宽度为W，并在选择参数时W要为偶数，帧偏移宽度为P，亦为偶数。用矩阵向量f3(m)和f4(m)分别表示s3和s4对应的第m(非负整数)帧的数据向量。那么有下面的关系f3(m)＝[s3(m*P)s3(m*P+1)…s3(m*P+W-1)]f4(m)＝[s4(m*P)s4(m*P+1)…s4(m*P+W-1)]用f5(m)和f6(m)分别表示在处理第m帧后的输出的频域信号5和6，那么f5(m)＝CHOP(FFT(H(f3(m))))f6(m)＝CHOP(FFT(H(f4(m))))其中，H表示常规的窗函数，FFT表示傅立叶变换。CHOP(x)表示取向量x的前半W/2+1个元素后组成的向量。由于f3(m)的向量元素个数为W，所以傅立叶变换后得到的向量元素个数亦为W，那么f5(m)和f6(m)的向量元素个数均为W/2+1。在参数选择时，窗函数H可以选择对称汉明(Hamming)窗。如果实施例选择W的宽度使得每帧处理的语音信号的长度为25毫秒左右，选择P使得帧偏移比例为W的40％左右，那么W＝efix(0.025*fs)P＝efix(0.4*W)其中efix(x)表示与x最接近的偶数。采用上述实施例方法在fs为22.050千赫兹的情况下，上述参数选择可以获得很好的噪声抑制的效果。
本发明的话音激活检测方法的具体实施如图5所示，包括求两输入信号的幅度、计算幅度分贝数、求两幅度分贝数的差与零的较大值的均值后与话音激活阈值的比较。具体方法详细说明如下话音激活检测方法是通过比较两输入信号的频谱来判断讲话者在第m帧是否在讲话。用s7(m)表示话音激活检测后输出的第m帧的话音激活检测值，检测值为1表示话音被激活，即讲话者在讲话；检测值为0表示话音未被激活，即讲话者没有在讲话。用T表示话音激活阈值(单位为分贝(dB))，那么如果mean(max(pdb(abs(f5(m)))-pdb(abs(f6(m)))，0))＞T，则s7(m)＝1；否则s7(m)＝0其中函数abs(x)表示取复数x各元素的幅度；函数pdb(x)＝20*log10(x)；log10指求向量的各元素的以10为底的对数；函数max(x，y)表示取向量x和y的相对应的各元素的较大值；mean(x)表示取向量x的元素的平均值。在应用本发明时，当选择T＝5dB时，可以获得很好的话音激活检测效果。
本发明的噪声抑制方法的实施例如图6所示，所述的噪声抑制是在话音激活的状况下，通过频谱幅度减法并去除残余噪声分量抑制噪声；在话音未激活的状况下，通过频谱幅度减法和去除比话音激活时更多的残余噪声分量的方法抑制噪声。
其工作原理为信号7为话音激活检测输出的话音激活指示信号，该信息与信号5和6一起进行抑制噪声。抑制噪声的方法是通过频谱幅度减法并去除残余噪声分量的方法来抑制噪声。根据话音是否被激活，去除残余分量的程度不同。首先说明残余噪声分量的计算方法。用y5(m)和y6(m)分别表示在处理第m帧后的输出的频域信号5和6的幅度值。那么有下面关系y5(m)＝abs(f5(m))y6(m)＝abs(f6(m))用矩阵矢量i(q)表示非话音激活(即s7(m)等于0)的所有帧中第q帧的残余噪声分量，i(q)的向量元素个数等于W。通过统计平均的方法求残余噪声分量值的均值，并用矩阵分量r表示，残余噪声分量的方差用v表示。用L表示残余噪声分量统计帧数。那么r和v的求解方法可以通过下面的自然语言程序来描述。在本方法启动时，初始化u＝0，r＝零矢量，v＝零矢量，然后对每第m帧执行下面的运算。
如果s7(m)等于0，那么{如果u等于L，那么{r＝((L-1)*r+max(y5(m)-y6(m)，0))/L}否则{i(u)＝max(y5(m)-y6(m)，0)u＝u+1如果u等于L，那么{r＝(i(0)+i(1)+…+i(L-1))/Lv＝((i(0)-r)2+(i(1)-r)2+…+(i(L-1)-r)2)/L}}}有了残余噪声分量的均值和方差，就可以求得被噪声抑制后的输出。用y9(m)表示第m帧被抑制噪声后的信号9的幅度。有z＝y5(m)-y6(m)-r如果s7(m)等于1，那么{y9(m)＝max(z-0.2*SQRT(v)，0)}否则{zz＝z-0.2*SQRT(v)zzz＝max(zz，0)对向量zz的每个元素索引d{如果zz(d)的绝对值大于SQRT(v)的第d个元素，那么{y9(m)的第d个元素＝0}否则{y9(m)的第d个元素＝zzz的第d个元素}}}其中SQRT(x)表示x的每个元素的平方根组成的向量。由上可以看出，在s7(m)等于1即话音被激活的情况下，通过从y5(m)中减去y6(m)和残余噪声分量得到了抑制噪声的信号的幅度y9(m)；在s7(m)等于0即话音未被激活的情况下，要比较已减去噪声残余分量均值的信号zz(d)和噪声残余分量的方差平方根，来得到更抑制噪声的信号的幅度y9(m)。这样，抑制噪声后的输出s9(m)就可以通过下面计算得到对向量y9(m)的每个元素索引d{s9(m)的第d个元素＝y9(m)的第d个元素*ej*f5(m)的第d个元素的相位}其中j表示虚数单位，ej*x表示cos(x)+j*sin(x)。实验证明，抑制噪声的参数L选为9时可以达到很好抑制噪声的效果。
本发明的时域变换方法的实施例如图7所示，它的作用是将已经抑制噪声的话音的频域信号恢复到时域。恢复的过程由时域恢复和时域叠加两个步骤组成。具体方法如下。抑制噪声后的输出s9(m)的时域恢复后的信号t9(m)可以表示成t9(m)＝REAL(IFFT(a9(m)))其中，IFFT表示反傅立叶变换，REAL表示取复数向量的实部。
a9(m)的求取方法可以用自然语言描述成d取值从0到W-1{
如果d小于或等于W/2，那么{a9(m)的第d个元素＝s9(m)的第d个元素}否则{a9(m)的第d个元素＝s9(m)的第W-d个元素的共轭}}可以知道a9(m)的元素个数为W，因此t9(m)的元素个数也为W，t9(m)的包括第m帧的从第0个到第W-1个采样点的时域值。为了叙述方便，用t9(m，n)表示t9(m)的第n个采样点的值。当n小于0或n大于等于W时，定义采样值等于0。那么对t9(m)进行时域叠加后的信号，即时域变换后的输出信号11可以表示成s11(n)＝t9(0，n)+t9(1，n-P)+t9(2，n-2P)+t9(3，n-3P)+…其中n为非负整数。
权利要求
1.一种用于移动电话机抑制话音噪声的方法，其特征在于设置一个受话器，该受话器与采用该方法的移动电话机的受话器之间的距离使得移动电话机的受话器获得的话音的能量大于该受话器获得的话音的能量，而两个受话器获得的噪声能量为相同数量级；该方法包括以下步骤1)分别接收所述两个受话器的模拟信号，并将该模拟信号转换成数字信号；2)将所述两个输出的数字信号变换成频域信号；3)根据所述频域信号检测话音的激活状况；4)根据所述话音激活状况抑制噪声得到抑制噪声后频域信号；5)将所述频域信号变换成时域信号后输出有用的语音信号。
2.如权利要求1所述的方法，其特征在于，所述步骤2)中将该数字信号变换到频域信号的方法是通过对两个输入信号分别进行串并转换、加窗以及傅立叶变换得到频域信号。
3.如权利要求1所述的方法，其特征在于，所述步骤3)中检测话音的激活状况的方法是通过求两输入信号的幅度、计算幅度分贝数、求两幅度分贝数的差与零的较大值的均值后与话音激活阈值比较提供话音激活状况。
4.如权利要求1所述的方法，其特征在于，所述步骤4)中抑制噪声的方法是在话音激活的状况下，通过频谱幅度减法并去除残余噪声分量抑制噪声；在话音未激活的状况下，通过频谱幅度减法和去除比话音激活时更多的残余噪声分量的方法抑制噪声。
5.如权利要求1所述的方法，其特征在于，所述步骤5)中将所述频域信号变换成时域信号的方法由时域恢复和时域叠加两个步骤组成。
全文摘要
本发明涉及一种用于移动电话机抑制话音噪声的方法，属于移动电话机技术领域，该方法包括设置一个受话器，该受话器与采用该方法的移动电话机的受话器之间的距离使得移动电话机的受话器获得的话音的能量大于该受话器获得的话音的能量，而两个受话器获得的噪声能量为相同数量级；分别接收所述两个受话器的模拟信号，并将模拟信号转换成数字信号；将两个输出的数字信号变换成频域信号；根据频域信号检测话音的激活状况；根据话音激活状况抑制噪声得到抑制噪声后频域信号；将频域信号变换成时域信号后输出有用的语音信号。本发明不但具有结构简单、实现容易、成本低廉、抑制移动电话话音噪声效果显著、便于开发实施的特点，还可适用于任何场合。
文档编号G10L21/02GK101039486SQ20071009890
公开日2007年9月19日申请日期2007年4月29日优先权日2007年4月29日
发明者任晓东申请人:任晓东

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：任晓东
技术所有人：任晓东
我是此专利的发明人