通话音降噪方法及终端的制作方法

文档序号：2825393阅读：240来源：国知局

通话音降噪方法及终端的制作方法
【专利摘要】本发明提供一种通话音降噪方法及终端。所述方法包括：获得通话音的声纹特征；根据所述通话音的声纹特征，在预设声纹特征集合中查询匹配的声纹特征；根据所述匹配的声纹特征对所述通话音进行处理。本发明提供的方案，不仅可以对通话双方的语音进行增强，还可以对通话对方的噪音进行降噪处理，而且可以实时感应周边环境的变化，达到良好、及时的降噪效果。
【专利说明】通话音降噪方法及终端
【技术领域】
[0001]本发明涉及语音技术，尤其涉及一种通话音降噪方法及终端。
【背景技术】
[0002]当用户之间使用终端进行彼此通话时，如果通话用户中的任意一方处于比较嘈杂的环境中，如公交车、地铁、商场等环境，都会造成通话质量的下降。
[0003]摩托罗拉丽音技术(Crystal Talk)是一种可以时刻根据周围环境自动调节收听效果的技术。即使再嘈杂的环境都可以使用户清晰畅通，充分体验语音尽在耳边的快乐。第一代丽音技术是一种纯软件技术，在软件中预置大量的背景噪音，通过过程中会自动与这些预置的背景噪音相比对，尽可能识别对方的话语。第二代丽音技术是一种软硬件结合的技术，采用的双麦克风方法，也就是说终端(如手机)上有两个麦克风，一个负责手机话音，另一个位于听筒附近，负责收集噪音。然后通过软件把语音中的噪音过滤掉，便可获得清晰的话音。
[0004]但是，第一代丽音技术只能使用固有噪音库处理噪音，无法自动感应周边环境的变化。第二代丽音技术要求收集噪音的麦克风不能被遮挡，如果被遮挡，软件会认为环境属于及其安静的，便不会进行降噪处理，而只是轻微的回声处理，导致对方听到的声音非常小。同时，第一代I?音技术和第二代I?音技术都只能对本机声音进行降噪处理，无法对对方声音进行降噪处理。

【发明内容】

[0005]本发明提供一种用于增强通话质量的通话音降噪方法，可以对通话中的语音进行增强，而且可以实时感应周边环境的变化，达到良好、及时的增强通话质量的效果。
[0006]本发明提供一种通话音降噪方法，包括:
[0007]获得通话音的声纹特征；根据所述通话音的声纹特征，在预设声纹特征集合中查询匹配的声纹特征；根据所述匹配的声纹特征对所述通话音进行处理。
[0008]本发明还提供了一种可对通话音降噪的终端，包括:
[0009]获取单元，用于获得通话音的声纹特征；查询单元，用于根据所述通话音的声纹特征，在预设声纹特征集合中查询匹配的声纹特征；处理单元，用于根据所述匹配的声纹特征对所述通话音进行处理。
[0010]本发明的技术效果是:在通话过程中对通话音进行声纹特征的查询匹配，根据匹配的声纹特征对通话音进行处理，有效加强通话音的效果，提高通话的质量。
【专利附图】

【附图说明】
[0011]图1为本发明实施例提供的一种通话音降噪方法的流程图；
[0012]图2为本发明实施例一提供的Mel倒谱系数的提取过程示意图；
[0013]图3为本发明实施例一提供的Mel频率滤波器组的结构示意图；[0014]图4为本发明实施例提供的另一种通话音降噪方法的流程图；
[0015]图5为本发明实施例提供的又一种通话音降噪方法的流程图；
[0016]图6为本发明实施例提供的一种可对通话音降噪的终端的结构示意图；
[0017]图7为本发明实施例提供的另一种可对通话音降噪的终端的结构示意图。
【具体实施方式】
[0018]图1为本发明实施例提供的通话音降噪方法的流程图，如图1所示，该方法包括:
[0019]步骤101、终端获得通话音的声纹特征。
[0020]其中，通话音，具体可以指通话双方甚至多方的声音。在本实施例中，可以将通话音概括为两种声音，一种是本机用户的通话音，一种是对方用户的通话音。在不同终端上，本机用户和对方用户的角色是可以不同甚至互换的。从技术上讲，通话时，终端是可以控制音频的输入输出通路的，比如在通话中，对方的声音从麦克风(MIC)中传出，此时插上耳机，声音就从耳机中传出，实际上是终端做的输出通路切换(即将对方的声音视为输出)，那么对方通话音的获取办法就是打开当前的输出通路，将音频流保存起来，就是录制好的对方用户的通话音。而本地用户的通话音可以视为输入，那么打开当前的输入通路，将音频流保存起来，就是录制好的本地用户的通话音。
[0021]也就是说，步骤101中所提到的通话音的声纹特征，既可以是本机用户的通话音的声纹特征，又可以是对方用户的通话音的声纹特征，还可以是本机用户的通话音的声纹特征以及对方用户的通话音的声纹特征。
[0022]声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生时人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时所使用发声器官包括舌、喉头、肺、鼻腔等，由于每个人的风声器官在尺寸和形态上各不相同，所以，彼此的声纹图谱也会存在一定的差异。声纹特征是声纹所具备的特征参数，是使得声纹可量化的参数，不同的声纹特征可以区分不同的声纹特征。
[0023]步骤102、终端根据通话音的声纹特征，在预设声纹特征集合中查询匹配的声纹特征。
[0024]预设声纹特征集合是一个声纹特征库，该声纹特征库中包括一些已知的语音声纹特征。可以将预设声纹特征集合认为是一个不含噪音的正确语音的声纹特征的集合。在预设声纹特征集合中查询匹配的声纹特征可以认为是通话音寻找正确语音的一个过程，只有确定了正确的语音，才能够在后续步骤中确定通话音中的噪音部分。
[0025]一般情况下，新使用的终端可以不具有任何预设声纹特征集合，开始使用后，不同的终端因使用者的声纹不同可以具有不同的预设声纹特征集合，此处不做限定。预设声纹特征集合的建立过程可以但不限于包括终端用户主动录制的过程。即被提取用户与终端在同一位置，在非通话模式下，直接将用户的语音录入终端，然后由终端对声纹特征进行提取保存的过程。
[0026]具体的，本发明实施例可以但不限于使用Mel频率倒谱系数(Mel FrequencyCepstrum Coeff icient,简称为:MFCC)标准提取通话音的声纹特征。MFCC是在Mel标度频率域提取出来的倒谱系数，Mel标度描述了人耳频率的非线性特性，它与频率的关系可用下式近似表示:[0027]Mel (f) =2595*lg(l+f/700)
[0028]式中f为频率，单位为Hz。
[0029]求解Mel频谱系数的方法是将时域信号做时/频变换后，对其对数能量谱用依照Mel刻度分布的三角滤波器组做卷积，再对滤波器组的输出向量做离散余弦变换(DiscreteCosine Transform，简称为:DCT)，这样得到的前N维向量称为MFCC。
[0030]Mel倒谱系数的提取过程如图2所示:
[0031](I)对输入的语音信号进行分帧、加窗，然后作离散傅立叶变换，获得频谱分布信息。设语音信号的DFT为:
[0032]
【权利要求】
1.一种通话音降噪方法，其特征在于，包括: 获得通话音的声纹特征；根据所述通话音的声纹特征，在预设声纹特征集合中查询匹配的声纹特征；根据所述匹配的声纹特征对所述通话音进行处理。
2.根据权利要求1所述的方法，其特征在于，所述通话音中包括语音，所述根据所述匹配的声纹特征对所述通话音进行处理包括: 根据所述匹配的声纹特征对所述语音进行增强。
3.根据权利要求1或2所述的方法，其特征在于，所述通话音中包括噪音，则所述根据所述匹配的声纹特征对所述通话音进行处理还包括: 根据所述匹配的声纹特征对所述通话音进行分离，识别出噪音；将所述噪音滤除。
4.根据权利要求1-3中任一项所述的方法，其特征在于，所述获得通话音的声纹特征包括: 获得本机用户通话音的声纹特征和获得对方用户通话音的声纹特征中至少一项。
5.根据权利要求1-4中任一项所述的方法，其特征在于，如果在预设声纹特征集合中查询不到匹配的声纹特征，所述方法还包括: 提取所述通话音的声纹特征并添加到所述预设声纹特征集合中。
6.一种可对通话音降噪的终端，其特征在于，包括: 获取单元，用于获得通话音的声纹特征；查询单元，用于根据所述通话音的声纹特征，在预设声纹特征集合中查询匹配的声纹特征；处理单元，用于根据所述匹配的声纹特征对所述通话音进行处理。
7.根据权利要求6所述的终端，其特征在于，所述通话音中包括语音，所述处理单元包括: 增强单元，用于根据所述匹配的声纹特征对所述语音进行增强。
8.根据权利要求6或7所述的终端，其特征在于，所述通话音中包括噪音，则所述处理单元还包括: 噪音识别单元，用于根据所述匹配的声纹特征对所述通话音进行分离，识别出噪音；噪音滤除单元，用于将所述噪音滤除。
9.根据权利要求6-8中任一项所述的终端，其特征在于，所述获取单元用于获取本机用户通话音的声纹特征和获取对方用户通话音的声纹特征中至少一项。
10.根据权利要求6-9中任一项所述的终端，其特征在于，所述终端还包括:更新单元，用于如果所述查询单元在预设声纹特征集合中查询不到匹配的声纹特征，提取所述通话音的声纹特征并添加到所述预设声纹特征集合中。
【文档编号】G10L21/0272GK103514884SQ201210213253
【公开日】2014年1月15日申请日期:2012年6月26日优先权日:2012年6月26日
【发明者】刘冰申请人:华为终端有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘冰
技术所有人：华为终端有限公司
我是此专利的发明人