语音信号自适应调整方法、装置、移动终端及存储介质与流程

文档序号:11254173阅读:906来源:国知局
语音信号自适应调整方法、装置、移动终端及存储介质与流程

本发明涉及移动终端技术领域,尤其涉及一种语音信号自适应调整方法、装置、移动终端及存储介质。



背景技术:

目前,手机的应用已经非常普遍,手机常用的通话模式包括手持通话模式和免提通话模式,在免提通话模式下,由于每个用户拿手机的姿势、习惯不同,手机与本机用户之间的距离也会有很大的差异,手机在进行收音时,这些差异会导致手机采集到的语音信号的音量各不相同,且整体音量偏小。为了通话中另一端的通话对象能够听清楚通话内容,需要对采集到的语音信号进行放大处理后再发送给通话对象。

现有技术中,在免提通话模式下,是通过自动增益控制(automaticgaincontrol,agc)自适应调整增益的方式,增大手机发送给另一端通话对象的语音信号的音量,以提升免提通话的质量。然而,通过agc自适应调整增益的方式,会对采集到的语音信号进行放大,势必会把语音信号中的环境噪声也放的很大,导致通话的质量降低,用户通话体验不好。



技术实现要素:

本发明的主要目的在于提供一种语音信号自适应调整方法、装置、移动终端及存储介质,可以解决现有技术中agc自适应调整增益的方式会将环境噪声放大,导致通话的质量降低,用户通话体验不好。

为实现上述目的,本发明第一方面提供一种语音信号自适应调整方法,方法包括:

在移动终端处于免提通话模式下,实时采集环境中的语音信号,并实时获取所述移动终端与通话者之间的距离;

解析所述语音信号,获取所述语音信号中不同来源的各声音的声纹特征;

识别所述各声音的声纹特征中属于所述通话者的目标声纹特征,并确定所述目标声纹特征所属的声音在所述语音信号中的语音幅值;

根据所述语音幅值及所述距离,调整所述语音信号中所述目标声纹特征所属的声音的响度值及频率值。

为实现上述目的,本发明第二方面提供一种语音信号自适应调整装置,装置包括:采集获取模块,用于在移动终端处于免提通话模式下,实时采集环境中的语音信号,并实时获取所述移动终端与通话者之间的距离;

解析获取模块,用于解析所述语音信号,获取所述语音信号中不同来源的各声音的声纹特征;

识别确定模块,用于识别所述各声音的声纹特征中属于所述通话者的目标声纹特征,并确定所述目标声纹特征所属的声音在所述语音信号中的语音幅值;

调整模块,用于根据所述语音幅值及所述距离,调整所述语音信号中所述目标声纹特征所属的声音的响度值及频率值。

为实现上述目的,本发明第三方面提供一种移动终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现第一方面提供的语音信号自适应调整方法中的各个步骤。

为实现上述目的,本发明第四方面提供一种存储介质,所述存储介质为计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面提供的语音信号自适应调整方法中的各个步骤。

本发明提供一种语音信号自适应调整方法、装置、移动终端及存储介质,该方法包括:在移动终端处于免提通话模式下,实时采集环境中的语音信号,并实时获取该移动终端与通话者之间的距离,解析该语音信号,获取该语音信号中不同来源的各声音的声纹特征,识别该各声音的声纹特征中属于通话者的目标声纹特征,并确定该目标声纹特征所属的声音在语音信号中的语音幅值,根据该语音幅值及上述距离,调整该语音信号中目标声纹特征所属的声音的响度值及频率值。相对于现有技术,在免提通话模式下,针对采集到的语音信号,通过识别该语音信号中通话者的目标声纹特征,使得能够根据该目标声纹特征所属的声音的语音幅值及通话者与移动终端之间的距离,对目标声纹特征所属的声音的响度值及频率值进行调整,以实现针对通话者的声音的调整,相对于agc自适应增益调节方式,能够有效避免对环境噪声放大的问题,提升通话质量,改善使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为一种移动终端的结构框图;

图2为本发明第一实施例中语音信号自适应调整方法的流程示意图;

图3为本发明第二实施例中语音信号自适应调整方法的流程示意图;

图4为本发明第三实施例中语音信号自适应调整方法的流程示意图;

图5为本发明第四实施例中语音信号自适应调整装置的程序模块的示意图;

图6为本发明第五实施例中语音信号自适应调整装置的程序模块的示意图;

图7为本发明第六实施例中语音信号自适应调整装置的程序模块的示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1示出了一种移动终端的结构框图。本发明实施例提供的语音信号自适应调整方法可应用于如图1所示的移动终端10中,移动终端10可以但不限于包括:需依靠电池维持正常运行且支持网络及下载功能的智能手机、笔记本、平板电脑、穿戴智能设备等。

如图1所示,移动终端10包括存储器101、存储控制器102,一个或多个(图中仅示出一个)处理器103、外设接口104、射频模块105、按键模块106、音频模块107以及触控屏幕108。这些组件通过一条或多条通讯总线/信号线109相互通讯。

可以理解,图1所示的结构仅为示意,其并不对移动终端的结构造成限定。移动终端10还可包括比图1所示更多或者更少的组件,或者具有与图1所示不同的配置。图1所示的各组件可以采用硬件、软件或其组合实现。

存储器101可用于存储软件程序以及模块,如本发明实施例中的语音信号自适应调整方法及装置对应的程序指令/模块,处理器103通过运行存储在存储器101内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语音信号自适应调整方法及装置。

存储器101可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器101可进一步包括相对于处理器103远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器103以及其他可能的组件对存储器101的访问可在存储控制器102的控制下进行。

外设接口104将各种输入/输入装置耦合至cpu以及存储器101。处理器103运行存储器101内的各种软件、指令以执行移动终端10的各种功能以及进行数据处理。

在一些实施例中,外设接口104,处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。

射频模块105用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。射频模块105可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(sim)卡、存储器等等。射频模块105可与各种网络如互联网、企业内部网、预置类型的无线网络进行通讯或者通过预置类型的无线网络与其他设备进行通讯。上述的预置类型的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的预置类型的无线网络可以使用各种通信标准、协议及技术,包括但并不限于全球移动通信系统(globalsystemformobilecommunication,gsm),增强型移动通信技术(enhanceddatagsmenvironment,edge),宽带码分多址技术(widebandcodedivisionmultipleaccess,w-cdma),码分多址技术(codedivisionaccess,cdma),时分多址技术(timedivisionmultipleaccess,tdma),蓝牙,无线保真技术(wireless-fidelity,wifi)(如美国电气和电子工程师协会标准ieee802.11a、ieee802.11b、ieee802.11g和/或ieee802.11n),网络电话(voiceoverinternetprotocal,voip),全球微波互联接入(worldwideinteroperabilityformicrowaveaccess,wi-max),其他用于邮件、即时通讯及短消息的协议,以及任何其他合适的通讯协议。

按键模块106提供用户向移动终端进行输入的接口,用户可以通过按下不同的按键以使移动终端10执行不同的功能。

音频模块107向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。音频电路从外设接口104处接收声音数据,将声音数据转换为电信息,将电信息传输至扬声器。扬声器将电信息转换为人耳能听到的声波。音频电路还从麦克风处接收电信息,将电信号转换为声音数据,并将声音数据传输至外设接口104中以进行进一步的处理。音频数据可以从存储器101处或者通过射频模块105获取。此外,音频数据也可以存储至存储器101中或者通过射频模块105进行发送。在一些实例中,音频模块107还可包括一个耳机播孔,用于向耳机或者其他设备提供音频接口。

触控屏幕108在移动终端与用户之间同时提供一个输出及输入界面。具体地,触控屏幕108向用户显示视频输出,这些视频输出的内容可包括文字、图形、视频、及其任意组合。一些输出结果是对应于一些用户界面对象。触控屏幕108还接收用户的输入,例如用户的点击、滑动等手势操作,以便用户界面对象对这些用户的输入做出响应。检测用户输入的技术可以是基于电阻式、电容式或者其他任意可能的触控检测技术。触控屏幕108显示单元的具体实例包括但并不限于液晶显示器或发光聚合物显示器。

基于上述移动终端描述本发明实施例中语音信号自适应调整方法。

由于现有技术中,通过agc自适应调整增益的方式会将语音信号中的环境噪声放大,存在导致通话质量下降,用户通话体验不好的技术问题。

为了解决上述问题,本发明提出一种语音信号自适应调整方法,在免提通话模式下,针对采集到的语音信号,通过识别该语音信号中通话者的目标声纹特征,使得能够根据该目标声纹特征所属的声音的语音幅值及通话者与移动终端之间的距离,对目标声纹特征所属的声音的响度值及频率值进行调整,以实现针对通话者的声音的调整,相对于agc自适应增益调节方式,能够有效避免对环境噪声放大的问题,提升通话质量,改善使用体验。

请参阅图2,为本发明第一实施例中语音信号的自适应调整方法的流程示意图,该方法包括:

步骤201、在移动终端处于免提通话模式下,实时采集环境中的语音信号,并实时获取所述移动终端与通话者之间的距离;

在本发明实施例中,上述的语音信号自适应调整方法由语音信号自适应调整装置(以下简称为:调整装置)实现,该调整装置为程序模块,存储在移动终端的计算机可读存储介质中,可以由处理器执行以实现上述方法。

在通话过程中,若移动终端处于免提通话模式下,表明当前的通话者与移动终端之间存在距离,其中,该通话者是指该移动终端的本机用户。此时,移动终端上的麦克风将采集环境中的语音信号,该调整装置将实时获取到麦克风采集到的语音信号,可以理解的是,在通话者有说话的情况下,该语音信号中至少包含该通话者的声音,且若环境中有其他声音,麦克风也将采集到环境中存在的其他声音。

其中,调整装置还将实时获取移动终端与通话者之间的距离,该距离可以通过移动终端内设置的距离传感器检测得到,该距离传感器可以为光学式位移传感器、线性接近传感器或超声波位移传感器。该距离传感器可以设置在移动终端的听筒的两侧,或者是移动终端的听筒的凹槽中,或者是设置在移动终端侧面等等,在实际应用中,可以根据具体的需要设置距离传感器的设置位置及使用的距离传感器的具体类型,此次不做限定。

步骤202、解析所述语音信号,获取所述语音信号中不同来源的各声音的声纹特征;

声纹在用电学仪器显示时,是可以观看到的携带语言信息的声波频谱,人类语言产生时,人体语言中枢与发音器官之间有一个复杂的生物物理过程,人在讲话时所使用的发声器官包括:舌、喉头、肺、鼻腔等等,由于每一个人的发声器官在尺寸和形态上各不相同,所以彼此的声纹图谱也会存在差异。声纹特征是声纹所具备的特征参数,是使得声纹可靠的参数,不同的声纹特征可以区分不同的声音。

在本发明实施例中,对于采集到的语音信号,将解析该语音信号,获取该语音信号中不同来源的各声音的声纹特征,其中,来源可以是通话者、电视、动物、机器等等各种各样的能够产生声音的人或物或设备。

步骤203、识别所述各声音的声纹特征中属于所述通话者的目标声纹特征,并确定所述目标声纹特征所属的声音在所述语音信号中的语音幅值;

步骤204、根据所述语音幅值及所述距离,调整所述语音信号中所述目标声纹特征所属的声音的响度值及频率值。

在本发明实施例中,调整装置将从不同来源的各声音的声纹特征中,识别哪个才是当前的通话者的声纹特征,并将识别的声纹特征作为目标声纹特征,可以理解的是,通话者可以是一个或多个,且每一个通话者都有一组目标声纹特征。且进一步的,调整装置还将确定该目标声纹特征所属的声音在语音信号中的语音幅值,其中,该目标声纹特征所属的声音即是通话者的声音,且该语音幅值是指通话者的声音所形成的声波中波幅的平均值,或者是波幅的最小值。

其中,调整装置将根据语音幅值及通过距离传感器获取到的距离,调整语音信号中目标声纹特征所属的声音的响度值及频率值,即调整语音信号中通话者的声音的响度值及频率值。

其中,响度值用于衡量音量的大小,频率值用于衡量声音的清晰度。

需要说明的是,在完成对语音信号的调整之后,可以将该语音信号发送给另一端的通话对象所使用的移动终端,以便该通话对象能够收听到清晰且音量合适的语音。

在本发明实施例中,在移动终端处于免提通话模式下,实时采集环境中的语音信号,并实时获取该移动终端与通话者之间的距离,解析该语音信号,获取该语音信号中不同来源的各声音的声纹特征,识别该各声音的声纹特征中属于通话者的目标声纹特征,并确定该目标声纹特征所属的声音在语音信号中的语音幅值,根据该语音幅值及上述距离,调整该语音信号中目标声纹特征所属的声音的响度值及频率值。相对于现有技术,在免提通话模式下,针对采集到的语音信号,通过识别该语音信号中通话者的目标声纹特征,使得能够根据该目标声纹特征所属的声音的语音幅值及通话者与移动终端之间的距离,对目标声纹特征所属的声音的响度值及频率值进行调整,以实现针对通话者的声音的调整,相对于agc自适应增益调节方式,能够有效避免对环境噪声放大的问题,提升通话质量,改善使用体验。

请参阅图3,为本发明第二实施例中语音信号自适应调整方法的流程示意图,包括:

步骤301、在移动终端处于免提通话模式下,实时采集环境中的语音信号,并实时获取所述移动终端与通话者之间的距离;

步骤302、解析所述语音信号,获取所述语音信号中不同来源的各声音的声纹特征;

可以理解的是,步骤301和步骤302分别与第一实施例中的步骤201和步骤202描述的内容相似,请参阅第一实施例中的相关内容,此处不做赘述。

步骤303、查找预置的声纹特征库,判断所述各声音的声纹特征中,是否存在与所述声纹特征库中的声纹特征匹配的声纹特征;

步骤304、若存在匹配的声纹特征,则将所述匹配的声纹特征确定为所述通话者的目标声纹特征,并确定所述目标声纹特征所属的声音在所述语音信号中的语音幅值;

在本发明实施例中,移动终端内预置了声纹特征库,包括一个或多个永不的声纹特征,具体设置方式可以是:用户通过点击操作进入移动终端的设置界面,并选择声纹设置功能,以便移动终端的显示界面显示声纹设置的开始按钮,用户点击该按钮之后说任意的内容,或者念出显示界面显示的内容,由移动终端上的麦克风采集用户说的内容,并进行声纹特征的分析,判断分析得到的声纹特征是否符合要求,若符合要求,则保存该声纹特征至声纹特征库中,以完成声纹特征的设置,若不符合要求,则显示提示消息,提示用户重新进行设置。通过该种方式,可以实现一个或多个用户在一台移动终端上的声纹特征的设置。

在获取到语音信号中各声音的声纹特征之后,调整装置将查找预置的声纹特征库,判断在该各声音的声纹特征中,是否存在与声纹特征库中的声纹特征匹配的声纹特征,具体的,对于已获取的各种声音的声纹特征,依次将每一种声音的声纹特征与预置的声纹特征库中的各声纹特征进行匹配,若声纹特征库中存在与某一种声音的声纹特征匹配的声纹特征,则将该匹配的声纹特征确定为通话者的目标声纹特征,并确定该目标声纹特征所属的声音在语音信号中的语音幅值。

步骤305、确定所述语音幅值与预设阈值之间的幅值差值;

步骤306、查找预置的差值与调整参数表之间的映射关系,确定与所述幅值差值对应的调整参数表;

步骤307、查找与所述幅值差值对应的调整参数表,确定与所述距离对应的目标响度值及目标频率值;

步骤308、根据所述目标响度值及目标频率值调整所述目标声纹特征所属的声音的响度值及频率值。

在本发明实施例中,调整装置在得到目标声纹特征的语音幅值及通话者与移动终端之间的距离之后,将确定该语音幅值与预设阈值之间的幅值差值,其中,该预设阈值是用于控制声音的调整程度的。

其中,该幅值差值是用于确定调整的参数的。具体的,移动终端内预置了差值与调整参数表之间的映射关系,使得对于不同的差值需要使用不同的调整参数表,其中,该调整参数表中包含了距离、响度值及频率值之间的映射关系。

调整装置在查找到与幅值差值对应的调整参数表之后,将查找该调整参数表,确定与距离对应的目标响度值及目标频率值。

进一步的,调整装置将根据该目标响度值及目标频率值调整该目标声纹特征所属的声音的响度值及频率值,具体的:从采集到的语音信号中提取目标声纹特征所属的声音,作为目标语音信号;将该目标语音信号的响度值调整至目标响度值,将所述目标语音信号的频率值调整至目标频率值。

在本发明实施例中,通过预置声纹特征库,使得在得到语音信号中各声音的声纹特征之后,能够利用该声纹特征库进行匹配,以便得到目标声纹特征,并通过预置差值与调整参数表之间的映射关系,及预置调整参数表,使得能够利用目标声纹特征的语音幅值与预置阈值之间的差值查找上述的映射关系以确定调整参数表,并进一步的利用距离查找该调整参数表得到目标响度值及目标频率值,以便对目标声纹特征所属的声音进行细致的调整。且通过针对语音信号中目标声纹特征所属的声音进行调整,相对于agc自适应增益调节方式,能够有效避免对环境噪声放大的问题,提升通话质量,改善使用体验。

请参阅图4,为本发明第三实施例中语音信号自适应调整方法的流程示意图,包括:

步骤401、在移动终端处于免提通话模式下,实时采集环境中的语音信号,并实时获取所述移动终端与通话者之间的距离;

步骤402、解析所述语音信号,获取所述语音信号中不同来源的各声音的声纹特征;

步骤403、识别所述各声音的声纹特征中属于所述通话者的目标声纹特征,并确定所述目标声纹特征所属的声音在所述语音信号中的语音幅值;

步骤404、根据所述语音幅值及所述距离,调整所述语音信号中所述目标声纹特征所属的声音的响度值及频率值;

步骤405、从所述语音信号中提取除所述目标声纹特征以外的其他声纹特征所属的声音,得到干扰语音信号;

步骤406、对所述干扰语音信号进行降噪处理。

可以理解的是,步骤401至步骤404分别与第一实施例中的步骤201至步骤204描述的内容相似,具体可以参阅第一实施例,此处不做赘述。

可以理解的是,第三实施例是在第一实施例的基础上描述的,在另一种可行的实现方式中,第三实施例还可以在第二实施例的基础上描述,此处不做赘述。

在本发明实施例中,在针对目标声纹特征所属的声音进行调整后,为了进一步提高通话质量,还可以针对其他的声音进行调整,具体的:调整装置将从语音信号中提取除目标声纹特征以外的其他声纹特征所属的声音,得到干扰语音信号,例如,若语音信号中包含通话者的声音、电机机播放广告的声音,则该通话者的声音即为目标声纹特征所属的声音,调整装置将从该语音信号中提取电视机播放广告的声音,并作为干扰语音信号。进一步的,调整装置将对该干扰语音信号进行降噪处理,以便在将调整后的语音信号发送给另一端的通话对象之后,该通话对象收听到的语音信号中有效信号(即通话者的声音)更加清晰且音量合适,而无效信号(即干扰语音信号)更弱。

其中,该降噪处理可以采用的方式有多种,如噪声门降噪法、采样降噪法、滤波降噪法等等。

在本发明实施例中,在对语音信号中目标声纹特征所属的声音进行调整后,还将进一步的对语音信号中的干扰语音信号进行降噪处理,以便进一步的提升通话质量,改善通话体验。

请参阅图5,为本发明第四实施例中语音信号自适应调整装置的程序模块的示意图,该装置包括:

采集获取模块501,用于在移动终端处于免提通话模式下,实时采集环境中的语音信号,并实时获取所述移动终端与通话者之间的距离;

在本发明实施例中,上述的语音信号自适应调整装置为程序模块,存储在移动终端的计算机可读存储介质中,可以由处理器执行。

在通话过程中,若移动终端处于免提通话模式下,表明当前的通话者与移动终端之间存在距离,其中,该通话者是指该移动终端的本机用户。此时,移动终端上的麦克风将采集环境中的语音信号,采集获取模块501将实时获取到麦克风采集到的语音信号,可以理解的是,在通话者有说话的情况下,该语音信号中至少包含该通话者的声音,且若环境中有其他声音,麦克风也将采集到环境中存在的其他声音。

其中,采集获取模块501还将实时获取移动终端与通话者之间的距离,该距离可以通过移动终端内设置的距离传感器检测得到,该距离传感器可以为光学式位移传感器、线性接近传感器或超声波位移传感器。该距离传感器可以设置在移动终端的听筒的两侧,或者是移动终端的听筒的凹槽中,或者是设置在移动终端侧面等等,在实际应用中,可以根据具体的需要设置距离传感器的设置位置及使用的距离传感器的具体类型,此次不做限定。

解析获取模块502,用于解析所述语音信号,获取所述语音信号中不同来源的各声音的声纹特征;

声纹在用电学仪器显示时,是可以观看到的携带语言信息的声波频谱,人类语言产生时,人体语言中枢与发音器官之间有一个复杂的生物物理过程,人在讲话时所使用的发声器官包括:舌、喉头、肺、鼻腔等等,由于每一个人的发声器官在尺寸和形态上各不相同,所以彼此的声纹图谱也会存在差异。声纹特征是声纹所具备的特征参数,是使得声纹可靠的参数,不同的声纹特征可以区分不同的声音。

在本发明实施例中,对于采集到的语音信号,解析获取模块502将解析该语音信号,获取该语音信号中不同来源的各声音的声纹特征,其中,来源可以是通话者、电视、动物、机器等等各种各样的能够产生声音的人或物或设备。

识别确定模块503,用于识别所述各声音的声纹特征中属于所述通话者的目标声纹特征,并确定所述目标声纹特征所属的声音在所述语音信号中的语音幅值;

调整模块504,用于根据所述语音幅值及所述距离,调整所述语音信号中所述目标声纹特征所属的声音的响度值及频率值。

在本发明实施例中,识别确定模块503将从不同来源的各声音的声纹特征中,识别哪个才是当前的通话者的声纹特征,并将识别的声纹特征作为目标声纹特征,可以理解的是,通话者可以是一个或多个,且每一个通话者都有一组目标声纹特征。且进一步的,识别确定模块503还将确定该目标声纹特征所属的声音在语音信号中的语音幅值,其中,该目标声纹特征所属的声音即是通话者的声音,且该语音幅值是指通话者的声音所形成的声波中波幅的平均值,或者是波幅的最小值。

其中,调整模块504将根据语音幅值及通过距离传感器获取到的距离,调整语音信号中目标声纹特征所属的声音的响度值及频率值,即调整语音信号中通话者的声音的响度值及频率值。

其中,响度值用于衡量音量的大小,频率值用于衡量声音的清晰度。

需要说明的是,在完成对语音信号的调整之后,可以将该语音信号发送给另一端的通话对象所使用的移动终端,以便该通话对象能够收听到清晰且音量合适的语音。

在本发明实施例中,在移动终端处于免提通话模式下,实时采集环境中的语音信号,并实时获取该移动终端与通话者之间的距离,解析该语音信号,获取该语音信号中不同来源的各声音的声纹特征,识别该各声音的声纹特征中属于通话者的目标声纹特征,并确定该目标声纹特征所属的声音在语音信号中的语音幅值,根据该语音幅值及上述距离,调整该语音信号中目标声纹特征所属的声音的响度值及频率值。相对于现有技术,在免提通话模式下,针对采集到的语音信号,通过识别该语音信号中通话者的目标声纹特征,使得能够根据该目标声纹特征所属的声音的语音幅值及通话者与移动终端之间的距离,对目标声纹特征所属的声音的响度值及频率值进行调整,以实现针对通话者的声音的调整,相对于agc自适应增益调节方式,能够有效避免对环境噪声放大的问题,提升通话质量,改善使用体验。

请参阅图6,为本发明第五实施例中语音信号自适应调整装置的程序模块的示意图,该装置包括第四实施例中的采集获取模块501、解析获取模块502、识别确定模块503及调整模块,且与第四实施例中描述的内容相似,此处不做赘述。

在本发明实施例中,识别确定模块503包括:

查找判断模块601,用于查找预置的声纹特征库,判断所述各声音的声纹特征中,是否存在与所述声纹特征库中的声纹特征匹配的声纹特征;

目标确定模块602,用于若存在匹配的声纹特征,则将所述匹配的声纹特征确定为所述通话者的目标声纹特征;

幅值确定模块603,用于确定所述目标声纹特征所属的声音在所述语音信号中的语音幅值。

在本发明实施例中,移动终端内预置了声纹特征库,包括一个或多个永不的声纹特征,具体设置方式可以是:用户通过点击操作进入移动终端的设置界面,并选择声纹设置功能,以便移动终端的显示界面显示声纹设置的开始按钮,用户点击该按钮之后说任意的内容,或者念出显示界面显示的内容,由移动终端上的麦克风采集用户说的内容,并进行声纹特征的分析,判断分析得到的声纹特征是否符合要求,若符合要求,则保存该声纹特征至声纹特征库中,以完成声纹特征的设置,若不符合要求,则显示提示消息,提示用户重新进行设置。通过该种方式,可以实现一个或多个用户在一台移动终端上的声纹特征的设置。

在获取到语音信号中各声音的声纹特征之后,查找判断模块601将查找预置的声纹特征库,判断在该各声音的声纹特征中,是否存在与声纹特征库中的声纹特征匹配的声纹特征,具体的,对于已获取的各种声音的声纹特征,依次将每一种声音的声纹特征与预置的声纹特征库中的各声纹特征进行匹配,若声纹特征库中存在与某一种声音的声纹特征匹配的声纹特征,则目标确定模块602将该匹配的声纹特征确定为通话者的目标声纹特征,并由幅值确定模块603确定该目标声纹特征所属的声音在语音信号中的语音幅值。

在本发明实施例中,调整模块504包括:

差值确定模块604,用于确定所述语音幅值与预设阈值之间的幅值差值;

第一查找模块605,用于查找预置的差值与调整参数表之间的映射关系,确定与所述幅值差值对应的调整参数表;

第二查找模块606,用于查找与所述幅值差值对应的调整参数表,确定与所述距离对应的目标响度值及目标频率值,所述调整参数表中包含距离、响度值及频率值之间的映射关系;

目标调整模块607,用于根据所述目标响度值及目标频率值调整所述目标声纹特征所属的声音的响度值及频率值。

其中,该目标调整模块607包括:

第一提取模块608,用于从所述语音信号中提取所述目标声纹特征所属的声音,作为目标语音信号;

数据调整模块609,用于将所述目标语音信号的响度值调整至所述目标响度值,将所述目标语音信号的频率值调整至所述目标频率值。

在本发明实施例中,在得到目标声纹特征的语音幅值及通话者与移动终端之间的距离之后,差值确定模块604将确定该语音幅值与预设阈值之间的幅值差值,其中,该预设阈值是用于控制声音的调整程度的。

其中,该幅值差值是用于确定调整的参数的。具体的,移动终端内预置了差值与调整参数表之间的映射关系,使得对于不同的差值需要使用不同的调整参数表,其中,该调整参数表中包含了距离、响度值及频率值之间的映射关系。

在第一查找模块605查找到与幅值差值对应的调整参数表之后,第二查找模块606将查找该调整参数表,确定与距离对应的目标响度值及目标频率值。

进一步的,目标调整模块607将根据该目标响度值及目标频率值调整该目标声纹特征所属的声音的响度值及频率值,具体的:第一提取模块608从采集到的语音信号中提取目标声纹特征所属的声音,作为目标语音信号;数据调整模块609将该目标语音信号的响度值调整至目标响度值,将所述目标语音信号的频率值调整至目标频率值。

在本发明实施例中,通过预置声纹特征库,使得在得到语音信号中各声音的声纹特征之后,能够利用该声纹特征库进行匹配,以便得到目标声纹特征,并通过预置差值与调整参数表之间的映射关系,及预置调整参数表,使得能够利用目标声纹特征的语音幅值与预置阈值之间的差值查找上述的映射关系以确定调整参数表,并进一步的利用距离查找该调整参数表得到目标响度值及目标频率值,以便对目标声纹特征所属的声音进行细致的调整。且通过针对语音信号中目标声纹特征所属的声音进行调整,相对于agc自适应增益调节方式,能够有效避免对环境噪声放大的问题,提升通话质量,改善使用体验。

请参阅图7,为本发明第六实施例中语音信号自适应调整装置的程序模块的示意图,包括:第四实施例中的采集获取模块501、解析获取模块502、识别确定模块503及调整模块504,且与第四实施例中描述的内容相似,此处不做赘述。

可以理解的是,第六实施例是在第四实施例的基础上描述的,此外,该第六实施例还可以在第五实施例的基础上进行描述。

在本发明实施例中,该装置还包括:

第二提取模块701,用于从所述语音信号中提取除所述目标声纹特征以外的其他声纹特征所属的声音,得到干扰语音信号;

降噪模块702,用于对所述干扰语音信号进行降噪处理。

在本发明实施例中,在针对目标声纹特征所属的声音进行调整后,为了进一步提高通话质量,还可以针对其他的声音进行调整,具体的:第二提取模块701将从语音信号中提取除目标声纹特征以外的其他声纹特征所属的声音,得到干扰语音信号,例如,若语音信号中包含通话者的声音、电机机播放广告的声音,则该通话者的声音即为目标声纹特征所属的声音,调整装置将从该语音信号中提取电视机播放广告的声音,并作为干扰语音信号。进一步的,降噪模块702将对该干扰语音信号进行降噪处理,以便在将调整后的语音信号发送给另一端的通话对象之后,该通话对象收听到的语音信号中有效信号(即通话者的声音)更加清晰且音量合适,而无效信号(即干扰语音信号)更弱。

其中,该降噪处理可以采用的方式有多种,如噪声门降噪法、采样降噪法、滤波降噪法等等。

在本发明实施例中,在对语音信号中目标声纹特征所属的声音进行调整后,还将进一步的对语音信号中的干扰语音信号进行降噪处理,以便进一步的提升通话质量,改善通话体验。

本发明实施例还提供一种移动终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现第一实施例至第三实施例中任意一实施例中的语音信号自适应调整方法中的各个步骤。

本发明实施例还提供一种存储介质,该存储介质具体可以为计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现第一实施例至第三实施例中任意一实施例中的语音信号自适应调整方法中的各个步骤。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上为对本发明所提供的一种语音信号自适应调整方法、装置、移动终端及存储介质的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1