语音信息处理方法、播放设备及计算机可读存储介质与流程

文档序号:16815819发布日期:2019-02-10 14:29阅读:128来源:国知局
语音信息处理方法、播放设备及计算机可读存储介质与流程

本发明属于语音识别技术领域,尤其涉及语音信息处理方法、播放设备及计算机可读存储介质。



背景技术:

随着语音处理技术的发展,语音云服务的应用越来越广泛,例如苹果的siri,亚马逊的alexa。越来越多的播放设备(例如蓝牙音响)可以通过本地关键词语音识别或者按键触发蓝牙链路连接,然后通过蓝牙链路传输用户语音到手机上,再由手机通过互联网将语音传输到云服务上进行语音交互服务。然而,在现有技术中由于说话人与播放设备的距离不同,容易导致输入播放设备的语音有较大的差别,进而对播放设备的语音识别产生较大的干扰。



技术实现要素:

有鉴于此,本发明实施例提供了语音处理方法、播放设备及计算机可读存储介质,以减少对语音识别的干扰,提高语音识别的准确率。

本发明实施例的第一方面提供了一种语音信息处理方法,所述语音信息处理方法包括:

获取发出语音信息的用户与播放设备之间的距离;

根据所述发出语音信息的用户与播放设备之间的距离,调整所述语音信息的声音响度,以使得所述语音信息的声音响度满足第一预设条件。

本发明实施例的第二方面提供了一种播放设备,所述播放设备包括:

距离获取模块,用于获取发出语音信息的用户与播放设备之间的距离;

调整模块,用于根据所述发出语音信息的用户与播放设备之间的距离,调整所述语音信息的声音响度,以使得所述语音信息的声音响度满足第一预设条件。

本发明实施例的第三方面提供了一种播放设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述语音信息处理方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质,计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述语音信息处理方法的步骤。

本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过获取发出语音信息的用户与播放设备之间的距离,并根据所述发出语音信息的用户与播放设备之间的距离,调整所述语音信息的声音响度,从而使得所述播放设备所接收到的所述语音信息的声音响度满足第一预设条件(例如,将语音信息的语音响度调整至最佳的响度),减少输入播放设备的语音信息的差别,进而减少对语音识别的干扰,提高语音识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的语音信息处理方法的实现流程图;

图2是本发明实施例一提供的平面四元t形阵列结构图;

图3是本发明实施例二提供的语音信息处理方法的实现流程图;

图4是本发明实施例三提供的播放设备的示意图;

图5是本发明实施例四提供的播放设备的示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

参见图1,是本发明实施例一提供的语音信息处理方法的实现流程图,该语音信息处理方法应用于播放设备,如图所示该语音信息处理方法可以包括以下步骤:

步骤s101,获取发出语音信息的用户与播放设备之间的距离。

在本发明实施例例中,播放设备在接收到语音信息时,获取发出所述语音信息的用户(即声源)相对于所述播放设备的位置信息,例如,发出所述语音信息的用户与播放设备之间的距离、角度等。

可选的,所述获取发出语音信息的用户与播放设备之间的距离包括:

根据所述播放设备中的麦克风阵列对发出语音信息的用户进行定位,以获取所述发出语音信息的用户与播放设备之间的距离。

在本发明实施例中,可以通过所述播放设备中的麦克风阵列对发出语音信息的用户进行定位,从而获取发出语音信息的用户与播放设备之间的位置信息。其中,所述麦克风阵列包括多个麦克风。优选的,所述麦克风阵列包括四个麦克风。

具体的,获取所述播放设备中麦克风阵列中每个麦克风的相对语音延迟时间,利用估计的延迟时间,计算发出语音信息的用户的位置。其中,延迟时间可以采用最小均方误差自适应滤波器方法进行估计。发出语音信息的用户与播放设备的位置信息可以基于延迟时间通过平面四元t形阵列几何定位算法来计算,计算如下:

如图2所示是平面四元t形阵列结构图,由四个全向麦克风mic0、mic1、mic2和mic3组成。设定mic0麦克风为参考麦克风,并以其所处位置为原点建立坐标系,其余三个麦克风与参考麦克风的距离均为l。

设声源(发出语音信息的用户)入射波到达麦克风mic1、mic2和mic3相对于到达参考麦克风mic0的时间延迟分别为τ10、τ20和τ30。声源的方位角为ψ,定义为声源入射方向在xoy平面的投影与x轴正向的夹角。声源的仰角为θ,定义为声源入射方向与其在xoy平面的投影的夹角。声源距参考麦克风的距离记为r,空气声速为c。由声源和麦克风阵列的几何位置关系,利用余弦定理可得:

l2+2rcτ10-(cτ10)2-2rlcosθcosψ=0(1)

l2+2rcτ20-(cτ20)2-2rlcosθsinψ=0(2)

l2+2rcτ30-(cτ30)2+2rlcosθcosψ=0(3)

将公式(1)和公式(3)相加,可得:

2l2+2rc(τ10+τ30)-c2(τ102+τ302)=0(4)

对公式(4)进行求解,可以获得声源与参考麦克风的距离r:

由公式(3)减去公式(1),并整理可得:

4rlcosθcosψ=2rc(τ10-τ30)-c2(τ102-τ302)(6)

整理公式(2)可得:

2rlcosθsinψ=l2+2rcτ20-(cτ20)2(7)

由公式(6)和公式(7),两边分别对应相除,可得:

因此声源方位角ψ为:

令arctan(∞)=90°,arctan(-∞)=-90°,

若目标位于远场,即有r>>cτi0,r>>l,i=1,2,3,则声源方位角ψ近似为:

将公式(1)至公式(3)写成:

ad=b(11)

其中,

利用最小二乘法,可获得声源的仰角θ满足公式(13):

若声源处于远场,公式(13)可近似为:

则声源仰角

由上述分析可获得声源的位置信息的三个参数(r,ψ,θ)。

公式(5)、(9)和(14)为近场情况下平面四元t形阵列的几何定位方程。若声源处于远场,则公式(9)和(14)相应地简化为公式(10)和(16)。根据上述定位方程,即可通过相应的时延差计算出声源相对麦克风阵列的几何位置。由公式(9)和(10)可知,当tanψ>0时,声源的方位角可能是在[0°,90°]或[180°,270°];当tanψ<0时,声源的方位角可能是区间[90°,180°][或[270°,360°]。因此,为了唯一确定声源的方位角,在实际应用中可将麦克风阵列靠近房间的墙壁(即播放设备靠墙壁放置),以此保证方位角的范围在0°到180°之间。

步骤s102,根据所述发出语音信息的用户与播放设备之间的距离,调整所述语音信息的声音响度,以使得所述语音信息的声音响度满足第一预设条件。

在本发明实施例中,基于播放设备中的麦克风阵列对发出语音信息的用户进行定位,获取所述发出语音信息的用户与播放设备之间的距离,根据所述发出语音信息的用户与播放设备之间的距离,对所述语音信息进行增益处理,从而使得所述语音信息的声音响度保持在最佳的响度。当所述发出语音信息的用户与播放设备之间的距离较大(例如大于预设距离阈值,该预设距离阈值可以为所述语音信息处于最佳响度时,发出语音信息的用户与播放设备之间的距离)时,所述语音信息的声音响度较小,此时应增大所述语音信息的声音响度;当所述发出语音信息的用户与播放设备之间的距离较小(例如小于预设距离阈值)时,所述语音信息的声音响度较大,也会影响所述语音信息的识别,此时应降低所述语音信息的声音响度。其中,最佳响度可以根据经验值设定,在此不作限定。所述第一预设条件可以是指所述发出语音信息的用户与播放设备之间的距离等于预设距离阈值时所对应的声音响度。

可选的,当所述发出语音信息的用户与播放设备之间的距离不等于预设距离阈值时,所述播放设备可以发出相应的提示信息。例如,当所述发出语音信息的用户与播放设备之间的距离大于预设距离阈值时,提示用户向靠近所述播放设备的方向移动,并在移动的过程中检测所述发出语音信息的用户与播放设备之间的距离,当所述发出语音信息的用户与播放设备之间的距离等于所述预设距离阈值时,提示用户停止移动;当所述发出语音信息的用户与播放设备之间的距离小于预设距离阈值时,提示用户向远离所述播放设备的方向移动,并在移动终端的过程中检测所述发出语音信息的用户与播放设备之间的距离,当所述发出语音信息的用户与播放设备之间的距离等于所述预设距离阈值时,提示用户停止移动。从而通过发出语音信息的用户的移动,使得所述发出语音信息的用户与播放设备之间的距离等于预设距离阈值,进而使得所述语音信息处于最佳响度。

本发明实施例通过获取发出语音信息的用户与播放设备之间的距离,并根据所述发出语音信息的用户与播放设备之间的距离,调整所述语音信息的声音响度,从而使得所述播放设备所接收到的所述语音信息的声音响度满足第一预设条件(例如,将语音信息的语音响度调整至最佳的响度),减少输入播放设备的语音信息的差别,进而减少对语音识别的干扰,提高语音识别的准确率。

参见图3,是本发明实施例二提供的语音信息处理方法的实现流程图,该语音信息处理方法应用于播放设备,如图所示该语音信息处理方法可以包括以下步骤:

步骤s301,获取发出语音信息的用户与播放设备之间的距离。

该步骤与步骤s101相同,具体可参见步骤s101的相关描述,在此不再赘述。

步骤s302,确定所述发出语音信息的用户与播放设备之间的距离所属的档位,其中,所述档位是指预先设置的距离范围。

在本发明实施例中,可以预先设置多个距离范围,即设置多个档位,例如设置0米~2米,2米~4米,4米~6米,6米~8米,8米~10米等五个档位。在获取所述发出语音信息的用户与播放设备之间的距离之后,根据预先设置的多个距离范围,判断所述发出语音信息的用户与播放设备之间的距离属于哪个距离范围。例如,当所述发出语音信息的用户与播放设备之间的距离为5米时,可确定所述发出语音信息的用户与播放设备之间的距离属于距离范围为4米~6米的档位。

步骤s303,根据所述发出语音信息的用户与播放设备之间的距离所属的档位,调整所述语音信息的声音响度,以使得所述语音信息的声音响度满足第一预设条件。

在本发明实施例中,可以根据所述发出语音信息的用户与播放设备之间的距离所属的档位,调整所述语音信息的声音响度,从而使得所述语音信息的声音响度保持在最佳响度。其中,最佳响度可以根据经验值设定,在此不作限定。

可选的,所述根据所述发出语音信息的用户与播放设备之间的距离所属的档位,调整所述语音信息的声音响度包括:

获取所述发出语音信息的用户与播放设备之间的距离所属的档位对应的声音响度的增益;

根据所述发出语音信息的用户与播放设备之间的距离所属的档位对应的声音响度的增益,调整所述语音信息的声音响度。

在本发明实施例中,可以在步骤s301之前建立档位与声音响度的增益的对应关系。不同的档位采取不同的增益,当所述发出语音信息的用户与播放设备之间的距离属于距离近的档位时,说明所述语音信息的声音响度较大,可以在所述语音信息的原有声音响度上减少不同的增益,从而将所述语音信息的声音响度调整至最佳的响度;当所述发出语音信息的用户与播放设备之间的距离属于中间档位时,说明所述语音信息的声音响度处于最佳的响度,保持不变;当所述发出语音信息的用户与播放设备之间的距离属于距离远的档位时,说明所述语音信息的声音响度较小,在所述语音信息的原有声音响度上增加不同的增益,从而将所述语音信息的声音响度调整至最佳的响度。

例如,针对四个麦克风的麦克风阵列,通过测试,声源(即发出语音信息的用户)与播放设备之间的距离为5米时,语音信息的声音响度效果最佳(即语音信息的声音响度为最佳响度)。那么可以以5米为基准设置五个档位,分别为0米~2米,2米~4米,4米~6米,6米~8米,8米~10米,该五个档位分别对应的声音响度的增益为-20db,-10db,0db,+10db,+20db,从而使得发出语音信息的用户无论在哪个有效距离内,播放设备都可以接收到最佳的语音信息。

可选的,所述语音信息处理方法还包括:

获取所述发出语音信息的用户与播放设备之间的角度;

判断所述发出语音信息的用户与播放设备之间的角度是否满足第二预设条件;

若否,则转动所述播放设备,以使得所述发出语音信息的用户与播放设备之间的角度满足第二预设条件。

在本发明实施例中,所述发出语音信息的用户与播放设备之间的角度可以用发出语音信息的用户的位置信息的三个参数(r,ψ,θ)中的方位角ψ来表示。所述第二预设条件可以是指发出语音信息的用户的方位角ψ为90,即在转动所述播放设备时是将所述播放设备转动到所述发出语音信息的用户在所述播放设备的正对面的位置。

本发明实施例通过发出语音信息的用户与播放设备之间的距离,调整所述语音信息的声音响度,从而使得所述播放设备所接收到的所述语音信息的声音响度满足第一预设条件(例如,将语音信息的语音响度调整至最佳的响度),减少输入播放设备的语音信息的差别,进而减少对语音识别的干扰,提高语音识别的准确率。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

参见图4,是本发明实施例三提供的播放设备的示意图,为了便于说明,仅示出了与本发明是实施例相关的部分。

所述播放设备包括:

距离获取模块41,用于获取发出语音信息的用户与播放设备之间的距离;

调整模块42,用于根据所述发出语音信息的用户与播放设备之间的距离,调整所述语音信息的声音响度,以使得所述语音信息的声音响度满足第一预设条件。

可选的,所述距离获取模块41具体用于:

根据所述播放设备中的麦克风阵列对发出语音信息的用户进行定位,以获取所述发出语音信息的用户与播放设备之间的距离;

所述调整模块42包括:

确定单元421,用于确定所述发出语音信息的用户与播放设备之间的距离所属的档位,其中,所述档位是指预先设置的距离范围;

响度调整单元422,用于根据所述发出语音信息的用户与播放设备之间的距离所属的档位,调整所述语音信息的声音响度;

所述响度调整单元422包括:

增益获取子单元,用于获取所述发出语音信息的用户与播放设备之间的距离所属的档位对应的声音响度的增益;

响度调整子单元,用于根据所述发出语音信息的用户与播放设备之间的距离所属的档位对应的声音响度的增益,调整所述语音信息的声音响度。

可选的,所述移动终端还包括:

角度获取模块43,用于获取所述发出语音信息的用户与播放设备之间的角度;

判断模块44,用于判断所述发出语音信息的用户与播放设备之间的角度是否满足第二预设条件;

转动模块45,用于若所述判断模块的判断结果为否,则转动所播放设备,以使得所述发出语音信息的用户与播放设备之间的角度满足第二预设条件。

本发明实施例提供的移动终端可以使用在前述对应的方法实施例一和实施例二中,详情参见上述实施例一和实施例二的描述,在此不再赘述。

图5是本发明实施例四提供的播放设备的示意图。如图5所示,该实施例的播放设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个语音信息处理方法实施例中的步骤,例如图1所示的步骤101至102。或者,所述处理器50执行所述计算机程序52时实现上述各播放设备实施例中各模块/单元的功能,例如图4所示模块41至45的功能。

示例性的,所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述播放设备5中的执行过程。例如,所述计算机程序52可以被分割成距离获取模块、调整模块、角度获取模块、判断模块以及转动模块,各模块具体功能如下:

距离获取模块,用于获取发出语音信息的用户与播放设备之间的距离;

调整模块,用于根据所述发出语音信息的用户与播放设备之间的距离,调整所述语音信息的声音响度,以使得所述语音信息的声音响度满足第一预设条件。

可选的,所述距离获取模块具体用于:

根据所述播放设备中的麦克风阵列对发出语音信息的用户进行定位,以获取所述发出语音信息的用户与播放设备之间的距离;

所述调整模块包括:

确定单元,用于确定所述发出语音信息的用户与播放设备之间的距离所属的档位,其中,所述档位是指预先设置的距离范围;

响度调整单元,用于根据所述发出语音信息的用户与播放设备之间的距离所属的档位,调整所述语音信息的声音响度;

所述响度调整单元包括:

增益获取子单元,用于获取所述发出语音信息的用户与播放设备之间的距离所属的档位对应的声音响度的增益;

响度调整子单元,用于根据所述发出语音信息的用户与播放设备之间的距离所属的档位对应的声音响度的增益,调整所述语音信息的声音响度。

可选的,所述移动终端还包括:

角度获取模块,用于获取所述发出语音信息的用户与播放设备之间的角度;

判断模块,用于判断所述发出语音信息的用户与播放设备之间的角度是否满足第二预设条件;

转动模块,用于若所述判断模块的判断结果为否,则转动所播放设备,以使得所述发出语音信息的用户与播放设备之间的角度满足第二预设条件。

所述播放设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述播放设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是播放设备5的示例,并不构成对播放设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述播放设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述播放设备5的内部存储单元,例如播放设备5的硬盘或内存。所述存储器51也可以是所述播放设备5的外部存储设备,例如所述播放设备5上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器51还可以既包括所述播放设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述播放设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述播放设备的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的播放设备和方法,可以通过其它的方式实现。例如,以上所描述的播放设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1