语音增强处理方法、装置及存储介质与流程

文档序号:20497764发布日期:2020-04-21 22:31阅读:212来源:国知局
语音增强处理方法、装置及存储介质与流程

本公开涉及人工智能技术领域,特别涉及一种语音增强处理方法、装置及存储介质。



背景技术:

如今,人工智能技术日益发展,而语音交互功能作为人工智能技术中广泛应用的重要一环,在进行语音交互的过程中,通过进行语音增强可以提升语音交互的效果。

目前,语音增强分为两种情况,一种是拾音器与声源距离较近的近场情况,另一种是拾音器与声源距离较远的远场情况。在近场情况下,采用普通麦克风进行录音,对录音信号进行单通道降噪。在远场情况下,采用麦克风阵列进行录音,然后通过声源定位确定拾音方向,经过各种算法计算来实现语音增强。

然而,由于采用近场交互方式需要拾音器与声源的距离要较近,在实际的语音交互场景中不易达到,而采用远场交互容易受到外界声学环境的干扰,导致语音交互的质量不高。



技术实现要素:

本公开提供一种语音增强处理方法、装置及存储介质。所述技术方案如下:

根据本公开实施例的第一方面,提供了一种语音增强处理方法,其特征在于,所述方法用于包含近场声音采集组件和远场声音采集组件的语音交互设备中,所述方法包括:

根据模式检测信号确定所述语音交互设备的交互模式,所述交互模式包括近场交互模式或者远场交互模式;

根据当前所述交互模式,对所述交互模式对应的声音采集组件采集到的声音信号进行语音增强,获得增强后的当前所述交互模式的交互语音。

可选的,所述根据当前所述交互模式,对所述交互模式对应的声音采集组件采集到的声音信号进行语音增强,获得增强后的当前所述交互模式的交互语音,包括:

响应于所述交互模式包括所述近场交互模式,对所述近场声音采集组件采集到的声音信号进行语音增强,获得增强后的近场交互语音;

或者,

响应于所述交互模式包括所述远场交互模式,对所述远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音。

可选的,所述模式检测信号包括所述近场声音采集组件采集到的第一声音信号,以及所述远场声音采集组件采集到的第二声音信号;

所述根据模式检测信号确定所述语音交互设备的交互模式,包括:

对第一声音信号进行语音检测;

获取所述第一声音信号的平均功率和所述第二声音信号的平均功率之间的功率比值;所述平均功率是对应的声音信号的总功率在对应的声音采集组件中的每个麦克风上的平均值;

响应于所述第一声音信号中存在语音,且所述功率比值大于功率比值阈值,将所述交互模式确定为所述近场交互模式;

响应于所述第一声音信号中不存在语音,或者,响应于所述功率比值小于所述功率比值阈值,或者,响应于所述第一声音信号中不存在语音且所述功率比值小于所述功率比值阈值,将所述交互模式确定为所述远场交互模式。

可选的,所述模式检测信号包括按键信号,所述按键信号用于指示指定按键是否接收到触发操作;

所述根据模式检测信号确定所述语音交互设备的交互模式,包括:

响应于所述按键信号指示所述指定按键接收到所述触发操作,将所述交互模式确定为所述近场交互模式;

响应于所述按键信号指示所述指定按键未接收到所述触发操作,将所述交互模式确定为所述远场交互模式。

可选的,所述响应于所述交互模式包括所述近场交互模式,对所述近场声音采集组件采集到的声音信号进行语音增强,获得增强后的近场交互语音,包括:

响应于所述交互模式包括所述近场交互模式,确定声音信号相对于所述远场声音采集组件的方向;

根据所述方向对所述声音信号做波束形成,得到零陷波束;

将所述零陷波束作为噪声参考,对所述声音信号进行降噪获得所述增强后的近场交互语音。

可选的,所述响应于所述交互模式包括所述近场交互模式,确定声音信号相对于所述远场声音采集组件的方向,包括:

通过到达时间差算法以所述近场声音采集组件采集到的所述声音信号为参考,确定所述声音信号相对于所述远场声音采集组件的方向。

可选的,所述响应于所述交互模式包括所述远场交互模式,对所述远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音,包括:

通过远场语音信号增强算法,对所述声音信号进行降噪获得所述增强后的远场交互语音。

可选的,所述通过远场语音信号增强算法,对所述声音信号进行降噪获得所述增强后的远场交互语音,包括:

通过波束形成、噪声抑制和自动增益控制中的至少一种方法对所述声音信号进行降噪获得所述增强后的远场交互语音。

可选的,所述响应于所述交互模式包括所述远场交互模式,对所述远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音之后,还包括:

响应于确定所述嘈杂程度为嘈杂环境、存在所述非方向性噪音以及语音信号的质量小于第二阈值中的至少一个,则提示用户使用近场交互模式,所述嘈杂程度为声学环境中通过设置第一阈值确定的噪音情况。

根据本公开实施例的第二方面,提供了一种语音增强处理装置,所述装置由包含近场声音采集组件和远场声音采集组件的语音交互设备执行,所述装置包括:

模式确定模块,用于根据模式检测信号确定所述语音交互设备的交互模式,所述交互模式包括近场交互模式或者远场交互模式;

语音增强模块,用于根据当前所述交互模式,对所述交互模式对应的声音采集组件采集到的声音信号进行语音增强,获得增强后的当前所述交互模式的交互语音。

可选的,所述语音增强模块,包括:

近场增强子模块,用于响应于所述交互模式包括所述近场交互模式,对所述近场声音采集组件采集到的声音信号进行语音增强,获得增强后的近场交互语音;

或者,

远场增强子模块,用于响应于所述交互模式包括所述远场交互模式,对所述远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音。

可选的,所述模式检测信号包括所述近场声音采集组件采集到的第一声音信号,以及所述远场声音采集组件采集到的第二声音信号;

所述模式确定模块,包括:

第一检测子模块,用于对第一声音信号进行语音检测;

比值获取子模块,用于获取所述第一声音信号的平均功率和所述第二声音信号的平均功率之间的功率比值;所述平均功率是对应的声音信号的总功率在对应的声音采集组件中的每个麦克风上的平均值;

第一近场确定子模块,用于响应于所述第一声音信号中存在语音,且所述功率比值大于功率比值阈值,将所述交互模式确定为所述近场交互模式;

第一远场确定子模块,用于响应于所述第一声音信号中不存在语音,或者,响应于所述功率比值小于所述功率比值阈值,或者,响应于所述第一声音信号中不存在语音且所述功率比值小于所述功率比值阈值,将所述交互模式确定为所述远场交互模式。

可选的,所述模式检测信号包括按键信号,所述按键信号用于指示指定按键是否接收到触发操作;

所述模式确定模块,包括:

第二近场确定子模块,用于响应于所述按键信号指示所述指定按键接收到所述触发操作,将所述交互模式确定为所述近场交互模式;

第二远场确定子模块,用于响应于所述按键信号指示所述指定按键未接收到所述触发操作,将所述交互模式确定为所述远场交互模式。

可选的,所述近场增强子模块,包括:

方向确定单元,用于响应于所述交互模式包括所述近场交互模式,确定声音信号相对于所述远场声音采集组件的方向;

波束形成单元,用于根据所述方向对所述声音信号做波束形成,得到零陷波束;

近场语音获取单元,用于将所述零陷波束作为噪声参考,对所述声音信号进行降噪获得所述增强后的近场交互语音。

可选的,所述方向确定单元,用于,

通过到达时间差算法以所述近场声音采集组件采集到的所述声音信号为参考,确定所述声音信号相对于所述远场声音采集组件的方向。

可选的,所述远场增强子模块,包括:

远场语音获取单元,用于通过远场语音信号增强算法,对所述声音信号进行降噪获得所述增强后的远场交互语音。

可选的,所述远场语音获取单元,用于,

通过波束形成、噪声抑制和自动增益控制中的至少一种方法对所述声音信号进行降噪获得所述增强后的远场交互语音。

可选的,所述装置还包括:

近场提示子模块,用于响应于所述交互模式包括所述远场交互模式,对所述远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音之后,响应于确定所述嘈杂程度为所述嘈杂环境、存在所述非方向性噪音以及所述语音信号的质量小于第二阈值中的至少一个,则提示用户使用近场交互模式,所述嘈杂程度为声学环境中通过设置第一阈值确定的噪音情况。

根据本公开实施例的第三方面,提供了一种语音增强处理装置,所述装置由包含近场声音采集组件和远场声音采集组件的语音交互设备执行,所述装置包括:

处理器;

用于存储所述处理器的可执行指令的存储器;

其中,所述处理器被配置为:

根据模式检测信号确定所述语音交互设备的交互模式,所述交互模式包括近场交互模式或者远场交互模式;

根据当前所述交互模式,对所述交互模式对应的声音采集组件采集到的声音信号进行语音增强,获得增强后的当前所述交互模式的交互语音。

根据本公开实施例的第四方面,提供了一种计算机设备可读存储介质,所述计算机设备可读存储介质中包含可执行指令,所述可执行指令由处理器调用执行,以实现上述第一方面或者第一方面的任一可选方案所述的语音增强处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果:

在包含近场声音采集组件和远场声音采集组件的语音交互设备中,根据模式检测信号确定语音交互设备的交互模式,交互模式包括近场交互模式或者远场交互模式;根据当前交互模式,对交互模式对应的声音采集组件采集到的声音信号进行语音增强,获得增强后的当前交互模式的交互语音。通过上述方案,可以通过切换两种拾音模式对语音信号进行处理,从而减少了在实际应用场景下对声源位置的限制,提高了语音处理的质量。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语音交互设备的示意图;

图2是根据一示例性实施例示出的一种语音增强处理方法的示意图;

图3是根据一示例性实施例示出的一种语音增强处理方法的流程图;

图4是根据另一示例性实施例示出的一种语音增强处理方法的流程图;

图5是根据一示例性实施例示出的一种语音增强处理装置的框图;

图6示出了本公开一个示例性实施例提供的电子设备600的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

应当理解的是,在本文中提及的“若干个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

为了方便理解,下面对本公开实施例中涉及的名词进行说明。

1)麦克风阵列

麦克风阵列是由一定数目的声学传感器组成的,这里的声学传感器一般是指麦克风。麦克风阵列是用来对声场的空间特性进行采样并处理的系统。麦克风阵列可以应用在终端或者计算机设备的音频接收模块,用来接收处理音频信号。

2)人工智能

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

3)语音技术(speechtechnology)

语音技术的关键技术有自动语音识别技术(automaticspeechrecognition,asr)和语音合成技术(text-to-speech,tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。

图1是根据一示例性实施例示出的一种语音交互设备的示意图。如图1所示,该语音交互设备100包括近场拾音器110、远场拾音器120以及处理器130。

其中,语音交互设备100可以是具有声音信号接收能力与声音信号处理能力的终端或者计算机设备。

比如,语音交互设备100可以是一种服务类型的机器人,如医院的导诊机器人和自助挂号机、地铁站的自助售票机、商场和超市的导购机器人、公共场所的问路机器人、银行的自助柜台,或者,智能电视、智能音箱等具有语音识别功能的人工智能设备。

近场拾音器可以为单麦克风或者麦克风阵列,远场拾音器可以为麦克风阵列。

可选的,近场拾音器110可以设置在语音交互设备100的内部,或者设置在语音交互设备100的外部。

其中,近场拾音器110可以通过有线或者无线的方式与语音交互设备100进行数据传输。

可选的,近场拾音器110与远场拾音器120分别可以接收到语音信号,并且将语音信号传输给处理器130,通过处理器130按照预定的算法对语音信号进行降噪处理。

可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(localareanetwork,lan)、城域网(metropolitanareanetwork,man)、广域网(wideareanetwork,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(hypertextmark-uplanguage,html)、可扩展标记语言(extensiblemarkuplanguage,xml)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(securesocketlayer,ssl)、传输层安全(transportlayersecurity,tls)、虚拟专用网络(virtualprivatenetwork,vpn)、网际协议安全(internetprotocolsecurity,ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

图2是根据一示例性实施例示出的一种语音增强处理方法的示意图。如图2所示,该语音增强处理方法包括的步骤如下:

步骤201,确定拾音模式。

在一种可能的实现方式中,语音处理设备通过对由近场拾音器获取的语音数据进行语音端点检测vad,判断是否接收到语音信号,当判断接收到语音信号,同时计算近场信号x(t)的功率和远场信号y1(t)到ym(t)的平均功率的比值。

当判断比值超过一定阈值时,则进入近场拾音模式,否则进入远场拾音模式。

步骤202,当确认是近场拾音模式时,根据近场算法对语音信号进行处理。

近场拾音模式的算法是,通过确定声源相对于远场拾音器(阵列)的方向,对远场拾音器接收到的远场语音信号做波束形成,该波束形成对主语音信号方向形成零陷,零陷波束作为噪声参考,对近场语音信号进行降噪。

其中确定声源相对于远场拾音器的方向是采用基于tdoa(timediffenenceofarrival,到达时间差)的算法,与传统的基于tdoa的算法的差别在于:传统tdoa算法直接估计远场麦克风信号之间的相对延迟,本方案的tdoa估计方法是以近场语音信号为参考,计算每一个远场语音信号相对于近场语音信号的延迟,再减去参考麦克风估计的延迟。

步骤203,当确定拾音模式为远场模式时,根据远场算法对语音信号进行处理。

远场拾音模式的算法是,采用已有的远场增强算法,如波束形成、噪声抑制和自动增益控制等。

步骤204,根据交互效果判断接下来的拾音模式。

当满足以下条件时,提示用户由远场拾音模式切换至近场拾音模式:

1)估计声学环境的嘈杂程度

对远场语音信号的噪音进行统计,统计方式可采用最小值追踪算法,当平均噪音超过一定门限时,认定为嘈杂环境。

2)估计噪音的方向分布

判断波束形成的波束功率,若所有的波束功率都较大,则认为非方向性强噪声存在。

3)估计语音信号的语音质量

统计主语音方向波束输出的信噪比,当信噪比较低时,认为语音质量不够好。

当声学环境为嘈杂环境、存在非方向性强噪声以及语音质量不够好时,判定语音交互的效果不好,则可以提示用户由远场拾音模式切换至近场拾音模式。

图3是根据一示例性实施例示出的一种语音增强处理方法的流程图。该语音增强处理方法可以应用于包含近场声音采集组件和远场声音采集组件的语音交互设备中,以对采集到的声音信号进行增强处理,比如,该设备可以是图1所示的语音交互设备100,近场声音采集组件可以是图1所示的近场拾音器110,远场声音采集组件可以是图1所示的远场拾音器120。如图3所示,该语音增强处理方法可以包括以下步骤:

在步骤301中,根据模式检测信号确定该语音交互设备的交互模式,该交互模式包括近场交互模式或者远场交互模式。

在步骤302中,根据当前该交互模式,对该交互模式对应的声音采集组件采集到的声音信号进行语音增强,获得增强后的当前该交互模式的交互语音。

可选的,该根据当前该交互模式,对该交互模式对应的声音采集组件采集到的声音信号进行语音增强,获得增强后的当前该交互模式的交互语音,包括:

响应于该交互模式包括该近场交互模式,对该近场声音采集组件采集到的声音信号进行语音增强,获得增强后的近场交互语音;

或者,

响应于该交互模式包括该远场交互模式,对该远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音。

可选的,该模式检测信号包括该近场声音采集组件采集到的第一声音信号,以及该远场声音采集组件采集到的第二声音信号;

该根据模式检测信号确定该语音交互设备的交互模式,包括:

对第一声音信号进行语音检测;

获取该第一声音信号的平均功率和该第二声音信号的平均功率之间的功率比值;该平均功率是对应的声音信号的总功率在对应的声音采集组件中的每个麦克风上的平均值;

响应于该第一声音信号中存在语音,且该功率比值大于功率比值阈值,将该交互模式确定为该近场交互模式;

响应于该第一声音信号中不存在语音,或者,响应于该功率比值小于该功率比值阈值,或者,响应于该第一声音信号中不存在语音且该功率比值小于该功率比值阈值,将该交互模式确定为该远场交互模式。

可选的,该模式检测信号包括按键信号,该按键信号用于指示指定按键是否接收到触发操作;

该根据模式检测信号确定该语音交互设备的交互模式,包括:

响应于该按键信号指示该指定按键接收到该触发操作,将该交互模式确定为该近场交互模式;

响应于该按键信号指示该指定按键未接收到该触发操作,将该交互模式确定为该远场交互模式。

可选的,该响应于该交互模式包括该近场交互模式,对该近场声音采集组件采集到的声音信号进行语音增强,获得增强后的近场交互语音,包括:

响应于该交互模式包括该近场交互模式,确定声音信号相对于该远场声音采集组件的方向;

根据该方向对该声音信号做波束形成,得到零陷波束;

将该零陷波束作为噪声参考,对该声音信号进行降噪获得该增强后的近场交互语音。

可选的,该响应于该交互模式包括该近场交互模式,确定声音信号相对于该远场声音采集组件的方向,包括:

通过到达时间差算法以该近场声音采集组件采集到的该声音信号为参考,确定该声音信号相对于该远场声音采集组件的方向。

可选的,该响应于该交互模式包括该远场交互模式,对该远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音,包括:

通过远场语音信号增强算法,对该声音信号进行降噪获得该增强后的远场交互语音。

可选的,该通过远场语音信号增强算法,对该声音信号进行降噪获得该增强后的远场交互语音,包括:

通过波束形成、噪声抑制和自动增益控制中的至少一种方法对该声音信号进行降噪获得该增强后的远场交互语音。

可选的,该响应于该交互模式包括该远场交互模式,对该远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音之后,还包括:

响应于确定该嘈杂程度为该嘈杂环境、存在该非方向性噪音以及该语音信号的质量小于第二阈值中的至少一个,则提示用户使用近场交互模式,该嘈杂程度为声学环境中通过设置第一阈值确定的噪音情况。

综上所述,本公开实施例中提供的语音增强处理方法,在包含近场声音采集组件和远场声音采集组件的语音交互设备中,根据模式检测信号确定语音交互设备的交互模式,交互模式包括近场交互模式或者远场交互模式;根据当前交互模式,对交互模式对应的声音采集组件采集到的声音信号进行语音增强,获得增强后的当前交互模式的交互语音。通过上述方案,可以通过切换两种拾音模式对语音信号进行处理,从而减少了在实际应用场景下对声源位置的限制,提高了语音处理的质量。

图4是根据另一示例性实施例示出的一种语音增强处理方法的流程图,该语音增强处理方法可以应用于包含近场声音采集组件和远场声音采集组件的语音交互设备中,以对采集到的声音信号进行增强处理,比如,该设备可以是图1所示的语音交互设备100,近场声音采集组件可以是图1所示的近场拾音器110,远场声音采集组件可以是图1所示的远场拾音器120。如图4所示,该语音增强处理方法可以包括以下步骤:

步骤401,语音交互设备对第一声音信号进行语音检测。

在本公开实施例中,语音交互设备通过近场声音采集组件采集到声学环境中的第一声音信号,并且对第一声音信号进行语音检测,语音检测可以是用来判断该第一声音信号中是否存在需要进行识别交互的语音信号。

其中,第一声音信号是由语音交互设备中的近场声音采集组件进行采集的声音信号,该第一声音信号中包括需要进行语音识别的语音信号部分和不需要进行语音识别的噪音部分中的至少一种。

其中,近场声音采集组件可以是单麦克风或者是麦克风阵列。

可选的,语音交互设备对第一声音信号进行语音检测可以通过语音活动检测(voiceactivitydetection,vad)算法进行检测,可以通过基于能量准则进行vad或者基于机器学习模型进行vad判断。

其中,语音交互设备通过vad算法可以得到第一声音信号中是否存在需要进行语音识别的语音信号部分。

比如,语音交互设备为一种智能音箱时,智能音箱中的近场声音采集组件处于开启状态,可以周期性的采集声学环境中的声音信号作为第一声音信号,将收集到的第一声音信号通过vad算法进行计算,判断该第一声音信号中是否存在语音信号。

步骤402,语音交互设备获取该第一声音信号的平均功率和第二声音信号的平均功率之间的功率比值。

在本公开实施例中,语音交互设备通过近场声音采集组件获取该第一声音信号,通过远场声音采集组件获取第二声音信号,确定该第一声音信号的平均功率以及第二声音信号的平均功率,计算第一声音信号的平均功率以及第二声音信号的平均功率之间的比值。

其中,平均功率是对应的声音信号的总功率在对应的声音采集组件中的每个麦克风上的平均值。

比如,远场声音采集组件是由麦克风阵列构成的,该麦克风阵列的麦克风数量为m个,采集到的第二声音信号可以是y1(t)到ym(t)共m个信号,所以第二声音信号的平均功率为m个信号功率的平均值。

其中,第二声音信号是由语音交互设备中的远场声音采集组件进行采集的声音信号,该第二声音信号中包括需要进行语音识别的语音信号部分和不需要进行语音识别的噪音部分中的至少一种。

可选的,若第一声音信号用x(t)表示,第二声音信号用y1(t)到ym(t)表示,第一声音信号功率用px(t)表示,第二声音信号功率用py,m(t)表示,则获取功率比值ratio的计算公式可以是:

另外,语音交互设备根据模式检测信号执行步骤401和步骤402是为了确定该语音交互设备的交互模式。

其中,交互模式包括近场交互模式或者远场交互模式;模式检测信号包括近场声音采集组件采集到的第一声音信号,以及远场声音采集组件采集到的第二声音信号。

步骤403,响应于该第一声音信号中存在语音,且该功率比值大于功率比值阈值,语音交互设备将该交互模式确定为该近场交互模式。

在本公开实施例中,当确定第一声音信号中存在语音信号,并且计算得到的功率比值大于预先设置的阈值时,语音交互设备将该交互模式确定为近场交互模式。

可选的,模式检测信号还可以包括按键信号,该按键信号用于指示指定按键是否接收到触发操作。响应于按键信号指示该指定按键接收到该触发操作,将该交互模式确定为近场交互模式。

其中,当语音交互设备将该交互模式确定为近场交互模式时,通过接收指定按键的触发操作,将该交互模式调整为近场交互模式。

比如,语音交互设备上可以设置有一个指定按钮,当对指定按钮进行触发操作时,语音交互设备可以将交互模式设置成近场交互模式,当语音交互设备确定交互模式是近场交互模式时,语音交互设备可以通过近场交互模式对语音进行处理。

步骤404,响应于该第一声音信号中不存在语音,或者,响应于该功率比值小于该功率比值阈值,或者,响应于该第一声音信号中不存在语音且该功率比值小于该功率比值阈值,将该交互模式确定为该远场交互模式。

在本公开实施例中,当确定满足第一声音信号中不存在语音信号,或者计算得到的功率比值小于预先设置的阈值中的至少一个时,语音交互设备将该交互模式确定为远场交互模式。

可选的,模式检测信号还可以包括按键信号,该按键信号用于指示指定按键是否接收到触发操作。响应于按键信号指示该指定按键未接收到该触发操作,将该交互模式确定为远场交互模式。

其中,当语音交互设备将该交互模式确定为远场交互模式时,可以自动将该交互模式调整为近场交互模式。

比如,语音交互设备上可以设置有一个指定按钮,当对指定按钮进行触发操作时,语音交互设备可以将交互模式设置成近场交互模式,当语音交互设备确定交互模式是远场交互模式时,语音交互设备可以自动将交互模式由近场交互模式调整为远场交互模式,或者直接将交互模式设置成远场交互模式。

步骤405,响应于该交互模式为该近场交互模式,语音交互设备对该近场声音采集组件采集到的声音信号进行语音增强,获得增强后的近场交互语音。

在本公开实施例中,语音交互设备将交互模式调整到近场交互模式时,对采集到的声音信号按照近场交互模式的算法,进行语音增强处理,获得增强后的近场交互语音。

其中,按照近场交互模式对声音信号进行处理的算法可以分为如下三个方面:

1)响应于该交互模式包括该近场交互模式,语音交互设备确定声音信号相对于该远场声音采集组件的方向。

其中,语音交互设备可以通过到达时间差算法(timedifferenceofarrival,tdoa)以该近场声音采集组件采集到的该声音信号为参考,确定该声音信号相对于该远场声音采集组件的方向。

其中,通过tdoa确定声音信号相对于远场声音采集组件的方向,可以以第一声音信号x(t)作为参考,计算远场声音采集组件中的麦克风阵列中每一个麦克风采集到的第二声音信号相对于近场声音采集组件采集到的第一声音信号的时间延迟τm,即y1(t)到ym(t)中的m个第二声音信号与第一声音信号x(t)的时间延迟τm。然后,从远场声音采集组件中选取一个麦克风作为参考麦克风,减去参考麦克风的时间延迟估计。

可选的,时延估计可以采用广义互相关算法进行计算。

比如,用x(f,t)表示x(t)的短时频域变换,用ym(f,t)表示ym(t)的短时频域变换,其互相关为,

其中,f表示频率,t表示时间,则广义互相关谱为,

其中wm(f,t)为加权函数,可以有多种定义方式,例如,

其中,为广义互相关-相位变换方法(generalizedcrosscorrelationphasetransformation,gcc-phat)的加权函数,为一种类似信噪比的统计量。对广义互相关谱做峰值搜索,可以得到对应麦克风的时间延迟估计。

可选的,确定声音信号相对于该远场声音采集组件的方向,可以直接通过声源定位,或者对于有摄像头的设备,可以采用人脸定位进行确定。

由于第二声音信号受到噪声和干扰的影响,在信噪比低的情况下直接估计相对延迟会有比较大的误差,而采用近场麦克风做参考,由于近场麦克风的信噪比较高,因此可以提高估计精度。

2)语音交互设备根据该方向对该声音信号做波束形成,得到零陷波束。

其中,语音交互设备根据语音信号相对于远场声音采集组件的方向做波束形成,该波束形成对语音信号的方向形成零陷波束。

比如,假设有两个声音信号,分别为声源a和声源b,方向分别为θa和θb,则远场声音采集组件的第m个麦克风采集到的声音信号可以表示为,

ym(f,t)=dm(f,t,θa)sa(f,t)+dm(f,t,θb)sb(f,t)

如果波束是保留声源a,去掉声源b,那么可以设计波束wm(f,t),使得并且使这样波束输出为,

形成零陷波束时,波束形成输出里面没有语音信号只有环境噪音信号,比如,声源a为环境噪音信号,声源b为语音信号。

其中,对于具有m个麦克风的远场声音采集组件可以接收到m个维度方向的声音信号,语音信号占用其中一个维度,剩下的m-1个维度可以没有声音信号。

3)将该零陷波束作为噪声参考,语音交互设备对该声音信号进行降噪获得该增强后的近场交互语音。

可选的,语音交互设备可以采用自适应噪声消除方法或者谱减法的方法对声音信号进行降噪。

其中,自适应噪声消除方法是由自适应算法通过调整滤波器的系数实现对噪声的过滤。

步骤406,响应于该交互模式为该远场交互模式,语音交互设备对该远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音。

在本公开实施例中,语音交互设备将交互模式调整到远场交互模式时,对采集到的声音信号按照远场交互模式的算法,进行语音增强处理,获得增强后的远场交互语音。

可选的,语音交互设备通过远场语音信号增强算法,对该声音信号进行降噪获得该增强后的远场交互语音。

比如,该远场语音信号增强算法可以是波束形成、噪声抑制和自动增益控制等方法。

步骤407,响应于语音交互设备确定嘈杂程度为嘈杂环境、存在非方向性噪音以及语音信号的质量小于第二阈值中的至少一个,提示用户使用近场交互模式,该嘈杂程度为声学环境中通过设置第一阈值确定的噪音情况。

在本公开实施例中,当使用远场交互模式进行语音交互时,若通过远场声音采集组件可以对声音信号中的噪音信号进行统计,确定声学环境为嘈杂环境;或者,通过确认采集到的声音信号中存在非方向性强的噪音;或者,通过确定语音信号的质量不够好,则提示用户可以调整交互模式为近场交互模式。

可选的,语音交互设备可以通过远场声音采集组件采用最小值追踪算法对声学环境中的噪音进行统计,当平均噪音大于第一阈值时,确定为嘈杂环境。语音交互设备可以基于远场声音采集组件的麦克风阵列对空间进行多个方向的波束形成,如果所有波束的功率都较大,则判断存在非方向性强的噪音。根据语音信号方向的波束输出的信噪比,判断语音信号的质量。当信噪比小于第二阈值,则语音信号的质量不够好。

其中,第一阈值可以是用来判断嘈杂环境界限的用户预先设定的一个数值。

可选的,语音交互设备可以通过统计远场交互的成功概率,提示用户切换交互模式。

比如,用户多次询问相同的问题,并且识别结果的准确性不高,则说明很大概率上前几次识别都不够准确,此时可以提示用户切换交互模式。

综上所述,本公开实施例中提供的语音增强处理方法,在包含近场声音采集组件和远场声音采集组件的语音交互设备中,根据模式检测信号确定语音交互设备的交互模式,交互模式包括近场交互模式或者远场交互模式;根据当前交互模式,对交互模式对应的声音采集组件采集到的声音信号进行语音增强,获得增强后的当前交互模式的交互语音。通过上述方案,可以通过切换两种拾音模式对语音信号进行处理,从而减少了在实际应用场景下对声源位置的限制,提高了语音处理的质量。

图5是根据一示例性实施例示出的一种语音增强处理装置的框图,如图5所示,该语音增强处理方法可以由包含近场声音采集组件和远场声音采集组件的语音交互设备执行,以对采集到的声音信号进行增强处理,比如,该设备可以是图1所示的语音交互设备100,近场声音采集组件可以是图1所示的近场拾音器110,远场声音采集组件可以是图1所示的远场拾音器120。如图5所示,该语音增强处理装置可以包括:

模式确定模块510,用于根据模式检测信号确定所述语音交互设备的交互模式,所述交互模式包括近场交互模式或者远场交互模式;

语音增强模块520,用于根据当前所述交互模式,对所述交互模式对应的声音采集组件采集到的声音信号进行语音增强,获得增强后的当前所述交互模式的交互语音。

可选的,所述语音增强模块520,包括:

近场增强子模块,用于响应于所述交互模式包括所述近场交互模式,对所述近场声音采集组件采集到的声音信号进行语音增强,获得增强后的近场交互语音;

或者,

远场增强子模块,用于响应于所述交互模式包括所述远场交互模式,对所述远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音。

可选的,所述模式检测信号包括所述近场声音采集组件采集到的第一声音信号,以及所述远场声音采集组件采集到的第二声音信号;

所述模式确定模块510,包括:

第一检测子模块,用于对第一声音信号进行语音检测;

比值获取子模块,用于获取所述第一声音信号的平均功率和所述第二声音信号的平均功率之间的功率比值;所述平均功率是对应的声音信号的总功率在对应的声音采集组件中的每个麦克风上的平均值;

第一近场确定子模块,用于响应于所述第一声音信号中存在语音,且所述功率比值大于功率比值阈值,将所述交互模式确定为所述近场交互模式;

第一远场确定子模块,用于响应于所述第一声音信号中不存在语音,或者,响应于所述功率比值小于所述功率比值阈值,或者,响应于所述第一声音信号中不存在语音且所述功率比值小于所述功率比值阈值,将所述交互模式确定为所述远场交互模式。

可选的,所述模式检测信号包括按键信号,所述按键信号用于指示指定按键是否接收到触发操作;

所述模式确定模块510,包括:

第二近场确定子模块,用于响应于所述按键信号指示所述指定按键接收到所述触发操作,将所述交互模式确定为所述近场交互模式;

第二远场确定子模块,用于响应于所述按键信号指示所述指定按键未接收到所述触发操作,将所述交互模式确定为所述远场交互模式。

可选的,所述近场增强子模块,包括:

方向确定单元,用于响应于所述交互模式包括所述近场交互模式,确定声音信号相对于所述远场声音采集组件的方向;

波束形成单元,用于根据所述方向对所述声音信号做波束形成,得到零陷波束;

近场语音获取单元,用于将所述零陷波束作为噪声参考,对所述声音信号进行降噪获得所述增强后的近场交互语音。

可选的,所述方向确定单元,用于,

通过到达时间差算法以所述近场声音采集组件采集到的所述声音信号为参考,确定所述声音信号相对于所述远场声音采集组件的方向。

可选的,所述远场增强子模块,包括:

远场语音获取单元,用于通过远场语音信号增强算法,对所述声音信号进行降噪获得所述增强后的远场交互语音。

可选的,所述远场语音获取单元,用于,

通过波束形成、噪声抑制和自动增益控制中的至少一种方法对所述声音信号进行降噪获得所述增强后的远场交互语音。

可选的,所述装置还包括:

近场提示子模块,用于响应于所述交互模式包括所述远场交互模式,对所述远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音之后,响应于确定所述嘈杂程度为所述嘈杂环境、存在所述非方向性噪音以及所述语音信号的质量小于第二阈值中的至少一个,则提示用户使用近场交互模式,所述嘈杂程度为声学环境中通过设置第一阈值确定的噪音情况。

需要说明的一点是,上述实施例提供的装置在实现其功能时,仅以上述各个功能模块的划分进行举例说明,实际应用中,可以根据实际需要而将上述功能分配由不同的功能模块完成,即将设备的内容结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本公开一示例性实施例提供了一种语音增强处理装置,该语音增强处理装置可以通过硬件或者软硬结合的方式实现为计算机设备或者终端的全部或者部分,能够实现本公开上述图3或图4任一所示实施例中的全部或部分步骤,该语音增强处理方法可以由包含近场声音采集组件和远场声音采集组件的语音交互设备执行,以对采集到的声音信号进行增强处理,比如,该设备可以是图1所示的语音交互设备100,近场声音采集组件可以是图1所示的近场拾音器110,远场声音采集组件可以是图1所示的远场拾音器120。该语音增强处理装置还包括:处理器、用于存储处理器可执行指令的存储器;

其中,处理器被配置为:

根据模式检测信号确定所述语音交互设备的交互模式,所述交互模式包括近场交互模式或者远场交互模式;

根据当前所述交互模式,对所述交互模式对应的声音采集组件采集到的声音信号进行语音增强,获得增强后的当前所述交互模式的交互语音。

可选的,所述根据当前所述交互模式,对所述交互模式对应的声音采集组件采集到的声音信号进行语音增强,获得增强后的当前所述交互模式的交互语音,包括:

响应于所述交互模式包括所述近场交互模式,对所述近场声音采集组件采集到的声音信号进行语音增强,获得增强后的近场交互语音;

或者,

响应于所述交互模式包括所述远场交互模式,对所述远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音。

可选的,所述模式检测信号包括所述近场声音采集组件采集到的第一声音信号,以及所述远场声音采集组件采集到的第二声音信号;

所述根据模式检测信号确定所述语音交互设备的交互模式,包括:

对第一声音信号进行语音检测;

获取所述第一声音信号的平均功率和所述第二声音信号的平均功率之间的功率比值;所述平均功率是对应的声音信号的总功率在对应的声音采集组件中的每个麦克风上的平均值;

响应于所述第一声音信号中存在语音,且所述功率比值大于功率比值阈值,将所述交互模式确定为所述近场交互模式;

响应于所述第一声音信号中不存在语音,或者,响应于所述功率比值小于所述功率比值阈值,或者,响应于所述第一声音信号中不存在语音且所述功率比值小于所述功率比值阈值,将所述交互模式确定为所述远场交互模式。

可选的,所述模式检测信号包括按键信号,所述按键信号用于指示指定按键是否接收到触发操作;

所述根据模式检测信号确定所述语音交互设备的交互模式,包括:

响应于所述按键信号指示所述指定按键接收到所述触发操作,将所述交互模式确定为所述近场交互模式;

响应于所述按键信号指示所述指定按键未接收到所述触发操作,将所述交互模式确定为所述远场交互模式。

可选的,所述响应于所述交互模式包括所述近场交互模式,对所述近场声音采集组件采集到的声音信号进行语音增强,获得增强后的近场交互语音,包括:

响应于所述交互模式包括所述近场交互模式,确定声音信号相对于所述远场声音采集组件的方向;

根据所述方向对所述声音信号做波束形成,得到零陷波束;

将所述零陷波束作为噪声参考,对所述声音信号进行降噪获得所述增强后的近场交互语音。

可选的,所述响应于所述交互模式包括所述近场交互模式,确定声音信号相对于所述远场声音采集组件的方向,包括:

通过到达时间差算法以所述近场声音采集组件采集到的所述声音信号为参考,确定所述声音信号相对于所述远场声音采集组件的方向。

可选的,所述响应于所述交互模式包括所述远场交互模式,对所述远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音,包括:

通过远场语音信号增强算法,对所述声音信号进行降噪获得所述增强后的远场交互语音。

可选的,所述通过远场语音信号增强算法,对所述声音信号进行降噪获得所述增强后的远场交互语音,包括:

通过波束形成、噪声抑制和自动增益控制中的至少一种方法对所述声音信号进行降噪获得所述增强后的远场交互语音。

可选的,所述响应于所述交互模式包括所述远场交互模式,对所述远场声音采集组件采集到的声音信号进行语音增强,获得增强后的远场交互语音之后,还包括:

响应于确定所述嘈杂程度为嘈杂环境、存在所述非方向性噪音以及语音信号的质量小于第二阈值中的至少一个,则提示用户使用近场交互模式,所述嘈杂程度为声学环境中通过设置第一阈值确定的噪音情况。

图6示出了本公开一个示例性实施例提供的电子设备600的结构框图。该电子设备600可以是:语音交互设备。比如,该电子设备可以实现为图1中的语音交互设备100。

通常,电子设备600包括有:处理器601和存储器602。

处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程门阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件形式来实现。

存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本公开中方法实施例提供的语音增强处理方法。

在一些实施例中,电子设备600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路604用于接收和发射rf(radiofrequency,射频)信号,也称电磁信号。

在一些实施例中,电子设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

本领域技术人员可以理解,图6中示出的结构并不构成对电子设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图3或图4所述的语音增强处理方法。

可选地,该计算机可读存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、固态硬盘(ssd,solidstatedrives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(reram,resistancerandomaccessmemory)和动态随机存取存储器(dram,dynamicrandomaccessmemory)。上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1