多个语音助手设备采集的语音信息的处理方法及装置与流程

文档序号:13007548阅读:380来源:国知局
多个语音助手设备采集的语音信息的处理方法及装置与流程

本发明涉及信息处理技术领域,特别涉及一种多个语音助手设备采集的语音信息的处理方法及装置。



背景技术:

随着智慧家庭概念的普及,越来越多的智能设备被布置于诸如家庭、办公等场所中。其中,某些智能设备上安装有语音助手或者本身即为专门的语音助手设备,在实际应用中,可以将这类智能设备统称为语音助手设备。当接收到语音关键字时,语音助手设备可以采集语音信息,并将采集到的语音信息实时传送至云后台服务器,以便云后台服务器基于该语音信息进行语音识别和语义理解,进而根据理解的语义执行相应的操作。

相关技术中,为了降低采集到的语音信息中的环境噪声,以便云后台服务器更准确的进行语音识别和语义理解,语音助手设备中往往配置有麦克风阵列以及相应地处理芯片,当进行语音信息采集时,语音助手设备可以通过配置的麦克风阵列和处理芯片对采集到的语音信息进行降噪、混响消除等处理,从而将处理后的语音信息发送至云后台服务器。

虽然语音助手设备可以通过配置麦克风阵列和处理芯片来实现对采集到的语音信息的降噪和混响消除等,但是,麦克风阵列和处理芯片的配置将导致语音助手设备的制造成本的增加,进而将直接导致用户使用成本的增加。



技术实现要素:

为了解决相关技术中通过语音助手设备降噪造成的制造成本高的问题,本发明实施例提供了一种多个语音助手设备采集的语音信息的处理方法及装置。所述技术方案如下:

第一方面,提供了一种对多个语音助手设备采集的同一音源的语音信息进行处理的方法,所述方法包括:

从多个语音信息中选择时间戳差值小于预设时长的至少两个语音信息,所述时间戳为语音助手设备开始采集语音信息的时刻;

将所述至少两个语音信息中每个时刻的信号强度中,最大信号强度所在的语音信息作为主音源语音信息,以及最小信号强度所在的语音信息作为参考音源语音信息;

基于所述主音源语音信息和参考音源语音信息中具有相同语音内容的部分语音信息确定环境噪声,并利用所述环境噪声对所述主音源语音信息进行降噪处理。

可选地,所述基于所述主音源语音信息和参考音源语音信息中具有相同语音内容的部分语音信息确定环境噪声的步骤包括:

分别从所述主音源语音信息和参考音源语音信息中截取具有相同语音内容的部分语音信息,并作为第一子语音信息和第二子语音信息;

从所述第一子语音信息中每个时刻的信号强度中确定最大信号强度,得到第一信号强度;

从所述第二子语音信息中每个时刻的信号强度中,确定与所述第一信号强度处于同一时刻的信号强度,得到第二信号强度;

将所述第一信号强度与所述第二信号强度的比值作为放大系数;

分别计算所述参考音源语音信息中每个时刻的信号强度和所述放大系数的乘积,与所述主音源语音信息中相应时刻的信号强度之间的差值,并对计算得到的多个差值按照时间顺序所形成的波形进行频域分析,得到所述环境噪声。

可选地,所述利用所述环境噪声对所述主音源语音信息进行降噪处理的步骤包括:

将所述环境噪声中每个时刻的信号强度均除以所述放大系数与1的差,并作反相处理;

将反相处理后的环境噪声与所述主音源语音信息进行叠加,以对所述主音源语音信息进行降噪。

可选地,所述基于所述主音源语音信息和参考音源语音信息中具有相同语音内容的部分语音信息确定环境噪声的步骤包括:

分别从所述主音源语音信息和参考音源语音信息中截取具有相同语音内容的部分语音信息,并作为第一子语音信息和第二子语音信息;

从所述第二子语音信息中每个时刻的信号强度中确定最小信号强度,得到第二信号强度;

从所述第一子语音信息中每个时刻的信号强度中,确定与所述第一信号强度处于同一时刻的信号强度,得到第一信号强度;

将所述第二信号强度与所述第一信号强度的比作为缩小系数;

分别计算所述参考音源语音信息中每个时刻的信号强度,与所述主音源语音信息中相应时刻的信号强度和所述缩小系数的乘积之间的差值,并对计算得到的多个差值按照时间顺序所形成的波形进行频域分析,得到所述环境噪声。

可选地,所述利用所述环境噪声对所述主音源语音信息进行降噪处理的步骤包括:

将所述环境噪声中每个时刻的信号强度均除以1与所述缩小系数的差,并作反相处理;

将反相处理后的环境噪声与所述主音源语音信息进行叠加,以对所述主音源语音信息进行降噪。

第二方面,提供了一种对多个语音助手设备采集的同一音源的语音信息进行处理的装置,所述装置包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为上述第一方面中的任一项方法的步骤。

可选地,所述装置为所述多个语音助手设备中的任一个,或者,

所述装置为与所述多个语音助手设备均连接的中央设备或者云后台服务器。

第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述第一方面所述的任一项方法的步骤。

第四方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的对多个语音助手设备采集的同一音源的语音信息进行处理的方法。

本发明实施例提供的技术方案带来的有益效果是:在本发明实施例中,从多个语音助手设备采集的多个语音信息中选择时间戳差值小于预设时长的至少两个语音信息,并从至少两个语音信息中确定主音源语音信息和参考音源语音信息,之后,基于主音源语音信息和参考音源语音信息中具有相同语音部分的语音信息即可确定环境噪声,由于主音源语音信息和参考音源语音信息中的噪音分量是基本一致的,因此,基于主音源语音信息和参考音源语音信息分离出的环境噪声在经过处理后,可以用来抵消主音源语音信息中的噪音分量,从而达到对该主音源语音信息降噪的效果。也即是,本发明实施例凭借采集到的多个语音信息即可完成对语音信息的降噪处理,该多个语音助手设备也就不必再分别对语音信息进行降噪处理,而只需要对语音信息进行采集和发送即可,由于该多个语音助手设备不必再分别对语音信息进行降噪处理,因此,也就可以不必再配置麦克风阵列和处理芯片,在保证了语音信息的质量且不影响云后台服务器语音识别准确性的基础上,降低了语音助手设备的制造成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的对多个语音助手设备采集的同一音源的语音信息进行处理的方法的系统架构图;

图2是本发明实施例提供的一种对多个语音助手设备采集的同一音源的语音信息进行处理的方法的流程图;

图3是本发明实施例提供的一种对多个语音助手设备采集的同一音源的语音信息进行处理的装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细的解释说明之前,先对本发明实施例的应用场景予以介绍。随着智慧家庭概念的普及,越来越多的智能设备被布置在家庭、办公等场所中。其中,有些智能设备上可以安装有语音助手产品,例如,智能手机、遥控器、无线音箱等,有些智能设备则本身即为专门的语音助手设备,如常用的远讲设备。在实际应用中,这些安装有语音助手产品的智能设备或者是专门的语音助手设备,可以统称为语音助手设备。在智慧家庭中,这些语音助手设备可以分布在不同的房间中,并且,在同一个房间中往往可能存在多个语音助手设备。当这些语音助手设备接收到语音关键字时,即开始采集语音信息,并将采集到的语音信息发送至云后台服务器,云后台服务器在接收到语音助手设备发送的语音信息时,可以对该语音信息进行语音识别和语义理解,并根据理解的语义进行相应的操作和反应,例如,云后台服务器可以根据理解的语义控制相关的设备,如对电视、音响、空调、冰箱、炉灶和热水器等等设备进行控制,或者,云后台服务器可以根据理解的语义进行相应的应答,如根据理解的语义查询冰箱中的某项食物、查询天气、查询美食等。值得注意的是,云后台服务器对语音信息进行语音识别和语义理解的准确性与语音助手设备发送的语音信息的质量息息相关。本发明实施例提供的多个语音助手设备采集的语音信息的处理方法即可以用于对多个语音助手设备采集到的语音信息进行处理,以保证云后台服务器接收到的语音信息的质量,进而保证云后台服务器语音识别的准确率。

对本发明实施例的应用场景介绍之后,接下来对本发明实施例的系统架构进行解释说明。图1是本发明实施例提供的一种多个语音助手设备采集的语音信息的处理方法的系统架构图。如图1所示,该系统架构中可以包括多个语音助手设备001-005、一个中央设备006以及云后台服务器007。该多个语音助手设备001-005可以分别通过wifi、蓝牙、zigbee、有线网络等方式与中央设备006进行连接,从而组成星型网络拓扑结构的内部网络,该中央设备006可以与云后台服务器007通过无线网络或者是有线网络进行连接。

其中,该多个语音助手设备可以布置在一个房间中,也可以布置在不同的房间。对于该多个语音助手设备中的每个语音助手设备,当接收到语音关键字时,该语音助手设备可以进行语音信息采集,之后,语音助手设备可以将采集到的语音信息发送至中央设备006,中央设备006可以通过本发明实施例提供的语音信息处理方法对接收到的多个语音信息进行处理,并将处理后的语音信息发送给云后台服务器007,云后台服务器007在接收到处理后的语音信息后,可以直接对该处理后的语音信息进行语音识别和语义理解,并根据理解的语义执行相应地操作。

需要说明的是,该多个语音助手设备001-005可以均为不包含麦克风阵列和对应的处理芯片的语音助手设备,也即是,该多个语音助手设备001-005可以为只包括单个麦克风的语音助手设备。中央设备006可以为具有语音信息处理能力的终端,也可以为具有语音信息处理能力的专门的语音助手设备,或者,该中央设备006也可以为多个语音助手设备001-005中的任意一个。云后台服务器007可以为单个设备,也可以为专门提供语音识别和语义理解服务的一个服务器集群。

通过前文对本发明实施例的应用场景和系统架构进行介绍之后,接下来,对本发明实施例的具体实现过程进行详细的解释说明。

图2是本发明实施例提供的一种对多个语音助手设备采集的同一音源的语音信息进行处理的方法的流程图,如图2所示,该方法应用于前述系统架构中的中央设备中,该方法包括以下步骤:

步骤201:当接收到多个语音信息时,从多个语音信息中选择时间戳差值小于预设时长的至少两个语音信息,该时间戳为语音助手设备开始采集语音信息的时刻。

通常,当用户想要使用语音助手设备时,可以通过语音关键字来激活位于其周边的多个语音助手设备。当该多个语音助手设备接收到语音关键字时,即可以开始采集语音信息。此时,用户可以在房间中的某个位置说话,而被用户激活的多个语音助手设备可以采集用户的语音信息。由于用户所在的位置与每个语音助手设备之间的距离不相同,因此,每个语音助手设备采集到的语音信息的信号强度将存在较大差别。而对于环境噪声而言,由于该多个语音助手设备往往相距较近,也即是,该多个语音助手设备处于大致相同的环境中,这样,每个语音助手设备采集到的语音信息中的噪音分量的信号强度之间的差异较小。

当多个语音助手设备采集到多个语音信息之后,对于该多个语音助手设备中的每个语音助手设备,该语音助手设备可以不对该语音信息进行任何处理,而是直接将该语音信息发送至中央设备。由于该语音助手设备只负责采集和发送语音信息,不必对该语音信息进行处理,因此,该语音助手设备可以不必配置麦克风阵列和相应地处理芯片,极大的降低了语音助手设备的制造成本。

由于中央设备在运行的过程中会接收到不同时间的大量语音信息,因此,为了便于中央设备从大量语音信息中确定出属于同一音源的语音信息,该多个语音助手设备可以记录开始采集语音信息的开始采集时刻,并将该开始采集时刻以时间戳的形式添加在语音信息中。

需要说明的是,中央设备在对语音信息进行处理时,只有确定的至少两个语音信息是属于同一音源的,才能对该至少两个语音信息进行处理,否则,将不属于同一音源的至少两个语音信息进行处理是没有意义的。因此,当中央设备接收到多个语音助手设备发送的多个语音信息之后,可以从该多个语音信息中选择时间戳差值小于预设时长的至少两个语音信息,以此来保证该至少两个语音信息属于同一音源。

其中,基于前述描述,该多个语音信息中的每个语音信息中均携带有时间戳。当用户在房间中的某个位置说话时,该多个语音助手设备采集到语音信息的时刻应该是一致的,也即是,每个语音信息携带的时间戳应该是相同的。在实际应用中,由于用户与多个语音信息对应的多个语音助手设备之间的距离有可能是不相同的,因此,该多个语音助手设备开始采集到语音信息的时刻可能会存在极细微的差距,也即是,即使对于属于同一音源的语音信息,每个语音信息中携带的时间戳也可能会存在极细微的差别。因此,当中央设备接收到多个语音信息之后,可以判断该多个语音信息中是否存在相同时间戳的至少两个语音信息;如果该多个语音信息中存在相同时间戳的至少两个语音信息,则从该多个语音信息中选择具有相同时间戳的至少两个语音信息;如果多个语音信息中不存在相同时间戳的至少两个语音信息,则从多个语音信息中选择时间戳差值小于预设时长的至少两个语音信息。

其中,该预设时长是根据经验数据预先设置的两个语音助手设备采集同一语音内容时可能存在的最大时间差。

步骤202:从该至少两个语音信息中确定主音源语音信息和参考音源语音信息。

当中央设备从该多个语音信息中确定至少两个语音信息之后,对于该至少两个语音信息中的每个语音信息,该语音信息均包括多个时刻对应的多个信号强度,中央设备可以从该至少两个语音信息包括的所有时刻的信号强度中选择最大信号强度所在的语音信息,作为主音源语音信息,并将该至少两个语音信息包括的所有时刻的信号强度中选择最小信号强度所在的语音信息,作为参考音源语音信息。

需要说明的是,由于该主音源语音信息中包括该至少两个语音信息中的最大信号强度,因此,基于前述描述,在噪音分量的信号强度一定的情况下,该主音源语音信息中除噪音分量之外的有效语音分量的信号强度就较大。也即是,该主音源语音信息的信噪比较大。同理,由于参考音源语音信息中包括至少两个语音信息中的最小信号强度,因此,该参考音源语音信息中除噪音分量之外的有效语音分量的强度就是较小,也即是,该参考音源语音信息的信噪比较小。由于主音源语音信息和参考音源语音信息具有上述特征,因此,中央设备在对语音信息进行处理时,可以通过步骤203中的方法确定环境噪声,并以主音源语音信息为基础,通过环境噪声对主音源语音信息进行降噪处理,以得到处理后的语音信息。

步骤203:基于主音源语音信息和参考音源语音信息中具有相同语音内容部分语音信息确定环境噪声。

当确定参考音源语音信息和主音源语音信息之后,中央设备基于参考音源语音信息和主音源语音信息,确定环境噪声,并基于该环境噪声,对该主音源语音信息进行降噪处理。

其中,中央设备基于参考音源语音信息和主音源语音信息确定环境噪声的具体实现方式可以有两种:

第一种方式:分别从主音源语音信息和参考音源语音信息中截取具有相同语音内容的部分语音信息,作为第一子语音信息和第二子语音信息;从第一子语音信息中每个时刻的信号强度中确定最大信号强度,得到第一信号强度;从第二子语音信息中每个时刻的信号强度中,确定与第一信号强度处于同一时刻的信号强度,得到第二信号强度;将第一信号强度与第二信号的比值作为放大系数;分别计算参考音源语音信息中每个时刻的信号强度和放大系数乘积,与主音源语音信息中相应时刻的信号强度之间的差值,并对计算得到的多个差值按照时间顺序所形成的波形进行频域分析,得到环境噪声。

具体的,基于前述描述,由于该主音源语音信息中携带的时间戳和参考音源语音信息中携带的时间戳之间可能存在细微的差异,因此,对于该主音源语音信息中某一时刻的语音内容,该语音内容在参考音源语音信息中对应的时刻将不同于在主音源语音信息中对应的时刻,在这种情况下,中央设备可以首先将该主音源语音信息和该参考音源语音信息进行匹配,从而截取出该主音源语音信息和该参考音源语音信息中具有相同语音内容的部分,并将主音源语音信息中的部分确定为第一子语音信息,将参考音源语音信息中的部分确定为第二子语音信息。

当确定第一子语音信息和第二子语音信息之后,由于第一子语音信息和第二子语音信息中均包括多个时刻的信号强度,因此,中央设备可以从第一子语音信息包括的多个时刻的信号强度中确定最大信号强度,得到第一信号强度,并从第二子语音信息包括的多个时刻的信号强度中确定与第一信号强度处于同一时刻的信号强度,得到第二信号强度,之后,将该第一信号强度与第二信号强度的比值作为放大系数。该放大系数即用于指示该主音源语音信息的信号强度是该参考音源语音信息信号强度的多大倍数。

需要说明的是,由于主音源语音信息携带的时间戳和参考音源语音信息携带的时间戳可能存在细微的差异,因此,当确定第二信号强度时,实际上是为了确定第二子语音信息中与第一信号强度所对应的语音内容相同的时刻的信号强度。也就是说,假设主音源语音信息携带的时间戳和参考音源语音信息携带的时间戳不完全一致,且主音源语音信息携带的时间戳要比参考音源语音信息携带的时间戳早0.1s,那么,当确定第一信号强度之后,该第二信号强度在第二子语音信息中所处的时刻并不是完全与第一信号强度在第一子语音信息中所处的时刻相同,而是要比第一信号强度在第一子语音信息中所处的时刻晚0.1s。

当确定放大系数之后,中央设备可以根据该放大系数对参考音源语音信息进行声音补偿,也即是,将参考音源语音信息中每个时刻的信号强度均乘以该放大系数,其中,该放大系数大于1。例如,该放大系数为k,中央设备即可以将该参考音源语音信息中每个时刻的信号强度均放大k倍,以得到放大后的参考音源语音信息。需要说明的是,参考音源语音信息和主音源语音信息中均包括有效语音分量和噪音分量,而放大系数实际表示了主音源语音信息是参考音源语音信息的多少倍,因此,当参考音源语音信息按照该放大系数放大k倍后,放大后的参考音源语音信息中的有效语音分量的信号强度将被放大到与主音源语音信息中的有效语音分量的信号强度相当,而参考音源语音信息中噪音分量的信号强度经放大后将是主音源语音信息中噪音分量的k倍。

当得到放大后的参考音源语音信息之后,中央设备可以将放大后的参考音源语音信息中每个时刻的信号强度分别减去主音源语音信息中相应时刻的信号强度,由于放大后的参考音源语音信息中的有效语音分量的信号强度与主音源语音信息中的有效语音分量的信号强度相当,因此,将放大后的参考音源语音信息和主音源语音信息相减之后,二者中的有效语音分量将抵消,而由于参考音源语音信息中噪音分量的信号强度经放大后将是主音源语音信息中噪音分量的信号强度的k倍,因此,二者相减之后,将剩下(k-1)倍的噪音分量,之后,中央设备可以将该(k-1)倍的噪音分量进行频域分析,以进一步去除其中混入的部分未被抵消的有效语音分量,从而得到环境噪声。

除了可以通过上述第一种方式确定环境噪声之外,中央设备也可以通过以下第二种方式确定环境噪声。

第二种方式:分别从主音源语音信息和参考音源语音信息中截取具有相同语音内容的部分语音信息,并作为第一子语音信息和第二子语音信息;从第二子语音信息中每个时刻的信号强度中确定最小信号强度,得到第二信号强度;从第一子语音信息中每个时刻的信号强度中,确定与第一信号强度处于同一时刻的信号强度,得到第一信号强度;将第二信号强度与第一信号强度的比作为缩小系数;分别计算参考音源语音信息中每个时刻的信号强度,与主音源语音信息中相应时刻的信号强度和缩小系数的乘积之间的差值,并对计算得到的多个差值按照时间顺序所形成的波形进行频域分析,得到环境噪声。

其中,与第一种方式不同的是,在该种方式中,中央设备可以首先从第二子语音信息包括的多个时刻的信号强度中确定最小信号强度,作为第二信号强度,之后,将第一子语音信息中与该第二信号强度处于同一时刻的信号强度确定为第一信号强度,并将第二信号强度和第一信号强度的比值作为缩小系数。

当确定缩小系数之后,中央设备可以将主音源语音信息包括的多个时刻的信号强度缩小至与参考音源语音信息包括的多个时刻的信号强度相当的水平,也即是,将主音源语音信息中每个时刻的信号强度与缩小系数相乘,其中,该缩小系数小于1。例如,该缩小系数为m,中央设备即可以将该主音源语音信息中每个时刻的信号强度均乘以m,以得到缩小后的主音源语音信息。由于该缩小系数是参考音源语音信息和主音源语音信息之间的倍数,因此,当主音源语音信息按照该缩小系数进行缩小k倍后,缩小后的主音源语音信息中的有效语音分量的信号强度将被缩小到与参考音源语音信息中的有效语音分量的信号强度相当,而主音源语音信息中噪音分量的信号强度经缩小后将是参考音源语音信息中噪音分量的m倍。

当得到缩小后的主音源语音信息之后,可以分别将参考音源语音信息中每个时刻的信号强度与缩小后的主音源语音信息中相应时刻的信号强度相减,此时,由于二者中的有效语音分量的信号强度处于相当的水平,因此,相减之后有效语音分量部分被抵消,而由于参考音源语音信息中的噪音分量没变,主音源语音信息中噪音分量的信号强度被缩小了m倍,因此,二者相减之后,将剩下(1-m)倍的噪音分量。之后,中央设备可以将该(1-m)倍的噪音分量进行频域分析,以进一步去除其中混入的部分未被抵消的有效语音分量,从而得到环境噪声。

步骤204:利用该环境噪声对主音源语音信息进行降噪处理。

当中央设备基于主音源语音信息和参考音源语音信息确定环境噪声之后,中央设备可以基于主音源语音信息的信号强度,对该环境噪声进行调整,以使该参考环境噪声的信号强度与该主音源语音信息的信号强度相当,之后,中央设备可以将调整幅度之后的环境噪声进行反相调整,以使该环境噪声的相位与主音源语音信息之间的相位差为180度。最后,中央设备可以将调整信号强度和相位之后的环境噪声与主音源语音信息进行叠加,从而将该主音源语音信息中的噪声分量抵消,完成对该主音源语音信息的降噪处理。

需要说明的是,基于步骤203中的描述,确定环境噪声的方式不同时,中央设备基于主音源语音信息的信号强度,对该环境噪声进行调整的方式也就相应地不同。

当通过步骤203中的第一种方式确定环境噪声时,由于对参考音源语音信息进行了放大,因此,环境噪声实际上是分离出来的(k-1)倍的噪音分量,而此时主音源语音信息中实际上只包含一倍的噪音分量,在这种情况下,中央设备在确定环境噪声后,首先需要将该环境噪声中每个时刻的信号强度除以(k-1),以此得到与主音源语音信息中相同的噪音分量。

当通过步骤203中的第二种方式确定环境噪声时,由于对主音源语音信息进行了缩小,因此,环境噪声实际上是分离出来的(1-m)倍的噪音分量,而此时正常的主音源语音信息中实际上只包含一倍的噪音分量,因此,中央设备需要将该环境噪声中每个时刻的信号强度均除以(1-m),以此得到与主音源语音信息中相同的噪音分量。

在本发明实施例中,中央设备可以接收多个语音助手设备发送的多个语音信息,从该多个语音信息中选择时间戳差值小于预设时长的至少两个语音信息,并从至少两个语音信息中确定主音源语音信息和参考音源语音信息,之后,中央设备可以基于该参考音源语音信息和该主音源信息中具有相同语音内容的部分语音信息确定环境噪声,由于主音源语音信息和参考音源语音信息中的噪音分量是基本一致的,因此,基于主音源语音信息和参考音源语音信息分离出的环境噪声在经过处理后,可以用来抵消主音源语音信息中的噪音分量,从而达到对该主音源语音信息降噪的效果。也即是,本发明实施例凭借采集到的多个语音信息即可完成对语音信息的降噪处理,该多个语音助手设备也就不必再分别对语音信息进行降噪处理,而只需要对语音信息进行采集和发送即可,由于该多个语音助手设备不必再分别对语音信息进行降噪处理,因此,也就可以不必再配置麦克风阵列和处理芯片,降低了语音助手设备的制造成本。另外,中央设备通过从接收到的多个语音信息中确定主音源语音信息和参考音源语音信息,即可以完成对主音源语音信息的降噪处理,降低了多个语音助手设备的拾音性能门槛,同时也保证了语音信息的质量,进而保证了云后台服务器语音识别的准确性。

需要说明的是,上述实施例中介绍的语音信息的处理方法既可以由中央设备来完成,也可以由云后台服务器来完成,也即是,多个语音助手设备可以将采集到的多个语音信息发送至与其连接的中央设备,由中央设备按照上述实施例中介绍的方法进行处理,并将处理后的语音信息发送给云后台服务器。当然,多个语音助手设备也可以将采集到的多个语音信息直接发送至与其连接的云后台服务器,由云后台服务器按照上述实施例中的方法对该多个语音信息进行处理。

图3是本发明实施例提供的一种对多个语音助手设备采集的同一音源的语音信息进行处理的装置300的结构示意图,该装置300可以为多个语音助手设备中的任一个,也可以为与多个语音助手设备均连接的中央设备或者是云后台服务器,该装置可以用于执行上述各个实施例中提供的语音信息处理方法。参见图3。

该装置300可以包括rf(radiofrequency,射频)电路310、包括有一个或一个以上计算机可读存储介质的存储器320、输入单元330、显示单元340、传感器350、音频电路360、wifi(wirelessfidelity,无线保真)模块370、包括有一个或者一个以上处理核心的处理器380、以及电源390等部件。本领域技术人员可以理解,图3中示出的该装置结构并不构成对该装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

rf电路310可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器380处理;另外,将涉及上行的数据发送给基站。通常,rf电路310包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(sim)卡、收发信机、耦合器、lna(lownoiseamplifier,低噪声放大器)、双工器等。此外,rf电路310还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于gsm(globalsystemofmobilecommunication,全球移动通讯系统)、gprs(generalpacketradioservice,通用分组无线服务)、cdma(codedivisionmultipleaccess,码分多址)、wcdma(widebandcodedivisionmultipleaccess,宽带码分多址)、lte(longtermevolution,长期演进)、电子邮件、sms(shortmessagingservice,短消息服务)等。

存储器320可用于存储软件程序以及模块,处理器380通过运行存储在存储器320的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如语音信息处理功能、声音播放功能、图像播放功能等)等;存储数据区可存储根据该装置300的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器320还可以包括存储器控制器,以提供处理器380和输入单元330对存储器320的访问。

输入单元330可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元330可包括触敏表面331以及其他输入设备332。触敏表面331,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面331上或在触敏表面331附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面331可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器380,并能接收处理器380发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面331。除了触敏表面331,输入单元330还可以包括其他输入设备332。具体地,其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及该装置300的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元340可包括显示面板341,可选的,可以采用lcd(liquidcrystaldisplay,液晶显示器)、oled(organiclight-emittingdiode,有机发光二极管)等形式来配置显示面板341。进一步的,触敏表面331可覆盖显示面板341,当触敏表面331检测到在其上或附近的触摸操作后,传送给处理器380以确定触摸事件的类型,随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图3中,触敏表面331与显示面板341是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面331与显示面板341集成而实现输入和输出功能。

该装置300还可包括至少一种传感器350,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板341的亮度;至于该装置300还可配置的气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路360、扬声器361,传声器362可提供用户与该装置300之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号,传输到扬声器361,由扬声器361转换为声音信号输出;另一方面,传声器362将收集的声音信号转换为电信号,由音频电路360接收后转换为音频数据,再将音频数据输出处理器380处理后,经rf电路310以发送给比如另一智能电视,或者将音频数据输出至存储器320以便进一步处理。音频电路360还可能包括耳塞插孔,以提供外设耳机与该装置300的通信。

wifi属于短距离无线传输技术,该装置300通过wifi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图3示出了wifi模块370,但是可以理解的是,其并不属于该装置300的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器380是该装置300的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器320内的数据,执行该装置300的各种功能和处理数据,从而对该装置进行整体监控。可选的,处理器380可包括一个或多个处理核心;优选的,处理器380可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器380中。

该装置300还包括给各个部件供电的电源390(比如电池),优选的,电源可以通过电源管理系统与处理器380逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源390还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出,该装置300还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,该装置的显示单元是触摸屏显示器,该装置还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。所述一个或者一个以上程序包含用于执行上述任一实施例中提供的语音信息处理方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器320,上述指令可由该装置300的处理器380执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由中央设备的处理器执行时,使得中央设备能够执行一种对多个语音助手设备采集的同一音源的语音信息进行处理的方法,所述方法包括:

从多个语音信息中选择时间戳差值小于预设时长的至少两个语音信息,所述时间戳为语音助手设备开始采集语音信息的时刻;

将所述至少两个语音信息中每个时刻的信号强度中,最大信号强度所在的语音信息作为主音源语音信息,以及最小信号强度所在的语音信息作为参考音源语音信息;

基于所述主音源语音信息和参考音源语音信息中具有相同语音内容的部分语音信息确定环境噪声,并利用所述环境噪声对所述主音源语音信息进行降噪处理。

可选地,所述基于所述主音源语音信息和参考音源语音信息中具有相同语音内容的部分语音信息确定环境噪声的步骤包括:

分别从所述主音源语音信息和参考音源语音信息中截取具有相同语音内容的部分语音信息,并作为第一子语音信息和第二子语音信息;

从所述第一子语音信息中每个时刻的信号强度中确定最大信号强度,得到第一信号强度;

从所述第二子语音信息中每个时刻的信号强度中,确定与所述第一信号强度处于同一时刻的信号强度,得到第二信号强度;

将所述第一信号强度与所述第二信号强度的比值作为放大系数;

分别计算所述参考音源语音信息中每个时刻的信号强度和所述放大系数的乘积,与所述主音源语音信息中相应时刻的信号强度之间的差值,并对计算得到的多个差值按照时间顺序所形成的波形进行频域分析,得到所述环境噪声。

可选地,所述利用所述环境噪声对所述主音源语音信息进行降噪处理的步骤包括:

将所述环境噪声中每个时刻的信号强度均除以所述放大系数与1的差,并作反相处理;

将反相处理后的环境噪声与所述主音源语音信息进行叠加,以对所述主音源语音信息进行降噪。

可选地,所述基于所述主音源语音信息和参考音源语音信息中具有相同语音内容的部分语音信息确定环境噪声的步骤包括:

分别从所述主音源语音信息和参考音源语音信息中截取具有相同语音内容的部分语音信息,并作为第一子语音信息和第二子语音信息;

从所述第二子语音信息中每个时刻的信号强度中确定最小信号强度,得到第二信号强度;

从所述第一子语音信息中每个时刻的信号强度中,确定与所述第一信号强度处于同一时刻的信号强度,得到第一信号强度;

将所述第二信号强度与所述第一信号强度的比作为缩小系数;

分别计算所述参考音源语音信息中每个时刻的信号强度,与所述主音源语音信息中相应时刻的信号强度和所述缩小系数的乘积之间的差值,并对计算得到的多个差值按照时间顺序所形成的波形进行频域分析,得到所述环境噪声。

可选地,所述利用所述环境噪声对所述主音源语音信息进行降噪处理的步骤包括:

将所述环境噪声中每个时刻的信号强度均除以1与所述缩小系数的差,并作反相处理;

将反相处理后的环境噪声与所述主音源语音信息进行叠加,以对所述主音源语音信息进行降噪。

需要说明的是:上述实施例提供的对多个语音助手设备采集的同一音源的语音信息进行处理的装置在处理语音信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的对多个语音助手设备采集的同一音源的语音信息进行处理的装置与对多个语音助手设备采集的同一音源的语音信息进行处理的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如:同轴电缆、光纤、数据用户线(digitalsubscriberline,dsl))或无线(例如:红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如:软盘、硬盘、磁带)、光介质(例如:数字通用光盘(digitalversatiledisc,dvd))、或者半导体介质(例如:固态硬盘(solidstatedisk,ssd))等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1