用于电子设备的语音处理方法、装置以及电子设备与流程

文档序号：18515392发布日期：2019-08-24 09:25阅读：167来源：国知局

本公开涉及一种用于电子设备的语音处理方法、一种语音处理装置以及一种电子设备。

背景技术：

随着电子技术的快速发展，各式各样的电子设备逐渐融入到我们的工作及生活中。其中，用户在使用电子设备时，可以通过语音控制电子设备。但是，在相关技术中，当用户首次通过唤醒词唤醒电子设备后，如果隔一段时间后用户还需要与电子设备进行语音交互，则需要再次通过唤醒词唤醒电子设备之后，才能继续与电子设备进行语音交互，即，每次语音交互都需要通过唤醒词唤醒电子设备，导致用户体验性差。

技术实现要素：

本公开的一个方面提供了一种用于电子设备的语音处理方法，包括：在第一时刻接收用户的第一语音数据，响应于所述第一语音数据满足唤醒条件，唤醒所述电子设备，通过语音接收装置在第二时刻接收用户的第二语音数据，所述第二语音数据用于指示所述电子设备执行相关操作，响应于所述第二时刻和所述第一时刻之间的时间长度满足第一特定时间长度，基于所述第二语音数据确定用户面部与所述电子设备的相对位置信息，响应于所述相对位置信息满足特定条件，控制所述电子设备基于所述第二语音数据执行所述相关操作。

可选地，上述方法还包括：响应于所述第二时刻和所述第一时刻之间的时间长度满足第二特定时间长度，控制所述电子设备基于所述第二语音数据执行所述相关操作，其中，所述第二特定时间长度小于所述第一特定时间长度。

可选地，上述语音接收装置包括多个语音接收装置，所述基于所述第二语音数据确定用户面部与所述电子设备的相对位置信息，包括：处理所述第二语音数据得到所述第二语音数据的语音波形和音频时延，其中，所述音频时延表征所述多个语音接收装置接收到所述第二语音数据的时间差，基于所述语音波形和所述音频时延，确定用户面部与所述电子设备的相对位置信息。

可选地，上述基于所述语音波形和所述音频时延，确定用户面部与所述电子设备的相对位置信息，包括：确定所述语音波形的类型是否满足特定类型，响应于所述语音波形的类型满足特定类型，基于所述音频时延确定用户面部与所述电子设备的相对位置信息。

可选地，上述多个语音接收装置包括第一语音接收装置和第二语音接收装置，所述第一语音接收装置和第二语音接收装置之间的距离为特定距离，所述基于所述音频时延确定用户面部与所述电子设备的相对位置信息，包括：确定所述第一语音接收装置接收到所述第二语音数据的第三时刻，确定所述第二语音接收装置接收到所述第二语音数据的第四时刻，基于所述第三时刻和所述第四时刻，确定所述音频时延的第一时延差，基于所述第一时延差和所述特定距离，确定用户面部与所述电子设备的相对位置信息。

可选地，上述方法还包括：处理所述第二语音数据得到所述第二语音数据的音频能量；所述基于所述音频时延确定用户面部与所述电子设备的相对位置信息，包括：响应于所述音频能量大于特定能量阈值，基于所述音频能量确定所述用户相对于所述电子设备的目标位置，基于所述目标位置和所述音频时延，确定用户面部与所述电子设备的相对位置信息。

可选地，上述基于所述音频能量确定所述用户相对于所述电子设备的目标位置，包括：确定第一音频能量和第二音频能量，其中，所述第一音频能量用于表征所述用户位于所述电子设备的前方区域，所述第二音频能量用于表征所述用户位于所述电子设备的侧方区域，处理所述第一音频能量和所述第二音频能量得到处理结果，基于所述处理结果，确定所述用户相对于所述电子设备的目标位置。

可选地，上述多个语音接收装置包括多组语音接收装置，所述方法还包括：响应于所述音频能量小于或等于所述特定能量阈值，确定所述音频时延的第二时延差，基于所述第二时延差和所述多组语音接收装置的位置信息，确定用户面部与所述电子设备的相对位置信息。

本公开的一个方面提供了一种用于电子设备的语音处理方法，包括：通过多个语音采集装置采集用户的语音数据，所述语音数据用于指示所述电子设备执行相关操作，处理所述语音数据得到所述语音数据的语音波形和音频时延，其中，所述音频时延表征所述多个语音采集装置接收到所述语音数据的时间差，基于所述语音波形和所述音频时延，确定用户面部与所述电子设备的相对位置信息，响应于所述相对位置信息满足特定条件，控制所述电子设备基于所述语音数据执行所述相关操作。

可选地，所述基于所述第二语音数据确定用户面部与所述电子设备的相对位置信息，包括：处理所述第二语音数据得到所述第二语音数据的语音波形和音频时延，其中，所述音频时延表征所述多个语音接收装置接收到所述第二语音数据的时间差，基于所述语音波形和所述音频时延，确定用户面部与所述电子设备的相对位置信息。

本公开的另一个方面提供了一种语音处理装置，包括：第一接收模块、唤醒模块、第二接收模块、第一确定模块以及第一控制模块。其中，第一接收模块在第一时刻接收用户的第一语音数据，唤醒模块响应于所述第一语音数据满足唤醒条件，唤醒所述电子设备，第二接收模块通过语音接收装置在第二时刻接收用户的第二语音数据，所述第二语音数据用于指示所述电子设备执行相关操作，第一确定模块响应于所述第二时刻和所述第一时刻之间的时间长度满足第一特定时间长度，基于所述第二语音数据确定用户面部与所述电子设备的相对位置信息，第一控制模块响应于所述相对位置信息满足特定条件，控制所述电子设备基于所述第二语音数据执行所述相关操作。

本公开的另一个方面提供了一种电子设备，包括：处理器以及存储器。其中，存储器用于存储可执行指令，其中，当所述指令被所述处理器执行时，使得所述处理器执行用于实现如上的方法。

本公开的另一方面提供了一种非易失性可读存储介质，存储有计算机可执行指令，指令在被执行时用于实现如上的方法。

本公开的另一方面提供了一种计算机程序，计算机程序包括计算机可执行指令，指令在被执行时用于实现如上的方法。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开实施例的用于电子设备的语音处理方法和语音处理装置的应用场景；

图2示意性示出了根据本公开第一实施例的用于电子设备的语音处理方法的流程图；

图3示意性示出了根据本公开第二实施例的用于电子设备的语音处理方法的流程图；

图4示意性示出了根据本公开实施例的电子设备包括语音接收装置的示意图；

图5-图6示意性示出了根据本公开实施例的电子设备接收语音波形的示意图；

图7示意性示出了根据本公开实施例的基于音频时延确定相对位置信息的示意图；

图8示意性示出了根据本公开第三实施例的用于电子设备的语音处理方法的流程图；

图9示意性示出了根据本公开实施例的确定用户相对于电子设备的目标位置的示意图；

图10示意性示出了根据本公开第四实施例的用于电子设备的语音处理方法的流程图；

图11-图12示意性示出了根据本公开实施例通过多组语音接收装置确定相对位置的示意图；

图13示意性示出了根据本公开实施例的电子设备的框图；

图14示意性示出了根据本公开第一实施例的语音处理装置的框图；

图15示意性示出了根据本公开第二实施例的语音处理装置的框图；

图16示意性示出了根据本公开第三实施例的语音处理装置的框图；

图17示意性示出了根据本公开第四实施例的语音处理装置的框图；以及

图18示意性示出了根据本公开实施例的用于实现语音处理的计算机系统的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“a、b和c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。在使用类似于“a、b或c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b或c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程控制装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。

因此，本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中，计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括：磁存储装置，如磁带或硬盘(hdd)；光存储装置，如光盘(cd-rom)；存储器，如随机存取存储器(ram)或闪存；和/或有线/无线通信链路。

本公开的实施例提供了一种用于电子设备的语音处理方法，包括：在第一时刻接收用户的第一语音数据，响应于第一语音数据满足唤醒条件，唤醒电子设备，通过语音接收装置在第二时刻接收用户的第二语音数据，第二语音数据用于指示电子设备执行相关操作，响应于第二时刻和第一时刻之间的时间长度满足第一特定时间长度，基于第二语音数据确定用户面部与电子设备的相对位置信息，响应于相对位置信息满足特定条件，控制电子设备基于第二语音数据执行相关操作。

图1示意性示出了根据本公开实施例的用于电子设备的语音处理方法和语音处理装置的应用场景。需要注意的是，图1所示仅为可以应用本公开实施例的场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，该应用场景100例如可以包括用户110以及电子设备120。

根据本公开实施例，电子设备120例如可以是智能设备，该电子设备120例如具有接收语音以及语音处理的功能。其中，该电子设备120例如可以是计算机、智能手机、智能音箱等等。

例如，用户110可以通过语音与电子设备120进行交互，以便通过语音控制电子设备120执行相关操作。其中，用户110可以通过唤醒词唤醒电子设备120，在电子设备120被唤醒之后，用户110可以继续基于语音指令控制电子设备120执行相关操作。例如，用户110可以发出唤醒词“hi，xx”。电子设备120在接收到用户110的语音后，判断用户110的语音是否为唤醒词，如果是，则响应该唤醒词并唤醒，在电子设备120唤醒之后，用户110例如可以发出语音指令“请打开xxx应用”，电子设备120接收到语音指令后，可以响应该语音指令以打开相关应用。

下面结合图1的应用场景，参考图2～图12来描述根据本公开示例性实施方式的用于电子设备的语音处理方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

图2示意性示出了根据本公开第一实施例的用于电子设备的语音处理方法的流程图。

如图2所示，该方法包括操作s210～s250。

在操作s210，在第一时刻接收用户的第一语音数据。

根据本公开实施例，用户例如可以通过语音控制电子设备。例如在电子设备处于休眠状态或者关机状态时，用户可以通过相应的唤醒词唤醒电子设备。例如，当电子设备在第一时刻接收到到用户的第一语音数据后，可进一步判断该第一语音数据是否为唤醒词。

在操作s220，响应于第一语音数据满足唤醒条件，唤醒电子设备。

例如，第一语音数据满足唤醒条件包括第一语音数据为唤醒词。电子设备在判断第一语音数据为唤醒词之后，可以响应该第一语音数据进行唤醒，便于后续执行用户指示的相关操作。

在操作s230，通过语音接收装置在第二时刻接收用户的第二语音数据，第二语音数据用于指示电子设备执行相关操作。

根据本公开实施例，语音接收装置例如可以是电子设备中的麦克风或者麦克风阵列等等。其中，在电子设备被唤醒之后，当用户需要进一步控制电子设备执行相关操作时，用户可以发出第二语音数据，以便电子设备接收用户的第二语音数据并响应第二语音数据执行相关操作。其中，电子设备在第二时刻接收到第二语音数据，第二时刻在第一时刻之后。

在操作s240，响应于第二时刻和第一时刻之间的时间长度满足第一特定时间长度，基于第二语音数据确定用户面部与电子设备的相对位置信息。

例如，在接收到用户的第二语音数据之后，电子设备可以进一步判断第二时刻和第一时刻之间的时间长度，当第二时刻和第一时刻的时间长度小于等于第一特定时间长度时，电子设备可以基于第二语音数据确定用户面部与电子设备的相对位置信息。其中，第一特定时间长度例如可以是30秒、1分钟等等。可以理解，第一特定时间长度可以根据实际应用需求而定。

其中，基于第二语音数据可以确定用户面部与电子设备的相对位置信息。例如，可以确定用户面部是朝向第一电子设备或者背对电子设备，更进一步地，基于第二语音数据还可以计算得出用户面部的朝向与电子设备之间的相对角度，该相对角度能够表示用户发出第二语音数据时是否面向电子设备，便于得知用户是否具有通过第二语音数据控制电子设备的意图。

在操作s250，响应于相对位置信息满足特定条件，控制电子设备基于第二语音数据执行相关操作。

根据本公开实施例，相对位置信息满足特定条件例如包括用户面部朝向电子设备。或者，相对位置信息满足特定条件还可以包括用户面部的朝向与电子设备之间的相对角度满足特定角度。例如，当电子设备包括显示单元时，用户面部的朝向与显示单元之间的相对角度满足特定角度。

根据本公开实施例，当相对位置信息满足特定条件时，电子设备可以直接响应第二语音数据执行相关操作，而不必再一次通过唤醒词唤醒电子设备。即，本公开实施例通过确定用户面部朝向与电子设备之间的相对位置信息的方式，实现了在用户通过唤醒词唤醒电子设备之后的一段时间内(第一时刻到第二时刻之间的一段时间，该一段时间内例如用户并没有与电子设备进行其他语音交互)，用户可以直接通过语音控制电子设备执行相关操作，而不必再一次通过唤醒词唤醒电子设备，避免了用户与电子设备之间的交互过程繁琐，并提升了用户与电子设备之间的交互体验。

图3示意性示出了根据本公开第二实施例的用于电子设备的语音处理方法的流程图。

如图3所示，该方法包括操作s210～s250以及s310。其中，操作s210～s250与上参考图2中描述的操作相同或类似，在此不再赘述。

在操作s310，响应于第二时刻和第一时刻之间的时间长度满足第二特定时间长度，控制电子设备基于第二语音数据执行相关操作，其中，第二特定时间长度小于第一特定时间长度。

根据本公开实施例，如果第二时刻和第一时刻之间的时间长度小于等于第二特定时间长度，可以直接控制电子设备响应第二语音数据执行相关操作，而不必继续判断用户面部与电子设备之间的相对位置信息。其中，第二特定时间长度小于第一特定时间长度。例如，当第一特定时间长度为30秒时，第二特定时间长度可以是20秒，当第一特定时间长度为1分钟时，第二特定时间长度为40秒等等。

在本公开实施例中，第二时刻与第一时刻之间的时间长度的大小例如能够表征用户在第二时刻发出的第二语音数据用于控制电子设备执行相关操作的概率大小。例如，第二时刻与第一时刻之间的时间长度越小，表示用户在唤醒电子设备后较短时间之内发出第二语音数据，表明用户想要通过第二语音数据控制电子设备的概率(第一概率)较大，此时，电子设备可以直接响应该第二语音数据执行相关操作，不需要通过唤醒词再次唤醒电子设备。当第二时刻与第一时刻之间的时间长度越大，表示用户在唤醒电子设备后较长时间之内发出第二语音数据，表明用户通过第二语音数据控制电子设备的概率(第二概率)较小，即第二概率小于第一概率，此时，电子设备可以继续判断用户是否面向电子设备，在用户面向电子设备时表示用户想要通过第二语音数据控制电子设备，此时可以响应该第二语音数据执行相关操作，而不需要通过唤醒词再次唤醒电子设备。

参考以下图4-图12，其中，图4-图9描述的实施例适用于用户与电子设备之间的距离较近的场景，图10-图12描述的实施例适用于用户与电子设备之间的距离较远的场景。其中，用户与电子设备之间的距离较近例如包括用户与电子设备之间的距离为1米以内，用户与电子设备之间的距离较远例如包括用户与电子设备之间的距离超过1米。

首先，在用户与电子设备之间的距离较近的场景下，如参考图4-图9描述了如何确定用户面部与电子设备的相对位置信息。

图4示意性示出了根据本公开实施例的电子设备包括语音接收装置的示意图。

如图4所示，电子设备例如包括多个语音接收装置。其中，图4中示意性示出了两个语音接收装置，例如为麦克风m1和麦克风m2。

根据本公开实施例，如图2中描述的操作s240，基于第二语音数据确定用户面部与电子设备的相对位置信息例如可以包括以下步骤(1)～(2)。

(1)处理第二语音数据得到第二语音数据的语音波形和音频时延，其中，音频时延表征多个语音接收装置接收到第二语音数据的时间差。

例如，在电子设备接收到第二语音数据后，电子设备可以处理第二语音数据得到语音波形和音频时延。其中，语音波形例如可以包括平面波形、曲面波形或者其他不规则波形等等。其中，由于麦克风m1和麦克风m2接收第二语音数据的时刻不同，因此麦克风m1和麦克风m2接收第二语音数据的时间差为音频时延。

(2)基于语音波形和音频时延，确定用户面部与电子设备的相对位置信息。

例如，语音波形能够表征用户发出第二语音数据时用户的面部是朝向电子设备或者背对电子设备。并且，麦克风m1和麦克风m2接收第二语音数据的音频时延可以表示用户与麦克风m1和麦克风m2的相对位置信息。因此，可以根据语音波形和音频时延来确定用户面部与电子设备的相对位置信息，具体过程参见如下图5-图6中的描述。

图5-图6示意性示出了根据本公开实施例的电子设备接收语音波形的示意图。

根据本公开实施例，在处理第二语音数据得到语音波形后，首先确定语音波形的类型是否满足特定类型，其次，响应于语音波形的类型满足特定类型，基于音频时延确定用户面部与电子设备的相对位置信息。其中，语音波形的类型是否满足特定类型包括语音波形是否为平面波形。

如图5所示，当电子设备接收到第二语音数据后，如果判断出第二语音数据的语音波形的类型为平面波形，可以初步判别用户发出第二语音数据时至少不背对电子设备，并进一步通过音频时延来判断用户面部与电子设备的相对位置信息，以便电子设备基于相对位置信息确定是否响应第二语音数据以执行相关操作。

如图6所示，当电子设备接收到第二语音数据后，如果判断出第二语音数据的语音波形的类型不是平面波形时(例如为曲面波形或者其他不规则波形等)，可以初步判别用户发出第二语音数据时背对电子设备，这是由于用户面部对第二语音数据的传输造成阻碍导致语音波形不是平面波形。因此，当第二语音数据的语音波形的类型不是平面波形时，初步判断用户发出第二语音数据时背对电子设备，则电子设备可以不响应该第二语音数据，不再进行后续关于相对位置信息的判断。

图7示意性示出了根据本公开实施例的基于音频时延确定相对位置信息的示意图。

如图7所示，多个语音接收装置包括第一语音接收装置(麦克风m1)和第二语音接收装置(麦克风m2)，第一语音接收装置和第二语音接收装置之间的距离为特定距离d1。在本公开实施例中，由于多个语音接收装置中的每个语音接收装置与用户的距离不同，因此，不同语音接收装置接收到第二语音数据的时刻可能不同，由此可以根据多个语音接收装置接收第二语音数据的音频时延来确定用户面部与电子设备之间的相对位置信息。

根据本公开实施例，基于音频时延确定用户面部与电子设备的相对位置信息，包括以下步骤(1)～(4)。

(1)确定第一语音接收装置接收到第二语音数据的第三时刻。

(2)确定第二语音接收装置接收到第二语音数据的第四时刻。

例如，当电子设备接收到第二语音数据时，确定麦克风m1接收到第二语音数据的第三时刻以及麦克风m2接收到第二语音数据的第四时刻。

(3)基于第三时刻和第四时刻，确定音频时延的第一时延差。

例如，当第三时刻大于第四时刻时，表示第二语音数据首先到达麦克风m2，当第三时刻小于第四时刻时，表示第二语音数据首先到达麦克风m1(第二语音数据首先到达麦克风m2的情况如图7所示)。其中，第三时刻和第四时刻之间的差值为第一时延差。

(4)基于第一时延差和特定距离d1，确定用户面部与电子设备的相对位置信息。

以图7所示的情形为例，第二语音数据首先到达麦克风m1，此时第一时延差为负数，根据第一时延差的绝对值与语音的传播速度(例如为声速)可得知图中的距离d2。该距离d2可以表征第一距离与第二距离之间的差值(绝对值)。其中，第一距离可以表示用户面部所在平面与麦克风m1之间的距离，第二距离可以表示用户面部所在平面与麦克风m2之间的距离。

在本公开实施例中，基于距离d2和特定距离d1可得知角度r，例如，d2＝d1*cosr，其中，由于d1和d2已知，可计算得到角度r。其中，角度r例如可以用于表示用户面部与电子设备的相对位置信息，例如，角度r为用户面部的朝向n与电子设备的显示单元所在的平面之间的夹角，其中，本公开实施例假设电子设备的显示单元垂直于地面。

如图7所示，由于用户与电子设备之间的距离较近，当基于第一时延差(距离d2)和特定距离d1确定出用户面部与电子设备的相对位置信息(角度r)后，用户可能处于图7中所示的a位置或者b位置等等。因此，需要进一步判断用户所处的目标位置，例如，需要判断用户处于a位置或b位置。具体过程如下参考图8-图9中描述。

图8示意性示出了根据本公开第三实施例的用于电子设备的语音处理方法的流程图。

如图8所示，该方法包括操作s210～s250以及s810。其中，操作s210～s250与上参考图2中描述的操作相同或类似，在此不再赘述。

在操作s810，处理第二语音数据得到第二语音数据的音频能量。

根据本公开实施例，第二语音数据的音频能量例如可以表示用户与电子设备之间的距离。第二语音数据的音频能量越大，则表示用户与电子设备之间的距离越小，音频能量越小，则表示用户与电子设备之间的距离越大。

根据本公开实施例，基于音频时延确定用户面部与电子设备的相对位置信息，包括以下步骤(1)～(2)。

(1)响应于音频能量大于特定能量阈值，基于音频能量确定用户相对于电子设备的目标位置。

例如，当音频能量大于特定能量阈值时，表示用户与电子设备之间的距离较小，则可以进一步确定用户相对于电子设备的目标位置(例如如图7所示，确定目标位置为a位置或b位置)。其中，根据音频能量确定目标位置的过程如下参考图9所示。

如果音频能量小于等于特定能量阈值时，表示用户与电子设备之间的距离较大，则确定用户与电子设备之间的相对位置信息的过程可以参考以下图10-图12中描述的方式。

(2)基于目标位置和音频时延，确定用户面部与电子设备的相对位置信息。

在确定出用户相对于电子设备的目标位置之后，可以根据目标位置和音频时延较为准确地确定用户面部与电子设备之间的相对位置信息(相对位置信息例如包括图7中的a位置和角度r)。

图9示意性示出了根据本公开实施例的确定用户相对于电子设备的目标位置的示意图。

如图9所示，基于音频能量确定用户相对于电子设备的目标位置，包括以下步骤(1)～(3)

(1)确定第一音频能量和第二音频能量，其中，第一音频能量用于表征用户位于电子设备的前方区域，第二音频能量用于表征用户位于电子设备的侧方区域。

根据本公开实施例，例如可以通过麦克风阵列技术定位用户的目标位置。具体地，例如通过beamforming技术中的两种不同方式分别确定第二语音数据中的第一音频能量和第二音频能量。其中。例如通过cardioid方式获取第一音频能量，该第一音频能量能够用于表示用户位于电子设备的前方区域，通过dipole方式获取第二音频能量，该第二音频能量能够用于表示用户位于电子设备的侧方区域。其中，如图9所示，前方区域例如为e区域，侧方区域例如为f区域(图9中的左右两侧均为f区域)。

(2)处理第一音频能量和第二音频能量得到处理结果。

(3)基于处理结果，确定用户相对于电子设备的目标位置。

例如，将第一音频能量和第二音频能量进行叠加处理得到处理结果，处理结果可表示用户的目标位置。

如图9所示，当得到用户的目标位置为a时，表示用户处于前方区域，则根据用户的相对位置信息(包括目标位置a和角度r)可以确定用户面部的朝向与电子设备的之间的相对位置信息满足特定条件，并控制电子设备响应第二语音数据。如果用户的目标位置为b时，表示用户处于前方区域，则根据用户的相对位置信息(包括目标位置b和角度r)可以确定用户面部的朝向与电子设备的之间的相对位置信息不满足特定条件(用户没有面向电子设备)，则电子设备不响应第二语音数据。

类似地，如果用户的目标位置为c时，表示用户处于侧方区域，则根据用户的相对位置信息(包括目标位置c和角度r)可以确定用户面部的朝向与电子设备的之间的相对位置信息满足特定条件，则控制电子设备响应第二语音数据。如果用户的目标位置为d时，表示用户处于侧方区域，则根据用户的相对位置信息(包括目标位置d和角度r)可以确定用户面部的朝向与电子设备的之间的相对位置信息不满足特定条件(用户没有面向电子设备)，则电子设备不响应第二语音数据。

根据本公开实施例，在用户与电子设备之间的距离较近的场景下，通过确定用户相对于电子设备的目标位置，并基于目标位置和音频时延确定用户面部电子设备的相对位置信息，以便根据相对位置信息控制电子设备响应用户的第二语音数据并直接执行相关操作，不用再次通过唤醒词唤醒电子设备，避免了用户与电子设备之间的交互过程繁琐，并提升了用户与电子设备之间的交互体验。

另外，在用户与电子设备之间的距离较远的场景下，如参考图10-图12描述了如何确定用户面部与电子设备的相对位置信息。

图10示意性示出了根据本公开第四实施例的用于电子设备的语音处理方法的流程图。

如图10所示，该方法包括操作s210～s250以及s1010～s1020。其中，操作s210～s250与上参考图2中描述的操作相同或类似，在此不再赘述。

图11-图12示意性示出了根据本公开实施例通过多组语音接收装置确定相对位置的示意图。

如图11和图12所示，多个语音接收装置包括多组语音接收装置。例如包括三组语音接收装置，每组语音接收装置例如可以包括两个麦克风。由于用户与电子设备之间的距离较远，因此，通过多组语音接收装置可以较为准确地确定用户与电子设备之间的相对位置信息。

结合图10、图11和图12所示，在操作s1010，响应于音频能量小于或等于特定能量阈值，确定音频时延的第二时延差。

例如，首先通过多组语音接收装置接收第二语音数据，并判断第二语音数据的语音波形的类型是否为平面波形类型，如果是，则可以进一步判断第二语音数据的音频能量是否小于特定能量阈值，如果是，则表示用户与电子设备之间的距离较远，此时，可以进一步确定多组语音接收装置接收到第二语音数据的第二时延差。

在操作s1020，基于第二时延差和多组语音接收装置的位置信息，确定用户面部与电子设备的相对位置信息。

如图12所示，由于用户与电子设备之间的距离较远，因此，用户的位置变化对用户面部是否朝向电子设备的影响较小。例如，当用户从a距离移动到b距离后，可认为用户面部始终朝向电子设备(而不像在图7中用户与电子设备近距离时，用户在a位置时面向电子设备，在b位置时则不面向电子设备)。因此，在用户与电子设备之间的距离较远时，由于用户目标位置的变化对用户面部是否朝向电子设备的影响较小，由此通过第二时延差和多组语音接收装置的位置信息即可确定出用户面部与电子设备的相对位置信息。

根据本公开实施例，在用户与电子设备之间的距离较远的场景下，可以基于音频时延确定用户面部与电子设备的相对位置信息，以便根据相对位置信息控制电子设备响应用户的第二语音数据并直接执行相关操作，不用再次通过唤醒词唤醒电子设备，避免了用户与电子设备之间的交互过程繁琐，并提升了用户与电子设备之间的交互体验。

根据本公开实施例，除了根据第二语音数据确定用户面部与电子设备之间的相对位置信息之外，还可以通过其他传感器确定用户面部与电子设备之间的相对位置信息。例如可以通过雷达、tof(timeofflight)测距传感器、热工外扫描器等等方式获取关于用户面部的数据，以确定用户面部与电子设备之间的相对位置信息。

图13示意性示出了根据本公开实施例的电子设备的框图。

如图13所示，本公开实施例的电子设备1300包括：处理器1310以及存储器1320。其中，存储器1320用于存储可执行指令，其中，当指令被处理器1310执行时，使得处理器1310执行如图2-图12所示的语音处理方法，在此不再赘述。

图14示意性示出了根据本公开第一实施例的语音处理装置的框图。

如图14所示，语音处理装置1400包括第一接收模块1410、唤醒模块1420、第二接收模块1430、第一确定模块1440以及第一控制模块1450。

第一接收模块1410可以用于在第一时刻接收用户的第一语音数据。根据本公开实施例，第一接收模块1410例如可以执行上文参考图2描述的操作s210，在此不再赘述。

唤醒模块1420可以用于响应于第一语音数据满足唤醒条件，唤醒电子设备。根据本公开实施例，唤醒模块1420例如可以执行上文参考图2描述的操作s220，在此不再赘述。

第二接收模块1430可以用于通过语音接收装置在第二时刻接收用户的第二语音数据，第二语音数据用于指示电子设备执行相关操作。根据本公开实施例，第二接收模块1430例如可以执行上文参考图2描述的操作s230，在此不再赘述。

第一确定模块1440可以用于响应于第二时刻和第一时刻之间的时间长度满足第一特定时间长度，基于第二语音数据确定用户面部与电子设备的相对位置信息。

根据本公开实施例，语音接收装置包括多个语音接收装置，基于第二语音数据确定用户面部与电子设备的相对位置信息，包括：处理第二语音数据得到第二语音数据的语音波形和音频时延，其中，音频时延表征多个语音接收装置接收到第二语音数据的时间差，基于语音波形和音频时延，确定用户面部与电子设备的相对位置信息。

根据本公开实施例，基于语音波形和音频时延，确定用户面部与电子设备的相对位置信息，包括：确定语音波形的类型是否满足特定类型，响应于语音波形的类型满足特定类型，基于音频时延确定用户面部与电子设备的相对位置信息。

根据本公开实施例，多个语音接收装置包括第一语音接收装置和第二语音接收装置，第一语音接收装置和第二语音接收装置之间的距离为特定距离，基于音频时延确定用户面部与电子设备的相对位置信息，包括：确定第一语音接收装置接收到第二语音数据的第三时刻，确定第二语音接收装置接收到第二语音数据的第四时刻，基于第三时刻和第四时刻，确定音频时延的第一时延差，基于第一时延差和特定距离，确定用户面部与电子设备的相对位置信息。

根据本公开实施例，第一确定模块1440例如可以执行上文参考图2描述的操作s240，在此不再赘述。

第一控制模块1450可以用于响应于相对位置信息满足特定条件，控制电子设备基于第二语音数据执行相关操作。根据本公开实施例，第一控制模块1450例如可以执行上文参考图2描述的操作s250，在此不再赘述。

图15示意性示出了根据本公开第二实施例的语音处理装置的框图。

如图15所示，语音处理装置1500包括第一接收模块1410、唤醒模块1420、第二接收模块1430、第一确定模块1440、第一控制模块1450以及第二控制模块1510。其中，第一接收模块1410、唤醒模块1420、第二接收模块1430、第一确定模块1440以及第一控制模块1450如上参考图14描述的模块相同或类似，在此不再赘述。

第二控制模块1510可以用于响应于第二时刻和第一时刻之间的时间长度满足第二特定时间长度，控制电子设备基于第二语音数据执行相关操作，其中，第二特定时间长度小于第一特定时间长度。根据本公开实施例，第二控制模块1510例如可以执行上文参考图3描述的操作s310，在此不再赘述。

图16示意性示出了根据本公开第三实施例的语音处理装置的框图。

如图16所示，语音处理装置1600包括第一接收模块1410、唤醒模块1420、第二接收模块1430、第一确定模块1440、第一控制模块1450以及处理模块1610。其中，第一接收模块1410、唤醒模块1420、第二接收模块1430、第一确定模块1440以及第一控制模块1450如上参考图14描述的模块相同或类似，在此不再赘述。

处理模块1610可以用于处理第二语音数据得到第二语音数据的音频能量。

根据本公开实施例，基于音频时延确定用户面部与电子设备的相对位置信息，包括：响应于音频能量大于特定能量阈值，基于音频能量确定用户相对于电子设备的目标位置，基于目标位置和音频时延，确定用户面部与电子设备的相对位置信息。

根据本公开实施例，基于音频能量确定用户相对于电子设备的目标位置，包括：确定第一音频能量和第二音频能量，其中，第一音频能量用于表征用户位于电子设备的前方区域，第二音频能量用于表征用户位于电子设备的侧方区域，处理第一音频能量和第二音频能量得到处理结果，基于处理结果，确定用户相对于电子设备的目标位置。

根据本公开实施例，处理模块1610例如可以执行上文参考图8描述的操作s810，在此不再赘述。

图17示意性示出了根据本公开第四实施例的语音处理装置的框图。

如图17所示，语音处理装置1700包括第一接收模块1410、唤醒模块1420、第二接收模块1430、第一确定模块1440、第一控制模块1450、第二确定模块1710以及第三确定模块1720。其中，第一接收模块1410、唤醒模块1420、第二接收模块1430、第一确定模块1440以及第一控制模块1450如上参考图14描述的模块相同或类似，在此不再赘述。

第二确定模块1710可以用于响应于音频能量小于或等于特定能量阈值，确定音频时延的第二时延差。根据本公开实施例，第二确定模块1710例如可以执行上文参考图10描述的操作s1010，在此不再赘述。

第三确定模块1720可以用于基于第二时延差和多组语音接收装置的位置信息，确定用户面部与电子设备的相对位置信息。根据本公开实施例，第三确定模块1720例如可以执行上文参考图10描述的操作s1020，在此不再赘述。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，第一接收模块1410、唤醒模块1420、第二接收模块1430、第一确定模块1440、第一控制模块1450、第二控制模块1510、处理模块1610、第二确定模块1710以及第三确定模块1720中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获取模块610、第一控制模块620、存储模块710、第二控制模块720以及第三控制模块810中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一接收模块1410、唤醒模块1420、第二接收模块1430、第一确定模块1440、第一控制模块1450、第二控制模块1510、处理模块1610、第二确定模块1710以及第三确定模块1720中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图18示意性示出了根据本公开实施例的用于实现语音处理的计算机系统的方框图。图18示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图18所示，实现语音处理的计算机系统1800包括处理器1801、计算机可读存储介质1802。该系统1800可以执行根据本公开实施例的方法。

具体地，处理器1801例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(asic))，等等。处理器1801还可以包括用于缓存用途的板载存储器。处理器1801可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质1802，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(hdd)；光存储装置，如光盘(cd-rom)；存储器，如随机存取存储器(ram)或闪存；和/或有线/无线通信链路。

计算机可读存储介质1802可以包括计算机程序1803，该计算机程序1803可以包括代码/计算机可执行指令，其在由处理器1801执行时使得处理器1801执行根据本公开实施例的方法或其任何变形。

计算机程序1803可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序1803中的代码可以包括一个或多个程序模块，例如包括1803a、模块1803b、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器1801执行时，使得处理器1801可以执行根据本公开实施例的方法或其任何变形。

根据本公开的实施例，第一接收模块1410、唤醒模块1420、第二接收模块1430、第一确定模块1440、第一控制模块1450、第二控制模块1510、处理模块1610、第二确定模块1710以及第三确定模块1720中的至少一个可以实现为参考图18描述的计算机程序模块，其在被处理器1801执行时，可以实现上面描述的相应操作。

本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现以上语音处理方法。

根据本公开的实施例，计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、射频信号等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：龚永燕;黄海锋;范海涛
技术所有人：联想（北京）有限公司
我是此专利的发明人