自然助理交互的制作方法

文档序号：34617923发布日期：2023-06-29 12:02阅读：57来源：国知局

这整体涉及虚拟助理，并且更具体地讲，涉及通过虚拟助理提供自然语言交互。

背景技术：

1、虚拟助理(或数字助理或智能自动化助理)可提供有益的人机界面。此类助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如，用户可向正在电子设备上运行的数字助理提供包含用户请求的语音输入。虚拟助理可从该语音输入解译用户意图并且将用户意图操作化成任务。随后可通过执行电子设备的一项或多项服务来执行这些任务，并且可将响应于用户请求的相关输出返回给用户。

2、在接收到触发短语诸如“嘿，siri”时，虚拟助理可被启用。启用后，虚拟助理可接收和处理用户的语音输入。例如，用户的语音输入可包括前导触发短语，以启用虚拟助理，随后是信息请求(例如，“嘿，siri，今天的天气如何？”)。然而，用触发短语(例如，“嘿，siri”)引导每个语音输入可能不方便并且很快会变得麻烦。它也不代表自然的交流方式。例如，当第一用户与第二用户交谈时，第一用户通常不应当用第二用户的名字来引导每个句子。因此，要求用户用触发短语引导每个语音输入并不代表自然的交流方式并且效率较低。

技术实现思路

1、本发明提供了用于通过虚拟助理提供自然语言交互的系统和过程。

2、根据一个或多个示例，方法包括在具有一个或多个处理器、存储器和麦克风的电子设备处：经由麦克风接收第一音频流，第一音频流包括一个或多个话语，以及确定第一音频流是否包括词汇触发。根据确定的第一音频流包括词汇触发，该方法还包括生成一个或多个话语的一个或多个候选文本表示，以及确定虚拟助理是否要忽略一个或多个候选文本表示的至少一个候选文本表示。根据确定的虚拟助理要忽略至少一个候选文本表示，该方法还包括基于除了要被忽略的至少一个候选文本表示之外的一个或多个候选文本表示的候选文本表示生成一个或多个候选意图。该方法还包括确定一个或多个候选意图是否包括至少一个可执行意图。根据确定的一个或多个候选意图包括至少一个可执行意图，该方法还包括执行至少一个可执行意图并输出执行至少一个可执行意图的结果。

3、本文公开了示例非暂态计算机可读介质。一种示例非暂态计算机可读存储介质存储一个或多个程序。一个或多个程序包括指令，该指令在由电子设备的一个或多个处理器执行时，使得电子设备经由麦克风接收第一音频流，第一音频流包括一个或多个话语；确定第一音频流是否包括词汇触发；根据确定的第一音频流包括词汇触发，生成一个或多个话语的一个或多个候选文本表示；确定虚拟助理是否要忽略一个或多个候选文本表示的至少一个候选文本表示；根据确定的虚拟助理要忽略至少一个候选文本表示，基于除了要被忽略的至少一个候选文本表示之外的一个或多个候选文本表示的候选文本表示生成一个或多个候选意图；确定一个或多个候选意图是否包括至少一个可执行意图；根据确定的一个或多个候选意图包括至少一个可执行意图，执行至少一个可执行意图；以及输出执行至少一个可执行意图的结果。

4、本文公开了示例电子设备。一种示例电子设备包括：一个或多个处理器；存储器；和一个或多个程序，其中该一个或多个程序存储在存储器中并且被配置为由一个或多个处理器执行，该一个或多个程序包括用于执行以下操作的指令：经由麦克风接收第一音频流，第一音频流包括一个或多个话语；确定第一音频流是否包括词汇触发；根据确定的第一音频流包括词汇触发，生成一个或多个话语的一个或多个候选文本表示；确定虚拟助理是否要忽略一个或多个候选文本表示的至少一个候选文本表示；根据确定的虚拟助理要忽略至少一个候选文本表示，基于除了要被忽略的至少一个候选文本表示之外的一个或多个候选文本表示的候选文本表示生成一个或多个候选意图；确定一个或多个候选意图是否包括至少一个可执行意图；根据确定的一个或多个候选意图包括至少一个可执行意图，执行至少一个可执行意图；输出执行至少一个可执行意图的结果。

5、示例性电子设备包括：用于经由麦克风接收第一音频流的装置，第一音频流包括一个或多个话语；用于确定第一音频流是否包括词汇触发的装置；根据确定的第一音频流包括词汇触发，用于生成一个或多个话语的一个或多个候选文本表示的装置；用于确定虚拟助理是否要忽略一个或多个候选文本表示的至少一个候选文本表示的装置；根据确定的虚拟助理要忽略至少一个候选文本表示，用于基于除了要被忽略的至少一个候选文本表示之外的一个或多个候选文本表示的候选文本表示生成一个或多个候选意图的装置；用于确定一个或多个候选意图是否包括至少一个可执行意图的装置；根据确定的一个或多个候选意图包括至少一个可执行意图，用于执行至少一个可执行意图的装置；和用于输出执行至少一个可执行意图的结果的装置。

6、促进基于语音的人机交互的当前技术通常需要在来自用户的话语的开始部分使用触发短语。如上所述，这个要求可使得人机交互变得麻烦并且使得人机用户界面不太自然和高效。在本申请中描述的用于提供自然语言交互的各种技术消除或减少了这种用触发短语引导每个用户话语的要求的需要。相反，触发字词或短语可放置在可包括一个或多个用户话语的音频流的任何部分中。此外，本申请中所述的技术不需要使用包括多个字词的触发短语(例如，“嘿，siri”)。单个字词(例如，“siri”)可用于指示包括用户话语的音频流指向虚拟助理。这使得交流方式更加自然。

7、此外，本申请中描述的用于促进基于语音的人机交互的各种技术提高了设备的可操作性，并且使得用户设备界面更有效(例如，不需要用触发短语引导每个用户话语)，另外，通过使用户能够更快速和有效地使用设备，这还可以降低电力使用并延长设备的电池寿命。

技术特征：

1.一种方法，包括：

2.根据权利要求1所述的方法，其中所述传感器是第一传感器，所述方法还包括：

3.根据权利要求1至2所述的方法，其中在提供所述语音输出之后所述用户话语被接收到。

4.根据权利要求1至3所述的方法，还包括：

5.根据权利要求1至4所述的方法，还包括：

6.根据权利要求1至5所述的方法，还包括：

7.根据权利要求6所述的方法，还包括：

8.根据权利要求1至7所述的方法，其中当所述用户注视被指向所述电子设备时，所述用户话语指向所述虚拟助理的可能性为高。

9.根据权利要求1至8所述的方法，其中所述用户话语是第一用户话语，所述方法还包括：

10.根据权利要求1至9所述的方法，还包括：

11.一种电子设备(900)，包括：

12.一种计算机可读存储介质，包括用于由电子设备(900)的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括在由所述一个或多个处理器执行时使所述电子设备(900)执行根据权利要求1至10中任一项所述的方法的指令。

技术总结
本公开设计自然助理交互。本发明提供了用于操作虚拟助理以提供自然助理交互的系统和过程。根据一个或多个示例，一种方法包括在具有存储器和一个或多个处理器的电子设备处：接收第一音频流，所述第一音频流包括一个或多个话语；确定所述第一音频流是否包括词汇触发；生成所述一个或多个话语的一个或多个候选文本表示；确定所述虚拟助理是否要忽略所述一个或多个候选文本表示的至少一个候选文本表示。如果要忽略至少一个候选文本表示，则基于除了要被忽略的所述至少一个候选文本表示之外的所述一个或多个候选文本表示的候选文本表示，生成一个或多个候选意图。

技术研发人员：J·C·加西亚,P·S·麦卡西,K·皮索尔
受保护的技术使用者：苹果公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J
技术所有人：苹果公司
我是此专利的发明人