在用户迭代地提供口头话语或口头话语序列时由自动化助理对图形用户界面元素的动态适配的制作方法

文档序号:35282142发布日期:2023-09-01 02:01阅读:45来源:国知局
在用户迭代地提供口头话语或口头话语序列时由自动化助理对图形用户界面元素的动态适配的制作方法


背景技术:

1、人类可以用在本文中被称为“自动化助理”(也被称为“数字智能体”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“助理应用”、“会话智能体”等)的交互式软件应用参与人对计算机的对话。例如,人类(当他们与自动化助理交互时可以被称为“用户”)可以使用口头自然语言输入(即,话语)和/或通过提供文本(例如,键入的)自然语言输入来向自动化助理提供命令和/或请求,口头自然语言输入在一些情况下可以被转换为文本然后被处理。

2、在许多实例中,自动化助理可以由可能没有记住完整命令短语的用户调用。例如,假设用户提供了包括对自动化助理采取行动的请求的一部分的口头话语“assistant,set…(助理,设置…)”。在该示例中,请求的该部分可以指示用户意图设置智能扬声器的音量、设置智能恒温器的温度、设置智能灯泡的亮度水平等。然而,在这些实例中的许多实例中,如果用户没有在某个时间窗口内明确表达完整命令短语,则自动化助理可能不对请求采取行动,因为它太模糊,或者自动化助理可能对请求采取行动并执行用户不意图的一些动作。因此,用户可能需要重新调用自动化助理并再次提供具有完整命令短语的口头话语,从而延长用户和自动化助理之间的一个或多个对话会话并增加在计算设备处接收的用户输入的数量。

3、在一些实例中,自动化助理可以由可能记住完整命令短语但可能没有记住与命令短语相关联的特定槽值的用户调用。例如,假设用户提供了口头话语“assistant,set thevolume to…(助理,将音量设置为…)”,其包括对自动化助理采取行动的请求的一部分。在该示例中,请求的该部分可以指示用户意图将扬声器的音量设置为与设置扬声器的音量的命令相关联的特定槽值。然而,在这些实例中的许多实例中,用户可能不知道扬声器的音量的当前状态,并且因此可能不知道如何相对于当前状态修改扬声器的音量。因此,用户可以暂停以考虑在提供口头话语的初始部分(例如,assistant,set the volume to…“助理,将音量设置为…”)之后如何修改扬声器的音量。类似于上述示例,如果用户在某个时间窗口内没有明确表达特定槽值,则自动化助理可能不对请求采取行动,因为它太模糊,或者自动化助理可能对请求采取行动并执行用户不意图的一些动作。同样,用户可能需要重新调用自动化助理并再次提供具有完整命令短语和特定槽值的口头话语,从而延长用户和自动化助理之间的一个或多个对话会话并增加在计算设备处接收的用户输入的数量。因此,在这些示例中,通过处理不完整的口头话语并要求用户重新参与与自动化助理的对话会话,可能浪费计算资源。


技术实现思路

1、本文描述的实施方式涉及一种自动化助理,该自动化助理能够基于用户迭代地提供口头话语或口头话语序列来动态地适配图形用户界面(gui)元素,该口头话语或口头话语序列包括针对至少部分地在用户的计算设备处执行的自动化助理的请求。gui元素能够表征来自用户的传入请求的部分和/或提供能够帮助用户更有效且准确地向自动化助理描述请求的建议。在一些实施方式中,并且基于处理请求的该部分,能够确定候选意图,并且能够在用户使请求完整之前在计算设备的显示界面处渲染与候选意图相关联的通用容器图形元素。此外,并且基于处理请求的附加部分,能够从候选意图确定特定意图,并且能够用与特定意图相关联的特定定制容器图形元素动态地适配通用容器图形元素,而无需在计算设备处渲染不同的显示界面。在附加或替代实施方式中,包括在请求的该部分中的特定单词或短语能够被直接映射到通用容器图形元素,而不必确定候选意图。在附加或替代实施方式中,响应于确定请求的该部分与修改计算设备和/或附加计算设备的一个或多个设置的当前状态相关联,特定定制容器图形元素能够包括计算设备和/或与计算设备通信的附加计算设备的一个或多个设置的当前状态(例如,与一个或多个设置的当前状态相关联的槽值)。

2、例如,假设用户开始提供的口头话语“assistant,set…”,该口头话语包括对自动化的请求的一部分以调整设备的状态,诸如智能扬声器的音量、智能恒温器的温度、设置智能灯泡的亮度水平等。当用户提供请求的该部分时,自动化助理能够使用流式自动语音识别(asr)模型,使得捕获请求的该部分的音频数据流被处理,以生成asr输出。此外,自动化助理能够使用自然语言理解(nlu)模型,使得asr输出被处理以生成nlu输出。能够基于asr输出(例如,指示请求的该部分包括“set(设置)”或另一特定单词或短语)和/或nlu输出(例如,指示请求的该部分包括与通用容器图形元素相关联的候选意图),在计算设备的显示界面处渲染通用容器图形元素。

3、进一步假设用户继续提供口头话语“…the volume for the speakers…(…扬声器的音量…)”(或作为口头话语之后的附加口头话语),其包括用于自动调整设备的状态的请求的附加部分。类似地,当用户提供请求的该附加部分时,自动化助理能够使用流式asr模型,使得也捕获请求的该附加部分的音频数据流被处理,以生成附加asr输出。此外,自动化助理能够使用nlu模型使附加asr输出被处理,以生成附加nlu输出。基于附加asr输出和/或附加nlu输出,自动化助理能够确定用户想要设置智能扬声器的音量。因此,能够用特定于设置用于智能扬声器的音量的定制容器图形元素来动态地适配通用容器图形元素。例如,特定于设置智能扬声器的音量的定制容器图形元素能够包括智能扬声器的音量的当前状态、使得用户能够使用触摸输入设置音量的音量控制图形元素、指示正在为智能扬声器设置音量的媒体内容、与智能扬声器相关联的设备标识符和/或与智能扬声器相关联的任何其他内容。

4、相反,在继续提供口头话语时,如果用户指示“…the temperature…(…温度…)”,则能够用特定于设置智能恒温器的温度的定制容器图形元素动态地适配通用容器图形元素,该定制容器图形元素与特定于设置智能扬声器的音量的定制容器图形元素不同。例如,特定于设置智能恒温器的温度的定制容器图形元素能够包括温度的当前状态、指示正在为智能恒温器设置温度的媒体内容、使得用户能够使用触摸输入设置温度的温度控制图形元素、与智能恒温器相关联的设备标识符和/或与智能恒温器相关联的任何其他内容。尽管如此,在这些实例中的任一个中,相同的通用容器图形元素能够动态地适配于这些各种定制容器图形元素,而无需渲染任何附加的用户界面。

5、通用容器图形元素能够作为多个不同的定制容器图形元素中的任何一个的占位符操作,每个定制容器图形元素与多个不同意图中的对应一个相关联或者被直接映射到特定单词或短语。因此,当用户继续向自动化助理提供请求时,能够用基于处理请求的该附加部分而确定的特定意图相关联的特定定制图形元素动态且无缝地适配通用容器图形元素。例如,在上述示例中,能够响应于请求的该部分“assistant,set…”,在显示界面处初始渲染通用容器图形元素。通用容器图形元素能够包括例如图形元素的阵列(例如,点形状的阵列)以指示值的范围。随后,当用户提供请求的附加部分(例如,“…the volume of thespeakers…(…扬声器的音量…)”、“…the brightness…(…亮度…)”、“…thetemperature…(…温度…)”等)时,自动化助理能够基于请求的该附加部分来适配图形元素阵列。例如,基于用户提供“…the volume of the speakers……”的请求的附加部分,图形元素阵列能够适配以反映与智能扬声器的音量相关联的值的范围,并且包括智能扬声器的音量的当前状态以帮助用户确定如何修改音量。此外,例如,基于用户提供“…thebrightness…”的请求的附加部分,图形元素阵列能够被适配以反映与智能灯泡的亮度相关联的值的范围,并且包括智能灯泡的亮度的当前状态以帮助用户确定如何修改亮度。

6、在一些实施方式中,自动化助理能够处理候选意图以标识用户在提供请求时可能试图控制的特定设备和/或应用。当自动化助理标识特定设备和/或应用时,自动化助理能够使得通用容器图形元素中的图形元素阵列表示该特定应用和/或设备的当前状态,从而产生定制容器图形元素。例如,图形元素阵列能够包括七个实心圆,随后是三个空圆,从而指示与特定设备和/或应用相关联的智能灯泡当前处于最大亮度水平的70%作为智能灯泡的亮度设置的当前状态。可替代地或附加地,自动化助理能够标识表示预测用户将参考的特定设备和/或应用的图标(例如,表示厨房灯的图标)。自动化助理能够将图标包括到定制容器图形元素,以标识自动化助理响应于来自用户的请求而选择以控制的特定设备和/或应用。以这种方式,用户能够选择绕过经由口头话语提供请求的另一部分以用于指定特定应用和/或设备(例如,将亮度从70%改变为50%),并且替代地利用触摸输入,从而保留计算资源,诸如在处理口头话语或附加口头话语时原本将消耗的那些计算资源。

7、在一些实施方式中,用户能够通过经由一个或多个附加口头话语完整请求并且基于见证由定制容器图形元素中包括的图形元素阵列指示的当前状态来使得自动化助理控制特定设备和/或应用。例如,通过见证定制容器图形元素中包括的图形元素阵列,用户能够考虑他们的请求的最终部分。用户能够提供最终口头话语诸如“…to 30%(…到30%)”,从而指示自动化助理控制特定设备和/或应用以将亮度水平从70%调节到30%。可替代地或附加地,用户能够轻击对应于“30%dot(30%点)”的图形元素阵列的一部分,以使自动化助理类似地将亮度水平从70%调节到30%。

8、在一些实施方式中,自动化助理能够响应于用户提供的请求的初始部分,使得多个定制容器元素被渲染。例如,当用户经由诸如“assistant,play[song title 1]by…(助理,播放...的[歌曲标题1])”的口头话语提供请求的初始部分时,自动化助理能够使多个不同的定制容器元素在计算设备的显示界面处渲染。每个定制容器图形元素能够对应于能够与请求相关联的不同操作和/或解释。例如,第一定制容器图形元素能够对应于在计算设备或附加计算设备处播放“[艺术家1]”的“[歌曲标题1]”的操作,而第二定制容器图形元素能够对应于在计算设备或附加计算设备处播放“[艺术家2]”的“[歌曲标题1]”的另一操作。在一些实施方式中,定制容器图形元素中的每一个附加地或可替代地包括计算设备或附加计算设备的当前状态(例如,当前在第一设备和/或第二设备处播放的内容)。用户能够(例如,经由口头话语和/或触摸输入)完整请求,并且自动化助理能够使得相应地履行请求。

9、在一些实施方式中,使用流式asr模型生成的asr输出能够包括例如预测为对应于请求的各个部分的预测语音假设、预测为对应于请求的各个部分的预测音素、指示预测语音假设和/或预测音素对应于请求的各个部分的可能性的预测asr测量值和/或其他asr输出。此外,使用nlu模型生成的nlu输出能够包括例如被预测为与用户在提供请求的各个部分时的实际意图对应的候选意图、用于与候选意图相关联的对应参数的一个或多个槽值和/或其他nlu输出。此外,一个或多个结构化请求能够基于nlu输出生成,并且由各种设备和/或应用处理以生成对该请求的履行数据。履行数据在被实现时能够使自动化助理履行由用户提供的请求。

10、在一些实施方式中,响应于确定用户已经暂停提供请求,可以仅在计算设备的显示界面处渲染本文描述的通用容器图形元素和/或定制容器图形元素。自动化助理能够基于例如与在计算设备处接收的请求的部分相关联的nlu数据和/或基于音频的特性来确定用户已经暂停提供请求。与请求的部分相关联的基于音频的特性能够包括以下中的一个或多个:语调、音调、重音、节奏、节拍、音高和细长音节。例如,假设用户提供包括在指向自动化助理的口头话语中的请求“assistant,set the volume to…(助理,将音量设置为…)”。在该示例中,自动化助理能够基于例如自所述“to(到)”起流逝的阈值持续时间和指示用户尚未提供与改变智能扬声器的音量的预测意图相关联的音量参数的槽值的nlu输出来确定用户已经暂停。作为响应,自动化助理能够使得用于智能扬声器的音量容器图形元素被渲染在计算设备的显示界面处。在计算设备的显示界面处渲染的智能扬声器的音量容器图形元素能够包括智能扬声器的当前音量,以帮助辅助用户确定如何相对于当前音量修改音量。可替代地或附加地,进一步假设用户在提供“to(到)”(例如,“assistant,set thevolume to 0000…(助理,将音量设置为to 0000……)”)时包括细长音节。在该示例中,自动化助理能够基于例如基于音频的特性来确定用户已经暂停,该基于音频的特性反映关于如何至少基于提供请求中的细长音节相对于当前音量修改音量的不确定性。因此,音量容器图形元素能够帮助辅助用户确定如何相对于当前音量修改音量。

11、通过使用本文描述的技术,能够实现各种技术优点。作为一个非限制性示例,本文描述的技术能够使得自动化助理在用户提供口头话语或口头话语序列的同时将各种gui元素从通用gui元素动态地适配到定制的gui元素。例如,用户能够提供包括请求的一部分的口头话语,并且自动化助理能够渲染通用gui元素,该通用gui元素随后基于处理口头话语的附加部分或附加口头话语而用定制的gui元素适配。这些定制的gui元素能够帮助用户使请求完整,从而使得用户和自动化助理之间的对话会话以更快速和有效的方式结束,并且能够减少在计算设备处接收的用户输入的数量。此外,能够减轻自动化助理由于用户未在某个时间窗口内使请求完整而失败的实例。结果,能够节省计算设备处的计算资源,并且能够减少履行请求的延迟。

12、提供以上描述作为本公开的一些实施方式的概述。下面更详细地描述那些实施方式和其他实施方式的进一步描述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1