训练至少部分语音命令系统的制作方法

文档序号：9308670阅读：339来源：国知局

训练至少部分语音命令系统的制作方法
【专利说明】
[0001] 相关申请的交叉引用
[0002] 本申请要求于2013年3月15日提交的名称为"TRAININGANATLEASTPARTIAL VOICECOMMANDSYSTEM"的美国临时专利申请61/792, 078的权益，所述美国临时专利申请全文以引用方式并入本文以用于所有目的。
技术领域
[0003] 所公开的实施例整体涉及数字助理系统，更具体地，涉及训练数字助理系统。
【背景技术】
[0004] 正如人类个人助理一样，数字助理系统可执行所请求的任务并提供所请求的建议、信息或服务。数字助理系统满足用户请求的能力取决于数字助理系统对请求或指令的正确理解。在自然语言处理方面的最新进展已使用户能够使用口头或文本形式的自然语言来与数字助理系统进行交互。此类数字助理系统可解译用户的输入以推断用户的意图、将推断出的意图转换成可执行的任务和参数、执行操作或部署服务以执行任务、以及产生可被用户理解的输出。理想的是，由数字助理系统所产生的输出应实现用户在用户和数字助理系统之间的自然语言交互期间所表达的意图。
[0005] 数字助理系统对用户请求产生令人满意的响应的能力取决于能够用于数字助理系统的自然语言处理、知识库和人工智能。数字助理系统的良好设计的训练过程可改善用户与该系统进行交互的体验，并提高用户对该系统的服务和能力的信任。

【发明内容】

[0006] 本文所公开的实施例提供用于训练数字助理以更有规律地为用户的请求提供令人满意的响应的方法、系统、非暂态计算机可读存储介质和用户界面。
[0007] 因此，一些实施例提供用于操作数字助理的方法，该方法包括在包括一个或多个处理器和存储一个或多个程序的存储器的设备处：检测在数字助理和用户之间的对话期间的僵局，其中所述对话包括来自用户的至少一个语音输入；以及响应于检测到所述僵局，建立与所述至少一个语音输入相关联的学习会话。在学习会话期间，该方法包括：从用户接收一个或多个后续澄清输入；至少部分地基于所述一个或多个后续澄清输入，调整与所述至少一个语音输入相关联的意图推断和任务执行中的至少一者，以生成对所述至少一个语音输入的令人满意的响应；以及使所述令人满意的响应与所述至少一个语音输入相关联，以用于处理所述至少一个语音输入的未来出现。
[0008] 在一些实施例中，用于训练数字助理的另一方法在包括一个或多个处理器和存储由该一个或多个处理器执行的指令的存储器的电子设备处被执行。在数字助理和用户之间的对话期间，方法包括：接收来自用户的初始语音输入；基于初始语音输入来推断初始意图；提供初始响应来满足已推断出的初始意图；以及接收拒绝初始响应的跟进语音输入。在接收到拒绝初始响应的跟进语音输入时，该方法包括建立与初始语音输入相关联的学习会话。在学习会话期间，该方法包括：调整与初始语音输入相关联的意图推断和任务执行中的至少一者，以生成对初始语音输入的令人满意的响应；以及使令人满意的响应与初始语音输入相关联，以用于处理所述初始语音输入的未来出现。
[0009] 在一些实施例中，用于训练数字助理的另一方法在包括一个或多个处理器和存储由该一个或多个处理器执行的指令的存储器的电子设备处被执行。该方法包括：获取与任务的一个或多个先前完成相关联的反馈信息；以及辨识与先前用于完成所述任务的语音识另IJ、意图推断或任务执行的方面相关联的成功或失败模式。该方法还包括：生成与在语音识别、意图推断和任务执行中的至少一者中使用的作为成功或失败模式的原因的参数有关的假设；识别一个或多个后续针对完成所述任务的请求；通过针对所述任务的后续完成而改变在语音识别、意图推断和任务执行中的所述至少一者中使用的所述参数来测试所述假设；以及基于从所述任务的所述后续完成收集的反馈信息来采用或拒绝所述假设。
[0010] 在另一方面，一种电子设备包括一个或多个处理器和存储由该一个或多个处理器执行的一个或多个程序的存储器，其中该一个或多个程序包括指令，该指令在被该一个或多个处理器执行时使电子设备执行上述方法中的任一方法。
[0011] 在另一方面，一种非暂态计算机可读介质存储一个或多个程序，该一个或多个程序在被计算机系统的一个或多个处理器执行时使电子设备执行上述方法中的任一方法。
[0012] 在附图以及下文的描述中阐述了本说明书中所述的主题的一个或多个实施例的细节。根据说明书、附图及权利要求，所述主题的其他特征、方面和优点将显而易见。
【附图说明】
[0013] 图1为示出根据一些实施例的数字助理操作于其中的环境的框图。
[0014] 图2为示出根据一些实施例的数字助理客户端系统的框图。
[0015] 图3A为示出根据一些实施例的数字助理系统或其服务器部分的框图。
[0016] 图3B为示出根据一些实施例的图3A中所示的数字助理的功能的框图。
[0017] 图3C为示出根据一些实施例的图3B中所示的知识本体的一部分的示意图。
[0018] 图4A至4C为根据一些实施例的用于训练数字助理的示例性过程的流程图。
[0019] 图5为根据一些实施例的包括在图3B中的训练模块的框图。
[0020] 图6A至6C为根据一些实施例的用于训练数字助理的示例性过程的流程图。
[0021] 图7为根据一些实施例的电子设备的功能框图。
[0022] 图8为根据一些实施例的电子设备的功能框图。
[0023] 在整个附图中，相似的附图标号是指对应的部件。
【具体实施方式】
[0024] 图1为根据一些实施例的数字助理的操作环境100的框图。术语"数字助理"、"虚拟助理"、"智能自动化助理"或"自动数字助理"是指解译口头和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如，为了遵循推断出的用户意图，系统可执行以下内容中的一个或多个：辨识具有被设计用以实现所推断出的用户意图的步骤和参数的任务流，将来自推断出的用户意图的具体要求输入到任务流中；通过调用程序、方法、服务、API等来执行任务流；以及生成听觉（例如，语音）和/或视觉形式的对用户的输出响应。
[0025] 具体地讲，数字助理能够接受至少部分地为自然语言命令、请求、声明、讲述和/ 或询问的形式的用户请求。通常，用户请求要么寻求信息回答，要么寻求数字助理执行任务。针对用户请求的令人满意的响应是提供所请求的信息回答、或执行所请求的任务、或这两者的组合。例如，用户可能对数字助理提问，诸如"我现在在哪里？"。基于用户的当前位置，数字助理可回答"您在中央公园"。用户也可能请求执行任务，例如"请提醒我今天下午 4点给妈妈打电话"。作为响应，数字助理可确认该请求，然后在用户的电子日程表中创建适当的提醒项。在执行所请求的任务期间，数字助理有时在延长的时间段内涉及多个信息交换的连续对话中与用户交互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除提供言语响应和采取经编程的动作之外，数字助理还提供其他视觉或音频形式（例如，作为文本、警报、音乐、视频、动画等）的响应。
[0026]申请人的提交于2011 年 1 月 10 日的名称为"IntelligentAutomatedAssistant" 的美国实用专利申请序列号No. 12/987,982中介绍了数字助理的实例，该美国实用专利申请的全部公开内容以引用方式并入本文。
[0027] 如图1中所示，在一些实施例中，根据客户端_服务器模型来实施数字助理。数字助理包括在用户设备104a、104b上执行的客户端侧部分102a、102b(在后文中称作"DA客户端102"）、以及在服务器系统108上执行的服务器侧部分106 (在后文中称作"DA服务器 106"）。DA客户端102通过一个或多个网络110与DA服务器106通信。DA客户端102提供客户端侧功能诸如面向用户的输入和输出处理，以及与DA服务器106进行通信。DA服务器106为任意数量的DA客户端102提供服务器侧功能，所述任意数量的DA客户端102各自位于相应的用户设备104上。
[0028] 在一些实施例中，DA服务器106包括面向客户端的I/O接口 112、一个或多个处理模块114、数据和模型116、以及到外部服务118的I/O接口。面向客户端的I/O接口促进数字助理服务器106的面向客户端的输入和输出处理。所述一个或多个处理模块114利用数据和模型116来基于自然语言输入确定用户的意图，并基于推断出的用户意图进行任务执行。在一些实施例中，数据和模型116存储由DA服务器106维持的与各个用户的知识本体（例如知识本体360)不同的多个知识本体（例如全球知识本体、区域知识本体、文化知识本体、国家知识本体、州级知识本体、市级知识本体等等）。知识本体的功能在下文中参考图3B更详细地进行描述。在一些实施例中，DA服务器106通过网络110与外部服务120 通信，以进行任务完成或信息采集。到外部服务118的I/O接口促进此类通信。
[0029] 用户设备104的实例包括但不限于手持式计算机、个人数字助理（PDA)、平板型计算机、膝上型计算机、台式计算机、蜂窝电话、智能电话、增强型通用分组无线电服务 (EGPRS)移动电话、媒体播放器、导航设备、游戏控制器、电视机、遥控器、或者这些数据处理设备中任意两种或更多种的组合或其他数据处理设备。关于用户设备104的更多细节参照图2中示出的示例性用户设备104来提供。
[0030]通信网络110的实例包括局域网（"LAN"）和广域网（"WAN"），例如互联网。任选地使用任何已知的网络协议，包括各种有线或无线协议，诸如例如以太网、通用串行总线 (USB)、火线（FIREWIRE)、全球移动通信系统（GSM)、增强型数据GSM环境（EDGE)、码分多址 (CDMA)、时分多址（TDMA)、蓝牙、Wi-Fi、互联网电话协议（VoIP)、Wi-MAX、或任何其他合适的通信协议来实施通信网络110。
[0031] 在一个或多个独立的数据处理装置上或者在计算机分布式网络上实施服务器系统108。在一些实施例中，服务器系统108还采用第三方服务提供方（例如，第三方云服务提供方）的各种虚拟设备和/或服务来提供服务器系统108的下层计算资源和/或基础结构资源。
[0032] 虽然图1中所示的数字助理包括客户端侧部分（例如DA客户端102)和服务器侧部分（例如DA服务器106)，但在一些实施例中，数字助理的功能被实现为安装在用户设备上的独立应用程序。此外，数字助理的客户端部分和服务器部分之间的功能划分在不同的实施例中可能不同。例如，在一些实施例中，DA客户端为仅提供面向用户的输入和输出处理功能、且将数字助理的所有其他功能委派给后端服务器的瘦客户端。
[0033] 如本说明书中后面所述，数字助理可实施众包功能。众包功能允许数字助理采集来自其他DA客户端或第三方信息源（所谓的"众包信息源"或"CS信息源"）的信息，并使用众包信息来促进请求实现、以及在一些实施例中促进意图推断。
[0034] 图2为根据一些实施例的用户设备104的框图。用户设备104包括存储器接口 202、一个或多个处理器204以及外围设备接口 206。用户设备104中的各种部件通过一条或多条通信总线或信号线耦接。用户设备104包括各种传感器、子系统、以及耦接至外围设备接口 206的外围设备。传感器、子系统、以及外围设备采集信息和/或促进用户设备104 的各种功能。
[0035] 例如，运动传感器210、光传感器212、和接近传感器214耦接至外围设备接口 206 以促进取向、光和接近感测功能。一个或多个其他传感器216,诸如定位系统（例如，GPS接收器）、温度传感器、生物测定传感器、陀螺仪、指南针、加速度计等，也连接至外围设备接口 206,以促进相关功能。
[0036] 在一些实施例中，照相机子系统220和光学传感器222用于促进照相机功能，诸如拍摄照片和记录视频剪辑。通过一个或多个有线和/或无线通信子系统224来促进通信功能，所述有线和/或无线通信子系统可包括各种通信端口、射频接收器与发射器、和/或光学（例如红外）接收器与发射器。音频子系统226耦接到扬声器228和麦克风230以促进声音启用的功能，诸如声音识别、声音复制、数字记录和电话功能。
[0037] 在一些实施例中，I/O子系统240还耦接至外围设备接口 206。I/O子系统240包括触摸屏控制器242和/或其他输入控制器244。触摸屏控制器242耦接至触摸屏246。触摸屏246和触摸屏控制器242能够例如利用多种触摸灵敏度技术中的任一种来检测接触及其移动或间断，所述多种触摸灵敏度技术诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等。所述其他输入控制器244可耦接到其他输入/控制设备248,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口、和/或指针装置诸如触笔。
[0038] 在一些实施例中，存储器接口 202耦接至存储器250。存储器250可包括高速随机存取存储器和/或非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光学存储设备、和/或闪速存储器（例如NAND、N0R)。
[0039] 在一些实施例中，存储器250存储操作系统252、通信模块254、图形用户界面模块 256、传感器处理模块258、电话模块260、和应用程序262。操作系统252包括用于处理基础系统服务以及用于执行依赖于硬件的任务的指令。通信模块254促进与一个或多个附加设备、一个或多个计算机、和/或一个或多个服务器的通信。图形用户界面模块256促进图形用户界面处理。传感器处理模块258促进与传感器有关的处理和功能。电话模块260促进与电话有关的过程和功能。应用程序模块262促进用户应用程序的各种功能，诸如电子消息传送、网络浏览、媒体处理、导航、成像和/或其他过程和功能。
[0040] 如本说明书中所述，存储器250还存储客户端侧数字助理指令（例如，在数字助理客户端模块264中）以及各种用户数据266 (例如，特定于用户的词汇数据、偏好数据、和/ 或其他数据，诸如用户的电子通讯录、待办事项列表、购物清单等）以提供数字助理的客户端侧功能。
[0041] 在各种实施例中，数字助理客户端模块264能够通过用户设备104的各种用户接口（例如，I/O子系统244)接受声音输入（例如语音输入）、文本输入、触摸输入、和/或手势输入。数字助理客户端模块264还能够提供音频（例如语音输出）、视觉、和/或触觉形式的输出。例如，可将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间，数字助理客户端模块264利用通信子系统 224来与数字助理服务器通信。
[0042] 在一些实施例中，数字助理客户端模块264利用所述各种传感器、子系统和外围设备来从用户设备104的周围环境采集附加信息，以建立与用户、当前用户交互、和/或当前用户输入相关联的上下文。在一些实施例中，数字助理客户端模块264将上下文信息或其子集与用户输入一起提供至数字助理服务器以帮助推断用户的意图。在一些实施例中，数字助理还使用上下文信息来确定如何准备和递送输出到用户。
[0043] 在一些实施例中，与用户输入一起出现的上下文信息包括传感器信息，例如照明、环境噪声、环境温度、周围环境的图像或视频等等。在一些实施例中，上下文信息还包括用户设备104的物理状态（例如，设备取向、设备位置、设备温度、电力水平、速度、加速度、运动模式、蜂窝信号强度等等）。在一些实施例中，与用户设备104的软件状态相关的信息 (例如，正在运行的进程、所安装的程序、过去和当前网络活动性、后台服务、错误日志、资源使用等）被提供给数字助理服务器，作为与用户输入相关联的上下文信息。
[0044] 在一些实施例中，数字助理客户端模块264响应于来自数字助理服务器的请求而选择性地提供存储在用户设备104上的信息（例如，用户数据266)。在一些实施例中，数字助理客户端模块264还在数字助理服务器106请求时经由自然语言对话或其他用户接口引出来自用户的附加输入。数字助理客户端模块264将所述附加输入传送至数字助理服务器 106,以帮助数字助理服务器106进行意图推断和/或满足在用户请求中表达的用户意图。
[0045] 在各种实施例中，存储器250包括附加指令或更少的指令。此外，可在硬件和/或软件中，包括在一个或多个信号处理和/或专用集成电路中，实现用户设备104的各种功能。
[0046] 图3A为根据一些实施例的示例性数字助理系统300的框图。在一些实施例中，数字助理系统300在独立式计算机系统上实施。在一些实施例中，数字助理系统300跨多个计算机分布。在一些实施例中，数字助理的模块和功能中的一些被划分成服务器部分和客户端部分，其中客户端部分位于用户设备（例如，用户设备104)上并通过一个或多个网络与服务器部分（例如，服务器系统108)通信（例如如图1中所示）。在一些实施例中，数字助理系统300为图1中所示的服务器系统108(和/或数字助理服务器106)的实施例。应当指出，数字助理系统300仅为数字助理系统的一个实例，并且数字助理系统300可具有比图中所

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D·W·皮特谢尔;A·J·彻耶;C·D·布里格汉姆;T·R·格鲁伯;
技术所有人：苹果公司;
我是此专利的发明人

上一篇：语音识别系统以及语音识别装置的制造方法
上一篇：自动语音识别系统中的快速词汇表外搜索的制作方法