用于虚拟个人助理系统的自然人-计算机交互的制作方法

文档序号：9402041阅读：436来源：国知局

用于虚拟个人助理系统的自然人-计算机交互的制作方法
【专利说明】
【背景技术】
[0001]虚拟个人助理是响应于来自用户的自然语言请求而在计算装置上执行任务的人工智能系统。例如，虚拟个人助理可处理用户的日历、提醒和消息传递任务。为了与虚拟个人助理交互，用户通常在计算装置上输入预先定义的输入序列，例如，按压专用硬件按钮或说预先定义的码字。用户可通过常规文本输入或通过语音识别输入自然语言请求。
[0002]为了进一步实现自然交互，许多虚拟个人助理显示类人人物，也成为化身，以充当与用户交互的主要点。化身可占据或模糊计算装置显示器的重要部分。另外，化身可干扰计算装置上其它应用的使用，具体地说，当用户不打算激活化身时。甚至当显示类人化身时，典型系统可不完全对自然人交互建模，并且相反可要求常规人机交互，诸如按钮按压、鼠标点击等。
[0003]语音识别系统将用户所说的话转换成文本的计算机可读表示。典型的语音识别系统尝试确定给定音频输入的单个最可能语音识别结果。此类系统可过滤出噪声或者以别的方式尝试增强音频输入信号，以便改进语音识别结果。一些系统可提供少量备选结果；然而，这些结果通常仅关于彼此有微小变化。典型的语音识别引擎可实现为本地计算装置的组件，或者由服务器计算装置提供的服务。
【附图说明】
[0004]本文描述的概念在附图中作为示例而非作为限制图示。为了图示的简洁和清晰起见，在附图中图示的元素不一定按比例绘制。在合适的情况下，附图标记在各图之间已经被重复以指示对应或类似元素。
[0005]图1是与虚拟个人助理自然交互的计算装置的至少一个实施例的简化框图；
图2是图1的计算装置的环境的至少一个实施例的简化框图；
图3是与虚拟个人助理自然交互的系统的至少一个实施例的简化框图；
图4是可由图1和图2的计算装置执行的用于引入音频失真以改进语音识别的方法的至少一个实施例的简化流程图；
图5是可由图4的语音识别服务器执行的用于引入音频失真以改进语音识别的方法的至少一个实施例的简化流程图；以及
图6A和6B是可由图1和图2的计算装置执行的用于与虚拟个人助理自然交互的方法的至少一个实施例的简化流程图。
【具体实施方式】
[0006]虽然本公开的概念易受到各种修改和备选形式，但其特定实施例已经在附图中作为示例示出，并且将在本文中详细描述。然而，应该理解，没有意图将本公开的概念局限于所公开的具体形式，而是相反，本发明覆盖与本公开和所附权利要求书一致的所有修改、等效和备选。
[0007]在说明书中提到“一个实施例”、“实施例”、“说明性实施例”等指示所描述的实施例可包含具体特征、结构或特性，但每一个实施例可以一定或者可以不一定包含该具体特征、结构或特性。而且，此类短语不一定是指同一实施例。另外，当结合实施例描述具体特征、结构或特性时，认为结合不管是否明确描述的其它实施例实现此类特征、结构或特性在本领域技术人员的知识范围内。
[0008]所公开的实施例在一些情况下可用硬件、固件、软件或它们的任何组合来实现。所公开的实施例也可实现为由易失性或非易失性机器可读(例如计算机可读)介质携带或存储在其上的指令，其可由一个或多个处理器读取和执行。机器可读存储介质可实施为用于存储或传送由机器(例如易失性或非易失性存储器、媒体盘或其它媒体装置)可读形式的信息的任何存储装置、机制或其它物理结构。
[0009]在附图中，一些结构或方法特征可按特定布置和/或排序示出。然而，应该认识至IJ，可能不需要此类特定布置和/或排序。而是，在一些实施例中，此类特征可按与在说明性附图中示出的不同的方式和/或次序布置。此外，在具体附图中包含结构或方法特征不打算暗示此类特征在所有实施例中是需要的，并且在一些实施例中，可能不被包含或者可与其它特征组合。
[0010]现在参考图1，用于与虚拟个人助理自然交互的说明性计算装置100包含处理器120、I/O子系统122和存储器124。计算装置100捕获音频输入，并从语音识别引擎获得基于施加到音频输入的失真的语音识别结果。施加的失真可导致音频输入的多个语义上截然不同的变化。提供多个变化可允许语音识别引擎产生许多更潜在的语音识别结果，这又可增大语音识别准确性。语音识别引擎可操作在计算装置100上，或者在一些实施例中，可操作在远程语音识别服务器上，如下面更详细讨论的。语音识别结果可用于控制虚拟个人助理。虚拟个人助理通过跟踪用户的视觉焦点和/或通过解释用户的语音来对用户的参与(engagement)级别建模。对用户参与建模可允许虚拟个人助理从事更自然的人交互；例如，虚拟个人助理可更好地确定用户何时寻址它或者用户何时已经移动到某一其它任务。虚拟个人助理可通过调整显示屏上化身的大小、位置和/或透明度来表示用户的参与级别。以这种方式再现参与级别也可通过允许用户更好地理解虚拟个人助理的状态来实现自然交互，无需不必要地中断用户的其它工作。
[0011]计算装置100可被实施为能够执行本文描述的功能的任何类型装置。例如，计算装置100可实施为(而非限制):智能电话、蜂窝电话、平板计算机、笔记本计算机、膝上型计算机、台式计算机、分布式计算系统、微处理器系统、消费电子装置、智能电器和/或能够识别所说用户命令的任何其它计算装置。如图1中所示，说明性计算装置100包含处理器120、I/O子系统122、存储器124和数据存储装置126。当然，在其它实施例中，计算装置100可包含其它或附加组件，诸如在便携计算机中发现的组件(例如各种输入/输出装置)。此夕卜，在一些实施例中，其中一个或多个说明性组件可结合在另一组件中，或另外来自另一组件的一部分。例如，在一些实施例中，存储器124或其部分可结合在处理器120中。
[0012]处理器120可实施为当前已知或者将来开发的并且能够执行本文描述的功能的任何类型处理器。例如，处理器可实施为单核或多核处理器、数字信号处理器、微控制器或其它处理器或处理/控制电路。类似地，存储器124可实施为当前已知或将来开发的并且能够执行本文描述的功能的任何类型易失性或非易失性存储器或数据存储装置。在操作中，存储器124可存储在计算装置100操作期间使用的各种数据和软件，诸如操作系统、应用、程序、库以及驱动。存储器124以通信方式经由I/O子系统122耦合到处理器120，I/O子系统104可实施为电路和/或组件以便于与计算装置100的处理器120、存储器124和/或其它组件的输入/输出操作。例如，I/O子系统122可实施为或以别的方式包含存储器控制器集线器、输入/输出控制集线器、固件装置、通信链路(即，点对点链路、总线链路、导线、电缆、光导、印刷电路板迹线等)和/或其它组件和子系统以便于输入/输出操作。在一些实施例中，I/O子系统122可形成片上系统(SoC)的一部分，并与计算装置100的处理器120、存储器124和其它组件一起结合在单个集成电路芯片上。
[0013]数据存储装置126可实施为配置用于数据的短期存储或长期存储的任何类型装置，诸如例如存储器装置和电路、存储卡、硬盘驱动器、固态驱动器或其它数据存储装置。数据存储装置126可存储与虚拟个人助理相关的程序和数据文件，并且可充当由计算装置100捕获的音频数据的临时或永久存储装置。
[0014]计算装置100还包含显示器128、音频传感器130和眼睛跟踪传感器132。计算装置100的显示器128可实施为能够显示数字信息的任何类型显示器，诸如液晶显示器(IXD)、发光二极管(LED)、等离子显示器、阴极射线管(CRT)或其它类型显示装置。在一些实施例中，显示器128可耦合到触摸屏以接收用户输入。
[0015]音频传感器130可实施为能够捕获音频信号的任何传感器，诸如麦克风、线路输入插孔、模数转换器(ADC)或其它类型音频传感器。音频传感器130可由计算装置100用于检测由用户发出的语音命令，如下面所描述的。
[0016]眼睛跟踪传感器132可实施为能够确定用户的眼睛聚焦在的计算装置100显示器128上的区域的任一个或多个传感器。例如，眼睛跟踪传感器132可实施为能够跟踪用户的注视焦点的数字相机或数字深度相机。在其它实施例中，眼睛跟踪传感器132可实施为能够随时间跟踪用户的眼睛移动的有源红外传送器和红外检测器。在那些实施例中，眼睛跟踪传感器132可捕获从用户的眼睛的各种内部和外部特征反射的红外光，并且由此计算用户的注视方向。眼睛跟踪传感器132还可能能够确定用户的头部在三维空间中的位置。在一些实施例中，眼睛跟踪传感器132诸如深度相机可能能够直接确定头部位置数据。在其它实施例中，眼睛跟踪传感器132可与另一传感器诸如摄像机一起用于计算用户的头部位置。
[0017]在一些实施例中，计算装置100还可包含一个或多个外围装置134。外围装置134可包含任何数量的附加传感器、输入/输出装置、接口装置和/或其它外围装置。例如，在一些实施例中，外围装置134可包含触摸屏、图形电路、键盘、鼠标、扬声器系统、接口装置和/或其它输入/输出装置。在一些实施例中，外围装置134可与眼睛跟踪传感器132和/或音频传感器130—起用于确定用户的参与级别。作为另一示例，在一些实施例中，外围装置134可包含能够实现计算装置100与其它远程服务器和/或装置之间通信的通信电路、装置或它们的集合。
[0018]现在参考图2，在一个实施例中，计算装置100在操作期间建立环境200。说明性实施例200包含语音识别模块202、音频输入模块204、虚拟个人助理208和参与模块214。环境200的各种模块可实施为硬件、固件、软件或它们的组合。
[0019]语音识别模块202配置成对从音频输入模块204接收的音频输入数据执行语音识另IJ。语音识别模块202对语音识别结果进行排列和滤波，以产生单个结果或可能结果的排列列表。语音识别模块202可使用由应用(诸如虚拟个人助理208)提供的语音识别语法来对语音识别结果进行排列和滤波。在一些实施例中，语音识别模块202可在听写或自由语音模式识别语音。听写或自由语音模式可使用全自然语言词汇和语法来识别结果，并且从而可产生附加可能的语音识别结果。
[0020]音频输入模块204从音频传感器130捕获音频输入数据，并向音频输入数据施加音频失真，以产生音频输入的多个变化。音频失真可修改音频输入的幅度、频率、持续时间和/或其它特性，以产生失真的音频变化之间的语义变化。音频输入模块204向语音识别模块202提供失真的音频变化。在一些实施例中，那些功能可由子模块(例如失真模块206)执行。附加地，在一些实施例中，语音识别模块202和/或失真模块206的功能性可由远程服务器(例如云服务)执行，如下面结合图3所描述的。
[0021]虚拟个人助理208响应于说出的用户命令，并在显示器128上显示化身，以提供有关虚拟个人助理208的状况的信息。虚拟个人助理208可维护定义可从用户接受的说出的命令的语音识别语法，包含命令词汇和句法。化身是虚拟个人助理208的字符或其它视觉表示。化身可包含类人特性，诸如面部特征或人形。那些类人特征可便于与用户的自然交互。在一些实施例中，那些功能可由子模块(例如命令模块210或化身模块212)执行。在一些实施例中，可使用虚拟个人助理208，无需语音识别；也就是，虚拟个人助理208可响应于非语音输入，诸如键入的输入

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：W.德利厄夫;
技术所有人：英特尔公司;
我是此专利的发明人

上一篇：分布式语音识别系统中的语音模型检索的制作方法
上一篇：使用经修改的Baum-Welch算法的语音识别的制作方法