用于虚拟个人助理系统的自然人-计算机交互的制作方法_6

文档序号：9402041阅读：来源：国知局

示例83包含示例73-82中任一个的主题，并且其中:在不参与状态显示虚拟个人助理的化身包括在显示器上远离计算装置活动应用的位置显示化身；在准备状态显示化身包括在显示器上将化身移动到更靠近计算装置活动应用的位置；以及在参与状态显示化身包括:在显示器上将化身移动到计算装置活动应用上面的位置，没有阻止从用户到活动应用的输入。
[0147]示例84包含示例73-83中任一个的主题，并且其中，在准备状态显示化身包括:基于从计算装置的眼睛跟踪传感器接收的眼睛跟踪数据，在显示器上将化身移动到更靠近用户聚焦的位置的位置；以及在参与状态显示化身包括:基于从计算装置的眼睛跟踪传感器接收的眼睛跟踪数据，在显示器上将化身移动到更靠近用户聚焦的位置的位置。
[0148]示例85包含示例73-84中任一个的主题，并且其中:在不参与状态显示虚拟个人助理的化身包括:将化身显示为不可见；以及在准备状态显示化身包括将化身显示为不可见。
[0149]示例86包含示例73-85中任一个的主题，并且还包括:当所述化身处于所述参与状态时，执行语音识别，；基于所述语音识别确定所述用户是否已经发出命令；以及响应于确定所述用户已经发出命令而在工作状态显示化身。
[0150]示例87包含示例73-86中任一个的主题，并且其中在工作状态显示化身包括如下至少一项:(i)增大化身的透明度；或者(ii)在显示器上将化身移动到远离计算装置活动应用的位置。
[0151]示例88包含计算装置，计算装置包括:处理器；以及存储器，其中存储有多个指令，所述指令当由处理器执行时使计算装置执行示例43-87中任一个的方法。
[0152]示例89包含一个或多个机器可读存储介质，其包括其上存储的多个指令，所述指令响应于被执行而导致计算装置执行示例43-87中任一个的方法。
[0153]示例90包含包括用于执行示例43-87中任一示例的方法的部件的电子装置。
【主权项】
1.一种用于语音识别的计算装置，所述计算装置包括: 音频传感器；音频输入模块，用于: 使用所述音频传感器捕获音频输入；以及使所述音频输入失真以产生多个失真的音频变化；以及语音识别模块，用于: 对所述音频输入和每一个所述失真的音频变化执行语音识别以产生多个语音识别结果；以及基于上下文信息从所述语音识别结果中选择结果。2.如权利要求1所述的计算装置，其中使所述音频输入失真包括如下至少一项:(i)移除具有与幅度阈值具有预定义关系的幅度的所述音频输入的内部片段；或者(ii)扩大具有与幅度阈值具有预定义关系的幅度的所述音频输入的片段的长度。3.如权利要求1所述的计算装置，其中使所述音频输入失真包括在通过对所述音频输入执行语音识别所标识的所述音频输入的语音分割点插入暂停。4.如权利要求1所述的计算装置，其中使所述音频输入失真包括如下至少一项:(i)加速所述音频输入；(ii)减慢所述音频输入；(iii)调整所述音频输入的音调；或者(iv)向所述音频输入引入噪声。5.如权利要求1所述的计算装置，还包括具有语音识别语法的一个或多个应用；其中所述语音识别模块还将基于所述一个或多个应用的所述语音识别语法确定所述语音识别结果的语义相关结果；并且其中从所述语音识别结果中选择所述结果包括从所述语义相关结果中选择结果。6.如权利要求5所述的计算装置，其中所述一个或多个应用包括虚拟个人助理。7.一种用于语音识别的计算装置，所述计算装置包括: 音频传感器；音频输入模块，用于: 使用所述音频传感器捕获音频输入；以及使所述音频输入失真以产生多个失真的音频变化；以及语音分析模块，用于: 将所述音频输入和所述失真的音频变化从所述计算装置传送到语音识别模块；基于所述音频输入和所述失真的音频变化从所述语音识别模块接收多个语音识别结果；以及基于上下文信息从所述语音识别结果中选择结果。8.如权利要求7所述的计算装置，其中: 所述语音识别模块位于远离所述计算装置的服务器上；以及使所述音频输入失真包括如下至少一项:(i)移除具有与幅度阈值具有预定义关系的幅度的所述音频输入的内部片段；(ii)扩大具有与幅度阈值具有预定义关系的幅度的所述音频输入的片段的长度；(iii)在通过对所述音频输入执行语音识别所标识的所述音频输入的语音分割点插入暂停；(iv)加速所述音频输入；(V)减慢所述音频输入；(vi)调整所述音频输入的音调；或者(vii)向所述音频输入引入噪声。9.一种用于语音识别的语音识别服务器，所述语音识别服务器包括: 失真模块，用于: 接收由计算装置捕获的音频输入；以及使所述音频输入失真以产生多个失真的音频变化；以及语音识别模块，用于: 对所述音频输入和每一个所述失真的音频变化执行语音识别以产生多个语音识别结果；以及将所述多个语音识别结果传送到所述计算装置。10.如权利要求9所述的语音识别服务器，其中使所述音频输入失真包括如下至少一项:(i)移除具有与幅度阈值具有预定义关系的幅度的所述音频输入的内部片段；(ii)扩大具有与幅度阈值具有预定义关系的幅度的所述音频输入的片段的长度；(iii)在通过对所述音频输入执行语音识别所标识的所述音频输入的语音分割点插入暂停；(iv)加速所述音频输入；(V)减慢所述音频输入；(Vi)调整所述音频输入的音调；或者(Vii)向所述音频输入引入噪声。11.一种计算装置，包括: 显示器；虚拟个人助理，用于在不参与状态、准备状态和参与状态将所述虚拟个人助理的化身显示在所述显示器上；以及参与模块，用于: 确定当在所述不参与状态显示所述化身时所述计算装置的用户是否已经请求激活所述虚拟个人助理；以及确定当在所述准备状态显示所述化身时所述用户的参与级别；其中所述虚拟个人助理将: 响应于确定所述用户已经请求激活所述虚拟个人助理而在所述准备状态显示所述化身；响应于确定所述用户具有大于阈值级别的参与级别而在所述参与状态显示所述化身；以及响应于确定所述用户具有小于所述阈值级别的参与级别而在所述不参与状态显示所述化身。12.如权利要求11所述的计算装置，其中所述参与模块还监视当在所述参与状态显示所述化身时所述用户的所述参与级别。13.如权利要求11所述的计算装置，还包括眼睛跟踪传感器，其中确定所述用户是否已经请求激活所述虚拟个人助理包括: 从所述眼睛跟踪传感器接收眼睛跟踪数据；以及基于所述眼睛跟踪数据确定所述用户是否已经聚焦在所述化身上。14.如权利要求11所述的计算装置，还包括眼睛跟踪传感器，其中确定所述用户的所述参与级别包括: 从所述眼睛跟踪传感器接收眼睛跟踪数据；基于所述眼睛跟踪数据确定所述用户是否已经在视觉上聚焦在所述化身上大于阈值时间的时间段；响应于确定所述用户已经在视觉上聚焦在所述化身上大于所述阈值时间的时间段而确定所述用户具有大于所述阈值级别的参与级别；以及响应于确定所述用户未在视觉上聚焦在所述化身上大于所述阈值时间的时间段而确定所述用户具有小于所述阈值级别的参与级别。15.如权利要求11所述的计算装置，其中在所述准备状态显示所述化身和在所述参与状态显示所述化身包括显示所述化身与所述用户的目光接触的拟人表示。16.如权利要求15所述的计算装置，还包括眼睛跟踪传感器，其中显示目光接触的所述拟人表示包括: 从所述眼睛跟踪传感器接收眼睛跟踪数据或头部位置数据中的至少一项；以及显示所述化身跟随所述用户的目光的拟人表示。17.如权利要求11所述的计算装置，其中: 在所述不参与状态显示所述虚拟个人助理的所述化身包括:将所述化身显示为半透明，以允许所述计算装置的用户接口元件透过所述化身；在所述准备状态显示所述化身包括减小所述化身的透明度；以及在所述参与状态显示所述化身包括减小所述化身的透明度或者消除所述化身的透明度中的一项。18.如权利要求11所述的计算装置，其中所述虚拟个人助理还将: 在所述化身处于所述参与状态时执行语音识别；基于所述语音识别确定所述用户是否已经发出命令；以及响应于确定所述用户已经发出所述命令而在工作状态显示所述化身。19.如权利要求18所述的计算装置，其中在所述工作状态显示所述化身包括增大所述化身的透明度。20.一种用于计算装置上的语音识别的方法，所述方法包括: 使用所述计算装置的音频传感器捕获音频输入；使所述音频输入失真以产生多个失真的音频变化；对所述音频输入和每一个所述失真的音频变化执行语音识别以产生多个语音识别结果；以及基于上下文信息从所述语音识别结果中选择结果。21.如权利要求20所述的方法，其中使所述音频输入失真包括如下至少一项: 移除具有与幅度阈值具有预定义关系的幅度的所述音频输入的内部片段；扩大具有与幅度阈值具有预定义关系的幅度的所述音频输入的片段的长度；在通过对所述音频输入执行语音识别所标识的所述音频输入的语音分割点插入暂停; 加速所述音频输入；减慢所述音频输入；调整所述音频输入的音调；或者向所述音频输入引入噪声。22.一种用于与计算装置上的虚拟个人助理交互的方法，所述方法包括: 在所述计算装置的显示器上在不参与状态显示所述虚拟个人助理的化身；在所述计算装置上确定所述计算装置的用户是否已经请求激活所述虚拟个人助理；响应于确定所述用户已经请求激活所述虚拟个人助理而在所述计算装置上在准备状态显示所述化身；在所述计算装置上确定当所述化身处于所述准备状态时所述用户的参与级别；响应于所述用户具有大于阈值级别的参与级别而在所述计算装置上在参与状态显示所述图像；在所述计算装置上监视当所述化身处于所述参与状态时所述用户的所述参与级别；以及响应于所述用户具有小于所述阈值级别的参与级别而在所述计算装置上在所述不参与状态显示所述图像。23.如权利要求22所述的方法，其中: 在所述不参与状态显示所述虚拟个人助理的所述化身包括:将所述化身显示为半透明，以允许所述计算装置的用户接口元件透过所述化身；在所述准备状态显示所述化身包括减小所述化身的透明度；以及在所述参与状态显示所述化身包括减小所述化身的透明度或者消除所述化身的透明度中的一项。24.一种计算装置，包括: 处理器；以及存储器，其中存储有多个指令，所述指令当由所述处理器执行时使所述计算装置执行如权利要求20-23中任一项所述的方法。25.—个或多个机器可读存储介质，包括其上存储的多个指令，所述指令响应于被执行而导致计算装置执行如权利要求20-23中任一项所述的方法。
【专利摘要】自然语言与虚拟个人助理系统交互的技术包含配置成捕获音频输入、使音频输入失真以产生若干失真的音频变化并对音频输入和失真的音频变化执行语音识别的计算装置。计算装置基于上下文信息从大量潜在语音识别结果中选择结果。计算装置可通过使用眼睛跟踪传感器确定用户是否在视觉上聚焦在由虚拟个人助理再现的化身上来测量用户的参与级别。可基于用户参与级别在不参与状态、准备状态或参与状态再现化身。在不参与状态，化身可被再现为半透明，并且在准备状态或参与状态可降低透明度。描述并要求保护其它实施例。
【IPC分类】G10L15/22, G06K9/00, G06K9/20
【公开号】CN105122353
【申请号】CN201380075764
【发明人】W.德利厄夫
【申请人】英特尔公司
【公开日】2015年12月2日
【申请日】2013年5月20日
【公告号】WO2014189486A1

完整全部详细技术资料下载

当前第6页1 2 3 4 5 6