估计人机交互中的认知负荷的制作方法

文档序号:1255183阅读:289来源:国知局
估计人机交互中的认知负荷的制作方法
【专利摘要】借助于识别由对话系统捕获的用户表达的认知负荷表示以及基于认知负荷表示使用用户模型来估计认知负荷水平来估计人机交互中用户的认知负荷。
【专利说明】估计人机交互中的认知负荷
[0001]相关申请的交叉引用
本申请根据35 U.S.C.§ 119(e)要求于2012年5月29日提交的美国临时专利申请序列号61/652,587的优先权,且在此作为参考全文引入。
【技术领域】
[0002]本发明总体上涉及对话系统,且具体地涉及估计用户与其交互的认知负荷。认知负荷可以认为是用户经受的精神紧张的度量,且可以在与系统交互时清楚地或不清楚地表示。在用户交互期间估计认知负荷利于更准确地确定用户的真实目标。在行驶的车辆中实施时,这种估计可以有助于确定认知负荷有关的驾驶动作。【背景技术】
[0003]这种系统用于许多不同应用中,尤其包括机动车安全、用于远程地服务车辆的遥测系统、或利于在对话会话期间根据表达内容获取或追求感兴趣娱乐项目的信息娱乐动作。应当理解的是,这种系统和方法还在包括火车和飞机行驶以及娱乐骑驾的任何车辆设置中具有应用。
[0004]可能引起驾驶员认知负荷的典型驾驶员有关动作包括道路状况、交通状况、乘员动作、驾驶舒适性和易于操作、驾驶或行驶时间以及驾驶体验。

【发明内容】

[0005]方案1.一种用于通过人机接口来估计认知负荷的方法,所述方法包括:
执行如下的计算机实施步骤:
识别由与对话系统交互的用户表达的用户表达中的认知负荷表示;以及使用用户模型以基于认知负荷表示来估计由与对话系统交互的用户经历的认知负荷水平。
[0006]方案2.根据方案I所述的方法,其中,用户模型包括动态贝叶斯网络。
[0007]方案3.根据方案I所述的方法,其中,认知负荷表示选自以下组:不流利、表示认知负荷的声明、以及不流利与表示认知负荷的声明相结合。
[0008]方案4.根据方案2所述的方法,其中,动态贝叶斯网络包括直接或间接取决于认知负荷变量的观察用户-对话动作变量。
[0009]方案5.根据方案4所述的方法,其中,认知负荷变量取决于至少一个先前对话轮
回变量。
[0010]方案6.根据方案5所述的方法,其中,先前对话轮回变量包括选自以下组的先前对话轮回变量中的任一个的至少一个:先前认知负荷变量、先前用户目标变量和先前机器-对话-动作变量。
[0011]方案7.根据方案I所述的方法,其中,用户表达选自以下组:语言表达、头部动作、面部表情、手势、和将压力施加到方向盘,其中,压力超过阈值压力。[0012]方案8.根据方案I所述的方法,其中,对话系统包括多模态对话系统。
[0013]方案9.根据方案I所述的方法,其中,对话系统从与对话系统无关的至少一个数据捕获装置接收输入。
[0014]方案10.根据方案I所述的方法,还包括至少部分地基于由用户模型确定的目标概率来选择系统-对话动作。
[0015]方案11.一种用于估计与对话系统交互的用户的认知负荷的对话系统,所述系统包括:
处理器,所述处理器配置成:
识别由对话系统捕获的用户表达中的认知负荷表示;以及
使用用户模型以至少部分地基于认知负荷表示来估计用户经历的认知负荷水平。
[0016]方案12.根据方案11所述的系统,其中,用户模型包括动态贝叶斯网络。
[0017]方案13.根据方案11所述的系统,其中,认知负荷表示选自以下组:语言不流利、表示认知负荷的声明、以及语言不流利与表示认知负荷的声明相结合。
[0018]方案14.根据方案12所 述的系统,其中,动态贝叶斯网络包括直接或间接取决于认知负荷变量的观察用户-对话-动作变量。
[0019]方案15.根据方案14所述的系统,其中,认知负荷变量取决于至少一个先前对话轮回变量。
[0020]方案16.根据方案15所述的系统,其中,先前对话轮回变量选自以下组:先前认知负荷变量、先前用户目标变量和先前机器-对话-动作变量。
[0021]方案17.根据方案11所述的系统,其中,对话系统包括多模态对话系统。
[0022]方案18.根据方案10所述的系统,其中,对话系统从与对话系统无关的至少一个数据捕获装置接收输入。
[0023]方案19.一种非临时性计算机可读介质,其上存储有用于估计与对话系统交互的用户的认知负荷的指令,所述指令在由处理器执行时使得处理器执行方法,所述方法包括:
识别由对话系统捕获的用户表达中的认知负荷表示;以及
使用用户模型以至少部分地基于认知负荷表示来估计用户经历的认知负荷水平。
[0024]方案20.根据方案19所述的非临时性计算机可读介质,其中,用户模型包括动态贝叶斯网络。
【专利附图】

【附图说明】
[0025]在说明书的结束部分特别指出并且明确地要求保护被作为本发明的主题内容。然而,本发明在其部件、特征、操作方法和优势方面,通过参考下述详细说明和附图能够被最佳地理解,在附图中:
图1是根据本发明实施例的用于对话系统中的硬件的示意性框图;
图2是根据本发明实施例的用于对话系统中的主要软件模块的示意性框图;
图3是示出了根据本发明实施例的由图1和2的系统采用的方法的流程图;
图4是用于统计建模认知负荷对用户目标估计的影响的由图1和2的系统采用的部分贝叶斯网络;和图5示出了根据本发明实施例的非临时性计算机可读介质,其上存储有用于对与对话系统交互的用户的认知负荷进行统计建模的指令。
[0026]将理解的是,为了清楚起见,附图中示出的元件不一定是按比例绘制的,在不同附图中可能重复使用附图标记以指示对应的或类似的元件。
【具体实施方式】
[0027]在以下详细说明中,阐述各个细节,以便提供对本发明的透彻理解。然而,本领域技术人员将理解的是,本发明能够在不具有这些具体细节的情况下被实践。为了清楚起见,公知的方法、过程和部件没有详细描述。
[0028]本发明是对话系统,所述对话系统可操作对用户与系统交互的认知负荷进行建模。
[0029]以下术语将在该文件中使用:
“用户动作”指的是在与对话系统交互时任何形态或形态组合中表达的用户表达。用户动作可包括清楚目标声明、对机器-对话动作的确认或响应、以及认知负荷的表达。
[0030]目标声明可以涉及执行动作,例如预订饭店,或请求信息,或提供信息。
[0031]认知负荷的表达可以表示为在用户动作中嵌入的不流利、或者表示认知负荷的清楚声明、或两者的组合。不流利是对区域和时间敏感的,因为它们反映了从根据区域而变且根据时间段而变的距文化表达标准的偏离,因而一个区域中的不流利在另一个区域中可能不认为是不流利,类似地,表达标准也随着时间变化,因而,不流利在有关社会环境中评估。如所述,本发明可在各种表达形态中的任一种中操作:语言表达、物理接触(或实体接触)或通过想象。
[0032]语言不流利的典型示例尤其包括:
发音错误
在发言中间截短词或句子
填充非词汇词,例如〃uh〃,〃ehm〃 〃well〃,“err”,and “yea”
填充词汇词,例如“let’ s see”
重复词、短语或音节
纠正发言,其中,发言者校正其自己的口误 词之间的长时间中断
词替换,例如 “How much…expensive is it?”
构音错误(articulation error),例如“Make a lift turn here.”
错误开始,如 “Yes it,s...actually it is...”
表示认知负荷的清楚声明尤其包括“Hang on”,“Hold on”,“Go on”,“Say thatagain”,“Please repeat”,“Go back,,。
[0033]视觉不流利的示例尤其包括面部表情和异常手动作,其可以通过图像捕获系统检测,如敲打方向盘或仪表盘。
[0034]通过物理接触传输的不流利的示例尤其包括:将高于正常压力施加到方向盘,用高于预定标准的力或频率敲打方向盘或仪表盘,或者将力施加到仪表盘的没有装置致动器(如开关或按钮)的部分,或者在没有视觉装置致动器的部分上触碰触摸屏。[0035]“用户-对话-动作”指的是用户动作的对话系统理解,根据实施例,包括表示任何形态或形态组合的认知负荷的任何有关不流利或声明。用户-对话-动作还称为“用户-对话-行为”或“观察变量”。用户动作的理解可以经由对话系统内的语音或多模态理解系统实现。
[0036]“机器-对话-动作”指的是基于用户目标的置信度、政策应用和其它有关参数由对话控制模块以任何形态或形态组合采取的动作。根据实施例,机器-对话动作通过机器-动作生成器转换为机器动作。
[0037]本发明涉及人机对话系统,具体地涉及配置成建模认知负荷影响的对话系统,认知负荷可以源于驾驶相关动作或其它源。[0038]一些人机对话系统配置成基于将用户动作传输给系统的清楚输入统计地建模用户目标。本发明的实施例还对从驾驶相关或其它动作产生的认知负荷的影响进行统计建模,导致用户目标的准确估计。
[0039]除了手动操作车辆之外,该系统的实施例还在自主车辆中具有应用。在这些应用中,对话系统可以评估在自主驾驶转换为手动驾驶时驾驶员招致的预期认知负荷水平。
[0040]现在转向附图,图1是根据本发明实施例的基于统计的多模态对话系统的示意图。
[0041]对话系统100包括一个或多个处理器或控制器20、存储器30、长期数据存储装置40、输入装置50和输出装置60。
[0042]处理器或控制器20包括中央处理单元或多个处理器。存储器30可以是随机存取存储器(RAM)、只读存储器(ROM)。应当理解的是,图像数据、代码和其它有关数据结构存储在上述存储器和/或存储装置中。
[0043]存储器30尤其包括随机存取存储器、闪存、或任何其它短期存储器设置。
[0044]长期数据存储装置40尤其包括硬盘驱动器、软盘驱动器、光盘驱动器或这种单元的任何组合。
[0045]对话系统100尤其包括一个或多个计算机视觉传感器10、数字照相机和视频照相机。图像数据还可以从非专用装置或数据库输入对话系统100。
[0046]输入装置50的非限制性示例尤其包括音频获取和触摸致动的输入装置,包括靠近其它装置致动器器件(如,按钮、旋钮、开关和触摸屏)设置的触摸传感器。
[0047]输出装置60的非限制性示例尤其包括视觉、音频和触觉反馈装置。应当理解的是,根据实施例,输入装置50和输出装置60可以组合成单个装置。
[0048]图2图示了根据本发明实施例的统计对话系统的主要模块,包括理解模块220、对话控制模块225和机器动作生成器模块230。根据本发明实施例,理解模块220配置成用对话系统从对话的用户表达识别用户动作。根据实施例,不流利、表示认知负荷的清楚用户表达或两者组合可以包括在所识别用户动作列表中。根据实施例,理解模块220的输出是用户-对话动作的置信度得分列表。
[0049]根据本发明实施例,对话控制模块225配置成应用用户模型(包括用户认知负荷和用户目标的概率分布)和应用政策,以决定实现用户真实目标的最佳系统-对话-动作。
[0050]根据本发明实施例,机器-动作生成器模块230配置成将系统-对话-动作转换为机器-动作。[0051]图3示出了根据本发明实施例的对与对话系统交互的用户的认知负荷进行模块涉及的主要步骤的流程图。
[0052]在步骤300,用上述合适输入装置以相关形态中的任一种捕获用户表达。
[0053]在步骤310,理解模块识别用户对话动作,在本发明实施例中,包括不流利和表示认知负荷的声明,如上所述。语言不流利的示例包括:上述发音错误、截短、填充词汇和非词汇词、重复、纠正发言、以及长时间中断。这些不流利可以通过语音识别系统模块识别且通过语义剖析器剖析且作为可选列表的一部分传送给对话控制模块,如进一步所述。
[0054]类似地,视觉和触摸提供的不流利也可以用作上述认知负荷指示。
[0055]以下是在请求Chinese food (中国食品)时表达为错误开始的语言不流利的示例: uWhat is...where is Chinese foocH”
这种声明可以剖析为嵌入不流利或认知负荷的清楚表达属性的用户-对话动作。例如,上述声明可以剖析为:
Inform (food=Chinese, disfIuency= ‘false start’)
其中,“Inform”是用户-对话动作的类型,“food”是属性,ufood=Chinesev是属性值

‘false siari 是第二属性值对。根据某些实施例,属性值对‘false siari 〃’的存在指的是与Chinese food有关的信息用定义为‘false start,的特定不流利请求。
[0056]在第二示例中,关于Chinese food的信息请求(其中,用户清楚地要求时间延迟,例如通过说“Hang on”)可以剖析为:
Inform (food=Chinese, expIicit=,pause,)
其中,中断嵌入在用户对话声明中作为属性值对。
[0057]附件属性尤其包括‘resume’ , ‘replay’ 和 ‘revert’。
[0058]根据某些实施例,在剖析后,置信度分数分配给确定为最可能表示用户动作的用户_对话_动作。
[0059]在步骤320,可操作使用在步骤310中识别的用户-对话-动作和其它因数来建模认知负荷的用户模型确定目标列表和相关概率,任选地确定认知负荷的估计值。可以采用的用户模型尤其包括贝叶斯网络、神经网络或提供这种功能的任何其它模型。
[0060]根据本发明实施例,在步骤330,对话系统将政策应用于得到的目标列表,以决定机器-对话-动作。在某些实施例中,政策可以提前在政策学习过程确定,使用对话成功度量、奖励和交互日志。
[0061]根据实施例,在步骤340,对话系统基于在步骤330得到的政策决定执行系统-对话动作340。机器-对话-动作的示例尤其包括询问用户更多信息,请求语言确认,将车辆改向至选定位置,播放选定音乐,提供触觉反馈形式,或者上述的任何组合。
[0062]图4图示了可以在图3的步骤320中采用的对人机交互的认知负荷进行建模的部分动态贝叶斯网络(总体上表示为400)。
[0063]在某些实施例中,具体地,在每个对话轮回,认知负荷变量410取决于先前对话轮回变量:先前用户目标变量415、先前机器-对话-动作变量420、和先前认知负荷变量425。[0064]此外,根据实施例,表示认知负荷变量410对这些变量中的每个的依赖性的概率分布参数在节点415A、420A和425A中表示。具体地,工作负荷变量410取决于与先前用户目标变量415有关的参数415A,取决于与观察机器-对话-动作420有关的参数420A以及与认知负荷425有关的参数425A。这些参数在专用学习期间中使用对话样本数据库计算。根据实施例,当前用户的对话样本可以用于学习;或者多个用户的对话日志可以在学习阶段使用。此外,根据实施例,参数可以通过预期进展学习。根据本发明实施例,工作负荷变量410可以呈现三个水平的认知工作负荷中的任一个:“低”、“中”和“高”。
[0065]根据实施例,继续动态贝叶斯网络,认知工作负荷410继而可以建模为用户动作435的偶然依赖性,继而建模为取决于用户目标430。
[0066]用户动作435对工作负荷的依赖性也参数化为由参数435A表示,如上所述。
[0067]用户-对话-动作440是观察变量,或者观察用户-对话-动作变量,且在某些实施例中建模为直接取决于用户动作435。
[0068]根据实施例,在操作中,给定观察变量440和420,认知工作负荷410可以通过贝叶斯网络中的预期进展估计。
[0069]作为偶然依赖性可以如何影响当前认知负荷的说明性示例,假定先前用户目标415是工作量大的,那么在某些实施例中,将存在当前认知工作负荷410取决于先前用户目标415的对应高条件概率。例如,在先前对话轮回中,从非常多选择中找到未指定“摇滚”音乐的用户目标可以对当前认知负荷有贡献。
[0070]类似地,显示用户选择的长歌曲名称列表的先前机器-对话-动作420也可以影响当前认知负荷410。在某些实施例中,425的先前认知负荷可以影响节点410的当前认知负荷。
[0071]根据本发明实施例,依赖性的用户模型可以用于计算用户目标的概率,使用贝叶斯预期进展网络方法。应当理解的是,根据某些实施例,也可以使用神经网络模型和提供这种功能的其它模型。
[0072]本发明的实施例还包括基于从数据捕获装置或与对话系统无关的系统获得的数据来估计认知负荷的配置。这可以通过将这种捕获数据作为附加观察节点用贝叶斯网络模型中的合适依赖性建模来完成。
[0073]图5示出了根据本发明实施例的包括可执行代码的非限制性计算机可读介质,用于配置计算机系统以执行上述认知负荷增强对话系统。
[0074]虽然在本文图示和描述了本发明的某些特征,但是本领域普通技术人员此时将想到许多修改、替换、改变和等同方式。因此,应该理解,所附权利要求旨在覆盖落入本发明真实精神内的所有这种修改和改变。
【权利要求】
1.一种用于通过人机接口来估计认知负荷的方法,所述方法包括: 执行如下的计算机实施步骤: 识别由与对话系统交互的用户表达的用户表达中的认知负荷表示;以及使用用户模型以基于认知负荷表示来估计由与对话系统交互的用户经历的认知负荷水平。
2.根据权利要求1所述的方法,其中,用户模型包括动态贝叶斯网络。
3.根据权利要求1所述的方法,其中,认知负荷表示选自以下组:不流利、表示认知负荷的声明、以及不流利与表示认知负荷的声明相结合。
4.根据权利要求2所述的方法,其中,动态贝叶斯网络包括直接或间接取决于认知负荷变量的观察用户-对话动作变量。
5.根据权利要求4所述的方法,其中,认知负荷变量取决于至少一个先前对话轮回变量。
6.根据权利要求5所述的方法,其中,先前对话轮回变量包括选自以下组的先前对话轮回变量中的任一个的至少一个:先前认知负荷变量、先前用户目标变量和先前机器-对话-动作变量。
7.根据权利要求1所述的方法,其中,用户表达选自以下组:语言表达、头部动作、面部表情、手势、和将压力施加到方向盘,其中,压力超过阈值压力。
8.根据权利要求1所述的方法,其中,对话系统包括多模态对话系统。
9.一种用于估计与对 话系统交互的用户的认知负荷的对话系统,所述系统包括: 处理器,所述处理器配置成: 识别由对话系统捕获的用户表达中的认知负荷表示;以及 使用用户模型以至少部分地基于认知负荷表示来估计用户经历的认知负荷水平。
10.一种非临时性计算机可读介质,其上存储有用于估计与对话系统交互的用户的认知负荷的指令,所述指令在由处理器执行时使得处理器执行方法,所述方法包括: 识别由对话系统捕获的用户表达中的认知负荷表示;以及 使用用户模型以至少部分地基于认知负荷表示来估计用户经历的认知负荷水平。
【文档编号】A61B5/00GK103445793SQ201310206363
【公开日】2013年12月18日 申请日期:2013年5月29日 优先权日:2012年5月29日
【发明者】O.尖霍尼, E.茨尔克尔-汉科克 申请人:通用汽车环球科技运作有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1