孤立话语检测系统和方法与流程

文档序号:19043006发布日期:2019-11-05 23:20阅读:248来源:国知局
孤立话语检测系统和方法与流程

智能电话和其他设备已经使得目标语言理解对话系统(诸如虚拟个人助理)广泛地可用于消费者。目标语言理解对话系统在有限数目的选定主题领域(即,任务域)中提供用户输入的深度理解。在这些任务域外,目标语言理解对话系统回退到肤浅理解或通用技术来处理用户输入。常见回退是将域外用户输入视为通用web搜索的对象。

用户不是总能意识到目标语言理解对话系统的能力和限制。例如,智能电话上的虚拟个人助理可能受限于:电话、短消息服务(SMS)、电子邮件、日历、闹钟、提醒事项、备忘录、天气,并且假设任务域允许虚拟个人助理用任务辅助用户,诸如拨打电话、发送文本消息和电子邮件、设置闹钟和提醒事项、创建备忘录和日历条目、以及获取关于天气或位置的信息。因为智能电话能够进行其他活动(例如,播放音乐),所以用户可以假设虚拟个人助理也可以用这些其他活动进行辅助。例如,用户可能请求虚拟个人助理“播放史密斯飞船乐队(Aerosmith)的歌曲”,从而期望收听到来自用户音乐库的选集。在没有音乐任务域的情况下,用户的请求不被理解。用户得到了网页列表,而不是听到所请求的音乐。用户可以尝试重复和/或改述请求,而没有意识到虚拟个人助理不知道如何处理音乐任务。同时,用户识别到虚拟个人助理的此回退行为,并且通常使用期望获得回退web搜索结果的简单关键字(例如,“最低工资”)。

从虚拟个人助理的角度,无论播放音乐的请求还是关键字都不被任意任务域覆盖,因此它们被视为web搜索请求;然而,用户体验大不相同。从用户的角度,响应于播放音乐的请求而得到web搜索结果是令人沮丧的,这是因为没有满足用户期望。另一方面,当得到web搜索结果是用户期望的时,web搜索结果是令人满意的。技术问题是在针对目标语言理解对话系统而不被其任意任务域覆盖、旨在取得结果而不是返回web搜索结果的请求与其中web搜索是适当的web搜索查询之间进行区分。本发明正是针对这些和其他考虑事项所做出。虽然讨论了相对具体的问题,但是应当理解的是,这里所公开的方面并不应当限于解决

背景技术:
中所标识的具体问题。



技术实现要素:

提供该发明内容而以简化形式对以下将在具体实施方式中进一步进行描述的概念的选择进行介绍。该发明内容并非意在标识所请求保护主题的关键特征或必要特征,其也并非意在被用来帮助确定所请求保护主题的范围。

孤立话语检测系统和相关方法的各方面包括孤立项(orphan)检测器,该孤立项检测器处理来自目标语言理解对话系统的域外话语,以确定该域外话语是否表达了特定意图,该特定意图使得目标语言理解对话系统在回退处理(诸如执行通用web搜索)不大可能被web搜索满意的情况下采取特定动作。并入孤立项检测器的对话系统接收一个或多个话语用于处理。使用域分类器认为话语处于域中还是域外基于该话语是否被目标理解部件的任意任务域覆盖。特征被从话语中提取用于在分类和理解话语中使用。特征提取可以包括以下中的一个或多个:词汇解析操作、词性标注操作、句法解析操作和语义解析操作。

孤立项确定基于所提取的特征来标识域外话语是否为孤立项。所使用的一个词汇特征仅仅是来自话语的词语n元语法。因为孤立项检测器更多地依赖于结构而非内容,因此句法特征也可以供孤立项分类器使用。用于在孤立项确定中使用的基线句法特征是词性标注n元语法。语义特征也有用于孤立项分类器模型。针对谓语和论元(argument)集的存在的检查为高查准率孤立项分类提供了一个语义特征。孤立项不被视为与通用web搜索查询相同。这提供了改进的用户体验。用户体验被改进,不是因为对话系统能够满足用户的请求,而是因为即使在用户请求无法被满足时对话系统也能提供有意义的响应。

附图说明

本公开另外的特征、方面和优势将通过参考以下附图而得到更好地理解,其中要素并非依比例绘制从而更为清楚地示出细节,并且其中同样的附图标记贯穿多个视图而指示同样的要素:

图1是图示利用孤立项检测器的目标语言理解对话系统的各方面的系统示图;

图2是图示用于检测和处理孤立项的方法的各方面的高阶流程图;

图3图示了基于选区的句法结构解析的示例;

图4图示了应用于被图3中句法解析的句子的语义解析的示例;

图5是图示在离线使用场景中使用孤立项针对新(即,未覆盖)的任务域对语义模型进行非监督训练的方法的各方面的高阶流程图;

图6是图示适合于实施本发明各方面的计算设备的物理部件的框图;

图7A图示了适合于实施本发明各方面的移动计算设备;

图7B是图示了适合于实施本发明各方面的移动计算设备的架构的框图;和

图8是本发明的各方面可以利用其进行实施的分布式计算系统的简化框图。

具体实施方式

以下将参考形成本发明一部分并示出各具体示例性方面的附图更完整地描述本发明的各个方面。然而,本发明可以以许多不同的形式来实现,而并不应当将其解释为限于此处所阐述的方面;相反地,提供这些实施例以使得本公开透彻和完整,并且会将各方面的范围完全传达给本领域普通技术人员。各个方面可以实施为方法、系统或设备。因此,各实现方式可以使用硬件、软件或者软件和硬件和软件的组合来实施。因此,以下详细描述并非在限制意义上进行。

孤立项检测器和相关方法的各方面在这里进行描述并且在附图中有所图示。孤立项检测器处理来自目标语言理解对话系统的域外话语,以确定该域外话语是否表达了特定意图,该特定意图使得目标语言理解对话系统在回退处理(诸如执行通用web搜索)不大可能被web搜索满意的情况下采取特定动作。这种话语被称为孤立项,因为其无法被任意任务域或回退处理适当地处理。孤立项检测器通过主要关注于话语的结构而不是内容来将孤立项从web搜索查询和其他域外话语中区分。由孤立项检测器检测到的孤立项可以在线和离线使用以改进目标语言理解对话系统的用户体验。孤立项检测器还可以用于从web搜索引擎查询日志中挖掘结构上相似的查询或句子。

图1是图示利用孤立项检测器的目标语言理解对话系统的各方面的系统示图。对话系统100包括孤立项检测器102和目标理解部件104。该对话系统可以以使用单个计算设备的本地架构或者如图所示使用一个或多个计算设备的分布式架构(诸如但不限于与服务器108通信的客户端设备106)实现。客户端设备106和服务器108可以使用各种计算设备实现,包括但不限于:服务器或台式计算机、膝上型计算机、平板计算机、智能电话、智能手表和智能家电。分布式部件可以经由网络进行通信,诸如但不限于:局域网、广域网或因特网。

对话系统100提供了用户接口110,该用户接口110用于通过各种输入和输出形态与用户112交互。输入和输出形态的类型和数目取决于客户端设备106的硬件。适当输入和输出形态的示例包括但不限于语音、文本、手写、触摸和手势。客户端设备106经由一个或多个输入设备116从用户112接受谈话输入114,并且经由一个或多个输出设备120呈现谈话输出118供用户112消费。适当输入设备的示例包括但不限于:麦克风、触摸屏、相机或扫描仪、物理键盘或小键盘、虚拟键盘或小键盘。适当输出设备的示例包括但不限于:扬声器、显示屏和投影仪。

为了通过示例提供上下文,对话系统100的各方面可以被描述为响应于用户话语的多模虚拟个人助理(VPA)。然而,孤立项检测器102可以结合各种目标语言理解对话系统一起使用,并不应当受限于与虚拟个人助理一起使用。为了方便起见,如这里所使用的术语“话语”指的是对对话系统100的任意谈话输入,而不考虑模式。对于任何特定形态或谈话输入的引用或描述应当宽泛地被理解为连同相对应的硬件和/或软件修改一起涵盖其他形态或谈话输入从而实现其他的形态。

如果接受非文本话语,则对话系统100可以包括一个或多个自动话语识别器122,其将没有以计算机可读格式的话语转换成计算机可读格式供使用针对输入类型的适当解码技术进行处理。适当自动话语识别器122的示例包括但不限于语音识别器、手势识别器、光特性识别器和手写识别器。自动话语识别器122的输出馈送目标理解部件104。

特征提取器124从自动话语识别器122的输出中提取特征。特征可以被提取供孤立项检测器102和/或目标理解部件104使用。针对孤立项检测器102提取的特征的类型包括词汇特征、词性标注特征、句法特征和语义特征。

目标理解部件104包括域分类器126和语言理解部件128。域分类器126尝试使用一个或多个域模型将话语映射到一个或多个支持的任务域。由支持的任务域之一覆盖的话语处于“域中”。由支持的任务域之一覆盖的话语处于“域外”。语言理解部件128通过将计算机可读文本拆分并解析成可以由对话系统处理的语义表示来将话语转换成有意义的表示。在大部分多域对话系统中,目标语义处理通过任务域使用特定于每个任务域的域模型而不是使用针对所有任务域的全球语法或统计模型来执行。使用目标理解使得系统设计者能够关注于对话系统的能力并且提供域中话语的深度理解。

域外话语通过后退理解来处理。如先前提到的,由目标语言理解对话系统采用的后退理解的典型示例是将所有域分类器拒绝的话语视为通用web搜索查询。虚拟个人助理和其他目标语言理解对话系统中的后退理解还可以包括事实性问题检测器130和/或聊天检测器132。

事实性问题是寻求关于命名实体的简单事实的问题。事实性问题经常措辞为谁、什么、时间、地点、为什么或如何问题。事实性问题的示例为“美国最高的山是什么?”

聊天指的是具有闲聊性质的随便话语。通过虚拟个人助理,聊天通常涉及半傻或半个人性质的询问。虚拟个人助理可以被提供有对此类询问的响应,从而使得虚拟个人助理至少某种程度上像人类。聊天的示例包括以下话语,诸如“你从哪里来”或者“给我讲个笑话”。本质上,聊天涉及帮助定义虚拟个人助理或其他目标语言理解对话系统的个性的非产生式交互。

孤立项检测器102通过检测孤立项来改进后退理解。如这里所使用的,孤立项指的是具有已知将不被目标语言理解对话系统的任意任务域覆盖的非事实性、不含糊的和特定意图的请求(即,域外话语)。因此,孤立项表示可以被目标语言理解对话系统通过适当任务域覆盖并且在大多数情况下无法通过执行通用web搜索满足的请求。

在向用户话语提供同时响应的在线系统(诸如虚拟个人助理)中,孤立项检测器102允许对话系统100以改进特定用户体验的适当方式对孤立项进行智能响应。例如,由孤立项检测器102提供的信息可以在线用于避免当用户话语是孤立项时返回无响应的通用web搜索,以及建议适当的响应。在线使用中,孤立项检测器102提供用于改进目标理解部件104的功能的有价值信息,并由此改进对话系统100的普通用户体验。例如,孤立项检测器102可以离线用于快速添加新的任务域并且扩展目标语言理解对话系统的能力或者改进现有域模型以对孤立项进行处理。

判别分类器也适于在孤立项检测器中使用,因为与通用分类器(例如,Naive Bayes)相比,判别分类器倾向于较少受到先验概率分布的影响。适当判别分类器的一个示例是支持向量机(SVM)。针对具有大量特征空间的任务,支持向量机通常胜过其他二进制分类方法。孤立项检测特征空间非常大,因为其包括所有词语和词性标注n元语法。

孤立项检测器分类器模型可以使用训练数据构建,该训练数据包括频繁出现的web搜索查询的集合和从对话语料库到对话系统的话语的集合。Web搜索查询的集合提供了否定训练类,而到针对话系统的话语的集合提供了肯定训练类。来自针对对话系统的话语的集合中的话语可以被人工注释。针对对话系统的话语的集合可以包括被确定将针对对话系统的域中话语和/或域外话语。取决于孤立项检测模型中使用的特征集,孤立项检测器可以采用以下中的一个或多个:词汇解析器、词性标注器、句法解析器和语义解析器。

交互管理器134作用于目标理解部件104的输出。交互管理器134是对话系统中具有状态的部件,其最终负责对话的展开(即,谈话)。交互管理器134通过更新对话会话136以反映当前对话状态而保持对谈话的追踪,控制谈话的展开。对话会话136是可以存储用户与对话系统之间的交互的任意和所有方面的数据集。对话会话所存储的对话状态信息的类型和数量可以基于对话系统的设计和复杂度而有所变化。例如,大多数对话系统所存储的基本对话状态信息包括但并不局限于话语历史、来自用户的最后命令,以及最后的机器动作和当前对话状态。交互管理器134基于当前对话状态来执行适当机器动作,诸如但不限于:从结构化或非结构化的信息源(例如,知识库、联系人列表等)中检索信息。

响应生成器138生成对话系统的响应。响应生成器138可以包括自然语言生成部件140,其将响应转换为自然(即,人类)声音文本以便展现给用户。响应生成器138还可以包括文本至语音部件142,其将响应翻译为语音并且允许对话系统与用户进行口头交互。该响应经由客户端设备的一个或多个输出设备被呈现。

图2是图示用于检测和处理孤立项的方法的各方面的高阶流程图。方法200可以包括输入操作202,其中对话系统接收一个或多个输入用于处理。在在线使用场景下,输入通常是从用户实时接收的单独话语。如果需要,识别操作204将话语转换成孤立项检测器102可使用的格式。例如,识别操作204可以包括向说出的话语应用语音识别以将语音解码成文本。在离线使用场景下,输入可以来自对话系统的大量用户的话语或web搜索引擎查询日志的查询的现有语料库。

域分类操作206基于话语是否被目标理解部件104的任意任务域覆盖来将话语分类为域中或域外。域分类操作206可以使用“接受”方法、“分流”方法或者这些方法的组合,其中在“接受”方法中,每个域具有确定话语是否属于该域的相关联分类器,在“分流”方法中,顶级分类器确定针对该话语的域。

虽然域分类通常根据包含(即,检测被定义的任务域覆盖的话语)来表达,但是本发明的各方面关注于域外话语的处理。因此,可以参考说明书和/或所附权利要求书中的域外话语的检测和/或分类。对话语是域外话语的确定可以简单地由否定结果来完成,该否定结果通过对目标语言理解对话系统的多个域中的包含测试该话语获得。换言之,没有满足目标语言理解对话系统的任意域的包含标准的话语已经被确定为是域外话语。

在域分类操作206之后,执行域中话语理解操作208和域中话语动作操作210。域中话语理解操作208确定该域中话语的意图(即,含义)。由域中话语理解操作208指派含义的各方面可以包括但不限于论元提取、格子填充(slot-filling)和其他语义处理函数和方法。

域中话语动作操作210基于当前对话状态执行确定用于实现域中话语的意图的对话动作。例如,域中话语动作操作210可以与闹钟应用交互以针对论元中指定的日期和时间来设置闹钟,或者与电话应用交互以向论元中指定的人拨打电话。用于处理域中话语的域特定规则或指令通常被指定为任务域定义的一部分。

通常,域中话语交互被定制用于正在使用的应用、环境和设备。针对智能电视、有线电视盒或因特网电视设备或应用的域内任务可以包括播放流传输视频内容,改变频道以及调节音量。例如,在通用计算设备上,针对虚拟个人助理的域中任务可以包括管理提醒事项、管理闹钟、航班预订和酒店预订。在智能电话上,针对虚拟个人助理的域中任务可以被扩展到经由蜂窝载波网络发送文本消息和拨打电话。

特征提取操作212提取用于分类和理解话语的特征。特征提取可以包括以下中的一个或多个:词汇解析操作214、词性标注操作216、句法解析操作218和语义解析操作220。特征提取还可以用于提取用于将域外话语分类为聊天或事实性问题以及分类域中话语的特征。针对域中话语和域外话语的特征提取可以单独出现或者在域分类操作204之前以组合操作出现。

方法200可以可选地包括事实性问题处理操作222和/或聊天处理操作224以检测并处理对应域外话语。

孤立项确定226标识域外话语是否为孤立项。对孤立项进行检测是非常难的任务。孤立项确定226关注于话语的意图是如何表达的(即,话语的结构)而不是理解话语的特定意图(即,话语的内容)。例如,结构化为命令的域外话语(例如,“向妈妈发送电子邮件”)更像是向对话系统请求执行特定(但不支持)的动作,而不是针对通用web搜索的关键字。类似地,仅包含命名实体或名词短语而无其他内容的话语(例如,酒店)更像是对web搜索的关键字,虽然某些实例可能模糊不清(例如,“酒店预订”)。

针对已知任务域,来自域分类器的置信得分不见得有用,因为孤立项确定226的输入是被覆盖的任务域拒绝的域外话语。

线性核SVM分类任务可以被形式上定义如下:假设训练数据D,使用从针对目标语言理解对话系统的话语(例如,针对VPA的请求)的采样中提取的特征进行编译,VPA={(x1,-1),...,(xm,-1)},以及web搜索查询的采样,Q={(xn,1),...,(xm+1,1)},线性核SVM分类任务可以被形式上定义为找到超平面,从而将这些类除以最大间隔。

一个词汇特征仅仅是来自话语的词语n元语法。使用覆盖多个域的话语来训练孤立项分类器有效减少了与域独立短语(例如,“请你展示给我”或“是什么”)相关的域特定词语的(即,餐厅域中的“烹饪”或“膳食”)的影响。词汇模型适于从web搜索查询中对孤立项进行区分,即使与内容词语存在较小词汇重叠,因为域中指示符短语(例如,“你能”或“请”)作为良好的孤立项分类特征。使用仅使用词汇特征训练的孤立项分类器获得的结果提供了用于比较的重要基线。表1将针对VPA的请求和web搜索查询中出现的第一人称词语的相对频率进行了比较。

表1

因为孤立项检测器更多地依赖于结构而非内容,因此句法特征也可以供孤立项分类器使用。用于在孤立项确定中使用的基线句法特征是词性标注n元语法。关于话语是否是孤立项,该话语中出现作为第一词语的特定词性提供了良好的指示符。例如,相对于当第一词语的词性是专有名词时,当第一词语的词性是情态动词(例如,“可以”)或者基本形式的动词(例如,播放)时,话语更像是孤立项。类似地,作为话语更像是孤立项的良好指示符的其他词性包括作为该话语的第一词语出现的基本人称代词(例如,“我”)或人称代词属格(例如,“我的”)。

表2将针对VPA的请求与web搜索查询中出现的第一词语的最频繁词性标注的相对频率进行了比较。可以看出,在动词作为话语的第一词语时,更像是请求而不是web搜索查询。

表2

图3图示了基于选区的句法结构解析的示例。词语“find brightness settings(找到亮度设置)”形成了由动词短语(VP)和名词短语(VN)组成的句子(S)。名词短语由单数名词(NN)“brightness(亮度)”耦合复数名词(NNS)“settings(设置)”组成。动词短语由动词(VB)“find(找到)”和作为其宾语的名词短语“brightness settings(亮度设置)”组成。句法解析树的结构可以被表达为句法形状特征S(VP(NP)),这是针对VPA的请求的最频繁形状之一。句法解析树形状是在孤立项分类器模型中有用的另一句法特征。实践中,与web搜索查询相比,更多的句法解析树形状出现在针对VPA的请求中。针对VPA的请求的大量句法解析树形状使得句法解析树形状更加有用于查全率而不是查准率。

语义特征也有用于孤立项分类器模型。虽然不是必需的,但是针对域中话语的典型语义框架包括意图,其通常以谓语/论元(例如,“进行/预订”、“买/票”或“设置/闹钟”)的形状。针对谓语和论元集的存在的检查为高查准率孤立项分类提供了一个语义特征。

语义解析可以使用基于通用知识的语义解析器(例如,NLPWin)来完成。因为大部分使用孤立项检测器评估的话语非常短并且易于解析,所以语义解析也可以使用肤浅语义解析器(例如,ProBank)或深度语义解析器(例如,FrameNet)来完成,即使在解析自然说出的语言时这种解析器通常不见得具有鲁棒性。

图4图示了应用于图3中句法解析的句子的语义解析的示例。所示语义解析树使用抽象含义表示(AMR)格式,其中“ARG0”通常是主语,“ARG1”是直接宾语,“mod”是定语,以及“mode”示出了不是常规语句的句子(例如,祈使、疑问或感叹)的对话动作。语义解析的结构可以被表达为语义形状特征Pred(Arg0,Arg1,mode:祈使),这是针对VPA的请求的最频繁语义形状。相反地,单独概念的语义形状(例如,“脸书”)出现在web搜索查询中的频率是在针对VPA请求中的近似16倍。

孤立项分类器模型可以在特征级或决策级组合。换言之,单个孤立项分类器模型可以使用多个特征集进行训练,从而提供单个输出作为孤立项分类决策的基础,或者单独的孤立项分类器模型可以使用每个特征集进行训练,从而在进行孤立项分类决策时提供输出集用于评估。

孤立项检测器确定被域模型拒绝的话语是孤立项还是web搜索查询,并且返回孤立项用于处理。取决于孤立项检测器正在在线场景还是在离线场景中使用,如何处理孤立项可以有所变化。

现在返回图2,孤立项处理操作228以适当方式处理由孤立项确定226标识的孤立项,以提供改进的用户体验。例如,孤立项处理操作228可以避免向通用web搜索查询提交孤立项,或者抑制针对孤立项的通用web结果的报告。相反,孤立项处理操作228可以生成消息,该消息阐述了对话系统理解用户进行了特定动作请求,但该特征当前不被对话系统支持。在较少假设的方法中,孤立项处理操作228可以基于孤立项提供通用web搜索结果以及消息,使得用户了解对话系统理解孤立项似乎是不被支持的动作请求,并且因为该请求无法被满足,提供了搜索结果只是为了用户确实有意执行通用web搜索的情况。孤立项处理操作228的各方面可以包括使用由孤立项确定226产生的置信得分来决定如何处理该孤立项。备选地或附加地,孤立项处理操作228可以向用户提供教导对话系统如何执行不被支持的动作的机会。

用户体验被改进,不是因为对话系统能够满足用户的请求,而是因为即使在用户的请求无法被满足时对话系统也能提供有意义的响应。用户不再困惑为什么对话系统提供了无意义的响应(即,web搜索查询结果)而不是进行用户要求的内容,这转而总体上减少了用户对对话系统的失望。

话语编目操作230可以将对话系统接收的话语与对话系统指派的分类一起存储。话语编目操作230可以用于存储由对话系统接收的所有话语或者只是话语的选定类(例如,但不限于,域中、域外、孤立项、web搜索查询、聊天或事实性问题)以及它们的组合。例如,话语编目操作230可以只存储那些被分类为域外的话语。在另一示例中,仅孤立项和web搜索查询可以被存储。

取决于所接收到的输入的类型和类,某些或全部操作可以在离线场景中省略。例如,语料库可以仅包括待分析的域外话语或者应用于语料库进行诸如不必要的域分类之类步骤的过滤器。类似地,语料库或日志将被存储为文本而不再需要识别操作。另外,出于离线分析的目的,话语的实际处理通常不是必要的。

图5是图示在离线使用场景中使用孤立项针对新(即,未覆盖)任务域对语义模型进行非监督训练的方法的各方面的高阶流程图。方法500从对孤立项检测器检测到的孤立项执行通用解析操作502开始。查询分组操作504使用通用解析操作502的结果和来自web搜索引擎的知识来对相似孤立项和web搜索查询进行分组。有用分组的示例包括但不限于:基于共享相同的谓语和论元类型(例如,“播放麦当娜”和“播放一些阿黛尔”)、共享相同的论元类型(例如,“让我看看德尔塔股票”和“联队今天怎么样”)或者共享相同的主论元(例如,“地中海菜的配方”和“我需要提拉米苏的配方”)。语义模板操作506产生语义模板,例如可以基于AMR解析形状。查询种子操作508使用语义簇(潜在狄利克雷分配)来填充种子查询。训练操作510使用种子查询来训练域检测和格子填充模型。附加解析操作512使用结果模型来自动解析剩余的查询。再训练操作514使用附加解析操作512的结果来再训练语义模型。

从孤立项检测的受益的角度,对包含来自一个虚拟个人助理系统的近似一百万个话语的对话语料库的分析示出了大部分话语没有被分类为属于由虚拟个人助理处理的9个原子域(闹钟、日历、备忘录、电话、短消息服务、提醒事项、电子邮件、天气和位置)之一。仅30%的话语在域中(即,属于9个域之一)。另5%的话语无法被处理(例如,胡言乱语)。剩余的65%是域外话语,这包括事实性问题、聊天、web搜索查询和孤立项。

进一步查看域外话语的分布,示出了孤立项占了近似18%的话语。Web搜索查询占了另23%的话语。事实性问题和聊天组合完成剩余的24%的话语。

针对n折交叉验证测试,孤立项检测器分类器模型从训练数据中构建,该训练数据包括从头和中频查询(不考虑频率)挑选的近似100000个web搜索查询以及来自现有虚拟个人助理对话语料库中的近似120000个针对VPA的请求。Web搜索查询形成否定训练类,而针对VPA的请求形成肯定训练类。为了基于单独特征集(即,词汇、词性标注、句法解析和语法解析)来评估孤立项分类器模型的相关表现,针对7个已知任务域中除了一个任务域的所有任务域的域内话语在训练孤立项分类器模型时被使用。该省略的任务域提供了应当被分类为孤立项并且不应当被任意其他任务域挑选的已知话语集。

针对孤立项检测器的两个主要成功测量是查准率和查全率。查准率表示由孤立项检测器正确标识的孤立项占由孤立项检测器标识的孤立项的总数的分数。查全率表示由孤立项检测器正确标识的孤立项的数目占由孤立项检测器处理的域外话语的总数。在测试中,词汇、词性标注、句法解析和语法解析模型展示了高于80%的平均查全率,但查准率有所变化。

各自地,词汇、词性标注、句法解析和语义解析模型都展示了大于80%的平均查全率,但是结果的查准率各不相同。表3示出了使用每个可用特征集训练的孤立项分类器模型的相对查准率。句法模型的查准率倾向于降低,因为事实性问题(例如,“你能在冬天粉刷木结构房屋”)和针对VPA的请求(例如,“你能给我讲个笑话”)经常共享相同的句法结构。事实性问题与针对VPA的请求之间的区别是重要语义消歧任务。

表3

表4示出了在训练孤立项分类器模型时从被省略的已知任务域检测到的代表话语。与句法和语义解析模型相比,词汇和词性标注模型易于返回具有特定关键短语(例如,“你能展示给我…”)的较长话语。

表4

本发明的各方面可以使用硬件、软件、计算机可读介质或者其组合被实施为系统、设备和其他制品,或者实施为方法。以下描述和相关联附图描述了选定的系统架构和表示各种系统架构的计算设备以及可以用于实践本文所述的本发明的各方面并且不应当用于以任何方式限制本发明的范围的计算设备。

各种类型的用户接口和信息可以经由板上计算设备显示器或者经由与一个或多个计算设备相关联的远程显示单元被显示。例如,各种类型的用户接口和信息可以在各种类型的用户接口和信息被投射于其上的墙壁表面上进行显示和交互。与本发明可以利用其进行实施的许多计算系统的交互可以非限制性地通过键击输入、触摸屏输入、话音或其他音频输入、手势输入来完成,其中相关联的计算设备配备有用于捕捉和解释用于控制计算设备的功能的用户手势的检测(如相机)功能,等等。

图6是图示可以实施本发明各方面的计算设备的架构的框图。计算设备600适于实现在广泛的计算机和可编程消费电子设备中体现的本发明的各方面,包括但并不限于大型计算机、小型计算机、服务器、个人计算机(例如,台式计算机和膝上型计算机)、平板计算机、上网本、智能电话、智能手表、视频游戏系统、智能电视和智能消费电子设备。

在基本配置中,由虚线608指示,计算设备600可以包括至少一个处理单元602和系统存储器604。取决于计算设备的配置和类型,系统存储器604可以包括但并不限于易失性存储设备(例如,随机存取存储器)、非易失性存储设备(例如,只读存储器)、闪存、或者这些存储器的任何组合。系统存储器604可以包括操作系统605和一个或多个程序模块606,操作系统605适合于控制计算设备600的操作,并且一个或多个程序模块606适合于运行软件应用620,包括实现本文所述的本发明的各方面的软件。

在处理单元602上执行的同时,软件应用620可以执行包括但不限于方法200和500的一个或多个阶段的处理。可以依据本发明的方面所使用的其他程序模块可以包括各应用电子邮件和联系人应用、词语处理应用、电子表格应用、数据库应用、幻灯片演示应用或计算机辅助绘图应用程序等。

除了基本配置,计算设备600还可以具有附加特征或功能。例如,计算设备600还可以包括诸如例如磁盘、光盘或磁带之类的附加数据存储设备(可移动的和/或不可移动的)。这样的附加存储设备由可移动存储设备609和不可移动存储设备610所示出。

计算设备600还可以具有一个或多个输入设备612,诸如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可以包括输出设备614,诸如显示器、扬声器、打印机等。上述设备是作为示例并且可以使用其他设备。计算设备600可以包括允许与其他计算设备618进行通信的一个或多个通信连接616。适当通信连接616的示例包括但并不限于RF发送器、接收器和/或收发器电路;通用串行总线(USB)、并行和/或串行端口。

这里所使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据结构或程序模块等信息的易失性和非易失性、可移动和不可移动介质。系统存储器604、可移动存储设备609和不可移动存储设备610都是计算机存储介质(即,存储器存储设备)的示例。计算机存储介质可以包括RAM、ROM、电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储设备、磁带盒、磁带、磁盘存储设备或其他磁性存储设备,或者可用于存储信息且可以由计算设备600访问的任何其他制品。任何这样的计算机存储介质都可以是计算设备600的一部分。

本发明的各方面可在包括分立电子部件的电子电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路中进行实施,或者在包含电子部件或微处理器的单个芯片上进行实施。例如,可以通过片上系统(SOC)来实施本发明的各方面,其中所图示的每个或许多部件可以被集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元以及各种应用功能,所有这些都作为单个集成电路被集成到(或“烧录到”)芯片基板上。当通过SOC操作时,在此所述的关于软件应用620的功能可以通过在单个集成电路(芯片)上集成有计算设备600的其他部件的专用逻辑来操作。本发明的各方面还可使用能够执行诸如例如,AND(与)、OR(或)和NOT(非)的逻辑运算的其他技术来实施,包括但不限于机械、光学、流体和量子技术。另外,本发明的方面可在通用计算机或任何其他电路或系统中实施。

图7A图示了适合于实施本发明各方面的移动计算设备700。适合的移动计算设备的示例包括,但不限于,移动电话、智能电话、平板计算机、平面计算机以及膝上型计算机。在基本配置中,移动计算设备700是具有输入部件和输出部件两者的手持式计算机。移动计算设备700通常包括显示器705以及允许用户将信息输入到移动计算设备700中的一个或多个输入按钮710。移动计算设备700的显示器705也可充当输入设备(例如,触摸屏显示器)。如果被包括,则可选的侧边输入部件715允许另外的用户输入。侧边输入部件715可以是旋转开关、按钮或任意其他类型的手动输入部件。移动计算设备700可包含更多或更少的输入部件。例如,显示器705不必是触摸屏。移动计算设备700还可以包括可选的小键盘735。可选的小键盘735可以是物理小键盘或者在触摸屏显示器上生成的“软”小键盘。输出部件可以包括用于显示图形用户接口(GUI)的显示器705、可视指示器720(如发光二极管)和/或音频变换器725(如扬声器)。移动计算设备700可以包含振动变换器来向用户提供触觉反馈。移动计算设备700可以包含诸如音频输入(如麦克风插孔)、音频输出(如耳机插孔)、以及视频输出(如HDMI端口)之类的输入和/或输出端口,用于将信号发送到外部设备或从外部设备接收信号。

图7B是示出可以实践实施本发明的各方面的移动计算设备的架构的框图。例如,移动计算设备700可以在系统702中实现,诸如能够运行一个或多个应用(如浏览器、电子邮件客户端、记事本、联系人管理器、消息收发客户端、游戏、以及媒体客户端/播放器)的智能电话。

一个或多个应用程序765可被加载到存储器762中并在操作系统764上或与操作系统764相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、词语处理程序、电子表格程序、因特网浏览器程序、消息收发应用等等。系统702还包括存储器762内的非易失性存储区768。非易失性存储区768可被用于存储在系统702断电的情况下不会丢失的持久信息。应用程序可使用信息并将信息存储在非易失性存储区768中,如电子邮件应用使用的电子邮件或其他消息等。同步应用(未示出)也驻留于系统702上且被编程为与驻留在主机计算机上的对应的同步应用交互,以保持非易失性存储区768中存储的信息与主机计算机处存储的相应信息同步。应当理解的,其他应用也可被加载到存储器762并在移动计算设备700上运行,包括实现本文所述的本发明的各方面的软件。

系统702具有可被实现为一个或多个电池的电源770。电源770还可以包括外部功率源,诸如对电池进行补充或对电池充电的AC适配器或加电对接托架。

系统702还可以包括执行发送和接收射频通信的功能的无线电装置772。无线电装置772经由通信运营商或服务供应商而促成了系统702与外部世界之间的无线连接。来往无线电装置772的传输是在操作系统764的控制下进行的。换言之,无线电装置772接收的通信可通过操作系统764传播到应用程序765,反之亦然。

可以使用视觉指示符720来提供视觉通知和/或可以使用音频接口774来通过音频变换器725产生可听通知。如图所示,可视指示符720可以是发光二极管(LED)。这些设备可直接耦合到电源770,使得当被激活时,即使为了节省电池功率而可能关闭处理器760和其他部件,它们也保留一段由通知机制规定的时间。LED可被编程为无限地保持,直到用户采取动作指示该设备的通电状态。音频接口774用于向用户提供可听信号并从用户接收可听信号。例如,除了被耦合到音频变换器725之外,音频接口774还可被耦合到麦克风来接收可听输入,例如促成电话谈话。麦克风也可充当音频传感器以促成对通知的控制,如下文将描述的。系统702可进一步包括支持板上相机730的操作的视频接口776,以记录静止图像、视频流等。

实施系统702的移动计算设备700可以具有附加特征或功能。例如,移动计算设备700还可以包括附加数据存储设备(可移动的和/或不可移动的),例如磁盘、光盘或磁带。这种附加存储设备用非易失性存储区768所图示。外部设备端口740允许外部设备连接到移动计算设备700。外部设备可以向移动计算设备700提供附加特征或功能以及/或者允许数据向移动计算设备700传送或从移动计算设备700传送。

由移动计算设备700生成或捕捉的且经系统702存储的数据/信息可以如上所述被本地存储在移动计算设备700上,或者数据可被存储在可由设备经由无线电装置772或经由移动计算设备700和关联于移动计算设备700的单独的计算设备之间的有线连接进行访问的任何数目的存储介质上,该单独的计算设备例如为诸如互联网之类的分布式计算网络中的服务器计算机。如所应当理解的,此类数据/信息可经移动计算设备700、经无线电装置772或经分布式计算网络进行访问。类似地,这些数据/信息可以根据已知的数据/信息传送和存储手段来容易地在计算设备之间进行传送以便存储和使用,这些手段包括电子邮件和协作数据/信息共享系统。

图8是用于实施本发明的各方面的分布式计算系统的简化框图。关联于软件应用所开发、与之交互或编辑的内容可以存储在不同通信信道或其他存储类型中,该软件应用包括实现本文所述发明的各方面。例如,各个文档可以使用目录服务822、web门户824、邮箱服务826、即时消息收发存储828或社交网络站点830进行存储。软件应用可以使用任何这些类型的系统等以便实现如这里所描述的数据利用。服务器820可以将软件应用提供至客户端。作为一个示例,服务器820可以是通过web提供软件应用的web服务器。服务器820可以通过网络815将软件应用通过web提供至客户端。作为示例,客户端计算设备可以被实施为计算设备600并且嵌入在个人计算机818a、平板计算机818b和/或移动计算设备(例如,智能电话)818c中。这些客户端设备中的任意客户端设备都可以从存储816获得内容。

本申请中提供的一个或多个实施例的描述和说明旨在为本领域技术人员提供对于主题的整个范围的彻底和完整的公开,而并非旨在以任何方式限制或约束所要求保护的发明的范围。本申请中提供的方面、实施例、示例和细节被认为是足以传达所有权并且使得本领域技术人员能够实施所要求保护的发明的最佳模式。被视为对本领域技术人员而言已知的结合、资源、操作和动作的描述可能简化或者省略,以避免模糊本申请的主题的少为人知的或者唯一的方面。所要求保护的发明不应被解释为限于本申请中所提供的任何实施例、示例或细节,除非在此明确阐述。无论是总体还是单独地示出和描述,各种特征(结构上的和方法逻辑上的)都旨在被选择性地包括或省略从而产生具有特定的特征集的实施例。另外,所示出或描述的任意或全部功能和动作可以以任意顺序执行或者同时执行。在被提供以本申请的描述和说明的情况下,本领域的技术人员能够想到落在本申请中体现的一般发明构思的较宽泛方面的精神以内而并不背离所要求保护的发明的较宽泛范围的变型、修改和备选。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1