构建会话理解系统的制作方法_3

文档序号：9713533阅读：来源：国知局

的意图对象包括“电影”和“图片”。
[0047]流向操作450，执行位置标签。可以使用一个或多个位置模型。在上面提供的示例中，针对电影位置模型的位置包括:被设置为“最新近”的发行日期位置、被设置为“tomcruise”的电影明星位置、被设置为“电影”的电影类型位置以及被设置为“图片”的项目类型位置。针对社交媒体位置模型的位置包括被设置为“X”的社交媒体位置。其他领域可以包括其他类型的位置。例如，旅行领域可以包括针对起程位置、起程时间、到达时间、到达目的地、旅行方法、约束(例如，最低成本、没有中途停留等)的位置。进餐领域可以包括针对菜肴类型、时间、聚会规模、需要预订和相对位置(例如，以步行距离计、接近运输站等)的位置。开发人员可以向位置模型添加一个或多个位置。例如，针对旅行领域的位置模型可能不包括针对旅行方法的位置。使用所提供的对发言加标签的示例，开发人员可以创建新的位置。
[0048]移到操作460，对CU系统的模型进行更新或定制。根据一个实施例，可以对新模型进行训练。
[0049]过程然后移到结束操作，并且返回到对其他动作的处理。
[0050]图5示出了用于添加或更新关联于会话理解系统的领域的过程。
[0051]在开始操作之后，过程500移到操作510，其中，确定要向CU服务更新或添加的领域。可以更新或创建一个或多个模型。根据一个实施例，更新包括领域模型、意图动作模型、意图对象模型和位置模型的四个模型。根据另一实施例，当领域被添加时，创建两个新模型(意图和位置模型)。
[0052]流向操作520，使用要添加的新领域更新领域模型。为进行阐述，假设理解系统当前支持四个不同领域(电影、音乐、比赛和通用命令)，并且将添加体育领域。取代向理解系统添加两个新模型，现有领域模型被更新为当与体育领域相关的语言位于NL语句内时，检测新的体育领域。
[0053]过渡到操作530，意图动作模型被更新为支持任何还未被包括在意图动作模型中的新意图动作。关联于新领域的许多意图动作可以在被更新之前已被意图动作模型支持。例如，关联于体育领域的“得到”和“找到”意图动作可以已被意图动作模型支持。零个或多个意图动作可以被添加到意图动作模型(例如“日程”……)。
[0054]移到操作540，意图对象模型被更新为支持任何还未被包括在意图对象模型中的新意图对象。关联于新领域的许多意图对象可以在被更新之间已被意图对象模型支持。例如，已被支持的意图对象可以包括“比赛”、“照片”、“人员信息”。零个或多个意图对象可以被添加到意图对象模型(例如“新闻”……)。
[0055]流向操作550，位置模型被更新为支持新领域。根据一个实施例，使用单一位置模型来支持领域。位置可以关联于一个或多个不同的领域、动作和意图。
[0056]过程然后移到结束操作，并且返回到对其他动作的处理。
[0057]图6示出了通过重用来自现有领域的意图(或者意图动作和/或对象)使用现有领域来向会话理解系统添加新领域的示例表。
[0058]为进行阐述，并且不旨在进行限制，使用包括电影领域、音乐领域、比赛领域和通用命令领域的四个不同领域对示例CU服务中的模型进行训练。可以使用更多或更少领域来对模型进行训练。
[0059]在当前的示例中，开发人员想要向CU服务添加新的体育领域。根据一个实施例，开发人员提供示例NL语句。对于每个示例NL语句，工具对意图动作和意图对象进行预测。[°06°]表600包括示例NL语句列、预测的意图动作列、真实意图动作列、预测的意图对象列、真实意图对象列以及预测的意图列。表600示出了四个示例NL语句。
[0061]如参考表600可见的，即使体育领域不是当前CU服务的部分，也可以准确地预测出预测的意图动作。在当前的示例中，预测的意图动作与真实意图动作相同。相比于意图动作，预测的意图对象未被如此准确地预测出，但它们是合理的。
[0062]在表600中的前两个NL语句中，预测出来自比赛领域的“比赛”意图对象标记，因为前两个NL语句的每个都与比赛或竞赛相关。
[0063]第三个NL语句示例与现有领域共享意图动作和意图对象，并且被正确地预测。
[0064]第四个NL语句示例检测出使用“得到人员信息(getperson_info)”对信息进行检索的正确上下文，尽管真实意图是取得“得到新闻(get_neWS)”。
[0065]随着CU服务中所覆盖的领域的数量增长超过当前示例中的四个，预测将因为更好的覆盖范围而变得更准确。从实验结果中发现，自动确定的预测90%以上的时间是准确的。
[0066]图7图示出了使用由开发人员使用所提供的工具创建的功能性与应用进行交互的会话理解系统。
[0067]如所图示的，系统700包括输入管理器710、语言理解构件720、对话引擎730、响应生成器740和应用770。
[0068]应用770是被配置为与CU服务705进行交互并且使用如本文中所描述的工具被开发的应用。应用770可以包括自然用户界面(NUI)或某个其他用于与CU服务705进行交互的界面。例如，可以使用自然语言对话和其他非□述的表述意图的模态(例如，手势、触摸、视线、图像、视频、口语韵律等)的组合与服务705进行交互。如所图示的，CU服务705从应用770接收语音发言，并且被配置为与用户进行对话。
[0069]输入管理器710被配置为从应用770接收输入(用户对话行动)。用户对话行动可以是不同类型的用户输入。例如，用户对话行动可以是语音输入(例如发言)、触摸输入、手势输入、文本输入以及其他类型的输入。
[0070]输入管理器710可以包括诸如自动语音识别器(ASR)、手势识别器、手写识别器等的不同构件。当用户对话行动是语音时，该语音由输入管理器710使用ASR进行识别。输入管理器710输出被递送到语言理解构件720的文本。
[0071]语言理解构件720被配置为接收文本并对文本进行分析。一般说来，语言理解构件720将意义关联到文本的单词。例如，语言理解构件720可以为文本加标签、执行对文本的句法分析等。语言理解构件720通常是将自然语言语句转换为语义表示的基于规则的构件。
[0072]对话引擎730通过确定响应于用户对话行动的机器动作而对对话进行管理。对话引擎730使用对话状态计算构件732计算可能的对话状态。对话管理器734确定一个或多个机器动作。被对话管理器734使用的对话状态信息包括针对对话中的当前回合(turn)的信息以及针对对话中的一个或多个过去回合的信息。对话引擎730将所确定的机器动作提供给响应生成器740。
[0073]响应生成器740确定向用户提供什么类型的响应。例如，响应生成器740可以确定向用户提供口语响应或向用户提供视觉响应。例如，当被确定时，文本到语音(“TTS”)构件可以输出响应作为合成语音。响应生成器740提供对应用770的输入的响应。
[0074]图8图示出了提供用于开发会话理解应用的工具的示例性在线系统。
[0075]如所图示的，系统1000包括服务1010、数据仓库1045、工具1046、触摸屏输入设备1050(例如板设备)、智能电话1030和显示设备1080。
[0076]如所图示的，服务1010是基于云和/或基于企业的服务，其可以被配置为提供诸如本文中所描述的对话服务之类的服务。可以使用不同类型的输入和输出与所述服务进行交互。例如，用户可以使用语音输入、触摸输入、基于硬件的输入等。由服务1010提供的服务中的一个或多个的功能性还可以被配置为基于客户端/服务器的应用。
[0077]如所图示的，服务1010是为任何数量的租户(例如租户1-N)提供资源1015和服务的多租户服务。多租户服务1010是基于云的服务，其向订阅该服务的租户提供资源1015，并且，单独地维护每个租户的数据且保护其不受其他租户数据的破坏。
[0078]如所图示的，系统1000包括触摸屏输入设备1050(例如板设备)以及智能电话1030，其检测触摸输入何时已被接收到(例如，手指触摸或几乎触摸到触摸屏)。可以使用检测用户触摸输入的任何类型的触摸屏。例如，触摸屏可以包括一个或多个检测触摸输入的电容材料层。其他传感器可以除电容材料之外或替代电容材料而被使用。例如，可以使用红外(IR)传感器。根据一个实施例，触摸屏可以被配置为检测与可触摸表面接触或在可触摸表面之上的物体。尽管在本说明书中使用了术语“在……之上”，但应当理解，触摸面板系统的取向是不相关的。术语“在……之上”旨在适用于全部这样的取向。触摸屏可以被配置为确定触摸输入被接收所在的位置(例如，起始点、中间点和终点)。可触摸表面与物体之间的实际接触可以通过任何合适的装备检测到，例如包括通过耦合到触摸面板的振动传感器或麦克风。用于对接触进行检测的传感器的示例的非穷举列表包括基于压力的机制、微机械加速度计、压电设备、电容传感器、电阻传感器、电感传感器、激光振动计和LED振动计。
[0079]根据一个实施例，智能电话1030、触摸屏输入设备1050和设备1080被配置了多模输入和输出，并且每个都包括与服务1010进行交互并且是使用工具1046开发的应用(1031、1051、1081)o
[0080]如所图示的，触摸屏输入设备

完整全部详细技术资料下载

当前第3页1 2 3 4 5