提供话音接口的方法和系统的制作方法

文档序号:8382012阅读:283来源:国知局
提供话音接口的方法和系统的制作方法
【专利说明】
[0001] 本申请是申请日为2009年9月10日、申请号为200980153496. 3、发明名称为"提 供话音接口的方法和系统"的发明专利申请的分案申请。
技术领域
[0002] 本发明的示例性实施方式通常涉及话音查询。更具体地,本发明的示例性实施方 式涉及基于话音的用户接口。
【背景技术】
[0003] 持续复杂的特征已经实现在移动设备上,例如移动电话。当前的移动设备通过web接口和图形用户接口显示来提供对各种信息的访问,但用户通常限于使用小键盘来导航通 过菜单层级以便选择期望的应用。
[0004] 除了图形用户接口以外,还存在多种支持话音的用户接口。短消息服务(SMS) 口 述、电子邮件口述、姓名拨号应用、对话驱动的日历应用以及音乐播放器可以交互式地指导 用户通过任务。常规的口语对话系统以固定的顺序询问用户一系列固定的问题,以缩小可 能回答的范围。例如,为了找到餐馆,系统例如在提供任何的回答前,可以提示用户来指定 针对菜肴、街坊和价格范围等的偏好。这种类型的交互不能满足不具有良好定义的偏好或 者可能期望探查可能性的空间的用户对信息寻求的需求。
[0005] 也已经开发了常规的算法,将对话建模为马尔可夫判定过程并且经由强化学习来 优化模型。然而,这些算法依赖于复杂和成本高的训练数据,这些训练数据从大量的人机交 互或此类对话的仿真导出。

【发明内容】

[0006] 下文提供对本公开的一些示例性实施方式的简化总结,以便提供对本发明的一些 示例性实施方式的基本理解。该总结并不是扩展概览,并且不旨在标识关键或重要的元素 或描述权利要求的范围。下面的总结仅仅以简化的形式提出一些概念和示例性的实施方 式,作为下面提供的更为详细描述的序言。
[0007] 本公开的一些示例性实施方式针对于用于提供分类器话音接口的设备、方法和系 统。更具体地,根据本公开的一些示例性实施方式的方法、设备和系统提供接收查询,解析 查询以识别属性,根据属性处理查询以选择多个域特定话音接口的第一域特定话音接口, 其中每个域特定话音接口包括专用信息以处理不同类型的查询,并且指示第一域特定话音 接口处理该查询。
[0008] 本公开的附加示例性实施方式针对于用于提供域特定话音接口的设备、方法和系 统。更具体地,根据本公开的一些示例性实施方式的方法、设备和系统提供接收属性,基于 属性应用评分功能来生成针对多个查询响应模板的每个的效用得分,基于效用得分选择多 个查询响应模板的至少一个,并且可听地输出从至少一个查询响应模板生成的查询响应。
【附图说明】
[0009] 通过参考下面的描述并考虑附图,将获得本发明及其优势的更为全面的理解,其 中类似的参考编号指示类似的特征,并且其中:
[0010] 图1图示出根据本公开的示例性实施方式的用户终端;
[0011] 图2图示出根据本公开的示例性实施方式的一系列分层的软件应用的架构;
[0012] 图3图示出根据本公开的示例性实施方式的知识库;
[0013] 图4图示出根据本公开的示例性实施方式的域;
[0014] 图5图示出根据本公开的示例性实施方式的分类器话音接口和域特定话音接口;
[0015] 图6图示出根据本公开的示例性实施方式的用于收集和对元数据编索引以生成 知识库的方法;
[0016] 图7图示出根据本公开的示例性实施方式的用于处理用户查询以选择用于处理 查询的域特定话音接口的方法;
[0017] 图8图示出根据本公开的示例性实施方式的在识别的域特定话音接口处处理查 询的方法。
【具体实施方式】
[0018] 在各种实施方式的下面描述中,将对形成其一部分的附图做出参考,在附图中通 过说明示出其中本发明的一个或多个示例性实施方式可以被实践的各种实施方式。将理解 可以使用其他的实施方式并且在不偏离本发明的范围下可以做出结构和功能上的改变。
[0019] 图1图示出根据本公开的示例性实施方式的用户终端102。用户终端102可以可 听地呈现话音接口以响应来自用户的话音命令。用户可以与话音接口进行对话以使得用户 终端102执行任务。例如,话音接口可以接收来自用户的查询,可以处理查询以识别对应于 查询的一个或多个适当的响应,并且可以可听地呈现一个或多个响应的动态集合或可以执 行动作。因此,替代于以固定的顺序可听地呈现固定的一系列问题,话音接口可以处理查询 以识别对应于查询的动态查询响应,以便可听地呈现给用户。
[0020] 在示例性实施方式中,用户终端102可以是移动通信设备,移动电话,或移动计算 机,如所示出的,或也可以是数字视频记录器(DVR)、机顶盒(STB)、服务器计算机、计算机、 硬盘、因特网浏览器设备、游戏设备、音频/视频播放器、数字照相机/摄像机、电视机、无线 广播接收机、定位设备、有线或无线通信设备、和/或其任意的组合。用户终端102可以是 独立的设备、例如如图1中所绘出的,或者也可以集成进另一设备中。例如,用户终端102 也可以包括在汽车中以提供话音接口,从而与正在开车的用户进行交互。用户终端102也 可以例如集成进汽车的仪表板中,或者经由有线的或无线的连接通信地耦合到汽车。
[0021] 在所绘出的例子中,用户终端102可以包括显示器104、处理器106、收发器108、用 户接口 110、音频收发器112、存储器114和元数据数据库116。用户接口 110可以包括小键 盘、触摸屏、话音接口、四箭头按键、游戏杆、数据手套、鼠标、轨迹球、触摸屏、或其他合适的 设备,用于接收来自用户的输入以控制用户终端102。
[0022] 收发器108可以允许用户终端102通过有线信道或无线信道进行通信。音频收发 器112可以包括扬声器以用于向用户输出音频并且包括麦克风以用于接收来自用户的音 频输入。
[0023] 由用户终端102内的其他组件和处理器106使用的计算机可执行指令和数据可以 存储在存储器114中,以便执行这里所述描述的任意方法步骤和功能。存储器114可以以 只读存储器模块或随机存取存储器模块的任意组合来实现,可选地包括易失性和非易失性 存储器二者。另外,用户终端102的一些或所有的计算机可执行指令可以体现在硬件或固 件(未示出)中。例如,用户终端102可以包括一个或多个模块,这些模块包括硬件、固件、 由处理器106执行的软件和/或其任意的组合。
[0024] 在一个示例性实施方式中,处理器106可以执行一系列分层的软件应用以提供用 户终端102处的话音接口。一系列分层的应用可以包括分类器话音接口应用和一个或多个 域特定话音接口应用。处理器106可以执行分类器话音接口应用以提供分类器话音接口并 且可以执行一个或多个域特定话音接口应用以提供相应的域特定话音接口。一系列分层的 软件应用可以以下面描述的方式来处理在用户终端102的音频收发器112处接收到的查 询。
[0025] 图2示出了根据本公开的示例性实施方式的一系列分层的软件应用的架构。初始 地,分类器话音接口 202可以接收来自用户的语音输入(例如,查询)。分类器话音接口 202 可以提供最高级话音接口,该话音接口用于选择多个域特定话音接口 204之一来处理该查 询。域特定话音接口 204的每个可以具有专用的知识来对特定类型的查询执行详细分析并 且实施与用户的域内对话,而分类器话音接口 202可以提供不太详细的分析,并且将其对 查询的处理限于确定哪个域特定话音接口 204被调用以执行查询的详细分析。
[0026] 为了选择域特定话音接口 204,分类器话音接口 202可以解析查询以识别查询的 属性。属性可以是关键字或多组关键字,这些关键字可以由分类器话音接口 202解译成指 令。当将查询分配给特定的域特定话音接口 204时,分类器话音接口 202也可以考虑包括 在上下文注册表208中的上下文信息以及包括在查询中的属性的属性权重210。上下文信 息可以表示向查询提供上下文的信息。上下文信息可以包括当前的时间和日期、用户偏好、 位置或如下进一步描述的其他信息。属性权重210可以是描述属性的重要性的信息。属性 权重210可以基于用户偏好或其他信息,如下将进一步描述。在一个示例性实施方式中,分 类器话音接口 202可以与元数据数据库116交互以获得上下文信息和属性权重。分类器话 音接口 202接着可以选择域特定话音接口 204之一来进一步处理查询。
[0027] -旦选择,分类器话音接口 202可以向选择的域特定话音接口 204传递指令206。 指令可以包括选择的域特定话音接口 204的标识符、属性和查询。在绘出的实施方式中,分 类器话音接口 204可以向域特定话音接口 204_1传递指令206。图1中的虚线箭头表示当 被选择时,分类器话音接口 202也可以向域特定话音接口 204_2到204_N传递指令。
[0028] 选择的域特定话音接口 204可以接收和处理指令。选择的域特定话音接口 204以 及其他的域特定话音接口可以与相应的一组域关联。该组域可以是对于相应的域特定话音 接口 204来说唯一的专用词汇或语法的信息。相应的域特定话音接口 204可以使用域信息 来处理用户的查询。域可以与一组一个或多个查询响应模板关联。查询响应模板可以与属 性关联,并且域特定话音接口 204可以处理在指令206中接收的属性,以便选择适当的查询 响应模板来对查询进行响应。下面将进一步详细描述查询响应模板的选择。
[0029] 查询响应模板可以包括针对查询响应的模板,响应于用户的
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1