使用分类器将音频话语映射至动作的制作方法_2

文档序号:8385998阅读:来源:国知局
它们全部可以经由系统总线114或其它连接机制互相电连接。
[0026] 用户接口 104可以用来允许计算设备102与人类或非人类用户进行交互,例如从 用户接收输入并且向用户提供输出。用户接口 104可以包括输入组件,诸如麦克风、小键 盘、键盘、触摸敏感或存在敏感面板、计算机鼠标、轨迹球或操纵杆。用户接口 104还可以包 括输出组件,诸如显示屏(其例如可以与存在敏感面板相结合)、〇?1\^:0、1^0、使用01^技 术的显示器、打印机、灯泡和/或目前已知或者日后研发的其它类似设备。用户接口 104还 可以被配置为经由扬声器、扬声器插口、音频输出端口、音频输出设备、耳机和/或目前已 知或者日后研发的其它类似设备生成(多个)可听输出。
[0027]通信接口 106用于允许计算设备102使用模拟或数字调制与其他设备、接入网络 和/或传输网络进行通信。例如,通信接口可以采用有线接口的形式,诸如以太网、令牌环 或USB端口。作为另一个示例,通信接口可以采用无线接口的形式,诸如WiFi、蓝牙?、全 球定位系统(GPS)或者广域无线(例如,WiMX或LTE)接口。
[0028] 传感器108用来收集与计算设备102相关联的传感器数据。传感器108的非限制 性示例包括移动、定位和/或环境传感器,诸如加速计、罗盘、陀螺仪、GPS接收器或外界光 线传感器。其它示例的传感器可以包括音频和/或视频传感器,诸如图像捕捉传感器(例 如,静态或视频相机)。
[0029] 处理器110可以包括一个或多个通用处理器(例如,微处理器)和/或一个或多 个专用处理器(例如,DSP、GPU、FPU、网络处理器或ASIC)。数据存储112可以包括一个或 多个易失性和/或非易失性存储组件,诸如磁性、光学、闪存或有机存储,并且可以整体或 部分与处理器110进行整合。数据存储112可以包括可移动和/或非可移动组件。
[0030] 一般来讲,处理器110能够执行存储在数据存储112中的程序指令(例如,编译或 非编译的程序逻辑和/或机器代码)以实施这里所描述的各种功能。因此,数据存储112 可以包括具有存储于其上的程序指令的非瞬态计算机可读存储介质,当该程序指令被计算 设备102(例如,被包括于其中的组件,诸如处理器110)所执行时,使得计算设备102执行 这里所公开和/或附图中所示出的任意方法、过程、操作或功能。因此,计算设备可以被配 置为执行这里所公开和/或附图中所示出的任意方法、过程、操作或功能。
[0031] III?说明性方法
[0032] 如以上所讨论的,该方法可以被描述为具有两个功能组成部分,S卩训练组成部分 和运行时间组成部分。在训练组成部分中,计算设备102以基于串的特征矢量(例如,串特 征矢量)和/或基于传感器的特征矢量(传感器特征矢量)为基础连同所指示的动作一起 生成分类器。在运行时间组成部分中,计算设备102选择训练组成部分中所生成的一个或 多个分类器,并且发起相对应的动作。
[0033] A.训练组成部分
[0034] 现在参考图2,示出了说明性方法的训练组成部分的流程图。在框202,计算设备 102接收话语。例如,计算设备102可以经由包括在计算设备中或者与之相耦合的麦克风接 收来自用户的话语。在框204,计算设备102诸如通过使用ASR模块而基于该话语确定文本 串。
[0035] 1.确定串特征矢量
[0036] 在框206,计算设备102基于该文本串确定串特征矢量。串特征矢量包括一个或多 个串特征。这些串特征可以与通常结合ASR模块所使用并且直接从话语所得出的话语特征 (例如,梅尔频率倒频谱系数)有所区别。另一方面,串特征从文本串(例如,ASR模块的输 出)所得出。因此,串特征可以被认为是"串级别"或"语句级别"的特征并且与话语特征 相比在概念上提供了更高级别的信息。
[0037] 现在将对串特征的若干非限制性示例进行讨论。在本公开中讨论串特征时,使用 "术语"来指代单个单词(例如,"navigate"或"John")、多个连续单词(例如,"directions to"或"directmeto"),或者逻辑上分组的字符集合(例如,"www.websitel23.com")。
[0038] 串特征的一个示例可以是"术语标识",其指示给定术语是否、多频繁地被包含于 相对应的文本串中和/或在其中的位置。例如,考虑文本串"directmetoagasstation" 以及特定术语标识串特征,也就是术语"directmeto"。在该示例中,串特征可以指示术语 "directmeto"在该串中出现了一次,并且该术语的位置可以被定义为该文本串的前三个 单词。
[0039] 作为另一个示例,串特征可以是话音部分标识,其指示具有给定话音部分的单 词是否、多频繁地包含于相对应的文本串中和/或在其中的位置。例如,再次考虑文本 串"directmetoagasstation"以及特定的话音部分标识串特征,也就是话音部分 "名词"。在该示例中,该串特征可以指示名词在该串中出现了三次(单词"me"、"gaS"和 "station"),以及在该文本串内的相应单词位置(即,第二个、第五个和第六个单词)。
[0040] 作为另一个示例,串特征可以是词汇类型标识,其指示具有给定词汇类型(例如, 数字、字母、字母-数字混合、URL、数据、时间等)的单词是否、多频繁地包含于相对应的文 本串中和/或在其中的位置。例如,再次考虑文本串"directmetoagasstation"以及 特定的词汇类型标识串特征,也就是词汇类型"字母"。在该示例中,该串特征可以指示具有 "字母"词汇类型的单词出现了六次(该文本串中的每个单词出现一次)并且在该文本串内 的相应位置出现。作为另一个示例,考虑文本串"gotowebsitel23.com"和特定词汇类型 标识串特征,也就是词汇类型"URL"。在该示例中,该串特征可以指示具有"URL"词汇类型 的单词出现了一次(对于"websitel23.com"而言)以及作为该文本串的第三个单词的位 置。
[0041] 以上所描述的示例串特征是非限制性的。实际上,也可以使用诸如基于文本串的 语法特性的那些串特征。另外,在一些示例中,文本串可以被发送至翻译服务模块,翻译服 务模块将一种语言的文本串翻译为另一种语言的文本串。所翻译的文本串随后可以被用作 确定串特征矢量的基础。例如,非英语文本串可以被转换为英语文本串,并且该非英语文本 串的串特征矢量可以基于该英语文本串来确定。
[0042] 2.确定传感器特征矢量
[0043] 计算设备102除了确定文本串的串特征矢量之外,在一个实施例中,该计算设备 还基于计算设备102所接收的传感器数据确定传感器特征矢量。再次返回图2,在框208, 计算设备102例如经由传感器108接收传感器数据。在框210,计算设备102基于该传感器 数据确定传感器特征矢量。与串特征矢量类似,传感器特征矢量可以包含一个或多个传感 器特征。
[0044] 现在将结合所选择类型的传感器108对传感器特征的非限制性示例进行讨论。作 为一个示例,计算设备102基于从加速计或GPS接收器所接收的传感器数据确定传感器特 征,在该示例中,传感器特征可以指示计算设备102的行进速度。计算设备102可以使用目 前已知或者日后研发的技术来确定这样的行进速度。
[0045] 作为另一个示例,计算设备102基于从图像捕捉传感器所接收的传感器数据确定 传感器特征。在该示例中,传感器特征可以指示计算设备102的用户标识(例如,来自可能 用户标识集合之一)。计算设备102可以使用目前已知或者日后研发的面部识别技术来确 定这样的用户标识。
[0046] 3?生成分类器
[0047] -旦计算设备102已经如以上所描述的确定了矢量特征矢量和/或传感器特征矢 量,就可以执行附加功能来针对所识别的动作生成适当分类器。再次返回图2,在框212,计 算设备102确定计算设备可能发起的所识别动作。
[0048] 在一个实施例中,框212的功能可以包括计算设备102接收对来自动作列表中的 所识别动作的用户选择(例如,在用户想要明确选择所识别动作以对分类器进行训练的情 况下)。在另一个实施例中,该功能可以包括计算设备102响应于其他用户输入而确定所识 别的动作(例如,在用户以传统方式使用计算设备,并且所识别的动作由用户输入所触发 的情况下)。
[0049] 在框214,计算设备102生成具有至少两种特性的分类器。第一种特性是分类器具 有对应于串特征矢量中的至少一个串特征的串特征标准。第二种特性是该分类器对应于所 识别的动作。
[0050] 由于分类器被设计为具有对应于串特征的串特征标准,所
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1