混合性能缩放或语音识别的制作方法_2

文档序号:9476313阅读:来源:国知局
或可以直接集成到客户端装置平台105中。借助示例而不是为了限制,传感器146可以是麦克风、摄像机、红外摄像机、太赫兹传感器或任何其他感测装置。客户端装置平台可以具有低功率处理器147和低功率存储器148。低功率处理器147和低功率存储器可以在当客户端装置平台105处于低功率状态诸如休眠状态时运行。低功率处理器147可以是只具有极少处理功率的单核处理器,以便在客户端装置平台处于低功率状态时将功耗减到最小。借助示例,低功率处理器147可以是ARM处理器。另选地,低功率处理器147可以是多核CPU 131中的单核或多核。另外,低功率存储器148可以足够小,以便将功耗减到最小。客户端装置平台105可以包括网络接口 139,该网络接口经配置允许使用W1-F1、以太网端口或其他通信方法。
[0023]网络接口 139可以并入合适的硬件、软件、固件或这些中的两个或多个的某些组合以便于经由电子通信网络160通信。网络接口 139可以经配置通过局域网和广域网诸如互联网实施有线或无线通信。客户端装置平台105可以通过网络160经由一个或多个数据包发送和接收数据和/或请求。
[0024]前述部件可经由内部系统总线150彼此交换信号。客户端装置平台105可以是通用计算机,当其运行实施如本文所述的本发明的实施例的代码时变成专用计算机。借助示例,而不是为了限制,客户端装置平台105可以是游戏控制台,诸如索尼计算机娱乐的PlayStat1n 3游戏机、家庭娱乐系统、电视机或音频系统或任何其他类似装置。
[0025]基于云的服务器106可以包括中央处理器单元(CPU) 131’。借助示例,CPU 131’可以包括可根据例如双核、四核、多核单元处理器结构配置的一个或多个处理器。基于云的服务器106还可以包括存储器132’(例如,RAM、DRAM、ROM等)。CPU 131’可以执行处理-控制程序133’,该处理-控制程序的部分可以被存储在存储器132’中。基于云的服务器106可以包括网络接口 139’,该网络接口经配置允许使用W1-F1、以太网端口或其他通信方法。网络接口 139’可以并入合适的硬件、软件、固件或这些中的两个或多个的某些组合,以便于经由电子通信网络160来通信。网络接口 139’可以经配置通过局域网和广域网诸如互联网实施有线或无线通信。基于云的服务器106可以通过网络160经由一个或多个数据包发送和接收数据和/或请求。借助示例,而不是为了限制,基于云的服务器可以是从亚马逊网络服务平台商购获得的亚马逊弹性计算云。
[0026]图2是根据本公开的一个方面描述用于实施由非触觉输入信号来启动的一个或多个操作的过程的流程图,其中非触觉输入信号可由处于低功率状态的客户端装置平台105检测出。最初,在260,客户端装置平台105处于低功率状态。当在低功率状态时,客户端装置平台105可以向部件诸如但不限于低功率处理器147、低功率存储器148、网络接口139、I/O电路141、控制器145和/或一个或多个传感器146供电。因为I/O 141通常位于南桥上,设计客户端装置平台105使得尽可能多的前述部件也位于南桥上是合乎需要的。借助示例,低功率状态可以是睡眠状态或待机状态,诸如在“高级配置和电源接口规范”中描述的S3睡眠状态。
[0027]当在低功率状态时,客户端装置平台105可以用一个或多个传感器146连续记录非触觉输入并将其在可用的存储器诸如在块261中所示的低功率存储器148中。借助示例而不是为了限制,一个或多个传感器146可以包括麦克风、视频摄像机、红外摄像机、太赫兹传感器或它们的任何组合。由一个或多个传感器146记录的非触觉输入的类型取决于所使用的传感器146的类型。借助示例,如果传感器146是麦克风,那么非触觉输入可以是环境声音的记录;如果传感器146是视频摄像机,那么非触觉输入可以是接近客户端装置平台105的空间的视频记录。如果传感器146是红外摄像机,那么非触觉输入可以是所记录的接近客户端装置平台105的空间的红外信息;或如果传感器146是太赫兹传感器,那么非触觉输入可以是所记录的接近客户端装置平台105的空间的太赫兹信息。需要指出,该输入可以是包括上述示例的组合的不同类型输入的组合。
[0028]在某些实施中,传感器146也可以直接连接到低功率CPU 147,因为在低功率模式中,低功率CPU执行计算并可以控制网络访问。
[0029]为了将用于存储非触觉输入所需的存储器量减到最小,非触觉输入可以存储在低功率存储器148上的环形缓冲器中,其具有匹配于用户生成对应于将启动预期操作的基准信号的非触觉输入可能所花费的最长预期时间的持续时间。可以有一个或多个存储在低功率存储器148中的基准信号。基准信号中的每一个可以与一个或多个操作相关联。借助示例,而不是为了限制,基准信号可以包含短语“装置接通”,这相应对应于客户端装置平台105从低功率状态唤醒和启动全功率状态的操作。
[0030]低功率CPU 147上的软件可以处理传感器数据并以较小的紧凑存储器方式存储,该紧凑存储器足够主CPU 133或网络CPU 131进一步处理的将来用途。基准信号本身没有必要存储在低功率存储器中。
[0031]用于语音识别的基准输入可以以若干方式进行。纯文本是一种可能的方式,但也许不是最可靠的,因为它需要被机器处理并转化成语音表述。对于常用词,英文文本到语音的转换是可以接受的,但非字典中的词语可能很差。语音表述可以以计算机可读语音脚本的形式直接使用。计算机可读语音脚本的示例包括音标字母语音评价方法(SAMPA)和扩展音标字母语音评价方法(X-SAMPA)。SAMPA和X-SAMPA使用基于国际音标(IPA)的7位可打印ASCII字符。另外,训练使用整个短语而不是将短语分裂为音标的识别器也是可能的。在此情况下,训练可以用大量不同样本的说话者者而不是单一的音频记录来进行。训练的结果是一种分类器,诸如隐马尔科夫模型或在某些情况下是神经网络。底线,在语音识别领域,有许多方式来完成这种训练。
[0032]当确定非触觉输入足以类似于基准信号时,那么可以生成促使客户端装置平台105执行对应于基准信号的操作的命令信号。另外,虽然牺牲所记录的非触觉输入的保真度可减少所需的存储器量,但应该指出,保真度应保持足够高以允许在随后的处理步骤期间对非触觉输入的高精确度的分析。一旦已记录非触觉输入,该非触觉输入随后利用一种或多种分析方法来分析,以便确定它们是否匹配于存储于在低功率状态下的客户端装置平台105可访问的存储器中的一个或多个基准输入。
[0033]低功率处理器147可以对已存储在低功率存储器148中的非触觉输入实施第一分析,以便生成如在块262所示的第一置信度得分。第一分析可以通过使用用来产生第一置信度得分的一种或多种算法来实施。第一置信度得分对应于所记录的非触觉输入与存储在低功率存储器148中的一个或多个基准输入之间的相似度的程度。借助示例,而不是为了限制,第一置信度得分可以在0.0与1.0之间的范围。0.0的得分指示所记录的触觉输入与基准信号中的一个相同有几乎百分之零的机会。1.0的得分指示触觉输入与基准信号中的一个相同有几乎百分之百的机会。用于第一分析的算法可以取决于已记录的非触觉输入的类型。借助示例,如果所记录的非触觉输入是音频数据,那么该算法可以利用话音活动检测(VAD)算法或简单自动语音识别(ASR)算法;另选地,如果所记录的非触觉输入是视频数据,那么该算法可以利用对象识别或手势识别算法。借助示例,而不是为了限制,非常简单的置信度量度可以在着手更复杂的对象识别之前,通过执行运动检测例如通过分析运动检测传感器的输出来实施。
[0034]一旦已计算出第一置信度得分,过程200继续到判定块263,在判定块263,处理器将确定第一置信度得分是否高于第一阈值。第一阈值应设定的足够高,使得最小数量的误报被传送到下一个处理步骤。如果第一置信度得分低于第一阈值水平,则过程200可以继续记录非触觉输入,如块261所述。在第一置信度得分等于或高于第一阈值水平的实例中,则过程200可以继续块264,在块264,低功率处理器147启动中间功
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1