混合性能缩放或语音识别的制作方法_3

文档序号：9476313阅读：来源：国知局

率状态。
[0035]根据本公开的一个方面，传感器146可以是麦克风，并且第一置信度得分可以利用VAD算法生成。VAD算法可用于确定所记录的非触觉输入中人声音的存在或不存在。使用VAD算法可适合在块262生成第一置信度得分，因为如果非触觉输入不包含人声音，则某人正肯定试图启动客户端装置平台105上的操作是不大可能的。因此，VAD算法的这种用途是合乎需要的，因为其阻止对已知没有人声音存在的音频数据进行过度分析。另外，VAD算法需要相对低数量的CPU周期和相对低采样的记录存储器缓冲区。而且，仅使用VAD算法减少存储第一基准信号所需的数据存储空间，因为语音的存在或不存在均是所需的，而不是正在说的话。因此，运行VAD算法将不会明显增加处于低功率状态的客户端装置平台105的负担。而且，VAD算法可以实施为并入低功率处理器147中或除了低功率处理器以外另外设置的定制ASIC。如果所记录的非触觉输入无法具有人声音存在，那么可以分配第一置信度得分0.0，因此，低于第一置信度水平。因此，过程200将重返到块261，并继续记录非触觉输入。如果所记录的非触觉输入具有人声音存在，则分配第一置信度得分1.0，并因此高于第一阈值水平。过程200可以随后继续到块264，在块264，低功率处理器指示客户端装置平台105启动中间功率状态并因此继续进行。
[0036]然而，根据本公开的另外方面，第一置信度得分可以通过使用一个或多个另外的算法来细化。这可以减少被允许继续进行到块264的误报的数量。借助示例，而不是为了限制，客户端装置平台105也可以除了 VAD算法以外利用简单的ASR算法，以便检测如果已经检测出的人声音在产生类似于第一基准信号中的一个或多个的词语。另选地，可以使用ASR算法以取代VAD算法。
[0037]简单的ASR算法，诸如利用隐马尔科夫模型(HMM)和不利用音调或听觉注意提示的ASR算法仅要求最小数量的CPU周期并且可以用低功率处理器147执行。因为ASR算法能够确定已说过的词语，所以能够比较记录的非触觉输入中说过的词语和基准输入中的词语。因此，非触觉输入的第一置信度得分可以分配在0.0 - 1.0之间的范围，以取代局限于0.0和1.0的两个极限值。
[0038]在替代实施中，特定词语的纯关键词识别算法可以与或不与说话者识别或神经网络或机器学习技术组合使用或可以只使用运动检测。
[0039]需要指出，VAD本身不需要是二进制并且可以具有在0.0与1.0之间的连续范围内的某些置信度水平。某些噪音，诸如类似于人声音的乐器会导致VAD得到中间的置信度水平。仍然可以有经应用以进行二进制选择(声音或没有声音)的阈值，但是VAD本身可以产生更连续的答案。
[0040]一旦已分配第一置信度得分，过程200可以随后继续到块263，在块263，低功率处理器确定第一置信度得分高于还是低于第一阈值水平并因此继续进行。
[0041]根据本公开的另外方面，传感器146可以是视频摄像机，并且生成第一置信度得分可以在块262利用检测人是否在客户端装置平台附近存在的对象识别算法来进行。如果视频数据中不存在人的图像，那么非触觉输入可以分配0.0的第一置信度得分，并且如果存在人，那么第一置信度得分可以是1.0。需要指出，对象检测算法本身不需要是二进制的，并且可以具有在0.0与1.0之间的连续范围内的某些置信度水平。某些噪音，诸如类似于人声音的乐器会导致VAD得到中间的置信度水平。仍然可以有经应用以进行二进制选择(声音或没有声音)的阈值，但是VAD本身可以产生更连续的答案。另外，第一置信度得分可以通过比较视频数据与描述物理运动的基准输入来细化。借助示例，基准输入可以是由人扮演的独特手势，诸如但不限于人在自己面前挥动他们的手。手势识别算法可以随后用于确定在面前运动的手的期望动作是否被视频摄像机记录。所记录的非触觉输入与基准信号之间的相似度可以随后用于生成不局限于两个极限值0.0和1.0的第一置信度得分。因此，超出过程的块263继续前进的误报会更少。
[0042]根据本公开的另一附加方面，可以使用两个或多个传感器146，以便记录不同类型的非触觉输入，该非触觉输入可以与两个单独基准信号比较以便生成第一置信度得分。借助示例，而不是为了限制，第一传感器146可以是麦克风，以及第二传感器146可以是视频摄像机。音频输入可以记录为第一非触觉输入并且可以随后用VAD算法、关键词识别算法、简单ASR算法或这些算法中的两个或多个的某些组合来进行分析。音频分析可以产生第一音频置信度得分。另外，视频数据可以记录为第二非触觉输入并可以随后用对象识别算法、手势识别算法或两者来进行分析。视频分析可以产生第一视频置信度得分。第一置信度得分可以随后是第一音频置信度得分和第一视频置信度得分的组合。借助示例，两个得分可以被平均，每个得分给予相等的权重，或一个得分权重比另一个得分权重更重。两个得分的组合可以提供用户是否肯定想要启动客户端装置平台105的期望操作的更值得信赖的确定。例如，非触觉音频输入可以具有足以继续进行到下一处理步骤的高置信度得分，但是非触觉视频数据可以表明没有人接近客户端装置平台105。因此，非触觉音频输入可以通过源诸如收音机或电视来产生，并因此可以是误报。借助示例，而不是为了限制，类似的组合第一置信度得分可以使用由传感器诸如但不限于红外传感器、太赫兹传感器、视频摄像机或麦克风所记录的两个或多个第一非触觉输入来计算。
[0043]根据本公开的另外方面，如果第一置信度得分低于第一阈值水平，那么所记录的非触觉输入不是启动客户端装置平台上的操作的肯定愿望的确定可以通过使用质询性的过程来双重检查。需要指出，太多项会在第一置信度得分方面失效。例如，在音频的情况下，可以合理预期几乎所有的噪音会失效。考虑到这点，质询响应可以被选通在更高的置信度得分或阈值水平。如果第一置信度量度继续在0.0与1.0之间，那么该范围可以划分为拒绝、质询和接受。例如，0.0-0.5将被拒绝，0.5-0.75可能需要质询响应，而0.75-1.0将总是被下一级接受。
[0044]质询过程可以用客户端装置平台105来实施，其中客户端装置平台105经配置当非触觉输入已被记录时，输出人可检测到的信号。用户可以随后感知客户端装置平台105输出的信号并提供非触觉响应输入以确认他们确实想启动客户端装置平台105上的操作。借助示例，而不是为了限制，人可检测到的输出信号可以是位于客户端装置平台105上的闪烁发光二极管(LED)，或客户端装置平台105发出的可听见声音诸如蜂鸣。非触觉响应输入可以重复最初的非触觉输入，或它可以是确认短语或手势，诸如说“是”或上下摇头以指示“是”，或短语和手势的组合。如果客户端装置平台收到有效的响应输入，那么它可以无视第一置信度得分并继续进行到过程200的块264。使用质询系统可以提高系统的准确度。在处于低功率状态时，可能没有足够的CPU周期提供所记录的非触觉输入足以基本类似于高于第一阈值被分配给第一置信度得分的基准输入的置信度。然而，通过质询过程，用户期望操作的置信度可以在没有添加额外CPU周期的情况下增加。用户的肯定响应向客户端装置平台105指示他们想要执行某些操作。因此，所记录的非触觉输入可以通过或在中间功率状态进一步分析以确定哪个特定操作是想要的。
[0045]借助示例，在块264启动的中间功率状态可以包括指示客户端装置平台105向CPU131的一部分供电并允许存取更大的存储器，诸如存储器132。CPU 131的一部分可以通过激活CPU 131中的多个处理核中的一个或多个来供电。客户端装置平台的其他部分诸如显示器137或GPU可以保持未供电以便节能。激活CPU 131的一部分可以提供用于所记录的非触觉输入的更透彻分析的另外CPU周期。
[0046]在已启动中间功率状态之后，过程200继续进行到块265，在块265，生成第二置信度得分。最初只是语音的一个示例在低功率模式下处理。在中间功率状态之后，视频和音频数据可以在CPU 131中处理或发送到CPU 131’用于和更多的输入数据进一步处理。置信度得分可以基于所有数据来计算。第二置信度得分可以对应于所记

完整全部详细技术资料下载

当前第3页1 2 3 4 5