控制计算装置的语音辨识过程的制作方法

文档序号：14721271发布日期：2018-06-17 15:24阅读：176来源：国知局

研究表明，接下来的四年，可用于消费者的可穿戴计算装置的数目将增加五倍。可穿戴计算装置的用户输入将是关于某些可穿戴计算装置的成功的关键确定因素。用于可穿戴计算装置的一个此类用户输入方法包含话音辨识。话音辨识算法将用户的语音解密以确定用户想要的命令。

技术实现要素：

各种实施例的方法及装置使得从麦克风接收音频信号及从肌肉移动检测器接收头部肌肉活动信号的计算装置能够仅在用户说话时激活语音辨识过程以便在用户不说话时节约电力及处理资源。实施例方法及装置可包含：从麦克风接收音频信号；与从麦克风接收音频信号同时地从经配置且经定位以测量计算装置的用户的头部肌肉活动的肌肉移动检测器接收肌肉活动信号；确定所述音频信号是否满足指示计算装置的用户说话的音频特性准则；确定头部肌肉活动信号是否满足指示计算装置的用户说话的肌肉移动准则。实施例方法及装置还可包含响应于确定音频信号满足指示计算装置的用户说话的音频特性准则且头部肌肉活动信号满足指示计算装置的用户说话的肌肉移动准则两者而通过话音辨识算法处理所述音频信号，且当音频信号不满足指示计算装置的用户说话的音频特性准则或头部肌肉活动信号不满足指示计算装置的用户说话的肌肉移动准则时不通过话音辨识算法处理所述音频信号。

在一些实施例方法及装置中，确定音频信号是否满足指示计算装置的用户说话的音频特性准则可包含确定音频信号的均方根(RMS)水平是否超过RMS阈值水平。

在一些实施例方法及装置中，确定音频信号是否满足指示计算装置的用户说话的音频特性准则可包含：将所接收的音频信号与语音的特性音调模式进行比较；确定所接收的音频信号是否与语音的特性音调模式匹配到超过音调模式匹配阈值的程度；及响应于确定所接收的音频信号与语音的特性音调模式匹配到超过音调模式匹配阈值的程度，确定所述音频信号满足指示计算装置的用户说话的音频特性准则。

在一些实施例方法及装置中，确定头部肌肉活动信号是否满足指示计算装置的用户说话的肌肉移动准则可包含确定所接收的头部肌肉活动信号是否超过指示语音的肌肉移动信号量值阈值。

在一些实施例方法及装置中，确定头部肌肉活动信号是否满足指示计算装置的用户说话的肌肉移动准则可包含：将所接收的头部肌肉活动信号与指示计算装置的用户说话的肌肉移动信号模式进行比较；确定所接收的头部肌肉活动信号是否与指示计算装置的用户说话的特性头部肌肉活动信号模式匹配到超过肌肉活动模式匹配阈值的程度；及响应于确定所接收的头部肌肉活动信号与指示计算装置的用户说话的特性头部肌肉活动信号模式匹配到超过肌肉活动模式匹配阈值的程度，确定所接收的头部肌肉活动信号满足指示计算装置的用户说话的肌肉移动准则。各种实施例方法及装置的肌肉移动信号模式可包含通过用户进行训练而习得且存储在计算装置的存储器中的头部肌肉活动信号。

附图说明

呈现附图以协助描述本发明的实施例，且提供所述图式仅用于说明本发明的实施例而非对其加以限制。

图1是适合与各种实施例一起使用的可穿戴计算装置的透视图。

图2是用户穿戴图1的计算装置的图解说明。

图3为适合与各种实施例一起使用的可穿戴计算装置的示意性功能框图。

图4是从麦克风及EMG传感器接收的音频及EMG数据的图表。

图5为说明用于确定是否处理用于话音辨识的音频信号的实施例方法的过程流程图。

图6是说明用于确定所接收的音频信号是否满足音频特性准则的实施例方法的过程流程图。

图7是说明用于确定所接收的头部肌肉活动是否满足肌肉移动准则的实施例方法的过程流程图。

具体实施方式

将参看随附图式详细描述各种实施例只要可能，在图式中相同的参考标号将始终用于指代相同或相似的部件出于说明性目的而参考特定实例和实施方案，且并不希望限制本发明或权利要求书的范围可在不脱离本发明范围的情况下设计替代性实施例另外，将不会详细描述本发明的众所周知的元件或将省略所述元件，以免混淆本发明的相关细节。

词语“示范性”在本文中用于意指“充当实例、例子或说明”本文中描述为“示范性”的任何实施方案未必应解释为比其它实施方案优选或有利。另外，词“第一”和“第二”或类似措辞是用于清楚起见以区分各种所描述的元件且不希望将权利要求书限于元件的特定次序或阶层。

话音辨识是可消耗大量电力的计算密集过程。在用户不说话时对音频输入(例如，周围环境中的音乐)运行话音辨识处理例程会浪费电池供电的装置中的能量，其可限制在必须对装置再充电之前所述装置可操作的时间。因此，一直对所有所接收的音频输入(包含背景噪声)处理话音辨识例程可不利地影响用户对可穿戴计算装置的体验。

各种实施例涉及节省可穿戴计算装置中的电力，其中仅在所接收的音频信号满足音频特性准则且所接收的头部肌肉活动信号满足指示用户说话的肌肉移动准则时才执行通过话音辨识算法对音频信号及/或头部肌肉活动信号(例如，EMG信号)的处理。各种实施例使不必要的话音辨识处理操作减到最少，且因此节约可穿戴计算装置(例如，智能眼镜)的有限电池电力。

在各种实施例中，计算装置可使用一或多个头部肌肉移动检测器(例如，肌电图(EMG)传感器)以检测在用户说话时的肌肉移动(例如，信号强度不超过阈值水平)。而且，一或多个麦克风可在用户说话时接收音频信号(例如，所接收的音频具有低于阈值的RMS水平)。基于通过从麦克风接收的音频信号及从肌肉移动检测器接收的头部肌肉活动信号而作出的确定，计算装置可确定是否激活话音辨识算法。以此方式，处理器(例如数位信号处理器(DSP))仅在用户可能说话时使用需要计算的语音辨识算法来处理音频信号及/或肌肉活动信号。除非所接收的音频信号及所接收的肌肉活动信号两者满足阈值，否则计算装置可去激活话音辨识算法以制止处理所接收的音频信号及/或所接收的肌肉活动信号。

术语“可穿戴计算装置”或“智能眼镜”在本文中可互换地使用以指代具有经配置以用于通过话音辨识算法处理所接收的音频信号的处理器的计算装置。所述可穿戴计算装置可具有一或多个其它组件，例如麦克风、肌肉移动传感器、输入机构、收发器、显示器及相机。虽然可穿戴计算装置暗示装置是可穿戴的，例如智能眼镜或智能手表，但针对各种实施例方法预见能够使用有线或无线肌肉移动检测器接受音频信号的任何计算装置。例如，可在所描述的方法的实施例中使用具有远程肌肉移动传感器的移动电话。

如本文中所用，术语“麦克风”是指从紧接周围环境拾取声音(一或多个输入音频信号)且将所述声音转换为电信号的计算装置的输入换能器。

如本文中所用，术语“头部肌肉活动”或“肌肉活动”是指人类语音中涉及的任何头部肌肉(包含面部肌肉)的活动。人类语音中涉及的一个头部肌肉是颞肌或颞部其在其收缩时导致颌部的移动(例如，其在下颌升高时收缩)。人类语音中涉及的另一块肌肉是咬肌，其也帮助升高下颌。在各种实施例中，头部肌肉活动检测器可经定位以检测颞部或咬肌中的任一者以及人类语音中涉及的其它头部、面部及颈部肌肉的移动。

如本文中所用，术语“头部肌肉移动检测器”或“肌肉移动检测器”是指能够检测头部肌肉活动、特别是与计算装置的说话用户或穿戴者相关联的那些肌肉移动(例如，颞肌移动)的传感器。肌肉移动检测器可能够接收头部肌肉移动活动，其表示与头部的移动相关联的头部肌肉及/或表面皮肤的移动。在各种实施例中，肌肉移动检测器可特别适合及/或定位成检测与说话相关联的肌肉移动。根据一实施例的示范性肌肉移动检测器是肌电图(EMG)传感器。EMG是用于评估及记录由骨骼肌肉产生的电活动的技术。

EMG传感器可在肌肉细胞被电或神经激活时检测呈由这些细胞产生的电势的形式的信号。可分析所述信号以检测人类的生物力学，例如对应于人说话的颌部移动。EMG传感器可通过检测及放大由肌纤维在它们收缩时产生的微小电脉冲而测量肌肉移动活动。

肌肉移动检测器的另一形式可包含放置成与皮肤接触的一或多个导电纺织电极，其可检测由肌肉运动、组织移位及/或电极变形引起的改变。另一肌肉移动检测器可为经配置以检测特别是在穿戴者的颌部处或附近的皮肤表面改变的压力传感器。另一肌肉移动检测器可为经配置以检测通过穿戴者的组织(包含骨骼)传导的声音的麦克风。

图1说明呈适合于实施实施例方法的智能眼镜的形式的可穿戴计算装置100的透视图。虽然展示智能眼镜，但任何移动计算装置可实施所述实施例方法。然而，为清晰及简明起见且非限制，将参考可穿戴计算装置(例如图1中说明的智能眼镜)描述所述实施例。

可穿戴计算装置100可具有用于接收声音并将所述声音转换为音频信号的一或多个麦克风104a、104b。麦克风104接收周围环境中的声音,包含来自用户的话音的声音及不来自用户的话音的声音，例如背景中播放的音乐或响亮的对话。可穿戴计算装置可包含经定位且经配置以用于直接从用户接收音频的麦克风104b，同时不同的麦克风104a可经定位且经配置以用于从周围环境(即，不从所述用户)接收音频。各种实施例的可穿戴计算装置可包含电源，例如一或多个电池。

可穿戴计算装置100还可包含经配置以检测肌肉移动并产生头部肌肉活动信号的一或多个头部肌肉移动检测器102a、102b。所述肌肉移动检测器可为肌电图(EMG)传感器。一个以上肌肉移动检测器可用于提供冗余及/或感测不同肌肉群组。肌肉移动检测器102a、102b可经配置以在适合于检测头部肌肉移动、特别是与说话相关联的肌肉移动的位置处啮合穿戴者的皮肤的一部分。以此方式，肌肉移动检测器102a、102b可经配置以在穿戴者说话时检测头部肌肉的移动。

可穿戴计算装置100可包含一或多个输入机构106(例如，按钮)。输入机构可允许用户在用户按压所述输入机构时超驰对音频信号及/或肌肉移动信号的处理以直接激活语音辨识处理。以此方式，用户可使得装置能够在说话时(特别是在用户将打算作为话音处理的命令的语音引导到可穿戴计算装置时)学习用户的音频及/或头部肌肉活动。

输入机构可允许用户校正决策作出过程或修改指示语音的音频或肌肉移动准则。例如，用户可向可穿戴计算装置100说话，而语音不被话音辨识算法处理(例如，未满足音频特性准则或肌肉移动准则)。紧接在未注册的语音之后，用户可参与到处理器的输入机构(例如，按压按钮)信令：不处理所述音频输入或肌肉活动输入的决策是不正确的。可穿戴计算装置的处理器可更新/修改音频特性准则或肌肉移动准则或这两者以顾及并校正未处理来自用户的语音的音频中的错误。

可穿戴计算装置100可包含无线收发器108。无线收发器108可能够发射及接收来自/去往无线通信网络的无线信号，所述无线通信网络例如为无线广域网(WWAN)(例如，LTE或任何蜂窝式连接)及无线局域网(WLAN)(例如，WiFi)。可穿戴计算装置可连接到网络服务器以发射及/或接收话音辨识数据(例如，RMS水平、音调模式、EMG信号强度及指示语音的EMG信号模式)。可周期性地接收或基于用户的命令而检索话音辨识数据以更新对所接收的音频信号及头部肌肉活动信号的处理。

可穿戴计算装置100可进一步包含一或多个处理器、核心或协处理器110，其配置有处理器可执行指令以执行各种实施例的操作。所述处理器可耦合到一或多个麦克风104a、104b以接收音频信号且耦合到肌肉移动检测器102a、102b以接收肌肉移动信号，以便确定是激活还是去激活通过话音辨识算法对音频信号及/或肌肉移动信号的处理。处理器110还可耦合到输入机构106、收发器108及相机103。

处理器110可耦合到存储器112，音频的特性模式及/或指示语音的肌肉移动活动信号可存储在所述存储器上面。可通过处理器110将所述所存储的模式与如下文所描述的所接收的信号进行比较以便更好地区分用户何时说话。

图2说明用户201穿戴图1中说明的可穿戴计算装置100。如所说明，肌肉移动检测器的一个可能的位置是在用户201的耳朵正上方以检测颞部肌肉的肌肉移动。虽然肌肉移动检测器展示为直接连接到智能眼镜，但肌肉移动检测器可为放置在用户的头部或面部上的任何地方上的用以检测来自在语音期间挠曲的任何肌肉的肌肉移动且无线地连接到智能眼镜或其它计算装置的单独装置。

图3说明可穿戴计算装置300的电子组件的实施例示意性功能框图。如上文所论述，可穿戴计算装置包含用于接收输入音频信号的麦克风310(其可包含图1中说明的一或多个麦克风104a、104b)。例如，麦克风310可包含可定位在可穿戴计算装置上(例如接近用户的嘴)的第一麦克风104b以更容易地拾取来自穿戴者自己的嘴的声音，同时第二麦克风104a可定位在装置上(例如远离用户的嘴)，使得其主要拾取环境声音。不管是否存在由麦克风310表示的一或多个麦克风，麦克风310接收声音，所述声音可通过模拟/数字(A/D)转换器315处理以产生检测到/接收到的声音的数字信号。可通过话音活动分析器320处理所接收的音频信号。

话音活动分析器320可为检测话音是否存在于接收到的音频信号中的单元。在一实施例中，话音活动分析器可将音频信号的测得的均方根(RMS)水平与存储在存储器中的指示语音的RMS水平进行比较。指示语音的RMS水平可在先前存储在装置上(即，与人类语音相关联的一般RMS水平)且可随时间学习以反映使用所述计算装置的个体的语音模式。指示用户说话的RMS水平可呈特定分贝极限的形式。例如，用户与跨过餐桌向人讲话相比可以更柔软的水平向他们的可穿戴计算装置说出命令，因此用户可不大可能在他们的可穿戴计算装置处大喊(例如，高分贝水平)以指示语音命令。话音活动分析器可通过将所接收的音频信号的测得的RMS值与RMS阈值水平进行比较而检测到用户在说话或将语音引导到可穿戴计算装置。如果所接收的音频信号具有高于阈值水平的RMS水平，那么话音活动检测可确定用户未向计算装置说话。

在一实施例中，话音活动分析器320可经配置以特定地通过将频率分析应用于所接收的音频信号以便辨识表征用户的语音模式的一或多个基本频率而检测穿戴者的话音。因此，话音活动分析器320可通过将接收到的声音的数字化表示与和人类语音相关的频率模式或音调模式(例如，装置通过在一段时间内收听用户而习得的音调模式)的一或多个集合进行比较而充当话音检测器。例如，作为话音活动分析器320及可穿戴计算装置的设置的部分，可要求用户通过大声朗读段落或重复一些短语而训练装置，且计算装置可使用此输入来识别用户的语音的频率模式、音调模式及/或RMS水平，其可存储于存储器中以供稍后用于分析声信号以辨识用户的话音命令。或者，与一或多个指定语言、词及/或甚至音节相关联的声音的同步模式及谐波结构的存在可用于识别话音活动。以此方式，话音活动分析器320可确定所接收的音频信号的至少一部分(例如，由音频信号模式表示的特性)是否匹配于与由穿戴者产生的语音相关联的第一音调模式的类似特性音频信号与音调模式的匹配意味着所述两个模式(各自表示音频信号)大体上类似。另外，话音活动分析器320或噪声模式分析器350可充当滤波器，从而识别预先界定的声音、不合意的噪声及/或计算装置无需对其应用话音辨识处理的模式(统称为“噪声”)。被识别为噪声的所接收的音频信号的部分可被忽略或被标记为噪声模式，如果可穿戴计算装置确定用户在说话，那么可在决策例程370处从所接收的音频信号减去所述噪声模式。以此方式，被识别为“噪声”的那些部分可经存储以用于可穿戴计算装置的记录目的(例如，俘获一个人的环境的音频记录)，但不必放大或衰减。输入音频信号的包含人类语音的那些部分可与关于其任何子部分是否已经被识别为人类语音及/或穿戴者的语音的任何指示一起转发到决策例程370。音频信号的被识别为“噪声”的那些部分可通过决策例程370进行衰减或由噪声模式分析器350及/或话音活动分析器320完全滤出。

经定位以用于特别从与语音相关联的头部肌肉接收头部肌肉活动信号的可穿戴计算装置肌肉移动检测器330可为EMG传感器，其可包含用于测量电压差分的表面电极。肌肉移动检测器330可经定位以使得在装置被穿戴时与穿戴者的皮肤直接接触。例如，肌肉移动检测器330可定位在可穿戴计算装置100的与用户/穿戴者的其移动与说话相关联的头部或面部区(例如，在用户的耳朵后方，如图2中所展示)接触的外部部分。

肌肉移动检测器330可包含一个以上肌肉移动检测器以便检测/区分肌肉移动的模式及/或提供冗余以确保检测到移动。例如，第一肌肉移动检测器可安置在可穿戴计算装置的第一部分上，而第二肌肉移动检测器可远离第一肌肉移动检测器安置在可穿戴计算装置100的第二部分上，或甚至远离主要可穿戴计算装置主体。

肌肉移动检测器330产生表征头部肌肉活动的信号，所述信号可通过模拟/数字(A/D)转换器335处理以供装置处理器进行数字处理。可通过放大器滤波器340将所接收的头部肌肉活动处理为一或多个信号。

放大器滤波器340可在话音活动分析器320处理来自可穿戴计算装置的麦克风的音频的同时处理用户的头部肌肉活动信号。放大器滤波器可在其辨识出对应于用户说话的移动的肌肉移动信号时将高放大信号发送到肌肉移动分析器360。类似地，放大器滤波器340可在放大器滤波器340确定肌肉移动信号不对应于用户的语音时将低放大信号发送到肌肉移动分析器360。这些高或低放大信号可帮助决策例程370确定所接收的音频信号内的最可能对应于用户说话的时间周期，使得可穿戴计算装置的处理器可在不是音频信号及肌肉移动信号两者的情况下决定是否至少对所接收的音频信号激活话音辨识处理器380。

除了原始肌肉移动信号(例如，原始EMG信号)之外，肌肉移动分析器360还可从放大器滤波器340接收音频信号。肌肉移动分析器360可处理肌肉移动信号以区分所接收的EMG信号内的“噪声”。例如，肌肉移动检测器330可在用户移动他的嘴(或颌部)时恰在说话之前且恰在说话之后产生肌肉移动信号(例如，EMG信号)。肌肉移动分析器360可使所接收的用户的肌肉移动与特定音频片段相关，使得不具有同时或并发音频片段的肌肉移动信号被认为是“噪声”且可与具有同时或并发音频片段的肌肉移动信号区分开。例如，肌肉移动检测器330可在用户嚼口香糖但麦克风310可由于用户未说话而未接收到音频信号时产生肌肉移动信号，因此肌肉移动分析器360可确定所述肌肉移动信号是“噪声”，这是因为其尚未接收到同时的音频信号。肌肉移动分析器360可将经处理的肌肉移动信号发送到决策例程370。

在一实施例中，作为肌肉移动分析器360及可穿戴计算装置100的设置的部分，可要求用户通过大声朗读段落或重复一些短语而训练装置，同时计算装置分析用户的语音的肌肉移动信号强度及/或肌肉移动模式。检测到的肌肉移动信号模式可存储于存储器中以供稍后用于分析声信号及/或头部肌肉活动信号以辨识用户的话音命令。或者，与一或多个指定语言、词及/或甚至音节相关联的同步肌肉移动模式的存在可用于识别话音活动。因此，肌肉移动分析器360可学习对于用户是唯一的肌肉移动信号强度及/或肌肉移动模式。

在决策例程370中，计算装置的处理器可确定头部肌肉活动信号及音频信号两者的片段是否对应于用户说话。如果可穿戴计算装置确定头部肌肉活动信号及音频信号两者对应于用户说话，那么可将音频信号发送到话音辨识处理器以用于通过话音辨识算法进行话音辨识处理。在一实施例中，在激活话音辨识处理时，头部肌肉活动肌肉移动信号可与音频信号一起发送到话音辨识处理器380。在一实施例中，在执行决策例程370的处理器从头部肌肉活动信号及音频信号的组合确定用户在说话时，可仅将对应于在用户说话时的音频数据的那些小片(如可由头部肌肉活动信号指示)发送到话音辨识处理器380以进行处理。以此方式，肌肉移动信号可用于门控针对话音辨识而处理的音频数据381(及任选地头部肌肉活动数据382)，从而减少由话音辨识算法处理的声音数据(及任选地肌肉活动数据)的量，其可节省电池电力，且腾出处理资源用于其它任务，且通过排除背景噪声、附近其它人的话音及不可归于用户说话的肌肉移动信号而减少错误。

在一实施例中，决策例程370处的处理器可学习对用户可唯一地识别的RMS水平及/或肌肉移动信号强度模式。例如，每一用户可具有与另一用户不同的平均RMS水平及/或肌肉移动信号强度。难以听到的一个用户可比不难以听到的另一用户在他们的可穿戴计算装置处更大声地说话且他们的颌部具有更大的移动。因此，由处理器实施的决策例程370可调整或产生用户的个性化RMS阈值及/或肌肉移动信号强度阈值。在一实施例中，每次执行决策例程370的计算装置处理器确定所接收的音频信号及头部肌肉活动信号对应于语音时，处理器可将RMS水平及/或肌肉移动信号强度水平存储在存储器中。在另一实施例中，用户可紧接在所接收的音频及/或所接收的头部肌肉活动信号的错误解释(例如，装置处理器确定RMS水平不指示语音)之后通过按压输入机构(例如，图1中的输入机构106)而校正此错误，处理器可通过删除或调整在指示语音的错误解释的所接收的信号中使用的所存储的音频RMS及/或肌肉活动信号阈值而对此作出反应。

在一实施例中，实施决策例程370的处理器可学习对于用户是唯一的音调模式及/或肌肉移动模式。在一实施例中，每次处理器确定所接收的音频信号及头部肌肉活动信号对应于用户的语音时，处理器可使用所述音频信号及头部肌肉活动信号细化存储在存储器中的处理器用以辨识用户的语音的所述音频信号及头部肌肉活动模式。以此方式，计算装置可学习辨识用户的话音且因此提高其正确地辨识说出的命令的能力。

应注意，话音活动分析器320、噪声模式分析器350、放大器340、肌肉移动分析器360及决策例程370的操作可实施在例如数字信号处理器(DSP)等单一处理器341或多个处理器中。为清楚及简明起见，实施例方法被描述为由单一处理器341执行，所述单一处理器门控话音辨识处理器380执行计算密集的话音辨识过程。然而，权利要求书并不希望限于此类硬件实施方案，除非特定叙述。

图4说明同时从麦克风310接收到的音频信号及从肌肉移动检测器330接收到的头部肌肉活动信号(例如，EMG信号)，以说明如何使所述两组信号相关可用于提高检测用户的语音的准确度以用于激活对音频信号的话音辨识处理。上图表说明由麦克风310检测到的模拟音频信号。下图表说明由肌肉移动检测器330检测到的模拟头部肌肉活动，其在此实例中是来自EMG传感器。上图表及下图表同时运行，意味着它们表示在相同的时间周期中发生的单独输入，因此说明音频及EMG信号可如何随时间相关。

在同时接收到音频信号及EMG信号时，所述处理器341实施的决策例程370可使用两种信号确定何时激活话音辨识处理器380中的话音辨识处理，如图3中所说明。例如，在不存在与用户说话一致的音频信号或EMG信号时，处理器341可确定可穿戴计算装置用户未说话且可使话音辨识处理或话音辨识处理器380去激活。然而，在检测到与用户说话一致的声音及肌肉移动信号两者时，处理器341可确定用户在说话且激活话音辨识处理及/或话音辨识处理器。此过程在图4中说明的四个时间周期T1到T4中说明且在下文描述。

在第一实例中，在第一时间周期T1期间，麦克风310接收声音且产生音频信号片段A1。在相同时间周期期间，肌肉移动检测器330未检测到用户的头部肌肉活动，如头部肌肉活动信号片段M1中的信号的缺乏所说明。在可穿戴计算装置的麦克风310从周围环境接收到不是源自用户的声音(例如，来自穿戴可穿戴计算装置的用户附近的人的话音)时，可发生此情形。因此，麦克风310拾取到来自其它人的话音，但未拾取到来自EMG传感器的对应于用户说话的头部肌肉活动，因为用户未说话。通过此信息，处理器341可推断在时间周期T1中在音频信号片段A1中接收到的声音不对应于用户说话，且指令话音辨识处理器380去激活(或保持去激活)，因此避免对音频信号片段A1中的声音的不必要的处理

第二实例说明在用户在时间周期T2期间移动头部或面部肌肉但不说话时(例如，在用户吃饭或嚼口香糖时)可接收到的信号。在此情况下，可穿戴计算装置的肌肉移动检测器330在头部肌肉活动信号片段M1中检测到来自用户的不对应于语音的头部肌肉活动。因此，肌肉活动检测器330拾取到来自用户的头部肌肉活动，但仅拾取到来自麦克风310的背景声音，因为用户未说话且在麦克风310附近不存在声音。通过此信息，执行决策例程370的处理器341可推断用户未说话，因为在时间周期T2处仅存在头部肌肉活动片段M2，而不具有对应的音频信号片段A2。作为响应，处理器341可指令话音辨识处理器380去激活(或保持去激活)，因此避免对音频信号片段A2中的声音的不必要的处理。

第三实例类似于第一实例，原因在于在第三时间周期T3期间，麦克风310接收到在音频信号片段A3中反映的响亮声音但用户未说话，因此肌肉移动检测器330未在片段M3中检测到来自用户的任何头部肌肉活动。因此，类似于第一实例，执行决策例程370的处理器341确定时间周期T3中的音频信号片段A3不对应于用户说话，因为不存在对应的头部活动信号。作为响应，处理器341可指令话音辨识处理器380去激活(或保持去激活)，因此避免对音频信号片段A3中的声音的不必要的处理。

在第四实例中，在时间周期T4期间，麦克风310接收到产生音频信号片段A4的声音且肌肉移动检测器330检测到头部肌肉活动且产生头部活动信号片段M4。此可发生在可穿戴计算装置的麦克风310接收到来自用户说话的声音(例如，向可穿戴计算装置给予命令)时，因为EMG传感器330可检测到用户的颌部移动而形成词的头部肌肉活动。响应于接收到音频片段A4中的显著音频信号及头部活动信号片段M4中的显著肌肉活动两者，执行决策例程370的处理器341可确定用户可能在说话且激活话音辨识处理器380中的话音辨识处理。

图5说明过程流程图，其说明用于基于来自麦克风及头部肌肉活动传感器两者的信号而控制计算装置(例如可穿戴计算装置)的语音辨识过程的实施例方法。所述实施例方法500可实施在可穿戴计算装置的一或多个处理器上。出于简明及清楚起见，将方法500描述为由与话音辨识处理器分开的单一处理器实施。然而，实施例可实施在多种处理器架构中，因此权利要求书并不希望限于此实施例，除非特定叙述。

在框502中，可穿戴计算装置的处理器从一或多个麦克风(例如，图1及3中说明的麦克风104a、104b、330)接收音频信号

在任选的框504中，所接收的音频信号可经放大或经滤波以移除噪声及/或可忽略的容易界定的片段。例如，在接收到非常失真而不可清楚地辨别为人类语音(通过分贝水平或其它特性)的音频信号之后，处理器可将音频信号的这些部分与具有是可辨别的语音的较高可能性的其它部分分开。

同时，在框506中，处理器从一或多个肌肉移动检测器(例如图1及3中说明的EMG传感器102a、102b、330)接收头部肌肉活动信号(例如，EMG信号)。所接收的肌肉活动或肌肉移动信号可为来自肌肉移动检测器的未处理的信号，处理器可分析所述未处理的信号以确定它们是否对应于与用户说话相关联的肌肉移动模式

在确定框508中，处理器可确定所接收的音频信号是否满足与用户说话相关联的音频特性准则。在此操作中，可将音频信号的某些特性与阈值或模式进行比较以确定它们是否满足语音特性准则。例如，可将可为音量的测量值的RMS值与和用户说话一致的阈值RMS值进行比较。作为另一实例，可将音频信号与和语音一致的所存储的音调及颞部模式(例如，通过训练例程习得的用户的语音的模式且存储在存储器中)进行比较。如果处理器确定音频信号不满足音频特性准则(即，确定框508＝“否”)，从而指示音频可不大可能来自用户的话音，那么处理器可在框512中去激活(或保持去激活)话音辨识处理及/或话音分析处理器。其后，当麦克风拾取声音且肌肉移动检测器检测到头部肌肉移动活动时，处理器可以连续方式重复方法500的操作。

如果处理器确定音频信号确实满足语音特性准则(即，确定框508＝“是”)，从而基于各种因素(例如RMS音量水平及/或音调模式)指示用户有可能在说话，那么处理器可在确定框510中确定所接收的头部肌肉活动信号是否满足语音肌肉移动特性准则。类似于确定框508中的对音频信号的分析，处理器可将接收到的头部肌肉活动信号与已知与用户说话一致的RMS信号电平及/或信号模式进行比较。作为实例，可将所接收的头部肌肉活动信号与在训练过程期间存储在存储器中的信号进行比较，在所述训练过程中，用户在记录肌肉移动活动信号的同时阅读界定的提词。如果处理器确定音频信号不满足肌肉移动准则(即，确定框510＝“否”)，从而指示用户不大可能在说话，那么处理器可在框512中去激活(或保持去激活)话音辨识处理及/或话音分析处理器。其后，当麦克风拾取声音且肌肉移动检测器检测到头部肌肉移动活动时，处理器可以连续方式重复方法500的操作。

如果处理器确定头部肌肉活动信号确实满足语音肌肉移动特性准则(即，确定框510＝“是”)，那么处理器可推断用户很有可能在说话，且在框514中通过话音辨识算法激活音频信号的话音辨识处理。在任选的框516中，话音辨识算法还可使用从肌肉移动检测器接收到的头部肌肉活动信号以作为语音辨识分析的部分，以便增加话音辨识过程的准确度。

因此，如方法500中所说明，在处理器激活或启用对音频信号的语音辨识处理之前，音频信号及头部肌肉活动信号两者必须满足语音特性准则。

图6说明可在例如可穿戴计算装置100等计算装置上实施以用于执行上文参看图5描述的方法500的确定框508的操作的实施例方法508a。

在方法508a中，处理器可在任选的确定框608中任选地确定所接收的音频信号的RMS水平是否满足与用户说话一致的RMS阈值水平。所述可穿戴计算装置的处理器确定所接收的音频信号的RMS水平不满足RMS阈值水平(即，确定框608＝“是”)，那么处理器可在如上文所描述的方法500的框512中去激活(或保持去激活)通过话音辨识算法对音频信号的话音辨识处理。例如，如果处理器确定所接收的音频信号具有比用于将音频命令给予可穿戴计算装置的用户语音更高的分贝水平，那么处理器可推断用户未说话(即，声音是来自环境)或用户未以既定被辨识为语音命令的方式说话。在此情况下，处理器停止或不起始对音频信号的话音辨识处理。

如果处理器确定所接收的音频信号的RMS水平确实满足作为语音的特性的RMS阈值水平(即，确定框608＝“否”)，那么处理器可在任选的框609中执行一对任选的操作以确定音频信号是否匹配用户说话的音调模式特性。在框610中，处理器可将所接收的音频信号与存储在存储器中的语音的特性音调模式进行比较。在一实施例中，处理器可将所接收的音频信号与和一般人类语音相关联的先前存储的音调模式(包含特定方言或地区性口音)进行比较。可通过将计算装置连接到因特网而不时地(自动地或手动地)更新这些先前存储的模式。在另一实施例中，处理器可使用WWAN或WLAN通过因特网将所接收的音频信号与来自远程服务器的音调模式进行比较。在另一实施例中，处理器可将所接收的音频信号与在用户训练项目期间获得且存储在装置或远程服务器的存储器中的用户的所存储的音调模式进行比较。或者，可随时间通过收听用户说话而习得用户的音调模式，其中所述模式合并到唯一用户说话模式中，所述唯一用户说话模式可存储在装置上的存储器中且与音频信号进行比较以辨识用户何时说话。

在确定框611中，处理器可确定所接收的音频信号是否与语音的特性音调模式匹配到超过音调模式匹配阈值的程度。换句话说，所接收的音频信号无需是对语音的特性音调模式的完美匹配，以向处理器指示在信号与所述模式匹配到显著程度(例如，在模式特征的匹配的预先界定的百分比内)的情况下用户在说话。例如，处理器可确定所接收的音频信号是否在模式特征的一定百分比内匹配特性音调模式(例如，86％匹配)。如果处理器确定所接收的音频信号与语音的特性音调模式匹配的程度不满足或超过音调模式匹配阈值(即，确定框611＝“否”)，那么处理器可在如上文所描述的方法500的框512中去激活(或保持去激活)通过话音辨识算法对音频信号的话音辨识处理。例如，在阈值需要特性音调模式中的至少80％匹配时，如果处理器确定所接收的音频信号仅与指示语音的特性音调模式有45％匹配，那么处理器可推断用户未说话并且因此停止或不激活对所接收的音频信号的语音辨识处理。

如果处理器确定所接收的音频信号与语音的特性音调模式匹配的程度确实满足或超过音调模式匹配阈值(即，确定框611＝“是”)，那么处理器可在如上文参看图5所描述的方法500的确定框510中确定所接收的头部肌肉活动是否满足肌肉移动准则。例如，在阈值需要至少80％的匹配的特性音调模式时，处理器可在音频信号与指示语音的所存储的音调模式有90％匹配时确定所接收的音频信号包含用户的语音。

在一实施例中，在方法508a中确定音频信号是否满足音频特性准则可包含确定框608中的任选的操作而不包含框609中的任选的操作。在另一实施例中，确定音频信号是否满足方法508a中的音频特性准则可包含框609中的所述对操作而不执行任选的确定框608中的操作

图7说明可在例如可穿戴计算装置100等计算装置上实施以用于执行上文参看图5描述的方法500的确定框510的操作的实施例方法510a。如图7中所说明，此确定可包含确定肌肉移动活动信号是否超过阈值水平(即，活动的振幅或量值)、是否匹配指示用户说话的活动模式，或是否超过阈值并匹配模式。

在方法500的确定框508中确定所接收的音频信号满足音频特性准则之后、之前或与其并行地，处理器可任选地在任选的确定框709中确定头部肌肉活动信号是否超过肌肉移动信号强度阈值。如果处理器确定所接收的头部肌肉活动信号不超过用户说话的肌肉移动信号强度阈值特性(即，确定框709＝“否”)，那么处理器可在如上文所描述的方法500的框512中去激活通过话音辨识算法对音频信号及/或头部肌肉活动信号的话音辨识处理。例如，如果所接收的头部肌肉活动信号(例如，EMG信号)降至低于对应于在用户说话时的头部肌肉活动水平，那么处理器可推断用户未说话，即使麦克风感测到显著声音(例如，确定框608＝“是”)也如此

如果处理器确定所接收的头部肌肉活动信号确实超过用户说话的肌肉移动信号强度阈值特性(即，确定框709＝“否”)，那么处理器可在任选的框710中将所述信号与语音的肌肉活动信号模式特性进行比较以辨识用户何时可能在说话。可通过在用户说出界定的表述时记录肌肉活动信号、分析所述信号以识别所述信号内的特性模式且将所识别的特性模式存储在存储器中而获得此类特性模式。以此方式，计算装置的处理器可学习模式以使得其能够区分在用户说话时从头部肌肉活动检测到的信号与在用户做其它事情(例如打哈欠、进食、锻炼或嚼口香糖)时从头部肌肉活动检测到的信号。

为了区分语音肌肉移动活动与其它头部肌肉移动，处理器可在框711中将所接收的头部肌肉活动信号与指示语音的所存储的肌肉移动信号特性模式进行比较。此比较操作可确定所接收的头部肌肉活动信号与所存储的肌肉移动信号特性模式匹配的程度，例如所接收的信号如何紧密对应于特性模式的百分比匹配或其它度量。在确定框712中，处理器可确定所接收的头部肌肉活动信号与所存储的肌肉移动信号特性模式匹配的程度是否超过肌肉移动信号模式匹配阈值或另外满足匹配准则。如果处理器确定所接收的头部肌肉活动信号与所存储的肌肉移动信号特性模式匹配的程度不超过肌肉移动信号模式匹配阈值，或不满足另一匹配准则(即，确定框712＝“否”)，那么处理器可在如上文所描述的方法500的框512中去激活通过话音辨识算法对音频信号的话音辨识处理。例如，在阈值要求与肌肉移动信号模式至少80％匹配时，如果处理器确定所接收的头部肌肉活动信号仅与指示语音的所存储的特性肌肉移动信号模式有45％匹配，那么处理器可推断用户未说话

如果处理器确定所接收的头部肌肉活动信号与所存储的肌肉移动信号特性模式匹配的程度确实超过肌肉移动信号模式匹配阈值，或另外满足匹配准则(即，确定框712＝“是”)，那么处理器可在如上文所描述的方法500的框514中激活通过话音辨识算法对音频信号的话音辨识处理。例如，在阈值要求与肌肉移动信号模式至少80％匹配时，处理器可确定所接收的头部肌肉活动信号与指示语音的肌肉移动信号模式有94％匹配，处理器可推断用户在说话

在一实施例中，在方法510a中确定头部肌肉活动是否满足肌肉移动准则可包含在任选的确定框709中的任选的确定而不包含在任选的框710中的任选的操作。在另一实施例中，在方法510a中确定头部肌肉活动是否满足肌肉移动准则可包含在任选的框710中将头部肌肉移动活动信号与语音的所存储的模式特性进行比较的任选的操作，而不包含在任选的确定框709中的确定

如上文参看图1所描述，可穿戴计算装置处理器110可使用处理器可执行指令配置以从一或多个麦克风104a、104b、肌肉移动检测器102a、102b及一或多个输入机构106(例如，按钮)接收音频信号。这些传感器(即，麦克风、头部肌肉移动检测器及输入机构)可用作用于接收信号及/或指示的装置。处理器110可用作用于确定条件/触发(例如模式是否匹配)的装置，或用作用于根据上文描述的各种实施例方法确定是否唤醒单独处理器、同一处理器或其某一组合上的计算密集型操作(例如，话音辨识处理)的装置。处理器110可耦合到一或多个内部存储器112，所述一或多个内部存储器可用作用于存储特性模式数据的装置。内部存储器112可为易失性或非易失性存储器，且还可为安全及/或经加密存储器，或为不安全及/或未经加密存储器，或其任何组合。处理器110可为任何可编程微处理器、微型计算机或可由软件指令(即，应用)配置以执行多种功能(包含上文描述的各种实施例的功能)的多处理器芯片。多个处理器110可包含在计算装置中，例如一个处理器专用于一或多个功能且另外一或多个处理器专用于运行其它应用/功能。通常，软件应用可在它们被存取及加载到处理器之前存储在内部存储器中。处理器110可包含足以存储应用软件指令的内部存储器。出于此描述的目的，对存储器的一般参考是指可由处理器110存取的存储器，包含内部存储器112、可插入到可穿戴计算装置中的可移除存储器(未图示)，及处理器内的存储器

在一或多个示范性实施例中，所述功能可以在硬件、软件、固件或其任何组合中实施如果在软件中实施，那么所述功能可作为一或多个指令或代码存储在非暂时性计算机可读存储媒体或非暂时性处理器可读存储媒体上方法或算法的步骤可体现于可以驻留在非暂时性计算机可读或处理器可读存储媒体上的处理器可执行软件模块中非暂时性计算机可读或处理器可读存储媒体可为可由计算机或处理器存取的任何存储媒体举例来说但非限制，此类非暂时性计算机可读或处理器可读媒体可包含RAM、ROM、EEPROM、快闪存储器、CD-ROM或其它光盘存储装置、磁盘存储器或其它磁性存储装置，或可用于以指令或数据结构的形式存储所要的程序代码且可由计算机存取的任何其它媒体如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据以上各者的组合也包含在非暂时性计算机可读和处理器可读媒体的范围内另外，方法或算法的操作可作为代码和/或指令中的一者或任何组合或集合而驻留在可并入到计算机程序产品中的非暂时性处理器可读媒体和/或计算机可读媒体上。

前述方法描述和过程流程图仅作为说明性实例而提供，且并不意图要求或暗示各种实施例的框必须以所呈现的次序执行如所属领域的技术人员将了解，可以任何次序执行前述实施例中的框的次序。

例如“此后”、“接着”、“接下来”等词并不意图限制框的次序；这些词仅用以引导读者浏览对方法的描述此外，举例来说，使用冠词“一”、“一个”或“所述”对单数形式的权利要求元件的任何参考不应解释为将所述元件限制为单数另外，如本文所使用并且尤其在权利要求书中，“包括”具有开放含义，使得可进一步包含及/或存在一或多个额外未指定元件、步骤及方面

结合实施例描述的各种说明性逻辑框、模块、电路和过程流程图框可实施为电子硬件、计算机软件或两者的组合为了清楚地说明硬件与软件的此种可互换性，上文已大体上关于其功能性而描述了各种说明性组件、块、模块、电路和框此功能性是实施为硬件还是软件取决于特定应用及施加于整个系统的设计约束熟练的技术人员可针对每一特定应用以不同方式来实施所描述的功能性，但这样的实施方案决策不应被解释为会引起脱离本发明的范围。

提供对所公开的实施例的前述描述以使所属领域的技术人员能够制作或使用本发明所属领域的技术人员将容易地了解对这些实施例的各种修改，并且可以在不脱离本发明的精神或范围的情况下将本文所定义的一般原理应用到其它实施例中因此，本发明并不希望限于本文中所示的实施例，而应被赋予与随附权利要求书和本文中所揭示的原理和新颖特征相一致的最广泛范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朴基炫;郑玄旭;阿拉温德·桑卡兰;帕拉舒拉姆·卡达迪;
技术所有人：高通股份有限公司;
我是此专利的发明人