用于控制语音激活的方法和设备的制造方法_3

文档序号:9457754阅读:来源:国知局
以与在特定时间段期间的平均非目标关键字状态相对应。语音激活单元324可以基于比较的结果确定所提取的声音特征是否指示非目标关键字。例如,如果第一度量值大于第二度量值,那么语音激活单元324可以确定所提取的声音特征指示非目标关键字。
[0049]在另一个特定实施例中,基于所提取的声音特征,语音激活单元324确定指示所接收的输入声音流包含目标关键字的概率的关键字分数和指示所接收的输入声音流不包含目标关键字的概率的非关键字分数。在一个实施例中,如果关键字分数超出预定分数阈值,那么语音激活单元324将输入声音流检测为目标关键字。在检测到目标关键字后,语音激活单元324产生且发射激活信号以激活语音助理单元328。
[0050]一旦激活语音激活单元324,所述语音激活单元就通过处理随后的输入声音流继续以活动状态操作。这可能不必要地耗尽移动装置310的功率资源,尤其是在随后的输入声音流不包含目标关键字时。在此类情况下,语音激活控制单元326用于断开语音激活单元 324。
[0051]在一个实施例中,在确定关键字分数和非关键字分数之后,语音激活单元324将关键字分数和非关键字分数输出到语音激活控制单元326。基于关键字分数和非关键字分数,语音激活控制单元326确定输入声音流是否不包含目标关键字。例如,语音激活控制单元326可以确定指示在关键字分数和非关键字分数之间的差值的置信度分数,且在置信度分数小于置信度分数阈值时检测输入声音流不包含目标关键字。语音激活控制单元326还可以确定当前非关键字分数和总非关键字平均分数,且在当前非关键字分数超出总非关键字平均分数超过平均非关键字分数阈值时,检测输入声音流不包含目标关键字。如果语音激活控制单元326确定输入声音流不包含目标关键字,那么语音激活控制单元326产生且发射去激活信号(“断开”)以断开语音激活单元324。如上文所描述,语音激活控制单元326基于由语音激活单元324确定的分数控制语音激活单元324。因此,语音激活控制单元326不需要使用另外的计算资源来计算分数且语音激活控制单元326可以有效地控制语音激活单元324。
[0052]另外,当随后的输入声音流指示话音时,语音激活控制单元326发射控制信号以控制话音检测器322开启语音激活单元324。响应于控制信号,话音检测器322确定在去激活语音激活单元324之后接收的随后的输入声音流是否是话音。如果话音检测器322确定随后的输入声音流不是话音(例如,沉默),那么话音检测器322不激活语音激活单元324。因此,语音激活单元324可以保持去激活而不消耗功率。另一方面,如果话音检测器322确定随后的输入声音流是话音,那么话音检测器322可以激活语音激活单元324以用于检测在随后的输入声首流中的目标关键字。
[0053]在一个实施例中,在激活之后由语音激活单元324接收且处理的输入声音流可以是不包含目标关键字的连续对话(例如,一般的话音、一般的对话等)。在此情况下,语音激活控制单元326基于关键字分数和非关键字分数去激活语音激活单元324,如上文所描述。一旦语音激活单元324已经去激活,声音传感器312就可以接收随后的输入声音流。当随后的输入声音流指示超出阈值声音强度的声音时,声音传感器312的声音检测器314将激活信号发射到话音检测器322,如果随后的输入声音流包含话音,那么所述话音检测器可以转而将激活信号发射到语音激活单元324。
[0054]当再激活语音激活单元324时,语音激活单元324可以针对随后的输入声音流的每个声音特征计算关键字分数和非关键字分数。随后将关键字分数和非关键字分数发射到语音激活控制单元326。基于关键字和非关键字分数,语音激活控制单元326可以确定随后的输入声音流不包含目标关键字且将去激活信号发射到语音激活单元324。以此方式,语音激活单元324可以反复地激活和去激活。
[0055]如果语音激活控制单元326连续地确定输入声音流不包含目标关键字的次数超出预定计数,那么可以假设当前被接收的输入声音流不太可能包含目标关键字。根据一个实施例,语音激活控制单元326基于所产生且发射到语音激活单元324的去激活信号的数目对确定输入声音流不包含目标关键字的次数计数。如果去激活的次数大于或等于预定计数,那么语音激活控制单元326可以将控制信号发射到话音检测器322以防止语音激活单元324的激活,即使随后的输入声音流指示话音。因此,语音激活控制单元326可以去激活语音激活单元324以终止接收输入声音流且处理正被接收的输入声音流。
[0056]在语音激活单元324已经基于连续的去激活的计数而去激活之后,所述语音激活单元可以被再激活以接收且处理随后的声音流。在一个实施例中,如果话音检测器322已经结束处理在输入声音流中的前一对话且接收新的对话,那么所述话音检测器可以再激活语音激活单元324,因为存在最新接收的对话包含目标关键字的可能性。例如,当话音检测器322检测到在先前接收的对话和随后的对话之间的预定的沉默的持续时间时,所述话音检测器可以检测到前一对话结束。替代地,在声音传感器312中的声音检测器314可以经配置以检测沉默的持续时间以用于激活语音激活单元324。
[0057]在另一实施例中,在语音激活单元324基于连续的去激活的计数被去激活之后,当检测到在输入声音流的声音背景中的改变时,话音检测器322可以再激活所述语音激活单元。在背景中的改变是指在声音环境中的改变,例如从一个声音环境改变到另一个声音环境。例如,当移动装置310从汽车移动到室内时,从汽车和室内接收的环境声音通常显示可以用于识别每个环境的背景的不同声音特性。所接收的声音的背景信息可以通过采用任何合适的背景确定方法来确定。例如,可以将输入声音的声音特征与从具体背景训练出的数据库中的声音特征比较和匹配。之后,所接收的声音的背景信息可以从与数据库中的最佳匹配的声音特征相关联的背景信息确定。为了再激活语音激活单元324,话音检测器322可以检测在前一输入声音和随后的输入声音流之间在声音背景中的改变。可以了解,任何其它单元(例如,语音激活控制单元326)都可以替代话音检测器322检测在声音背景中的改变。
[0058]图4B图示根据本发明的另一实施例的DSP 330的框图,所述DSP 330经配置以从声音传感器312接收激活信号和输入声音流且产生用于激活语音助理单元328的激活信号。类似于图4A,来自声音传感器312的声音检测器314的激活信号激活话音检测器322以接收且处理输入声音流。如果确定所接收的输入声音流是话音,那么话音检测器322产生激活信号(“开启”),所述激活信号连同输入声音流一起提供到语音激活单元324。响应于来自话音检测器322的激活信号,语音激活单元324产生关键字分数和非关键字分数。基于由语音激活单元324确定的分数,语音激活控制单元326B控制语音激活单元324。此夕卜,语音激活控制单元326B基于所产生且发射到语音激活单元324的去激活信号的数目对确定输入声音流不包含目标关键字的次数计数。
[0059]在此实施例中,如果去激活的次数大于或等于预定计数,那么语音激活控制单元326B可以将控制信号发射到声音传感器312的声音检测器314以去激活声音检测器314。例如,当声音检测器314从语音激活控制单元326B接收控制信号时,声音检测器314可以在预定时间段(例如,10秒)上去激活。在替代实施例中,如果语音激活单元324去激活的次数大于或等于预定计数,那么声音传感器312可以在预定时间段上去激活。
[0060]图5图示根据本发明的一个实施例的语音激活单元324的更详细框图,所述语音激活单元经配置以接收输入声音流且在所述输入声音流中检测目标关键字。语音激活单元324包含分段单元510、特征提取器520、分数确定单元530和关键字检测单元540。分数确定单元530包含观察分数确定单元550和最大关键字分数确定单元560。
[0061]分段单元510接收来自话音检测器322的输入声音流并且将所接收的输入声音流分段成相等时间周期的多个顺序帧。特征提取器520从分段单元510依次接收经分段帧并且从所述帧中的每一者提取声音特征。在一个实施例中,特征提取器520可以使用梅尔倒频谱系数(MFCC)方法等任何合适的特征提取方法从所述帧提取声音特征。例如,在MFCC方法的情况下,从经分段帧中的每一者计算η维向量中的MFCC并且将所述向量用作声音特征。
[0062]在分数确定单元530中,观察分数确定单元550从存储单元318依次接收声音特征并且接收目标关键字的状态信息。根据一个实施例,目标关键字的状态信息可以包含与目标关键字的多个部分相关联的多个状态以及概率模型(例如,概率函数),例如提供用于所述状态中的每一者的GMM。如上文所描述,目标关键字可以划分成多个基本声音单元,且表示目标关键字的多个部分可以基于所述基本声音单元产生。在一些实施例中,目标关键字的状态还可以包含非关键字状态(例如,“填充物”状态),其不与表示目标关键字的多个部分中的任一者相关联。例如,在目标关键词包含预定数目的状态(所述状态中的每一者与音素等基本声音单元相对应)的情况下,非关键字状态可以表示除包含于目标关键字中的那些基本声音单元外的基本声音单元。
[0063]当接收每个声音特征时,观察分数确定单元550基于声音特征和从存储单元318接收的状态信息确定目标关键字的每个状态的观察分数。在一个实施例中,通过根据用于相关联的状态的概率模型计算概率值来针对所接收的声音特征确定所述状态中的每一者的观察分数。概率值中的每一者可以用作相关联状态的观察分数。状态的高观察分数指示声音特征与状态的基本声音单元相对应的高概率。观察分数确定单元550将所接收的声音特征中的每一者的观察分数提供到最大关键字分数确定单元560以用于确定多个状态序列的关键字分数,所述状态序列对于目标关键字是可能的。
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1