用于控制语音激活的方法和设备的制造方法_4

文档序号:9457754阅读:来源:国知局
[0064]最大关键字分数确定单元560接收声音特征中的每一者的观察分数且从存储单元318获得状态信息。状态信息可以包含目标关键字的多个状态,包含非关键字状态、所述状态当中的输入状态、以及从状态中的每一者到包含自身的下一状态的转移信息。输入状态可以表示在目标关键字的可能的状态序列中的每一者中非关键字状态转移到的第一状
??τ O
[0065]状态信息中的转移信息包含在目标关键字的可能的状态序列中的每一者中从所述状态中的每一者到下一状态的转移分数。转移分数可以表示在每个可能的状态序列中所述状态中的每一个转移到下一状态的概率值。转移分数还包含从非关键字状态到输入状态的转移分数。
[0066]基于所接收的观察分数和转移分数,最大关键字分数确定单元560计算可能的状态序列中的每一者的关键字分数。在此情况下,状态序列可以从非关键字状态(即,起始状态)开始,因为非关键字状态在接收到输入声音流之前得到指派。由此,转移分数包含从非关键字状态到输入状态的转移分数,并且还包含在状态序列中从非关键字状态到其自身的转移分数。以此方式,当从观察分数确定单元550接收每个声音特征的观察分数的集合时,最大关键字分数确定单元560将下一状态添加到每个状态序列且确定所更新的状态序列中的每一者的关键字分数。最大关键字分数确定单元560随后在所更新的状态序列的关键字分数当中选择最大关键字分数。在一个实施例中,可以通过使用维特比算法等任何合适的方法计算关键字分数来确定最大关键字分数。在确定最大关键字分数之后,最大关键字分数确定单元560将它提供给关键字检测单元540。
[0067]在从最大关键字分数确定单元560接收最大关键字分数后,关键字检测单元540基于最大关键字分数在输入声音流中检测目标关键字。例如,关键字检测单元540可以从存储单元318接收用于检测目标关键字的分数阈值,且如果最大关键字分数大于所接收的分数阈值,那么检测到目标关键字。在此情况下,分数阈值可以被设定为用于检测在所需置信度水平内的目标关键字的最小关键字分数。
[0068]在一些实施例中,最大关键字分数确定单元560确定非关键字状态序列的非关键字分数。可以在所确定的可能的状态序列的关键字分数当中选择非关键字分数且将其提供到关键字检测单元540。一旦检测到目标关键字,关键字检测单元540就产生并且提供激活信号以开启与目标关键字相关联的语音助理单元328。
[0069]基于关键字分数(例如,最大关键字分数)或非关键字分数,语音激活控制单元326确定输入声音流是否不包含目标关键字。在一个实施例中,语音激活控制单元326可以使用关键字分数和非关键字分数两者来改进检测准确性,尤其是当输入声音流包含可能影响关键字分数的噪声等环境声音时。在此实施例中,语音激活控制单元326可以确定指示在关键字分数和非关键字分数之间的差值的置信度分数。置信度分数指示从输入声音流检测到目标关键字的概率。如果置信度分数较高,那么它指示从输入声音流检测到目标关键字的高概率。另一方面,如果置信度分数较低,那么它指示从输入声音流检测到目标关键字的低概率。因此,如果置信度分数小于置信度分数阈值,那么语音激活控制单元326确定输入声音流不包含目标关键字。
[0070]在另一实施例中,语音激活控制单元326在确定输入声音流不包含目标关键字时可以分析在某一时间段上的输入声音流。例如,如果用户说出目标关键字“hey”,那么当接收到仅音素“he”时,语音激活控制单元326可能初始地确定所接收的声音不是目标关键字。当语音激活控制单元326随后接收音素“y”时,它可以确定所接收的声音是目标关键字。因此,为了改进在确定输入声音流是否不包含目标关键字时的准确性,语音激活控制单元326基于非关键字分数的平均值确定输入声音流是否不包含目标关键字。
[0071]语音激活控制单元326可以确定当前非关键字分数和总非关键字平均分数,且在一个实施例中确定当前非关键字分数和总非关键字平均分数之间的差值。当前非关键字分数可以是从最近提取的声音特征计算出的非关键字分数。在另一实施例中,当前非关键字分数可以是从多个最近提取的声音特征计算出的平均分数。总非关键字平均分数指示从在指定时间段上所提取的声音特征的全部计算出的平均分数,所述指定时间段可以周期性地复位。如果当前非关键字分数和总非关键字平均分数之间的差值大于平均非关键字分数阈值,那么语音激活控制单元326确定输入声音流不包含目标关键字。替代地,如果置信度分数小于置信度分数阈值且当前非关键字分数和总非关键字平均分数之间的差值大于平均非关键字分数阈值,那么语音激活控制单元326可以确定输入声音流不包含目标关键字。
[0072]图6图示根据一个实施例的输入声音流600的多个置信度分数620、多个当前非关键字分数640、多个当前关键字分数650以及多个总平均非关键字分数660的示范性曲线图616和618。所接收的输入声音流600包含多个部分602到614。如图所示,输入声音流600包含两个非关键字部分602和606、三个关键字部分604、610和614,以及两个沉默部分608和612。如本文中所使用,术语“非关键字”是指除目标关键字、沉默和噪声外的所有声
■~>V.曰O
[0073]分数曲线图616图示输入声音流600的置信度分数620连同置信度分数阈值630,所述置信度分数阈值是恒定的(如图6中通过粗体直线指示)。如所图示,与关键字部分604,610和614相对应的一些置信度分数620中超出置信度分数阈值630。在这些情况下,语音激活控制单元326不确定输入声音流600不包含目标关键字。其它置信度分数620与非关键字部分602和606或沉默部分608和612相对应,且并未超出置信度分数阈值630。因此,语音激活控制单元326可以确定与这些分数相对应的输入声音流600不包含目标关键字。
[0074]分数曲线图618图示当前非关键字分数640 (如用黑色实线指示)、当前关键字分数650 (如用点线指示)、总平均非关键字分数660 (如用黑色粗体实线指示)。如带圆圈部分670中所图示,当前非关键字分数640中与非关键字部分602和606或沉默部分612相对应的一些超出总平均值非关键字分数660超过平均非关键字分数阈值。在这些情况下,语音激活控制单元326可以确定输入声音流600与不包含目标关键字的这些分数相对应。
[0075]图7图示根据本发明的一个实施例的一种方法700的流程图,所述方法用于基于由语音激活单元324计算的关键字分数和非关键字分数去激活移动装置310的语音激活单元324。移动装置310在710处通过声音传感器312接收输入声音流。随后,在720处,声音传感器312的声音检测器314和话音检测器322确定输入声音流是否是超出阈值声音强度的话音。如果输入声音流是超出阈值声音强度的话音,那么在730处,话音检测器322激活语音激活单元324。然而,如果输入声音流不是超出阈值声音强度的话音,那么在710处,声音传感器312的声音检测器314和话音检测器322再次接收随后的输入声音流。
[0076]在740处,语音激活单元324可以将输入声音流分段成多个声音帧且从每个声音帧提取声音特征。在提取声音特征之后,语音激活单元324从声音特征计算关键字分数和非关键字分数且将关键字分数和非关键字分数发射到语音激活控制单元326。基于由语音激活单元324计算的关键字分数和非关键字分数,语音激活控制单元326在750处确定关键字分数和非关键字分数是否指示非目标关键字。如果语音激活控制单元326不能确定关键字分数和非关键字分数指示非目标关键字,那么语音激活单元324在760处接收随后的输入声音流。随后,语音激活单元324可以在740处计算随后的输入声音流的关键字分数和非关键字分数,直到语音激活单元324在750处检测到关键字分数和非关键字分数指示非目标关键字。如果语音激活控制单元326在750处确定关键字分数和非关键字分数指示非目标关键字(即,输入声音流指示非目标关键字),那么语音激活控制单元326在770处去激活语音激活单元324。
[0077]图8图示根据本发明的一个实施例的一种方法800的流程图,所述方法用于通过语音激活控制单元326去激活语音激活单元324以终止接收输入声音流和处理正被接收的输入声音流。可以了解,在方法800的810到840处的操作以与在方法700的740到770处的操作相同的方式执行,且因此省略其描述。在于840处去激活语音激活单元324之后,语音激活控制单元326在850处增加去激活的次数。例如,移动装置310可以具有用于存储计数值的存储单元318。计数值的初始值可以设为“O”。如果语音激活控制单元326将去激活信号发射到语音激活单元324且语音激活单元324去激活,那么语音激活控制单元326可以对计数值加“I”。
[0078]在860处,语音激活控制单元326确定去激活的次数是否等于或超出预定值。如果去激活的次数等于或超出预定值,那么在870处,语音激活控制单元326发射控制信号以控制话音检测器322以防止在随后的输入声音流指示话音时开启语音激活单元324。因此,语音激活控制单元326可以去激活语音激活单元324以终止接收输入声音流且处理正被接收的输入声音流。在将控制信号发射到话音检测器322之后,语音激活控制单元326在890处复位去激活的次数。然而,如果去激活的次数小于预定值,那么在880处,语音激活控制单元326发射控制信号以控制话音检测器322以在随后的输入声音流指示话音时开启语音激活单元324。因此,在语音激活单元324的去激活之后,如果话音检测器322从随后的输入声音流检测到话音,那么话音检测器322可以开启语音激活单元324。
[0079]图9图示根据本发明的一个实施例的一种方法900的流程图,所述方法用于在去激活语音激活单元324以终
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1