用于检测目标关键词的方法和设备的制造方法_4

文档序号：9439059阅读：来源：国知局

的情况下，所说明的状态"F"、"S"、"T"、"A"、"R，P"T" 中的每一个具有始于用于声音特征R)的起始状态"F"的一个可能的状态顺序，并且用于所述状态的最大分数（即，候选分数）分别被确定为1.0、1.6、1.7、0. 8、1.0和-9. 9。候选关键词分数可以通过对从非关键词状态"F"到用于声音特征Fl的状态中的每一个的过渡分数以及用于声音特征Fl的相关联状态的观察分数求和来确定。举例来说，以此方式，用于包含于输入状态的组810中的状态"T"的候选分数1. 7可以通过对从非关键词状态"F"到状态"T"的过渡分数以及用于状态"T"的观察分数求和来确定。在所说明的实例中，较大负数（例如，-10)作为过渡分数被分配到并未包含于输入状态的组810中的状态"T"，使得在声音特征Fl的点处包含状态"T"的任何连续状态顺序无法具有用于检测目标关键词的最大关键词分数。
[0074] 在声音特征F2的情况下，通过对用于使用于声音特征Fl的状态中的每一个作为最后状态的状态顺序的候选关键词分数、从用于声音特征Fl的每个状态到用于声音特征 F2的状态的过渡分数以及用于声音特征F2的状态的观察分数求和，确定用于每个状态的候选关键词分数。对于与声音特征F2相关联的状态中的每一个，选择上述总和当中的最大总和作为用于使所述状态作为最后状态的可能的状态顺序的候选关键词分数。举例来说，在下文的表2中提供用于使用于声音帧F2的状态"A"作为最后状态的可能的状态顺序的关键词分数。
[0075] 表 2
[0077] 在以上表2中，选择以上总和当中的最大关键词分数3. 2作为用于具有与声音特征F2相关联的状态"A"的可能的状态顺序的候选关键词分数。以相同方式，用于其它所说明的状态（即，"F"、"S"、"T"、"R"、"T"）的候选关键词分数可以确定为1.9、2.9、2.7、2.0 和1. 8。如图900中所示，随后可选择用于状态"A"的候选关键词分数3. 2作为用于声音特征F2的最大关键词分数。
[0078] 对于剩余的声音特征F3、F4和F5中的每一个，可以与声音特征F2相同的方式计算用于使与剩余的声音特征F3、F4和F5中的每一个相关联的状态中的每一个作为最后状态的可能的状态顺序的一组候选关键词分数。在候选关键词分数当中，还可以类似方式确定用于声音特征F3、F4和F5中的每一个的最大关键词分数。用于声音特征Fl到F5中的每一个的最大关键词分数可用于检测目标关键词。在图9的所说明的实例中，因此确定包含最大关键词分数的状态的状态顺序（如通过箭头和粗线的圆所指示）可能对应于目标关键词的多个顺序部分。
[0079] 图10是根据本发明的一个实施例的通过话音激活单元256执行以用于检测输入声音中的目标关键词的具体方法640的流程图。最初，在1010处，观察分数确定单元550 接收输入声音的多个声音特征并且确定用于与目标关键词相关联的多个状态中的每一个的观察分数。将观察分数提供给最大关键词分数确定单元560。在1020处，在可能用于目标关键词的多个状态顺序中最大关键词分数确定单元560获得预定数目的输入状态以及从所述状态中的每一个到下一个状态的过渡分数。过渡分数可以包含从非关键词状态到输入状态中的每一个的过渡分数。
[0080] 在1030处，最大关键词分数确定单元560通过使用观察分数和过渡分数确定用于可能的状态顺序的关键词分数。在此过程中，最大关键词分数可以从所确定的关键词分数当中选择并且以如上文所述参考图5和9的方式提供给关键词检测单元540。随后在1040 处，基于接收到的最大关键词分数在输入声音中检测到目标关键词。
[0081] 图11描绘根据本发明的一个实施例的用于在确定用于目标关键词的输入状态的数目中使用的目标关键词"起始激活"的参考状态顺序1102的图。在一个实施例中，输入状态的数目的确定可以在分数确定单元530中执行。如图所示，用于目标关键词的参考输入声音在时间周期TO期间捕获而无需使用工作循环（即，基于完整工作循环），使得接收到关键词的所有部分。参考输入声音是在时间周期TO期间由用户说出的声音并且可以分段成相等时间周期的多个顺序帧。在所说明的实施例中，多个帧对应于用于目标关键词的参考状态顺序1102中的状态。对于每个帧，声音特征可以是从存储单元230中提取的并且存储在存储单元230中。
[0082] 在一个实施例中，分数确定单元530从存储单元230中接收所提取的声音特征并且以如上文所述参考图5到9的方式确定用于所有可能的状态顺序的最大关键词分数。在这种情况下，从单个输入状态1104起始的整个参考状态顺序1102可以用于最大关键词分数的确定。参考状态顺序1102中的状态以及每个状态的数目可以通过回溯参考状态顺序 1102来确定。在此实施例中，用于参考状态顺序1102的输入状态的数目可以是基于一段时间确定的，在所述一段时间中目标关键词的一些部分可未在T2/T1的工作循环中的非激活状态T1-T2期间被接收。举例来说，当根据工作循环接收到用户说出的输入声音时，可能未接收到与对应于非激活状态的目标关键词的多个部分相关联的多个状态1110 (即，"S"、 "T'，、m"R'，）。
[0083] 如图11中所示，由于用户的语音特征（例如，语音的速度），状态"A"可在状态1110中呈现两次。由于状态1110对应于包含四个初始状态"，、"!-、"六"和"^'的工作循环的初始非激活周期T1-T2,当基于工作循环接收输入声音时输入声音可不包含多达四个初始状态。在此实例中，输入状态的数目可以被确定为是五个或更多使得即使当语音在非激活状态中起始且起始在工作循环的随后的激活状态中接收时也可以在用户说出的语音中检测到目标关键词。在这种情况下，接收到的语音的开始部分可从输入状态中的任一者处起始。
[0084] 在一个实施例中，分数确定单元530可接收多个参考输入声音以用于目标关键词，所述目标关键词中的每一个是基于完整工作循环捕获的。对于参考输入声音中的每一个，分数确定单元530根据工作循环中的初始非激活周期确定输入状态，方法是以如上文相对于参考状态顺序1102所述的类似方式确定用于参考状态顺序中的多个状态的参考状态顺序和状态时间周期。可以随后对参考状态顺序中的输入状态的数目进行平均以确定输入状态，以用于从输入声音中检测目标关键词。
[0085] 图12是根据本发明的一个实施例的通过话音激活单元256执行的用于通过对用于目标关键词的多个参考输入声音进行处理确定用于目标关键词的输入状态的数目的方法1200的流程图。最初，在1210处，话音激活单元256基于完整工作循环接收用于目标关键词的参考输入声音。在1220处，话音激活单元256获得与目标关键词的初始部分和多个随后部分相关联的状态信息。
[0086] 在1230处，基于状态信息确定用于参考输入声音的多个参考状态顺序。在1240 处，话音激活单元256通过回溯参考状态顺序确定用于参考状态顺序中的多个状态的多个状态时间周期，如参考图11所详细描述的。随后在1250处，话音激活单元256基于工作循环的状态时间周期和非激活周期确定多个输入状态。
[0087] 话音激活单元256可经配置以将输入声音分段成可变持续时间的部分以检测输入声音中的目标关键词。在一些实施例中，可以预定用于与目标关键词相关联的状态中的每一个的此类持续时间的可能的范围。对于与每个状态相关联的每个持续时间，可以分配分数（例如，概率值）以用于确定最大关键词分数。
[0088] 图13描述根据本发明的另一实施例的话音激活单元256的框图，所述话音激活单元经配置以接收输入声音并且基于在SMM下的持续时间的预定的范围检测输入声音中的目标关键词。话音激活单元256包含可变分段单元1310、特征提取器1320、分数确定单元 1330和关键词检测单元1340。分数确定单元1330包含观察分数确定单元1350和最大关键词分数确定单元1360。
[0089] 可变分段单元1310接收来自声音传感器（例如，声音传感器210)的输入声音并且将接收到的输入声音分段成具有多个持续时间的多个帧。举例来说，如果接收到30ms持续时间的输入声音，那么可以将其分段成IOms持续时间的第一帧，其在输入声音中位于从 Oms到IOms处。以类似方式，输入声音可以分段成从10到20ms的IOms持续时间的第二帧，以及从20ms到30ms的IOms持续时间的第三帧、从Oms到20ms的20ms持续时间的第四帧以及从IOms到30ms的20ms持续时间的第五帧。
[0090] 可变分段单元1310可将多个分段帧提供给特征提取器1320并且将作为输入声音帧（例如，在以上实例中的30ms持续时间）的整个输入声音提供给特征提取器1320。在此过程中，可变分段单元1310还将关于每个帧的持续时间和位置的帧信息提供给特征提取器1320。在接收帧和帧信息之后，特征提取器1320使用任何合适的特征提取方法从所述帧中的每一个中提取且输出声音特征。在以上实例中，特征提取器1320接收总共六个帧并且从所述帧中提取总共六个声音特征。
[0091] 分数确定单元1330经配置以基于所提取的声音特征生成将提供给关键词检测单元1340的最大关键词分数。分数确定单元1330中的观察分数确定单元1350从特征提取器1320中接收声音特征和帧信息。观察分数确定单元1350还从存储单元230中接收用于目标关键词的状态信息。状态信息包含与目标关键词相关联的多个状态以及用于所述状态中的每一个的概率模型，如上文参考图5所述。
[0092] 在此实施例中，状态信息进一步包含关于用于所述状态中的每一个的预定的持续时间的范围的持续时间信息。用于每个状态的持续时间的预定的范围可以设置成用于所述状态的可能的时间范围。举例来说，用户可以相对较短的持续时间说出对应于状态"S"的声音，而另一用户可能需要较长的时间说出所述声音。因此，用于状态的持续时间的预定的范围可以设置成包含用户通常在说出与状态相关联的声音中耗费的持续时间的范围。
[0093] 对于与规定的持续时间相关联的每个接收的声音特征，观察分数确定单元1350 可决定是否基于接收到的状态信息针对所述状态中的每一个确定观察

完整全部详细技术资料下载

当前第4页1 2 3 4 5 6