语音命令识别方法和系统的制作方法

文档序号:2825921阅读:265来源:国知局
语音命令识别方法和系统的制作方法
【专利摘要】本申请公开了一种语音命令识别方法和系统。包括:对语音进行低于指定精度的声学模型训练计算,得到背景声学模型;对语音进行高于指定精度的声学模型训练计算,得到前景声学模型;依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径;依据所述解码网络对输入的语音进行解码,在语音结束后判断解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。利用本发明,可以降低语音命令识别的误识率。
【专利说明】语音命令识别方法和系统
【技术领域】
[0001]本申请涉及自动语音识别(ASR, Automatic Speech Recognition)【技术领域】,尤其涉及一种语音命令识别方法和系统。
【背景技术】
[0002]自动语音识别技术是将人类的语音中的词汇内容转换为计算机可读的输入字符的一项技术。语音识别具有复杂的处理流程,主要包括模型训练、解码网络构建、以及解码等过程。
[0003]语音命令识别技术是自动语音识别技术的一项具体应用,其主要功能是用户不必利用键盘、鼠标、触摸屏等输入设备,只要说出命令词的语音,则语音命令识别系统会自动识别出该语音对应的字符串,如果该字符串为命令词对应的字符串,则触发对应的操作。
[0004]例如目前的语音唤醒系统就是一种典型的语音命令识别系统,用户可以说出唤醒命令,系统识别用户说出的语音,如果识别出是唤醒命令则唤醒(即启动)对应的设备,否则不唤醒对应的设备。
[0005]语音命令识别系统的评测标准通常包括误识率和拒认率两个部分。误识率指用户未发出语音命令,但系统却错误的触发了该命令对应的操作。拒认率指用户发出了语音命令,但系统却没有反应,即没有触发该命令对应的操作。误识率和拒认率越低,证明语音命令识别系统越稳定。
[0006]但是现有的语音识别系统的误识率很高,尤其是在嘈杂的环境下,误识率会进一步提闻。

【发明内容】

[0007]有鉴于此,本发明的主要目的在于提供一种语音命令识别方法和系统,以降低语音命令识别的误识率。
[0008]本发明的技术方案是这样实现的:
[0009]一种语音命令识别方法,包括:
[0010]对语音进行低于指定精度的声学模型训练计算,得到背景声学模型;
[0011]对语音进行高于指定精度的声学模型训练计算,得到前景声学模型;
[0012]依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径;
[0013]依据所述解码网络对输入的语音进行解码,在语音结束后判断解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
[0014]一种语音命令识别系统,包括:
[0015]背景声学模型训练模块,用于对语音进行低于指定精度的声学模型训练计算,得到背景声学模型;[0016]前景声学模型训练模块,用于对语音进行高于指定精度的声学模型训练计算,得到前景声学模型;
[0017]解码网络构建模块,用于依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径;
[0018]解码器,用于依据所述解码网络对输入的语音进行解码;
[0019]判断模块,用于在语音结束后判断解码器的解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
[0020]与现有技术相比,本发明训练了两个精度不同的声学模型,背景声学模型的精度要远低于前景声学模型,在构建解码网络时,对于命令词对应解码路径的构建,只从高精度的前景声学模型中选择该命令词包含的音素,构建命令词对应的高精度的解码路径,这样会提高对命令词语音的识别精度;同时,对于其它的非命令词的解码路径的构建,则依据所述精度远低于前景声学模型的背景声学模型构建其它语音的解码路径,这样当语音不是命令词时,可以将这些非命令词的语音解码引入这些低精度的解码路径上来,起到了“吸附”非命令词语音的作用,因此可以大大降低语音命令识别的误识率。同时,在低精度的解码路径上进行解码的计算量较小,因此本发明非常适合便携数据处理平台、嵌入式系统等计算能力较低的设备。
【专利附图】

【附图说明】
[0021]图1为本发明所述语音命令识别方法的一种流程图;
[0022]图2为本发明一种实施例中依据前景声学模型和背景声学模型构建的一种解码网络的不意图;
[0023]图3为本发明增加语音活动检测过程的一种实施例的流程图;
[0024]图4为通过语音活动检测进行语音命令识别的一种具体流程示意图;
[0025]图5为本发明所述的语音命令识别系统的一种组成示意图;
[0026]图6为本发明所述的语音命令识别系统的又一种组成示意图。
【具体实施方式】
[0027]下面结合附图及具体实施例对本发明再作进一步详细的说明
[0028]图1为本发明所述语音命令识别方法的一种流程图。参见图1,该方法包括:
[0029]步骤101、对语音进行低于指定精度的声学模型训练计算,得到背景声学模型,该背景声学模型是音素精度较低的声学模型。
[0030]步骤102、对语音进行高于指定精度的声学模型训练计算,得到前景声学模型,该前景声学模型是音素精度很高的声学模型,目的是为了提高对命令词语音的识别精度。
[0031]当然,上述步骤101和步骤102并不一定严格按照先后顺序,也可以同时进行,或者步骤102先执行。
[0032]步骤103、依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径。[0033]步骤104、依据所述解码网络对输入的语音进行解码。
[0034]步骤105、在语音结束后判断解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
[0035]例如,本发明可以应用在语音唤醒系统中,假设唤醒命令为“微信秘书”,当用户说出“微信秘书”的语音时,系统会自动识别出该语音的字符串“微信秘书”,从而唤醒“微信秘书”这个功能。
[0036]所述声学模型是语音识别系统中最为重要的部分之一,目前的主流语音识别系统多采用隐马尔科夫模型(HMM,Hidden Markov Model)进行建模,隐马尔可夫模型是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。在声学模型中描述了语音与音素的对应概率。所述音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位;从生理性质来看,一个发音动作形成一个音素。
[0037]本发明中所述声学模型训练计算的具体计算方法可以采用现有的成熟的训练计算方法,例如可以使用隐马尔科夫模型工具(HTK,Hidden Markov Model Toolkit)的工具和流程,对语音进行声学模型训练计算得到对应的声学模型。其中:
[0038]步骤101中,所述对语音进行低于指定精度的声学模型训练计算的过程中,需要使用尽可能多的语音数据,为了能够低于指定的精度,其中具体包括:用于描述音素的混合高斯模型(GMM, Gaussian mixture model)中的高斯数量BI需要低于指定值,例如在本发明的优选实施例中,所述对语音进行低于指定精度的声学模型训练计算的过程中用于描述音素的混合高斯模型中的高斯数量BI可以为4或8。所述高斯混合模型可以有效地提取语音信号中的说话人特征、剔除语义等冗余信息,从而较充分地反映说话人个性特征的统计分布,是目前语音识别的主流技术。
[0039]步骤102中,所述对语音进行高于指定精度的声学模型训练计算的过程中,需要使用尽可能多的语音数据,为了能够高于指定的精度,其中具体包括:用于描述音素的混合高斯模型中的高斯数量B2高于指定值,且所述B2需要大于所述对语音进行低于指定精度的声学模型训练计算的过程中用于描述音素的混合高斯模型中的高斯数量BI,例如在本发明的优选实施中,所述B2需要远大于BI,例如所述B2为16或32或32以上的值。
[0040]在一种具体实施例中,步骤101中所述对语音进行低于指定精度的声学模型训练计算,得到背景声学模型,可以用精度较低的单音素(monophone)进行训练计算,也可以用精度较高的三音素(triphone)进行训练计算,但是需要对三音素进行聚类处理。
[0041]例如步骤101具体可以为:对语音进行单音素的声学模型训练计算,将得到的单音素声学模型作为背景声学模型。其中,用于描述所述单音素的GMM中的高斯数量BI需要低于指定值,例如在本发明的优选实施例中,所述BI可以为4或8。
[0042]或者步骤101具体可以为:对语音进行三音素的声学模型训练计算,得到三音素声学模型,对该三音素声学模型中的三音素进行聚类,将聚类后的三音素声学模型作为背景声学模型。其中,用于描述所述三音素的GMM中的高斯数量BI需要低于指定值,例如在本发明的优选实施例中,所述BI可以为4或8。
[0043]在一种具体实施例中,步骤102中所述对语音进行高于指定精度的声学模型训练计算,得到前景声学模型,可以用精度较高的三音素进行训练计算;也可以用精度较低的单音素进行训练计算,但是这些单音素序列需要是增强的隐马尔可夫模型(HMM,HiddenMarkov Model)序列,例如用于描述这些单音素的GMM中的高斯数量要为很高的值,通常为32或更高的值。
[0044]例如步骤102具体可以为:对语音进行三音素的声学模型训练,得到三音素声学模型,其中用于描述该三音素的GMM的高斯数量B2需要高于指定值,例如在本发明的优选实施例中,所述B2为16或32或32以上的值。之后利用命令词对应的语音对得到的三音素声学模型进行自适应计算,将经过自适应计算后的三音素声学模型作为前景声学模型。
[0045]或者步骤102具体也可以为:对语音进行单音素的声学模型训练计算,得到单音素声学模型,其中用于描述单音素的GMM中的高斯数量B2高于指定高值,例如B2为32或更高的值,之后利用命令词对应的语音对得到的单音素声学模型进行自适应计算,将经过自适应计算后的单音素声学模型作为背景声学模型。
[0046]图2为本发明一种实施例中依据前景声学模型和背景声学模型构建的一种解码网络的示意图。参见图2,在该实施例中,假设所述前景声学模型为对语音进行三音素的声学模型训练得到的三音素声学模型,所述背景声学模型为对语音进行单音素的声学模型训练计算得到的单音素声学模型。所构建的解码网络为加权优先转换机(WFST,weightedfinite state transducer)网络。参见图2,以WFST的形式展示了对应的解码网络。图2中的每条边都有两个标签(label),如sil:〈eps>,冒号左侧的标签是输入标签,代表解码过程中从此处通过需要的HMM,冒号右侧的标签是输出标签,代表了从此处通过后输出的符号。图2中的解码网络可以分为两个部分,路径0,1,2,5和路径0,3,4,5。其中路径0,1,2,5包含了一个命令词的三音素序列,该路径0,I, 2,5是从所述前景声学模型中选择出该命令词包含的所有三音素,再由这些三音素构建成的一条路径,在解码过程中,通过此路径的令牌(Token)需要通过命令词所对应的所有三音素,因此对提高对命令词语音的识别率。如果需要识别两个以上命令词,则可以针对每个命令词,从所述前景声学模型中选择该命令词包含的三音素,然后利用选出的该命令词包含的三音素构建该命令词对应的一条解码路径。
[0047]参见图2,路径0,3,4,5中包含了所有单音素的序列,该路径0,3,4,5是依据所述背景声学模型的所有单音素构建成的,其中从节点3到节点4之间,包括了 N条并列的以单音素为输入输出符号的边,所述背景声学模型中的每个单音素都对应一条边。同时,从节点4到节点3又返回一个空边。因此在解码过程,令牌可以通过由4到3的边在节点3、4之间反复传递,当用户说的不是命令词时,该路径可以表示用户所说的内容;通过该路径
O,3,4,5的令牌,其输出为一个音素串的序列。
[0048]在终点节点5输出的字符串按照概率值的高低进行排列,最终选择概率值最高的字符串作为解码结果。如果输入的语音是命令词,则从路径0,1,2,5输出的字符串的概率会远远高于从路径0,3,4,5输出的字符串的概率,因此会正确识别出该命令词对应的字符串;如果输入的语音不是命令词,则从路径0,1,2,5输出的字符串的概率会远远低于从路径0,3,4,5输出的字符串的概率,而从路径0,3,4,5输出的字符串又不是命令词对应的字符串,因此会正确识别出概率最高的字符串不是命令词,从而可以准确地识别输入的语音是否为指定的命令词。
[0049]本发明的一种实施例中,所述解码器使用的是经典的Token Passing算法。在嵌入式环境下,为了提高速度,减小解码器所占用的内存,只需要保留最优解即可,即将解码器输出的概率值最高的字符串作为解码结果。如果最优解中包含了命令词,那么就认为用户说出了命令词,触发该命令词对应的操作如唤醒对应设备,否则认为用户没有说出命令词。
[0050]当然在另一种实施例中,也可以将解码器输出的概率值排在前几名的字符串都作为解码结果,如果这几个字符串中包含了命令词,则就认为用户说出了命令词,触发该命令词对应的操作如唤醒对应设备,否则认为用户没有说出命令词。
[0051]在一种具体的实施例中,本发明在步骤104之前还要进一步检测语音活动。如图3为本发明增加语音活动检测过程的一种实施例的流程图。参见图3,在步骤104之前进一步包括语音活动检测(VAD, voice activity detection)的处理,即检测语音活动。
[0052]所述语音活动检测也称静音检测、语音端点检测等。其主要目的是将噪声语音信号中的语音/非语音部分检测出来,并找出语音的起点和终点。常用的语音活动检测的方法有基于能量、过零率、基频、谐波等等。其中最常用的方法是基于能量的方法,因为这种方法可以应用到不同环境。语音活动检测主要分为两部分:第一部分是特征提取,表示的是语音存在的可能性;第二部分是语音/非语音判决机制,确定语音是否存在。本发明中使用基于能量的方法。
[0053]图4为通过语音活动检测进行语音命令识别的一种具体流程示意图。该图4的应用场景为语音唤醒系统,即需要识别语音唤醒命令来唤醒相应的设备。参见图4,在用户启动语音唤醒系统的时候开始录音,将采集的声音送到VAD模块,由VAD模块检测是否有语音开始(即用户是否开始说话)。如果没有检测到有人说话,那么就继续等待下一段语音。如果检测到了语音开始,那么就进入下一个状态,开始不断地将语音输入到解码器,解码器依据所述解码网络对输入的语音进行解码,同时检测语音是否结束(即用户说话结束)。如果语音未结束则继续向解码器输入语音进行解码,当检测到语音结束时,从解码器提取解码结果,并查看结果中是否包含相应的命令词。如果结果中包括了命令词,那么唤醒系统;否则的话继续保持休眠状态。
[0054]此外,本发明中所述步骤101至103可以是离线过程,即指离线的在服务器上提前构建好解码网络的过程。所述VAD检测过程、步骤104和步骤105可以是在线过程,即指的是运行在客户端上的运行过程。当然,所述步骤101至103也可以是在客户端上运行的在线过程,可以在客户端上根据需求构建相应的解码网络。
[0055]与上述方法对应,本发明还公开了一种语音命令识别系统,用于执行上述语音命令识别方法。图5为本发明所述的语音命令识别系统的一种组成示意图,参见图5,该系统包括:
[0056]背景声学模型训练模块501,用于对语音进行低于指定精度的声学模型训练计算,得到背景声学模型;
[0057]前景声学模型训练模块502,用于对语音进行高于指定精度的声学模型训练计算,得到前景声学模型;
[0058]解码网络构建模块503,用于依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径;
[0059]解码器504,用于依据所述解码网络对输入的语音进行解码;[0060]判断模块505,用于在语音结束后判断解码器的解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
[0061]在一种具体实施例中,所述背景声学模型训练模块在对语音进行低于指定精度的声学模型训练计算的过程中,用于描述音素的混合高斯模型中的高斯数量BI低于指定值;所述前景声学模型训练模块在对语音进行高于指定精度的声学模型训练计算的过程中,用于描述音素的混合高斯模型中的高斯数量B2高于指定值,且所述B2大于BI。例如,例如所述BI为4或8,所述B2为16或32或32以上的值。
[0062]在一种具体实施例中,所述背景声学模型训练模块具体用于:
[0063]对语音进行单音素的声学模型训练计算,将得到的单音素声学模型作为背景声学模型;
[0064]或者,对语音进行三音素的声学模型训练计算,得到三音素声学模型,对该三音素声学模型中的三音素进行聚类,将聚类后的三音素声学模型作为背景声学模型。
[0065]在一种具体实施例中,所述前景声学模型训练模块具体用于:
[0066]对语音进行三音素的声学模型训练,利用命令词对应的语音对得到的三音素声学模型进行自适应计算,将经过自适应计算后的三音素声学模型作为前景声学模型;
[0067]对语音进行单音素的声学模型训练计算,其中用于描述单音素的混合高斯模型中的高斯数量高于指定高值,利用命令词对应的语音对得到的单音素声学模型进行自适应计算,将经过自适应计算后的单音素声学模型作为背景声学模型。
[0068]在一种具体实施例中,待识别的命令词可以为一个以上,所述解码网络构建模块具体用于:从所述前景声学模型中选择各个命令词包含的音素;针对每一命令词,利用选出的该命令词包含的音素构建该命令词对应的一条解码路径;依据所述背景声学模型的所有音素构建对应的解码路径。
[0069]图6为本发明所述的语音命令识别系统的又一种组成示意图,参见图6,该系统进一步包括语音活动检测模块(VAD模块)506,用于检测语音活动,在检测到有语音开始后,将该语音输入到所述解码器中进行解码,并继续检测语音是否结束,如果未结束则继续将语音输入到所述解码器中进行界面,如果结束则触发所述判断模块进行相应的处理。
[0070]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
【权利要求】
1.一种语音命令识别方法,其特征在于,包括: 对语音进行低于指定精度的声学模型训练计算,得到背景声学模型; 对语音进行高于指定精度的声学模型训练计算,得到前景声学模型; 依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径; 依据所述解码网络对输入的语音进行解码,在语音结束后判断解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
2.根据权利要求1所述的方法,其特征在于, 所述对语音进行低于指定精度的声学模型训练计算的过程中,具体包括:用于描述音素的混合高斯模型中的高斯数量BI低于指定值; 所述对语音进行高于指定精度的声学模型训练计算的过程中,具体包括:用于描述音素的混合高斯模型中的高斯数量B2高于指定值,且所述B2大于BI。
3.根据权利要求2所述的方法,其特征在于,所述对语音进行低于指定精度的声学模型训练计算的 过程中用于描述音素的混合高斯模型中的高斯数量BI为4或8 ;所述对语音进行高于指定精度的声学模型训练计算的过程中用于描述音素的混合高斯模型中的高斯数量B2为16或32或32以上的值。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述对语音进行低于指定精度的声学模型训练计算,得到背景声学模型,具体为: 对语音进行单音素的声学模型训练计算,将得到的单音素声学模型作为背景声学模型; 或者,对语音进行三音素的声学模型训练计算,得到三音素声学模型,对该三音素声学模型中的三音素进行聚类,将聚类后的三音素声学模型作为背景声学模型。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述对语音进行高于指定精度的声学模型训练计算,得到前景声学模型,具体为: 对语音进行三音素的声学模型训练,利用命令词对应的语音对得到的三音素声学模型进行自适应计算,将经过自适应计算后的三音素声学模型作为前景声学模型; 对语音进行单音素的声学模型训练计算,其中用于描述单音素的混合高斯模型中的高斯数量高于指定高值,利用命令词对应的语音对得到的单音素声学模型进行自适应计算,将经过自适应计算后的单音素声学模型作为背景声学模型。
6.根据权利要求1所述的方法,其特征在于,所述依据所述前景声学模型和背景声学模型构建解码网络,具体包括: 从所述前景声学模型中选择各个命令词包含的音素;针对每一命令词,利用选出的该命令词包含的音素构建该命令词对应的一条解码路径; 依据所述背景声学模型的所有音素构建对应的解码路径。
7.根据权利要求1所述的方法,其特征在于, 所述依据所述解码网络对输入的语音进行解码,在语音结束后判断解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作,具体包括:检测语音活动,在检测到有语音开始后,再依据所述解码网络对输入的语音进行解码,并继续检测语音是否结束,如果未结束则继续依据所述解码网络对输入的语音进行解码,如果结束则判断当前解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
8.一种语音命令识别系统,其特征在于,包括: 背景声学模型训练模块,用于对语音进行低于指定精度的声学模型训练计算,得到背景声学模型; 前景声学模型训练模块,用于对语音进行高于指定精度的声学模型训练计算,得到前景声学模型; 解码网络构建模块,用于依据所述前景声学模型和背景声学模型构建解码网络,其中包括:从所述前景声学模型中选择命令词包含的音素,利用选出的音素构建所述命令词对应的解码路径,依据所述背景声学模型的音素构建对应的解码路径; 解码器,用于依据所述解码网络对输入的语音进行解码; 判断模块,用于在语音结束后判断解码器的解码结果是否为指定命令词的字符串,在解码结果为指定命令词的字符串时触发该命令词对应的操作。
9.根据权利要求8所述的系统,其特征在于, 所述背景声学模型训练模块在对语音进行低于指定精度的声学模型训练计算的过程中,用于描述音素的混合高斯模型中的高斯数量BI低于指定值; 所述前景声学模型训练模块在对语音进行高于指定精度的声学模型训练计算的过程中,用于描述音素的混合高斯模型中的高斯数量B2高于指定值,且所述B2大于BI。
10.根据权利要求8所述的系统,其特征在于, 所述背景声学模型训练模块在对语音进行低于指定精度的声学模型训练计算的过程中用于描述音素的混合高斯模型中的高斯数量BI为4或8 ; 所述前景声学模型训练模块在对语音进行高于指定精度的声学模型训练计算的过程中用于描述音素的混合高斯模型中的高斯数量B2为16或32或32以上的值。
11.根据权利要求8至10任一项所述的系统,其特征在于,所述背景声学模型训练模块具体用于: 对语音进行单音素的声学模型训练计算,将得到的单音素声学模型作为背景声学模型; 或者,对语音进行三音素的声学模型训练计算,得到三音素声学模型,对该三音素声学模型中的三音素进行聚类,将聚类后的三音素声学模型作为背景声学模型。
12.根据权利要求8至10任一项所述的系统,其特征在于,所述前景声学模型训练模块具体用于: 对语音进行三音素的声学模型训练,利用命令词对应的语音对得到的三音素声学模型进行自适应计算,将经过自适应计算后的三音素声学模型作为前景声学模型; 对语音进行单音素的声学模型训练计算,其中用于描述单音素的混合高斯模型中的高斯数量高于指定高值,利用命令词对应的语音对得到的单音素声学模型进行自适应计算,将经过自适应计算后的单音素声学模型作为背景声学模型。
13.根据权利要求8所述的系统,其特征在于,所述解码网络构建模块具体用于:从所述前景声学模型中选择各个命令词包含的音素;针对每一命令词,利用选出的该命令词包含的音素构建该命令词对应的一条解码路径; 依据所述背景声学模型的所有音素构建对应的解码路径。
14.根据权利要求8所述的系统,其特征在于,该系统进一步包括: 语音活动检测模块,用于检测语音活动,在检测到有语音开始后,将该语音输入到所述解码器中进行解码,并继续检测语音是否结束,如果未结束则继续将语音输入到所述解码器中进行界面,如果结束则触发所述判断模块进行相应的处理。
【文档编号】G10L15/28GK103971685SQ201310035979
【公开日】2014年8月6日 申请日期:2013年1月30日 优先权日:2013年1月30日
【发明者】岳帅, 卢鲤, 张翔, 谢达东, 刘海波, 陈波, 刘荐 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1