语种无关的关键词识别方法及系统的制作方法

文档序号：2826402阅读：752来源：国知局

语种无关的关键词识别方法及系统的制作方法
【专利摘要】本发明公开了一种语种无关的关键词识别方法及系统，该方法包括：接收待检测语音信号；根据预先构建的解码网络对所述语音信号解码，得到候选关键词；采用不同方式对所述候选关键词进行置信度评价；对不同方式的置信度评价结果进行融合，得到所述候选关键词的有效置信度；根据所述有效置信度确定输出的关键词。
【专利说明】语种无关的关键词识别方法及系统
【技术领域】
[0001]本发明涉及语音关键词识别【技术领域】，具体涉及一种语种无关的关键词识别方法及系统。
【背景技术】
[0002]语音关键词识别是指从给定的语音文件或数据中，判断该语音数据是否包含了某个特定的关键词，以及确定该关键词出现的位置信息等。目前主流的语音关键词识别主要基于语音识别技术，首先采用和该语音语种相关的语音识别器识别出语音所包含的文本内容，随后从所述文本内容中检索特定关键词文本及出现的位置信息等。在这种方法中，用户能够比较方便地定义新的关键词，具有较好的扩展性。然而由于语音识别器的开发训练需要构建相应语种的声学模型和语言模型，因此在向其它语种推广时或因缺乏标注训练数据而无法实施。
[0003]近年来，公共安全领域对某些小语种或方言语种进行关键词检索的需求日益迫切。考虑到特定语种熟悉人员相对有限，缺乏标注数据，无法快速开发相应语音识别器，进而无法利用传统语音关键词识别系统和方法进行关键词检索。对此，研究人员提出了语种无关关键词识别应用，根据已有标注的关键词发音样本构建关键词模型，快速搭建语音关键词识别系统，灵活方便。
[0004]目前在语种无关关键词识别中，最常见的是基于DTM (Dynamic Time Warping,动态时间规整)的方法以及基于关键词统计模型/Filler模型的解码方法(HMM/Filler)。前者首先提取关键词的语音特征序列，并和待检索的语音信号特征逐段进行语音特征比较，获取相似的语音段。该算法运算复杂度高，且难以有效地综合多个关键词样本特征，检索效果不甚理想，在连续语音关键词识别中难以有效推广。而基于关键词统计模型/Filler模型的方法主要是通过对关键词建立统计模型及对非关键词建立Filler模型，一方面通过模型建模的方法将关键词多个样本有效地结合起来，另一方面借助Viterbi解码等动态搜索算法，确定待检测语音在所述模型构建的搜索网络中的最优路径，确定关键词位置信息。这种方法在训练数据覆盖充分，或者说检测环境和训练环境一致的情况下往往能取得较好的识别结果。然而在实际应用中，待检测语音数据由于噪声复杂性和口音、信道的多变性，导致检索出来的关键词往往不是真实的关键词，即虚警率较高，从而影响系统性能。

【发明内容】

[0005]本发明实施例提供一种语种无关的关键词识别方法及系统，以降低关键词识别的虚警率，提高系统性能。
[0006]为此，本发明提供如下技术方案:
[0007]—种语种无关的关键词识别方法，包括:
[0008]接收待检测语音信号；
[0009]根据预先构建的解码网络对所述语音信号解码，得到候选关键词；[0010]采用不同方式对所述候选关键词进行置信度评价；
[0011]对不同方式的置信度评价结果进行融合，得到所述候选关键词的有效置信度；
[0012]根据所述有效置信度确定输出的关键词。
[0013]优选地，所述采用不同方式对所述候选关键词进行置信度评价包括:基于对数似然比计算所述候选关键词的置信度；还包括:基于《Vector相关度计算所述候选关键词的置信度，和/或基于状态帧方差得分计算所述候选关键词的置信度。
[0014]优选地，所述基于《Vector相关度计算所述候选关键词的置信度包括:
[0015]训练通用背景模型；
[0016]根据关键词训练样本语音片段和所述通用背景模型，训练得到关键词GMM模型；
[0017]根据解码网络中对应所述候选关键词的路径获取所述候选关键词的语音片段，然后根据所述候选关键词的语音片段和所述通用背景模型，训练得到候选关键词GMM模型；
[0018]计算关键词GMM模型和候选关键词GMM模型之间的KL距离，并将所述KL距离作为所述候选关键词的置信度。
[0019]优选地，所述基于《Vector相关度计算所述候选关键词的置信度包括:
[0020]训练通用背景模型；
[0021]计算关键词训练样本语音片段在所述通用背景模型上的各高斯分量似然度，组成关键词发音模型；
[0022]根据解码网络中对应所述候选关键词的路径获取所述候选关键词的语音片段，然后计算所述语音片段在所述通用背景模型上各高斯分量似然度，组成候选关键词发音模型；
[0023]计算关键词发音模型和候选关键词发音模型之间的相关度，并将所述相关度作为所述候选关键词的置信度。
[0024]优选地，所述基于状态帧方差得分计算所述候选关键词的置信度包括:
[0025]获取所述候选关键词对应的语音段；
[0026]在关键词模型上进行强制切分，得到各状态上包含所述语音段的语音帧数量；
[0027]根据各状态上语音帧数量，统计语音帧的方差作为所述候选关键词的置信度。
[0028]优选地，所述基于状态帧方差得分计算所述候选关键词的置信度包括:
[0029]获取所述候选关键词对应的语音段及在关键词模型上各状态上的语音帧；
[0030]统计各状态上的语音帧的样本方差；
[0031]综合各状态上的语音帧的样本方差获得整体状态样本方差，并将所述整体状态样本方差作为所述候选关键词的置信度。
[0032]一种语种无关的关键词识别系统，包括:
[0033]接收模块，用于接收待检测语音信号；
[0034]解码模块，用于根据预先构建的解码网络对所述语音信号解码，得到候选关键词；
[0035]置信度评价模块，用于采用不同方式对所述候选关键词进行置信度评价；
[0036]融合模块，用于对不同方式的置信度评价结果进行融合，得到所述候选关键词的有效置信度；
[0037]输出模块，用于根据所述有效置信度确定输出的关键词。[0038]优选地，所述置信度评价模块包括:
[0039]第一评价模块，用于基于对数似然比计算所述候选关键词的置信度；
[0040]所述置信度评价模块还包括:
[0041]第二评价模块，用于基于《Vector相关度计算所述候选关键词的置信度；和/或
[0042]第三评价模块，用于基于状态帧方差得分计算所述候选关键词的置信度。
[0043]优选地，所述第二评价模块包括:
[0044]背景模型训练单元，用于训练通用背景模型；
[0045]关键词模型训练单元，用于根据关键词训练样本语音片段和所述通用背景模型，训练得到关键词GMM模型；
[0046]候选关键词模型训练单元，用于根据解码网络中对应所述候选关键词的路径获取所述候选关键词的语音片段，然后根据所述候选关键词的语音片段和所述通用背景模型，训练得到候选关键词GMM模型；
[0047]距离计算单元，有于计算关键词GMM模型和候选关键词GMM模型之间的KL距离，并将所述KL距离作为所述候选关键词的置信度。
[0048]优选地，所述第二评价模块包括:
[0049]背景模型训练单元，用于训练通用背景模型；
[0050]关键词发音模型构建单元，用于计算关键词训练样本语音片段在所述通用背景模型上的各高斯分量似然度，组成关键词发音模型；
[0051]候选关键词发音模型构建单元，用于根据解码网络中对应所述候选关键词的路径获取所述候选关键词的语音片段，然后计算所述语音片段在所述通用背景模型上各高斯分量似然度，组成候选关键词发音模型；
[0052]相关度计算单元，用于计算关键词发音模型和候选关键词发音模型之间的相关度，并将所述相关度作为所述候选关键词的置信度。
[0053]优选地，所述第三评价模块包括:
[0054]语音段获取单元，用于获取所述候选关键词对应的语音段；
[0055]切分单元，用于在关键词模型上进行强制切分，得到各状态上包含所述语音段的语音帧数量；
[0056]语音帧方差统计单元，用于根据各状态上语音帧数量，统计语音帧的方差作为所述候选关键词的置信度。
[0057]优选地，所述第三评价模块包括:
[0058]语音帧获取单元，用于获取所述候选关键词对应的语音段及在关键词模型上各状态上的语音帧；
[0059]样本方差统计单元，用于统计各状态上的语音帧的样本方差；
[0060]综合单元，用于综合各状态上的语音帧的样本方差获得整体状态样本方差，并将所述整体状态样本方差作为所述候选关键词的置信度。
[0061]本发明实施例提供的语种无关的关键词识别方法及系统，在根据解码网络得到关键词解码结果后，分别采用不同方式对所述关键词解码结果进行置信度评价，并对不同方式的置信度评价结果进行融合来确定关键词解码结果的置信度，根据该置信度确定各关键词解码结果的合理性，从而使得基于置信度对关键词解码结果的过滤更加准确合理，有效地提高了系统性能。
【专利附图】

【附图说明】
[0062]为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
[0063]图1是现有技术中基于置信度过滤的关键词识别方法的流程图；
[0064]图2是本发明实施例语种无关的关键词识别方法的流程图；
[0065]图3是本发明实施例中基于wVector相关度的置信度计算流程图；
[0066]图4是本发明实施例中一种基于状态帧方差得分的置信度计算流程图；
[0067]图5是本发明实施例中另一种基于状态帧方差得分的置信度计算流程图；
[0068]图6是本发明实施例语种无关的关键词识别系统的结构示意图。
【具体实施方式】
[0069]为了使本【技术领域】的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0070]在HMM/Filler 框架下，基于 MLE (Maximum Likelihood Estimation,最大似然估计)准则的 HMM 训练算法以及 Viterbi 和 WFST (weighted Finite stateTransducer,有限状态转换器)等高效的解码算法，使得基于关键词统计模型/Filler模型的解码方法在实际应用中具有良好的操作性和推广性。然而在真实环境下，待检测的语音信号往往会受到噪声、信道、地区人群等各种因素的影响，使得直接解码检索出来的关键词结果往往虚警较高，影响系统性能。对此，现有的HMM/Filler系统一般都在解码之后通过置信度过滤的方法来抑制虚警概率。
[0071]如图1所示，是现有技术中基于置信度过滤的关键词识别方法的流程图，包括以下步骤:
[0072]步骤101:分别训练关键词HMM模型及Filler模型。
[0073]步骤102:根据所述模型构建解码网络。
[0074]步骤103:对接收到的待检测语音信号，在所述解码网络内搜索最优路径，确定关键词模型所对应的语音段信号及其所在语音信号中的位置。
[0075]步骤104:对获取的关键词解码结果，包括关键词对应的语音段信号和解码路径得分等进行置信度评分，确认关键词检索结果的合理性。
[0076]步骤105:输出识别结果。
[0077]由上述流程可知，置信度得分计算合理与否，直接关系到关键词检索结果的取舍。置信度得分越高，则获取的关键词越可靠。反之若置信度得分不能真实反映检索状况，则容易导致关键词检索错误的问题。
[0078]目前，在语种无关关键词的置信度计算中，通常采用持续时间、对数似然比等得分。这些置信度计算方法主要依赖于解码路径结果，在一般情况下可以获得较好的结果，但在复杂实际应用环境下，单一依赖于解码路径结果的置信度计算很难对虚警率做出有效地过滤。[0079]分析现有的HMM/Filler系统，基于置信度过滤获取的关键词检索结果存在的虚警错误(即将不是关键词的语音段检索为关键词)，主要原因有以下两点:
[0080]1.识别结果和训练样本听感相差较远，即测试环境和训练环境差异较大
[0081]2.识别结果和训练样本发音有部分匹配，比如识别结果中存在“中国”字词，而关键词样本是“中华”，则在部分匹配的情况下，容易导致声学模型得分比较高，导致虚警错误的发生。
[0082]在传统基于解码路径得分，如对数似然比置信度得分过滤方法中，由于部分置信度得分很高从而导致虚警率较高，影响了系统性能和用户的主观感受。
[0083]基于上述对现有HMM/Filler系统中关键词检索结果产生虚警错误原因的分析，本发明实施例提供一种语种无关的关键词识别方法，使得基于置信度的过滤更加准确合理，进而提闻关键词识别系统的性能。
[0084]如图2所示，是本发明实施例语种无关的关键词识别方法的流程图，包括以下步骤:
[0085]步骤201:接收待检测语音信号。
[0086]步骤202:根据预先构建的解码网络对所述语音信号解码，得到候选关键词。
[0087]所述解码网络可以是根据关键词模型及Filler模型构建的，关键词模型及Filler模型的训练、以及解码网络的构建可采用现有技术中的一些训练及构建方式，对此本发明实施例不做限定。
[0088]解码的过程主要是对接收的待检测语音信号，在所述解码网络中搜索最优路径，确定关键词模型所对应的语音段信号及其所在语音信号中的位置。
[0089]步骤203:采用不同方式对所述候选关键词进行置信度评价。
[0090]对候选关键词进行置信度评价的目的是确定各关键词解码结果的正确性。由于置信度得分计算的合理与否，直接影响到对各候选关键词的取舍。如果置信度得分不能真实反映检索状况，则容易导致关键词检索错误的问题。因此，不同于传统的基于置信度的过滤方法中采用单一置信度的方式，在本发明实施例中，采用多种方式从不同角度计算各关键词解码结果的置信度，并对这些不同方式计算得到的置信度进行融合，获得各候选关键词的有效置信度，进而使基于置信度的过滤更加准确合理。
[0091]在本发明实施例中，以基于对数似然比计算候选关键词的置信度为基础，辅之以新的具有针对性的置信度得分计算方式，并通过置信度融合来抑制虚警错误置信度得分，使得基于置信度过滤更加准确合理，进而提高系统性能。
[0092]其中，基于对数似然比计算候选关键词的置信度的过程与现有技术类似，大致如下:
[0093]根据假设检验理论，似然比定义为给定观察量在Hl假设(属于某个概率分布)上的概率与在HO假设(不属于某个概率分布)上的概率的比值。由于概率分布通常假设为指数的形式，因此为了计算方便，通常用对数似然比替代似然比。在语种无关关键词中，若解码识别候选片段特征为0，对应的关键词模型为Atam, Filler模型记为λ fillOT，则对数似然比得分定义为:
「 I 9 -1Inr 1......>
[0094]",.T ^[0095]对数似然比反映了当前候选片段特征属于Ahmm的置信度。
[0096]本发明实施例中还提出了以下两种新的置信度计算方式，SP:
[0097](I)基于《Vector相关度计算候选关键词的置信度；
[0098](2)基于状态帧方差得分计算候选关键词的置信度。
[0099]上述两种新的置信度的计算过程将在后面详细描述。
[0100]步骤204:对不同方式的置信度评价结果进行融合，得到所述候选关键词的有效
置信度。
[0101]需要说明的是，在实际应用中，可以将基于对数似然比计算候选关键词的置信度与上述两种置信度中的任意一种进行融合，也可以同时与上述两种置信度进行融合，对此本发明实施例不做限定。
[0102]比如，假设识别结果语音片段在关键词模型上的基于对数似然比得分的置信度为S11P基于状态帧方差的置信度为Svm ，基于WVector相关度的置信度得分为Swve;。。
[0103]在本发明实施例中，可以采用加权平均的方法对上述各置信度得分进行融合。
[0104]首先将Sm和Svm ftame进行融合，然后再与Swvee进行融合，融合公式如下:
[0105]Sfinal= (1- β ) (Sllr+ a Svar frame) + β (Swvec- μ ) / σ
[0106]其中，S11J α Svar frame是为了将状态帧方差作为似然比得分的一个附加部分(Svm—fMre区分性比较弱，作为附加项比较合适)，μ和σ的引入是为了将Swve。规整到与S]_lr+ Q Svar—frame 相同的水平。
[0107]当然，在实际应用中，还可以采用其它融合方式，对此本发明实施例不做限定。
[0108]步骤205:根据所述有效置信度确定输出的关键词。
[0109]比如，在融合得到的某个候选关键词的有效置信度高于设定的阈值时，即可输出该候选关键词。
[0110]本发明实施例提供的语种无关的关键词识别方法，在根据解码网络得到关键词解码结果即候选关键词后，分别采用不同方式对所述候选关键词进行置信度评价，并对不同方式的置信度评价结果进行融合来确定各候选关键词的置信度，根据该置信度确定各关键词解码结果的合理性，从而使得基于置信度对关键词解码结果的过滤更加准确合理，有效地提闻了系统性能。
[0111]前面提到，本发明实施例中采用多种不同方式确定关键词解码结果的置信度，下面对其分别进行详细说明。
[0112]如图3所示，是本发明实施例中基于wVector相关度的置信度计算流程。
[0113]针对识别结果对应的语音片段与关键词训练样本语音片段听感相差较远的虚警问题，可以对关键词训练样本语音片段及解码出的候选关键词语音片段，分别建立混合高斯模型(GMM)，然后通过计算两个混合高斯模型之间的KL距离(Kullback-LeiblerDivergence ),进行虚警控制。
[0114]为了保持混合模型高斯分量之间的对应，在训练关键词GMM模型和候选关键词GMM模型参数时，可以从通用背景模型(UBM模型)出发，采用最大后验概率估计算法(MAP)进行参数估计。
[0115]具体计算过程如图3所示，包括以下步骤:
[0116]步骤一:根据大量语种相关的真实数据训练通用背景模型。[0117]步骤二:根据每个关键词的训练样本语音片段，训练得到对应该关键词的GMM模型。
[0118]具体地，可以采用MAP算法对预先估计的通用背景模型进行自适应，获取关键词文本相关的GMM模型，为了描述方便，称之为关键词GMM模型。
[0119]步骤三:根据待检测语种中识别解码结果路径获取每个候选关键词的语音片段，采用MAP算法对预先估计的通用背景模型进行自适应，获取候选关键词语音片段对应的文本相关的GMM模型，为了描述方便，称之为侯选关键词GMM模型。
[0120]步骤四:计算关键词GMM模型和候选关键词GMM模型之间的KL距离。
[0121]假设关键词GMM模型和候选关键词GMM模型表示的概率分布分别为f(x)和g(x)，则KL距离定义为:
[0122]
【权利要求】
1.一种语种无关的关键词识别方法，其特征在于，包括: 接收待检测语音信号；根据预先构建的解码网络对所述语音信号解码，得到候选关键词；采用不同方式对所述候选关键词进行置信度评价；对不同方式的置信度评价结果进行融合，得到所述候选关键词的有效置信度；根据所述有效置信度确定输出的关键词。
2.根据权利要求1所述的方法，其特征在于，所述采用不同方式对所述候选关键词进行置信度评价包括:基于对数似然比计算所述候选关键词的置信度；还包括:基于wVector相关度计算所述候选关键词的置信度，和/或基于状态帧方差得分计算所述候选关键词的置信度。
3.根据权利要求2所述的方法，其特征在于，所述基于《Vector相关度计算所述候选关键词的置信度包括: 训练通用背景模型；根据关键词训练样本语音片段和所述通用背景模型，训练得到关键词GMM模型；根据解码网络中对应所述候选关键词的路径获取所述候选关键词的语音片段，然后根据所述候选关键词的语音片段和所述通用背景模型，训练得到候选关键词GMM模型；计算关键词GMM模型和候选关键词GMM模型之间的KL距离，并将所述KL距离作为所述候选关键词的置信度。
4.根据权利要求2所述的方法，其特征在于，所述基于《Vector相关度计算所述候选关键词的置信度包括: 训练通用背景模型；计算关键词训练样本语音片段在所述通用背景模型上的各高斯分量似然度，组成关键词发音模型；根据解码网络中对应所述候选关键词的路径获取所述候选关键词的语音片段，然后计算所述语音片段在所述通用背景模型上各高斯分量似然度，组成候选关键词发音模型；计算关键词发音模型和候选关键词发音模型之间的相关度，并将所述相关度作为所述候选关键词的置信度。
5.根据权利要求2所述的方法，其特征在于，所述基于状态帧方差得分计算所述候选关键词的置信度包括: 获取所述候选关键词对应的语音段；在关键词模型上进行强制切分，得到各状态上包含所述语音段的语音帧数量；根据各状态上语音帧数量，统计语音帧的方差作为所述候选关键词的置信度。
6.根据权利要求2所述的方法，其特征在于，所述基于状态帧方差得分计算所述候选关键词的置信度包括: 获取所述候选关键词对应的语音段及在关键词模型上各状态上的语音帧；统计各状态上的语音帧的样本方差；综合各状态上的语音帧的样本方差获得整体状态样本方差，并将所述整体状态样本方差作为所述候选关键词的置信度。
7.一种语种无关的关键词识别系统，其特征在于，包括:接收模块，用于接收待检测语音信号；解码模块，用于根据预先构建的解码网络对所述语音信号解码，得到候选关键词；置信度评价模块，用于采用不同方式对所述候选关键词进行置信度评价；融合模块，用于对不同方式的置信度评价结果进行融合，得到所述候选关键词的有效置信度；输出模块，用于根据所述有效置信度确定输出的关键词。
8.根据权利要求7所述的系统，其特征在于，所述置信度评价模块包括: 第一评价模块，用于基于对数似然比计算所述候选关键词的置信度；所述置信度评价模块还包括: 第二评价模块，用于基于《Vector相关度计算所述候选关键词的置信度；和/或第三评价模块，用于基于状态帧方差得分计算所述候选关键词的置信度。
9.根据权利要求8所述的系统，其特征在于，所述第二评价模块包括: 背景模型训练单元，用于训练通用背景模型；关键词模型训练单元，用于根据关键词训练样本语音片段和所述通用背景模型，训练得到关键词GMM模型；候选关键词模型训练单元，用于根据解码网络中对应所述候选关键词的路径获取所述候选关键词的语音片段，然`后根据所述候选关键词的语音片段和所述通用背景模型，训练得到候选关键词GMM模型；距离计算单元，有于计算关键词GMM模型和候选关键词GMM模型之间的KL距离，并将所述KL距离作为所述候选关键词的置信度。
10.根据权利要求8所述的系统，其特征在于，所述第二评价模块包括: 背景模型训练单元，用于训练通用背景模型；关键词发音模型构建单元，用于计算关键词训练样本语音片段在所述通用背景模型上的各高斯分量似然度，组成关键词发音模型；候选关键词发音模型构建单元，用于根据解码网络中对应所述候选关键词的路径获取所述候选关键词的语音片段，然后计算所述语音片段在所述通用背景模型上各高斯分量似然度，组成候选关键词发音模型；相关度计算单元，用于计算关键词发音模型和候选关键词发音模型之间的相关度，并将所述相关度作为所述候选关键词的置信度。
11.根据权利要求8所述的系统，其特征在于，所述第三评价模块包括: 语音段获取单元，用于获取所述候选关键词对应的语音段；切分单元，用于在关键词模型上进行强制切分，得到各状态上包含所述语音段的语音帧数量；语音帧方差统计单元，用于根据各状态上语音帧数量，统计语音帧的方差作为所述候选关键词的置信度。
12.根据权利要求8所述的系统，其特征在于，所述第三评价模块包括: 语音帧获取单元，用于获取所述候选关键词对应的语音段及在关键词模型上各状态上的语音帧；样本方差统计单元，用于统计各状态上的语音帧的样本方差；综合单元，用于综合各状态上的语音帧的样本方差获得整体状态样本方差，并将所述整体状态样本方差作为所述候选关键`词的置信度。
【文档编号】G10L15/10GK103559881SQ201310553073
【公开日】2014年2月5日申请日期:2013年11月8日优先权日:2013年11月8日
【发明者】刘俊华, 魏思, 胡国平, 胡郁申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘俊华;魏思;胡国平;胡郁
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人

上一篇：语种识别系统中声学特征提取方法及装置制造方法
上一篇：语音输入系统和方法