语种无关的关键词检索方法及系统的制作方法

文档序号:6518461阅读:782来源:国知局
语种无关的关键词检索方法及系统的制作方法
【专利摘要】本发明公开了一种语种无关的关键词检索方法及系统,该方法包括:构建关键词模型和吸收模型;利用训练数据对所述关键词模型进行优化;根据优化后的关键词模型和所述吸收模型构建解码网络;对接收到的待检测语音信号,利用所述解码网络进行关键词检索;输出检索结果。利用本发明,可以在关键词训练数据样本有限的情况下提高关键词检出率。
【专利说明】语种无关的关键词检索方法及系统
【技术领域】
[0001]本发明涉及语音关键词识别【技术领域】,具体涉及一种语种无关的关键词检索方法及系统。
【背景技术】
[0002]语音关键词识别是指从给定的语音文件或数据中,判断该语音数据是否包含了某个特定的关键词,以及确定该关键词出现的位置信息等。目前主流的语音关键词识别主要基于语音识别技术,首先采用和该语音语种相关的语音识别器识别出语音所包含的文本内容,随后从所述文本内容中检索特定关键词文本及出现的位置信息等。在这种方法中,用户能够比较方便地定义新的关键词,具有较好的扩展性。然而由于语音识别器的开发训练需要构建相应语种的声学模型和语言模型,因此在向其它语种推广时或因缺乏标注训练数据而无法实施。
[0003]近年来,公共安全领域对某些小语种或方言语种进行关键词检索的需求日益迫切。考虑到特定语种熟悉人员相对有限,缺乏标注数据,无法快速开发相应语音识别器,进而无法利用传统语音关键词识别系统和方法进行关键词检索。对此,研究人员提出了语种无关关键词识别应用,根据已有标注的关键词发音样本构建关键词模型,快速搭建语音关键词识别系统,灵活方便。
[0004]目前在语种无关关键词检索中,最常见的是基于DTM (Dynamic Time Warping,动态时间规整)的方法以及基于关键词模型/Filler模型的解码方法。前者首先提取关键词的语音特征序列,并和待检索的语音信号特征逐段进行语音特征比较,获取相似的语音段。该算法运算复杂度高,且难以有效地综合多个关键词样本特征,检索效果不甚理想,在连续语音关键词识别中难以有效推广。而基于关键词统计模型/Filler模型的方法主要是通过对关键词建立统计模型及对非关键词建立Filler模型,一方面通过模型建模的方法将关键词多个样本有效地结合起来,另一方面借助Viterbi解码等动态搜索算法,确定待检测语音在所述模型构建的搜索网络中的最优路径,确定关键词位置信息。
[0005]目前对关键词模型的构建主要采用HMM(Hidden Markov Model,隐马尔可夫模型)的拓扑结构,用以模拟语音信号的动态过程。显然关键词HMM模型的精细度和区分性将直接影响到检测的准确率。传统基于HMM模型/Filler模型的关键词检索系统主要采用MLE(Maximum Likelihood Estimation,最大似然估计)准则对模型参数进行估计。然而当关键词训练样本个数有限时,MLE准则下模型参数难以精确估计,从而影响系统系能。

【发明内容】

[0006]本发明实施例提供一种语种无关的关键词检索方法及系统,以在关键词训练数据样本有限的情况下提闻关键词检出率。
[0007]为此,本发明提供如下技术方案:
[0008]一种语种无关的关键词检索方法,包括:[0009]构建关键词模型和吸收模型;
[0010]利用训练数据对所述关键词模型进行优化;
[0011]根据优化后的关键词模型和所述吸收模型构建解码网络;
[0012]对接收到的待检测语音信号,利用所述解码网络进行关键词检索;
[0013]输出检索结果。
[0014]优选地,所述构建关键词模型包括:
[0015]确定关键词模型的拓扑结构及初始参数。
[0016]优选地,所述利用训练数据对所述关键词模型进行优化包括:
[0017]获取语音数据的概率分布模型;
[0018]根据所述初始参数确定所述关键词模型中各状态对应的训练数据;
[0019]利用所述训练数据和所述概率分布模型对所述关键词模型进行优化。
[0020]优选地,所述获取语音数据的概率分布模型包括:根据大量真实数据获取语音数据的概率分布模型;
[0021]所述根据所述初始参数确定所述关键词模型中各状态对应的训练数据包括:利用所述初始参数对每个训练样本进行强制切分,得到各状态所对应的训练数据。
[0022]优选地,所述利用所述训练数据和所述概率分布模型对所述关键词模型进行优化包括:
[0023]依次计算各状态所属数据相对于语音数据概率分布中每个高斯分量或子类的相似度,并选择设定数量的具有最大相似度的高斯分量或子类作为所述状态对应的关键词模型的先验概率分布;
[0024]利用所述状态对应的训练数据和所述先验概率分布更新所述关键词模型的参数。
[0025]一种语种无关的关键词检索系统,包括:
[0026]关键词模型构建模块,用于构建关键词模型;
[0027]吸收模型构建模块,用于构建吸收模型;
[0028]模型优化模块,用于利用训练数据对所述关键词模型进行优化;
[0029]解码网络构建模块,用于根据优化后的关键词模型和所述吸收模型构建解码网络;
[0030]检索模块,用于对接收到的待检测语音信号,利用所述解码网码进行关键词检索,并输出检索结果。
[0031]优选地,所述关键词模型构建模块,具体用于确定关键词模型的拓扑结构及初始参数。
[0032]优选地,所述模型优化模块包括:
[0033]概率分布模型获取单元,用于获取语音数据的概率分布模型;
[0034]训练数据获取单元,用于根据所述初始参数确定所述关键词模型中各状态对应的训练数据;
[0035]优化单元,用于利用所述训练数据和所述概率分布模型对所述关键词模型进行优化。
[0036]优选地,所述概率分布模型获取单元,具体用于根据大量真实数据获取语音数据的概率分布模型;[0037]所述训练数据获取单元,具体用于利用所述初始参数对每个训练样本进行强制切分,得到各状态所对应的训练数据。
[0038]优选地,所述化化单元包括:
[0039]先验概率分布更新单元,用于依次计算各状态所属数据相对于语音数据概率分布中每个高斯分量或子类的相似度,并选择设定数量的具有最大相似度的高斯分量或子类作为所述状态对应的关键词模型的先验概率分布;
[0040]参数更新单元,用于利用所述状态对应的训练数据和所述先验概率分布更新所述关键词模型的参数。
[0041]本发明实施例提供的语种无关的关键词检索方法及系统,在关键词模型/Filler模型框架下,利用关键词训练样本在MLE准则下获取关键词模型的初始参数,然后根据该初始参数确定关键词模型各状态所对应的训练数据,并获取关键词模型各状态的概率分布模型,最后根据训练数据对概率分布模型进行优化,使得概率分布模型符合训练数据分布特点,从而使得在关键词训练样本有限的情况下,提闻了关键词1旲型的准确性,进而提闻了关键词检索效果。
【专利附图】

【附图说明】
[0042]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0043]图1是本发明实施例语种无关的关键词检索方法的流程图;
[0044]图2是本发明实施例中关键词模型建模及优化过程示意图;
[0045]图3是本发明实施例语种无关的关键词检索系统的结构示意图。
【具体实施方式】
[0046]为了使本【技术领域】的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0047]一般来说,传统的基于HMM/Filler框架的关键词检测系统采用基于MLE训练的关键词模型,适用于训练数据充分的情况。具体地,系统首先利用关键词样本数据在MLE准则下训练得到各关键词的HMM模型,接着利用所有各类训练数据得到Filler模型。在接收到待检索的语音文件后,从由关键词模型和Filler模型构建的搜索空间内搜索最优路径,确定关键词的位置信息。其中关键词模型构建过程如下所示:
[0048]步一:确定关键词|旲型的拓扑结构。
[0049]通常采用HMM模型,包括M个状态,其中每个状态的分布概率由N个高斯描述。M、N是系统预设的参数,M和关键词音节数相关,音节越多则M越大,一般每个音节对应固定数目的状态。N和模型描述精细度有关,越精细则N越大。
[0050]步二:获取关键词对应的训练数据,并提取相应的声学特征序列样本。
[0051]步三:在MLE准则下利用所述声学特征序列样本训练得到HMM模型的参数,所述参数包括:跳转概率、分布概率等。
[0052]在关键词训练样本稀疏的情况下,MLE训练的关键词模型的准确性会受到影响。虽然关键词训练样本与发音人没有关系,可以采用历史积累样本进行训练,然而在公安监控领域,特别是针对一些小语种国家,很难收集到大量的某个关键词样本,例如有些词频率出现比较低,某些突发事件中引入的新的关键词语等。且人工录音难以模拟他国的口音,导致人工录音对性能影响也比较大,所以解决关键词训练样本稀疏问题是必要的。
[0053]为此,本发明实施例提供一种语种无关的关键词检索系统及方法,使得在训练样本有限的情况下,提闻关键词1旲型的准确性,进而有效提闻关键词检出率。
[0054]如图1所示,是本发明实施例语种无关的关键词检索方法的流程图,包括以下步骤:
[0055]步骤101,构建关键词模型和吸收模型。
[0056]所述关键词模型可以采用HMM模型。
[0057]首先需要确定HMM模型的拓扑结构,具体包括自左至右M个状态,其中,每个状态分布概率由N个高斯描述。M、N是预设的参数,M和关键词音节数相关,音节越多则M越大,一般每个音节对应固定数目的状态。N和模型描述精细度相关,越精细则N越大。
[0058]其次需要确定HMM模型的初始参数,包括确定各HMM模型的状态跳转概率、各状态分布参数(如各状态GMM分布的均值、方差等)等。
[0059]具体地,可以获取关键词对应的训练数据,并提取相应的声学特征序列样本,然后,在MLE准则下利用所述声学特征序列样本训练得到HMM模型的初始参数,包括:状态跳转概率、各状态的概率分布参数。
[0060]所述吸收模型可以是Filler模型。
[0061]步骤102,利用训练数据对所述关键词模型进行优化。
[0062]具体优化过程将在后面详细描述。
[0063]步骤103,根据优化后的关键词模型和所述吸收模型构建解码网络。
[0064]步骤104,对接收到的待检测语音信号,利用所述解码网络进行关键词检索。
[0065]步骤105,输出检索结果。
[0066]前面提到,在本发明实施例中,需要利用训练数据对所述关键词模型进行优化,下面对该优化过程进行详细说明。
[0067]如图2所示,示出了本发明实施例中关键词模型建模及优化过程。
[0068]该实施例中以HMM模型为例,由于关键词模型的构建过程与现有技术中类似,在此不再详细说明。
[0069]下面仅就具体优化过程进行说明,具体优化过程如下:
[0070]( I)获取语音数据的概率分布模型。
[0071]具体可以根据大量真实数据获取语音数据的概率分布模型。比如,可以采用MLE准则训练一个多高斯(GMM)的分布模型或者直接对所有训练数据(包括关键词训练数据及其他语音数据)进行聚类,获取各子类的均值和方差。
[0072]—般来说,子类越多,则每个类之间区分性越强。由于类似发音特征的相似性,每个高斯分量的概率分布其实都表征了一类相似发音的分布。
[0073](2)根据HMM模型的初始参数确定HMM模型中各状态对应的训练数据。
[0074]具体地,可以利用HMM模型的初始参数对每个训练样本进行强制切分,得到每个状态所对应的训练数据。[0075](3)利用所述训练数据和所述概率分布模型对所述关键词模型进行优化。
[0076]首先,依次计算各状态所属数据相对于语音数据概率分布中每个高斯分量或子类的相似度,并选择具有最大相似度的前N个高斯分量或子类作为该状态所对应的关键词模型的先验概率分布;
[0077]然后,利用各状态所对应的训练数据和所述先验概率分布更新所述关键词模型的参数。
[0078]假设每个状态上GMM分布概率密度函数记为:
[0079]
【权利要求】
1.一种语种无关的关键词检索方法,其特征在于,包括:
构建关键词模型和吸收模型; 利用训练数据对所述关键词模型进行优化; 根据优化后的关键词模型和所述吸收模型构建解码网络; 对接收到的待检测语音信号,利用所述解码网络进行关键词检索; 输出检索结果。
2.根据权利要求1所述的方法,其特征在于,所述构建关键词模型包括: 确定关键词模型的拓扑结构及初始参数。
3.根据权利要求2所述的方法,其特征在于,所述利用训练数据对所述关键词模型进行优化包括: 获取语音数据的概率分布模型; 根据所述初始参数确定所述关键词模型中各状态对应的训练数据; 利用所述训练数据和所述概率分布模型对所述关键词模型进行优化。
4.根据权利要求3所述的方法,其特征在于, 所述获取语音数据的概率分布模型包括:根据大量真实数据获取语音数据的概率分布模型; 所述根据所述初始参数确定所述关键词模型中各状态对应的训练数据包括:利用所述初始参数对每个训练样本进行强制切分,得到各状态所对应的训练数据。
5.根据权利要求3所述的方法,其特征在于,所述利用所述训练数据和所述概率分布模型对所述关键词模型进行优化包括: 依次计算各状态所属数据相对于语音数据概率分布中每个高斯分量或子类的相似度,并选择设定数量的具有最大相似度的高斯分量或子类作为所述状态对应的关键词模型的先验概率分布; 利用所述状态对应的训练数据和所述先验概率分布更新所述关键词模型的参数。
6.一种语种无关的关键词检索系统,其特征在于,包括: 关键词模型构建模块,用于构建关键词模型; 吸收模型构建模块,用于构建吸收模型; 模型优化模块,用于利用训练数据对所述关键词模型进行优化; 解码网络构建模块,用于根据优化后的关键词模型和所述吸收模型构建解码网络; 检索模块,用于对接收到的待检测语音信号,利用所述解码网码进行关键词检索,并输出检索结果。
7.根据权利要求6所述的系统,其特征在于, 所述关键词模型构建模块,具体用于确定关键词模型的拓扑结构及初始参数。
8.根据权利要求7所述的系统,其特征在于,所述模型优化模块包括: 概率分布模型获取单元,用于获取语音数据的概率分布模型; 训练数据获取单元,用于根据所述初始参数确定所述关键词模型中各状态对应的训练数据; 优化单元,用于利用所述训练数据和所述概率分布模型对所述关键词模型进行优化。
9.根据权利要求8所述的系统,其特征在于,所述概率分布模型获取单元,具体用于根据大量真实数据获取语音数据的概率分布模型; 所述训练数据获取单元,具体用于利用所述初始参数对每个训练样本进行强制切分,得到各状态所对应的训练数据。
10.根据权利要求8所述的系统,其特征在于,所述化化单元包括: 先验概率分布更新单元,用于依次计算各状态所属数据相对于语音数据概率分布中每个高斯分量或子类的相似度,并选择设定数量的具有最大相似度的高斯分量或子类作为所述状态对应的关键词模型的先验概率分布; 参数更新单元,用于利用所述状态对应的训练数据和所述先验概率分布更新所述关键词模型的参数。
【文档编号】G06F17/30GK103559289SQ201310554667
【公开日】2014年2月5日 申请日期:2013年11月8日 优先权日:2013年11月8日
【发明者】刘俊华, 魏思, 胡国平, 胡郁 申请人:安徽科大讯飞信息科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1