一种关键词检测方法和装置制造方法

文档序号：2826140阅读：271来源：国知局

一种关键词检测方法和装置制造方法
【专利摘要】本发明实施方式提出了一种关键词检测方法和装置。方法包括：生成包含语种信息的解码网络，在该解码网络中根据语种信息对关键词进行分组；利用所述解码网络对输入语音进行关键词检测，其中当检测出的关键词之间的语种信息不一致时，对所检测出关键词设置惩罚因子；基于惩罚因子评估所检测出的关键词。本发明实施方式有效规避了语种识别可能对关键词检测带来的影响，使得在多语种混杂的语音句子中检测关键词成为可能，而且只需要单一的检测引擎就可以完成多语种的关键词检测任务。
【专利说明】一种关键词检测方法和装置

【技术领域】
[0001] 本发明实施方式涉及语音处理【技术领域】，更具体地，涉及一种关键词检测方法和装直。

【背景技术】
[0002] 关键词检测是从语音流中定位给定关键词的起止时间点的过程，其中关键词是能够表达某种实质意义的词语，一般为名词或短语。现有的关键词检测系统框架一般可以分为两类，一类是基于垃圾网络的系统，一类是基于音素或音节识别器的系统。
[0003] 在基于垃圾网络的系统中，解码器的搜索空间由关键词和补白音节组成的网络构成。当一段语音进入网络后，有些部分被识别成关键词，其他部分被识别成补白音节，然后用置信度判决模块对识别出的关键词进行判决，最后输出被接受的关键词及其在语音中的位置信息。在基于音素或音节识别器的系统中，对输入语音进行全文识别，输出音素或音节网络，然后利用文本检索技术在网络中检测给定的关键词。
[0004] 在目前处理多语种关键词检测任务时，通常的做法是把该关键词检测任务分成两个独立的阶段进行。当一段语音被输入后，首先对语音进行语种识别，然后根据语种识别结果把语音送入与该语种相对应的关键词检测引擎中进行关键词检测，最后把所有结果汇总起来作为最终的检测结果。
[0005] 然而，在现有的多语种关键词检测技术中，语种识别的准确率直接会影响到后续关键词检测的效果。而且，由于语种识别一般需要至少一定长度的音频(如3?5秒)，在实际应用中会对流式关键词检测带来一定的障碍。另外，现有技术的关键词检测技术无法解决多语种混杂的情况，如"昨晚的演唱会high不high"则无法准确识别语种和关键词。

【发明内容】

[0006] 本发明实施方式提出一种关键词检测方法，以完成多语种的关键词检测任务。
[0007] 本发明实施方式还提出了一种关键词检测方法装置，以完成多语种的关键词检测任务。
[0008] 本发明实施方式的技术方案如下：
[0009] -种关键词检测方法，该方法包括：
[0010] 生成包含语种信息的解码网络，在该解码网络中根据语种信息对关键词进行分组；
[0011] 利用所述解码网络对输入语音进行关键词检测，其中当检测出的关键词之间的语种信息不一致时，对所检测出关键词设置惩罚因子；
[0012] 基于惩罚因子评估所检测出的关键词。
[0013] 一种关键词检测装置，包括解码网络生成单元、关键词检测单元和关键词评估单元，其中：
[0014] 解码网络生成单元，用于生成包含语种信息的解码网络，在该解码网络中根据语种信息对关键词进行分组；
[0015] 关键词检测单元，用于利用所述解码网络对输入语音进行关键词检测，其中当检测出的关键词之间的语种信息不一致时，对所检测出关键词设置惩罚因子；
[0016] 关键词评估单元，用于基于惩罚因子评估所检测出的关键词。
[0017] 从上述技术方案可以看出，在本发明实施方式中，生成包含语种信息的解码网络，在该解码网络中根据语种信息对关键词进行分组；利用所述解码网络对输入语音进行关键词检测，其中当检测出的关键词之间的语种信息不一致时，对所检测出关键词设置惩罚因子；基于惩罚因子评估所检测出的关键词。由此可见，应用本发明实施方式之后，将语种信息直接构造在解码网络中，利用语种信息对不同语种的关键词进行分组，有效规避了语种识别可能对关键词检测带来的影响，也使在多语种混杂的语音句子中检测关键词成为可能。
[0018] 另外，本发明实施方式在解码过程中，通过对语种信息的判断来调整令牌的得分，并引入了语种转换的惩罚函数，只需要单一的检测引擎就可以完成多语种的关键词检测任务。

【专利附图】

【附图说明】
[0019] 图1为现有技术中解码网络示意图；
[0020] 图2为根据本发明实施方式关键词检测方法流程图；
[0021] 图3为根据本发明实施方式解码网络示意图；
[0022] 图4为根据本发明实施方式关键词检测装置结构图。

【具体实施方式】
[0023] 为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。
[0024] 图1为现有技术中解码网络示意图。
[0025] 由图1可见，在现有技术基于垃圾网络的关键词检测系统使用的解码网络中，关键词和填充音节需要进一步做声学上下文展开，最终的解码空间以HMM状态为图节点。关键词使用较精细的声学模型描述，一般使用上下文相关的三音子HMM建模，这些模型被成为前景模型；填充音节代表语音段中的非关键词部分，一般使用较粗的声学模型，如聚类后的音素语言模型，这些模型被称为背景模型。
[0026] 然而，在现有的多语种关键词检测技术中，由于语种识别一般需要至少一定长度的音频(如3?5秒)，在实际应用中会对流式关键词检测带来一定的障碍。另外，现有技术的关键词检测技术无法解决多语种混杂的情况。
[0027] 在本发明实施方式中，基于垃圾网络的框架基础上提出了一种新的关键词检测方案。在本发明实施方式构造解码空间时，直接在解码空间中嵌入语种信息，从而有效规避了语种识别阶段对流式检测的影响；在本发明实施方式的解码过程中，可以利用语种信息对令牌传递策略进行调整，只需要单一的检测引擎就可以完成多语种的关键词检测任务。
[0028] 与现有的基于垃圾网络的关键词检测系统相比，本发明提出的技术方案主要有两点改进：
[0029] (1)多语种解码网络的构造，本发明在解码网络中嵌入语种信息；
[0030] (2)针对多语种解码网络的多语种关键词检测算法。在解码过程中，通过对语种信息的判断来调整令牌的得分，并引入了语种转换的惩罚函数。
[0031] 图2为根据本发明实施方式关键词检测方法流程图。
[0032] 如图2所示，该方法包括：
[0033] 步骤201 :生成包含语种信息的解码网络，在该解码网络中根据语种信息对关键词进行分组。
[0034] 在这里，在生成解码网络的过程中，可以初始化开始节点和结束节点，并针对每个语种信息k执行如下步骤，其中i为语种序号：
[0035] 构造语种节点Nu，并构造从开始节点到Nu的边；
[0036] 加载与该语种信息Q对应的关键词列表和填充音节列表；
[0037] 对所述关键词列表中的每一个关键词I，其中j为关键词序号，执行如下动作：
[0038] 将关键词Κ」转化成三音子序列，并针对每个三音子构造一个节点以形成节点序列；依次构造节点序列之间的边；构造语种节点N u到节点序列中第一个节点的边以及节点序列中最后节点到结束节点的边；
[0039] 对所述填充音节列表中的每个填充音节Fk，其中k为填充音节序号，执行如下动作：
[0040] 构造填充音节Fk对应的节点Na;
[0041] 构造语种节点Nu到NFk的边和NFk到结束节点的边；
[0042] 构造从结束节点到开始节点的边；
[0043] 输出所述解码网络。
[0044] 步骤202 :利用所述解码网络对输入语音进行关键词检测，其中当检测出的关键词之间的语种信息不一致时，对所检测出关键词设置惩罚因子。
[0045] 在一个实施方式中：
[0046] 在关键词检测的令牌传播过程中，当遇到语种状态节点时，比较该语种状态节点上的语种信息与令牌自带的语种信息是否匹配，如果不匹配，则对该令牌得分设置惩罚因子。
[0047] 更优选地，预先设置对应于语种类别差异的惩罚因子表；
[0048] 当检测出的关键词之间的语种信息不一致时，通过检索该惩罚因子表确定对检测出关键词所设置的惩罚因子。
[0049] 步骤203 :基于惩罚因子评估所检测出的关键词。
[0050] 在这里，可以预先设置关键词门限值；并利用置信度算法以及惩罚因子计算所检测出的关键词的置信度，其中当计算出的置信度低于所述关键词门限值时，去除该关键词。
[0051] 在上述流程中，还可以对填充音节增加一个惩罚因子，使得关键词更容易被识别出来，提高检测的召回率。而且，如果某些关键词对检测任务更重要，可以给这些关键词更大的加权因子，而给其他关键词较小的加权因子；并且在令牌传递过程中可对令牌的得分门限进行设置，从而加快解码速度。
[0052] 图3为根据本发明实施方式解码网络示意图。
[0053] 由图3可见，在该解码网络中根据语种信息对关键词和填充音节进行分组。在每个关键词和填充音节前都增加了与关键词和填充音节的语种相对应的语种状态节点。比如：语种节点1对应于具有该语种1的关键词11到ln，语种节点1对应于具有该语种1的填充音节11到lm ;依此类推，语种节点k对应于具有该语种k的关键词kl到kn，语种节点 k还对应于具有该语种k的填充音节kl到km。
[0054] 在令牌传播过程中，一旦遇到语种状态节点，就要比较该节点上的语种信息与令牌自带的语种信息是否匹配，如果不匹配就要对该令牌的得分进行一定程度的惩罚。
[0055] 其中，在构建本发明实施方式的多语种解码网络时，具体可以包括以下步骤：
[0056] 第一步：初始化开始节点Nstart和结束节点NEnd ;
[0057] 第二步：遍历多语种列表，其中针对每一个语种1^，可以顺序执行如下子步骤 [2. 1]、[2. 2] ·、[2. 3]和[2. 4]，其中子步骤[2. 3]包括进一步的子步骤[2. 3. 1]、[2. 3. 2]、 [2. 3. 3]和[2. 3. 4];子步骤[2. 4]包括进一步的子步骤[2. 4. 1]和[2. 4. 2]。因此，第二步具体包括：
[0058] [2. 1]·构造语种节点Nu，并构造从开始节点Nstart到Nu的边；
[0059] [2. 2].加载与语种Q对应的关键词列表和填充音节列表；
[0060] [2. 3].对关键词列表中的每一个关键词Kp执行如下动作；
[0061] [2· 3· 1] ·将关键词Κ』.转化成三音子序列?\，Τ2, · · ·，Τρ ;
[0062] [2· 3· 2] ·针对每个三音子构造一个节点，节点序列记为心Ν2, · · ·，Νρ ;
[0063] [2· 3· 3] ·依次构造 & 到 Ν2, Ν2 到 Ν3, · · ·，I 到 Νρ 的边；
[0064] [2. 3. 4].构造语种节点Nu到&的边和Νρ到结束节点NEnd的边；
[0065] [2. 4].对填充列表中的每个填充音节Fp执行如下动作
[0066] [2. 4. 1].构造填充音节匕对应的节点NFJ ;
[0067] [2. 4. 2].构造语种节点Nu到NFj的边和NFj到结束节点NEnd的边；
[0068] 第三步：构造从结束节点NEnd到开始节点Nstart的边；
[0069] 第四步：输出构造好的多语种解码网络。
[0070] 而且，在多语种关键词检测时，可以顺序执行以下步骤。其中：[1]为第一步；[2] 为第二步；[3]为第三步；[4]为第四步；[5]为第五步；[6]为第六步。而且[2]可以包括子步骤[2. 1];子步骤[2. 1]包括[2. 1. 1]、[2. 1. 2]、[2. 1. 3]和[2. 1. 4]。
[0071] 具体执行顺序如下：
[0072] [1].给开始节点一个初始活跃令牌（Token),得分初始化为1 ;
[0073] [2].读下一帧语音数据，执行如下步骤，直至所有语音数据处理完毕：
[0074] [2. 1].对每一个活跃令牌Tk，执行如下步骤，直至所有活跃令牌都处理完毕：
[0075] [2. 1. 1].把Tk从当前状态节点Si沿着词网格的边往前传递，设新节点为Sj，新令牌为Tp;
[0076] [2. 1. 2]·如果 Sj 为语种节点，根据 Score (Τρ)= δ (Lang (Tp), Lang 〇) X Score (Τ k)更新令牌Tp的得分Score (Tp)，其中Score (Tk)为令牌从开始节点传递到Si节点的过程中通过的所有节点路径上的声学模型得分累积，然后转[2. 1. 1]继续往前传递令牌；否则执行[2. 1. 3];
[0077] 其中Lang( ·)是用于求出节点或令牌语种信息的函数，δ ( ·)是一个惩罚函数，用来定义从一个语种转换为另一个语种时对得分的惩罚力度，当语种信息一致时取值为1。
[0078] [2. 1. 3].根据当前帧的语音数据，使用声学模型更新令牌Tp的得分；
[0079] [2. 1. 4].根据剪枝策略，判断新令牌是否Τρ活跃；
[0080] [3].在所有到达结束节点的活跃令牌中取得分最高的，记为Tfinal ;
[0081] [4].回溯获取Tfinal的路径信息，返回路径上所有的关键词；
[0082] [5].利用置信度算法评估每个检测出来的关键词；
[0083] [6]·输出最终的检测关键词列表。
[0084] 惩罚函数δ (·)在实际应用中可以用一张二维表表示，如下为针对汉语、英语、日语、俄语四个语种的一个惩罚函数示例。

【权利要求】
1. 一种关键词检测方法，其特征在于，该方法包括：生成包含语种信息的解码网络，在该解码网络中根据语种信息对关键词进行分组；利用所述解码网络对输入语音进行关键词检测，其中当检测出的关键词之间的语种信息不一致时，对所检测出关键词设置惩罚因子；基于惩罚因子评估所检测出的关键词。
2. 根据权利要求1所述的关键词检测方法，其特征在于，所述基于惩罚因子评估所检测出的关键词包括：预先设置关键词门限值；利用置信度算法以及惩罚因子计算所检测出的关键词的置信度，其中当计算出的置信度低于所述关键词门限值时，去除该关键词。
3. 根据权利要求1所述的关键词检测方法，其特征在于，所述生成包含语种信息的解码网络，在该解码网络中根据语种信息对关键词进行分组包括：初始化开始节点和结束节点，并针对每个语种信息k执行如下步骤，其中i为语种序号：构造语种节点Nu，并构造从开始节点到Nu的边；加载与该语种信息Q对应的关键词列表和填充音节列表；对所述关键词列表中的每一个关键词I，其中j为关键词序号，执行如下动作：将关键词Κ」转化成三音子序列，并针对每个三音子构造一个节点以形成节点序列；依次构造节点序列之间的边；构造语种节点Nu到节点序列中第一个节点的边以及节点序列中最后节点到结束节点的边；对所述填充音节列表中的每个填充音节Fk，其中k为填充音节序号，执行如下动作：构造填充音节Fk对应的节点NFk; 构造语种节点Nu到NFk的边和NFk到结束节点的边；构造从结束节点到开始节点的边；输出所述解码网络。
4. 根据权利要求1所述的关键词检测方法，其特征在于，所述利用解码网络对输入语音进行关键词检测，其中当检测出的关键词之间的语种信息不一致时，对所检测出关键词设置惩罚因子包括：在关键词检测的令牌传播过程中，当遇到语种状态节点时，比较该语种状态节点上的语种信息与令牌自带的语种信息是否匹配，如果不匹配，则对该令牌得分设置惩罚因子。
5. 根据权利要求4所述的关键词检测方法，其特征在于，所述利用解码网络对输入语音进行关键词检测，其中当检测出的关键词之间的语种信息不一致时，对所检测出关键词设置惩罚因子包括：预先设置对应于语种类别差异的惩罚因子表；当检测出的关键词之间的语种信息不一致时，通过检索该惩罚因子表确定对检测出关键词所设置的惩罚因子。
6. 根据权利要求1-5中任一项所述的关键词检测方法，其特征在于，在该解码网络中进一步利用语种信息对填充音节进行分组；在利用所述解码网络对输入语音进行关键词检测时，其中当检测出的填充音节之间的语种信息不一致时，对与该填充音节相对应的关键词设置惩罚因子。
7. -种关键词检测装置，其特征在于，包括解码网络生成单元、关键词检测单元和关键词评估单元，其中：解码网络生成单元，用于生成包含语种信息的解码网络，在该解码网络中根据语种信息对关键词进行分组；关键词检测单元，用于利用所述解码网络对输入语音进行关键词检测，其中当检测出的关键词之间的语种信息不一致时，对所检测出关键词设置惩罚因子；关键词评估单元，用于基于惩罚因子评估所检测出的关键词。
8. 根据权利要求7所述的关键词检测装置，其特征在于，关键词评估单元，用于预先设置关键词门限值；利用置信度算法以及惩罚因子计算所检测出的关键词的置信度，其中当计算出的置信度低于所述关键词门限值时，去除该关键。
9. 根据权利要求7所述的关键词检测装置，其特征在于，解码网络生成单元，用于初始化开始节点和结束节点，并针对每个语种信息k执行如下步骤，其中i为语种序号：构造语种节点Nu，并构造从开始节点到Nu的边；加载与该语种信息Q对应的关键词列表和填充音节列表；对所述关键词列表中的每一个关键词I，其中j为关键词序号，执行如下动作：将关键词Κ」转化成三音子序列，并针对每个三音子构造一个节点以形成节点序列；依次构造节点序列之间的边；构造语种节点Nu到节点序列中第一个节点的边以及节点序列中最后节点到结束节点的边；对所述填充音节列表中的每个填充音节Fk，其中k为填充音节序号，执行如下动作：构造填充音节Fk对应的节点NFk ; 构造语种节点Nu到NFk的边和NFk到结束节点的边；构造从结束节点到开始节点的边；输出所述解码网络。
10. 根据权利要求7所述的关键词检测装置，其特征在于，关键词检测单元，用于在关键词检测的令牌传播过程中，当遇到语种状态节点时，比较该语种状态节点上的语种信息与令牌自带的语种信息是否匹配，如果不匹配，则对该令牌得分设置惩罚因子。
11. 根据权利要求10所述的关键词检测装置，其特征在于，关键词检测单元，用于预先设置对应于语种类别差异的惩罚因子表；当检测出的关键词之间的语种信息不一致时，通过检索该惩罚因子表确定对检测出关键词所设置的惩罚因子。
【文档编号】G10L15/08GK104143328SQ201310355905
【公开日】2014年11月12日申请日期:2013年8月15日优先权日:2013年8月15日
【发明者】李露, 卢鲤, 马建雄, 孔令挥, 饶丰, 岳帅, 张翔, 刘海波, 王尔玉, 陈波申请人:腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李露;卢鲤;马建雄;孔令挥;饶丰;岳帅;张翔;刘海波;王尔玉;陈波
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：用于输送对齐的多通道音频的方法和设备的制作方法
上一篇：一种降噪罩的制作方法