语音识别方法及系统的制作方法

文档序号：2833027阅读：393来源：国知局

专利名称：语音识别方法及系统的制作方法
技术领域：
本发明涉及语音识别技术领域，特别涉及一种语音识别方法及系统。
背景技术：
实现人机之间人性化、智能化的有效交互，构建高效自然的人机交流环境，已经成为当前信息技术应用和发展的迫切需求。近年来，随着语音识别技术的飞速发展，语音输入、语音搜索等各种在线语音识别应用受到了越来越多的关注。预先基于海量数据训练的系统能满足常用语音输入撰写的需要，特别当语音输入内容符合原语言模型概率分布时识别准确率往往较高。然而在实际应用中，移动互联网和社交网络快速发展不断产生着新的热点话题及相应的热点词汇，不同用户也存在不同个性化词汇的识别需求，如联络人名等，这些热点词汇或个性化词汇由于时效性和特异性在原始采集的语料中往往出现频度较低，因而原语言模型对该类词汇往往覆盖不足，进而导致相应识别系统不能准确识别该类热
ο为此，在现有技术中往往采用系统参数重估的方法，在将新收集的热词语料加入原语料库后，重新训练新的语言模型以提高对新增热词的识别准确率。然而，在实际应用中，热词更新频度往往较高，系统无法及时收集足够语料参与系统参数重估，进而影响对热词的识别效果。另一方面，语言模型的重新训练以及识别系统资源(如基于WFST(Weighted Finite-State Transducers,加权有限状态转换器)的解码识别网络)的构建往往费时较多，代价较大，无法实现对热词识别的快速响应。

发明内容
本发明实施例提供一种语音识别方法及系统，以解决现有技术无法快速、准确识别热点词汇及用户个性化词汇的技术问题。为此，本发明实施例提供如下技术方案一种语音识别方法，包括构建解码识别网络；对接收的语音信号，根据所述解码识别网络对其中每帧语音信号帧进行解码，并在解码过程中根据热词对活跃节点的历史路径进行激励，以提高热词所在路径的累积历史路径概率；在完成对最后一帧语音信号帧解码后，选择具有最大累积概率的活跃节点为最优节点；从所述最优节点通过解码状态回溯得到最优路径及对应的单词序列。一种语音识别系统，包括网络构建单元，用于构建解码识别网络；解码单元，用于对接收的语音信号，根据所述解码识别网络对其中每帧语音信号帧进行解码；
激励单元，用于在所述解码单元的解码过程中根据热词对活跃节点的历史路径进行激励，以提高热词所在路径的累积历史路径概率；最优节点确定单元，用于在所述解码单元完成对最后一帧语音信号帧解码后，选择具有最大累积概率的活跃节点为最优节点；回溯单元，用于从所述最优节点通过解码状态回溯得到最优路径及对应的单词序列。本发明实施例语音识别方法及系统，采用基于热词匹配对活跃节点的历史路径进行激励，以提高热词所在路径的累积历史路径概率，实现了对热词识别的有效激励，提高了热词的识别效果。无需系统参数重估，即可快速、准确识别热点词汇及用户个性化词汇，为系统支持用户定制的个性化词库或个性化语言模型提供了一种可行的解决方案，用户通过简单的更新系统支持的热词词条即可实现对个性化词汇的识别支持。

为了更清楚地说明本发明实施的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
图I是本发明实施例语音识别方法的流程图2是本发明实施例中一种基于WFST的解码识别网络的示意图3是本发明实施例中树形结构的热词词典的示意图4是本发明实施例中根据热词集合对解码得到的历史路径进行激励的一种流图5是本发明实施例中根据热词词典对解码得到的历史路径进行激励的一种流
程程图；图6是本发明实施例中根据历史路径的扩展结果更新历史路径的累积历史路径概率的一种实现流程图；图7是本发明实施例中根据历史路径的扩展结果更新历史路径的累积历史路径概率的另一种实现流程图8是本发明实施例中热词词典的一种具体示意图9是本发明实施例语音识别系统的结构示意图10是本发明实施例语音识别系统的一种具体应用结构示意图11是本发明实施例语音识别系统的另一种具体应用结构示意图；图12是本发明实施例中激励子单元的一种结构示意图13是本发明实施例中激励子单元的另一种结构示意图。
具体实施例方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
为了使本发明实施例的方案更容易理解，并且更好地体现与现有语音识别方案的区别，下面首先对现有技术中基本的语音识别方法做简单说明。在现有技术中，通常是将语言模型的语义网络通过声学模型及字典等扩展成基于模型状态层的搜索网络，即构建解码识别网络，然后在对输入语音信号解码时，通过计算输入的每一帧语音信号相对于当前有效扩展路径上的每个声学模型及语言模型的累积历史路径概率获取新的有效扩展路径。随后在搜索完最后一帧语音信号时，通过从具有最大累积历史路径概率的最优节点执行状态回溯得到解码最优路径，得到对应的单词序列。本发明实施例语音识别方法及系统，针对现有技术采用系统参数重估的方式提高对新增热词的识别准确率，无法快速、准确识别热点词汇及用户个性化词汇的技术问题，对当前历史路径基于热词进行激励，从而提高热词所在路径的累积历史路径概率，提高了热词的识别效果。无需系统参数重估，即可快速、准确识别热点词汇及用户个性化词汇。如图I所示，是本发明实施例语音识别方法的流程图，包括以下步骤步骤101，构建解码识别网络。在本发明实施例中，所述解码识别网络可以由系统在线构建，也可以通过离线方式构建，在系统启动时直接载入，以减少系统运算量及所需内存，进一步提高解码效率。步骤102，对接收的语音信号，根据所述解码识别网络对其中每帧语音信号帧进行解码，并在解码过程中根据热词对活跃节点的历史路径进行激励，以提高热词所在路径的累积历史路径概率。利用所述解码识别网络对用户输入的语音信号进行解码的过程是一个在该解码识别网络中搜索最优路径，实现语音到文本的转换的过程。具体地，可以首先对接收的连续语音信号采样为一系列离散能量值存入数据缓存区。当然，为了进一步提高系统的鲁棒性，还可以先对接收到的连续语音信号进行降噪处理。首先通过对语音信号的短时能量和短时过零率分析，将连续的语音信号分割成独立的语音片断和非语音片断，然后对分割得到的语音片断进行语音增强处理，在进行语音增强处理时，可以通过维纳滤波等方法，将语音信号中的环境噪声进一步消除，以提高后续系统对该信号的处理能力。考虑到降噪处理后的语音信号中依然会存在大量语音识别无关的冗余信息，直接对其识别可能会使运算量和识别准确率降低，为此，可以从降噪处理后的语音能量信号中提取识别有效语音特征，并存入特征缓存区内。具体地，可以提取语音的MFCC(Mel Frequency Cepstrum Coefficient,Mel频率倒谱系数)特征，对窗长25ms巾贞移IOms的每帧语音数据做短时分析得到MFCC参数及其一阶、二阶差分，共计39维。也就是说，将每帧语音信号量化为一 39维的特征序列。然后，根据所述解码识别网络对其中每帧语音信号进行解码，获取最优路径，从而完成解码识别过程。在现有技术中，最优路径的搜索过程如下按照从左到右的时间顺序，计算每帧语音信号帧到达解码识别网络中每个活跃节点的累积历史路径概率。具体地，对于需要考察的每帧语音信号帧，可以首先计算当前解码识别网络中所有活跃节点相对于该语音信号帧的历史路径和累积历史路径概率。
7
比如，对于当前的一帧语音信号，对应的语音特征序列为IO1, O2, , 0t}，其中t 时刻的语音特征ot转入活跃节点j的路径概率，即从活跃节点i到该节点j的所有可
能历史路径的概率最大值计算如下
%⑴ ( \ )其中，i表示解码识别网络中所有与活跃节点j相连的活跃节点；灼(〖-1)表示 (t-Ι)时刻特征CV1落在活跃节点i上的历史路径概率；au表示从节点i到节点j的转移概率，而h (ot)表示第t时刻特征Ot相应于节点j的似然概率。活跃节点j的累积历史路径概率为所有和活跃节点j相连的节点路径中具有最大累积路径概率的路径得分。也就是说，在计算活跃节点j的累积路径概率的同时，也获知了活跃节点j的前一节点，进而获知活跃节点j的历史路径。然后，获取下一帧语音信号帧，并从满足系统预设条件的历史路径向后扩展解码。当对最后一帧语音信号帧解码后，其中具有最大累积历史路径概率的活跃节点即为最优节点，从该最优节点通过解码状态回溯得到的历史路径即为最优路径，该最优路径上的单词序列即为解码结果。由于基于海量数据训练的语言模型能够很好地体现原语料库的词汇分布，因而对大部分常规词汇具有较好的识别效果。而热点词汇及用户个性化词汇由于具有个性化的特点，在原有语言模型中概率较小，因而其对应的解码路径得分往往偏低，导致不能正确识别。为此，在本发明实施中，基于热词对活跃节点的历史路径进行激励，保持热词在搜索路径扩展中的存活时间，从而使解码识别网络中可能和热词匹配的路径得到优化，提高热词匹配的成功率，热词识别正确性也可得到相应提高。具体地，对解码识别网络中可能和热词匹配的路径可以采用不同的激励方式，对此将在后面详细说明。步骤103，在完成对最后一帧语音信号帧解码后，选择具有最大累积概率的活跃节点为最优节点。步骤104，从所述最优节点通过解码状态回溯得到最优路径及对应的单词序列。从所述最优节点通过解码状态回溯得到的历史路径即为最优路径。由此可见，本发明实施例语音识别方法，采用基于热词匹配的历史路径激励处理，使热词所在路径的累积历史路径概率得到优化，提高了热词的识别效果。利用本发明实施例语音识别方法，无需系统参数重估，即可快速、准确识别热点词汇及用户个性化词汇，为系统支持用户定制的个性化词库或个性化语言模型提供了一种可行的解决方案，用户通过简单的更新系统支持的热词词库即可实现对个性化词汇的识别支持。前面提到，在本发明实施例中，所述解码识别网络可以由系统在线构建，也可以通过离线方式构建，在系统启动时直接载入，以减少系统运算量及所需内存，进一步提高解码效率。具体地，所述解码识别网络的构建可以利用预设的声学模型和语言模型等构建。其中，所述声学模型主要用于模拟字符音特点，具体可以采用语音识别领域常用的基于转移概率和传输概率的HMM(Hidden Markov Model，隐马尔可夫)模型。考虑到在大词汇量连续语音识别中，词汇量的数量过于庞大，若是对每个字符都构建一个HMM模型，则模型数量太多，不利于数据存储及计算。因此，在实际应用中，可以仅对基本的发音单元，如音节或音素单元构建HMM模型。显然声学模型还可以采用其他技术手段，比如神经网络等，对此本发明实施例不做限定。其中，所述语言模型是为了更有效地表征语法及语义等知识，以弥补声学模型的不足，提高识别率。具体可以采用语音识别领域常用统计语言模型，利用统计概率的方式描述词和词之间的关系，即假设某个词Wk出现的概率仅和其前η-i个词相关，记为 p(wk|W1k-1) = p(wk|Wkk；^1)。显然语言模型也可以采用其他技术手段，比如字词对等，对此本发明实施例不做限定。所述解码识别网络的构建可以采用现有技术中的一些构建方法，利用声学模型将所述语言模型扩展成模型层的搜索网络。图2示出了一种基于WFST的解码识别网络的示意图。当然，还可以采用其他方式的解码识别网络，如基于历史词树拷贝的动态解码识别网络等。在本发明实施例中，允许用户随时自定义热词，以扩大系统的识别范围，适应词汇不断变化的需求。具体地，当用户输入新的热词后，可以将所述热词保存到热词集合。也就是说，所述热词集合可以是一个动态更新的热词词条库。另外，在更新所述热词词库时，还可以采用分词算法，通过使用系统预置的现有词典对用户新增自定义的热词的文本进行分词，使每个热词词条都表述为一个由系统现有基本字词单元组成的序列，并将得到的分词结果保存到热词词典，该分词结果可以由图3所示的树形结构管理，每一个分支对应一个热词词条，具体如下热词A:Wordil Wordi2 Wordi3 ；热词B :Wordi I Wordi4 ；热词C Wordi5 ；...；热词N ffordi j. . . Wordik0该热词词典可以是一个动态更新的热词分词库。基于上述热词集合或热词词典，对解码识别网络中可能和热词匹配的路径可以采用不同的激励方式，对此下面详细说明。I.根据热词集合对解码得到的历史路径进行优化如图4所示，是本发明实施例中根据热词集合对解码得到的历史路径进行激励的一种流程图。在该流程中，在活跃节点的历史路径对应的单词序列可以构成一个热词词条时给予适当的得分激励，以提高该历史路径的优先级。该流程具体包括以下步骤步骤401，获取对当前语音信号帧解码得到的所有活跃节点的历史路径和累积历史路径概率。步骤402，根据所述热词集合判断所述历史路径上邻近单词是否构成一条热词；如果是，则执行步骤403 ;否则，执行步骤404。步骤403，提高所述历史路径的累积历史路径概率。
比如，可以采取固定激励加分的方法来提高热词所在路径的优先级，以使热词所在路径更容易保留。固定激励加分的具体数值可以根据需要预先设定，一般来说，激励加分越高，则热词匹配度越高，热词识别正确性也相应提高。在平衡热词识别率和其它非热词识别率的基础上可以设置固定激励加分的参考值为300，当然，也可以是其它数值，对此本发明实施例不做限定。步骤404，保持所述历史路径的累积历史路径概率。需要说明的是，步骤402至步骤404，需要对步骤401获取的每一条历史路径逐一执行，即对步骤401获取的所有活跃节点的历史路径中不包含热词的历史路径保持其路径概率，而对包含热词的历史路径概率进行激励。需要说明的是，在实际应用中，在进行下一帧语音信号帧解码之前，还可以对活跃节点的历史路径进行优化，删除部分不可能的路径以提高后续搜索效率。具体地，可以采用基于概率裁减门限的方法，首先统计当前活跃节点累积历史路径概率的最高值，然后分别计算各活跃节点的累积历史路径概率与该最高值的差值，将其中差值大于预先设置的裁剪门限的活跃节点设为非活跃节点，并从后续搜索路径中剪除，中止从该节点开始的后续搜索。在本发明实施例中，上述过程需要在对当前语音信号帧解码得到的所有活跃节点的历史路径按照图4所示流程激励之后，根据当前所有活跃节点(包括激励后的活跃节点和未激励的活跃节点)的累积历史路径概率确定新的活跃节点，实现后续路径的扩展。在图4所示流程中，通过固定激励加分的方法来提高热词所在路径的优先级，实现对热词所在路径的优化。在实际应用中，由于热词往往由两个或多个分词构成，上述在热词词条实现完整匹配时给予激励的方式可能会由于热词词条所在路径过早被裁减而达不到激励的目的，影响热词识别的准确率。为此，在本发明实施例中，还可以采用基于预测路径的激励方法，通过逐步给予激励的方式不断提高热词所在路径的优先级。2.根据热词词典对解码得到的历史路径进行优化如图5所示，是本发明实施例中根据热词词典对解码得到的历史路径进行激励的一种流程图，包括以下步骤步骤501，获取对当前语音信号帧解码得到的所有活跃节点的历史路径和累积历史路径概率。步骤502，判断所述活跃节点的历史路径中是否出现新词；如果是，则执行步骤 503 ;否则，执行步骤504。步骤503，根据所述新词相对于所述历史路径上对应所述热词词典中的分词的扩展结果，更新所述历史路径的累积历史路径概率。步骤504，保持所述历史路径的累积历史路径概率。需要说明的是，对于每一帧语音信号帧的所有活跃节点的历史路径，都需要进行上述步骤502至步骤504的过程。而且，在进行下一帧语音信号帧解码之前，还可以对活跃节点的历史路径进行优化，删除部分不可能的路径以提高后续搜索效率。具体地，可以采用基于概率裁减门限的方法，首先统计当前活跃节点累积历史路径概率的最高值，然后分别计算各活跃节点的累积历史路径概率与该最高值的差值，将其中差值大于预先设置的裁剪门限的活跃节点设为非活跃节点，并从后续搜索路径中剪除，中止从该节点开始的后续搜索。不同于上述在热词完全匹配时才对历史路径激励，步骤503在解码过程中热词部分匹配时即对历史路径实行激励，即根据历史路径的扩展结果更新历史路径的累积历史路径概率，通过提前提高路径累计概率，可以更好地确保热词所在路径的存活概率。上述步骤503的可以采用多种不同的方法实现，比如如图6所示，是本发明实施例中根据历史路径的扩展结果更新历史路径的累积历史路径概率的一种实现流程图，包括以下步骤步骤601，判断新词是否是所述历史路径上对应的热词分词的后续分词；如果是，则执行步骤605 ;否则，执行步骤602。步骤602，判断所述新词是否为所述热词词典中的起始分词；如果是，则执行步骤 603 ;否则，执行步骤604。步骤603，对所述历史路径的累积历史路径概率进行与所述起始分词对应的加分。步骤604，保持所述历史路径的累积历史路径概率。步骤605，对所述历史路径的累积历史路径概率进行与所述后续分词对应的加分。如图7所示，是本发明实施例中根据历史路径的扩展结果更新历史路径的累积历史路径概率的另一种实现流程图，包括以下步骤步骤701，判断新词所在历史路径上所述新词之前的单词序列是否为所述热词词典中的一个完整热词；如果是，则执行步骤705 ;否则，执行步骤702。步骤702，判断所述新词是否是所述历史路径上对应的热词分词的后续分词；如果是，则执行步骤703 ;否则，执行步骤704。步骤703，对所述历史路径的累积历史路径概率进行与所述后续分词对应的加分。步骤704，撤销之前对所述历史路径的累积历史路径概率的加分。步骤705，判断所述新词是否为所述热词词典中的起始分词；如果是，则执行步骤 706 ;否则，执行步骤707。步骤706，对所述历史路径的累积历史路径概率进行与所述起始分词对应的加分。步骤707，保持所述历史路径的累积历史路径概率。利用图7所示流程，可以进一步避免错误地对非热词所在历史路径的激励。另外在实际应用中，如果对每一个活跃节点对应的历史路径仅保留一条热词分词历史记录，则在解码中可能无法保证所有包含热词的路径都能被发现。例如，热词A的词序列为WordlWord2Word3,而热词B的词序列为Word2Word4,当输入词序列为 Wordlfford2fford4时，在对“Word2”解码时会优先匹配到热词A的Word2分词，而忽略了热词B的Word2分词，使得词序列WordlWord2Word4最终并没有匹配到Word2Word4的热词B 上。对此，在本发明实施例中，还可以采用对单个活跃节点的历史路径保留多个热词分词匹配历史的方法来提高热词匹配的合理性。即在对“Word2”解码时，不仅保留“WordlWord2” 的热词A的部分匹配历史，同时保留“Word2”的热词B的部分匹配历史，并对同一历史路径相应保存多个激励附加值。随后在后续解码中当确定某项热词分词匹配结果不可能继续扩展时，再撤销之前对所述历史路径的由于热词分词产生的累积历史路径概率的加分。在实际应用中，可以根据解码所得单词和热词分词的匹配度对路径概率进行激励。比如，可以在解码获取新词时获取系统预置的热词分词权重，并对路径进行激励。特别的，还可以通过设置热词分词词典的热词分词首尾字符的权重，而将其他分词权重简单设置为O以简化激励过程。比如，假设当前的热词词典如图8所示，由“中国，中华，人民，人们” 构成。解码识别时，若解码得到的某个活跃节点的历史路径上出现“中”或者“人”时，即和热词词典的首字符匹配时，对所述历史路径给予与对应热词分词“中”或“人”相应的分值激励，即对所述历史路径的累积历史路径概率进行与所述首字符对应的加分。随后，当热词分词所在路径进行后续扩展时，若后续扩展路径上出现“国，华”或“民，们”，构成“中国”，“中华”，“人民”，“人们”的热词或部分热词时，则继续对该路径给予与“国”，“华”，“民”，“们”相应的分值激励。否则当所述热词分词所在路径扩展为其他非热词字词时，对所在路径不给予激励，或者删除前面增加的激励。可见，该实施例的语音识别方法，采用基于预测路径的激励方法，通过逐步给予激励的方式不断提高热词所在路径的优先级，实现对热词所在路径的优化，提高了热词的识别效果。相应地，本发明实施例还提供一种语音识别系统，如图9所示，是该系统的一种结构示意图。在该实施例中，所述系统包括网络构建单元901，用于构建解码识别网络；解码单元902，用于对接收的语音信号，根据所述解码识别网络对其中每帧语音信号帧进行解码；激励单元903，用于在所述解码单元902的解码过程中根据热词对活跃节点的历史路径进行激励，以提高热词所在路径的累积历史路径概率；最优节点确定单元904，用于在所述解码单元902完成对最后一帧语音信号帧解码后，选择具有最大累积概率的活跃节点为最优节点；回溯单元905，用于从所述最优节点通过解码状态回溯得到最优路径及对应的单词序列。在本发明实施例中，网络构建单元901具体可以通过在线方式构建所述解码识别网络，也可以通过离线方式构建所述解码识别网络，在系统启动时直接载入已构建的解码识别网络，可以减少系统运算量及所需内存，进一步提高解码效率。网络构建单元901具体可以利用预设的声学模型和语言模型等构建，在此不再详细描述。在本发明实施例中，解码单元902利用所述解码识别网络对用户输入的语音信号进行解码的过程是一个计算每帧语音信号帧到达解码识别网络中每个活跃节点的累积历史路径概率的过程，当解码单元902对每一帧语音信号帧解码后，可以得到当前所有活跃节点的历史路径和累积历史路径概率，激励单元903可以采用多种不同方式根据热词对活跃节点的历史路径进行激励，提高热词所在路径的累积历史路径概率，具体将在后面详细说明。需要说明的是，在实际应用中，在解码单元902进行下一帧语音信号帧解码之前，还可以对活跃节点的历史路径进行优化，删除部分不可能的路径以提高后续搜索效率。具体地，可以采用基于概率裁减门限的方法，首先统计当前活跃节点累积历史路径概率的最高值，然后分别计算各活跃节点的累积历史路径概率与该最高值的差值，将其中差值大于
12预先设置的裁剪门限的活跃节点设为非活跃节点，并从后续搜索路径中剪除，中止从该节点开始的后续搜索。由此可见，本发明实施例语音识别系统，采用基于热词匹配的历史路径激励处理，使热词所在路径的累积历史路径概率得到优化，提高了热词的识别效果。利用本发明实施例语音识别系统，无需系统参数重估，即可快速、准确识别热点词汇及用户个性化词汇，为系统支持用户定制的个性化词库或个性化语言模型提供了一种可行的解决方案，用户通过简单的更新系统支持的热词词库即可实现对个性化词汇的识别支持。在本发明实施例中，允许用户随时自定义热词，以扩大系统的识别范围，适应词汇不断变化的需求。如图10所示，是本发明实施例语音识别系统的一种具体应用结构示意图。在该实施例中，所述系统还包括热词集合更新单元911，用于获取用户输入的热词，并将所述热词保存到热词集合。该热词集合可以是一个动态更新的热词词条库。相应地，激励单元913在解码过程中根据所述热词集合对活跃节点的历史路径进行激励。在该实施例中，激励单元913具体包括获取子单元9131，判断子单元9132和激励子单元9133。其中获取子单元9131，用于获取解码单元702对当前语音信号帧解码得到的所有活跃节点的历史路径和累积历史路径概率；判断子单元9132，用于根据所述热词集合判断所述历史路径上邻近单词是否构成一条热词；激励子单元9133，用于在所述判断子单元9132判断所述历史路径上邻近单词构成一条热词后，提高所述历史路径的累积历史路径概率；在所述判断子单元9132判断所述历史路径上邻近单词不能构成一条热词后，保持所述历史路径的累积历史路径概率。在进行激励时，可以采取固定激励加分的方法来提高热词所在路径的优先级，以使热词所在路径更容易保留。固定激励加分的具体数值可以根据需要预先设定，一般来说，激励加分越高，则热词匹配度越高，热词识别正确性也相应提高。该实施例的语音识别系统，在活跃节点的历史路径对应的单词序列可以构成一个热词词条时给予适当的得分激励，实现对热词所在路径的优化，提高了热词的识别效果。在实际应用中，由于热词往往由两个或多个分词构成，上述在热词词条实现完整匹配时给予激励的方式可能会由于热词词条所在路径过早被裁减而达不到激励的目的，影响热词识别的准确率。为此，在本发明语音识别系统的另一实施例中，激励单元还可以采用基于预测路径的激励方法，通过逐步给予激励的方式不断提高热词所在路径的优先级。如图11所示，是本发明实施例语音识别系统的另一种具体应用结构示意图。在该实施例中，所述系统还包括热词获取单元921和切分单元922，其中，热词获取单元921用于获取用户输入的热词；切分单元922用于对所述热词获取单元获取的热词进行文本分词，并将得到的分词保存到热词词典。相应地，激励单元923在解码过程中根据所述热词词典对活跃节点的历史路径进行激励。在该实施例中，激励单元923具体包括获取子单元9231，新词判断子单元9232和激励子单元9233。其中获取子单元9231，用于获取对当前语音信号帧解码得到的所有活跃节点的历史路径和累积历史路径概率；新词判断子单元9232，用于判断所述活跃节点的历史路径中是否出现新词；激励子单元9233，用于在所述新词判断子单元9232判断所述活跃节点的历史路径中出现新词后，根据所述新词相对于所述历史路径上对应所述热词词典中的分词的扩展结果，更新所述历史路径的累积历史路径概率；否则保持所述历史路径的累积历史路径概率。在该实施例中，不同于上述图10中的激励子单元9133在热词完全匹配时才对历史路径激励，激励子单元9233在解码过程中热词部分匹配时即对历史路径实行激励，即根据历史路径的扩展结果更新历史路径的累积历史路径概率，通过提前提高路径累计概率，可以更好地确保热词所在路径的存活概率。所述激励子单元9233可以有多种实现方式，下面举例详细进行说明。如图12所示，是本发明实施例中激励子单元的一种具体结构示意图。在该实施例中，所述激励子单元包括第一判断子单元121，用于判断所述新词是否是所述历史路径上对应的热词分词的后续分词；第一处理子单元122，用于在所述第一判断子单元121判断所述新词是所述历史路径上对应的热词分词的后续分词后，对所述历史路径的累积历史路径概率进行与所述后续分词对应的加分；第二判断子单元123，用于在所述第一判断子单元121判断所述新词不是所述历史路径上对应的热词分词的后续分词后，判断所述新词是否为所述热词词典中的起始分词；第二处理子单元124，用于在所述第二判断子单元123判断所述新词是所述热词词典中的起始分词后，对所述历史路径的累积历史路径概率进行与所述起始分词对应的加分；否则保持所述历史路径的累积历史路径概率。如图13所示，是本发明实施例中激励子单元的另一种具体结构示意图。在该实施例中，所述激励子单元包括热词判断子单元131，用于判断所述新词所在历史路径上所述新词之前的单词序列是否是所述热词词典中的一个完整热词；第三判断子单元132，用于在所述热词判断子单元131判断所述新词所在历史路径上所述新词之前的单词序列是所述热词词典中的一个完整热词时，判断所述新词是否是所述热词词典中的起始分词；第三处理子单元133，用于在所述第三判断子单元132判断所述新词是所述热词词典中的起始分词后，对所述历史路径的累积历史路径概率进行与所述起始分词对应的加分；否则保持所述历史路径的累积历史路径概率；第四判断子单元134，用于在所述热词判断子单元131判断所述新词所在历史路径上所述新词之前的单词序列不是所述热词词典中的一个完整热词时，判断所述新词是否是所述历史路径上对应的热词分词的后续分词；
第四处理子单元135，用于在所述第四判断子单元134判断所述新词是所述历史路径上对应的热词分词的后续分词后，对所述历史路径的累积历史路径概率进行与所述后续分词对应的加分；否则撤销之前对所述历史路径的累积历史路径概率的加分。当然，在实际应用中，所述激励子单元还可以有其它实现方式，对此本发明实施例不做限定。比如，可以对单个活跃节点的历史路径保留多个热词分词匹配历史，在后续解码中当确定某项热词分词匹配结果不可能继续扩展时，再撤销之前对所述历史路径的由于热词分词产生的累积历史路径概率的加分，以此来进一步提高热词匹配的合理性。该实施例的语音识别系统，采用基于预测路径的激励方法，通过逐步给予激励的方式不断提高热词所在路径的优先级，实现对热词所在路径的优化，提高了热词的识别效果O本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。以上公开的仅为本发明的优选实施方式，但本发明并非局限于此，任何本领域的技术人员能思之的没有创造性的变化，以及在不脱离本发明原理前提下所作的若干改进和润饰，都应落在本发明的保护范围内。
权利要求
1.一种语音识别方法，其特征在于，包括构建解码识别网络；对接收的语音信号，根据所述解码识别网络对其中每帧语音信号帧进行解码，并在解码过程中根据热词对活跃节点的历史路径进行激励，以提高热词所在路径的累积历史路径概率；在完成对最后一帧语音信号帧解码后，选择具有最大累积概率的活跃节点为最优节占.从所述最优节点通过解码状态回溯得到最优路径及对应的单词序列。
2.如权利要求I所述的方法，其特征在于，所述方法还包括获取用户输入的热词，并将所述热词保存到热词集合；所述在解码过程中根据热词对活跃节点的历史路径进行激励包括在解码过程中根据所述热词集合对活跃节点的历史路径进行激励。
3.如权利要求2所述的方法，其特征在于，所述在解码过程中根据所述热词集合对活跃节点的历史路径进行激励包括获取对当前语音信号帧解码得到的所有活跃节点的历史路径和累积历史路径概率；根据所述热词集合判断所述历史路径上邻近单词是否构成一条热词；如果是，则提高所述历史路径的累积历史路径概率；如果否，则保持所述历史路径的累积历史路径概率。
4.如权利要求I所述的方法，其特征在于，所述方法还包括获取用户输入的热词，对所述热词进行文本分词，并将得到的分词保存到热词词典；所述在解码过程中根据热词对活跃节点的历史路径进行激励包括在解码过程中根据所述热词词典对活跃节点的历史路径进行激励。
5.如权利要求4所述的方法，其特征在于，所述在解码过程中根据所述热词词典对活跃节点的历史路径进行激励包括获取对当前语音信号帧解码得到的所有活跃节点的历史路径和累积历史路径概率；判断所述活跃节点的历史路径中是否出现新词；如果是，则根据所述新词相对于所述历史路径上对应所述热词词典中的分词的扩展结果，更新所述历史路径的累积历史路径概率；如果否，则保持所述历史路径的累积历史路径概率。
6.如权利要求5所述的方法，其特征在于，所述根据所述新词相对于所述历史路径上对应所述热词词典中的分词的扩展结果，更新所述历史路径的累积历史路径概率包括判断所述新词是否是所述历史路径上对应的热词分词的后续分词；如果是，则对所述历史路径的累积历史路径概率进行与所述后续分词对应的加分；如果否，则判断所述新词是否为所述热词词典中的起始分词；如果是，则对所述历史路径的累积历史路径概率进行与所述起始分词对应的加分。如果否，则保持所述历史路径的累积历史路径概率。
7.如权利要求5所述的方法，其特征在于，所述根据所述新词相对于所述历史路径上对应所述热词词典中的分词的扩展结果，更新所述历史路径的累积历史路径概率包括如果所述新词所在历史路径上所述新词之前的单词序列是所述热词词典中的一个完整热词，则判断所述新词是否为所述热词词典中的起始分词；如果是，则对所述历史路径的累积历史路径概率进行与所述起始分词对应的加分；如果否，则保持所述历史路径的累积历史路径概率；如果所述新词所在历史路径上所述新词之前的单词序列不是所述热词词典中的一个完整热词，则判断所述新词是否是所述历史路径上对应的热词分词的后续分词；如果是，则对所述历史路径的累积历史路径概率进行与所述后续分词对应的加分；如果否，则撤销之前对所述历史路径的累积历史路径概率的加分。
8.一种语音识别系统，其特征在于，包括网络构建单元，用于构建解码识别网络；解码单元，用于对接收的语音信号，根据所述解码识别网络对其中每帧语音信号帧进行解码；激励单元，用于在所述解码单元的解码过程中根据热词对活跃节点的历史路径进行激励，以提高热词所在路径的累积历史路径概率；最优节点确定单元，用于在所述解码单元完成对最后一帧语音信号帧解码后，选择具有最大累积概率的活跃节点为最优节点；回溯单元，用于从所述最优节点通过解码状态回溯得到最优路径及对应的单词序列。
9.如权利要求8所述的系统，其特征在于，所述系统还包括热词集合更新单元，用于获取用户输入的热词，并将所述热词保存到热词集合；所述激励单元在所述解码单元解码过程中根据所述热词集合对活跃节点的历史路径进行激励。
10.如权利要求9所述的系统，其特征在于，所述激励单元包括获取子单元，用于获取对当前语音信号帧解码得到的所有活跃节点的历史路径和累积历史路径概率；判断子单元，用于根据所述热词集合判断所述历史路径上邻近单词是否构成一条热词；激励子单元，用于在所述判断子单元判断所述历史路径上邻近单词构成一条热词后，提高所述历史路径的累积历史路径概率；在所述判断子单元判断所述历史路径上邻近单词不能构成一条热词后，保持所述历史路径的累积历史路径概率。
11.如权利要求8所述的系统，其特征在于，所述系统还包括热词获取单元，用于获取用户输入的热词；切分单元，用于对所述热词获取单元获取的热词进行文本分词，并将得到的分词保存到热词词典；所述激励单元在所述解码单元解码过程中根据所述热词词典对活跃节点的历史路径进行激励。
12.如权利要求11所述的系统，其特征在于，所述激励单元包括获取子单元，用于获取对当前语音信号帧解码得到的所有活跃节点的历史路径和累积历史路径概率；新词判断子单元，用于判断所述活跃节点的历史路径中是否出现新词；激励子单元，用于在所述新词判断子单元判断所述活跃节点的历史路径中出现新词后，根据所述新词相对于所述历史路径上对应所述热词词典中的分词的扩展结果，更新所述历史路径的累积历史路径概率；否则保持所述历史路径的累积历史路径概率。
13.如权利要求12所述的系统，其特征在于，所述激励子单元包括第一判断子单元，用于判断所述新词是否是所述历史路径上对应的热词分词的后续分词；第一处理子单元，用于在所述第一判断子单元判断所述新词是所述历史路径上对应的热词分词的后续分词后，对所述历史路径的累积历史路径概率进行与所述后续分词对应的加分；第二判断子单元，用于在所述第一判断子单元判断所述新词不是所述历史路径上对应的热词分词的后续分词后，判断所述新词是否为所述热词词典中的起始分词；第二处理子单元，用于在所述第二判断子单元判断所述新词是所述热词词典中的起始分词后，对所述历史路径的累积历史路径概率进行与所述起始分词对应的加分；否则保持所述历史路径的累积历史路径概率。
14.如权利要求12所述的系统，其特征在于，所述激励子单元包括热词判断子单元，用于判断所述新词所在历史路径上所述新词之前的单词序列是否是所述热词词典中的一个完整热词；第三判断子单元，用于在所述热词判断子单元判断所述新词所在历史路径上所述新词之前的单词序列是所述热词词典中的一个完整热词时，判断所述新词是否是所述热词词典中的起始分词；第三处理子单元，用于在所述第三判断子单元判断所述新词是所述热词词典中的起始分词后，对所述历史路径的累积历史路径概率进行与所述起始分词对应的加分；否则保持所述历史路径的累积历史路径概率；第四判断子单元，用于在所述热词判断子单元判断所述新词所在历史路径上所述新词之前的单词序列不是所述热词词典中的一个完整热词时，判断所述新词是否是所述历史路径上对应的热词分词的后续分词；第四处理子单元，用于在所述第四判断子单元判断所述新词是所述历史路径上对应的热词分词的后续分词后，对所述历史路径的累积历史路径概率进行与所述后续分词对应的加分；否则撤销之前对所述历史路径的累积历史路径概率的加分。
全文摘要
本发明涉及语音识别技术领域，公开了一种语音识别方法及系统。该方法包括构建解码识别网络；对接收的语音信号，根据所述解码识别网络对其中每帧语音信号帧进行解码，并在解码过程中根据热词对活跃节点的历史路径进行激励，以提高热词所在路径的累积历史路径概率；在完成对最后一帧语音信号帧解码后，选择具有最大累积概率的活跃节点为最优节点；从所述最优节点通过解码状态回溯得到最优路径及对应的单词序列。利用本发明，无需系统参数重估，即可快速、准确识别热点词汇及用户个性化词汇，提高热词的识别效果。
文档编号G10L15/28GK102592595SQ20121007341
公开日2012年7月18日申请日期2012年3月19日优先权日2012年3月19日
发明者何婷婷, 刘庆峰, 潘青华, 王智国, 胡国平, 胡郁, 鹿晓亮申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘青华;鹿晓亮;何婷婷;王智国;胡国平;胡郁;刘庆峰
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人