语音导航方法及系统的制作方法

文档序号：2826464阅读：910来源：国知局

语音导航方法及系统的制作方法
【专利摘要】本发明公开了一种语音导航方法及系统，属于语音处理【技术领域】。该方法包括：接收用户输入的语音信号；基于多种不同类型解码网络对所述语音信号进行统一解码识别，得到文本词串，所述多种不同类型解码网络包括以下任意两种或三种解码网络：大规模语言模型解码网络、命令词解码网络、高频解码网络；确定所述文本词串对应的操作；执行所述操作。采用该语音导航方法及系统，可以保证对用户个性化语音响应的识别性能。
【专利说明】语音导航方法及系统【技术领域】
[0001]本发明涉及语音处理【技术领域】，特别涉及一种语音导航方法及系统。
【背景技术】
[0002]语音导航技术，在当下的自助客服系统中有着广泛的应用。特别是基于应答模式的语音呼叫导航系统，由于具有较高的分类准确率，成为当今主流的语音呼叫方式。
[0003]现有技术中，应答模式的语音呼叫导航系统通常将业务菜单设计为多层结构，且在每层菜单上设置系统提示音，以引导用户进行选择。如用户语音输入“我想查询账户明细”，系统会进入“账户查询”的二级菜单，并提示“你是要查询当日明细、历史明细还是指定日期明细？”，通过菜单展示的方式明确当前应用环境下可支持的业务类型，帮助用户选择。
[0004]显然应答模式下的系统提示音在一定程度上限定了用户回答的范围，如在上述“账户查询”应用场景下，系统的提示音为“你是要查询当日明细、历史明细还是指定日期明细？ ”，语法中包含“当日明细”、“历史明细”、“指定日期明细”三个单元。对此，传统系统一般采用基于命令词识别的方式对用户输入语音进行解析，这种方法在用户配合的情况下可以得到较好的识别性能，且识别效率较高。然而当用户没有按照系统提示，即进行命令词输入时，如对系统的提示“你是要查询当日明细、历史明细还是指定日期明细？”，用户回答“我想看看今天上午的账户”，则基于菜单选择的命令词语音识别效果难以保证。也即，采用传统应答模式的语音导航系统，难以保证对用户个性化语音响应的识别性能。

【发明内容】

[0005]本发明实施例提供了一种语音导航方法及系统，以解决现有基于命令词语音识别无法保证对用户个性化语音响应识别效果的问题。
[0006]本发明实施例提供如下技术方案:
[0007]—方面，本发明实施例提供了一种语音导航方法，包括:
[0008]接收用户输入的语音信号；
[0009]基于多种不同类型解码网络对所述语音信号进行统一解码识别，得到文本词串，所述多种不同类型解码网络包括以下任意两种或三种解码网络:大规模语言模型解码网络、命令词解码网络、闻频解码网络；
[0010]确定所述文本词串对应的操作；
[0011]执行所述操作。
[0012]优选地，所述方法还包括:构建大规模语言模型解码网络，构建过程包括:
[0013]利用训练语料构建导航领域语言模型；
[0014]收集特定导航场景下的对话语音，并利用所述导航领域语言模型对所述对话语音进行解码，得到解码词串；
[0015]利用所述解码词串训练特定导航场景语言模型；[0016]对所述导航领域语言模型和所述特定导航场景语言模型进行插值，得到大规模语言模型解码网络。
[0017]优选地，所述方法还包括:构建命令词解码网络，构建过程包括:
[0018]收集特定导航场景下的菜单选项，所述菜单选择项包括:菜单名称及其别名；
[0019]并联所述菜单选项形成命令词解码网络；
[0020]利用所述大规模语言模型中的一元语言模型平均概率设置所述命令词解码网络中各词的权重。
[0021]优选地，所述方法还包括:构建高频解码网络，构建过程包括:
[0022]收集特定导航场景下的高频语料；
[0023]并联所述高频语料形成高频解码网络；
[0024]利用所述大规模语言模型中的一元语言模型平均概率设置所述高频解码网络中各词的权重。
[0025]优选地，所述基于多种不同类型解码网络对所述语音信号进行统一解码识别，得到文本词串包括:
[0026]基于大规模语言模型解码网络对所述语音信号进行解码识别，得到解码结果的第一得分；
[0027]基于命令词解码网络对所述语音信号进行解码识别，得到解码结果的第二得分；
[0028]基于高频解码网络对所述语音信号进行解码识别，得到解码结果的第三得分；
[0029]选择第一得分、第二得分和第三得分中的最大得分对应的解码结果作为所述文本词串。
[0030]优选地，所述方法还包括:
[0031]在基于大规模语言模型解码网络对所述语音信号进行解码识别的过程中，如果一条路径中出现预设语义相关关键词或者扩展词，则对所述解码路径进行预设权重增益；
[0032]将增益后的得分作为所述解码路径的得分。
[0033]优选地，所述确定所述文本词串对应的操作包括:
[0034]如果所述文本词串为命令词解码网络的解码结果，则根据所述解码结果对应的语义确定所述文本词串对应的操作；
[0035]否则，将所述解码结果与所述关键词列表进行关键词匹配，获取匹配结果；
[0036]根据所述匹配结果对应的语义确定所述文本词串对应的操作。
[0037]优选地，所述方法还包括:
[0038]将业务功能组织成多层菜单结构，并对每层菜单分别建立一个关键词列表；
[0039]所述将所述解码结果与关键词列表进行关键词匹配，获取匹配结果包括:
[0040]确定当前业务对应的菜单层级；
[0041]获取所述菜单层级及其以下各层的关键词列表；
[0042]将所述解码结果与获取的关键词列表进行逐层关键词匹配，获取匹配结果。
[0043]另一方面，本发明实施例提供了一种语音导航系统，包括:
[0044]接收模块，用于接收用户输入的语音信号；
[0045]解码模块，用于基于多种不同类型解码网络对所述语音信号进行统一解码识别，得到文本词串，所述多种不同类型解码网络包括以下任意两种或三种解码网络:大规模语言模型解码网络、命令词解码网络、高频解码网络；
[0046]确定模块，用于确定所述文本词串对应的操作；
[0047]执行模块，用于执行所述操作。
[0048]优选地，所述系统还包括以下任意两种或三种模块:
[0049]第一构建模块，用于构建大规模语言模型解码网络；
[0050]第二构建模块，用于构建命令词解码网络；
[0051]第三构建模块，用于构建高频解码网络。
[0052]优选地，所述第一构建模块包括:
[0053]第一语言模型单元，用于利用训练语料构建导航领域语言模型；
[0054]解码单元，用于收集特定导航场景下的对话语音，并利用所述导航领域语言模型对所述对话语音进行解码，得到解码词串；
[0055]第二语言模型单元，用于利用所述解码词串训练特定导航场景语言模型；
[0056]插值单元，用于对所述导航领域语言模型和所述特定导航场景语言模型进行插值，得到大规模语言模型解码网络。
[0057]优选地，所述第二构建模块包括:
[0058]菜单选项单元，用于收集特定导航场景下的菜单选项，所述菜单选项包括:菜单名称及其别名；
[0059]第一并联单元，用于并联所述菜单选项形成命令词解码网络；
[0060]第一加权单元，用于利用所述大规模语言模型中的一元语言模型平均概率设置所述命令词解码网络中各词的权重。
[0061]优选地，所述第三构建模块包括:
[0062]高频语料单元，用于收集特定导航场景下的高频语料；
[0063]第二并联单元，用于并联所述高频语料形成高频解码网络；
[0064]第二加权单元，用于利用所述大规模语言模型中的一元语言模型平均概率设置所述高频解码网络中各词的权重。
[0065]优选地，所述解码模块包括:
[0066]第一解码单元，用于基于大规模语言模型解码网络对所述语音信号进行解码识另IJ，得到解码结果的第一得分；
[0067]第二解码单元，用于基于命令词解码网络对所述语音信号进行解码识别，得到解码结果的第二得分；
[0068]第三解码单元，用于基于高频解码网络对所述语音信号进行解码识别，得到解码结果的第三得分；
[0069]选择单元，用于选择第一得分、第二得分和第三得分中的最大得分对应的解码结果作为所述文本词串。
[0070]优选地，所述第一解码单元，还用于在基于大规模语言模型解码网络对所述语音信号进行解码识别的过程中，如果一条路径中出现预设语义相关关键词或者扩展词，则对所述解码路径进行预设权重增益，并将增益后的得分作为所述解码路径的得分。
[0071]优选地，所述确定模块包括:
[0072]判断单元，用于判断所述文本词串是否为命令词解码网络的解码结果；[0073]第一确定单元，用于在所述判断单元判断所述文本词串为命令词解码网络的解码结果后，根据所述解码结果对应的语义确定所述文本词串对应的操作；
[0074]关键词匹配单元，用于在所述判断单元判断所述文本词串不是命令词解码网络的解码结果后，将所述解码结果与关键词列表进行关键词匹配，获取匹配结果；
[0075]第二确定单元，用于根据所述匹配结果对应的语义确定所述文本词串对应的操作。
[0076]优选地，所述系统还包括:
[0077]关键词列表构建模块，用于将业务功能组织成多层菜单结构，并对每层菜单分别建立一个关键词列表；
[0078]所述关键词匹配单元包括:
[0079]菜单层级确定单元，用于确定当前业务对应的菜单层级；
[0080]关键词列表获取单元，用于获取所述菜单层级及其以下各层的关键词列表；
[0081]匹配单元，用于将所述解码结果与获取的关键词列表进行逐层关键词匹配，获取匹配结果。
[0082]本发明实施例提供的语音导航方法及系统，综合了多种不同类型解码网络的优势，通过对用户输入的语音信号，采用基于多种不同类型解码网络进行统一解码识别，得到文本词串及对应的操作，从而能够对用户的个性化语音响应进行识别。在保证识别结果的前提下，提高了用户响应的灵活性。利用本发明实施例提供的语音识别方法及系统，可以大大改善用户体验。
【专利附图】

【附图说明】
[0083]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
[0084]图1是现有技术中的语音导航过程示意图；
[0085]图2是本发明实施例提供的语音导航方法流程图；
[0086]图3是本发明实施例提供的大规模语言模型解码网络的构建过程示意图；
[0087]图4是本发明实施例提供的命令词解码网络的构建过程示意图；
[0088]图5是本发明实施例提供的高频解码网络的构建过程示意图；
[0089]图6是本发明实施例提供的语音导航系统的结构示意图。
【具体实施方式】
[0090]为了使本领域技术人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0091 ] 下面首先对现有技术中的语音导航过程进行简单介绍。
[0092]如图1所示，是现有技术中的语音导航过程示意图。
[0093]现有技术中，通常采用基于命令词解码网络对用户输入的语音信号进行解码识另IJ，具体包括以下过程:
[0094]步骤101:接收用户输入的语音信号；[0095]步骤102:基于命令词解码网络对语音信号进行解码识别，得到文本词串；
[0096]步骤103:确定文本词串对应的操作；
[0097]步骤104:执行操作。
[0098]通常，命令词解码网络是通过收集特定导航场景下常见的关键词构建而成的。常见的关键词可以为菜单名称及其别名等，用于形成菜单选项，将得到的菜单选项并联从而得到命令词解码网络。采用命令词解码网络对用户输入的语音信号进行解码识别后，得到文本词串，文本词串通常与用户意图相对应，该文本词串可以作为命令词解码网络的解码结果。
[0099]在得到解码结果后，需要判断解码识别的置信度，也即判断解码识别的可靠性，通常采用LRT (likelihood ratio testing,似然比检验)来统计。假设H0代表识别正确，H1代表识别错误，通常将解码最佳路径得分记为P (XIH0)，而使用其它所有路径得分的总和来近似P (XlH1)15通常,系统选择LLR (Log Likelihood Ratio, log似然比),作为识别结果的置信度得分=LLR=1gP(XlHci)-10gP(XlH1)。通过识别结果的置信度得分是否大于预设阈值，来判断识别结果是否可靠。如果大于预设阈值，则说明识别结果可靠；否则，说明识别结果不可靠。
[0100]如果识别结果可靠，则获取识别结果对应的语义信息，从而可以确定文本词串对应的用户意图，该用户意图对应的操作往往与菜单选项相对应。由于在命令词解码中，每个命令词分别对应确定的菜单选项，所以根据命令词很容易得到对应的菜单功能。如果识别结果不可靠，则提示用户重新输入语音信号，再次对语音信号进行解码识别。
[0101]因此，现有技术中的语音导航，只能用于菜单选项对应的命令词导航，对于菜单选项之外的语音信号，由于得到的识别结果不可靠，将循环提示用户重复输入语音信号，无法得到有效的识别结果。
[0102]为此，本发明实施例提出了一种语音导航方法，能够有效识别用户未按照菜单提不输入的语音信号。
[0103]如图2所示，是本发明实施例提供的语音导航方法流程图，包括以下步骤:
[0104]步骤201:接收用户输入的语音信号；
[0105]步骤202:基于多种不同类型解码网络对语音信号进行统一解码识别，得到文本词串；
[0106]步骤203:确定文本词串对应的操作；
[0107]步骤204:执行操作。
[0108]本发明实施例提供的语音导航方法，利用多种不同类型的解码网络，对用户输入的语音信号进行统一解码识别，其中，多种不同类型的解码网络可以为大规模语言模型解码网络、命令词解码网络和闻频解码网络中的任意两种或二种。
[0109]与现有技术中单纯基于命令词解码网络对语音信号进行解码识别不同的是，本发明实施例基于多种不同类型的解码网络对语音信号进行统一解码识别，在不同类型的解码网络中搜索最优路径，从而保证识别结果的可靠性，并且能够识别单纯基于命令词解码网络所无法识别的菜单选项对应的命令词之外的语音。具体地，在接收到用户输入的语音信号后，提取语音信号的声学特征序列，获取声学特征序列对应的统一解码的解码路径集合，并从中搜索最优路径。[0110]下面分别对本发明实施例所涉及的三种不同类型的解码网络的构建过程进行简要介绍。
[0111]如图3所示，为本发明实施例提供的大规模语言模型解码网络的构建过程示意图。大规模语言模型解码网络的构建过程如下:
[0112]步骤301:利用训练语料构建导航领域语言模型；
[0113]步骤302:收集特定导航场景下的对话语音，并利用导航领域语言模型对对话语音进行解码，得到解码词串；
[0114]步骤303:利用解码词串训练特定导航场景语言模型；
[0115]步骤304:对导航领域语言模型和特定导航场景语言模型进行插值，得到大规模语言模型解码网络。
[0116]在本发明实施例中，导航领域语言模型是通过收集导航领域的相关训练语料进行训练得到的，其中，训练方法可以是本领域常规训练方法，在此不再赘述；导航领域的语言模型通常为高阶语言模型，例如可以为三元(Tr1-gram)语言模型或二元(b1-gram)语言模型等，本发明实施例不进行限定。
[0117]收集某个特定的导航场景下的对话语音，利用步骤301构建的导航领域语言模型对对话语音进行解码，得到解码词串，再对解码词串进行训练得到该特定导航场景语言模型。对导航领域语言模型和特定导航场景语言模型进行插值，即可得到大规模语言模型解码网络。插值为本领域常用技术手段，以下仅做简要介绍。
[0118]假设导航领域语言模型为第一语言模型，其模型单元(N-gram)总数为NI，特定导航场景语言模型为第二语言模型，其模型单元总数为N2，则插值得到的语言模型中的N-gram总数为N1+N2-(第一语言模型与第二语言模型中相同的N-gram数)，即每个N-gram的概率为第一语言模型和第二语言模型相应单元的概率加权和。例如，第一语言模型中存在某个N-gram为“上网-开通”，即“上网”这个词后面接的是“开通”，其概率为P1，第二语言模型中也存在“上网-开通”这个N-gram，其概率为P2，则最终模型中“上网-开通”这个N-gram的概率为k*Pl+(l_k) *P2，其中，k为插值权重。
[0119]如图4所示，是本发明实施例提供的命令词解码网络的构建过程示意图。
[0120]命令词解码网络的构建过程如下:
[0121]步骤401:收集特定导航场景下的菜单选项，其中，菜单选项包括菜单名称及其别名；
[0122]步骤402:并联菜单选项形成命令词解码网络；
[0123]步骤403:利用大规模语言模型中的一元语言模型平均概率设置命令词解码网络中各词的权重。
[0124]在本发明实施例中，收集某个特定导航场景下的菜单选项，例如菜单名称及其别名，将收集到的菜单选项进行并联，可以得到命令词解码网络。由于得到的命令词解码网络解码结果的得分与大规模语言模型解码网络解码结果的得分无法进行比较，为了使解码结果的得分具有可比性，需要对得到的命令词解码网络进行优化。具体可以使用大规模语言模型中的一元(un1-gram)语言模型平均概率设置命令词解码网络中各词的权重，将经过加权处理后的得分，作为命令词解码网络解码结果的得分。例如，命令词解码网络中某个词为“开通手机上网”，其对应的声学模型得分以ScoreA表示，大规模语言模型中的一元语言模型平均概率得分以ScoreB表示，则该词的解码结果得分为=ScoreA(开通)+ScoreB+ScoreA (手机)+ScoreB+ScoreA (上网)+ScoreB。
[0125]如图5所示，是本发明实施例提供的高频解码网络的构建过程示意图。
[0126]高频解码网络的构建过程如下:
[0127]步骤501:收集特定导航场景下的高频语料；
[0128]步骤502:并联高频语料形成高频解码网络；
[0129]步骤503:利用大规模语言模型中的一元语言模型平均概率设置高频解码网络中各词的权重。
[0130]在本发明实施例中，高频解码网络的构建过程与上述命令词解码网络的构建过程类似，所不同的在于收集到的特定导航场景下的高频语料，不同于菜单名称，例如可以是完整的句子。在并联高频语料形成高频解码网络后，对高频解码网络进行优化处理的过程，参照前述命令词解码网络的优化过程，在此不再赘述。
[0131]在本发明实施例中，首先基于多种不同类型解码网络对语音信号进行统一解码识另O，然后在不同类型的解码网络中搜索最优路径。通过计算不同类型解码网络解码结果得分的高低，来进行最优路径的选择，将得分最高的解码网络作为最优路径，该解码网络对应的解码结果作为文本词串。例如，基于大规模语言模型解码网络对语音信号进行解码识别，得到解码结果的第一得分；基于命令词解码网络对语音信号进行解码识别，得到解码结果的第二得分；基于高频解码网络对语音信号进行解码识别，得到解码结果的第三得分；选择第一得分、第二得分和第三得分中的最大得分对应的解码结果作为统一解码识别结果，即前面步骤202中所述的文本词串。
[0132]在基于大规模语言模型解码网络对语音信号进行解码识别的过程中，如果一条路径中出现预设语义相关关键词或者扩展词，为了提高有效解码路径的得分，保证其在解码竞争中获胜，可以进一步对该解码路径进行预设权重增益，将增益后的得分作为该解码路径的得分。具体地，增益方法如下:
[0133](I)确定当前路径的预设语义相关关键词或者扩展词，并获取其在语言模型中的权重得分P (X);
[0134](2)对权重得分p(x)进行预设权重增益，如P’(x)=p(x)*a，其中，a>l，a为预设的权重增益；
[0135](3)将增益后的得分作为解码路径的得分。
[0136]本发明实施例中，在对语音信号进行统一解码识别，得到文本词串后，需要确定文本词串对应的操作，才能够执行相应操作。
[0137]下面就如何确定文本词串对应的操作进行简单介绍:
[0138]首先，判断文本词串是否为命令词解码网络的解码结果；如果是，则根据解码结果对应的语义确定文本词串对应的操作；否则，再将解码结果与关键词列表进行关键词匹配，获取匹配结果；根据匹配结果对应的语义可以确定文本词串对应的操作。
[0139]当文本词串为命令词解码网络的解码结果时，意味着用户按照菜单提示输入语音信号，在对语音信号进行解码识别后，能够得到与菜单选项对应的解码结果，此时，根据解码结果对应的语义即可确定文本词串对应的操作。
[0140]当文本词串不是命令词解码网络的解码结果时，也即文本词串为大规模语言模型解码网络的解码结果或者高频解码网络的解码结果时，意味着用户未按照菜单提示输入语音信号，在对语音信号进行解码识别后，无法得到与菜单选项对应的解码结果，此时，需要利用关键词列表对解码结果进行关键词匹配。
[0141]在本发明实施例中，关键词列表可以是预先构建的，根据特定的对话场景可以获取相应的关键词列表。要确定文本词串所对应的菜单选项通常需要分别确定其操作命令和/或参数。由于解码结果对应文本词串，将文本词串与关键词列表进行关键词匹配后，可以得到匹配结果，该匹配结果通常包含操作命令和/或参数，根据匹配结果对应的语义可以确定文本词串对应的操作。
[0142]在实际应用中，可以将对应不同业务功能的关键词设置在一个关键词列表中，在进行匹配时，直接调用该关键词列表进行关键词匹配。而通常由于业务应用具有层次关系，因此，为了进一步提高匹配效率，可以将业务功能组织成多层菜单结构，每层菜单建立一个局部的关键词列表。相应地，在进行关键词匹配时，可以首先确定当前业务对应的菜单层级，获取该菜单层级及其以下各层的关键词列表，然后通过将文本词串与关键词列表进行逐层关键词匹配，得到匹配结果。所述匹配结果中可以包含操作命令和/或参数，从而得到文本词串对应的操作。
[0143]下面以“手机上网”业务为例，对本发明实施例中关键词匹配技术进行详细说明:
[0144]例如“手机上网”业务，对应的操作是“开通”、“取消”、“查询生效时间”等，对应的参数是“十元套餐”、“二十元套餐”等。
[0145]关键词匹配过程如下:
[0146](I)根据对话场景获取其对应的关键词列表。
[0147]例如，在选择“手机上网”业务场景下，其提示音为“请问你是要开通还是取消套餐？ ”，其关键词列表为“开通”、“取消”、“生效时间”等；在选择“套餐类型”业务场景下，其提示音为“好的，开通上网套餐，我们有五元、十元、二十元多种套餐，请问你要哪一种？ ”，其关键词列表为“五元”、“十元”、“二十元”等。
[0148](2)将文本词串和关键词列表进行匹配，获取匹配结果。
[0149]例如，连续文本词串为“我想开通五元上网套餐”，其关键词列表为“开通”、“取消”、“生效时间”等，则首先匹配到“开通”，即对应的对话场景为“开通上网套餐”。
[0150]本发明实施例提供的语音导航方法，基于多种不同类型解码网络对语音信号进行统一解码识别，较好地解决了用户个性化语音响应识别的问题。如果用户按照提示语音进行应答，命令词解码网络能够快速进行识别；如果用户未按照提示语音进行应答，大规模语言模型解码网络和/或高频解码网络，配合关键词匹配技术，可以实现对语音信号正确的识别。采用该语音导航方法，能够保证对用户个性化语音响应的识别性能。
[0151]相应地，本发明实施例还提供一种语音导航系统，如图6所示，是本发明实施例提供的语音导航系统的结构示意图。
[0152]本发明实施例中，语音导航系统，包括:
[0153]接收模块601，用于接收用户输入的语音信号；
[0154]解码模块602，用于基于多种不同类型解码网络对所述语音信号进行统一解码识另Ij，得到文本词串；
[0155]确定模块603,用于确定文本词串对应的操作；[0156]执行模块604，用于执行操作。
[0157]上述多种不同类型解码网络可以包括以下任意两种或三种解码网络:大规模语言模型解码网络、命令词解码网络、高频解码网络。
[0158]相应地，本发明实施例的语音导航系统还可以包括构建上述各解码网络的模块，分别为:第一构建模块、第二构建模块和第三构建模块。其中:
[0159]第一构建模块，用于构建大规模语言模型解码网络，该第一构建模块可以包括:第一语言模型单元，用于利用训练语料构建导航领域语言模型；解码单元，用于收集特定导航场景下的对话语音，并利用导航领域语言模型对对话语音进行解码，得到解码词串；第二语言模型单元，用于利用解码词串训练特定导航场景语言模型；插值单元，用于对导航领域语言模型和特定导航场景语言模型进行插值，得到大规模语言模型解码网络。
[0160]第二构建模块，用于构建命令词解码网络，该第二构建模块可以包括:菜单选项单元，用于收集特定导航场景下的菜单选项，所述菜单选项包括:菜单名称及其别名；第一并联单元，用于并联所述菜单选项形成命令词解码网络；第一加权单元，用于利用所述大规模语言模型中的一元语言模型平均概率设置所述命令词解码网络中各词的权重。
[0161]第三构建模块，用于构建高频解码网络，该第三构建模块可以包括:高频语料单元，用于收集特定导航场景下的高频语料；第二并联单元，用于并联所述高频语料形成高频解码网络；第二加权单元，用于利用大规模语言模型中的一元语言模型平均概率设置高频解码网络中各词的权重。
[0162]在实际应用中，解码模块602可以包括:
[0163]第一解码单元，用于基于大规模语言模型解码网络对语音信号进行解码识别，得到解码结果的第一得分；
[0164]第二解码单元，用于基于命令词解码网络对语音信号进行解码识别，得到解码结果的第二得分；
[0165]第三解码单元，用于基于高频解码网络对语音信号进行解码识别，得到解码结果的第三得分；
[0166]选择单元，用于选择第一得分、第二得分和第三得分中的最大得分对应的解码结果作为文本词串。
[0167]在本发明实施例中，第一解码单元，还用于在基于大规模语言模型解码网络对语音信号进行解码识别的过程中，如果一条路径中出现预设语义相关关键词或者扩展词，则对解码路径进行预设权重增益，并将增益后的得分作为解码路径的得分。
[0168]需要说明的是，在实际应用中，可以根据应用需要，解码模块602只包含上述第一解码单元、第二解码单元和第三解码单元中的任意两种。
[0169]在本发明实施例中，确定模块603可以包括:
[0170]判断单元，用于判断文本词串是否为命令词解码网络的解码结果；
[0171]第一确定单元，用于在判断单元判断文本词串为命令词解码网络的解码结果后，根据解码结果对应的语义确定文本词串对应的操作；
[0172]关键词匹配单元，用于在所述判断单元判断文本词串不是命令词解码网络的解码结果后，将解码结果与关键词列表进行关键词匹配，获取匹配结果；
[0173]第二确定单元，用于根据匹配结果对应的语义确定文本词串对应的操作。[0174]需要说明的是，在实际应用中，可以将对应不同业务功能的关键词设置在一个关键词列表中，关键词匹配单元在进行匹配时，直接调用该关键词列表进行关键词匹配。另夕卜，为了进一步提高匹配效率，还可以建立与各层菜单对应的多层关键词列表。相应地，关键词匹配单元采用逐层匹配的方式进行关键词匹配处理，获得匹配结果。
[0175]比如，在本发明系统的另一实施例中，所述系统还可以包括:
[0176]关键词列表构建模块，用于将业务功能组织成多层菜单结构，并对每层菜单分别建立一个关键词列表。
[0177]相应地，在该实施例中，所述关键词匹配单元可以包括:
[0178]菜单层级确定单元，用于确定当前业务对应的菜单层级；
[0179]关键词列表获取单元，用于获取所述菜单层级及其以下各层的关键词列表；
[0180]匹配单元，用于将所述解码结果与获取的关键词列表进行逐层关键词匹配，获取匹配结果。
[0181]设置上述关键词列表构建模块可以方便系统开发人员根据用户不同的应用需求进行灵活的功能设置，提高开发效率。
[0182]上述实施例提供的语音导航方法与系统属于同一发明构思，其具体实现过程详见方法实施例，这里不再赘述。
[0183]本发明实施例提供的语音导航系统，基于多种不同类型解码网络对语音信号进行统一解码识别，较好地解决了用户个性化语音响应识别的问题。如果用户按照菜单选项提示语音进行应答，命令词解码网络能够快速进行识别；如果用户未按照菜单选项提示语音进行应答，大规模语言模型解码网络和高频解码网络，配合关键词匹配技术，可以实现对语音信号进行正确的识别。采用该语音导航系统，能够保证对用户个性化语音响应的识别性倉泛。
[0184]本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0185]以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【权利要求】
1.一种语音导航方法，其特征在于，包括: 接收用户输入的语音信号；基于多种不同类型解码网络对所述语音信号进行统一解码识别，得到文本词串，所述多种不同类型解码网络包括以下任意两种或三种解码网络:大规模语言模型解码网络、命令词解码网络、高频解码网络；确定所述文本词串对应的操作；执行所述操作。
2.根据权利要求1所述的方法，其特征在于，所述方法还包括:构建大规模语言模型解码网络，构建过程包括: 利用训练语料构建导航领域语言模型；收集特定导航场景下的对话语音，并利用所述导航领域语言模型对所述对话语音进行解码，得到解码词串；利用所述解码词串训练特定导航场景语言模型；对所述导航领域语言模型和所述特定导航场景语言模型进行插值，得到大规模语言模型解码网络。
3.根据权利要求1所述的方法，其特征在于，所述方法还包括:构建命令词解码网络，构建过程包括: 收集特定导航场景下的菜单选项，所述菜单选项包括:菜单名称及其别名；并联所述菜单选项形成命令词解码网络；利用所述大规模语言模型中的一元语言模型平均概率设置所述命令词解码网络中各词的权重。
4.根据权利要求1所述的方法，其特征在于，所述方法还包括:构建高频解码网络，构建过程包括: 收集特定导航场景下的高频语料；并联所述高频语料形成高频解码网络；利用所述大规模语言模型中的一元语言模型平均概率设置所述高频解码网络中各词的权重。
5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于多种不同类型解码网络对所述语音信号进行统一解码识别，得到文本词串包括: 基于大规模语言模型解码网络对所述语音信号进行解码识别，得到解码结果的第一得分；基于命令词解码网络对所述语音信号进行解码识别，得到解码结果的第二得分；基于高频解码网络对所述语音信号进行解码识别，得到解码结果的第三得分；选择第一得分、第二得分和第三得分中的最大得分对应的解码结果作为所述文本词串。
6.根据权利要求5所述的方法，其特征在于，所述方法还包括: 在基于大规模语言模型解码网络对所述语音信号进行解码识别的过程中，如果一条路径中出现预设语义相关关键词或者扩展词，则对所述解码路径进行预设权重增益；将增益后的得分作为所述解码路径的得分。
7.根据权利要求1至4任一项所述的方法，其特征在于，确定所述文本词串对应的操作包括: 如果所述文本词串为命令词解码网络的解码结果，则根据所述解码结果对应的语义确定所述文本词串对应的操作；否则，将所述解码结果与关键词列表进行关键词匹配，获取匹配结果；根据所述匹配结果对应的语义确定所述文本词串对应的操作。
8.根据权利要求7所述的方法，其特征在于，所述方法还包括: 将业务功能组织成多层菜单结构，并对每层菜单分别建立一个关键词列表；所述将所述解码结果与关键词列表进行关键词匹配，获取匹配结果包括: 确定当前业务对应的菜单层级；获取所述菜单层级及其以下各层的关键词列表；将所述解码结果与获取的关键词列表进行逐层关键词匹配，获取匹配结果。
9.一种语音导航系统，其特征在于，包括: 接收模块，用于接收用户输入的语音信号；解码模块，用于基于多种不同类型解码网络对所述语音信号进行统一解码识别，得到文本词串，所述多种不同类型解码网络包括以下任意两种或三种解码网络:大规模语言模型解码网络、命令词解码网络、闻频解码网络；确定模块，用于确定所述文本词串对应的操作；执行模块，用于执行所述操作。
10.根据权利要求9所述的系统，其特征在于，所述系统还包括以下任意两种或三种模块: 第一构建模块，用于构建大规模语言模型解码网络；第二构建模块，用于构建命令词解码网络；第三构建模块，用于构建高频解码网络。
11.根据权利要求10所述的系统，其特征在于，所述第一构建模块包括: 第一语言模型单元，用于利用训练语料构建导航领域语言模型；解码单元，用于收集特定导航场景下的对话语音，并利用所述导航领域语言模型对所述对话语音进行解码，得到解码词串；第二语言模型单元，用于利用所述解码词串训练特定导航场景语言模型；插值单元，用于对所述导航领域语言模型和所述特定导航场景语言模型进行插值，得到大规模语言模型解码网络。
12.根据权利要求10所述的系统，其特征在于，所述第二构建模块包括: 菜单选项单元，用于收集特定导航场景下的菜单选项，所述菜单选项包括:菜单名称及其别名；第一并联单元，用于并联所述菜单选项形成命令词解码网络；第一加权单元，用于利用所述大规模语言模型中的一元语言模型平均概率设置所述命令词解码网络中各词的权重。
13.根据权利要求10所述的系统，其特征在于，所述第三构建模块包括: 高频语料单元，用于收集特定导航场景下的高频语料；第二并联单元，用于并联所述高频语料形成高频解码网络；第二加权单元，用于利用所述大规模语言模型中的一元语言模型平均概率设置所述高频解码网络中各词的权重。
14.根据权利要求9至13任一项所述的系统，其特征在于，所述解码模块包括: 第一解码单元，用于基于大规模语言模型解码网络对所述语音信号进行解码识别，得到解码结果的第一得分；第二解码单元，用于基于命令词解码网络对所述语音信号进行解码识别，得到解码结果的第二得分；第三解码单元，用于基于高频解码网络对所述语音信号进行解码识别，得到解码结果的第三得分；选择单元，用于选择第一得分、第二得分和第三得分中的最大得分对应的解码结果作为所述文本词串。
15.根据权利要求14所述的系统，其特征在于，所述第一解码单元，还用于在基于大规模语言模型解码网络对所述语音信号进行解码识别的过程中，如果一条路径中出现预设语义相关关键词或者扩展词，则对所述解码路径进行预设权重增益，并将增益后的得分作为所述解码路径的得分。
16.根据权利要求9至13任一项所述的系统，其特征在于，所述确定模块包括: 判断单元，用于判断所述文本词串是否为命令词解码网络的解码结果；第一确定单元，用于在所述判断单元判断所述文本词串为命令词解码网络的解码结果后，根据所述解码结果对应的语义确定所述文本词串对应的操作；关键词匹配单元，用于在所述判断单元判断所述文本词串不是命令词解码网络的解码结果后，将所述解码结果与关键词列表进行关键词匹配，获取匹配结果；第二确定单元，用于根据所述匹配结果对应的语义确定所述文本词串对应的操作。
17.根据权利要求16所述的系统，其特征在于，所述系统还包括: 关键词列表构建模块，用于将业务功能组织成多层菜单结构，并对每层菜单分别建立一个关键词列表；所述关键词匹配单元包括: 菜单层级确定单元，用于确定当前业务对应的菜单层级；关键词列表获取单元，用于获取所述菜单层级及其以下各层的关键词列表；匹配单元，用于将所述解码结果与获取的关键词列表进行逐层关键词匹配，获取匹配结果。
【文档编号】G10L15/06GK103700369SQ201310611734
【公开日】2014年4月2日申请日期:2013年11月26日优先权日:2013年11月26日
【发明者】高建清, 刘聪, 王智国, 胡国平, 胡郁申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高建清;刘聪;王智国;胡国平;胡郁
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人

上一篇：基于arm和fpga的便携式多通道音频数据采集器的制造方法
上一篇：一种语音控制数字家庭智能盒的方法