一种语言模型的训练方法、查询方法和对应装置制造方法

文档序号：2825551研发日期：2012年阅读：234来源：国知局

技术简介：
本专利针对传统语言模型处理概率信息效率低的问题，提出基于递归后缀树排序的训练方法，通过构建双Trie树结构（前向概率树与回退概率树）实现高效查询。创新点在于将词序调整为倒数第二词、末尾词、其余词倒序排列的结构，结合回退处理机制，显著提升多级概率查询的准确率与效率。
关键词：语言模型,Trie树,概率查询

一种语言模型的训练方法、查询方法和对应装置制造方法
【专利摘要】本发明提供了一种语言模型的训练方法、查询方法和对应装置，其中训练方法包括：对训练语料进行分块得到N组训练语料，N为大于1的正整数；对分块得到的N组训练语料并行执行：进行递归的后缀树排序，分别得到反映各词语在各句子中倒序位置状况的排序结果，基于排序结果，将各句子中倒数第二个词作为根节点按照预设的第一词序结构分别建立n元词序树，n为预设的一个或多个大于1的正整数；对得到的相同根节点的词序树进行合并和词序转换后，得到存放前向概率信息的Trie树，该Trie树中从根到叶的词序顺序为：句子中倒数第二个词、最后一个词、其他词语按照倒序排列。通过本发明能够实现语言模型的快速更新。
【专利说明】一种语言模型的训练方法、查询方法和对应装置
【【技术领域】】
[0001]本发明涉及计算机应用中的语音识别【技术领域】，特别涉及一种语言模型的训练方法、查询方法和对应装置。
【【背景技术】】
[0002]语音识别是指让机器能够在不同的情况下准确地识别出语音的内容，从而根据识别出的信息来执行人的各种意图，例如执行语音搜索。目前，随着语音识别技术的不断发展，统计语言模型已经广泛地应用于各个不同领域，如语音识别、信息检索、口语理解等。对于大词汇连续语音识别来说，语言模型是整个识别系统中非常关键的一个环节，直接影响到整个识别系统的性能和识别效果。
[0003]在语音搜索等技术应用场合，语言模型信息需要根据时间顺序，经常性地进行更新，以反映最近发生的焦点事件和信息。传统的语言模型训练方法采用正序文法，即文法中的词按照时间发生的先后顺序组织训练语言模型。例如，先训练巧⑴的文法，再训练巧⑴W2 (t+Ι)，然后是W1 (t) W2 (t+1) W3 (t+2)，以此类推，其中Wx (y)表示词语Wx按照时间顺序排在第y个。但是这种训练语言模型的方式只能按照串行的方式依据训练语料进行语言模型的训练，会造成训练语料较多或者是语言模型体积过大时，训练速度缓慢，影响语音搜索系统的语言模型快速更新。
【
【发明内容】
】
[0004]有鉴于此，本发明提供了一种语言模型的训练方法、查询方法和对应装置，以便于实现语言模型的快速更新。
[0005]具体技术方案如下:`
[0006]一种语言模型的训练方法，该训练方法包括:
[0007]S1、对训练语料进行分块得到N组训练语料，N为大于I的正整数；
[0008]S2、对分块得到的N组训练语料并行执行步骤S21和步骤S22 ；
[0009]S21、进行递归的后缀树排序，分别得到反映各词语在各句子中倒序位置状况的排序结果；
[0010]S22、基于步骤S21的排序结果，将各句子中倒数第二个词作为根节点按照预设的第一词序结构分别建立η元词序树，η为预设的一个或多个大于I的正整数；
[0011]S3、对得到的相同根节点的词序树进行合并和词序转换后，得到存放前向概率信息的Trie树，该Trie树中从根到叶的词序顺序为:句子中倒数第二个词、最后一个词、其他词语按照倒序排列。
[0012]根据本发明一优选实施例，所述步骤S21具体包括:
[0013]Al、将当前组训练语料中的所有句子进行倒序，并将倒序后的句子拼在一起构建一个词号数组，所述词号数组中为各词语的词号，再依据词号数组构建一个索引数组，所述索引数组中的各索引记录了各词语在词号数组中的序号；[0014]A2、依据词号数组，将索引数组中的序号按照对应词语的词号从小到大进行排序;
[0015]A3、将索引数组当前排序结果中的同组索引，按照每一个索引所对应词语在词号数组中下一个位置的词语的词号从小到大进行排序；
[0016]A4、判断排序次数是否满足预设的文法阶数要求，如果是，结束递归的后缀树排序流程；否则，转至所述步骤A3进行下一次排序。
[0017]根据本发明一优选实施例，η为2时采用的所述第一词序结构为=Wi(OWa-1),Wi (t)表示训练语料的句子中倒数第二个词，w(t-l)表示训练语料的句子中位于Wi (t)前面一位的任一词；
[0018]η为3时采用的所述第一词序结构为Aawa+Dwa-1)，W(t+1)为在训练语料的句子中位于Wi (t)后面一位的任一词；
[0019]η为4时采用的所述第一词序结构为％α)?α-1)?α+1)?α-2)，ff(t-2)为在训练语料的句子中位于Wi(t)前面两位的任一词。
[0020]根据本发明一优选实施例,所述η元词序树的叶节点包括指示从根节点到该叶节点的路径上所有词语按照先后顺序连接在一起组成一个文法的发生次数。
[0021]根据本发明一优选实施例，所述步骤S3具体包括:
[0022]S31、将由各组训练语料得到的相同根节点的相同元的词序树进行合并；
[0023]S32、将相同根节点的不同元的词序树合并成一棵Trie树；
[0024]S33、将合并得到的Trie树转换为预设的第二词序结构，得到存放前向概率信息的Trie树；
[0025]所述预设的第二词序结构为:从根到叶按照句子中倒数第二个词、最后一个词、其他词按照倒序排列的顺序。
[0026]根据本发明一优选实施例，所述语言模型除了包含所述存放前向概率信息的Trie树之外，还包括:依据所述存放前向概率信息的Trie树生成的存放回退概率信息的Trie树。
[0027]一种语言模型的训练装置，该训练装置包括:分块处理单元、N个递归处理单元、N个词序树建立单元以及合并处理单元；
[0028]分块处理单元，用于对训练语料进行分块得到N组训练语料，将N组训练语料分别提供给各递归处理单元，N为大于I的正整数；
[0029]递归处理单元，用于对接收到的训练语料进行递归的后缀树排序，得到反映各词语在各句子中倒序位置状况的排序结果，并提供给对应的词序树建立单元；
[0030]词序树建立单元，用于基于接收到的排序结果，将各句子中倒数第二个词作为根节点按照预设的第一词序结构分别建立η元词序树，η为预设的一个或多个大于I的正整数；
[0031]合并处理单元，用于对各词序树建立单元得到的相同根节点的词序树进行合并和词序转换后，得到存放前向概率信息的Trie树，该Trie树中从根到叶的词序顺序为:句子中倒数第二个词、最后一个词、其他词按照倒序排列。
[0032]根据本发明一优选实施例，所述递归处理单元具体包括: [0033]数组建立子单元，用于将当前组训练语料中的所有句子进行倒序，并将倒序后的句子拼在一起构建一个词号数组，所述词号数组中为各词语的词号，再依据词号数组构建一个索引数组，所述索引数组中的各索引记录了各词语在词号数组中的序号；
[0034]初始排序子单元，用于依据词号数组，将索引数组中的序号按照对应词语的词号从小到大进行排序，触发递归排序子单元；
[0035]递归排序子单元，用于受到触发后，将索引数组当前排序结果中的同组索引，按照每一个索引所对应词语在词号数组中下一个位置的词语的词号从小到大进行排序，触发次数控制子单元；
[0036]次数控制子单元，用于受到触发后，判断排序次数是否满足预设的文法阶数要求，如果是，将排序结果提供给对应的词序树建立单元；否则，触发递归排序子单元。
[0037]根据本发明一优选实施例，η为2时所述词序树建立单元采用的第一词序结构为:Wi(OWa-1), Wi (t)表示训练语料的句子中倒数第二个词，ff(t-l)表示训练语料的句子中位于WiU)前面一位的任一词；
[0038]η为3时所述词序树建立单元采用的第一词序结构为MJOWU+DWU-1)，w(t+l)为在训练语料的句子中位于Wi (t)后面一位的任一词；
[0039]η为4时所述词序树建立单元采用的第一词序结构为jJOWU-DWU+l)ff(t-2),ff(t-2)为在训练语料的句子中位于Wi (t)前面两位的任一词。
[0040]根据本发明一优选实施例,所述η元词序树的叶节点包括指示从根节点到该叶节点的路径上所有词语按照先后顺序连接在一起组成一个文法的发生次数。
[0041]根据本发明一优选实施例，所述合并处理单元具体包括:
[0042]第一合并子单元，用于将各词序树建立单元提供的相同根节点的相同元的词序树进行合并；
[0043]第二合并子单元，用于基于所述第一合并子单元的合并结果，将相同根节点的不同元的词序树合并成一棵Trie树；
[0044]词序转换子单元，用于将所述第二合并子单元合并得到的Trie树转换为预设的第二词序结构，得到存放前向概率信息的Trie树；
[0045]所述预设的第二词序结构为:从根到叶按照句子中倒数第二个词、最后一个词、其他词按照倒序排列的顺序。
[0046]根据本发明一优选实施例，该训练装置还包括:回退树建立单元，用于依据所述存放前向概率信息的Trie树生成存放回退概率信息的Trie树。
[0047]一种语言模型的查询方法，该查询方法包括:
[0048]Ρ1、获取待查询的词序列，将待查询的词序列作为当前输入的词序列执行步骤Ρ2 ；
[0049]Ρ2、将当前输入的词序列调整成预设的词序结构，调整后得到的词序列按照如下顺序:当前输入的词序列中倒数第二个词、最后一个词、其他词按照倒序排列；
[0050]Ρ3、将调整后的词序列在上述训练方法训练得到的存放前向概率信息的Trie树上进行查询，得到所述当前输入的词序列的出现概率。
[0051]根据本发明一优选实施例，如果所述步骤Ρ3中没有查询到出现概率，则执行回退处理；
[0052]所述回退处理为:将所述当前输入的词序列去掉开头词语后的词序列作为新的当前输入的词序列，转至所述步骤P2。
[0053]根据本发明一优选实施例，如果所述步骤P3中没有查询到出现概率，则进一步执行回退系数查询；
[0054]所述回退系数查询为:将步骤P2中所述当前输入的词序列去掉结尾词语后的词序列进行倒序，将倒序后得到的词序列在存放回退概率信息的Trie树上进行查询，得到所述当前输入的词序列去掉结尾词语后的词序列的回退系数；
[0055]如果对回退处理得到的新的当前输入的词序列查询得到出现概率，则将查询得到的出现概率与回退系数查询得到的回退系数相乘，得到所述待查询的词序列的出现概率。
[0056]一种语言模型的查询装置，该查询装置包括:
[0057]序列获取单元，用于获取待查询的词序列，将待查询的词序列作为词序调整单元当前输入的词序列；
[0058]词序调整单元，用于将当前输入的词序列调整成预设的词序结构，调整后得到的词序列按照如下顺序:当前输入的词序列中倒数第二个词、最后一个词、其他词按照倒序排列；
[0059]前向查询单元，用于将所述词序调整单元得到的词序列在上述训练装置训练得到的存放前向概率信息的Trie树上进行查询，得到所述当前输入的词序列的出现概率。
[0060]根据本发明一优选实施例，该装置还包括:回退控制单元，用于在所述前向查询单元未查询到出现概率时，执行回退处理，所述回退处理为:将所述当前输入的词序列去掉开头词语后的词序列作为所述词序调整单元新的当前输入的词序列。
[0061]根据本发明一优选实施例，该装置还包括:回退查询单元，用于在所述前向查询单元未查询到出现概率时，执行回退系数查询，所述回退系数查询为:将所述当前输入的词序列去掉结尾词语后的词序列进行倒序，将倒序后得到的词序列在存放回退概率信息的Trie树上进行查询，得到所述当前输入的词序列去掉结尾词语后的词序列的回退系数；
[0062]如果所述前向查询单元对回退处理得到的新的当前输入的词序列查询得到出现概率，则将查询得到的出现概率与所述回退查询单元得到的回退系数相乘，得到所述待查询的词序列的出现概率。
[0063]由以上技术方案可以看出，本发明提供了一种新的词序树结构，使得对训练语料进行分块并行的处理(并行的后缀树递归排序和词序树建立)成为可能，并对并行处理后得到的词序树进行合并和词序转换后，得到易于查询的存放前向概率信息的Trie树。由于引入了并行的处理，因此语言模型的训练更加快速，方便语言模型进行快速更新，这在训练语料较多时效果尤其显著。
【【专利附图】

【附图说明】】
[0064]图1为本发明实施例一提供的语言模型的训练方法流程图；
[0065]图2为本发明实施例一提供的递归的后缀树排序方法流程图；
[0066]图3为本发明实施例二提供的语言模型的查询方法流程图；
[0067]图4为本发明实施例三提供的语言模型的训练装置结构图；
[0068]图5为本发明实施例三提供的递归处理单元的具体结构图；
[0069]图6为本发明实施例四提供的语言模型的查询装置结构图。【【具体实施方式】】
[0070]为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。
[0071]实施例一、
[0072]图1为本发明实施例一提供的语言模型的训练方法流程图，如图1所示，该方法包括以下步骤:
[0073]步骤101:对训练语料进行分块分别得到N组训练语料，N为大于I的正整数。
[0074]为了提高语言模型的更新速度，本发明实施例中将原来对训练语料串行处理的方式变为并行处理，因此首先对训练语料进行分块后得到多组训练语料，以便后续对该多组训练语料进行并行处理。
[0075]在此对训练语料进行的分块可以按照任意的策略进行，只要能够将训练语料分成N组即可。另外，本步骤中采用的训练语料在初始训练时，可以是搜索文本中所有时间段的用户输入信息，也可以是搜索文本中设定时间段的用户输入信息；如果是在后续的更新过程中，可以是搜索文本中距离当前时间点最近的时间段的用户输入信息。
[0076]步骤102:对分块得到的N组训练语料并行进行递归的后缀树排序，得到反映各词语在各句子中倒序位置状况的排序结果。 [0077]本步骤实际上是采用递归的后缀树排序方式来实现倒序文法的精确定位。所谓倒序指的是词序中相对于正序的一种排序方式，词序指的是语料中按照一个文法各词的时间发生顺序，正序是按照一个文法中时间递增的顺序排列，即W (t) W (t+1) W (t+2)…，倒
[0078]序是按照一个文法中时间递减的顺序排列，即W(t)W(t-l)W(t_2)...，需要说明的是，在一个文法中的时间顺序实际上是各词先后排列的顺序，该时间是一个相对概念。
[0079]本步骤中递归的后缀树排序的具体实现方法可以如图2所示，主要包括步骤201至步骤204，这里执行的各操作是针对分块得到的N组训练语料分别执行的，下面的描述以其中一组训练语料为例，各组训练语料的处理方式相同。
[0080]步骤201:将该组训练语料中的所有句子进行倒序，并将倒序后的句子拼在一起构建一个词号数组，该词号数组中的各词号为各词语的词号，再构建一个和词号数组一样大的索引数组，该索引数组中的各索引记录了各词语在词号数组中的序号。
[0081]在本步骤中构建的词号数组用于标识原始语料中各词语的词号，通常相同词语的具有相同的词号。构建的索引数组用于标识各词语在词号数组中的序号，即初始索引数组表征了各词语在词号数组中的位置状况。
[0082]步骤202:依据词号数组，将索引数组中的序号按照对应词语的词号从小到大进行排序，执行步骤203。
[0083]本步骤为第一次递归排序，进行第一次递归排序后，词号数组中各词号保持不变，索引数组中的索引将被排列成反映词号从小到大的顺序，此时，对应相同词号的索引在索引数组中被排在一起，这些排在一起且对应相同词号的索引称为同组索引。同组索引内部的索引之间顺序是可以随意调整的，不会对第一次递归排序结果造成影响。
[0084]步骤203:将索引数组当前排序结果中的同组索引，按照每一个索引所对应词语在词号数组中下一个位置的词语的词号从小到大进行排序。[0085]在进行后续次数的排序时，不再是索引数组的整体排序，而是在索引数组当前排序结果中的同组索引内部进行排序，排序依据是其在词号数组中下一个位置的词语的词号，也就是说，在原始的训练语料中该索引所对应词语的前一个词语的词号。
[0086]步骤204:判断排序次数是否满足预设的文法阶数要求，如果否，转至步骤203进行下一次排序；如果是，结束递归的后缀树排序流程。
[0087]在本步骤中，递归排序一轮一轮执行，即进行第一次排序、第二次排序、第三次排序，等等，直到排序次数达到预设的文法阶数要求，最终得到的索引数组中各索引反映了对应词语在训练语料中各句子的倒序位置状况，处于相同位置的词语所对应的索引排列在一起。
[0088]继续参见图1，步骤103:基于步骤102的排序结果，将各句子中倒数第二个词作为根节点按照预设的第一词序结构分别建立η元词序树，η为预设的一个或多个大于I的正整数。
[0089]在按照图2所示流程分别并行的对各组训练语料进行递归的后缀树排序后，就可以准确定位出各句子中倒数第二个词的任意一个η元文法串的位置和发生次数，基于这些信息就能够实现η元词序树的建立，该η元词序树是以句子中倒数第二个词作为根节点的，下面对采用的第一词序结构进行重点描述。
[0090]采用二元文法时对应的第一词序结构为=Wi(OWa-1),其中，Wi (t)为一个特定词，在本发明中为训练语料的句子中倒数第二个词，ff(t-l)为在训练语料的句子中位于Wi (t)前面一位的任一词。
[0091]建立的二元词序树`为:
【权利要求】
1.一种语言模型的训练方法，其特征在于，该训练方法包括:51、对训练语料进行分块得到N组训练语料，N为大于I的正整数；52、对分块得到的N组训练语料并行执行步骤S21和步骤S22；521、进行递归的后缀树排序，分别得到反映各词语在各句子中倒序位置状况的排序结果;522、基于步骤S21的排序结果，将各句子中倒数第二个词作为根节点按照预设的第一词序结构分别建立η元词序树，η为预设的一个或多个大于I的正整数；53、对得到的相同根节点的词序树进行合并和词序转换后，得到存放前向概率信息的Trie树，该Trie树中从根到叶的词序顺序为:句子中倒数第二个词、最后一个词、其他词语按照倒序排列。
2.根据权利要求1所述的训练方法，其特征在于，所述步骤S21具体包括:Al、将当前组训练语料中的所有句子进行倒序，并将倒序后的句子拼在一起构建一个词号数组，所述词号数组中为各词语的词号，再依据词号数组构建一个索引数组，所述索引数组中的各索引记录了各词语在词号数组中的序号；Α2、依据词号数组，将索引数组中的序号按照对应词语的词号从小到大进行排序；A3、将索引数组当前排序结果中的同组索引，按照每一个索引所对应词语在词号数组中下一个位置的词语的词号从小到大进行排序；Α4、判断排序次数是否满`足预设的文法阶数要求，如果是，结束递归的后缀树排序流程；否则，转至所述步骤A3进行下一次排序。
3.根据权利要求1所述的方法，其特征在于，η为2时采用的所述第一词序结构为:Wi(OWa-1), Wi (t)表示训练语料的句子中倒数第二个词，ff(t-l)表示训练语料的句子中位于Wi(t)前面一位的任一词；η为3时采用的所述第一词序结构为Aawa+Dwa-1)，wa+i)为在训练语料的句子中位于Wi (t)后面一位的任一词；η为4时采用的所述第一词序结构为Aawa-Dwa+Dwa^，wa-2)为在训练语料的句子中位于Wi (t)前面两位的任一词。
4.根据权利要求1所述的训练方法，其特征在于，所述η元词序树的叶节点包括指示从根节点到该叶节点的路径上所有词语按照先后顺序连接在一起组成一个文法的发生次数。
5.根据权利要求1所述的训练方法，其特征在于，所述步骤S3具体包括:531、将由各组训练语料得到的相同根节点的相同元的词序树进行合并；532、将相同根节点的不同元的词序树合并成一棵Trie树；S 3 3、将合并得到的T r i e树转换为预设的第二词序结构，得到存放前向概率信息的Trie 树；所述预设的第二词序结构为:从根到叶按照句子中倒数第二个词、最后一个词、其他词按照倒序排列的顺序。
6.根据权利要求1所述的训练方法，其特征在于，所述语言模型除了包含所述存放前向概率信息的Trie树之外，还包括:依据所述存放前向概率信息的Trie树生成的存放回退概率信息的Trie树。
7.一种语言模型的训练装置，其特征在于，该训练装置包括:分块处理单元、N个递归处理单元、N个词序树建立单元以及合并处理单元；分块处理单元，用于对训练语料进行分块得到N组训练语料，将N组训练语料分别提供给各递归处理单元，N为大于I的正整数；递归处理单元，用于对接收到的训练语料进行递归的后缀树排序，得到反映各词语在各句子中倒序位置状况的排序结果，并提供给对应的词序树建立单元；词序树建立单元，用于基于接收到的排序结果，将各句子中倒数第二个词作为根节点按照预设的第一词序结构分别建立η元词序树，η为预设的一个或多个大于I的正整数；合并处理单元，用于对各词序树建立单元得到的相同根节点的词序树进行合并和词序转换后，得到存放前向概率信息的Trie树，该Trie树中从根到叶的词序顺序为:句子中倒数第二个词、最后一个词、其他词按照倒序排列。
8.根据权利要求7所述的训练装置，其特征在于，所述递归处理单元具体包括:数组建立子单元，用于将当前组训练语料中的所有句子进行倒序，并将倒序后的句子拼在一起构建一个词号数组，所述词号数组中为各词语的词号，再依据词号数组构建一个索引数组，所述索引数组中的各索引记录了各词语在词号数组中的序号；初始排序子单元，用于依据词号数组，将索引数组中的序号按照对应词语的词号从小到大进行排序，触发递归排序子单元；递归排序子单元，用于受到触发后，将索引数组当前排序结果中的同组索引，按照每一个索引所对应词语在词号数组中下一个位置的词语的词号从小到大进行排序，触发次数控制子单兀；次数控制子单元，用于受到触发后，判断排序次数是否满足预设的文法阶数要求，如果是，将排序结果提供给对应的词序树建立单元；否则，触发递归排序子单元。
9.根据权利要求7所述的训练装置，其特征在于，η为2时所述词序树建立单元采用的第一词序结构为=Wi (Owa-1)Ut)表示训练语料的句子中倒数第二个词，w(t-l)表示训练语料的句子中位于Wi (t)前面一位的任一词；η为3时所述词序树建立单元采用的第一词序结构为Aawa+Dwa-1)，w(t+i)为在训练语料的句子中位于Wi (t)后面一位的任一词；η为4时所述词序树建立单元采用的第一词序结构为Aawa-Dwa+Dwa-〗)，ff(t-2)为在训练语料的句子中位于Wi (t)前面两位的任一词。
10.根据权利要求7所述的训练装置，其特征在于，所述η元词序树的叶节点包括指示从根节点到该叶节点的路径上所有词语按照先后顺序连接在一起组成一个文法的发生次数。
11.根据权利要求7所述的训练装置，其特征在于，所述合并处理单元具体包括:第一合并子单元，用于将各词序树建立单元提供的相同根节点的相同元的词序树进行合并；第二合并子单元，用于基于所述第一合并子单元的合并结果，将相同根节点的不同元的词序树合并成一棵Trie树；词序转换子单元，用于将所述第二合并子单元合并得到的Trie树转换为预设的第二词序结构，得到存放前向概率信息的Trie树；所述预设的第二词序结构为:从根到叶按照句子中倒数第二个词、最后一个词、其他词按照倒序排列的顺序。
12.根据权利要求7所述的训练装置，其特征在于，该训练装置还包括:回退树建立单兀，用于依据所述存放前向概率信息的Trie树生成存放回退概率信息的Trie树。
13.一种语言模型的查询方法，其特征在于，该查询方法包括:P1、获取待查询的词序列，将待查询的词序列作为当前输入的词序列执行步骤P2 ；P2、将当前输入的词序列调整成预设的词序结构，调整后得到的词序列按照如下顺序:当前输入的词序列中倒数第二个词、最后一个词、其他词按照倒序排列；P3、将调整后的词序列在权利要求1至6任一权项所述的训练方法训练得到的存放前向概率信息的Trie树上进行查询，得到所述当前输入的词序列的出现概率。
14.根据权利要求13所述的查询方法，其特征在于，如果所述步骤P3中没有查询到出现概率，则执行回退处理；所述回退处理为:将所述当前输入的词序列去掉开头词语后的词序列作为新的当前输入的词序列，转至所述步骤P2。
15.根据权利要求14所述的查询方法，其特征在于，如果所述步骤P3中采用权利要求6所述训练方法训练得到的存放前向概率信息的Trie树，则如果所述步骤P3中没有查询到出现概率，则进一步执行回退系数查询；所述回退系数查询为:将步骤P2中所述当前输入的词序列去掉结尾词语后的词序列进行倒序，将倒序后得到的词序列在存放回退概率信息的Trie树上进行查询，得到所述当前输入的词序列去掉结尾词语后的词序列的回退系数；如果对回退处理得到的新的当前输入的词序列查询得到出现概率，则将查询得到的出现概率与回退系数查询得到的回退系数相乘，得到所述待查询的词序列的出现概率。
16.一种语言模型的查询装置，其特征在于，该查询装置包括:序列获取单元，用于获取待查询的词序列，将待查询的词序列作为词序调整单元当前输入的词序列；词序调整单元，用于将当前输入的词序列调整成预设的词序结构，调整后得到的词序列按照如下顺序:当前输入的词序列中倒数第二个词、最后一个词、其他词按照倒序排列；前向查询单元，用于将所述词序调整单元得到的词序列在权利要求7至12任一权项所述的训练装置训练得到的存放前向概率信息的Trie树上进行查询，得到所述当前输入的词序列的出现概率。
17.根据权利要求16所述的查询装置，其特征在于，该装置还包括:回退控制单元，用于在所述前向查询单元未查询到出现概率时，执行回退处理，所述回退处理为:将所述当前输入的词序列去掉开头词语后的词序列作为所述词序调整单元新的当前输入的词序列。
18.根据权利要求17所述的查询装置，其特征在于，如果所述前向查询单元采用权利要求12所述训练装置训练得到的存放前向概率信息的Trie树，则该装置还包括:回退查询单元，用于在所述前向查询单元未查询到出现概率时，执行回退系数查询，所述回退系数查询为:将所述当前输入的词序列去掉结尾词语后的词序列进行倒序，将倒序后得到的词序列在存放回退概率信息的Trie树上进行查询，得到所述当前输入的词序列去掉结尾词语后的词序列的回退系数；如果所述前向查询单元对回退处理得到的新的当前输入的词序列查询得到出现概率，则将查询得到的出现概率与所述回退查询单元得到的回退系数相乘，得到所述待查询的词序列的出现概率。`
【文档编号】G10L15/06GK103871404SQ201210539598
【公开日】2014年6月18日申请日期:2012年12月13日优先权日:2012年12月13日
【发明者】贾磊, 万广鲁申请人:北京百度网讯科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贾磊;万广鲁
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！