通过使用平方根折扣的统计语言的语音识别的制作方法

文档序号:2837359阅读:392来源:国知局
专利名称:通过使用平方根折扣的统计语言的语音识别的制作方法
技术领域
本发明涉及采用统计平滑的统计语言建模的方法。特别地,本发明涉及基于统计语言建模的语音识别方法,该统计建模利用平滑的概率计算,具体地,折扣所观察到的事件的概率。

背景技术
统计语言建模是试图捕获自然语言的规律性,并因此捕获到人机交互的自然语言系统的基本成分。统计语言模型旨在尽可能精确地估计自然语言的分布。这些模型在不同自然语言应用中扮演了重要角色,如语音识别、机器翻译、文本到语音系统以及拼写校正。
语音识别可以当作统计语言建模的尤其重要的应用。语音识别系统,即将声学信号转换为词或词串的序列的设备,这在今天越来越流行。在过去的几年中,由于语音识别技术的急剧改进,高性能的语音分析、识别算法和语音对话系统已经变得常见。今天,语音输入能力包括语音拨号、呼叫路由、文献准备等。语音对话系统例如可以采用在汽车中,从而允许用户控制不同的装置,如移动电话,车载收音机,导航系统和/或空调。
在语音识别发声过程中,例如,孤立的词或连续的语音被麦克风或电话捕获,并被转换为模拟电子信号,该电子信号然后被数字化。数词信号通常经过后续的波谱分析。通常以6.6KHz和20KHz之间的速率采样的语音波形的表示是从短时间功率谱获得的,并表示一系列特征化的矢量,这些矢量含有通常被称为特征/特征参数的值。特征参数的值被用于估计部分被分析波形的概率,例如该被分析波形相应于特定项目,如词汇表中的词。
尽管已经有尝试将语言结构和理论以及语义的先验知识包括到统计语言建模中,并且目前可以采用利用语境(context)的统计信息的方法,如集合Markov模型(aggregate Markov model)和神经概率语言模型,但是最流行和高效的N元文法(n-gram)语言建模并未考虑语言的特定本质。
实际上,n元文法建模依靠预测性语境(predictive context)的离散列举,该预测性语境指定对所看到的一个或多个词的关系,其中这些词被当作没有深层结构和意义的任意符号。每个词是从前面n-1个词预测的。应该指出,许多可能的n元文法在任何合理训练语料中是不可见的,该合理训练语料引起稀疏数据问题(参看下面)。
通常,句子的概率p(s)是通过句子第i个词Wi的条件概率的积计算的
其中hi=(w1,..,wi-1)被称为历史。n元文法通过Markov方法减小了概率问题的维度,也就是通过假定词受其前面的局部语境影响,即,前面的最后几个词p(wi|hi)=p(wi|wi-n+1,..,wi-1)。对于相对大的训练语料(如几百万个词),一般选择三元文法(n=3),而对于较小的训练语料则选择二元文法(n=2)。
然而,即使对于较大的语料,二元文法和三元文法概率的计算也表现出稀疏估算问题,因为大量的词组合出现不频繁。因此,直接最大似然估计法(straight-forward maximum-likelihood estimationapproach)不是优选的。所以提出了基于类的n元文法模型来估计分成类的词的参数。此外,不同平滑技术也已经被开发来消除数据稀疏的问题,包括从所见事件采取某些概率测量(n元文法)并将其再分布到不可见事件中的所谓折扣方法。
流行的平滑技术基于好图灵估计量(Good-Turing Estimator),该估计量用于估计多少给定概率分布应被“提供”从而解决先前未见事件。实际上,好图灵平滑法常引起数值不稳定性和反直觉概率,具体地,对于作为统计语言建模问题特征的少量观察的数据。根据训练数据的量,n元文法概率可以被采用或后退到(n-1)元文法概率(Katz后退)可以是优选的。
按照其他普通平滑方法,每个观察的n元文法的概率是通过减去一个常数(绝对折扣)或通过按比例对原始计数折扣(线性折扣)而减少的。在这两种方法中,任意参数必须在没有折扣方法的可靠数学基础的情形下首先规定。而且,线性折扣显示出具有强烈的低估具有大计数所见事件概率的趋势,而绝对折扣不能精确判断具有小计数的所见事件的概率。
应该指出,传统方法中,常常必须处理非常小的数词,这不仅可能导致不精确的计算,如四舍五入误差,而且可能延长计算时间。
考虑到现有技术的上述缺点,需要一种改进的统计语言建模方法,具体地,需要一种采用可靠统计平滑的语音识别。


发明内容
上述问题通过统计语言建模,特别是可用于语音识别的方法解决或至少部分消除,其包括以下步骤 以预定的顺序提供预定数目的词; 提供训练语料,其包括预定数目的词序列,其中每个词序列由所提供的预定顺序的预定数目的词组成,这些预定数目的词至少跟随有一个额外词; 提供候选词,基于训练语料,为每个候选词计算该候选词跟随所提供的预定数目的词的概率; 确定至少一个候选词,对于该候选词,所计算的概率超过预定的阈值; 其中 该候选词的概率是基于经平滑的最大似然概率计算的,该最大似然概率是为训练语料的词序列计算的,对于训练语料的所有词序列,该概率大于或等于预定的正实数,该正实数小于或等于训练语料的词序列的预定数目的倒数值。
例如,预定数目的词是作为文本或作为语音信号提供的。在最简单的情形中,预定顺序的预定数目的词是1。这里,预定顺序的词和词序列也称为句子。词是作为语言单位理解的,通常包括音素。统计语言建模是指分配语言的词和句子的概率分布。
训练语料的词序列也称为n元文法,其中n表示序列中词的数目。训练语料可包括n元文法,如二元文法和/或三元文法,和/或四元文法,其存储在有效的数据结构中,例如作为后缀树(suffix tree)或不同树结构。词序列出现在带有特殊频率(计数)的训练语料中。
至少一个候选词是以预定阈值以上的概率确定的,从而以所确定的候选词补充从所提供的预定数目的词开始的序列。预定阈值可以是0和1之间的预定实数,或可以是由某些预定差给予平均概率值的相对阈值,该平均概率值是为训练语料的词序列计算的,或可以是所计算的较低的概率值中的一个。
按照本发明,每个候选词的概率是基于训练语料的词序列的平滑的似然概率估计的(参看下面),其中平滑的似然概率是以这样的方式计算的,该方式保证其不落在预定正实数以下,该正实数小于或等于训练语料的词序列的预定数目的倒数值。特别地,每个候选词的概率可以判断为等于训练语料的词序列的平滑的似然概率,该训练语料包括或由所提供数目的词组成,这些词跟随有候选词,或可以判断为以某个因子调整的平滑似然概率。
所实现的有效折扣允许稳定(从计算过程的稳定性看)和可靠的统计语言建模。具体地,本发明方法适于相对小的训练语料,因为其统计语言建模和语音识别的稀疏数据问题。
按照这里所揭示方法的一个实施例,如果训练语料的词序列的所观察到的频率(计数)cj都没有落在预定正实数m乘以所有预定数目的训练语料的词序列的整体频率

以下,其中该正实数m小于或等于词序列的预定数目的倒数值,即如果cj≥mS_j,对于每个包括或由所提供的预定顺序预定数目的词(这些词跟随有候选词)组成的词序列,每个候选词的概率基于最大似然概率来计算(最大似然估算量),即,cj/S。在该情形中,平滑是不必要的,且可节省计算机资源,而不削弱通过本方法获得的结果的可靠性。
另外,如果对于至少一个j,cj<mS,这里cj表示训练语料的N个词序列中第j个词所观察的频率(即,事件ej),S是所观察的训练语料的词序列的整体频率,且m是预定正实数,其小于或等于词序列的预定数N的倒数值,候选词的概率Pj的计算可包括以下步骤 a)通过下式计算实数α 其中

b)计算平滑的计数 c)由pj=cj’/S计算平滑的概率pj, 和 d)如果pj≥m,则从pi判断候选词的概率 已经证明所述算法在由本发明人所做的实验中是可靠和稳定的。每个候选词的概率可当作pj。然而,优选以某个常数a对pj求幂以便对语言模型加权,即pja,这里a是正实数。
如果在步骤c)中计算的pj至少有一个小于预定的正实数m,该正实数m小于或等于训练语料中词序列预定数目N的倒数值,按照从最大似然概率pj(0)=cj/S开始并进一步由pj(n)=<(pj(n-1))>定义的概率pj(n)归纳序列,每个候选词的概率可有利地通过迭代上述步骤a)到c)而确定,这里<>表示通过迭代计算的平滑的计数cj’进行的pj(n)的迭代计算。这意味着平滑的计数计算j=1,..,N是由依赖于



和依赖于



执行的。该迭代过程显示出快速收敛并保证pj≥m_j。
按照这里所揭示方法的一个例子,每个候选词的概率是基于n元文法和(n-1)元文法计算的,即,按照pj[n-gram]=λcj[n-gram]/S[n-gram]+(1-λ)pj[(n-1)-gram]的标准后退或插值,其中0≤λ≤1,且pj表示可以按照不同平滑插值技术选择的概率(参看Stanley F.Chen和Joshua T.Goodman发表的“语言建模的平滑技术的经验研究”,哈佛大学计算机科学组技术报告TR-10-98,1998)。特别地,也可以采用Kneser-Ney算法。这些技术可进一步提高本发明的可靠性和整体性能。
本发明特别提供了语音识别方法,其包括以下步骤 提供包括n元文法的数据库; 检测和数字化包括说出的词的发声;以及 基于数据库的n元文法,并通过上面所讨论的统计语言建模的方法的实施例之一,识别说出词中的至少一个。
因而,可以实现可靠的语音识别。按照这种语音识别的方法,至少一个说出的词基于一个或多个在前面识别的词识别,且其与至少一个候选词相同,该候选词计算的概率超过按照这里所揭示的统计语言建模的方法的例子确定的预定阈值。应该指出,该阈值不同于上述预定的正实数m。数据库的n元文法表示训练语料和(数字化)的说出的词,以及统计语言建模的方法所提供的预定顺序的预定数目的词。
语音识别的方法可以进一步包括作为识别结果产生N个最优候选词表,其由按照这里所揭示的统计语言建模的方法的例子的统计语言建模的方法判断,其中每个候选词被赋以表示候选词跟随预定数目的说出的且已经识别的词的概率的分数。
按照该实施例,如三元文法的两个词是部分训练语料且存储在数据库中,并可被认为已经识别。要识别的语音符号可包括待识别的第三个词。对于候选词,各候选词跟随所提供的检测出的语音信号中已经识别的两个词的概率是基于训练语料计算的;且所计算的概率超过预定阈值的候选词被确定。
每个候选词的概率是基于每个n元文法的平滑的最大似然概率计算的,其中所构建的该平滑的最大似然概率大于或等于预定正实数,该正实数小于或等于存储在数据库中的n元文法的数目的倒数值。
所生成的N个最优候选词表由候选词序列组成,该候选词按照它们确定的概率排序。提供这样的N个最优词表是有利的,例如在基于识别结果的语音对话系统输出合成语音信号时。因此,识别结果可以被语音对话系统的用户接受或拒绝。在识别结果被拒绝的情况下,所发生的N个最优词表中下一条输入(例如,如果具有最高概率值的候选词被拒绝,具有第二高概率值的候选词)可以提供给用户。
除了语音识别,机器翻译和文本到语音的方法可有利地利用统计语言建模方法的例子。因此,提供了用于词序列的机器翻译的方法,其包括 提供包括n元文法的数据库;和 基于词序列的n个前面已经翻译的词,翻译词序列的第n+1个词,具体地,基于词序列的前面一个或两个序列词,通过这里所揭示的统计语言建模的方法的例子,即,选择至少一个通过统计语言建模方法的例子确定的候选词作为翻译。要翻译的词可作为键入或写入的文本或以声学语音信号提供。
进一步,提供了用于文本到语音处理的方法,其包括 提供包括n元文法的数据库; 检测键入或手写的包括词的文本; 基于数据库的n元文法,并作为通过按照一个前述例子的统计语言建模方法判断的至少一个候选词,其中对于该候选词,所计算的概率超过预定阈值,识别至少一个所检测的键入或手写文本的词,具体地,那些跟随一个或多个已经识别的词的词;且 基于所识别的至少一个词(即,所判断的至少一个候选词,对于该词,所计算的概率超过预定阈值)输出合成语音信号。
在上面机器翻译和文本到语音处理的方法中,数据库的n元文法表示训练语料,且n个已经翻译的或已经识别的词分别表示本发明的统计语言建模的方法所提供的预定顺序的预定数目的词。
如在语音识别方法的情形下所述的生成N个最优候选词表也可分别在机器翻译或文本到语音处理的方法中执行。
本发明也提供了计算机程序产品,包括一个或多个计算机可读介质,其具有用于执行一个上述方法的例子的步骤的计算机可执行指令。
而且,本发明提供了用于语音识别的系统,其包括 包括n元文法的数据库; 配置来检测至少一个包括说出的词的语音信号的接口; 处理装置,其经配置来数字化所检测的至少一个语音信号;和 识别装置,其经配置,从而 基于每个n元文法平滑的最大似然概率,为候选词计算该候选词跟随预定数目的说出词(具体地,预定数目的已经识别的说出词)的概率,其中平滑的最大似然概率大于或等于预定的正实数,该正实数小于或等于包括在数据库中的n元文法数目的倒数值;以及 识别至少一个说出的词作为至少一个候选词,对于该候选词,所计算的概率超过预定阈值。
数字信号经随后的由处理装置执行的谱分析。语音波形的表示可以6.6kHz到20kHz之间的速率采样,并可从短期功率谱获得,且可表示特征矢量的序列,该特征矢量包含通常被称为特征/特征参数的值。如本领域公知的那样,特征参数的值可用在语音信号的分析中。
识别装置可进一步配置来发生N个最优候选词表,这些候选词被识别为至少一个说出词并将分数赋给N个最优候选词表的每个候选词,且分数可表示由识别装置计算的候选词的概率。
具体地,识别装置可经配置来根据n元文法和(n-1)元文法计算每个候选词的概率pj(参考上面)。识别装置也可配置成,如果n元文法语料观察的频率cj都没有落在预定正实数m乘以存储在数据库中的所有n元文法的整体频率S以下,其中m小于或等于这些n元文法预定数目的倒数值,则根据每个n元文法的最大似然概率(cj/S)计算这些概率,该n元文法包括一个或多个已经识别的说出的词。另一方面,如果对于至少一个包括一个或多个已经识别的说出的词的n元文法,cj<mS,则识别的装置可经配置来计算上面步骤a)到c)。步骤a)到c)的迭代可由识别装置执行以便实现pj≥m_j。
这里所揭示的用于语音识别的方法的例子的执行对于嵌入式系统特别有用,嵌入式系统计算资源有限。在用户不受手动输入而分散注意力的情形下,语音识别系统对于由语音输入执行的装置操作特别有利。也就是,例如,在利用电子路线导引辅助车辆驾驶员的导航辅助的情况下。因此,提供了一种车辆导航系统,其包括上面例子中的语音识别系统。
将参考


本发明额外的特征和优点。在说明书中,参考了一个作为本发明优选实施例的附图。可以理解,这样的实施例不代表由下面给出的权利要求限定的本发明的全部范围。


图1示出语音识别的发明性方法的例子,该方法包括候选词平滑概率的计算。

具体实施例方式 按照图1所示的例子,扬声器发出包括三个连续词a,b和c的句子。发声被麦克风检测1,且相应的麦克风信号已经被数字化并输入到语音识别装置中。语音识别装置访问包括训练语料的数据库,如在大量小说(novels)或无线电新闻广播脚本中看到的三元文法和/或二元文法。
假定语音识别装置已经识别扬声器发声的两个初始词a和b2。则任务是预测考虑的三元文法的下一个词。基于训练语料,已知从词a和b开始的N个可能的三元文法(事件)e1到eN。每个三元文法ej(j=1,..,N)在语料中被发现的频率为(计数的数目)cj。
为了预测词c完成三元文法,语音识别装置为c计算不同候选词的概率,即完成包括a和b的三元文法的概率。按照本发明当前例子,在不是所有计数cj都位于由某些“地板”值m(即预定的正实数)乘以整体计数给出的阈值以上时,计算平滑的概率。
如果确定了所有计数都不落在上述阈值以下3,即cj≥mS_j,所有事件的似然概率ej,即cj/S被计算4。然而,如果至少一个计数落在上述阈值以下,则平滑计数被计算5。
该程序的思想是保证为事件(即当前例子中的三元文法)计算的概率永远不落在由上述地板值给出的预定限值以下。因而,通过将高标准概率值(如最大似然概率)再分配给低概率值,执行某些折扣(按照公知的折扣概念)。对于地板值,可选择任何小于事件(该例子中的三元文法)数目N的倒数值的正实数。
详细来说,平滑的计数cj’的计算如下执行。基于地板值m的选择,计算实数α,其满足下面的条件 其中


因此,α由下式计算 如果上面等式的分母(denominator)为零,即则没有计数超过mS,且S≤mNS保持,则意味着m≥1/N。另一方面,按定义,m应小于或等于1/N。因此,所有计数等于mS意味着每个事件m的最大似然概率。因此,在最大似然概率被计算4的情形中,因为这保证了这些概率值不落在m以下。换句话说,如果则无需平滑。
另一方面,如果至少有一个计数cj<mS,则平滑的计数通过α计算,其中j=1,..,N。通过这些平滑的计数cj’,对于每个事件ej的平滑概率是通过pj=cj’/S计算的。注意,对于所有cj≥mS的j,cj’≤cj,这说明了本发明性概率平滑的“折扣”特性。本发明方法的上述例子包括基于最大似然概率cj/S计算平滑的概率,至少是如果cj>mS,

由(S-cj)cj/S计算。
如果对于某些事件,即,对于指标j,这样计算的平滑的概率pj小于地板值m,执行上面计算的迭代,从而获得概率序列,该概率序列由pj(0)=cj/S,pj(n)=<(pj(n-1)>归纳定义,其中符号<>表示通过迭代计算平滑的计数cj’而进行的pj(n)的迭代计算。这意味着平滑的计数的计算j=1,..,N是通过从

计算

和从

计算

而执行的。如果在k<N个步骤后,对于至少一个指标j,迭代导致pj(k)<m,那么关系cj(k)<mS<cj(k+1)得以保持,这意味着迭代在小于L(0)≤N个步骤后变为静止,其中L(n)被定义为所有满足cj(k)<mS的计数的数目。这保证迭代快速收敛。
基于上述概率计算,具有最高概率7的三元文法可被选择以便确定所考虑的三元文法的词c。
应该注意,这里揭示的方法的上述例子可有利地与后退策略组合,如Katz后退,按照Katz后退,当可利用的训练语料对于估计可靠的概率值足够大时,计算n元文法概率,如果不是,则采用后退到(n-1)元文法概率。在文献中公知的几种后退法可与上述平滑组合。
具体来说,按照pj[n-gram]=λcj[n-gram]/S[n-gram]+(1-λ)pj[(n-1)-gram]的某些插值。可按照不同平滑插值技术选择插值常数0≤λ≤1,如改进的Kneser-Ney方法(参考如Stanley F.Chen和JoshuaT.Goodman发表的“语言建模的平滑技术的经验研究”,哈佛大学计算机科学组技术报告TR-10-98,1998)。Kneser-Ney方法利用了这样的概念,即较低级的模型仅当在较高级模型中计数较小时会有效,且对于相对小量的训练数据特别有用,如在语音识别的情况下。
权利要求
1.一种用于统计语言建模的方法,其包括以下步骤
以预定的顺序提供预定数目的词;
提供包括预定数目词序列的训练语料,其中每个词序列由所提供的预定顺序的预定数目的词组成,所述预定数目的词跟随有至少一个额外词;
提供候选词,并基于训练语料为每个候选词计算该候选词跟随所提供的预定数目的词的概率;和
确定对其计算的概率超过预定阈值的至少一个候选词;
其特征在于
所述候选词的概率是基于平滑的最大似然概率计算的,该最大似然概率是为训练语料的词序列计算的,对于训练语料的所有词序列,该最大似然概率大于或等于预定的正实数,该正实数小于或等于训练语料的词序列的预定数目的倒数值。
2.如权利要求1所述的方法,其中如果观察到的训练语料的词序列的频率cj都没有落在所述预定正实数乘以训练语料的所有预定数目的词序列的整体频率
以下,其中该正实数小于或等于词序列的预定数目的倒数值,则对于包括所提供的跟随有所述候选词的预定顺序的预定数目的词或由其组成的每个词序列,基于最大似然概率计算每个候选词的概率。
3.如权利要求2所述的方法,其中如果对于至少一个j,cj<mS,这里cj表示训练语料的N个词序列中观察到的第j个词序列的频率,且S是训练语料中所有观察到的词序列的整体频率且m是预定正实数,其小于或等于词序列的预定数目N的倒数值,对所述候选词的概率pj的计算包括以下步骤
a)以下式计算实数α
其中
b)计算平滑的计数
c)通过pj=cj’/S计算平滑的概率pj,和
d)如果pj≥m,由pj确定每个候选词的概率。
4.如权利要求3所述的方法,其中如果如步骤c)中计算的pj至少有一个小于预定正实数m,该正实数小于或等于词序列的预定数目N的倒数值,则按照从最大似然概率pj(0)=cj/S开始并进一步由pj(n)=<(pj(n-1)>定义的概率pj(n)的归纳序列,对权利要求3中的步骤a)到c)进行迭代,确定每个候选词的概率,其中<>表示平滑的计数cj’的迭代计算。
5.如前述任一权利要求所述的方法,其中训练语料中包括的每个词序列由二元文法和/或三元文法和/或四元文法组成。
6.如前述任一权利要求所述的方法,其中每个候选词的概率是基于n元文法和(n-1)元文法计算的。
7.一种用于语音识别的方法,其包括
提供包括n元文法的数据库;
检测并数字化包括说出的词的发声;以及
基于数据库的n元文法,识别所述说出的词中的至少一个,作为根据前述任一权利要求通过统计语言建模方法确定的至少一个候选词,对该候选词计算的概率超过预定的阈值。
8.如权利要求7所述的用于语音识别的方法,进一步包括生成识别结果,所述识别结果由根据权利要求1到6之一所述的统计语言建模方法确定的候选词的N个最优列表组成,其中每个候选词被赋以表示概率分数的分数,而所述概率分数表示该候选词跟随预定数目的说出的和已识别的词的概率。
9.一种对词序列进行机器翻译的方法,其包括
提供包括n元文法的数据库;和
基于词序列的n个前面已经翻译的词,具体地,基于前面一个或两个序列词,将词序列的第n+1个词翻译成根据权利要求1到6之一所述的统计语言建模方法确定的至少一个候选词,对该候选词计算的概率超过预定的阈值。
10.一种用于文本到语音处理的方法,其包括
提供包括n元文法的数据库;
检测包括词的键入或手写文本;
基于数据库的n元文法,识别所检测的键入或手写文本的词中的至少一个,作为根据权利要求1到6之一所述的统计语言建模方法确定的至少一个候选词,对该候选词计算的概率超过预定的阈值;且
基于所识别的至少一个词输出合成语音信号。
11.一种计算机程序产品,其包括一个或多个具有计算机可执行指令的计算机可读介质,所述计算机可执行指令用于执行权利要求1到10之一所述的方法中的步骤。
12.一种用于语音识别的系统,其包括
包括n元文法和候选词的数据库;
配置来检测至少一个包括说出的词的语音信号的接口;
处理装置,配置用来数字化所检测的至少一个语音信号;和
识别装置,其配置成
基于每个n元文法的平滑的最大似然概率,为候选词计算该候选词跟随预定数目的说出的词的概率,其中平滑的最大似然概率大于或等于预定的正实数,该正实数小于或等于包括在数据库中的n元文法的数目的倒数值;并且
识别至少一个说出的词作为至少一个候选词,对该候选词计算的概率超过预定的阈值。
13.如权利要求12所述的用于语音识别的系统,其中所述识别装置被配置成生成N个最优候选词的列表,所述候选词被识别作为至少一个说出的词,并对所述N个最优候选词的列表中的每个候选词赋以分数,其中所述分数表示由识别装置计算的候选词的概率。
14.一种车辆导航系统,包括权利要求12-13之一所述的用于语音识别的系统。
全文摘要
本发明涉及统计语言建模和语音识别的方法,该方法提供预定顺序的预定数目的词,并提供包括预定数目的词序列的训练语料,其中每个序列由所提供的预定顺序的预定数目的跟随有至少一个附加词的词组成,提供候选词,并基于训练语料为每个候选词计算该候选词跟随所提供的预定数目的词的概率,确定至少一个候选词,对该候选词计算的概率超过预定的阈值,其中候选词的概率是基于平滑的最大似然概率计算的,该最大似然概率是为训练语料的词序列计算的,对于训练语料的所有词序列,最大似然概率大于或等于预定的正实数,该正实数小于或等于训练语料的词序列的预定数目的倒数值。
文档编号G10L15/197GK101123090SQ20071014182
公开日2008年2月13日 申请日期2007年8月13日 优先权日2006年8月11日
发明者G·维尔申 申请人:哈曼贝克自动系统股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1