划分字为词的全局方法

文档序号:2822022阅读:193来源:国知局
专利名称:划分字为词的全局方法
技术领域
本发明涉及语音识别系统,更确切地说,涉及在语音识别系统中把若干字划分为词。
背景技术
语音识别器中的一个部分是语言模型。捕捉一种给定语言句法结构的常见方法,是使用条件概率来捕捉句子的词串中嵌入的有序信息。例如,若当前的词为W1,可以构造一个语言模型,表示某些其它词W2、W3、……Wn会跟随W1的概率。这些词的概率可以采用如下的方式表示P21为词W2会跟随词W1的概率,其中P21=(W2|W1)。以这种表示法,P31为词W3会跟随词W1的概率;P41为词W4会跟随词W1的概率,依次类推,Pn1为词Wn会跟随词W1的概率。P21、P31、……Pn1中的最大值可以被确定并用在语言模型中。前述的实例是对于二元概率的,尽管也可以计算三元条件概率。
语言模型的产生往往是通过考察书面作品(比如报纸)并确定词汇表中的某些词相对于词汇表中其它词的条件概率。
在某些语言中,比如中文和日文,词可以写为一个或多个符号型的字,例如中文中的汉字和日文中的汉字。句子由字串组成,其中的词是隐含的,因为邻接的词之间没有间隔。一个特定的字可能自己本身就是一个词,或者与它前面或后面(也可能同时与前后)的字结合以形成一个词。根据产生词时字如何结合或分离,词的意义可能有变化。然而在书面形式中,字与字之间并没有间隔,所以是否一个特定的字自己本身就是一个词,或者与另一个字或多个字形成这个词,在视觉上并不明显。而一个特定的字属于哪个词是从上下文来理解的。为了对语言模型应用统计方法,采用在词的边界上放置间隔的方式,把词明确地提取出来。
把字划分为词传统上是由“贪心算法”来进行。贪心算法包括以下步骤(1)从给定要进行处理之句子的起点开始,穷举与句子中字串起始部分相匹配的所有可能的词。
(2)拾取最长的词(也就是,具有最多字数的词)并在句子中相匹配子串的尾部放置一个间隔,其余字串作为一个新的句子对待,重复步骤(1)直到句子中所有的字处理完毕。
从全局的观点来看,贪心算法并非总能作出最佳的选择。事实上,它选择的组合可能既非最优,亦非句法上正确。正如T.Cormen等人在“Introduction to Algorithms”(The MIT Press,1990)329页所言“贪心算法总是作出在本时刻看起来最佳的选择。也就是,它作出局部最优选择,希望这个选择会导致全局最优解。”发明内容在某些实施例中,本发明包括一种方法。该方法包括使用某个词汇表产生字划分路径的一个路径列表。确定一个第一划分路径的概率并指定它为最佳划分路径。确定另外一个划分路径的概率并将它与最佳划分路径的概率进行比较。如果另外的划分路径的概率超过最佳划分路径的概率,就将另外的划分路径指定为最佳划分路径。重复这种做法直到所有其余的划分路径都得到确定并与最佳划分路径的概率比较完毕。
在某些实施例中,本发明是一种装置,包括一种计算机可读的介质,它执行这种方法。在更多其它的实施例中,本发明是一种计算机系统。
下面介绍附加的实施例并要求权利。
附图简要说明从下面给出的详细介绍和本发明实施例的附图将会更加全面地理解本发明,不过,它们不应当作为把本发明限制在所介绍的特定实施例,而仅仅是为了解释和理解。


图1是表示一个计算机系统的高级别示意框图,本发明的某些实施例可以连同使用该系统。
图2是一个手持计算机系统的高级别示意图,本发明的某些实施例可以连同使用该系统。
具体实施例方式
本发明涉及从字划分词的一种系统和方法。也就是,本发明涉及决定一个字应当属于哪个词。本发明具有与某些语言比如中文和日文有关的、特定的应用,这些语言在字与字之间没有表示词划分的间隔。但是本发明并不限于此类用途。公开的本发明设计为,对给定的任何句子作出较好的词划分。这样做产生的语言模型优于以上介绍的、使用贪心算法的传统方法获得的模型。较好的语言模型会导致较好的识别准确度,因为就词串而言它较好地描述了该语言。
在某些实施例中,本发明使用统计语言模型配备的动态规划算法执行划分。可以执行动态算法的方式有很多种。动态算法的一个实例如下。首先,通过传统的贪心算法计算n元语言模型来处理主体(即要划分为词的字)。然后,使用Viterbi算法重新划分该句。Viterbi算法是一种动态规划法,它可以用于全局最优化。参见T.Cormen等人的“Introduction to Algorithms”(The MIT Press,1990)301-328页。我们使用的Viterbi算法可以描述为以下的(1)式Pwi=maxi(Pwi-1+prob(wi|wi-1))-------(1)]]>在(1)式中,P为概率,“prob”包括该语言模型。在(1)式中,wi为第i个词,wi-1为紧靠wi的前一个词,Pwi-1为第wi-1个词出现的概率,prob(wi|wi-1)为如果词wi-1出现时,词wi出现的条件概率。(1)式涉及发现使(1)式最大化的词wi。通过求解(1)式,结果词序列(w0w1……wN)将保证选定的划分在最大似然的意义下是最佳的。在某些实施例中,当i=N,到达句子结尾时,存在全局最大化。
(1)式为二元形式,不过,如果在语言模型中有其它形式,比如三元或一元形式,也能够使用。还可以使用补偿加权和其它技术。
如上所述,在某些语言中,每个字自己本身就可能是一个词。然而,本发明涉及确定,字可以与其它的字结合以形成另外词,还是独自为词更好。由多个字组成的词也可以称为术语或短语。
贪心算法的一种版本以伪码形式提供如下读词汇表;//词汇表为可能的词的列表打开语言主体;//语言主体包括要划分为词的字当(不是语言主体的结尾)时{从语言主体中读取一行并放入行缓冲区;//行缓冲区是一组存储器,并不限于任何特定形式当(行缓冲区非空)时{发现与行缓冲区头部匹配的、词汇表中最长的词;输出这个词和一个词分隔符;从行缓冲区中清除匹配的头部;}输出行分隔符;}关闭语言主体;在某些实施例中,依据本发明的、使用语言模型的一中划分算法包括以下步骤读语言模型; //语言模型加载到存储器中或者其它方式使之可用读词汇表;打开语言主体;当(不是语言主体的结尾)时{从语言主体中读取一行并放入行缓冲区;//一行中的字数可根据实施例而改变;一行可能是一句使用词汇表,产生包含所有可能的划分路径的路径列表;//一个划分路径是一种可能的字划分;可以使用不同的形式存放路径,例如列表或树结构发现贪心的划分路径并将它保存为最佳路径;//可以使用多种贪心算法比如以上提供的一种;在本发明的这个实施例中,//贪心划分路径最初被视为最佳路径,但是也可以使用其它初始路径使用语言模型计算该路径的概率,并将该值置为最大概率;//语言模型指定词发生的概率和一个词跟随另一个词的概率。可以使用(1)式或另一个//公式计算概率当(路径列表非空)时{从路径列表中选择路径并将它置为当前路径;使用语言模型,计算当前路径的概率;如果(当前路径的概率>最大概率){最大概率=当前路径的概率;当前路径保存为最佳路径;
}从路径列表中清除当前路径;}输出最佳路径;}关闭语言主体;结合下句中的中文字,给出该算法的一个实例。
原始文本有办法 解决使用贪心方法的划分结果有 办法 解决使用语言模型的划分结果有 办法 解决例1。
正确划分时,这个句子的意思是“有办法和力量解决问题”。本发明成功地划分了该句,而传统的方法没有做到。
在例1中,将原始文本视为以下八个字按顺序组成C1、C2、C3、C4、C5、C6、C7和C8。从原始文本中,在视觉上并不清楚如何把字分组以形成词。如下的表1给出了把字分组形成五个词W1-W5的两种可能的方式。
表1

使用一种贪心算法产生贪心划分路径如下。在主体中连续字的词汇表中,以字C1起始的最长的词就是只有字C1的词。换句话说,C1C2不是词汇表中的词。所以,词W1就是字C1。在某些实施例中,词W1离开行缓冲区,下一个字变为行的头部,尽管这是一个无须说明的实施细节。在这个实例中,下一个字为C2。在主体中连续字的词汇表中,以字C2起始的最长的词是包括字C2C3的词。换句话说,C2C3在词汇表中,但是C2C3C4不在。所以,词W2就是字C2C3。在主体中连续字的词汇表中,以字C4起始的最长的词是包括字C4C5的词。所以,词W3就是字C4C5。在主体中连续字的词汇表中,以字C6起始的最长的词是包括字C6的词。所以,词W4就是字C6。在主体中连续字的词汇表中,以字C7起始的最长的词是包括字C7C8的词。所以,词W5就是字C7C8。
计算这种贪心划分路径的概率。对于词W1和W2以及字C1、C2和C3,词汇表中包括的、仅有的划分路径是已经被贪心算法选择的路径。处理这种情况的一种方法是不重新计算概率,但是当存在着词汇表容许的其它路径时并非也不计算另一种概率。另一种方法是重新计算同一路径的概率,只会确定它们相同,使当前路径不取代最大概率。
然而,对于词W3和W4,存在两种路径。第一种是贪心算法选择的,W3为C4C5,W4为C6。另一种词汇表容许的划分路径是,W3为C4,W4为C5C6。在这个实例中,假设C4后面跟随着C5C6的组合比C4C5的组合后面跟随着C6的概率更大。(在每种情况下W5都相同。)那么在(1)式中,当前路径的概率会大于贪心划分路径的概率,它会取代贪心划分路径。注意以下值得关注的可能性。假设C4C5的组合比C4自己的概率大。根据信息的这个单一位元,会选择贪心划分路径。然而,这不会导致较好的全局解,因为C4后面跟随着C5C6比C4C5后面跟随着C6的概率更大。
行可以为一个句子。正如此处的用法,术语“句子”是指以一个符号比如句号结尾的一组连续的词。在不同的实施例中,在划分路径中可以考虑不同组的字。例如,划分路径可以考虑一个句子中的所有字。划分路径可以考虑一个移动的字窗口,而不考虑句子结尾,只不过注意语言模型不允许一个句子结尾的字与下一个句子中的第一个字相结合。窗口可能是设定数目的字。如果前一个路径的最后一个字不在词中,从它起始一个新的划分路径,划分路径可能包括X个字。其它可能性也是存在的。
有多种计算机系统可以用于训练和语音识别系统。仅仅是作为一个实例,图1表示计算机系统10的高度示意图,该系统包括处理器14、存储器16和输入/输出和控制部件18。存储器16可能包括行缓冲区22。行缓冲区仅仅是一组存储器,不必具有任何特定的特征。例如,它不必具有相邻的存储单元。在处理器14中可能有大容量的存储器,存储器16可能既表示不在处理器14芯片上的存储器,又表示部分在部分不在处理器14芯片上的存储器。(或者存储器16可能完全在处理器14芯片上。)在某些实施例中,行缓冲区24是在处理器14中,然而行缓冲区并非必须在处理器14中。另外,并非本发明的每一个实施例都有行缓冲区。划分路径并不需要存放在行缓冲区中。至少某些输入/输出和控制部件18可能在处理器14的同一个芯片上。或者在另一个芯片上。话筒26、监视器30、附加存储器34、输入设备(比如键盘和鼠标38)、网络连接42和扬声器44可能与输入/输出和控制部件18交互。存储器34表示多种存储器,比如硬盘驱动器和CD ROM或DVD盘片。这些包括计算机可读的介质,它们可以保存指令,执行这些指令使本发明的某些实施例发生。需要强调的是图1仅仅是示意性的,本发明不限于此类计算机系统的用途。用于实现本发明的计算机系统10和其它计算机系统可能为多种形式,比如桌面、主机和便携计算机。
例如,图2显示了带有显示屏62的手持设备60,它可能含有图1的某些或全部特性。该手持设备往往可能是另一个计算机系统的接口,比如图1中的系统。图1和图2中的物体的形状和相对尺寸并非暗示实际的形状和相对尺寸。
其它信息和实施例语言模型的质量传统上是以困惑混乱程度来度量,它是语言复杂程度的一种熵度量。对于相同的训练和评价文本主体,具有较低困惑混乱程度的模型优于困惑混乱程度高的模型。作为一项实验,使用人民日报94年至98年的数据,对不同划分方法估计出的三元模型进行了评价。传统(贪心)方法的困惑混乱程度为182,而本发明实施例的结果为143。与现有技术相比,这是模拟准确度的显著改善。
在本说明书中提及“实施例”、“一个实施例”、“某些实施例”或“其它实施例”,意味着连同实施例介绍的一种特定的特性、结构或特征包括在至少某些实施例中,但是不必是本发明的所有实施例。多种表现形式“实施例”、“一个实施例”或“某些实施例”不必都指同样的实施例。
如果本说明书宣称“可以”、“或许”或“可能”包括某种组件、特性、结构或特征,就不是必须包括该特定的组件、特性、结构或特征。如果本说明书或权利要求书中提及“某个”要素,并不意味着这种要素只有一个。如果本说明书或权利要求书中提及“某个另外的”要素,并不排除有不只一个另外的要素。
本领域的技术人员获得这个公开文件的利益后会理解,在本发明的范围之内,可以从以上的介绍和附图产生许多其它的改变。因此,是以下的、包括任何另外修改的权利要求书来规定本发明的范围。
权利要求
1.一种方法,包括(a)使用某个词汇表产生字划分路径的一个路径列表;(b)确定一个第一划分路径的概率并指定它为最佳划分路径;(c)确定另外一个划分路径的概率并确定另外的划分路径的概率是否超过最佳划分路径的概率,如果是这样,就将这个另外的划分路径指定为最佳划分路径,重复(c)直到所有其余的划分路径都得到确定并与最佳划分路径的概率比较完毕。
2.根据权利要求1的方法,其特征在于,第一句是通过贪心算法获得的。
3.根据权利要求1的方法,其特征在于,划分路径存放在行缓冲区中,并且在比较了对应的概率后从行缓冲区中清除。
4.根据权利要求1的方法,其特征在于,划分路径中包括的字是单一句子中的那些字。
5.根据权利要求1的方法,其特征在于,划分路径中包括的字在某个滑动的窗口中。
6.根据权利要求1的方法,其特征在于,通过使用语言模型确定概率。
7.根据权利要求1的方法,其特征在于,通过涉及以下公式的计算来确定概率Pwi=maxi(Pwi-1+prob(wi|wi-1))]]>,其中wi为第i个词,wi-1为紧靠wi的前一个词,Pwi-1为第wi-1个词出现的概率,prob(wi|wi-1)为如果词wi-1出现时,出现词wi的条件概率。
8.一种装置,包括一种计算机可读的介质,其中含有指令,执行这些指令时使计算机系统(a)使用某个词汇表产生字划分路径的一个路径列表;(b)确定一个第一划分路径的概率并指定它为最佳划分路径;(c)确定另外一个划分路径的概率并确定另外的划分路径的概率是否超过最佳划分路径的概率,如果是这样,就将这个另外的划分路径指定为最佳划分路径,重复(c)直到所有其余的划分路径都得到确定并与最佳划分路径的概率比较完毕。
9.根据权利要求8的装置,其特征在于,第一句是通过贪心算法获得的。
10.根据权利要求8的装置,其特征在于,划分路径存放在行缓冲区中,并且在比较了对应的概率后从行缓冲区中清除。
11.根据权利要求8的装置,其特征在于,划分路径中包括的字是单一句子中的那些字。
12.根据权利要求8的装置,其特征在于,划分路径中包括的字在某个滑动的窗口中。
13.根据权利要求8的装置,其特征在于,通过使用语言模型确定概率。
14.根据权利要求8的装置,其特征在于,通过涉及以下公式的计算来确定概率Pwi=maxi(Pwi-1+prob(wi|wi-1))]]>,其中wi为第i个词,wi-1为紧靠wi的前一个词,Pwi-1为第wi-1个词出现的概率,prob(wi|wi-1)为如果词wi-1出现时,词wi出现的条件概率。
15.根据权利要求8的装置,其特征在于,该装置是一张盘片。
16.一种计算机系统,包括保存划分形成词汇表中词的字路径列表的存储器;处理器,它(a)确定一个第一划分路径的概率并指定它为最佳划分路径;(b)确定另外一个划分路径的概率并确定另外的划分路径的概率是否超过最佳划分路径的概率,如果是这样,就将另外的划分路径指定为最佳划分路径,重复(b)直到所有其余的划分路径都得到确定并与最佳划分路径的概率比较完毕。
17.根据权利要求16的装置,其特征在于,第一句是通过贪心算法获得的。
18.根据权利要求16的装置,其特征在于,划分路径存放在行缓冲区中,并且在比较了对应的概率后从行缓冲区中清除。
19.根据权利要求16的装置,其特征在于,划分路径中包括的字是单一句子中的那些字。
20.根据权利要求16的装置,其特征在于,划分路径中包括的字在某个滑动的窗口中。
21.根据权利要求16的装置,其特征在于,通过使用语言模型确定概率。
22.根据权利要求16的装置,其特征在于,通过涉及以下公式的计算来确定概率Pwi=maxi(Pwi-1+prob(wi|wi-1))]]>,其中wi为第i个词,wi-1为紧靠wi的前一个词,Pwi-1为第wi-1个词出现的概率,prob(wi|wi-1)为如果词wi-1出现时,词wi出现的条件概率。
全文摘要
在某些实施例中,本发明包括一种方法。该方法包括使用某个词汇表产生字划分路径的一个路径列表。确定一个第一划分路径的概率并指定它为最佳划分路径。确定另外一个划分路径的概率并将它与最佳划分路径的概率进行比较。如果另外的划分路径的概率超过最佳划分路径的概率,就将另外的划分路径指定为最佳划分路径。重复这种做法直到所有其余的划分路径都得到确定并与最佳划分路径的概率比较完毕。在某些实施例中,本发明是一种装置,包括一种计算机可读的介质,它执行这种方法。在更多其它的实施例中,本发明是一种计算机系统。还描述了其它的实施例并要求权利。
文档编号G10L15/197GK1398395SQ99817082
公开日2003年2月19日 申请日期1999年12月23日 优先权日1999年12月23日
发明者阎永红(音译), 托凌云(音译), 林志伟(音译), 张向东(音译), 罗伯特·勇 申请人:英特尔公司, 英特尔技术发展上海有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1