自然语言词法分析方法、装置及分析器训练方法

文档序号:6356058阅读:301来源:国知局
专利名称:自然语言词法分析方法、装置及分析器训练方法
技术领域
本发明涉及自然语言处理领域,特别地,本发明涉及自然语言词法分析方法、装置以及自然语言词法分析器训练方法。
背景技术
自然语言词法分析是将自然语言序列(例如句子,或者段落)切分为作为句子的成分的词。词的级别低于句子,高于语素(例如汉语中的字),但是也存在单个词构成的句子,或者单个语素构成的词。传统的自然语言词法分析是将自然语言序列切分为可能的词的若干组合,并根据各种词在上下文中的概率来计算每一种组合的分数,选择符合一定阈值的分数的组合,并依据该组合对该序列中的词进行标注。专利文献[I](富士通株式会社于2005年9月21日提交的申请号为 200510103566. 8的题为“ 一种基于语素标注的自然语言成分识别、校正装置及方法”,2007年3月28日公开的公开号为CN 1936885A的中国专利申请)公开了一种基于语素标注的自然语言成分识别方法。其首先根据待分析语言成分的属性信息和语素在该语言成分中的位置信息构建语素的属性标注集,然后从语言成分的标注样本中习得语素与语素属性的关系规律。通过习得的语素属性标注规律,对输入文本进行语素属性标注,从语素属性标注序列中识别出需要的语言成分及该成分的分类标记。由于文献[I]是基于语素进行词法分析,存在计算复杂、运算量大的不足,此外,虽然在分词方面不受传统方式中对训练语料的分词标注的限制,也就是说能够分出传统方式不能分出的“新词”,但是由于语素组词的可能性很多,导致对常见词的分词准确率反而不够理想。文献[2]( “Chinese and Japanese Word Segmentation Using Word-Leveland Character-Level Information,,,Tetsuji Nakagawa, “Proceedings of the 20thinternational conference on Computational Linguistics,,,December 2004)公开了一种对中文和日文基于字和词信息进行分词的方法。Nakagawa结合了基于马尔可夫(Markov)模型的方法和字标注方法两者,利用基于词和基于字的信息来获得对于已知词和未知词的高准确度的分词。尽管该方法能够对已知词进行词性标注(Part-of-speechtagging)和分词,但是对于识别出的未知词如何进行字标注仍存在比较盲目的问题。另外该方法所标注的未知词只限制为训练语料中出现频度较低的词,对于训练语料中出现频度较高的专有名词,该方法不能获得由字组成新词的规律。例如,训练语料中如果高频出现二氧化碳、三氯化铁,则这两个词不是未知词,当测试语料中出现三氧化铁时,该方法不能识另O。此外,对于该方法所标注的未知词,无法获知其词性。以上两篇文献以全文引用方式并入到本申请中,构成本申请文件的一部分。

发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。根据本发明的一个实施例,提供了一种自然语言词法分析方法,包括将输入的自然语言语句切分为由可能为第一类型的词和/或可能作为第二类型的词的组成部分的字构成的多个序列,其中第一类型的词是除第二类型的词之外的词;利用统计概率模型计算所述多个序列中每一个序列的分数,其中,所述统计概率模型包括第一类型的词在上下文中的统计概率;以及作为第二类型的词的组成部分的字在上下文中的统 计概率;根据所述分数确定候选序列;以及依据该候选序列对所述自然语言语句进行标注,包括对该候选序列中可能存在的第一类型的词,标注从所述统计概率模型获取的词信息,对除所述可能存在的第一类型的词之外的可能存在的字,标注从所述统计概率模型获取的字信息。根据本发明的另一个实施例,提供了一种自然语言词法分析装置,包括切分单元,其被配置为将输入的自然语言语句切分为由可能为第一类型的词和/或可能作为第二类型的词的组成部分的字构成的多个序列,其中第一类型的词是除第二类型的词之外的词;统计概率模型存储单元,所述统计概率模型包括第一类型的词在上下文中的统计概率;以及作为第二类型的词的组成部分的字在上下文中的统计概率;分数计算单元,其被配置为利用所述统计概率模型计算所述多个序列中每一个序列的分数;候选序列确定单元,其被配置为根据所述分数确定候选序列;以及标注单元,其被配置为依据该候选序列对所述自然语言语句进行标注,包括对该候选序列中可能存在的第一类型的词,标注从所述统计概率模型获取的词信息,对除所述可能存在的第一类型的词之外的可能存在的字,标注从所述统计概率模型获取的字信息。根据本发明的又一个实施例,提供了一种自然语言词法分析器训练方法,包括标注自然语言序列作为训练语料,其中,对第一类型的词仅用词信息标注,对第二类型的词,用字信息标注构成所述第二类型的词的字,其中第一类型的词是除所述第二类型的词之外的词;用所述训练语料训练自然语言词法分析器。借助本发明的实施例,通过用词信息标注自然语言中第一类型的词,对除所述可能存在的第一类型的词之外的可能存在的字,标注从所述统计概率模型获取的字信息,解决了现有技术中完全基于语素(字)的标注中候选词过多,标注错误的可能性大的问题,以及基于词的标注总是存在部分词不能被识别的问题。也就是说,使用本发明的实施例,可以同时标注词法分析方法和装置“已知”的词(即词法分析方法和装置被训练过的词),以及构成词法分析方法和装置“未知”的词(即词法分析方法和装置未被训练过的词)的字。同时,由于只是对一部分词(即第二类型的词)标注作为其组成部分的字的字信息,可以在进一步的实施例中将通过组词标注新词的工作集中在特定类型的词(即第二类型的词)上,避免了过多的干扰信息,从而提高了标注“未知”词的准确度。在更进一步的实施例中并能够进一步标注其词性。根据本发明的一个方面,还提供了一种程序产品,包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行如上述实施例的方法。根据本发明的另一方面,提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行如上述实施例的方法。


参照下面结合附图对本公开实施例的说明,会更加容易地理解本公开的以上和其它目的、特点和优点。附图中的部件只是为了示出本公开的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。图I示出了根据本发明的一个实施例的自然语言词法分析方法的流程图;图2示出了根据本发明的另一个实施例的自然语言词法分析方法的示意性结构图;图3示出了根据本发明的一个实施例的自然语言词法分析装置的示意性结构图;
图4示出了根据本发明的另一个实施例的自然语言词法分析装置的示意性结构图;图5示出了根据本发明的另一个实施例的自然语言词法分析器训练方法的流程图;以及图6示出了可用于实施根据本发明的实施例的方法和/或装置的计算机的示例性结构的框图。在附图中,相同或者相应的方法步骤或者部件使用了相同的或者相应的参考标记。
具体实施例方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构,而省略了与本发明关系不大的其他细节。在本申请中,为了解决单纯的词标注不能识别“未知词”,单纯的字标注计算量大的问题,发明人提出可以把词分成两类,可以用词信息标注第一类型的词,并基于字信息来标注第二类型的词(可以直接用字信息标注构成第二类型的词的字,也可以用基于字信息获得的词信息来标注基于所述字而组合得到的第二类型的词)。相应地,要使用与传统方法不同的统计概率模型。第一类型的词在该模型中已经存在,第二类型的词在该模型中不存在,但是作为其组成部分的字及其相关信息存在于该模型中。第一实施方式根据本发明的第一实施方式,提出了一种自然语言词法分析方法。图I示出了该方法的示意性流程图。如图I所示,在步骤S110,将输入的自然语言语句切分为由可能为第一类型的词和/或可能作为第二类型的词的组成部分的字构成的多个序列。在此,以汉语为例进行描述。应当注意,本发明的实施例仅使用汉语作为示例性示例,然而本发明并非限于此。本领域技术人员还可以应用于如日语、韩语等自然语言。之所以说“可能为第一类型的词”,意思是暂时将其作为“第一类型的词”来处理,但是在最终的分词结果中,其未必是合法的词,或者未必是第一类型的词。“可能作为第二类型的词的组成部分的字”是类似的含义,即暂时将其作为“作为第二类型的词的组成部分的字”来处理,但是在最终的分词结果中,其可能参与构成第一类型的词。第一类型的词和第二类型的词构成词的全集。
下面举例说明,对于汉语语句Si “小明明天去上学”,可以将“明天”、“去”、“上学”划分为可能作为第一类型的词,把“小”、“明”划分为可能作为第二类型的词(“小明”)的组成部分的字。应当注意,这里所称的“第一类型”和“第二类型”仅仅是为了区别两类词,两者名称也可以互换。相应地,可以将该汉语语句Si切分成序列sll “小明/明天/去/上学”,sl2 “小/明/明天/去/上学”。当然,还有其他的切分序列结果,这里仅以此作为示例来说明。换句话说,切分结果包括该语句所包含的字在保持相邻关系和前后顺序的情况下的任意组合。例如,在一种极端情况下,可以将整个句子切分为一个(可能的)词;在另一种极端情况下,可以将整个句子全部切分为单个的字(也有可能是单字词)。接下来,在步骤S120,利用统计概率模型计算各个序列的分数。例如,在该序列sll中,切分出了 “小明、明天、去、上学”,其中,“小明”、“明天”、“上学”可能是第一类型的词,而“去”可能是字,也有可能是单字词。因此,可以查阅这些可能的词在统计概率模型中的概率,并据此计算该序列sll的分数。例如,假设统计概率模型仅考虑词性和词性的搭配,则可以假设Ww1 “小明”、W2 “明天”、W3 “去”、W4 “上学”,sll 二^^ 知对应的标注为Tl = Wt3U4,其中,t表示词性信息,则例如可以参见文献[2]根据基于词的二元隐Markov模型计算sll具有词性标注Tl的分数,为作11^1)= fl 尸( I )
(=1其中,η表示分词的数量,i表示分词的序号,Pbi I 表示第i个词Wi在具有标注\时的概率,PUiItp1)表示在第i-Ι个词的标注为V1时第i个词的标注为\的概率,即反映出前一个词的标注V1对第i个词的标注\的影响。当然,该分数显然也可以用其它方式来计算,比如对前式进行各种数学变换。类似地,可以对序列sl2 “小/明/明天/去/上学”计算一个分数。P{s\2,T2) =(2)
/=1尽管式⑵与式⑴在形式上类似,但是式(2)中的标注t’不同,此时,“小”对应的可能的标注为字信息,比如为NRF,表示名词的首字;“明”对应的为NRB,表示名词的尾字。这里,式(2)中包含了可能为第一类型的词在某个标注(例如,词性信息)下的概率以及除了可能为第一类型的词之外的字作为第二类型的词的组成部分在某个标注(字信息)下的混合概率。当然,该分数显然也可以用其它方式来计算,比如对前式进行各种数学变换。
在步骤S130,根据在步骤S120中计算出来的统计概率来确定候选序列。例如,在上面所举的例子中,可以比较sll、sl2两个序列的分数,取较高分数者为最终分析结果。例如,如果在构建统计概率模型的语料中,“小明”作为词的概率高于“小”、“明”分别作为字的概率,则包括“小明”这个词的序列sll作为候选序列。相反,如果在构建统计概率模型的语料中,“小明”作为词的概率低于“小”、“明”分别作为字的概率,则词法分析结果为sl2。当然,这仅仅作为示例。也可以根据序列的分数,取分数高低排位中靠前的2个或者2个以上的序列作为候选序列。另外,为叙述简便,这里仅直接比较“小明”作为词的概率和“小”、“明”分别作为字的概率,事实上,由于不同的分词结果对于除“小明”、“小”、“明”以外的词来说上下文发生了变化,因此其条件概率也会发生变化,因此整个序列的分数都会发生变化,进行比较的仍然是序列的分数。接下来,在步骤S140,依据该候选序列对自然语言语句进行标注,可 以包括对该候选序列中可能存在的第一类型的词,标注从所述统计概率模型获取的词信息,对除所述可能存在的第一类型的词之外的可能存在的字,依据从所述统计概率模型获取的字信息标注所述字。例如,在词法分析结果为sll的情况下(这种情况对应于统计概率模型中存在作为第一类型的词的“小明”的情况),可将该语句Si标注为“小明/NR明天/NT去/V上学/V”,其中,符号NR表示作为人名的名词,NT表示时间的名词,V表示动词。相反,在统计概率模型中不存在作为第一类型的词的“小明”的情况下,候选切分序列将是sl2,即“小/NRF明/NRB明天/NT去/V上学/V”。其中,符号NRF表示作为人名的名词的首字,NRB表示作为人名的名词的尾字,NT表示时间的名词,V表示动词。根据本发明的另外的实施例,自然语言词法分析方法还可以包括根据所标注的字信息将相应的字组合为词,并用基于所述字信息而得到的词信息标注组合而成的词。如图2所示,图2示出了根据本发明的另一个实施例的自然语言词法分析方法的示意性结构图。在图2所示的自然语言词法分析方法中,步骤S210到S240与图I所示的实施例的自然语言词法分析方法中的步骤SllO到S140相同。此外,还可以包括步骤S250,根据上述步骤标注的字信息将相应的字组合成词,并用基于所述字信息而得到的词信息标注组合而成的词。这里,仍然采用上面的实施例中的例子来说明。由于统计概率模型中所包含的字信息指明“小”为人名首字(NRF),“明”为人名尾字(NRB),并且“小”和“明”在候选序列中的位置关系满足其首字、尾字的属性,而且“小明”的人名“NR”属性也符合其在整个句子中的位置关系,因此在步骤S250中将“小”和“明”两个字组合为“小明”,并且标注为NR (作为人名的名词),但此时它是作为第二类型的词出现的。上面提到的统计概率模型可以包括第一类型的词在上下文中的统计概率;以及作为第二类型的词的组成部分的字在上下文中的统计概率。在此,第一类型的词的“上下文”是指语句中各个词在汉语语句中的前后位置关系和/或词性和/或搭配关系等全部或者部分关联信息,这些信息也称为“词信息”。例如,词在上下文中的统计概率可以是一个词作为名词、动词等各种词性的概率,一个词在句首、句尾、句中的概率,以及一个词作为某种词性与其他词性的词相互搭配的概率,例如,某个动词在另一动词之前的概率,诸如此类。进一步,基于上述各种上下文信息,可以计算某个词在特定的上下文中的概率,例如在句首作为名词后接一个动词的概率,等等。这种计算例如可以采用本领域公知的条件概率公式来计算。在本申请中,作为词的组成部分的字的上下文包括两个层次,一个是其可能构成的词的上下文,就如上文所述一样;另一个是字在其可能构成的词中的上下文,例如,一个字作为词首、词尾、词的中间字或者独字词的概率。那么,对于作为词的组成部分的字,其统计概率就要考虑上述两个层次的上下文。例如在上述序列sl2中,还可以考虑“小”在名词(可以更具体到人名)中作为首字的概率,“明”在名词(可以更具体到人名)中作为尾字的概率。也就是说,作为词的组成部分的字的字信息可以包括该字在词中的上下文信息例如位置信息以及相应的词的词信息。其中,字在第二类型的词中的位置信息可以包括首字、尾字、中间字和独字词中的至少之一。独字词指的是一个字构成一个词的情况,例如,人、口、手等。在标注时,例如可以将此位置信息标注为F(前)、M(中)、B(后)、0(独)。应当注意,这里并非限制本发明,而只是作为示例说明对位置信息可能的标注方法。
在本发明中,上述统计概率模型可以预先准备好以供本申请的方案使用。可以由实施本申请的主体自己准备,也可以由第三方例如数据服务公司提供。在准备统计概率模型时,可以用任何途径获得有关的数据,然后依据统计数据来直接构建所述统计概率模型。当然,也可以用预先标注语料并对模型进行训练的方式来获得所述统计概率模型,这种训练方式也是众所周知的,例如专利文献[2]中提到的采用二元隐Markov模型进行学习。只不过,在准备供本申请使用的统计概率模型时,要根据本申请的方案所要标注的内容来预先标注供训练使用的语料。也就是说,要对训练语料标注第一类型的词的信息和作为第二类型的词的组成部分的字的信息。根据本申请的另一方面,所述第二类型的词可以包括低频词、专有名词、数词和外来语中的至少之一。低频词指的是在汉语语句中出现频率较少的词,具体的频率阈值可以根据应用的需要设定。另外,专有名词可以包括人名、地名、机构名、产品名以及术语中的至少之一。术语指的是在某一行业中约定俗成或惯用的词。例如,通信领域中的“蓝牙”协议、计算机领域中的“木马”病毒等。由于上述“特殊词”的组词特点不同于普通词汇,并且容易出现新词,因此在传统方法中会对识别过程带来很大困难。例如,如果按照文献[2]中通过判断可能的词在现有统计模型中的概率来判定为是“已知词”或“未知词”时,由于没有利用各个字在可能组成的词中的位置信息以及可能的词的词性信息,现有分词工具还是不容易识别出这些可能的词。对此,发明人研究发现,可以利用这类词的组词规律。例如,某个名词的首字在名词中出现的概率较大,另一个字在该名词的尾字出现的概率大。那么,当上述首字出现在另一个名词中的首位时,在识别时根据统计模型概率就有可能认为它可以作为一个词的首字,同样,该词的尾字可能是另外一个曾经作为一个“已知词”的尾字出现过的字,那么,在识别时就有可能将这两个字识别为一个词,从而能够解决识别新词的问题。与文献[2]中判断“未知词”的方式不同,本申请不是基于“未知词”在标注集中的出现概率来区分第一类型的词和第二类型的词的,而是把一些如前所述的特殊的词作为第二类型的词(但是也可以包括低频词),从而使得新词的识别更有针对性,从而提高了识别率和准确度。当然,也可以根据实际情况采用其他方式来划分,本发明并不限于此。进一步,上述统计概率模型可以包括更为具体的信息,以更加便利于作为第二类型的词的组成部分的字的合并。例如,对于某些字,在统计概率、构建统计概率模型时可以统计其用于专有名词(更具体地,人名、地名、机构名、产品名、术语等等)、数词、外来语(甚至可以区分语种)等的概率,或者在训练统计概率模型时在训练语料中标记专有名词(更具体地,人名、地名、机构名、产品名、术语等等)、数词、外来语(甚至可以区分语种)等,而不是仅仅将这些词笼统地标注为“名词”、“动词”之类。根据本发明的实施例,通过将自然语言语句中可能作为第二类型的词的组成部分的字以字为单位计算在上下文中的概率,从而确定候选序列,并按照候选序列对自然语言语句进行标注(还可以根据作为第二类型的词的组成部分的字的字信息将相应的字组合为词)。除了传统方法中对词的正常标注之外,通过将可能作为第二类型的词的组成部分的字用字信息标注,从而在第二类型的词中的字在另外的语句中出现而构成新的词时,由于存在该字在统计模型中作为另一个词的首字、中间字、尾字出现的概率,因此对此类字可能构成的新词能进行正确的标注。这样,解决了这类在统计概率模型中不存在的词难以识别和标注的问题。申请人:通过研究还发现,对于不同领域的文章(语句),其词汇构成特点是不同的。例如,对于科技文章,其中有较多的术语、人名、数字等;对于文学作品,其中有较多的人 名、地名;对于翻译作品,则会有较多的外来语(外语人名、外语地名等)。因此,根据本发明的另一方面,可以根据汉语语句所属领域,来区分第一类型的词和第二类型的词,以便本申请的方案针对特定领域的语句具有更好的分词效果。第二实施方式根据本发明的一个方面,提供了一种自然语言词法分析装置。图3示出了根据本发明的一个实施例的自然语言词法分析装置300的示意性结构图。如图3所示,自然语言词法分析装置300可以包括切分单元310、统计概率模型存储单元320、分数计算单元330、候选序列确定单元340以及标注单元350。切分单元310可以被配置为将输入的自然语言语句切分为由可能为第一类型的词和/或可能作为第二类型的词的组成部分的字构成的多个序列,其中第一类型的词是除第二类型的词之外的词。在本实施例中,为了描述方便,仍然以汉语语句进行说明。应当注意,这种示例仅仅是示意性的,而非对本发明的限定。本领域技术人员还可以应用于日语、韩语等其他自然语目语句。在对汉语语句例如s2 “电影爱丽丝梦游仙境很好看”进行词法分析时,切分单元310将该语句切分成各种可能的序列。“电影”、“仙境”、“很”、“好看”可能是第一类型的词,“爱”、“丽”、“丝”、“梦”、“游”可能是作为第二类型的词(“爱丽丝”和“梦游”)的组成部分的字。这里,仅使用第一类型和第二类型区分两种类型的词,本发明并不限于此,两种类型的名称可以互换。可以将该语句s2划分为序列s21“电影/爱/丽/丝/梦游/仙境/很/好看/”,或序列s22 “电影/爱丽丝/梦/游/仙境/很/好看/”。应当注意,这里仅仅以此作为示例,切分单元310还可以将该语句切分为各种字词组合的序列。统计概率模型存储单元320中存储了事先准备好的或者从第三方购买的统计概率模型,可以包括第一类型的词在上下文中的统计概率;以及作为第二类型的词的组成部分的字在上下文中的统计概率。在准备统计概率模型时,可以用任何途径获得有关的数据,然后依据统计数据来直接构建所述统计概率模型。当然,也可以用预先标注语料并对模型进行训练的方式来获得所述统计概率模型,这种训练方式也是众所周知的,例如专利文献[2]中提到的采用二元隐Markov模型进行学习。只不过,在准备供本申请使用的统计概率模型时,要根据本申请的方案所要标注的内容来预先标注供训练使用的语料。也就是说,要对训练语料标注上述可能作为第一类型的词的信息和可能作为第二类型词的组成部分的字的信息。分数计算单元330可以被配置为利用统计概率模型计算所述多个序列中每一个序列的分数。统计概率的计算类似于如上述第一实施方式中描述的方法,为简洁起见,在此不再赘述。根据分数计算单元330计算出来的汉语语句s2的各种可能的切分序列中的词和字的概率分数,候选序列确定单元340可以被配置用于根据所述分数确定候选序列。标注单元350可以被配置为依据该候选序列对所述自然语言语句进行标注,包括对该候选序列中可能存在的第一类型的词,标注从所述统计概率模型获取的词信息,对除所述可能存在的第一类型的词之外的可能存在的字,标注从所述统计概率模型获取的字信息。 与第一实施方式类似,根据计算出来的概率分数,候选的切分方式可以为“电影/N爱/NRF丽/NRM丝/NRB梦/VF游/VB仙境/NS很/AD好看/AD”,这种情况对应于统计模型中不存在作为第一类型的词的“爱丽丝”和“梦游”的情况。其中符号N表示名词,NRF表示作为人名的名词的首字,NRB表示作为人名的名词的中间字,NRB表示作为人名的名词的尾字。VF表示动词的首字,VB表示动词的尾字。AD表示单独的形容词。根据本发明的另外的实施例,自然语言词法分析装置还可以包括组合单元。图4示出了根据本发明的另一个实施例的自然语言词法分析装置400的示意性结构图。如图4所示,自然语言词法分析装置400包括切分单元410、统计概率模型存储单元420、分数计算单元430、候选序列确定单元440、标注单元450以及组合单元460。这里,图4中的切分单元410、统计概率模型存储单元420、分数计算单元430、候选序列确定单元440和标注单元450与图3中的切分单元310、统计概率模型存储单元320、分数计算单元330、候选序列确定单元340以及标注单元350的结构和功能相同,在此不再赘述。组合单元460可以被配置为根据所述标注单元450标注的字信息将相应的字组合为词,其中,所述标注单元450还被配置为用基于所述字信息而得到的词信息标注组合而得的词。仍然采用上述示例加以说明。由于“爱”可以作为名词的首字NRF,“丽”可以作为名词的中间字NRM,“丝”可以作为名词的尾字NRB。另外,“梦”可以作为动词的首字VF,“游”可以作为动词的尾字VB。这样,标注单元350就可以根据作为名词的首字、中间字和尾字的构词规则以及作为动词的首字和尾字的构词规则进一步将语句s2标注为“电影/N爱丽丝/NR梦游/V仙境/NS很/AD好看/AD”。应当注意,这里组成的词“爱丽丝”和“梦游”是作为第二类型的词出现的。根据本发明的实施例,除了对语句中的词进行标注之外,通过将可能作为第二类型的词的组成部分的字用字信息标注,从而在第二类型的词中的字在另外的语句中出现而构成新的词时,由于存在该字在统计模型中作为另一个词的首字、中间字、尾字出现的概率,因此能够对此类字可能构成的词进行正确的标注。通过对统计概率模型进行训练来学习以字构成可能作为第二类型的词的规律,解决了对在训练语料中不存在的词难以识别的问题。
根据本发明的一个方面,作为第二类型的词的组成部分的字的字信息可以包括该字在第二类型的词中的位置信息以及相应的第二类型的词的词信息。所述第二类型的词的词信息可以包括词性信息和/或该词在语句中的位置信息。其中,字在第二类型的词中的位置信息可以包括首字、尾字、中间字和独字词中的至少之一。根据本发明的另一方面,作为第二类型的词的组成部分的字所组合的词可以包括低频词、专有名词、数词和外来语中的至少之一。另外,专有名词可以包括人名、地名、机构名、产品名以及术语中的至少之一。根据本发明的另一方面,可以根据汉语语句所属领域,来区分第一类型的词和第二类型的词,以便本申请的方案针对特定领域的语句具有更好的分词效果。 与文献[2]中判断“未知词”的方式不同,本申请不是通过计算“未知词”在标注集中的出现概率来区分第一类型的词和第二类型的词的,而是把一些如前所述的特殊的词作为第二类型的词(也可以包含低频词),从而使得新词的识别更有针对性,从而提高了识别率和准确度。当然,也可以根据实际情况采用其他方式来划分,本发明并不限于此。第三实施方式根据本发明的另一方面,提供了一种自然语言词法分析器训练方法。图5示出了根据本发明的另一个实施例的自然语言词法分析器训练方法的流程图。如图5所示,自然语言词法分析器训练方法可以包括标注自然语言序列作为训练语料,其中,对第一类型的词仅用词信息标注,对第二类型的词,用字信息标注构成所述第二类型的词的字,其中第一类型的词是除所述第二类型的词之外的词(步骤S510)。仍以汉语为例,对于汉语语句“小明明天去上学”,将该序列供分析器作为训练语料。例如,可以将“明天”、“去”、“上学”划分为第一类型的词进行标注,并且仅用词信息标注这些词,即,“明天/NT去/V上学/V”。其中,符号NT表示时间的名词,V表示动词。对于作为人名的名词“小明”,将其划分为第二类型的词来处理。将“小明”分别标注为作为该名词的首字“小”和作为该名词的尾字“明”,即标注为小/NRF明/NRB。其中,符号NRF表示作为人名的名词的首字,NRB表示作为人名的名词的尾字。尽管在标注上是将“小”、“明”分别标注字信息,但是,在分析器进行语句词法分析时,就可以根据它们的位置关系和组词规则,可以将它们标注为一个词。同时,如果训练语料还标注了“强”可以作为人名的尾字,那么在分析器进行词法分析时,就能够组合出从未出现过的新词“小强”。应当注意,如上所述,使用第一类型的词和第二类型的词仅仅是用于区分两种类型的词的存在,本发明并不限于此,两种类型的称呼可以互换。在划分两种类型的词时,例如可以根据自然语言语句所属领域进行划分。例如,以汉语为例,例如,对于科技文章,其中有较多的术语、人名、数字等;对于文学作品,其中有较多的人名、地名;对于翻译作品,则会有较多的外来语(外语人名、外语地名等)。因此,根据本发明的另一方面,可以根据汉语语句所属领域,来区分第一类型的词和第二类型的词,以便本申请的方案针对特定领域的语句具有更好的分词效果。在准备好训练语料之后,用所述训练语料训练自然语言词法分析器(步骤S520)。对于第一类型的词,仅计算作为词的条件概率模型。对于第二类型的词中的字,根据各个字在第二类型的词中的上下文信息或者称字信息,包括其在第二类型的词中的位置信息、以及其所在的第二类型的词的词性信息和/或该词在语句中的位置信息计算各个字的条件概率模型。这里,可以采用本领域公知的方法训练自然语言词法分析器。例如,采用专利文献[2]中使用的二元隐Markov模型训练方法。当然,本发明并不限于此,本领域技术人员可以采用其他适合的训练方法训练自然语言词法分析器。根据本发明的实 施例,专有名词可以包括至少下述之一人名、地名、机构名、产品名以及术语。由于上述专有名词的组词特点不同于普通词汇,并且容易出现新词,因此在传统方法中会对识别过程带来很大困难。例如,如果按照文献[2]中通过判断可能的词在现有统计模型中的概率来判定为是“已知词”或“未知词”时,由于没有利用各个字在可能组成的词中的位置信息以及可能的词的词性信息,现有分词工具还是不容易识别出这些可能的词。对此,发明人研究发现可以利用这类词的组词规律。例如,某个名词的首字在名词中出现的概率较大,另一个字作为该名词的尾字出现的概率大。那么,当上述首字出现在另一个名词中的首位时,在识别时根据统计模型概率就有可能认为它可以作为一个词的首字,同样,该词的尾字可能是另外一个曾经作为一个“已知词”的尾字出现过的字,那么,在识别时就有可能将这两个字识别为一个词,从而能够解决识别新词的问题。根据本发明的实施例,第一类型的词的词信息可以包括词性信息和/或该词在语句中的位置信息。例如,以汉语为例,可以是指名词、动词、形容词、副词等词性信息。作为第二类型的词的组成部分的字的字信息包括该字在第二类型的词中的位置信息以及相应的第二类型的词的词信息,其中所述第二类型的词的词信息包括词性信息和/或该词在语句中的位置信息。同样地,以汉语为例,词性信息可以是指名词、动词、形容词等词性信息。另外,字在第二类型的词中的位置信息可以包括至少下述之一首字、尾字、中间字和独字词。通过学习字在第二类型的词中的位置信息,掌握一个字在词的首位、中间或结尾,或者作为独立词出现的概率,结合可能构成的第二类型的词的词性信息,可以使训练模型学习这些字的构词规则,从而提高对这些字可能构成的第二类型的词的识别率。用本实施方式训练得到的词法分析器可以用于实施第一和第二实施方式的技术方案。具体而言,用本实施方式进行训练,事实上是获得了前述统计概率模型,其中的第一类型的词的统计概率及其词信息,以及构成第二类型的词的字的统计概率及其字信息(包括其所组成的第二类型的词的词信息),均是基于用前述方式标注的训练语料得到的。第四实施方式作为示例性实施例,上述方法的各个步骤以及上述各个组成模块和/或装置可以通过软件、固件、硬件或其组合的方式进行配置,在此不再赘述。如上所述,上述方法或设备中处理步骤或模块可以通过软件来实现。从存储介质或网络向具有专用硬件结构的计算机(例如图6所示的通用计算机600)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM) 603的程序执行各种处理。在RAM 603中,也根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 60KROM 602和RAM 603经由总线604彼此连接。输入/输出接口 605也连接到总线604。下述部件连接到输入/输出接口 605 :输入部分606 (包括键盘、鼠标等等)、输出部分607 (包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608 (包括硬盘等)、通信部分609 (包括网络接口卡比如LAN卡、调制解调器等)。通信部分609经由网络比如因特网执行通信处理。根据需要,驱动器610也可连接到输入/输出接口 605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上,使得从中读出的计算机程序根据需要被安装到存储部分608中。在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(⑶-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。本公开还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本公开实施例的方法。 相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本公开的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等
坐寸ο在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以用相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。此外,本公开的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。通过以上的描述可以看出,根据本公开的实施例,提供了如下的方案附记I. 一种自然语言词法分析方法,包括将输入的自然语言语句切分为由可能为第一类型的词和/或可能作为第二类型的词的组成部分的字构成的多个序列,其中第一类型的词是除第二类型的词之外的词;利用统计概率模型计算所述多个序列中每一个序列的分数,其中,所述统计概率模型包括第一类型的词在上下文中的统计概率;以及作为第二类型的词的组成部分的字在上下文中的统计概率;根据所述分数确定候选序列;以及依据该候选序列对所述自然语言语句进行标注,包括对该候选序列中可能存在的第一类型的词,标注从所述统计概率模型获取的词信息,对除所述可能存在的第一类型的词之外的可能存在的字,标注从所述统计概率模型获取的字信息。
附记2.如附记I所述的自然语言词法分析方法,还包括根据所标注的字信息将相应的字组合为词,并用基于所述字信息而得到的词信息标注组合而成的词。附记3.如附记I或2所述的自然语言词法分析方法,其中,所述第一类型的词和第二类型的词是根据所述自然语言语句的领域划分的。附记4.如附记I或2所述的自然语言词法分析方法,其中第二类型的词包括至少下述之一低频词、专有名词、数词和外来语。
附记5.如附记4所述的自然语言词法分析方法,其中,专有名词包括至少下述之一人名、地名、机构名、产品名以及术语。附记6.如附记I或2所述的自然语言词法分析方法,其中第一类型的词的词信息包括词性信息和/或该词在语句中的位置信息,作为第二类型的词的组成部分的字的字信息包括该字在第二类型的词中的位置信息以及相应的第二类型的词的词信息,所述第二类型的词的词信息包括词性信息和/或该词在语句中的位置信息。附记7.如附记6所述的自然语言词法分析方法,其中字在第二类型的词中的位置信息包括至少下述之一首字、尾字、中间字和独字词。附记8. —种自然语言词法分析装置,包括切分单元,其被配置为将输入的自然语言语句切分为由可能为第一类型的词和/或可能作为第二类型的词的组成部分的字构成的多个序列,其中第一类型的词是除第二类型的词之外的词;统计概率模型存储单元,所述统计概率模型包括第一类型的词在上下文中的统计概率;以及作为第二类型的词的组成部分的字在上下文中的统计概率;分数计算单元,其被配置为利用所述统计概率模型计算所述多个序列中每一个序列的分数;候选序列确定单元,其被配置为根据所述分数确定候选序列;以及标注单元,其被配置为依据该候选序列对所述自然语言语句进行标注,包括对该候选序列中可能存在的第一类型的词,标注从所述统计概率模型获取的词信息,对除所述可能存在的第一类型的词之外的可能存在的字,标注从所述统计概率模型获取的字信息。附记9.如附记8所述的自然语言词法分析装置,还包括组合单元,其被配置为根据所述标注单元标注的字信息将相应的字组合为词,其中,所述标注单元还被配置为用基于所述字信息而得到的词信息标注组合而得的词。附记10.如附记8或9所述的自然语言词法分析装置,其中第一类型的词和第二类型的词是根据所述自然语言语句的领域划分的。附记11.如附记8或9所述的自然语言词法分析装置,其中第二类型的词包括至少下述之一低频词、专有名词、数词和外来语。附记12.如附记11所述的自然语言词法分析装置,其中,专有名词包括至少下述之一人名、地名、机构名、产品名以及术语。附记13.如附记8或9所述的自然语言词法分析装置,其中第一类型的词的词信息包括词性信息和/或该词在语句中的位置信息,作为第二类型的词的组成部分的字的字信息包括该字在第二类型的词中的位置信息以及相应的第二类型的词的词信息,所述第二类型的词的词信息包括词性信息和/或该词在语句中的位置信息。
附记14.如附记13所述的自然语言词法分析装置,其中字在第二类型的词中的位置信息包括至少下述之一首字、尾字、中间字和独字词。附记15. —种自然语言词法分析器训练方法,包括标注自然语言序列作为训练语料,其中,对第一类型的词仅用词信息标注,对第二类型的词,用字信息标注构成所述第二类型的词的字,其中第一类型的词是除所述第二类型的词之外的词;用所述训练语料训练自然语言词法分析器。附记16.如附记15所述的自然语言词法分析器训练方法,其中第一类型的词和第二类型的词是根据所述自然语言语句的领域划分的。附记17.如附记15或16所述的自然语言词法分析器训练方法,其中第二类型的词包括至少下述之一低频词、专有名词、数词和外来语。附记18.如附记17所述的自然语言词法分析器训练方法,其中,专有名词包括至少下述之一人名、地名、机构名、产品名以及术语。附记19.如附记15或16所述的自然语言词法分析器训练方法,其中,第一类型的词的词信息包括词性信息和/或该词在语句中的位置信息,作为第二类型的词的组成部分的字的字信息包括该字在第二类型的词中的位置信息以及相应的第二类型的词的词信息, 所述第二类型的词的词信息包括词性信息和/或该词在语句中的位置信息。附记20.如附记19所述的自然语言词法分析器训练方法,其中,字在第二类型的词中的位置信息包括至少下述之一首字、尾字、中间字和独字词。
权利要求
1.ー种自然语言词法分析方法,包括 将输入的自然语言语句切分为由可能为第一类型的词和/或可能作为第二类型的词的组成部分的字构成的多个序列,其中第一类型的词是除第二类型的词之外的词; 利用统计概率模型计算所述多个序列中每ー个序列的分数,其中,所述统计概率模型包括第一类型的词在上下文中的统计概率;以及作为第二类型的词的组成部分的字在上下文中的统计概率; 根据所述分数确定候选序列;以及 依据该候选序列对所述自然语言语句进行标注,包括对该候选序列中可能存在的第ー类型的词,标注从所述统计概率模型获取的词信息,对除所述可能存在的第一类型的词之外的可能存在的字,标注从所述统计概率模型获取的字信息。
2.如权利要求I所述的自然语言词法分析方法,还包括根据所标注的字信息将相应的字组合为词,并用基于所述字信息而得到的词信息标注组合而成的词。
3.如权利要求I或2所述的自然语言词法分析方法,其中,所述第一类型的词和第二类型的词是根据所述自然语言语句的领域划分的。
4.如权利要求I或2所述的自然语言词法分析方法,其中第二类型的词包括至少下述之一低频词、专有名词、数词和外来语。
5.如权利要求4所述的自然语言词法分析方法,其中,专有名词包括至少下述之一人名、地名、机构名、产品名以及术语。
6.如权利要求I或2所述的自然语言词法分析方法,其中第一类型的词的词信息包括词性信息和/或该词在语句中的位置信息,作为第二类型的词的组成部分的字的字信息包括该字在第二类型的词中的位置信息以及相应的第二类型的词的词信息,所述第二类型的词的词信息包括词性信息和/或该词在语句中的位置信息。
7.ー种自然语言词法分析装置,包括 切分単元,其被配置为将输入的自然语言语句切分为由可能为第一类型的词和/或可能作为第二类型的词的组成部分的字构成的多个序列,其中第一类型的词是除第二类型的词之外的词; 统计概率模型存储单元,所述统计概率模型包括第一类型的词在上下文中的统计概率;以及作为第二类型的词的组成部分的字在上下文中的统计概率; 分数计算单元,其被配置为利用所述统计概率模型计算所述多个序列中每ー个序列的分数; 候选序列确定单元,其被配置为根据所述分数确定候选序列;以及 标注单元,其被配置为依据该候选序列对所述自然语言语句进行标注,包括对该候选序列中可能存在的第一类型的词,标注从所述统计概率模型获取的词信息,对除所述可能存在的第一类型的词之外的可能存在的字,标注从所述统计概率模型获取的字信息。
8.如权利要求7所述的自然语言词法分析装置,其中第二类型的词包括至少下述之一低频词、专有名词、数词和外来语。
9.ー种自然语言词法分析器训练方法,包括 标注自然语言序列作为训练语料,其中,对第一类型的词仅用词信息标注,对第二类型的词,用字信息标注构成所述第二类型的词的字,其中第一类型的词是除所述第二类型的词之外的词; 用所述训练语料训练自然语言词法分析器。
10.如权利要求9所述的自然语言词法分析器训练方法,其中第二类型的词包括至少下述之ー低频词、专有名词、数词和外来语。
全文摘要
公开了自然语言词法分析方法、装置及分析器训练方法。该分析方法包括将输入的自然语言语句切分为由可能为第一类型的词和/或可能作为第二类型的词的组成部分的字构成的多个序列,其中第一类型的词是除第二类型的词之外的词;用统计概率模型计算每一个序列的分数,该模型包括第一类型的词在上下文中的统计概率及作为第二类型的词的组成部分的字在上下文中的统计概率;据所述分数确定候选序列;据该候选序列对所述自然语言语句进行标注对该候选序列中可能存在的第一类型的词,标注从所述统计概率模型获取的词信息,对除所述可能存在的第一类型的词之外的可能存在的字,标注从所述统计概率模型获取的字信息。
文档编号G06F17/27GK102681981SQ20111006211
公开日2012年9月19日 申请日期2011年3月11日 优先权日2011年3月11日
发明者于浩, 孟遥 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1