用于提取最大名词短语的装置、方法以及电子设备的制作方法

文档序号:6500796阅读:178来源:国知局
用于提取最大名词短语的装置、方法以及电子设备的制作方法
【专利摘要】本发明提供了用于提取最大名词短语的装置、方法以及电子设备,以克服现有的语言数据处理技术所存在的处理精度不高的问题。上述装置包括:在待处理的目标语言语句的参考语言译句中确定与名词短语模板相符的参考语言名词短语的名词短语确定单元,名词短语模板包括参考语言的词性标签;将名词短语标签标注给目标语言语句中的与确定的参考语言名词短语相对应的目标语言名词短语的标注单元;和在目标语言语句中将与最大名词短语模板相符的短语确定为最大名词短语的最大名词短语确定单元,最大名词短语模板包括目标语言的词性标签和/或名词短语标签。本发明的上述技术能够应用于数据处理领域。
【专利说明】用于提取最大名词短语的装置、方法以及电子设备

【技术领域】
[0001]本发明涉及数据处理领域,尤其涉及一种用于提取最大名词短语的装置、方法以及电子设备。

【背景技术】
[0002]随着信息技术和网络技术的突飞猛进,数据处理逐渐成为一个热门且不可或缺的领域。然而,由于数据信息以及数据源的丰富性和多样性,处理的目的和要求也不尽相同。
[0003]语言数据作为众多类型数据中的一种,在人们日常生活、工作中是极为常见的。例如,电子邮件、手机间互发的短消息以及人们学习和工作中需要处理的各种文件中所包含的文字信息,都是语言数据。现有的用于处理语言数据的技术尚存在处理精度不够高的问题。


【发明内容】

[0004]在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0005]鉴于此,本发明提供了一种用于提取最大名词短语的装置、方法以及电子设备,以至少解决现有的语言数据处理技术所存在的处理精度不高的问题。
[0006]根据本发明的一个方面,提供了一种用于提取最大名词短语的装置,该装置包括:名词短语确定单元,用于在待处理的目标语言语句的参考语言译句中,确定与至少一个名词短语模板中的任一个相符的参考语言名词短语,其中,每个名词短语模板包括按其对应的预定顺序排列的至少一个参考语言的词性标签;标注单元,用于将名词短语标签标注给目标语言语句中的与确定的参考语言名词短语相对应的目标语言名词短语;以及最大名词短语确定单元,用于在目标语言语句中将与至少一个最大名词短语模板中的任一个相符的短语确定为最大名词短语,其中,每个最大名词短语模板包括按其对应的预定顺序排列的至少一个目标语言的词性标签和/或至少一个名词短语标签。
[0007]根据本发明的另一个方面,还提供了一种用于提取最大名词短语的方法,该方法包括:在待处理的目标语言语句的参考语言译句中,确定与至少一个名词短语模板中的任一个相符的参考语言名词短语,其中,每个名词短语模板包括按其对应的预定顺序排列的至少一个参考语言的词性标签;将名词短语标签标注给目标语言语句中的与确定的参考语言名词短语相对应的目标语言名词短语;以及在目标语言语句中将与至少一个最大名词短语模板中的任一个相符的短语确定为最大名词短语,其中,每个最大名词短语模板包括按其对应的预定顺序排列的至少一个目标语言的词性标签和/或至少一个名词短语标签。
[0008]根据本发明的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的用于提取最大名词短语的装置。
[0009]根据本发明的又一个方面,还提供了一种存储有机器可读取的指令代码的程序产品,上述程序产品在执行时能够使上述机器执行如上所述的用于提取最大名词短语的方法。
[0010]此外,根据本发明的其他方面,还提供了一种计算机可读存储介质,其上存储有如上所述的程序产品。
[0011]上述根据本发明实施例的用于提取最大名词短语的装置、方法以及电子设备,其首先利用参考语言(如英语)的名词短语模板来确定参考语言名词短语,并在此基础之上再利用目标语言(如汉语)最大名词短语模板来确定目标语言最大名词短语,从而通过分层次的双级处理实现了最大名词短语的确定,能够获得至少以下益处之一:处理结果的准确度较高;处理的复杂度较低;基于双语对齐语料库构建的参考语言名词短语模板能够较为准确地反映名词短语的特性;利用上述基于双语对齐语料库构建的参考语言名词短语模板所进行的例如名词短语提取之类的数据处理的处理精度也比较高,效果较好;基于确定了名词短语和最大名词短语的目标语言语料库构建的目标语言最大名词短语模板能够较为准确地反映最大名词短语的特性;以及利用上述基于确定了名词短语和最大名词短语的目标语言语料库构建的目标语言最大名词短语模板所进行的例如最大名词短语提取之类的数据处理的处理精度也比较高,效果较好。
[0012]通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。

【专利附图】

【附图说明】
[0013]本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
[0014]图1是示意性地示出根据本发明的实施例的用于提取最大名词短语的装置的一种示例结构的框图。
[0015]图2是示意性地示出根据本发明的实施例的用于提取最大名词短语的装置的另一种示例结构的框图。
[0016]图3是示意性地示出如图2所示的名词短语模板获得单元的一种可能的示例结构的框图。
[0017]图4是示意性地示出根据本发明的实施例的用于提取最大名词短语的装置的又一种示例结构的框图。
[0018]图5是示意性地示出如图4所示的最大名词短语模板获得单元的一种可能的示例结构的框图。
[0019]图6是示意性地示出根据本发明的实施例的用于提取最大名词短语的方法的一种示例性处理的流程图。
[0020]图7是示意性地示出根据本发明的实施例的用于提取最大名词短语的方法的另一种可能示例性处理中的部分步骤的流程图。
[0021]图8是示意性地示出根据本发明的实施例的用于提取最大名词短语的方法的其他可能示例性处理中的部分步骤的流程图。
[0022]图9是示出了可用来实现根据本发明的实施例的用于提取最大名词短语的装置和信息处理方法的一种可能的信息处理设备的硬件配置的结构简图。
[0023]本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。

【具体实施方式】
[0024]在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0025]在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
[0026]本发明的实施例提供了一种用于提取最大名词短语的装置,该装置包括:名词短语确定单元,用于在待处理的目标语言语句的参考语言译句中,确定与至少一个名词短语模板中的任一个相符的参考语言名词短语,其中,每个名词短语模板包括按其对应的预定顺序排列的至少一个参考语言的词性标签;标注单元,用于将名词短语标签标注给目标语言语句中的与确定的参考语言名词短语相对应的目标语言名词短语;以及最大名词短语确定单元,用于在目标语言语句中将与至少一个最大名词短语模板中的任一个相符的短语确定为最大名词短语,其中,每个最大名词短语模板包括按其对应的预定顺序排列的至少一个目标语言的词性标签和/或至少一个名词短语标签。
[0027]下面结合图1来详细描述根据本发明的实施例的用于提取最大名词短语的装置的一个示例。
[0028]如图1所示,根据本发明的实施例的用于提取最大名词短语的装置100包括名词短语确定单元110、标注单元120和最大名词短语确定单元130。
[0029]名词短语确定单元110用于在待处理的目标语言语句的参考语言译句中,确定与至少一个名词短语模板中的任一个相符的参考语言名词短语。
[0030]在根据本发明的实施例的用于提取最大名词短语的装置的一种实现方式中,目标语言可以是能够进行分词处理的语言。
[0031]在一个例子中,目标语言例如可以是汉语。在另一个例子中,目标语言也可以是日语或韩语,或者其他如上所述能够分词处理的语言。下文中将主要以汉语作为目标语言的示例来对本发明的各个实施例进行描述,其他语言作为目标语言的情况与此类似,将不再赘述。
[0032]需要说明的是,上文所述的“能够进行分词处理的语言”是指这种语言中,词和词之间没有诸如空格之类的分隔符,如汉语、日语等均没有这种分隔符,若不进行分词处理,则不能够区分哪几个字是一个词。
[0033]此外,在根据本发明的实施例的用于提取最大名词短语的装置的一种实现方式中,参考语言可以是不需要经过分词处理的语言。
[0034]在一个例子中,参考语言例如可以是英语。在另一个例子中,目标语言也可以是法语或德语,或者其他如上所述不需要经过分词处理的语言。下文中将主要以英语作为目标语言的示例来对本发明的各个实施例进行描述,其他语言作为目标语言的情况与此类似,将不再赘述。
[0035]需要说明的是,上文所述的“不需要经过分词处理的语言”是指这种语言中,词和词之间存在诸如空格之类的分隔符。如在一个英语句子中,相邻的单词之间均使用空格分隔开。由此,诸如英语这种存在分隔符的语言在不经过分词处理的情况下,即能够区分哪几个字母是一个单词。
[0036]此外,需要注意的是,待处理的语句是“目标语言语句”,而名词短语模板所包含的是参考语言的词性标签。在每个名词短语模板中,其包含的那些(例如至少一个)参考语言的词性标签是按照一定顺序排列的。也就是说,名词短语模板所包含的各个词性标签之间是有顺序的。
[0037]其中,在一个实现方式中,名词短语模板可以是预存在装置100中的,例如,可以是预先存在装置100的名词短语确定单元110中的。
[0038]在另一个实现方式中,名词短语模板也可以是通过装置100中的其他功能单元获得的,下文中将结合图2来详细描述这种实现方式。
[0039]举例来说,假设“桌子上有本书”为待处理的汉语(作为目标语言的示例)语句,以及假设“(/DT) (/NN)+"为一个预定的英语(作为参考语言的示例)名词短语模板。
[0040]其中,“ (/DT) (/NN)+”包括冠词的词性标签“/DT”以及名词的词性标签“/NN”,“ (/DT) (/_+”中的“ + ”表示词性标签“/NN”在该结构中可以重复。需要注意的是,“(/DT) (/NN)+"的词性标签均为英语的词性标签。
[0041]名词短语确定单元110可以在“桌子上有本书”的英语译句中确定与名词短语模板“(/DT) (/NN)+”相符的英语名词短语。
[0042]其中,“桌子上有一本书”的英语译句例如可以是用户输入的,或者也可以是通过机器翻译获得的。
[0043]假设通过机器翻译,得到“桌子上有一本书”的英语译句为“There is a book onthe desk”。于是,名词短语确定单元110根据名词短语模板“(/DT) (/NN)+”,可以在为待处理的汉语语句“桌子上有本书”的英语译句“There is a book on the desk”中得到两个与名词短语模板“(/DT) (/_+”相符的英语名词短语,即“a book”和“the desk”。
[0044]这样,通过名词短语确定单元110的处理,能够在待处理的目标语言语句的参考语言译句中确定一个或一些参考语言名词短语,而这个或这些参考语言名词短语是与预定的至少一个名词短语模板中的任一个相符的。
[0045]也就是说,在上述待处理的目标语言语句的参考语言译句中,若某个参考语言名词短语与预定的至少一个名词短语模板中的其中一个或多个相符的话,则名词短语确定单元110将其选择出来。这样,名词短语确定单元110确定了一个或多个参考语言名词短语。
[0046]然后,对于名词短语确定单元110确定的一个或多个参考语言名词短语中的每一个,标注单元120在目标语言语句中找到与该参考语言名词短语对应的目标语言名词短语。这样,标注单元120可以在目标语言语句中找出一个或多个目标语言名词短语。
[0047]对于找出的一个或多个目标语言名词短语,标注单元120可以对其分别标注上名词短语标签。
[0048]在上面描述的待处理汉语语句为“桌子上有一本书”的例子中,如上所说,名词短语确定单元I1确定的两个英语名词短语为“a book”和“the desk”。在“桌子上有一本书”中与“a book”和“the desk”对应的汉语名词短语分别是“桌子”和“一本书”。于是,在“桌子上有一本书”中,标注单元120可以将名词短语标签分别标注给“桌子”和“一本书”。
[0049]在一个例子中,“桌子上有一本书”中的“桌子”和“一本书”被标注了名词短语标签之后,可以表示为如下形式:
[0050]“ [桌子]Np上有[一本书]NP”。
[0051]其中,[…]NP表示被标注了名词短语标签的名词短语。这里,NP用于表示“名词短语标签”。在其他例子中,“名词短语标签”也可以采用其他形式的字符表示,而不限于以上例子。
[0052]于是,基于标注单元120所标注的结果,并利用预定的最大名词短语模板,最大名词短语确定单元130能够在目标语言语句中将与预定的最大名词短语模板中的至少一个相符的那个或那些短语确定为该目标语言语句中的最大名词短语。
[0053]需要说明的是,最大名词短语模板包括按其对应的预定顺序排列的至少一个目标语言的词性标签和/或至少一个名词短语标签。
[0054]也就是说,最大名词短语模板可能只包含一个词性标签,或者只包含一个名词短语标签。或者,最大名词短语模板也可能同时包含任意个词性标签和任意个名词短语标签的组合。
[0055]在其他的实现方式中,最大名词短语模板中也可以包含预设关键词。其中,预设关键词例如可以位于相邻的词性标签和/或名词短语标签之间。需要说明的是,并不是每相邻两个词性标签和/或名词短语标签之间都一定具有预设关键词。
[0056]例如,预设关键词可以是介词、连词和助词等虚词以及能愿动词中的任意一种。
[0057]在上面描述的标注单元120所标注的结果为“[桌子]NP上有[一本书]NP”的例子中,假设最大名词短语模板包括:
[0058]* > X+ < * (以下简称第一最大名词短语模板);
[0059]* > (/a)的X+ < * (以下简称第二最大名词短语模板);
[0060]* > X+(非汉语字符)X+ < * (以下简称第三最大名词短语模板);和
[0061],>可以(/v)X+的X<被(以下简称第四最大名词短语模板)。
[0062]其中,“ >...< ”中的“ > ”和“ < ”之间的部分表示最大名词短语,“ > ”前面(即左侧)和“<”后面(即右侧)的部分表示上下文限制条件,为上下文无限制条件。X表示被标注了名词短语标签的名词短语。(/a)为形容词词性,(/V)为动词词性。
[0063]需要说明的是,以上仅作为最大名词短语模板的几个示例,在实际应用中,最大名词短语模板并不局限于此。
[0064]根据第一最大名词短语模板可知,“[桌子]NP上有[一本书]NP”中,短语“桌子”具有第一最大名词短语模板的结构。这是因为“桌子”,相当于“* > X+ < *”中的“x”,“+”表示“X”的重复(但这里没有),且上下文无限制。类似地,短语“一本书”也是符合第一最大名词短语模板的结构,其中一本书”相当于“* > X+ < *”中的“X”。除此之外,“[桌子]NP上有[一本书]NP”中尚无符合第二至第四最大名词短语模板的任何短语。
[0065]由此,通过名词短语确定单元110、标注单元120和最大名词短语确定单元130的处理,在上述例子中,可以得到“桌子上有一本书”中的最大名词短语为“桌子”和“一本书”。
[0066]需要说明的是,上文所述的最大名词短语是指不被任何其它名词短语所包含的名词短语。从语法树上来看,就是从根向下遇到的第一个NP标识下的所有叶子节点的集合。然而,目标语言(如汉语)的名词短语结构非常复杂,其分词往往含有很多歧义,并且其词性标注也存在着相当多的错误,因此,利用传统方法所进行的目标语言(如汉语)的名词短语识别往往准确度较低,最大名词短语的识别准确度也较低。
[0067]相比之下,上述根据本发明的实施例的用于提取最大名词短语的装置所提取的最大名词短语首先利用参考语言(如英语)的名词短语模板来确定参考语言名词短语,并在此基础之上再利用目标语言(如汉语)最大名词短语模板来确定目标语言最大名词短语,从而通过分层次的双级处理实现了最大名词短语的确定,处理所得到的结果的准确度较高。此外,利用上述根据本发明的实施例的用于提取最大名词短语的装置所进行的处理的复杂度也较低。
[0068]图2示意性地示出了根据本发明的实施例的用于提取最大名词短语的装置的另一个示例。如图2所示,用于提取最大名词短语的装置200除了名词短语确定单元210、标注单元220和最大名词短语确定单元230之外,还包括用于获得名词短语模板的名词短语模板获得单元240。其中,图2所示的用于提取最大名词短语的装置200中的名词短语确定单元210、标注单元220和最大名词短语确定单元230可以分别具有与上文中结合图1所描述的用于提取最大名词短语的装置100中的名词短语确定单元110、标注单元120和最大名词短语确定单元130相同的结构和功能,并能够达到相类似的技术效果,这里不再赘述。
[0069]名词短语模板获得单元240可以在预定的目标语言和参考语言的双语对齐语料库中,通过统计双语对齐语料库中每个目标语言名词短语对应的参考语言名词短语所包含的词性标签,以确定上述双语对齐语料库对应的至少一个参考语言名词短语模板。
[0070]其中,双语对齐语料库包含多组双语句对,每组句对互为译文、且互相对齐,且每组句对中的目标语言句子和参考语言句子中的各个词是分别对齐的(例如可以利用现有的对齐方法来实现)。举例来说,参考语言句子中某个词是由目标语言句子中哪个词翻译而来的是已知的,反之亦然。如下为一组对齐句对:
[0071]

【权利要求】
1.一种用于提取最大名词短语的装置,包括: 名词短语确定单元,其被配置用于在待处理的目标语言语句的参考语言译句中,确定与至少一个名词短语模板中的任一个相符的参考语言名词短语,其中,每个所述名词短语模板包括按其对应的预定顺序排列的至少一个参考语言的词性标签; 标注单元,其被配置用于将名词短语标签标注给所述目标语言语句中的与确定的所述参考语言名词短语相对应的目标语言名词短语;以及 最大名词短语确定单元,其被配置用于在所述目标语言语句中将与至少一个最大名词短语模板中的任一个相符的短语确定为最大名词短语,其中,每个所述最大名词短语模板包括按其对应的预定顺序排列的至少一个目标语言的词性标签和/或至少一个名词短语标签。
2.根据权利要求1所述的用于提取最大名词短语的装置,还包括: 名词短语模板获得单元,其被配置用于在预定的目标语言和参考语言的双语对齐语料库中,统计每个目标语言名词短语对应的参考语言名词短语所包含的词性标签,以确定所述双语对齐语料库对应的至少一个参考语言名词短语模板。
3.根据权利要求2所述的用于提取最大名词短语的装置,其中: 所述双语对齐语料库中的每个目标语言名词短语是预先确定的;以及 所述双语对齐语料库中的每个参考语言语句是预先经过词性标注的。
4.根据权利要求2或3所述的用于提取最大名词短语的装置,其中,所述名词短语模板获得单元包括: 第一确定子单元,其被配置用于根据每个所述目标语言名词短语在其对应的参考语言语句中与该目标语言名词短语对齐的参考语言名词短语所包含的词性标签,获得参考语言名词短语模板的第一候选模板;以及 第二确定子单元,其被配置用于统计每个所述第一候选模板的重复出现次数,将重复出现次数高于第一预定阈值的第一候选模板确定为至少一个参考语言名词短语模板。
5.根据权利要求1-4中任一项所述的用于提取最大名词短语的装置,还包括: 最大名词短语模板获得单元,其被配置用于基于确定了名词短语和最大名词短语的目标语言语料库,至少统计所述目标语言语料库中的每个确定的最大名词短语所对应的词性标签和名词短语标签,以确定所述目标语言语料库对应的至少一个目标语言最大名词短语模板。
6.根据权利要求5所述的用于提取最大名词短语的装置,其中,所述最大名词短语模板获得单元包括: 词性标注子单元,其被配置用于对所述目标语言语料库中的每个语句进行词性标注;标签标注子单元,其被配置用于将名词短语标签标注给所述目标语言语料库中每个确定的名词短语; 第三确定子单元,其被配置用于根据目标语言语料库中每个确定的最大名词短语所包含的词性标签、名词短语标签,获得目标语言最大名词短语模板的第二候选模板;以及第四确定子单元,其被配置用于统计每个所述第二候选模板的重复出现次数,并将重复出现次数高于第二预定阈值的第二候选模板确定为至少一个目标语言最大名词短语模板。
7.根据权利要求1-6中任一项所述的用于提取最大名词短语的装置,其中,至少部分所述最大名词短语模板中的部分相邻的词性标签和/或名词短语标签之间具有预设关键
ο
8.根据权利要求1-7中任一项所述的用于提取最大名词短语的装置,其中,所述参考语言为不需分词的语言,以及所述目标语言为需要分词的语言。
9.一种用于提取最大名词短语的方法,包括: 在待处理的目标语言语句的参考语言译句中,确定与至少一个名词短语模板中的任一个相符的参考语言名词短语,其中,每个所述名词短语模板包括按其对应的预定顺序排列的至少一个参考语言的词性标签; 将名词短语标签标注给所述目标语言语句中的与确定的所述参考语言名词短语相对应的目标语言名词短语;以及 在所述目标语言语句中将与至少一个最大名词短语模板中的任一个相符的短语确定为最大名词短语,其中,每个所述最大名词短语模板包括按其对应的预定顺序排列的至少一个目标语言的词性标签和/或至少一个名词短语标签。
10.一种电子 设备,包括如权利要求1-8中任一所述的用于提取最大名词短语的装置。
【文档编号】G06F17/27GK104050156SQ201310084666
【公开日】2014年9月17日 申请日期:2013年3月15日 优先权日:2013年3月15日
【发明者】葛乃晟, 付亦雯, 郑仲光, 孟遥, 于浩 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1