术语抽取方法和装置的制作方法

文档序号:6332108阅读:187来源:国知局
专利名称:术语抽取方法和装置的制作方法
技术领域
本发明涉及文字处理领域。特别地,本发明涉及一种术语抽取方法和装置。
背景技术
术语是用于表示一个领域的最基础的知识的词汇单元。抽取术语的目的在于提取有意义的词或短语,该词或者短语表示特定于该领域的含义或者概念。由于利用术语抽取的结果可以对文本进行快速分析,因此本领域技术人员对术语抽取进行了广泛研究。

发明内容
本发明的一个目的是,提供一种用于抽取术语的方法和装置。在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。根据本发明的实施例,获取候选术语的至少两个特征,并基于所获取的特征对候选术语进行抽取;其中所述特征包括头尾词或字特征以及指示词特征。借助根据本发明的实施例,可以有效地改进术语抽取结果,并且可以根据实际应用的具体情况利用不同的特征来进行术语抽取,从而提高所抽取的术语的准确性。通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。


本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中图1示出了根据本发明的一个实施例的用于抽取术语的方法的流程图;图2示出了根据本发明的另一个实施例的用于抽取术语的方法的流程图;图3示出了根据本发明的一个实施例的用于抽取术语的装置的示意性结构图;图4示出了根据本发明的另一个实施例的用于抽取术语的装置的示意性结构图;图5示出了可用于实施根据本发明的实施例的方法和/或装置的计算机的示例性结构的框图。在附图中,相同或者相应的方法步骤或者部件使用了相同的或者相应的参考标记。
具体实施例方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,
3在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构,而省略了与本发明关系不大的其他细节。发明人研究发现,术语抽取技术目前已经开发出多种方法,然而各种方法会具有各自的缺点。例如,基于统计的方法不能识别没有统计显著性的术语,因为该方法对于术语出现的频率非常敏感。基于触发词的方法始终使用预定的语言学规则来进行后处理,其可能会将一些无意义的字串作为有意义的词来抽取或者会忽略一些有意义的词。基于知识的方法很大程度上依赖于领域知识的数量和质量,因此其难以被用于新的领域。因此,如果能够根据具体应用情况将基于不同特征的术语抽取方法结合起来,可以有效地克服仅仅使用基于某一特征的术语抽取方法的不足之处。因此,根据本发明的一个实施例,提出了一种用于抽取术语的方法。图1示出了该方法的示意性流程图。需要说明的是,在执行根据图1所示的方法之前,已经从外部获取了候选术语。所述候选术语可以利用任何方法,包括现有技术中的方法来获得。例如,可以首先获取原始语料,随后可以对这些语料进行包括分句、分词、词性标注等在内的各种预处理,以获得候选术语。在此可以采用已有的自然语言处理方法来对原始语料进行预处理。关于上述如何获取候选术语的内容是本领域技术人员所熟知的,因此这里不再详细描述。从图1中可以看到,该方法包括如下步骤。步骤SllO 获取候选术语的至少两个特征。根据本发明的一个实施方式,这些特征包括头尾词或字特征以及指示词特征。头尾词或字是术语开头、结尾的词或字。发明人注意到,对于一些技术领域,术语开头、结尾的词或字可能会对术语具有强烈的指示作用。比如在生物学领域中,术语“扫描隧道显微镜”的头尾词“扫描”、“显微镜”就具有强的指示作用,根据该头尾词在很大程度上可以确定该头尾词连同中间的词会组成该领域中的术语。或者进一步地,该术语的头尾字 “扫”、“镜”也具有较强的指示作用,即指示该头尾字连同中间的内容会组成该领域中的术语。因此,基于头尾词或字来进行术语抽取可以提高术语抽取的准确率。另一特征是指示词特征。发明人注意到,在术语前后出现的词语对于术语边界具有一定的指示作用,因此将其定义为指示词。利用指示词特征来进行术语抽取同样有助于提高术语抽取的准确性。为了获取指示词,可以使用词表的方法,其中在该词表中已经事先定义了各种指示词,通过查询词表可以确定指示词。此外也可能的是,借助标注好的语料来训练分类器, 并且借助训练后的分类器提取指示词。这些方法是本领域技术人员所熟知的,这里不再详细描述。
发明人发现,前指示词和后指示词(即出现在术语前面和后面的指示词)具有不同的特点,也即它们表明了术语的不同位置。前指示词表明其后可能为术语,而后指示词表明之前可能为术语。如果对前指示词和后指示词进行区分,则可以更清晰地表明相关术语的特征,同时也更精确地界定术语的边界。因此优选的是,对前后指示词进行区分。例如, 如果确定某个指示词是前指示词,则说明该指示词之后的词语可能是术语。或者,如果确定某个指示词是后指示词,则说明该指示词之前的词语可能是术语。进一步优选的是,将句首和句尾作为特殊指示词进行考虑,例如句首标识可以作为特殊的前指示词,而句尾标识可以作为特殊的后指示词。例如对于语料“扫描隧道显微镜是一种基于量子隧道效应的高分辨率显微镜”,其中“扫描隧道显微镜”、“量子隧道效应”和“高分辨率显微镜”是该生物学领域的术语。在根据本发明的实施例中,前指示词包括句首标识、“基于”和“的”,而后指示词包括句尾标识、“是”和“的”。借助这些前后指示词特征,可以有效地进行术语抽取。需要说明的是,在步骤SllO中当然也可以获取候选术语的其他特征。例如可以获取词频特征。词频特征表明词或短语在一定规模的文本中出现的次数。或者也可以获取候选术语的词性特征。例如,现代汉语中的词可以分为12种词性,其中实词包括名词、动词、 形容词、数词、量词和代词,而虚词包括副词、介词、连词、助词、拟声词和叹词。词频特征和词性特征是本领域技术人员所熟知的,因此这里不再具体描述。在获取候选术语的至少两个特征之后,在步骤S120中基于所获取的特征对候选术语进行抽取。在获取上述特征之后,可以利用本领域常用的各种方法来进行候选术语的抽取。 例如,在图2中示出了根据本发明的另一个实施例的用于抽取术语的方法的流程图。从图 2中可以看到,在步骤S120中,包括步骤S1201 利用分类器基于所获取的特征来对候选术语进行抽取。在利用分类器对候选术语进行抽取的方法中,首先利用事先标注好的种子基于术语的选定特征来来训练分类器,随后利用该分类器来对候选术语进行抽取。利用分类器来抽取候选术语的方法是本领域技术人员所熟知的,因此不再详细描述。由于在根据本发明的实施例的用于抽取术语的方法中,基于候选术语的多个特征进行抽取,因此可以避免仅仅基于单一特征的抽取方法的不足之处。此外,尤其是基于头尾词或字特征以及指示词特征来抽取术语,从而提高了术语抽取的准确率。需要说明的是,虽然在上面的实施例中描述了头尾词或字特征以及指示词特征, 本领域技术人员容易理解的是,可以分别单独将头尾词或字特征或者指示词特征与其他特征结合使用,本发明并非局限于必须同时使用上述两种特征。相应地,根据本发明的一个实施例,提出了一种用于抽取术语的装置。图3示出了该用于抽取术语的装置的示意性结构图。同样地,在事先已经从外部获取了候选术语。所述候选术语可以利用任何方法,包括现有技术中的方法来获得。例如,可以首先获取原始语料,随后可以对这些语料进行包括分句、分词、词性标注等在内的各种预处理,以获得候选术语。在此可以采用已有的自然语言处理方法来对原始语料进行预处理。关于上述如何获取候选术语的内容是本领域技术人员所熟知的,因此这里不再详细描述。
从图3中可以看到,该装置包括特征获取器310和术语抽取器320。特征获取器310被配置用于获取候选术语的至少两个特征。根据本发明的一个实施方式,这些特征包括头尾词或字特征以及指示词特征。头尾词或字是术语开头、结尾的词或字。发明人注意到,对于一些特定的技术领域,术语开头、结尾的词或字可能会对术语具有强烈的指示作用。因此,基于头尾词或字来进行术语抽取可以提高术语抽取的准确率。关于该特征的具体内容请参见上面方法部分的描述,这里不再重复。另一特征是指示词特征。发明人注意到,在术语前后出现的词语对于术语边界具有一定的指示作用,因此将其定义为指示词。利用指示词特征来进行术语抽取同样有助于提高术语抽取的准确性。特别地,发明人发现如果对前指示词和后指示词进行区分,则可以更清晰地表明相关术语的特征,同时也更精确地界定术语的边界。因此优选的是,对前后指示词进行区分。进一步优选的是,将句首和句尾作为特殊指示词进行考虑,例如句首标识可以作为特殊的前指示词,而句尾标识可以作为特殊的后指示词。关于指示词特征的具体内容请参见上面方法部分的描述,这里不再重复。需要说明的是,特征获取器310当然也可以被配置用于获取候选术语的其他特征。例如可以获取词频特征,或者也可以获取候选术语的词性特征。词频特征和词性特征是本领域技术人员所熟知的,因此这里不再具体描述。在获取候选术语的至少两个特征之后,在术语抽取器320中基于所获取的特征对候选术语进行抽取。术语抽取器320可以利用本领域常用的各种方法来进行候选术语的抽取。例如, 在图4中示出了根据本发明的另一个实施例的用于抽取术语的装置的示意性结构图。从图 4中可以看到,术语抽取器320包括分类器3201,以便利用分类器基于所获取的特征来对候选术语进行抽取。在利用分类器3201对候选术语进行抽取的方法中,首先利用事先标注好的种子基于术语的选定特征来来训练分类器3201,随后利用该分类器3201来对候选术语进行抽取。利用分类器来抽取候选术语的方法是本领域技术人员所熟知的,因此不再详细描述。由于在根据本发明的实施例的用于抽取术语的装置中,基于候选术语的多个特征进行抽取,因此可以避免仅仅基于单一特征的不足之处。此外,尤其是基于头尾词或字特征以及指示词特征来抽取术语,从而提高了术语抽取的准确率。需要说明的是,虽然在上面的实施例中描述了特征获取器310获取头尾词或字特征以及指示词特征,本领域技术人员容易理解的是,可以分别单独将头尾词或字特征或者指示词特征与其他特征结合使用,本发明并非局限于必须同时使用上述两种特征。上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。在图5中,中央处理单元(CPU) 501根据只读存储器(ROM) 502中存储的程序或从存储部分508加载到随机存取存储器(RAM) 503的程序执行各种处理。在RAM 503中,也根
6据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 50UROM 502和RAM 503经由总线504彼此连接。输入/输出接口 505也连接到总线504。下述部件连接到输入/输出接口 505 输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可连接到输入/输出接口 505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(⑶-ROM)和数字通用盘 (DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是 ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的
要素。此外,在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在
包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。通过以上的描述不难看出,根据本发明的实施例,提供了如下的方案附记1. 一种用于抽取术语的方法,包括-获取候选术语的至少两个特征;-基于所获取的特征对候选术语进行抽取;其中所述特征包括头尾词或字特征以及指示词特征。附记2.根据附记1所述的方法,其中所述头尾词或字是术语开头、结尾的词或字。附记3.根据附记1所述的方法,其中所述指示词是在术语前后出现的、对于术语边界具有指示作用的词语。附记4.根据附记1至3中的任一项所述的方法,其中所述特征还包括词频特征和 /或词性特征。
附记5.根据附记1至3中的任一项所述的方法,其中基于所获取的特征对候选术语进行抽取的步骤包括利用分类器基于所述特征来对候选术语进行抽取。附记6. —种用于抽取术语的装置,包括特征获取器,其被配置用于获取候选术语的至少两个特征;以及术语抽取器,其被配置用于基于所获取的特征对候选术语进行抽取;其中所述特征包括头尾词或字特征以及指示词特征。附记7.根据附记6所述的装置,其中所述头尾词或字是术语开头、结尾的词或字。附记8.根据附记6所述的装置,其中所述指示词是在术语前后出现的、对于术语边界具有指示作用的词语。附记9.根据附记6至8中的任一项所述的装置,其中所述特征还包括词频特征和 /或词性特征。附记10.根据附记6至8中的任一项所述的装置,其中所述术语抽取器利用分类器基于所述特征来对候选术语进行抽取。附记11. 一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行如附记1至5中的任一项所述的方法。附记12. —种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行如附记ι至5中的任一项所述的方法。
权利要求
1.一种用于抽取术语的方法,包括-获取候选术语的至少两个特征;-基于所获取的特征对候选术语进行抽取;其中所述特征包括头尾词或字特征以及指示词特征。
2.根据权利要求1所述的方法,其中所述头尾词或字是术语开头、结尾的词或字。
3.根据权利要求1所述的方法,其中所述指示词是在术语前后出现的、对于术语边界具有指示作用的词语。
4.根据权利要求1至3中的任一项所述的方法,其中所述特征还包括词频特征和/或词性特征。
5.根据权利要求1至3中的任一项所述的方法,其中基于所获取的特征对候选术语进行抽取的步骤包括利用分类器基于所述特征来对候选术语进行抽取。
6.一种用于抽取术语的装置,包括特征获取器,其被配置用于获取候选术语的至少两个特征;以及术语抽取器,其被配置用于基于所获取的特征对候选术语进行抽取;其中所述特征包括头尾词或字特征以及指示词特征。
7.根据权利要求6所述的装置,其中所述头尾词或字是术语开头、结尾的词或字。
8.根据权利要求6所述的装置,其中所述指示词是在术语前后出现的、对于术语边界具有指示作用的词语。
9.根据权利要求6至8中的任一项所述的装置,其中所述特征还包括词频特征和/或词性特征。
10.根据权利要求6至8中的任一项所述的装置,其中所述术语抽取器利用分类器基于所述特征来对候选术语进行抽取。
全文摘要
本发明公开了一种用于抽取术语的方法和装置。该方法包括获取候选术语的至少两个特征;基于所获取的特征对候选术语进行抽取;其中所述特征包括头尾词或字特征以及指示词特征。
文档编号G06F17/27GK102402501SQ20101028269
公开日2012年4月4日 申请日期2010年9月9日 优先权日2010年9月9日
发明者于浩, 夏迎炬, 孟遥, 杨宇航, 陆应亮 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1