一种事件触发词识别方法及装置的制造方法

文档序号:9417353阅读:339来源:国知局
一种事件触发词识别方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息抽取技术以及模式识别技术领域,特别是涉及一种事件触发词识 别方法及装置。
【背景技术】
[0002] 随着互联网的高速发展和信息高速公路的兴起,网络信息数据不断增加,从而使 得大量的信息以电子文本的形式呈现在人们面前。因此,如何从这些大量的信息中迅速、准 确地提取出人们所需求的重要信息就越发重要。
[0003] 信息抽取是从文本中自动获取信息的一种主要手段。信息抽取是将无结构的文 本信息,按照人们的需求识别和抽取出来,转化为结构化或半结构化的信息,并采用数据库 的形式存储,以便人们查询和进一步的分析、利用。事件抽取(Event Extraction)是信息 抽取的一个重要研究方向。ACE2005将事件抽取的任务定义为事件的检测与识别(Event detection and recognition),即识别特定类型的事件,并进行相关信息的确定和抽取。主 要的相关信息包括:事件触发词、事件的类型和子类型、事件的元素等。触发词是触发事件 发生的词,触发词的识别任务是进行事件抽取其他子任务的基础。例如:"高中同学前一个 月结婚了",通过事件触发词识别,可知"结婚"为触发词触发了事件的发生,而"美国总统布 什将于2月访问德国并与施罗德会谈"这一事件则是由触发词"会谈"触发的。
[0004] 目前,事件抽取的方法大致可以分为两种:第一种是基于模式匹配的方法,它是指 某类事件的识别和抽取是在一些模式的指导下进行的,而所需的模式则需要人工或自动的 方式来设定或获取。该方法分为两个过程:模式获取和信息抽取。其中,模式的建立需要取 决于具体的领域和使用的环境,建立起来有困难。但是根据特征提取出来的模式在其应用 范围内准确率很高,根据模式匹配出的事件准确性也较好。第二种方法是基于机器学习的 方法,即使用统计的方法进行事件抽取的研究。这种方法把事件抽取看成分类问题,选择合 适的特征并使用合适的分类器来完成。基于机器学习的方法虽然不依赖于语料的内容与格 式,但需要大规模的标注语料,否则会出现较为严重的数据稀疏问题。
[0005] 因此,怎样避免数据稀疏现象及选取有效的特征,是基于机器学习的事件抽取方 法研究的一大难点。

【发明内容】

[0006] 本发明的目的是提供一种事件触发词识别方法及装置,目的在于解决现有的事件 触发词识别方法中数据稀疏的问题。
[0007] 为解决上述技术问题,本发明提供一种事件触发词识别方法,包括:
[0008] 将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料;
[0009] 根据所述原始语料以及所述翻译语料,确定当前候选词的双语特征,所述双语特 征包括原始语料的第一单语特征以及翻译语料的第二单语特征;
[0010] 通过所述双语特征,使用预先建立的二元分类器对所述当前候选词进行分类,以 确定所述当前候选词是否为事件触发词;其中,所述二元分类器为通过对多个具有双语特 征的训练样本进行训练得到的。
[0011] 可选地,所述第一单语特征包括:
[0012] 词袋特征、所述当前候选词的词形和词性特征、距离所述当前候选词左/右最近 的词的词形和词性特征、距离所述当前候选词左/右最近的实体的词特征和类型特征。
[0013] 可选地,所述第二单语特征包括:
[0014] 所述当前候选词翻译后的词特征和整句翻译文本的词袋特征。
[0015] 可选地,所述将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料包括:
[0016] 使用机器翻译技术对所述原始语料进行整句翻译和逐词翻译。
[0017] 可选地,所述将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料之后还 包括:
[0018] 当翻译后的语料为中文时,对翻译后的文本进行分词处理。
[0019] 可选地,预先建立所述二元分类器包括:
[0020] 建立最大熵二元分类器。
[0021] 本发明还提供了一种事件触发词识别装置,包括:
[0022] 获取模块,用于将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料;
[0023] 确定模块,用于根据所述原始语料以及所述翻译语料,确定当前候选词的双语特 征,所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征;
[0024] 分类模块,用于通过所述双语特征,使用预先建立的二元分类器对所述当前候选 词进行分类,以确定所述当前候选词是否为事件触发词;其中,所述二元分类器为通过对多 个具有双语特征的训练样本进行训练得到的。
[0025] 可选地,所述获取模块用于将待识别原始语料进行整句翻译和逐词翻译,获得翻 译语料包括:
[0026] 所述获取模块具体用于使用机器翻译技术对所述原始语料进行整句翻译和逐词 翻译。
[0027] 可选地,还包括:
[0028] 分词模块,用于在将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料之 后,当翻译后的语料为中文时,对翻译后的文本进行分词处理。
[0029] 本发明所提供的事件触发词识别方法及装置,通过将待识别原始语料进行整句翻 译和逐词翻译,获得翻译后的语料,将原始语料以及翻译语料有效的融合,作为当前候选词 的双语特征。根据双语特征,使用预先建立的二元分类器对当前候选词进行分类,以确定当 前候选词是否为事件触发词。本发明所提供的事件触发词识别方法及装置,同时从事件的 原始以及翻译语料入手,使用二者的综合信息去识别事件的触发词,可以在一定程度上避 免语料的稀疏问题,有利于提高系统的识别性能。
【附图说明】
[0030] 图1为本发明所提供的事件触发词识别方法的一种【具体实施方式】的方法流程图;
[0031] 图2为本发明所提供的事件触发词识别方法的另一种【具体实施方式】的方法流程 图;
[0032] 图3为本发明所提供的事件触发词识别装置的一种【具体实施方式】的结构框图。
【具体实施方式】
[0033] 为了使本技术领域的人员更好地理解本发明方案,下面结合附图和【具体实施方式】 对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
[0034] 本发明所提供的事件触发词识别方法的一种【具体实施方式】的方法流程图如图1 所示,该方法包括:
[0035] 步骤SlOl :将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料;
[0036] 步骤S102 :根据所述原始语料以及所述翻译语料,确定当前候选词的双语特征, 所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征;
[0037] 步骤S103 :通过所述双语特征,使用预先建立的二元分类器对所述当前候选词进 行分类,以确定所述当前候选词是否为事件触发词;其中,所述二元分类器为通过对多个具 有双语特征的训练样本进行训练得到的。
[0038] 本发明所提供的事件触发词识别方法,通过将待识别原始语料进行整句翻译和逐 词翻译,获得翻译后的语料,将原始语料以及翻译语料有效的融合,作为当前候选词的双语 特征。根据双语特征,使用预先建立的二元分类器对当前候选词进行分类,以确定当前候选 词是否为事件触发词。本发明所提供的事件触发词识别方法,同时从事件的原始以及翻译 语料入手,使用二者的综合信息去识别事件的触发词,可以在一定程度上避免语料的稀疏 问题,有利于提尚系统的识别性能。
[0039] 需要指出的是,上述第一单语特征可以具体包括:词袋特征、所述当前候选词的词 形和词性特征、距离所述当前候选词左/右最近的词的词形和词性特征、距离所述当前候 选词左/右最近的实体的词特征和类型特征;
[0040] 上述第二单语特征可以具体包括:所述当前候选词翻译后的词特征和整句翻译文 本的词袋特征。
[0041] 当然,第一单语特征以及第二单语特征还可以包括其他特征,并不限于这里指出 的特征。这都不影响本发明的实现。
[0042] 从国内外的研究现状可知,中文的事件抽取研究起步较晚,关于可用资源的建设 相对薄弱。相对而言,英文的事件抽取研究则起步较早,相关的研究也比较深入,但是数据 稀疏这一问题仍然存在。因此,本发明提出的基于双语信息的事件触发词识别方法,可以 应用于中英文事件触发词识别技术中,利用机器翻译系统来消除中英文两种语言之间的障 碍,把一个源语言的事件句翻译成另一种语言。
[0043] 本实施例提供了事件触发词识别方法的另一种【具体实施方式】,如图2方法流程图 所示。该方法具体包括:
[0044] 步骤S201 :使用机械翻译技术对中英文的原始语料进行整句翻译和逐词翻译;
[0045] 谷歌翻译工具是目前比较先进且应用比较广泛的机器翻译系统之一,本实施例即 利用该工具来实现事件的文本翻译。例1就是一个英文事件及其对应的整句中文翻译。
[0046] 例 I :Saddam,s clan is said to have left for a small village in the desert.
[0047] 中文翻译:据说萨达姆家族已经离开沙漠中的一个小村庄。
[0048] 如果是把英文翻译成中文,那么还需要对翻译后的文本进行分词处理。本实施例 中使用中科院的分词工具完成这一分词过程。
[0049] 步骤S202 :根据所述原始语料以及所述翻译语料,确定当前候选词的双语特征, 所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征;
[0050] 双语特征的文本表示过程,即中英文信息的融合过程。特征选择是机器学习的一 个关键问题,本发明为了使机器可以同时学习双语信息,需要对文本的特征表示进行优化。 本发明使用的方法是在原有的单语特征基础上加入候选词翻译后的词特
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1