一种事件触发词识别方法及装置的制造方法_2

文档序号:9417353阅读:来源:国知局
征,其中单语特征 包括词袋特征、候选词的词形和词性特征、距离候选词左/右最近的词的词形和词性特征、 距离候选词左/右最近的实体的词特征和类型特征。
[0051] 具体地,仅适用单语信息时,以英文为例,一个英文文本X被表示为:
[0052] 其中,e;为当前候选词所在句的词特征,e D e2···,en即词袋特征,Word和P0S_Word 分别为当前候选词及其词性,W〇rd_C〇n和P0S_con为距离当前候选词左/右最近的词及其 词性,Ent为距离当前候选词左/右最近的实体,Ent_type和Ent_subtype为对应的实体的 类型和子类型。
[0053] 当使用双语信息时,需要在上述的单语表示的基础上加上双语信息,此时的X表 示为:
[0054]
[0055] 其中,Cj为当前候选词所在的原英文句对应的中文翻译句的词特征,Trans_Word 为当前候选词Word的翻译。通过该方法,本发明将双语信息有效的融合在一起,为机器学 习奠定了良好的基础。
[0056] 步骤S203 :使用机器学习的方法对训练样本进行训练,构建一个二元分类器;
[0057] 所述二元分类器为对多个具有双语特征的训练样本进行训练得到的。具体地,该 二元分类器可以为最大熵的二元分类器。
[0058] 最大熵分类方法是基于最大熵信息理论的,其基本思想是为所有已知的因素建立 模型,而把所有未知的因素排除在外。也就是说,要找到一种概率分布,满足所有已知的事 实,但是让未知的因素最随机化。该方法最大的特点就是不需要满足特征与特征之间的条 件独立。因此,该方法适合融合各种不一样的特征,而无需考虑它们之间的影响。
[0059] 在最大熵模型下,预测条件概率P (c ID)的公式如下:
[0060]
[0061] 其中Z(D)是归一化因子。Fk,。是特征函数,定义为: CN 105138520 A ~P 5/6 页
[0062]
[0063] 步骤S204 :通过所述双语特征,使用预先建立的二元分类器对所述当前候选词进 行分类,以确定所述当前候选词是否为事件触发词。
[0064] 本发明同时从中文和英文的事件语料入手,使用二者的综合信息去识别事件的触 发词,这样做的好处在于中英文事件中往往包含着类似的信息,将二者有效的融合在一起, 可以在一定程度上避免语料的稀疏问题,并充分考虑到了中英文的有益信息,令二者可以 相互帮助,其意义在于有利于提高系统的识别效果。
[0065] 综合来看,本发明能够有效解决事件触发词识别问题中的数据稀疏问题,获得的 识别效果要远远好于使用单语的触发词识别方法。本发明的方法在ACE 2005的中英文测 试语料中取得了更好的分类正确率。
[0066] 在本次测试中,中文事件共有633个文本,英文事件共有599个文本。对中英文语 料分别进行单语和双语测试,实验选用的评价标准是Fl-score (Fl),Fl = 2*P*R/ (P+R),其 中P是精确率,R为召回率。Fl值是评价一般分类问题的综合评价标准。
[0067] 如表1本发明的测试实验结果所示,其中参与比较的分类方法包括:
[0068] "中文单语"表示仅使用中文单语特征进行基于最大熵分类方法的事件触发词识 另IJ,在中文单语语料上进行测试;
[0069] "中文双语"表示在中英文单语特征的基础上加入双语信息,使用中英文双语特征 文本进行基于最大熵分类方法的事件触发词识别,在中文双语语料上进行测试。
[0070] "英文单语"表示仅使用英文单语特征进行基于最大熵分类方法的事件触发词识 另IJ,在英文单语语料上进行测试;
[0071] "英文双语"表示在中英文单语特征的基础上加入双语信息,使用中英文双语特征 文本进行基于最大熵分类方法的事件触发词识别,在英文双语语料上进行测试。
[0072]表 1
[0073]
[0074] 从上述表1所示的对比数据可以看出,使用双语信息的方法要好于单纯的单语的 事件触发词识别方法的结果,尤其是中文事件的触发词识别结果,这个结果显示本发明所 使用的方法能够在一定程度上有效的处理事件触发词识别中数据稀疏的问题。在事件触发 词识别任务中,数据稀疏问题往往表现得很突出,所以本发明的方法更适合实际需要。
[0075] 本发明所提供的事件触发词识别装置的一种【具体实施方式】的结构框图如图3所 示,该装置包括:
[0076] 获取模块100,用于将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料;
[0077] 确定模块200,用于根据所述原始语料以及所述翻译语料,确定当前候选词的双语 特征,所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征;
[0078] 分类模块300,用于通过所述双语特征,使用预先建立的二元分类器对所述当前候 选词进行分类,以确定所述当前候选词是否为事件触发词;其中,所述二元分类器为通过对 多个具有双语特征的训练样本进行训练得到的。
[0079] 本发明所提供的事件触发词识别装置,通过将待识别原始语料进行整句翻译和逐 词翻译,获得翻译后的语料,将原始语料以及翻译语料有效的融合,作为当前候选词的双语 特征。根据双语特征,使用预先建立的二元分类器对当前候选词进行分类,以确定当前候选 词是否为事件触发词。本发明所提供的事件触发词识别装置,同时从事件的原始以及翻译 语料入手,使用二者的综合信息去识别事件的触发词,可以在一定程度上避免语料的稀疏 问题,准确地通过更多更有效的特征和训练样本同时识别出中英文事件的触发词,有利于 提尚系统的识别性能。
[0080] 本发明所提供的事件触发词识别装置,与上述事件触发词识别方法相对应,在此 不再赘述。
[0081] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它 实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
[0082] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。 对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的 一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明 将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一 致的最宽的范围。
【主权项】
1. 一种事件触发词识别方法,其特征在于,包括: 将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料; 根据所述原始语料以及所述翻译语料,确定当前候选词的双语特征,所述双语特征包 括原始语料的第一单语特征以及翻译语料的第二单语特征; 通过所述双语特征,使用预先建立的二元分类器对所述当前候选词进行分类,以确定 所述当前候选词是否为事件触发词;其中,所述二元分类器为通过对多个具有双语特征的 训练样本进行训练得到的。2. 如权利要求1所述的事件触发词识别方法,其特征在于,所述第一单语特征包括: 词袋特征、所述当前候选词的词形和词性特征、距离所述当前候选词左/右最近的词 的词形和词性特征、距离所述当前候选词左/右最近的实体的词特征和类型特征。3. 如权利要求1所述的事件触发词识别方法,其特征在于,所述第二单语特征包括: 所述当前候选词翻译后的词特征和整句翻译文本的词袋特征。4. 如权利要求1至3任一项所述的事件触发词识别方法,其特征在于,所述将待识别原 始语料进行整句翻译和逐词翻译,获得翻译语料包括: 使用机器翻译技术对所述原始语料进行整句翻译和逐词翻译。5. 如权利要求1至3任一项所述的事件触发词识别方法,其特征在于,所述将待识别原 始语料进行整句翻译和逐词翻译,获得翻译语料之后还包括: 当翻译后的语料为中文时,对翻译后的文本进行分词处理。6. 如权利要求1至3任一项所述的事件触发词识别方法,其特征在于,预先建立所述二 元分类器包括: 建立最大熵二元分类器。7.-种事件触发词识别装置,其特征在于,包括: 获取模块,用于将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料; 确定模块,用于根据所述原始语料以及所述翻译语料,确定当前候选词的双语特征,所 述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征; 分类模块,用于通过所述双语特征,使用预先建立的二元分类器对所述当前候选词进 行分类,以确定所述当前候选词是否为事件触发词;其中,所述二元分类器为通过对多个具 有双语特征的训练样本进行训练得到的。8. 如权利要求7所述的事件触发词识别装置,其特征在于,所述获取模块用于将待识 别原始语料进行整句翻译和逐词翻译,获得翻译语料包括: 所述获取模块具体用于使用机器翻译技术对所述原始语料进行整句翻译和逐词翻译。9. 如权利要求7或8所述的事件触发词识别装置,其特征在于,还包括: 分词模块,用于在将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料之后,当 翻译后的语料为中文时,对翻译后的文本进行分词处理。
【专利摘要】本发明公开了一种事件触发词识别方法及装置,该方法包括:将待识别原始语料进行整句翻译和逐词翻译,获得翻译语料;根据所述原始语料以及所述翻译语料,确定当前候选词的双语特征,所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征;通过所述双语特征,使用预先建立的二元分类器对所述当前候选词进行分类,以确定所述当前候选词是否为事件触发词;其中,所述二元分类器为通过对多个具有双语特征的训练样本进行训练得到的。本发明所提供的事件触发词识别方法及装置,同时从事件的原始以及翻译语料入手,使用二者的综合信息去识别事件的触发词,可以避免语料的稀疏问题,有利于提高系统的识别性能。
【IPC分类】G06F17/28, G06F17/30, G06F17/27
【公开号】CN105138520
【申请号】CN201510530965
【发明人】李寿山, 朱珠, 周国栋
【申请人】苏州大学张家港工业技术研究院
【公开日】2015年12月9日
【申请日】2015年8月26日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1