一种基于双语语义映射的事件短语学习方法及装置与流程

文档序号:11250868阅读:398来源:国知局
一种基于双语语义映射的事件短语学习方法及装置与流程

本发明涉及自然语言处理技术领域,更具体地说,涉及一种基于双语语义映射的事件短语学习方法及装置。



背景技术:

事件识别(eventrecognition)是信息抽取(informationextraction,ie)领域中一个非常重要的研究方向,也是自然语言处理(naturallanguageprocessing,nlp)任务的一项基础工作,主要是为了通过识别文档中的事件,从而判断文档是否与某一特定类型的事件相关。

目前事件识别方法主要分为两类,一类是基于监督机器学习的方法,依赖于大量的人工标注数据,获取较好抽取效果的同时,耗时耗力,并且可移植性较差。另一类是基于半监督学习的自举(bootstrapping)方法,该方法能够解决监督机器学习的方法中存在的上述缺点,但是抽取的效果高度依赖于初始种子的质量和迭代过程中的条件约束,并且在自举迭代的后期,错误增长非常的快速;为了克服上述缺陷,取得较高的事件抽取准确率,对自举方法做了严格的句法结构限制,在此限制之下,会导致很多描述需要识别出的特定类型事件的事件短语无法学习到,进而导致事件识别性能较差。

综上所述,如何提供一种事件识别性能较好的事件短语学习技术方案,是目前本领域技术人员亟待解决的问题。



技术实现要素:

本发明的目的是提供一种基于双语语义映射的事件短语学习方法及装置,以提升事件识别性能。

为了实现上述目的,本发明提供如下技术方案:

一种基于双语语义映射的事件短语学习方法,包括:

获取学习到的动宾结构的事件短语,并提取出所述事件短语中包含的动词结构及名词结构;

利用预先获取的包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取具有相同词性的转述词;

确定所述质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词重新组成扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习。

优选的,利用所述扩展短语实现事件短语学习之前,还包括:

确定每个扩展短语在预先获取的语料集中出现的频率,并将该频率小于频率阈值的扩展短语删除。

优选的,将同一事件短语中包含的动词结构、名词结构及对应替换词组成扩展短语,包括:

将同一事件短语中包含的动词结构与该事件短语中包含的名词结构的各替换词分别组成扩展短语,并将同一事件短语中包含的名词结构与该事件短语中包含的动词结构的各替换词分别组成扩展短语。

优选的,利用所述扩展短语实现事件短语学习之前,还包括:

将与事件短语相同的扩展短语删除。

一种基于双语语义映射的事件短语学习装置,包括:

提取模块,用于:获取学习到的动宾结构的事件短语,并提取出所述事件短语中包含的动词结构及名词结构;

分析模块,用于:利用预先获取的包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取具有相同词性的转述词;

学习模块,用于:确定所述质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词重新组成扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习。

优选的,还包括:

约束模块,用于:利用所述扩展短语实现事件短语学习之前,确定每个扩展短语在预先获取的语料集中出现的频率,并将该频率小于频率阈值的扩展短语删除。

优选的,所述学习模块包括:

重组单元,用于:将同一事件短语中包含的动词结构与该事件短语中包含的名词结构的各替换词分别组成扩展短语,并将同一事件短语中包含的名词结构与该事件短语中包含的动词结构的各替换词分别组成扩展短语。

优选的,还包括:

去重模块,用于:利用所述扩展短语实现事件短语学习之前,将与事件短语相同的扩展短语删除。

本发明提供了一种基于双语语义映射的事件短语学习方法及装置,其中该方法包括:获取学习到的动宾结构的事件短语,并提取出所述事件短语中包含的动词结构及名词结构;利用预先获取的包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取具有相同词性的转述词;确定所述质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词重新组成扩展短语,并利用所述事件短语及对应扩展短语实现事件短语学习。本申请公开的技术方案中,获取自举方法中学习到的事件短语并由中提取到名词结构及动词结构,通过paraphrase双语语义映射确定出与每个名词结构及动词结构对应的替换词,从而通过动词结构、名词结构及对应的替换词泛化出更多的同类事件短语,即扩展短语,并将得到的扩展短语及事件短语用于事件短语学习中,通过这种方法不仅扩展事件短语原有的语义,还通过包含句法结构的短语一定程度上实现了事件短语结构上的扩展,从而有效解决了现有技术中由于严格的句法结构限制导致无法学习到很多特定事件的事件短语的问题,且实验表明,本申请公开的上述技术方案可以有效的学习到新的事件短语,即扩展短语,在事件识别性能上得到了显著的提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于双语语义映射的事件短语学习方法的流程图;

图2为本发明实施例提供的一种基于双语语义映射的事件短语学习方法中及物动词后接直接宾语的示意图;

图3为本发明实施例提供的本发明实施例提供的一种基于双语语义映射的事件短语学习方法中不及物动词后加介词后再接宾语的示意图;

图4为本发明实施例提供的一种基于双语语义映射的事件短语学习方法中动词结构与名词结构抽取示例图;

图5为本发明实施例提供的一种基于双语语义映射的事件短语学习方法中paraphrase抽取示例图;

图6为本发明实施例提供的一种基于双语语义映射的事件短语学习方法中paraphrase中n-gram特征抽取示例图;

图7为本发明实施例提供的一种基于双语语义映射的事件短语学习方法中语言学约束上的特征抽取示例图;

图8为本发明实施例提供的一种基于双语语义映射的事件短语学习装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,其示出了本发明实施例提供的一种基于双语语义映射的事件短语学习方法的流程图,可以包括:

s11:获取学习到的动宾结构的事件短语,并提取出事件短语中包含的动词结构及名词结构。

本申请公开的技术方案可以从huang和riloff(即文献ruihonghuangandellenriloff,2013.multi-facetedeventrecognitionwithbootstrappeddictionaries.inhlt-naacl,pages41–51;后文简称h&r)中的自举方法展开,通过双语语义映射来学习出更多事件短语,以克服自举方法中固有的局限性。其中对于识别任务的对象具体可以根据实际需要进行确定,如可以主要识别社会动乱(civilunrest)这一特定主题的事件。具体来说,本申请中获取到的事件短语具体可以是在h&r方法中第四轮迭代时学习到的,包括事件表示短语(eventphrases,ep)和事件目的短语(purposephrases,pp),这是因为在h&r方法的第四轮迭代中学习到的短语在事件识别效果上达到了最高,从而有利于提高本申请提供的技术方案的事件识别性能。

另外在h&r自举迭代学习方法中,为了减少噪声在自动迭代过程增长过快,对短语的格式进行了严格的限定,要求事件表示短语和事件目的短语必须为动宾结构,具体表现形式有两种,其一是及物动词后接直接宾语,如图2,其二是不及物动词后加介词后再接宾语,如图3。其中,宾语为一个名词短语的核心词(nounhead),因此可以根据短语的已知结构进行动词结构提取与名词结构提取,图4展示了几种短语类型的动词结构与名词结构的抽取方法:由于短语最后一个单词均为名词的核心词,因此,可以将除了最后一个单词以外的部分都看作动词结构的部分,例如p1中,动词结构为单个单词“stage”,p2中,动词结构为一个不及物动词连接介词的结构“callfor”,p3中,动词结构为一个动词不定式结构“tovoice”。

s12:利用预先获取的包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,并获取与每个动词结构及名词结构组成对应paraphrase对的具有相同词性的转述词。

其中数据集可以为预先获取的,该数据集中包含有数量非常多的paraphrase对,由此通过该数据集中可以确定与每个动词结构或名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,质量分数越高表明paraphrase对中包含的两个词结构越可以互换,以及互相作为彼此的转述词时转述效果越好,对应的动词结构或名词结构组成的paraphrase对中另一词结构即为该动词结构或名词结构的转述词(paraphrase)。也即本申请是利用paraphrase基于双语映射学习到的同义转述单词、短语和句法结构进行事件短语的扩展学习,具体来说paraphrase是通过单词、短语等结构在双语之间进行映射,继而学习到原有单词、短语的转述表达形式的方法。paraphrase的定义是指某一语言上两个不同的单词(word)、短语(phrase)或模式(pattern)在另一语言中有相同的翻译结果,则认为这两个单词、短语或模式是一对paraphrase。paraphrase可以看做是描述某一实体、特征、事件等的一种备选方案,可以是词汇级的、短语级的、句法级的,其中词汇级的paraphrase通常表示两个相似相近或是可以相互替换的单词,而短语级和句法级别的paraphrase除了是同义转述以外,还蕴含了许多句法结构信息。2013年paraphrasedatabase1.0(ppdb1.0)数据集被发布,该数据集包含了2.2亿paraphrase对,其中包括800万词汇级paraphrase对、7300万短语级paraphrase对和1.4亿的模式级paraphrase对。其后,在ppdb1.0数据集基础上通过改进原有的打分模型的排序算法、增加了蕴含关系识别模块以及单词的wordembedding相似度计算方法和完善了类别标注模型,于2015年发布了升级版的ppdb2.0数据集。本申请公开的上述技术方案的数据集可以为选取ppdb系列,首先可以组建如表1所示的字典数据结构:

表1paraphrase存放数据结构示例

其中,key为待扩展的原始结构(即由事件短语中提取出的动词结构或名词结构),value为一个列表,其每一项由三部分组成:原始结构的一个候选paraphrase、候选paraphrase词性标注(part-of-speechtags,postags)、与原始结构的相似度分值(即质量分数)。词性标注的作用是为了区别结构的词性,很多结构同时具有多种词性,当要抽取一个结构的paraphrase时,要根据原始结构的词性作为依据,也即需要选取与原始结构的词性相同的paraphrase;相似度分值的作用,是为了过滤掉一些质量不太高的paraphrase,对于相似度分值较低的paraphrase,其质量往往较差。

具体来说,针对动词结构组成的列表中的每一个动词结构抽取其paraphrase列表,特别的,抽取时,必须保证其词性标注(pos_tag)为动词结构,才进行抽取;抽取结果示例如表2:

表2动词结构paraphrase抽取示例

由于篇幅限制,这里仅展示每个动词结构相似度分值最高的3个paraphrase,在实际操作中,有些词结构可以有几十个paraphrase,而有些词,仅有一两个,同时也存在一些动词结构,没有学习得到paraphrase。

针对名词结构组成的列表中的每一个名词结构抽取其paraphrase列表,特别的,抽取时,必须保证其词性标注(pos_tag)为名词结构,才进行抽取;抽取结果示例如表3:

表3名词结构paraphrase抽取示例

表3为每个示例名词结构列出了相似度分值最高的3个paraphrase。

s13:确定质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词组成扩展短语,并利用事件短语及对应扩展短语实现事件短语学习。

其中分数阈值可以根据实际需要进行设定,质量分数大于分数阈值则说明对应的paraphrase对质量较好,其中包含的结构互相之间可以作为替换词,否则,则说明对应的paraphrase对质量相对较低,实验中不选取其中包含的结构作为替换词。具体来说,如表2所示,即使是相似度分值较高的词,抽取出的paraphrase也会混杂一些噪声,例如“oppose”的第二个paraphrase为“am”,这时候就需要用上其质量分数过滤掉这样的paraphrase。当然还可以根据实际需要进行其他设置,如对于任一名词结构或动词结构,选取其对应质量分数最大的预设数量个(如15个,如果对应的转述词不足预设数量个则全部保留)转述词作为替换词等,均在本发明的保护范围之内。获取替换词后,可以将动词结构、名词结构及对应替换词组成新的短语,即扩展短语,从而泛化出更多具有相似含义的同类事件短语,并将得到的这些扩展短语及事件短语同时用于h&r方法的事件识别任务,完成对应的测评。

本申请公开的技术方案中,获取自举方法中学习到的事件短语并由中提取到名词结构及动词结构,通过paraphrase双语语义映射确定出与每个名词结构及动词结构对应的替换词,从而通过动词结构、名词结构及对应的替换词泛化出更多的同类事件短语,即扩展短语,并将得到的扩展短语及事件短语用于事件短语学习中,通过这种方法不仅扩展事件短语原有的语义,还通过包含句法结构的短语一定程度上实现了事件短语结构上的扩展,从而有效解决了现有技术中由于严格的句法结构限制导致无法学习到很多特定事件的事件短语的问题,且实验表明,本申请公开的上述技术方案可以有效的学习到新的事件短语,即扩展短语,在事件识别性能上得到了显著的提升。

以下对如何获取包含有多个paraphrase对的数据集以及各paraphrase对的质量分数进行具体说明:

paraphrase对基于双语平行语料抽取得到,在ppdb中,采用了一个加权的同步上下文无关语法(synchronouscontext-freegrammar,scfg),同时采用非终结符标签语法。一条scfg规则的形式如下:

该式中,规则的左端c是一个非终结符,规则的右端的f和e是终结符与非终结符中间的两个字符串,~代表f与e之间一对一的对应关系,是一个特征函数向量,每一个规则r都配有一个其中结合了一个包含权重的对数线性模型,用来计算采用规则r的代价,计算公式如下:

为了抽取paraphrase的句法语法规则,首先通过句法机器翻译系统在双语平行文本上抽取英文(e)到另一语言(f)的翻译规则,若两条翻译规则中具有相同的c和f,如下式:

则可以根据此两条规则抽取出一条paraphrase的规则rp,如下:

该式中,两个英文字符串e1和e2在另一语言中具有相同的翻译f。整个抽取的思想可以用图5展示的例子来说明:

图5中,“held”(e1)与“staged”(e2)在中文端具有相同的翻译“举行”(f),则可以抽取出一对paraphrase,“held”和“staged”。

针对每一对e1与e2,可以计算其映射概率p(e2|e1),该条件概率等于e1与e2在另一语言上共享的全部的翻译f的集合的条件概率乘积之和,即下式所示:

由上述原理可知,在抽取paraphrase转译短语对时,运用了大量的语言学和句法结构信息作为特征,抽取出的短语级的、句法级的paraphrase对中包含了丰富的结构信息,因此,采用paraphrase扩展事件短语,不单单可以进行一个单词的同义替换,还可以进行短语中部分结构的同义转换,从而获得语义更加丰富的短语和结构更多样化的短语。

完成paraphrase抽取工作以后,就可以得到规模庞大的paraphrase对,然而,并非每一个转译词对的质量都很高,因此,还需要对抽取得到的paraphrase对进行打分。受到具有相似含义的短语在文本中往往具有相似的上下文这一灵感的启发,可以采用短语在单语语料中的分布相似度来对抽取出的paraphrase对进行重排序。

为了描述一个短语e在单语语料中上下文的分布特征,为e在语料中的每一次出现情况统计了一个基于上下文特征的集合,用上下文向量表示e的第i次出现,接着收集e的全部出现情况,合成一个总的分布特征向量可以计算一对paraphrase(e和e′)的质量通过计算这两个短语的分布特征向量的余弦相似度得到对应的质量分数:

大量的特征可以用作表示一个短语在文本中的分布特性,包括很多语言学特征,例如依存关系、句法结构组成、词性标注或词干信息等。实验中使用的特征具体表现形式例如:动词的主语是什么?有哪些形容词修饰该短语?或者仅采用简化的n-gram模型,这个单词的左边一个或几个单词是什么,右边一个或几个单词是什么?

在ppdb中,为n-gram语料中最高频的2亿多短语计算了一个基于n-gram的上下文特征,在语言学约束上,采用了蕴含丰富语言学特征的标注过的gigaword语料作为数据集,实验中具体抽取的特征如下:

采用短语左右各一个词作为特征作为基于n-gram模型的特征;

位置感知词汇(position-awarelexical)、基于词干(lemma-based)、词性标注、命名实体类一元和二元特征,创建一个三个词的窗口,包含当前词和当前词前一个词和后一个词;

短语的依存关系特征,对应的入度和出度的单词结点和词性标注等;

短语的句法结构组成特征,按照ccg风格标识短语成分标签。

下面分别用两张图展示paraphrase在语言学约束上抽取特征的方法。图6展示了n-gram特征抽取的一个例子:

如图6所示,模型记录了短语“thelong-term”在语料中出现在单词“revise”后面43次,出现在单词“plans”前面97次,保留这些计数信息作为短语“thelong-term”的分布特征的一部分。

图7展示了一个语言学约束上的特征抽取示例,其中包括位置感知词汇、n-gram的词性标注特征,依存关系连接信息,和短语的ccg风格成分标签(np/nn)。

本发明实施例提供的一种基于双语语义映射的事件短语学习方法,利用扩展短语实现事件短语学习之前,还可以包括:

确定每个扩展短语在预先获取的语料集中出现的频率,并将该频率小于频率阈值的扩展短语删除。

通过paraphrase替换生成的扩展短语,并非就一定是一个合理的真实存在的短语搭配,因此需要进行语言学约束,只保留常用的短语搭配,过滤掉不符合语言学习惯的短语搭配。具体可以选取gigaword第四版英文语料作为语料集,将在语料集中出现的频率小于频率阈值的扩展短语删除,从而进一步保证了事件识别准确性。其中频率阈值可以根据实际需要进行设定,对于任一扩展短语的出现频率的计算具体可以为该扩展短语在训练语料中出现的次数与训练语料中包含的全部短语出现的总次数之比。

本发明实施例提供的一种基于双语语义映射的事件短语学习方法,将同一事件短语中包含的动词结构、名词结构及对应替换词组成扩展短语,可以包括:

将同一事件短语中包含的动词结构与该事件短语中包含的名词结构的各替换词分别组成扩展短语,并将同一事件短语中包含的名词结构与该事件短语中包含的动词结构的各替换词分别组成扩展短语。

需要说明的是,实现扩展短语的重组的方法可以根据实际需要进行设置,此处以一个事件短语进行说明,如可以将该事件短语中包含的名词结构及该名词结构对应的替换词均称为名词,动词结构及该动词结构对应的替换词均称为动词,从而将每个名词与每个动词分别组成扩展短语;也可以将名词结构与动词结构的每个替换词分别组成扩展短语,将动词结构与名词结构的每个替换词分别组成扩展短语,当然还可以根据实际需要进行其他设定,均在本发明的保护范围之内。而通过实验证明,上述举例中的第二种,即将同一事件短语中包含的动词结构与该事件短语中包含的名词结构的各替换词分别组成扩展短语,并将同一事件短语中包含的名词结构与该事件短语中包含的动词结构的各替换词分别组成扩展短语,得到的扩展短语包含噪声较小,有利于提升事件识别准确率。

本发明实施例提供的一种基于双语语义映射的事件短语学习方法,利用扩展短语实现事件短语学习之前,还包括:

将与事件短语相同的扩展短语删除。

如果组成的扩展短语成为已经存在的事件短语,则这样的扩展短语并不是新的词语,需要将其删除,从而避免了短语重复性,保证了本发明提供的上述技术方案的实施效率。

另外采用以下实验证明本申请公开的上述技术方案的良好性能:

本实验在ppdb1.0和ppdb2.0两个版本的数据集上作对比实验,进行本申请公开的上述基于paraphrase的方法扩展学习事件短语的实验。采用gigaword英文第四版语料集作为语言学约束的语料集。实验中,针对paraphrase对质量分数阈值的选择,经调试集上评测设定为2.8。

实验结果测评采用h&r标注400篇文档作为测评数据集,其中300篇作为测试集,100篇作为调试集,整个测评系统使用准确率、召回率和f值作为评价指标。

首先,进行动词结构的替换扩展实验,采用提取到的动词结构列表作为要扩展的结构列表,分别在ppdb1.0和ppdb2.0数据集上进行其paraphrase结构的抽取,并针对扩展top1~10相近的结构获得的短语列表在测试集上进行事件识别任务的效果测评,其结果如表3所示:

表3动词结构paraphrase替换扩展事件短语实验结果

由表3可以看出,在ppdb1.0和ppdb2.0数据集上,f值最好结果分别为81.0%和81.3%,再分析扩展top1~10短语的准确率和召回率可以发现,ppdb1.0数据集上,f值的提升,依靠的是召回率的增长,同时损失了很大一部分准确率,因此随着扩展短语数量不断增多时取得最好的f值,而ppdb2.0数据集上,f值的增长,依靠的是较高的准确率,而到后面,随着短语数量的增加,准确率降低,召回率不再继续提升,导致f值下降。造成这个结果的原因,分析是因为ppdb1.0和ppdb2.0采用的对paraphrase打分策略和排序策略的调整,ppdb2.0可以提供更精准质量更好的paraphrase。因此可以得出结论,若想从提升短语数量,提升召回率的角度出发,应该采用ppdb1.0数据集进行短语的扩展,若想获得更高准确率的短语,则应该在ppdb2.0数据集上进行扩展。

进行名词结构的替换扩展实验,采用提取得到的名词结构列表作为要扩展的结构列表,分别在ppdb1.0和ppdb2.0数据集上进行其paraphrase结构的抽取,并针对扩展top1~10相近的结构获得的短语列表在测试集上进行事件识别任务的效果测评,其结果如表4所示:

表4名词结构paraphrase替换扩展事件短语实验结果

实验结果显示,采用ppdb2.0扩展名词结构的结果总体都高于采用ppdb1.0的扩展效果,f值的最好结果分别为80.6%和80.2%。在ppdb2.0上具有更高的准确率,但是召回率的表现相对较差(仅74.3%),而ppdb1.0扩展,依旧在召回率上比较突出(83.2%),然而随着短语数量的增加,其准确率的值降低的速度太快。因此,可以得到与扩展动词结构类似的结论。如果目标是获得更多的短语,则采用ppdb1.0进行扩展,若想获得更高准确率的短语,则应当在ppdb2.0上进行扩展学习。

通过用paraphrase替换原事件短语中的部分结构来扩展新的事件短语的方法,可以有效地获取很多新短语,通过对学习到的新短语进行分析发现,该方法提升事件识别召回率的同时,还通过结构的替换,短语的结构或形态发生了一些新的变化,有一些新的结构产生。通过分析归纳,我们将通过paraphrase扩展出的短语分为4种类型。

1.单个动词的同义转述

动词结构为单个动词的,通过该动词的paraphrase进行同义转述生成的短语。例如表5中“blocked”与“blockaded”的替换。

2.动词短语的同义转述

动词结构为多个单词的,通过动词组合的paraphrase进行同义转述生成的短语。例如表5中“participatingin”与“takepartin”的替换。

3.动词时态的变化

动词的原型、过去式、过去分词、现在进行时、动词不定式和被动式等形态的转变生成的短语。例如表5中“begun”与“arebeginning”的替换。

4.非动宾结构短语的产生

少量的具有新型结构的短语产生,比如名词结构的短语。例如表5中“topressforreforms”的转述短语“requirementsforreforms”就是一个名词结构的短语。

绝大多数通过paraphrase扩展的短语都属于以上四种类别,也有部分是它们的组合情况,更多的例子可以参考表5。

表5基于paraphrase学习的新事件短语示例

本申请针对自举算法中的句法结构限制,提出了一种采用paraphrase扩展学习事件短语的方法,paraphrase利用上双语之间的互补信息,有效地获得了很多英文结构的同义转述表示,且实验结果证明,通过paraphrase进行事件短语的扩展学习,可以有效地提升事件识别任务的效果,分别在ppdb1.0数据集上,可以显著提升事件识别的召回率(83.2%),在ppdb2.0数据集上,则可以学习出较高质量的事件短语,在损失少量准确率的同时,提升了召回率,最终将f值提升到了81.3%。除以之外,由于短语级和句法级的paraphrase中蕴含了很多结构信息,因此,本方法还有效地学习出了具有新结构的事件短语,例如少量名词结构的事件短语,一定程度上缓解了自举算法中对短语结构所作的严格的限制。

本发明实施例公开的技术方案中与现有技术中对应技术方案原理一致的部分并未详细说明,以免过多赘述。

本发明实施例还提供了一种基于双语语义映射的事件短语学习装置,如图8所示,可以包括:

提取模块11,用于:获取学习到的动宾结构的事件短语,并提取出事件短语中包含的动词结构及名词结构;

分析模块12,用于:利用预先获取的包含有多个paraphrase对的数据集确定出与每个动词结构及名词结构对应的paraphrase对集合及每个动词结构及名词结构对应的paraphrase对集合中每一个paraphrase对的质量分数,从每个动词结构及名词结构对应的paraphrase对集合中获取具有相同词性的转述词;

学习模块13,用于:确定质量分数大于分数阈值的paraphrase对对应转述词为对应动词结构或名词结构的替换词,将同一事件短语中包含的动词结构、名词结构及对应替换词组成扩展短语,并利用事件短语及对应扩展短语实现事件短语学习。

本发明实施例提供的一种基于双语语义映射的事件短语学习装置,还可以包括:

约束模块,用于:利用扩展短语实现事件短语学习之前,确定每个扩展短语在预先获取的语料集中出现的频率,并将该频率小于频率阈值的扩展短语删除。

本发明实施例提供的一种基于双语语义映射的事件短语学习装置,学习模块可以包括:

重组单元,用于:将同一事件短语中包含的动词结构与该事件短语中包含的名词结构的各替换词分别组成扩展短语,并将同一事件短语中包含的名词结构与该事件短语中包含的动词结构的各替换词分别组成扩展短语。

本发明实施例提供的一种基于双语语义映射的事件短语学习装置,还可以包括:

去重模块,用于:利用扩展短语实现事件短语学习之前,将与事件短语相同的扩展短语删除。

本发明实施例提供的一种基于双语语义映射的事件短语学习装置中相关部分的说明请参见本发明实施例提供的一种基于双语语义映射的事件短语学习方法中对应部分的详细说明,在此不再赘述。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1