一种中文事件事实性识别方法和系统与流程

文档序号:12666351阅读:来源:国知局

技术特征:

1.一种中文事件事实性识别方法,其特征在于:用于识别中文事件的事实性,包括步骤:

S10、从预先标注了各类事实性信息的标注语料库中抽取中文事件的事实性相关信息及其真实事实性构造基本的标注语料集合;从预先标注了各类事实性信息的测试语料库中抽取中文事件的事实性相关信息构造基本的测试语料集合;

S20、在标注语料集合上,针对每个中文事件的事实性相关信息,使用规则的方法,进行特征的处理、转化和融合,得到一系列事实性相关特征,再加入事件的真实事实性,构造出标注语料特征集合;

在测试语料集合上,针对每个中文事件的事实性相关信息,使用相同规则的方法,进行特征的处理、转化和融合,得到一系列事实性相关特征,构造出测试语料特征集合;

S30、根据标注语料特征集合中各个事件的特征,训练一个最大熵事件事实性识别模型,再利用最大熵事件事实性识别模型识别测试语料特征集合中事件的事实性。

2.根据权利要求1所述的中文事件事实性识别方法,其特征在于:所述步骤S10的具体过程如下:

S101、从标注语料库中将每个事件所属事件句的“事件句情态”和“事件句时态”信息抽取出来,同时,从当前事件信息中抽取事件的“事件源”、“事件选择谓词”、“程度词”和“否定词”,最后,抽取该事件的真实“事件事实性”,构造出标注语料集合;

从测试语料库中将每个事件所属事件句的“事件句情态”和“事件句时态”抽取出来,同时,从当前事件信息中抽取出事件的“事件源”、“事件选择谓词”、“程度词”和“否定词”,构造出测试语料集合;

其中,事件句情态是event结点的Modality属性值,事件句时态是event结点的Tense属性值,事件源是source结点值,事件选择谓词是event_selecting_predicates结点值,并包括LEVEL这个级别属性,程度词为degree的结点值,包括LEVEL级别属性值和TENSE时态属性值,否定词为negative_word的结点值。

3.根据权利要求1所述的中文事件事实性识别方法,其特征在于:所述步骤S20的具体过程如下:

S201、事件句特征处理,选取每个事件所属的事件句情态和时态信息作为特征,并以此构造语料特征集合;

在标注语料集合中,选取每个事件所属的事件句的情态和时态信息作为事件句特征,并构造标注语料特征集合;

在测试语料集合中,选取每个事件所属的事件句的情态和时态信息作为事件句特征,并构造测试语料特征集合;

S202、词汇级特征处理,对每个事件的事件源、否定词和程度词进行词性标注,进而选取此三者词性作为词汇级特征,并加入到语料特征集合中;

在标注语料集合中,使用词性标注工具对事件源、否定词和程度词三类词汇信息进行词性标注,选取它们的词性作为特征,若当前事件不存在以上某一词汇,则默认其对应词性特征为“无”,并将此三类信息加入到语料特征集合中;

在测试语料集合中,使用词性标注工具对事件源、否定词和程度词三类词汇信息进行词性标注,选取它们的词性作为特征,若当前事件不存在以上某一词汇,则默认其对应词性特征为“无”,并将此三类信息加入到语料特征集合中;

S203、谓词级别特征处理,对每个事件的事件选择谓词的级别属性进行规则转化,进而获取谓词级别特征,并加入到语料特征集合中;

在标注语料集合中,对每个事件按规则转化其事件选择谓词的级别属性,进而获取谓词级别特征;

在测试语料集合中,对每个事件按规则转化其事件选择谓词的级别属性,进而获取谓词级别特征;

S204、程度词属性特征处理,对每个事件的程度词时态和级别进行特征转化,获取程度词的时态特征和级别特征,并加入到语料特征集合中;

在标注语料集合中,对每个事件的程度词时态和级别按规则进行特征转化,获取程度词的时态特征和级别特征,即程度词属性特征,并加入到语料特征集合中;

在测试语料集合中,对每个事件的程度词时态和级别按规则进行特征转化,获取程度词的时态特征和级别特征,即程度词属性特征,并加入到语料特征集合中;

S205、级别特征处理,对每个事件的事件选择谓词的级别和程度词的级别进行规则转化,进而获取级别特征,并加入到语料特征集合中;

在标注语料集合中,对每个事件的事件选择谓词的级别和程度词的级别按规则进行特征转化,获取级别特征,并加入到语料特征集合中;

在测试语料集合中,对每个事件的事件选择谓词的级别和程度词的级别按规则进行特征转化,获取级别特征,并加入到语料特征集合中;

S206、极性特征处理,依据每个事件的否定词的个数对其进行特征处理,得到极性特征,并加入到语料特征集合中;

在标注语料集合中,对每个事件进行极性特征处理,若否定词个数为偶数,则极性特征为“正”,若为奇数,则极性特征为“负”,继而获取极性特征,并加入到语料特征集合中;

在测试语料集合中,对每个事件进行极性特征处理,若否定词个数为偶数,则极性特征为“正”,若为奇数,则极性特征为“负”,继而获取极性特征,并加入到语料特征集合中;

S207、时态特征处理,依据每个事件的所属事件句时态和其包含时态的程度词,进行规则转化,获取时态特征,并加入到语料特征集合中;

在标注语料集合中,对每个事件的所属事件句时态和包含时态的程度词按照规则进行转化,进而获取时态特征,并加入到语料特征集合中;

在测试语料集合中,对每个事件的所属事件句时态和包含时态的程度词按照规则进行转化,进而获取时态特征,并加入到语料特征集合中;

S208、事实性特征处理,在经过步骤S201~S207后,将获取到的事件级别特征、极性特征和时态特征按照规则进行特征转化,构造出事件事实性特征,并加入到语料特征集合中;

在标注语料集合中,对获取到的事件级别特征、极性特征和时态特征的按照规则进行转化,进而构造出事实性特征,并加入到语料特征集合中;

在测试语料集合中,对获取到的事件级别特征、极性特征和时态特征的按照规则进行转化,进而构造出事实性特征,并加入到语料特征集合中。

4.根据权利要求1所述的中文事件事实性识别方法,其特征在于:所述步骤S30的具体过程如下:

S301、将标注语料特征集合中的事件的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件事实性识别模型;所述的最大熵事件事实性识别模型包括标注语料特征集合、训练得到的参数和最大熵分类工具;

S302、把测试语料特征集合中的事件特征作为输入,调用最大熵事件事实性识别模型识别每个事件的事实性。

5.一种中文事件事实性识别系统,其特征在于,包括:

事件预处理模块,用于从预先标注了各类事实性信息的标注语料库中抽取中文事件的事实性相关信息及其真实事实性构造基本的标注语料集合;从预先标注了各类事实性信息的测试语料库中抽取中文事件的事实性相关信息构造基本的测试语料集合;

事件特征处理模块,用于在标注语料集合的上,针对每个中文事件的事实性相关信息,使用规则的方法,进行特征的处理、转化和融合,得到一系列事实性相关特征,再加入事件的真实事实性,继而构造出标注语料特征集合;

在测试语料集合的上,针对每个中文事件的事实性相关信息,使用相同规则的方法,进行特征的处理、转化和融合,得到一系列事实性相关特征,继而构造出测试语料特征集合;

事件事实性推理模块,用于根据标注语料特征集合中各个事件的特征,训练一个最大熵事件事实性识别模型,再利用最大熵事件事实性识别模型识别测试语料特征集合中事件的事实性。

6.根据权利要求5所述的中文事件事实性识别系统,其特征在于:所述事件预处理模块的具体包括:

事件事实性信息抽取单元,用于从标注语料库中将每个事件所属事件句的“事件句情态”和“事件句时态”信息抽取出来,同时,从当前事件信息中抽取事件的“事件源”、“事件选择谓词”、“程度词”和“否定词”,最后,抽取该事件的真实“事件事实性”,并构造出标注语料集合;

从测试语料库中将每个事件所属事件句的“事件句情态”和“事件句时态”抽取出来,同时,从当前事件信息中抽取出事件的“事件源”、“事件选择谓词”、“程度词”和“否定词”,构造出测试语料集合;

其中,事件句情态是event结点的Modality属性值,事件句时态是event结点的Tense属性值,事件源是source结点值,事件选择谓词是event_selecting_predicates结点值,并包括LEVEL这个级别属性,程度词为degree的结点值,包括LEVEL级别属性值和TENSE时态属性值,否定词为negative_word的结点值。

7.根据权利要求5所述的中文事件事实性识别系统,其特征在于:所述事件特征处理模块具体包括:

事件句特征处理单元,用于事件句特征的处理,选取每个事件所属的事件句情态和时态信息作为特征,并以此构造语料特征集合;

在标注语料集合中,选取每个事件所属的事件句的情态和时态信息作为事件句特征,并构造标注语料特征集合;

在测试语料集合中,选取每个事件所属的事件句的情态和时态信息作为事件句特征,并构造测试语料特征集合;

词汇级特征处理单元,用于词汇级特征的处理,对每个事件的事件源、否定词和程度词进行词性标注,进而选取此三者词性作为词汇级特征,并加入到语料特征集合中;

在标注语料集合中,使用词性标注工具对事件源、否定词和程度词三类词汇信息进行词性标注,选取它们的词性作为特征,若当前事件不存在以上某一词汇,则默认其对应词性特征为“无”,并将此三类信息加入到语料特征集合中;

在测试语料集合中,使用词性标注工具对事件源、否定词和程度词三类词汇信息进行词性标注,选取它们的词性作为特征,若当前事件不存在以上某一词汇,则默认其对应词性特征为“无”,并将此三类信息加入到语料特征集合中;

谓词级别特征处理单元,用于谓词级别特征的处理,对每个事件的事件选择谓词的级别属性进行规则转化,进而获取谓词级别特征,并加入到语料特征集合中;

在标注语料集合中,对每个事件按规则转化其事件选择谓词的级别属性,进而获取谓词级别特征,并加入到语料特征集合中;

在测试语料集合中,对每个事件按规则转化其事件选择谓词的级别属性,进而获取谓词级别特征,并加入到语料特征集合中;

程度词属性特征处理单元,用于程度词属性特征的处理,对每个事件的程度词时态和级别进行特征转化,获取程度词的时态特征和级别特征,并加入到语料特征集合中;

在标注语料集合中,对每个事件的程度词时态和级别按规则进行特征转化,获取程度词的时态特征和级别特征,即程度词属性特征,并加入到语料特征集合中;

在测试语料集合中,对每个事件的程度词时态和级别按规则进行特征转化,获取程度词的时态特征和级别特征,即程度词属性特征,并加入到语料特征集合中;

级别特征处理单元,用于级别特征的处理,对每个事件的事件选择谓词的级别和程度词的级别进行规则转化,进而获取级别特征,并加入到语料特征集合中;

在标注语料集合中,对每个事件的事件选择谓词的级别和程度词的级别按规则进行特征转化,获取级别特征,并加入到语料特征集合中;

在测试语料集合中,对每个事件的事件选择谓词的级别和程度词的级别按规则进行特征转化,获取级别特征,并加入到语料特征集合中;

极性特征处理单元,用于极性特征的处理,依据每个事件的否定词的个数对其进行特征处理,得到极性特征,并加入到语料特征集合中;

在标注语料集合中,对每个事件进行极性特征处理,若否定词个数为偶数,则极性特征为“正”,若为奇数,则极性特征为“负”,继而获取极性特征,并加入到语料特征集合中;

在测试语料集合中,对每个事件进行极性特征处理,若否定词个数为偶数,则极性特征为“正”,若为奇数,则极性特征为“负”,继而获取极性特征,并加入到语料特征集合中;

时态特征处理单元,用于时态特征的处理,依据每个事件的所属事件句时态和其包含时态的程度词,进行规则转化,获取时态特征,并加入到语料特征集合中;

在标注语料集合中,对每个事件的所属事件句时态和包含时态的程度词按照规则进行转化,进而获取时态特征,并加入到语料特征集合中;

在测试语料集合中,对每个事件的所属事件句时态和包含时态的程度词按照规则进行转化,进而获取时态特征,并加入到语料特征集合中;

事实性特征处理单元,用于事实性特征处理,将获取到的事件级别特征、极性特征和时态特征按照规则进行特征转化,构造出事件事实性特征,并加入到语料特征集合中;

在标注语料集合中,对获取到的事件级别特征、极性特征和时态特征的按照规则进行转化,进而构造出事实性特征,并加入到语料特征集合中;

在测试语料集合中,对获取到的事件级别特征、极性特征和时态特征的按照规则进行转化,进而构造出事实性特征,并加入到语料特征集合中。

8.根据权利要求5所述的中文事件事实性识别系统,其特征在于:所述事件事实性推理模块的具体包括:

事件事实性模型训练单元,用于将标注语料特征集合中的事件的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件事实性识别模型;所述最大熵事件事实性识别模型包括标注语料特征集合、训练得到的参数和最大熵分类工具;

事件事实性识别单元,用于把测试语料特征集合中的事件特征作为输入,调用最大熵事件事实性识别模型识别每个事件的事实性。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1