一种中文事件的抽取方法及系统的制作方法

文档序号:6370948阅读:160来源:国知局
专利名称:一种中文事件的抽取方法及系统的制作方法
技术领域
本发明涉及自然语言处理领域,尤其涉及ー种中文事件的抽取方法及系统。
背景技术
事件抽取是信息抽取的主要形式之一,它是从大量的自然文本中抽取人们感兴趣的结构化事件信息,如什么人,什么地方,什么时间,做了什么事。目前,中文事件的抽取方法主要是通过对ー些英文事件抽取方法和技术的借鉴来 实现,希望通过移植这些方法和技木,达到中文事件抽取的目的,虽然这种方法取得了不错的成果,但中文本身的特点决定了完全照搬英文事件抽取方法不足以很好地解决中文事件的抽取。

发明内容
有鉴于此,本发明提供了 ー种中文事件抽取方法及系统,用以解决针对英文的事件抽取方法并不能很好地解决中文事件抽取的问题。其技术方案如下ー种中文事件抽取方法,包括A :将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合;B:依据中文标记语料库的训练集合和词的内部结构,将所述第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成ー个候选项,所有的候选项组成候选触发词集合;C :根据概率、词性和词内部结构将所述候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合;D :利用最大熵识别模型从所述过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合;E :依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述ー致性处理训练集合中,得到触发词第二集合;F :利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据所述触发词第三集合中的触发词标记所述第一句子集合中包含所述利用最大熵分类模型所识别类别的事件,得到事件集合。所述步骤A中具体为Al :将待抽取事件的本文划分为一个个的句子,得到初始句子集合;A2 :将所述初始句子集合中的每个句子进行分词处理,得到分词句子集合;A3:识别所述分词句子集合中的每个句子中的实体并对识别出的实体进行标记,得到第一句子集合;
A4 :对所述第一句子集合中的每个句子进行句法和依存关系分析,生成句法树和依存关系列表,得到第二句子集合。步骤B具体为BI :从中文标记语料库的训练集合中抽取所有的触发词,组成训练集触发词集合;B2:对于所述第二句子集合中的每个句子的每个词,如果该词在所述训练集触发词集合中出现,则将该词标记为候选触发词;B3:对于所述第二句子集合中的每个句子的每个词,如果该词的片段在所述训练集触发词集合中出现,则将该词标记为候选触发词;B4:对于所述第二句子集合中的每个句子的每个词,如果该词是所述训练集触发词集合中的词的片段,则将该词标记为候选触发词; 步骤B2、B3和B4的执行顺序没有明确限定。步骤C具体为Cl :将所述训练集合中的句子进行分词、分句和依存关系分析,得到训练集句法和依存标记集合;C2:对于所述候选触发词集合出现的每个词,如果该词在所述训练集合中出现,则根据所述训练集句法和依存标记集合中的分词标记,统计该词在所述训练集合中出现的频度并计算该词作为非触发词的概率,如果该词作为非触发词的概率大于第一设定阈值,且词频度大于第二设定阈值,则把该词从候选触发词集合中删除;C3 :根据训练集句法和依存标记集合中的词性标注信息,统计训练集触发词集合中所有触发词在训练集合中作为触发词时的词性集合,形成训练集触发词词性标注集合,将候选触发词集合中词性不属于训练集触发词词性标注集合中相同触发词的词性集合的候选触发词从候选触发词集合删除;C4:计算候选触发词集合中每个候选触发词及同结构词在训练集合中作为触发词的概率,将概率小于第三设定阈值的候选触发词从候选触发词集合中删除;步骤C2、C3和C4的执行顺序没有明确限定。步骤D具体为Dl :根据预先选择的触发词特征,从所述训练集句法和依存标记集合中抽取所述训练集触发词集合中每个触发词的特征,构成训练特征集合;D2:根据预先选择的触发词特征,从所述第二句子集合中抽取所述候选触发词集合中每个触发词的特征,构成测试特征集合;D3 :将所述训练特征集合和所述测试特征集合输入最大熵分类器,所述最大熵分类器计算所述测试特征集合中每个触发词的可信度,得到带有可信度的触发词第一集合。步骤E中依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词组成一致性处理训练集合和一致性处理测试集合具体为将所述触发词第一集合中可信度大于等于第四设定阈值的触发词组成一致性处理训练集合,将所述触发词第一集合中可信度小于所述第四设定阈值的触发词组成一致性处理测试集合。步骤E中,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合具体为El :对测试特征集合和训练特征集合中的每个候选触发词的特征中的类别进行修改,将该触发词的特征修改为该触发词的具体类别,分别得到多类分类测试特征集合和多类分类训练特征集合;E2:将所述多类分类训练特征集合和多类分类测试特征集合输入最大熵分类器,最大熵分类器对多类分类测试特征集合 中的每个候选触发词进行分类计算,得到每个候选触发词属于某个类别的最高可信度,形成带有可信度的触发词分类集合;E3 :对所述一致性处理测试集合中的每个触发词抽取特征,构成一致性处理第二测试集合;对所述一致性处理训练集合中的每个触发词抽取特征,构成一致性处理第二训练集合;E4:把所述一致性处理第二测试集合和一致性处理第二训练集合输入最大熵分类器,最大熵分类器对一致性处理第二测试集合中的每个候选触发词进行分类计算,得到每个候选触发词的可信度,将可信度大于等于第五设定阈值的候选触发词组成触发词第二集
ロ ο步骤F中利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合具体为Fl :将所述多类分类测试特征集合中不属于所述触发词第二集合的触发词删除,得到多类分类测试特征第二集合;F2:把所述多类分类训练特征集合中的每个触发词进行分类计算,得到每个候选触发词属于某个类别的最高可信度,将可信度大于等于第六设定阈值的候选触发词组成触发词第三集合。ー种中文事件的抽取系统,包括预处理模块,用于将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合;候选触发词选择模块,用于依据中文标记语料库的训练集合和词的内部结构,将所述第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成ー个候选项,所有的候选项组成候选触发词集合;候选触发词过滤模块,用于根据概率、词性和词内部结构将所述候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合;事件识别模块,用于利用最大熵识别模型从所述过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合;一致性处理模块,用于依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合;事件分类模块,用于利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据所述触发词第三集合中的触发词标记所述第一句子集合中包含所述利用最大熵分类模型所识别类别的事件,得到事件集合。
本发明提供ー种中文事件抽取方法和系统,该方法和系统通过分析中文词的结构,根据词内结构进行事件的触发词的识别,根据触发词的概率、词性和词内部结构等多方面入手判别识别出的触发词是否正确,利用中文词在语义篇章中的一致性,实现对触发词的分类。本发明提供的方法和系统从中文本身的特点出发,通过综合考虑和分析中文词的内部结构和词汇在篇章中语义的一致性,提高了中文事件抽取的性能。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图I为本发明实施例提供的中文事件抽取方法的流程图;
图2为本发明实施例提供的中文事件抽取系统的结构示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在英文中,一个单词或词组通常是由多个字母组合而成,而单词中的ー个字母并不能表义。与英文不同的是,构成中文词组的单字很多时候就有自己的语义,而且大多数情况下该词组的语义也可以从组成它的单字的语义中组合得到,这就是组合语义。基于中文的这ー特点,利用中文词的内部结构及其组合语义,根据训练语料库中的已知事件触发词可以推导出测试语料库中的未知事件触发词。例如Senl :4名学生被玻璃划伤。Sen2 :1名乘客被刺伤。其中,Senl中的“划伤”是ー个在训练语料库中出现的已知触发词,而“刺伤”是一个在训练语料库中未出现的触发词。“划伤”的语义是对两个单字词“划”和“伤”的组合,是由于被划了才受伤;与此类似,“刺伤”的语义是对两个单字词“刺”和“伤”的组合,是由于被刺了才受伤。这两个触发词具有相似的内部结构,可以根据词的内部结构和词在内部结构基础上的组合语义,从“划伤”推导出“刺伤”也是ー个受伤事件的触发词。同理,可以进ー步推导其它由于某种行为而受伤的词,如“灼伤”、“撞伤”和“压伤”等。此外,和英文相比,中文的句法结构不像英文那么严谨,因此,由于信息的缺失,使用通常的分类方法很难在句子层面识别中文事件。然而,与英文相比,中文的触发词在篇章层次上的一致性更加明显。例如,有一个篇章中的两个事件Sen3 :美国与北韩3号在吉隆坡结束飞弹会谈。Sen4 :会谈的气氛严肃。其中,Sen3有足够的信息(包括參与者、日期和地点)来表明它是ー个会谈事件,而Sen4明显缺少有效的信息,但是,很容易推断出Sen4是ー个会谈事件,因为Sen3是一个会谈事件,并且Sen3和Sen4触发词一致。因此,利用中文词在篇章中的语义一致性可以推导缺乏有效信息的事件。基于中文词的内部结构及其组合语义、中文词在篇章层次上的一致性,本发明实施例提供了ー种中文事件的抽取方法,图I为该方法的流程图,本发明实施例提供的方法包括Sll :将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,
得到第二句子集合。在本实施例中,步骤Sll具体为
Slll :将待抽取事件的本文划分为一个个的句子,得到初始句子集合。在本实施例中,在待抽取事件的文本中查找句子结束标记,根据句子结束标记将待抽取事件的文本划分为一个个的句子,其中,句子结束标记为句号、感叹号、问号、分号和回车符。S112 :对初始句子集合中的每个句子进行分词,得到分词句子集合。下面是ー个对句子进行分词例子分词前的句子塞德杀死一名以色列陆军中士,打伤两名士兵。分词后的句子塞德杀死一名以色列陆军中士,打伤两名士兵。其中,分词后的句子是用空格作为分隔符来表示分词后的句子。S113:识别分词句子集合中的每个句子中的实体并对识别出的实体进行标记,得到第一句子集合。下面是ー个对句子进行实体识别并对识别出的实体进行标记的例子标记出实体的句子塞德\PER杀死一名以色列\GPE陆军\0RG中士 \PER,打伤两名士兵\PER。其中,PER/0RG/GPE是实体的类别标记,分别表示人物、组织和地理位置。S114:对第一句子集合中的每个句子进行句法和依存关系分析,生成句法树和依存关系列表,得到第二句子集合。下面是ー个对句子句法分析的例子句法分析后的句子((IP(NP (NR 塞德))(VP (VP (VV 杀死)(NP (QP (CD 一 ) (CLP (Μ名)))(NP (NR 以色列)(NN 陆军))(NP (NN 中士))))(PU,) (VP (VV 打伤)(NP (NP (NR 两名))(ΝΡ(ΝΝ 士兵)))))(PU。)))其中,IP、NP等标记是句法分析工具产生的标准标记信息。标记IP、VP、NP、PU、W、NN、QP、⑶、CLP、M、NR分别标识子句、动词性短语、名词性短语、标点符号、一般动词、名词、数量词短语、数词、类别短语、量词、专用名词。下面是ー个对句子的依存关系进行分析的例子依存关系分析后的句子nsubj (杀死-2,塞德-I) conj (打伤_9,杀死-2)nummod (名-4,一-3)nn (中士-7,以色列-5) nn (中士-7,陆军-6) dob j (杀死-2,中士-7)con j (杀死-2,打伤-9) nummod (士兵-11,两名-10) dobj (打伤-9,士兵-11)其中,nsubj> conj> nummod> nn> dobj是依存关系的标记,分别表示形式主语、连接
关系、数量关系、名词关系、直接宾语。
在本实施例中,利用分词工具对句子进行分词,利用实体识别工具识别分词后句子中的实体,利用句法和依存关系分析工具对第一句子集合中的句子进行句法和依存关系分析,本实施例中的分词工具、实体识别工具、句法和依存关系分析工具等均为自然语言处理技术中的通用工具,如句法分析工具为Berkeley Parser,依存关系分析工具为StanfordParser。此外,本实施例中的实体指的是ー个语义类别中的对象或对象的结合,如人名、交通工具和地名等。S12:依据训练集触发词集合和词的内部结构,将第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成ー个候选项,所有的候选项组成候选触发词集合。其中,依据训练集触发词集合和词的内部结构,将第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,具体为S121 :从中文标记语料库的训练集合中抽取所有的触发词,组成训练集触发词集 ム
ロ οS122:对于第二句子集合中的每个句子的每个词,如果该词在训练集触发词集合中出现,则将该词标记为候选触发词。S123 :对于第二句子集合中的每个句子的每个词,如果该词的片段(如词组“打电话”可分为“打”、“电”、“话”、“打电”和“电话”五个片段)在训练集触发词集合中出现,则将该词标记为候选触发词。S124:对于第二句子集合中的每个句子的每个词,如果该词是训练集触发词集合中的词的片段,则将该词标记为候选触发词。步骤S122、S123和S124的执行顺序没有明确限定。在本实施例中,候选触发词集合中每ー项的结构为く项>=く触发词X触发词所在句子 >,每个触发词的结构为く候选触发词 >〈分割符 >〈抽取该触发词的句子>。本实施例中的中文标记语料库为ACE2005中文标注语料库,ACE2005语料库是信息抽取常用的训练语料库,包括633个文档,标记的事件为8个大类和33个小类。下面是ー个根据触发词标记“〈anchor〉”从ACE2005中文标注语料库的训练集合中抽取所有触发
词的例子くevent—mention ID="XIN20001003.0200.0015-EVl-2"> <extent> くcharseq >中央领导同志集体会见在奥运会上取得优异成绩的运
动贝 </charseq>
</extent> <anchor> <charseq >会见</charsea> </anchor> 〈/event mention> S13:根据概率、词性和词内部结构将候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合。在本实施例中,步骤S13具体为S131 :将训练集合中的句子进行分词、分句和依存关系分析,得到训练集句法和依存标记集合。S132:对于候选触发词集合中出现的每个词,如果该词在训练集合中出现,则根据训练集句法和依存标记集合中的分词标记,统计该词在训练集合中出现的频度并计算该词作为非触发词的概率,如果该词作为非触发词的概率大于第一设定阈值,且词频度大于第ニ设定阈值,则把该词从候选触发词集合中删除。在本实施例中,每个词作为非触发词的概率依据下式进行计算
权利要求
1.ー种中文事件抽取方法,其特征在于,包括 A :将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第ニ句子集合; B:根据中文标记语料库的训练集合以及词的内部结构,将所述第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成ー个候选项,所有的候选项组成候选触发词集合; C :根据概率、词性和词内部结构将所述候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合; D :利用最大熵识别模型从所述过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合; E :依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合; F :利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据所述触发词第三集合中的触发词标记所述第一句子集合中包含利用所述最大熵分类模型所识别类别的事件,得到事件集合。
2.根据权利要求I所述的方法,其特征在于,步骤A中具体为 Al :将待抽取事件的本文划分为一个个的句子,得到初始句子集合; A2 :将所述初始句子集合中的每个句子进行分词处理,得到分词句子集合; A3 :识别所述分词句子集合中的每个句子中的实体并对识别出的实体进行标记,得到第一句子集合; A4 :对所述第一句子集合中的每个句子进行句法和依存关系分析,生成句法树和依存关系列表,得到第二句子集合。
3.根据权利要求I或2所述的方法,其特征在于,步骤B具体为 BI :从中文标记语料库的训练集合中抽取所有的触发词,组成训练集触发词集合; B2:对于所述第二句子集合中的每个句子的每个词,如果该词在所述训练集触发词集合中出现,则将该词标记为候选触发词; B3 :对于所述第二句子集合中的每个句子的每个词,如果该词的片段在所述训练集触发词集合中出现,则将该词标记为候选触发词; B4:对于所述第二句子集合中的每个句子的每个词,如果该词是所述训练集触发词集合中的词的片段,则将该词标记为候选触发词; 步骤B2、B3和B4的执行顺序没有明确限定。
4.根据权利要求3所述的方法,其特征在于,步骤C具体为 Cl :将所述训练集合中的句子进行分词、分句和依存关系分析,得到训练集句法和依存标记集合; C2 :对于所述候选触发词集合出现的每个词,如果该词在所述训练集合中出现,则根据所述训练集句法和依存标记集合中的分词标记,统计该词在所述训练集合中出现的频度并计算该词作为非触发词的概率,如果该词作为非触发词的概率大于第一设定阈值,且词频度大于第二设定阈值,则把该词从候选触发词集合中删除; C3 :根据训练集句法和依存标记集合中的词性标注信息,统计训练集触发词集合中所有触发词在训练集合中作为触发词时的词性集合,形成训练集触发词词性标注集合,将候选触发词集合中词性不属于所述训练集触发词词性标注集合中相同触发词的词性集合的候选触发词从候选触发词集合删除; C4:计算候选触发词集合中每个候选触发词及同结构词在训练集合中作为触发词的概率,将概率小于第三设定阈值的候选触发词从候选触发词集合中删除; 步骤C2、C3和C4的执行顺序没有明确限定。
5.根据权利要求4所述的方法,其特征在于,步骤D具体为 Dl :根据预先选择的触发词特征,从所述训练集句法和依存标记集合中抽取所述训练集触发词集合中每个触发词的特征,构成训练特征集合; D2 :根据预先选择的触发词特征,从所述第二句子集合中抽取所述候选触发词集合中每个触发词的特征,构成测试特征集合; D3 :将所述训练特征集合和所述测试特征集合输入最大熵分类器,所述最大熵分类器计算所述测试特征集合中每个触发词的可信度,得到带有可信度的触发词第一集合。
6.根据权利要求5所述的方法,其特征在于,步骤E中依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词组成一致性处理训练集合和一致性处理测试集合具体为 将所述触发词第一集合中可信度大于等于第四设定阈值的触发词组成一致性处理训练集合,将所述触发词第一集合中可信度小于所述第四设定阈值的触发词组成一致性处理测试集合。
7.根据权利要求6所述的方法,其特征在于,步骤E中,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合具体为 El :对测试特征集合和训练特征集合中的每个候选触发词的特征中的类别进行修改,将该触发词的特征修改为该触发词的具体类别,分别得到多类分类测试特征集合和多类分类训练特征集合; E2 :将所述多类分类训练特征集合和多类分类测试特征集合输入最大熵分类器,最大熵分类器对所述多类分类测试特征集合中的每个候选触发词进行分类计算,得到每个候选触发词属于某个类别的最高可信度,得到带有可信度的触发词分类集合; E3 :对所述一致性处理测试集合中的每个触发词抽取特征,构成一致性处理第二测试集合;对所述一致性处理训练集合中的每个触发词抽取特征,构成一致性处理第二训练集合; E4:把所述一致性处理第二测试集合和一致性处理第二训练集合输入最大熵分类器,所述最大熵分类器对一致性处理第二测试集合中的每个候选触发词进行分类计算,得到每个候选触发词的可信度,将可信度大于等于第五设定阈值的候选触发词组成触发词第二集合。
8.根据权利要求7所述的方法,其特征在干,步骤F中利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合具体为Fl :将所述多类分类测试特征集合中不属于所述触发词第二集合的触发词删除,得到多类分类测试特征第二集合; F2 :对所述多类分类训练特征集合中的每个触发词进行分类计算,得到每个候选触发词属于某个类别的最高可信度,将可信度大于等于第六设定阈值的候选触发词组成触发词第三集合。
9.ー种中文事件的抽取系统,其特征在于,包括 预处理模块,用于将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合; 候选触发词选择模块,用于依据中文标记语料库的训练集合和词的内部结构,将所述第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成ー个候选项,所有的候选项组成候选触发词集合; 候选触发词过滤模块,用于根据概率、词性和词内部结构将所述候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合; 事件识别模块,用于利用最大熵识别模型从所述过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合; 一致性处理模块,用于依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合; 事件分类模块,用于利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据所述触发词第三集合中的触发词标记所述第一句子集合中包含所述利用最大熵分类模型所识别类别的事件,得到事件集合。
全文摘要
本发明提供一种中文事件抽取方法和系统,该方法包括将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析;根据词的内部结构,将符合抽取条件的词标记为候选触发词;根据概率、词性和词内部结构将符合过滤条件的触发词过滤掉;利用最大熵识别模型抽取触发词,并获取每个触发词的可信度;依据每个触发词的可信度,将触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词;利用最大熵分类模型对触发词进行分类,得到事件集合。本发明提供的方法和系统从中文本身的特点出发,通过综合考虑和分析中文词的内部结构和中文词在篇章中语义的一致性,提高了中文事件抽取的性能。
文档编号G06F17/27GK102693219SQ20121018265
公开日2012年9月26日 申请日期2012年6月5日 优先权日2012年6月5日
发明者周国栋, 朱巧明, 朱晓旭, 李培峰 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1