一种中文事件信息挖掘方法和系统的制作方法

文档序号:6523036阅读:154来源:国知局
一种中文事件信息挖掘方法和系统的制作方法
【专利摘要】本发明公开一种中文事件信息挖掘方法和系统,该方法基于挖掘需求,定义事件样本模型,实例化事件样本模型,得到种子事件,该种子事件作为从原始文本中挖掘事件的依据。对原始文本进行预处理,得到候选模板集合;并对种子事件进行信息标注,基于标注信息对种子事件进行处理,得到种子模板集合。之后采用迭代方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对候选模板集合进行处理,得到挖掘事件锚集合,并依据该集合中每个挖掘事件锚和种子事件集合中任一种子事件锚的词汇语义相似度,获取挖掘事件锚对应的事件类型。可见本发明只需标注少量样本,即只需标注种子事件即可实现从原始文本中挖掘中文事件信息的目的,降低了挖掘成本。
【专利说明】一种中文事件信息挖掘方法和系统
【技术领域】
[0001]本发明属于中文信息挖掘【技术领域】,尤其涉及一种中文事件信息挖掘方法和系统。
【背景技术】
[0002]事件挖掘是从海量互联网文本信息中挖掘出用户感兴趣的事实信息,从而为后续的分析和决策提供依据。例如从互联网挖掘与恐怖袭击有关的事件(包括攻击事件、死亡事件等),可以用于分析各个国家、地区的安全状况,因此,对事件挖掘方法进行研究,特别是对中文事件挖掘方法进行研究有着重要的应用价值。
[0003]中文事件挖掘的目的是从原始文本中挖掘出特定事件的锚,并判断挖掘出的锚对应的事件类型。目前,中文事件挖掘方法主要有手工规则方法和有监督方法两种,其中,手工规则方法具体为:人工通过阅读大量的文档信息总结出信息挖掘的规则,然后利用总结出的规则从待挖掘的原始文本(或自然文本)中挖掘信息;有监督方法具体为:用户标注出大量的训练样本,然后在标注的训练样本的基础上训练一个分类器,用于从待挖掘的原始文本中抽取信息。
[0004]以上两种挖掘方法中,需要阅读大量文档信息编制挖掘规则或标注出大量训练样本,而挖掘规则的编制和大量训练样本的标注,均需要耗费大量时间和精力,从而导致事件挖掘成本较高,费时费力。

【发明内容】

[0005]有鉴于此,本发明的目的在于提供一种中文事件信息挖掘方法和系统,以克服上述问题,实现在少量标注的情况下从原始文本中挖掘中文事件信息的目的,降低挖掘成本。
[0006]为此,本发明提供如下技术方案:
[0007]一种中文事件信息挖掘方法,包括:
[0008]对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合,所述候选模板集合包括至少一个候选模板,所述候选模板包括由所述句子的候选事件锚、所述句子的实体、所述候选事件锚到所述实体的句法路径和所述候选事件锚到所述实体的依存路径构成的四元组;
[0009]定义需要从所述原始文本中挖掘事件的X种事件样本模型,所述定义的事件样本模型包括事件类型、事件角色和事件角色对应实体的实体类型,不同事件样本模型的事件类型不同,所述X为不小于I的自然数;
[0010]对每种事件类型的事件样本模型依次进行实例化处理和信息标注处理,得到所述事件样本模型对应的携带有标注信息的种子事件,各事件样本模型对应的种子事件构成种子事件集合,所述标注信息包括种子事件锚、各个种子事件角色对应的实体及其实体类型;
[0011 ] 依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合,所述种子模板集合包括至少一个种子模板,所述种子模板包括由所述种子事件的种子事件锚、所述种子事件的实体、所述种子事件锚到所述实体的句法路径和所述种子事件锚到所述实体的依存路径构成的四元组;
[0012]基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合,所述挖掘事件锚集合包括至少一个挖掘事件锚;
[0013]依据所述挖掘事件锚集合中每个挖掘事件锚和所述种子事件集合中的任一种子事件锚的词汇语义相似度,获取所述挖掘事件锚所对应的事件类型。
[0014]优选的,所述对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合具体包括:
[0015]对原始文本每个文档中的句子依次进行词语切分,实体识别、句法分析和依存关系分析,得到原始文本的实体标注句子集合、句法树集合和依存关系集合;
[0016]根据词性从所述句法树集合中选择候选事件锚,并依据预先制定的第一过滤规则对所述候选事件锚进行过滤,得到过滤后的候选事件锚;
[0017]对于过滤后的任意一 个候选事件锚,获取所述候选事件锚所在句子的所有实体,所述实体作为候选实体,并依据预先制定的第二过滤规则对所述候选实体进行过滤,得到过滤后的候选实体。
[0018]分别依据所述句法树集合和依存关系集合,获取所述过滤后的候选事件锚中每一候选事件锚与其所在句子中任一过滤后的候选实体间的句法路径和依存路径,将所述候选事件锚、所述实体、所述句法路径以及所述依存路径组合为四元组,并将所述四元组标记为候选模板,所有的候选模板构成候选模板集合。
[0019]优选的,所述依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合具体包括:
[0020]对所述种子事件集合中的每个种子事件进行词语切分、实体识别、句法分析和依存关系分析,得到种子事件句法集合和种子事件依存关系集合;
[0021]分别依据所述种子事件句法集合和种子事件依存关系集合,获取所述种子事件的种子事件锚与其所在句子中任一实体间的句法路径和依存路径,将所述种子事件锚、所述实体、所述句法路径以及所述依存路径组合为种子事件的四元组,将所述种子事件的四元组标记为种子模板,种子事件集合对应的所有的种子模板构成种子模板集合。
[0022]优选的,所述基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合具体包括:
[0023]从所述候选模板集合中获取与所述种子模板集合中任意一个种子模板为相似模板的各候选模板,所述各候选模板构成初始选中模板集合,获取所述初始选中模板集合中每一候选模板的候选事件锚,将获取的各候选事件锚加入预先建立的挖掘事件锚集合;并从所述候选模板集合中删除初始选中模板集合中的所有候选模板;
[0024]将所述原始文本中任意一个文档Doci的文档相关度DocRel (i)赋值为所述文档Doci包含所述挖掘事件锚集合中事件锚的个数,并设置迭代次数η为0,其中i为自然数,I ^ i ^ M, M为所述原始文本中包含的文档数,M为不小于I的自然数;[0025]判断η的值是否达到第一阈值,若判断结果为是,则结束;否则若判断结果为否,则继续;
[0026]计算所述候选模板集合中每个候选模板&的评级得分RankP(Pp,其中,j为自然数,I < j < N,N为所述候选模板集合包括的候选模板个数;
[0027]计算所述候选模板集合中每个候选模板P」和所述种子模板集合中任一种子模板Pk的候选模板相似度SimP (Pj, pk),并选择取值最大的候选模板相似度作为所述候选模板Pj的语义相似度FinSim(Pj),其中,k为自然数,I ^ k ^ Z, Z为种子模板集合中种子模板的个数;
[0028]从所述候选模板集合中选择所述评级得分大于第二阈值并且所述语义相似度大于第三阈值的各个模板,所述各个模板构成迭代候选模板集合;
[0029]从所述迭代候选模板集合中选择所述评级得分最高的各候选模板作为选中模板,各选中模板构成选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,并加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合;
[0030]从所述迭代候选模板集合中选择所述语义相似度最高的各候选模板作为选中模板,并将所述选中模板加入选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合;
[0031]把所述选中模板集合中每个选中模板所在文档的文档相关度值设置为1,并把所述选中模板集合清空;11加1,转至执行步骤:判断η的值是否达到第一阈值,若判断结果为是,则结束;否则若判断结果为否,则继续。
[0032]优选的,所述计算所述候选模板集合中每个候选模板P」的评级得分RankP (pj具体包括:
[0033]根据候选模板&所在文档和所述候选模板&的相似模板所在文档的文档相关性,采用如下公式(I)计算所述候选模板Pj的精确度得分Prec(Pj):
[0034]
【权利要求】
1.一种中文事件信息挖掘方法,其特征在于,包括: 对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合,所述候选模板集合包括至少一个候选模板,所述候选模板包括由所述句子的候选事件锚、所述句子的实体、所述候选事件锚到所述实体的句法路径和所述候选事件锚到所述实体的依存路径构成的四元组; 定义需要从所述原始文本中挖掘事件的X种事件样本模型,所述定义的事件样本模型包括事件类型、事件角色和事件角色对应实体的实体类型,不同事件样本模型的事件类型不同,所述X为不小于I的自然数; 对每种事件类型的事件样本模型依次进行实例化处理和信息标注处理,得到所述事件样本模型对应的携带有标注信息的种子事件,各事件样本模型对应的种子事件构成种子事件集合,所述标注信息包括种子事件锚、各个种子事件角色对应的实体及其实体类型;依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合,所述种子模板集合包括至少一个种子模板,所述种子模板包括由所述种子事件的种子事件锚、所述种子事件的实体、所述种子事件锚到所述实体的句法路径和所述种子事件锚到所述实体的依存路径构成的四元组; 基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合,所述挖掘事件锚集合包括至少一个挖掘事件锚; 依据所述挖掘事件锚集合中每个挖掘事件锚和所述种子事件集合中的任一种子事件锚的词汇语义相似度,获取所述挖掘事件锚所对应的事件类型。
2.根据权利要求1所述 的方法,其特征在于,所述对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合具体包括: 对原始文本每个文档中的句子依次进行词语切分,实体识别、句法分析和依存关系分析,得到原始文本的实体标注句子集合、句法树集合和依存关系集合; 根据词性从所述句法树集合中选择候选事件锚,并依据预先制定的第一过滤规则对所述候选事件锚进行过滤,得到过滤后的候选事件锚; 对于过滤后的任意一个候选事件锚,获取所述候选事件锚所在句子的所有实体,所述实体作为候选实体,并依据预先制定的第二过滤规则对所述候选实体进行过滤,得到过滤后的候选实体。 分别依据所述句法树集合和依存关系集合,获取所述过滤后的候选事件锚中每一候选事件锚与其所在句子中任一过滤后的候选实体间的句法路径和依存路径,将所述候选事件锚、所述实体、所述句法路径以及所述依存路径组合为四元组,并将所述四元组标记为候选模板,所有的候选模板构成候选模板集合。
3.根据权利要求2所述的方法,其特征在于,所述依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合具体包括: 对所述种子事件集合中的每个种子事件进行词语切分、实体识别、句法分析和依存关系分析,得到种子事件句法集合和种子事件依存关系集合; 分别依据所述种子事件句法集合和种子事件依存关系集合,获取所述种子事件的种子事件锚与其所在句子中任一实体间的句法路径和依存路径,将所述种子事件锚、所述实体、所述句法路径以及所述依存路径组合为种子事件的四元组,将所述种子事件的四元组标记为种子模板,种子事件集合对应的所有的种子模板构成种子模板集合。
4.根据权利要求3所述的方法,其特征在于,所述基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合具体包括: 从所述候选模板集合中获取与所述种子模板集合中任意一个种子模板为相似模板的各候选模板,所述各候选模板构成初始选中模板集合,获取所述初始选中模板集合中每一候选模板的候选事件锚,将获取的各候选事件锚加入预先建立的挖掘事件锚集合;并从所述候选模板集合中删除初始选中模板集合中的所有候选模板; 将所述原始文本中任意一个文档Doci的文档相关度DocRel⑴赋值为所述文档Doci包含所述挖掘事件锚集合中事件锚的个数,并设置迭代次数η为0,其中i为自然数,I ^ i ^ M, M为所述原始文本中包含的文档数,M为不小于I的自然数; 判断η的值是否达到第一阈值,若判断结果为是,则结束;否则若判断结果为否,则继续; 计算所述候选模板集合中每个候选模板P」的评级得分RankP (Ρρ,其中,j为自然数,I ^ j ^ N, N为所述候选模板集合包括的候选模板个数; 计算所述候选模板集合中每个候选模板P」和所述种子模板集合中任一种子模板Pk的候选模板相似度SimP(Py Pk),并选择取值最大的候选模板相似度作为所述候选模板Pj的语义相似度FinSim(Pj),其中,k为自然数,I≤k≤Z,Z为种子模板集合中种子模板的个数; 从所述候选模板集合中选择所述评级得分大于第二阈值并且所述语义相似度大于第三阈值的各个模板,所述各个模板构成迭代候选模板集合; 从所述迭代候选模板集合中选择所述评级得分最高的各候选模板作为选中模板,各选中模板构成选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,并加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合; 从所述迭代候选模板集合中选择所述语义相似度最高的各候选模板作为选中模板,并将所述选中模板加入选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合; 把所述选中模板集合中每个选中模板所在文档的文档相关度值设置为1,并把所述选中模板集合清空;11加1,转至执行步骤:判断η的值是否达到第一阈值,若判断结果为是,则结束;否则若判断结果为否,则继续。
5.根据权利要求4所述的方法,其特征在于,所述计算所述候选模板集合中每个候选模板Pj的评级得分RankP Cpj)具体包括: 根据候选模板h所在文档和所述候选模板h的相似模板所在文档的文档相关性,采用如下公式(I)计算所述候选模板Pj的精确度得分Prec (Pj):
6.根据权利要求4所述的方法,其特征在于,所述计算所述候选模板集合中每个候选模板P」和所述种子模板集合中任一种子模板Pk的候选模板相似度SimP (Pj, Pk)具体包括:利用如下公式(4)计算所述候选模板P」中候选事件锚a]和种子模板pk中种子事件锚ak的词汇语义相似度:
SimT (a」,ak) = a / ( a+d) (4) 其中,d是候选模板P」的候选事件锚a]的义原和种子模板Pk的种子事件锚ak的义原在义原层次体系中的路径长度,α是一个可调节的参数; 基于夹角余弦法,利用如下公式(5)计算所述候选模板P」的依存路径dep]和种子模板Pk的依存路径depk间的依存路径相似度SimD (depj, depk),


7.一种中文事件信息挖掘系统,其特征在于,包括原始文本分析模块、定义模块、处理模块、种子事件分析模块、事件锚获取模块和事件类型获取模块,其中: 所述原始文本分析模块,用于对原始文本的每个文档中的句子进行分析、处理,得到原始文本的候选模板集合,所述候选模板集合包括至少一个候选模板,所述候选模板包括由所述句子的候选事件锚、所述句子的实体、所述候选事件锚到所述实体的句法路径和所述候选事件锚到所述实体的依存路径构成的四元组; 所述定义模块,用于定义需要从所述原始文本中挖掘事件的N种事件样本模型,所述定义的事件样本模型包括事件类型、事件角色和事件角色对应实体的实体类型,不同事件样本模型的事件类型不同,所述N为不小于I的自然数; 所述处理模块,用于对每种事件类型的事件样本模型依次进行实例化处理和信息标注处理,得到所述事件样本模型对应的携带有标注信息的种子事件,各事件样本模型对应的种子事件构成种子事件集合,所述标注信息包括种子事件锚、各个种子事件角色对应的实体及其实体类型; 所述种子事件分析模块,用于依据相应的标注信息,对所述种子事件集合中的每个种子事件进行分析、处理,得到所述种子事件集合对应的种子模板集合,所述种子模板集合包括至少一个种子模板,所述种子模板包括由所述种子事件的种子事件锚、所述种子事件的实体、所述种子事件锚到所述实体的句法路径和所述种子事件锚到所述实体的依存路径构成的四元组;所述事件锚获取模块,用于基于所述种子模板集合中的种子模板,采用迭代的方法,依据候选模板评级得分和候选模板与种子模板间的语义相似度对所述候选模板集合进行处理,得到挖掘事件锚集合,所述挖掘事件锚集合包括至少一个挖掘事件锚; 所述事件类型获取模块,用于依据所述挖掘事件锚集合中每个挖掘事件锚和所述种子事件集合中的任一种子事件锚的词汇语义相似度,获取所述挖掘事件锚所对应的事件类型。
8.根据权利要求7所述的系统,其特征在于,所述原始文本分析模块具体包括: 原始文本预处理模块,用于对原始文本每个文档中的句子依次进行词语切分,实体识另O、句法分析和依存关系分析,得到原始文本的实体标注句子集合、句法树集合和依存关系集合; 候选事件锚选择模块,用于根据词性从所述句法树集合中选择候选事件锚,并依据预先制定的第一过滤规则对所述候选事件锚进行过滤,得到过滤后的候选事件锚; 候选实体选择模块,用于对于过滤后的任意一个候选事件锚,获取所述候选事件锚所在句子的所有实体,所述实体作为候选实体,并依据预先制定的第二过滤规则对所述候选实体进行过滤,得到过滤后的候选实体; 候选模板获取模块,用于分别依据所述句法树集合和依存关系集合,获取所述过滤后的候选事件锚中每一候选事件锚与其所在句子中任一过滤后的候选实体间的句法路径和依存路径,将所述候选事件锚、所述实体、所述句法路径以及所述依存路径组合为四元组,并将所述四元组标记为候选 模板,所有的候选模板构成候选模板集合。
9.根据权利要求8所述的系统,其特征在于,所述种子事件分析模块具体包括:种子事件预处理模块,用于对所述种子事件集合中的每个种子事件进行词语切分、实体识别、句法分析和依存关系分析,得到种子事件句法集合和种子事件依存关系集合; 种子模板获取模块,用于分别依据所述种子事件句法集合和种子事件依存关系集合,获取所述种子事件的种子事件锚与其所在句子中任一实体间的句法路径和依存路径,将所述种子事件锚、所述实体、所述句法路径以及所述依存路径组合为种子事件的四元组,将所述种子事件的四元组标记为种子模板,种子事件集合对应的所有的种子模板构成种子模板
口 O
10.根据权利要求9所述的系统,其特征在于,所述事件锚获取模块具体包括: 初始选择模块,用于从所述候选模板集合中获取与所述种子模板集合中任意一个种子模板为相似模板的各候选模板,所述各候选模板构成初始选中模板集合,获取所述初始选中模板集合中每一候选模板的候选事件锚,将获取的各候选事件锚加入预先建立的挖掘事件锚集合;并从所述候选模板集合中删除初始选中模板集合中的所有候选模板; 赋值模块,用于将所述原始文本中任意一个文档Doci的文档相关度DocRel (i)赋值为所述文档Doci包含所述挖掘事件锚集合中事件锚的个数,并设置迭代次数η为0,其中i为自然数,Ι^?^Μ,Μ为所述原始文本中包含的文档数,M为不小于I的自然数; 判断模块,用于判断η的值是否达到第一阈值,若判断结果为是,则结束;否则若判断结果为否,则继续执行评级得分计算模块; 评级得分计算模块,用于计算所述候选模板集合中每个候选模板P」的评级得分RankP(Pj),其中,j为自然数,I ^ j ^ N, N为所述候选模板集合包括的候选模板个数;相似度计算模块,用于计算所述候选模板集合中每个候选模板P」和所述种子模板集合中任一种子模板Pk的候选模板相似度SimP (Pj, Pk),并选择取值最大的候选模板相似度作为所述候选模板Pj的语义相似度FinSim(Pj),其中,k为自然数,I≤k≤Z,Z为种子模板集合中种子模板的个数; 第一选择模块,用于从所述候选模板集合中选择所述评级得分大于第二阈值并且所述语义相似度大于第三阈值的各个模板,所述各个模板构成迭代候选模板集合; 第二选择模块,用于从所述迭代候选模板集合中选择所述评级得分最高的各候选模板作为选中模板,各选中模板构成选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,并加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合; 第三选择模块,用于从所述迭代候选模板集合中选择所述语义相似度最高的各候选模板作为选中模板,并将所述选中模板加入选中模板集合;把所述选中模板集合中的每个选中模板从所述候选模板集合中删除,加入种子模板集合;把所述选中模板集合中每个选中模板对应的事件锚加入所述挖掘事件锚集合; 清空模块,用于把所述选中模板集合中每个选中模板所在文档的文档相关度值设置为I,并把所述选中模板集合清空;11加1,转至执行所述判断模块。
11.根据权利要求9所述的系统,其特征在于,所述评级得分计算模块具体包括: 精确度得分计算单元,用于根据候选模板Pj所在文档和所述候选模板的相似模板所在文档的文档相关性,采用如下公式(I)计算所述候选模板h的精确度得分Prec (Pj):
12.根据权利要求9所述的系统,其特征在于,所述相似度计算模块具体包括: 词汇语义相似度计算单元,用于利用如下公式(4)计算所述候选模板&中候选事件锚Bj和种子模板Pk中种子事件锚ak的词汇语义相似度:
SimT (aj, ak) = a / ( a +d) (4) 其中,d是候选模板P」的候选事件锚a]的义原和种子模板Pk的种子事件锚ak的义原在义原层次体系中的路径长度,α是一个可调节的参数; 依存路径相似度计算单元,用于基于夹角余弦法,利用如下公式(5)计算所述候选模板P」的依存路径depj和种子模板Pk的依存路径depk间的依存路径相似度SimD(dep」,depk),
【文档编号】G06F17/30GK103617280SQ201310664718
【公开日】2014年3月5日 申请日期:2013年12月9日 优先权日:2013年12月9日
【发明者】李培峰, 周国栋, 朱巧明, 孔芳 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1