专利名称:舆情事件的实体关系抽取方法和装置的制作方法
技术领域:
本发明涉及互联网信息技术领域,具体而言,涉及一种舆情事件的实体关系抽取方法和装置。
背景技术:
随着互联网全民普及率的提高,互联网日渐成为人们发布信息、获取信息和传递信息的主要载体,一定程度地反映了社会公众对社会现实的主观情感,即舆情。在互联网上对于热门舆情事件(即热点事件)往往有大量网站对其转载报道,如何从这些无结构的文本中提取出真正对用户有用的信息,日益成为人们关注的问题。因此,信息抽取技术应运而生,而实体关系抽取是其中的一个子任务。实体是指事件中的人、地点和机构,实体关系是指这些人、地点和机构之间的关系。相关的实体关系抽取技术主要采取有监督实体关系抽取方法和弱监督实体关系抽取方法。有监督实体关系抽取方法的流程一般为:对训练文本预处理,进行关系词对及关系的人工标记,抽取特征向量化,用分类算法进行训练生成模型,用模型进行关系的类别标记。弱监督实体关系抽取方法与上一种方法的主要不同之处在于对标注语料的依赖程度。弱监督用少量的标注语料集,利用bootstrapping(自学习)框架,结合各种分类算法进行实体关系抽取。弱监督实体关系抽取方法因为采用小规模标注语料库,所以性能较差。而有监督实体关系抽取方法依赖大规模标注语料库,而这部分工作需要根据任务情况,人工进行标注。需要耗费巨大的人力物力,在此基础上采用各种算法训练模型,对生成的模型的性能无法准确估计,存在较大风险。
发明内容
本发明旨在提供一种,以解决相关技术的实体关系抽取技术的性能问题。在本发明的实施例中,提供了一种舆情事件的实体关系抽取方法,包括:对舆情事件的文本集合进行分词;从分词得到的切分单元中抽取主题短语;基于聚类方法从主题短语中获取子主题;从子主题中获取实体关系。在本发明的实施例中,提供了一种舆情事件的实体关系抽取装置,包括:分词模块,用于对舆情事件的文本集合进行分词;主题短语模块,用于从分词得到的切分单元中抽取主题短语;子主题模块,用于基于聚类方法从主题短语中获取子主题;实体关系模块,用于从子主题中获取实体关系。本发明上述实施例的舆情事件的实体关系抽取方法和装置,属于无监督的实体关系抽取,不依赖语料库,提高了抽取实体关系的性能。
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1示出了根据本发明实施例的舆情事件的实体关系抽取方法的流程图;图2示出了根据本发明优选实施例的舆情事件的实体关系抽取方法的流程图;图3示出了根据本发明实施例的舆情事件的实体关系抽取装置的示意图。
具体实施例方式下面将参考附图并结合实施例,来详细说明本发明。图1示出了根据本发明实施例的舆情事件的实体关系抽取方法的流程图,包括:步骤S10,对舆情事件的文本集合进行分词之类的预处理;步骤S20,从分词得到的切分单元中抽取主题短语;步骤S30,基于聚类方法从主题短语中获取子主题;步骤S40,从子主题中获取实体关系。本方法属于无监督的实体关系抽取,不依赖语料库,因此提高了抽取实体关系的性能。另外,现有研究中大多针对各种及关系的标注,标注的关系比较局限在朋友、上下级、家庭、同学、合作等方面,或者出现关系词的获取不十分准确的现象。而本实施例的方法不依赖于标注的关系,所以还解决了关系词获取不准确的问题。优选地,步骤SlO包括:对文本集合进行预处理,预处理主要包括分词、词性标注、命名实体识别、禁用词标注,断句。命名实体可以包括人名、地名、机构名。文本由句组成,句由分词的切分单元组成;对于断句得到的每一句中连续的切分单元进行组合,对生成的词串统计词频,以词频作为指标进行过滤,其中,被标记为禁用词的切分单元不作为组合单元,词性打分低于第一预设阀值的切分单元,不作为词串的开头与结尾;利用改进的C-Value算法计算词串的词频,以词串计算后的词频作为指标进行过滤,改进的C-Value算法公式为:log2|a|*f(a) 当a没有被包含现象
权利要求
1.一种舆情事件的实体关系抽取方法,其特征在于,包括: 对舆情事件的文本集合进行分词; 从分词得到的切分单元中抽取主题短语; 基于聚类方法从所述主题短语中获取子主题; 从所述子主题中获取所述实体关系。
2.根据权利要求1所述的方法,其特征在于,从分词得到的切分单元中抽取主题短语包括: 对所述文本集合进行分词时还对所述文本集合进行断句、词性标注和禁用词标记;对于断句得到的每一句中连续的所述切分单元进行组合,对生成的词串统计词频,以词频作为指标进行过滤,其中,被标记为禁用词的切分单元不作为组合单元,词性打分低于第一预设阀值的切分单元,不作为词串的开头与结尾; 利用改进的C-Value算法计算所述词串的词频,以词串计算后的词频作为指标进行过滤,改进的C-Value算法公式为: log2|a|*f(a) 当a没有被包含现象
3.根据权利要求2所述的方法,其特征在于,词串X与y的重复度dup的计算公式如下:
4.根据权利要求1所述的方法,其特征在于,基于聚类方法从所述主题短语中获取子主题包括: 将得到的N个所述主题短语构建一个N*N的二维共现关系度矩阵; 利用互信息计算所述二维共现关系度矩阵中每两个主题短语X和y的共现关系度I (X,y),计算公式如下:
5.根据权利要求4所述的方法,其特征在于,对N个所述主题短语执行基于所述共现关系度的凝聚式层次聚类包括: .1、从集合I中取Iv关系(X,y); .2、判断在所有已有聚类Ck中是否存在满足包含X的聚类Cx,包含y的聚类Cy; .3、若Cx与Cy同时不存在,则创建新的聚类C= {x, y 11 (x, y)}; .4、若Cx与Cy只存在一个,如为Cy,则从集合X中得到X的y列表,计算当将y列表中第i个主题短语Ii归入Cy聚类中时,Cy聚类的平均点共现关系度
6.根据权利要求1所述的方法,其特征在于,从所述发展脉络中获取所述实体关系包括: 以所述子主题创建有向图; 从所述有向图中获取所述实体关系。
7.根据权利要求6所述的方法,其特征在于,以所述子主题创建有向图包括: 将一个子主题内部的主题短语作为点集合,所述主题短语之间的共现关系度作为边集合,共现关系度的值越大,两点的距离越小,边由早时间指向晚时间,由索引号小的所述主题短语指向索引号大的所述主题短语,由此得到一个有向图。
8.根据权利要求6所述的方法,其特征在于,从所述有向图中获取所述实体关系包括: 对所述有向图中存在共现关系对的主题短语A与B按切分单元进行分解; 对于主题短语A与B中的人名,将所述人名前的名词、形容词和/或命名实体作为所述人名的修饰性属性;对于主题短语A与B中的非人名的命名实体,则将该命名实体左右连续的名词进行合并; 对于主题短语A与B中的连续的名词进行合并;对于主题短语A与B中的连续的动词进行合并; 对于主题短语A与B中的多个名词性结构之间无动词性结构,则将前者变为后者的修饰属性; 对于主题短语A与B中的多个名词性结构之间存在动词性结构,则将所述多个名词性结构并列成为短语主体,将所述动词性结构添加到关系词列表中; 将主题短语A与B分别用其短语主体表示,将主题短语A与B的关系词列表合并后,作为A与B的关系词; 其中,若其中一主题短语没有短语主体,则将此主题短语退化为关系词。
9.根据权利要求1所述的方法,其特征在于,还包括: 通过对所述切分单元进行词频分析,消除所述文本集合中重复的文本。
10.根据权利要求9所述的方法,其特征在于,通过对所述切分单元进行词频分析,消除所述文本集合中重复的文本包括: 如果文本X和I的文本向量维度差距不大于第四预设阀值,则利用动态规划算法计算其相似度Sim,计算公式为:
11.一种舆情事件的实体关系抽取装置,其特征在于,包括: 分词模块,用于对舆情事件的文本集合进行分词; 主题短语模块,用于从分词得到的切分单元中抽取主题短语; 子主题模块,用于基于聚类方法从所述主题短语中获取子主题; 实体关系模块,用于从所述子主题中获取所述实体关系。
全文摘要
本发明提供了一种舆情事件的实体关系抽取方法,包括对舆情事件的文本集合进行分词;从分词得到的切分单元中抽取主题短语;基于聚类方法从主题短语中获取子主题;从子主题中获取实体关系。本发明还提供了一种舆情事件的实体关系抽取装置,包括分词模块,用于对舆情事件的文本集合进行分词;主题短语模块,用于从分词得到的切分单元中抽取主题短语;子主题模块,用于基于聚类方法从主题短语中获取子主题;实体关系模块,用于从子主题中获取实体关系。本发明提高了抽取舆情事件的实体关系的性能。
文档编号G06F17/30GK103207860SQ20121000769
公开日2013年7月17日 申请日期2012年1月11日 优先权日2012年1月11日
发明者郑妍, 于晓明, 杨建武 申请人:北大方正集团有限公司, 北京大学, 北京北大方正电子有限公司