面向社交媒体文本的无监督的事件抽取和分类方法

文档序号:9631582阅读:776来源:国知局
面向社交媒体文本的无监督的事件抽取和分类方法
【技术领域】
[0001] 本发明涉及一种利用计算机对社交媒体文本中的事件信息进行抽取和分类,属于 信息处理技术领域。
【背景技术】
[0002] 目前尚未发现面向社交媒体(如微博、微信等)文本的基于贝叶斯模型的无监督 的事件抽取和分类技术。但存在面向正式文本的事件抽取技术以及面向社交媒体文本的有 监督的事件抽取技术,前者与本发明研究的文本对象不同,后者采用的有监督方法难以在 领域间移植,均与本发明解决的问题完全不同。
[0003] 本发明提出的面向社交媒体文本的基于贝叶斯模型的无监督的事件抽取和分类 技术,可以抽取出国内外发生的大小事件,及时获得有价值的信息;由于微博等社交媒体的 特性,还可以获悉人们对发生的事件的观点、看法等信息,有利于舆情监督和舆论引导,这 是从新闻等其他正式文本中所获取不到的,这些信息对未来舆情分析的研究奠定了基础; 同时对抽取的事件进行了分类,可以对抽取出的事件进行分门别类的展示。
[0004] 相较于过去的针对新闻文章抽取事件的方法,本方法针对的是社交媒体文本,如 微博文本,其不像新闻文本那样结构化,其中充斥着噪声,从中抽取出事件信息更加困难, 同时,可以从中获取人们对事件的观点和情感信息;而过去的面向微博文本的有监督的方 法,很大程度上依赖于标注语料的数量和质量,在这个过程中会花费大量的人力、物力,同 时由于训练语料的领域相关性,有监督的方法很难在领域间移植,而本发明提出的无监督 的方法不需要标注语料。

【发明内容】

[0005] 本发明的目的是设计出一种面向社交媒体文本的基于贝叶斯模型的无监督的事 件抽取和分类方法,该方法相比面向新闻文本的方法可以获得人们对事件的情感态度信 息,该方法相比面向社交媒体文本的有监督的方法能够具有领域的普适性。
[0006] 为实现上述发明目的,本发明设计了一种事件抽取和分类的贝叶斯模型(Event Extraction&CategorizationBayesianModel-EECB),使用该模型从经过预处理后的社交 媒体文本中抽取出结构化表达的事件并分类。结构化的事件以四元组<y,d,1,k>的形式表 示,其中y表示非地点命名实体,d表示时间,1表示地点,k表示关键词。本发明提供的一 种面向社交媒体文本的基于EECB模型的无监督的事件抽取和分类方法,包括如下步骤:
[0007] (1)对社交媒体文本进行过滤,排除与事件不相关的文本;
[0008] (2)对过滤后的文本进行预处理,提取得到文本中的命名实体和候选关键词,所述 命名实体包括非地点命名实体和地点命名实体;
[0009] (3)按照文本对应的时间标记对文本进行分组;
[0010] (4)基于EECB模型采用Gibbs采样方法对各组文本进行迭代学习,得到各组中每 条文本对应的事件编号,每个事件编号对应于一个以三元组<y,1,k>表示的事件,其中y表 示非地点命名实体,1表示地点,k表示关键词;
[0011] (5)对各组中事件编号相同的事件元素进行后处理,得到满足设定可信度的事 件;
[0012] (6)将时间标记d加入三元组,基于事件元素的相似性对事件进行合并;
[0013] (7)将合并后得到的每个事件的每个命名实体映射到语义类,并基于EECB模型进 行迭代学习,得到每个事件的事件类型。
[0014] 进一步地,所述步骤(1)中的基于关键词和/或分类器的方法对文本进行过滤,所 述基于关键词的方法为通过构建一个关键词词典,过滤掉不包含所述词典中的关键词的社 交媒体文本;所述基于分类器的方法基于特征集将社交媒体文本分为事件相关和事件不相 关两类,过滤事件不相关的社交媒体文本。
[0015] 进一步地,所述步骤(2)中的预处理包括对中文文本的预处理和对英文文本的预 处理;对中文文本的预处理包括中文分词、词性标注、命名实体识别和确定候选关键词步 骤,所述候选关键词为命名实体识别步骤中未被识别为非命名实体的名词、动词和形容词; 对英文文本的预处理包括词性标注、命名实体识别、确定候选关键词和去词根步骤。
[0016] 进一步地,所述步骤(3)中文本的时间标记根据文本发布的时间戳和文本中时间 表述确定,具体为:对包含事件发生时间表述的文本,在该时间表述与发布时间中选择较早 的时间作为该文本对应的时间标记,否则选择发布时间作为时间标记。
[0017] 进一步地,所述步骤(4)中基于EECB模型进行迭代学习得到文本对应事件的步骤 包括:首先,对于每一条社交媒体文本等概率随机赋予一个初始事件编号;然后,反复作如 下操作直到过程收敛或到达迭代上限:对于每一条社交媒体文本,计算其对应的事件编号 为每一个可取的编号的条件后验概率,将这些概率组成一个多项式分布,按该分布米样,赋 予该条社交媒体文本新的事件编号。
[0018] 进一步地,所述步骤(7)中基于EECB模型进行迭代学习得到事件对应类型的步骤 包括:首先,对于每一个事件四元组等概率随机赋予一个初始事件类型编号;然后,反复作 如下操作直到过程收敛或到达迭代上限:对于每一个事件四元组,计算其对应的事件类型 编号为每一个可取的编号的条件后验概率,将这些概率组成一个多项式分布,按该分布采 样,赋予该事件四元组新的事件类型编号。
[0019] 进一步地,所述步骤(5)中后处理的方法为:将每组文本按照时间编号分类,对于 每一类利用如下后处理规则移除不满足可信度的事件元素:(a)仅保留出现次数最多的时 间元素和地点元素;(b)仅保留出现次数最多的前η个关键词;(c)如果N(element) <ηι,那 么将此元素移除,其中Melement)表示某一元素在所有事件编号为e的微博中出现的次 数;(d)如果N(element)〈m/n2,那么将此元素移除,其中m表示事件e中的文本数目,η、%、 η2为设定的阈值参数。
[0020] 进一步地,所述步骤(6)中对事件进行合并的方法为:对于两个以四元组 <y,d,1,k>表示的事件,若y,1,k元素中有两个或以上的元素相同,则将这两个四元组合 并,时间取较前的d。
[0021] 本发明提供的面向社交媒体文本的基于EECB模型的无监督的事件抽取和分类方 法与现有的微博公开事件领域中最先进的系统TwiCal相比具有明显的优势:本发明方法 的事件抽取及分类的准确率都更高。
【附图说明】
[0022] 图1是本发明实施例的方法流程图。
[0023] 图2是本发明实施例中EECB模型表示示意图。
【具体实施方式】
[0024] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明 而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价 形式的修改均落于本申请所附权利要求所限定的范围。
[0025] 本发明实施例公开的一种社交媒体文本事件抽取和分类方法中所基于的一种无 监督贝叶斯模型EECB模型,其图模型表示见图2。其中,α、β、τ?、λ、τ、ρ、δ是超参 数,:π为事件参数,Θ为非地点命名实体参数,φ为地点参数,ω和ζ为关键词参数,ν为 事件类型参数,ε为语义类参数。
[0026] 本实施例中的社交媒体文本以微博文本为例,假设在模型中,每条微博文本 me{1,2, ...,Μ}被赋予一个事件实例e,e是非地点命名实体y,事件发生的地点1,事件 相关的关键词k的联合分布。这一假设促使包含相同非地点命名实体,发生在相同地点,并 拥有相同关键词的事件被视为相同的事件。假设每个事件都属于一个事件类型t,t是非地 点命名实体对应的语义类V和事件关键词k'的一个联合分布。这种假设促使拥有相同 实
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1