一种新闻事件要素抽取方法与装置制造方法

文档序号:6634239阅读:1247来源:国知局
一种新闻事件要素抽取方法与装置制造方法
【专利摘要】本发明提供一种新闻事件要素抽取方法,包括:识别新闻文本中包含的人名并抽取人名特征;根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及基于该概率识别出新闻事件的主角。在一些实施例中,所述方法还包括:抽取关于新闻事件的主角的观点和发言的语句,以及新闻事件发生的地点和时间。本发明在保证抽取准确率的前提下,能够克服人工分析整理新闻信息成本高、效率低的问题,同时,也为新闻事件检索、新闻报道跟踪等上层应用提供支持。
【专利说明】一种新闻事件要素抽取方法与装置

【技术领域】
[0001] 本发明涉及自然语言处理【技术领域】,特别涉及新闻文本中的信息抽取技术,以及 更具体地,涉及一种新闻事件要素抽取方法与装置。

【背景技术】
[0002] 新闻事件是指发生在某时某地的一件特别的事情,它可以由许多要素组成,其中 较为关键的要素包括:事件发生的时间、事件发生的地点、事件的主角、主角所持的观点和 事件的某些特殊属性。这些要素不仅有助于新闻阅读者快速把握新闻事件的主体内容,而 且可以为海量新闻数据的自动分析和处理提供必要的基础内容信息。
[0003] 随着互联网普及率的上升和信息公开化程度的提高,网络已经成为新闻事件报道 和传播的重要平台。互联网上新闻网页的数量急剧增长,新闻量和冗余信息的增加,给阅读 和信息分析带来了新的挑战。迅速、准确地从新闻报道中自动抽取新闻事件的要素,尤其是 关键要素,不仅能够改善代价昂贵的人工分析和管理新闻事件的过程,而且具有广泛的新 闻自动分析方面的应用前景,例如为网络舆情的监控和预警、新闻事件检索和决策支持等 上层应用提供支持。由于新闻文本在形式上具有词汇、句式规范,篇章结构统一,语言风格 稳定等特点,使得自动抽取新闻事件的关键要素成为可能。
[0004] 然而,目前最常见的新闻抽取系统所解决的问题主要是从新闻网页中抽取新闻正 文或对新闻正文进行简单的分类,关于理解新闻内容并抽取关键要素方面的工作仍然空 缺。


【发明内容】

[0005] 针对上述问题,根据本发明的一个实施例,提供一种新闻事件要素抽取方法,包 括:
[0006] 步骤1)、识别新闻文本中包含的人名并抽取人名特征;
[0007] 步骤2)、根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及
[0008] 步骤3)、基于该概率识别出新闻事件的主角。
[0009] 上述方法中,所述人名特征包括人名在所述新闻文本中的上/下文特征、频率特 征和位置特征。其中,根据下式计算人名成为新闻事件的主角的概率:

【权利要求】
1. 一种新闻事件要素抽取方法,包括: 步骤1)、识别新闻文本中包含的人名并抽取人名特征; 步骤2)、根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及 步骤3)、基于该概率识别出新闻事件的主角。
2. 根据权利要求1所述的方法,其中,所述人名特征包括人名在所述新闻文本中的上/ 下文特征、频率特征和位置特征。
3. 根据权利要求2所述的方法,其中,根据下式计算人名成为新闻事件的主角的概率:
其中,namei表示人名,COiamei)表示该人名在上/下文特征上的取值,freOiamei)表 示该人名出现的次数,len(text)表示所述新闻文本的总字符长度,posOiamei)表示该人名 在所述新闻文本中首次出现的字符位置。
4. 根据权利要求1-3中任何一个所述的方法,其中,识别新闻文本中包含的人名包括: 使用人名识别器识别新闻文本中包含的人名;其中,所述人名识别器是通过使用公开 语料库,训练条件随机场模型得到的。
5. 根据权利要求1-3中任何一个所述的方法,还包括: 从所述新闻文本中抽取关于新闻事件的主角的观点和发言的语句。
6. 根据权利要求5所述的方法,其中,抽取关于新闻事件的主角的观点和发言的语句 包括: 对所述新闻文本进行断句,抽取同时包括主角人名和触发词的语句,加入候选观点语 句集合; 抽取同时包含第三人称代词和触发词的语句,根据与该语句相邻的前两句中出现的人 名判断该第三人称代词是否指代新闻事件的主角,如果是,则将该语句加入候选观点语句 集合;以及 从候选观点语句集合中移除包含停用触发词的语句;其中,触发词和停用触发词是由 词或标点符号组成的表达式。
7. 根据权利要求6所述的方法,其中,根据如下步骤获得触发词和停用触发词: 随机选取多篇新闻文本,抽取关于新闻事件的主角的观点和发言的语句,得到训练语 句集合; 对训练语句集合进行分词和词性标注处理,根据词性、词频以及该词与主角的位置关 系选取出触发词;其中,如果触发词的相邻字符为标点符号,则将该触发词与相邻标点符号 的组合作为另一个触发词; 用已获得的触发词在所述多篇新闻文本中抽取关于新闻事件的主角的观点和发言的 语句,将抽取结果和训练语句集合进行对比,将产生错误语句的触发词结合其相邻的词作 为停用触发词。
8. 根据权利要求1-3中任何一个所述的方法,还包括: 使用新闻事件分类器来判定新闻事件的类别。
9. 根据权利要求8所述的方法,其中,根据如下步骤构造新闻事件分类器: 随机选取多篇新闻文本作为训练样本,人工标注该新闻文本所描述的新闻事件的类 别; 对所述训练样本进行分词和词性标注,根据词性和卡方公式选择特征词;以及 将所述训练样本向量化,用于训练支持向量机模型,从而获得新闻事件分类器。
10. 根据权利要求8所述的方法,还包括: 根据新闻事件的类别,利用该类别对应的抽取规则抽取该新闻事件的属性。
11. 根据权利要求8所述的方法,还包括: 识别新闻事件发生的地点。
12. 根据权利要求11所述的方法,其中,识别新闻事件发生的地点包括: 使用地名识别器识别所述新闻文本中包含的地名;其中,所述地名识别器是通过使用 公开语料库,训练条件随机场模型得到的; 根据地名在新闻文本中的位置、上/下文,以及与新闻事件的主角之间的距离,获得新 闻事件发生的地点。
13. 根据权利要求1-3中任何一个所述的方法,还包括: 识别新闻事件发生的时间。
14. 根据权利要求13所述的方法,其中,识别新闻事件发生的时间包括: 使用时间识别器识别所述新闻文本中包含的时间短语;其中,所述时间识别器是通过 使用公开语料库,训练条件随机场模型得到的; 根据时间短语在新闻文本中出现的位置、类型、与新闻事件的主角之间的距离,以及与 新闻事件的属性之间的距离,获得新闻事件发生的时间; 对新闻事件发生的时间进行归一化处理。
15. 根据权利要求1-3中任何一个所述的方法,还包括: 预处理所采集的新闻网页,得到新闻文本。
16. 根据权利要求15所述的方法,其中,预处理所采集的新闻网页包括: 从所采集的新闻网页中提取新闻正文;以及 在提取出的新闻正文中过滤掉除汉字、字母、数字和标点符号之外的字符。
17. -种新闻事件要素抽取装置,包括: 主角识别模块,用于从新闻文本中识别新闻事件的主角; 主角观点和发言抽取模块,用于从所述新闻文本中抽取关于新闻事件的主角的观点和 发言的语句; 事件分类及相关属性抽取模块,用于判定新闻事件的类别,根据类别从所述新闻文本 中抽取新闻事件的属性,以及从所述新闻文本中识别新闻事件发生的地点;以及 事件时间识别模块,用于从所述新闻文本中识别新闻事件发生的时间。
【文档编号】G06F17/27GK104408093SQ201410645944
【公开日】2015年3月11日 申请日期:2014年11月14日 优先权日:2014年11月14日
【发明者】程学旗, 刘倩, 伍大勇, 刘悦, 刘冰洋, 钟艳琴 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1