基于规划‑目标图的新闻事件信息抽取方法与流程

文档序号:12719827阅读:267来源:国知局
基于规划‑目标图的新闻事件信息抽取方法与流程
本发明涉及计算机应用中的舆情分析和文本处理
技术领域
,具体来说涉及一种基于规划-目标图的新闻事件信息抽取方法。
背景技术
:随着web技术的迅猛发展,互联网普及率逐渐上升,信息公开化程度逐步提高,网络已经成为新闻事件报道和传播的重要平台。互联网上新闻网页的数量急剧增长,新闻量和冗余信息的增加,给阅读和信息分析带来了新的挑战。快速、精准地从新闻报道中自动抽取新闻事件信息,尤其是新闻事件的关键信息,一方面,能够辅助分析和管理新闻事件,降低人工成本,提高分析效率;另一方面,能够为网络舆情的监控和预警、热点事件的检索和追踪、智能问答系统及大数据决策支持等上层应用提供支持,具有广泛的应用前景。新闻事件是指发生在某时某地的一件特别的事情,它可以由许多信息组成,其中较为关键的信息包括:事件发生的时间、事件发生的地点、事件的参与者、事件的关键词和事件的某些关键数字等。这些信息不仅有助于新闻阅读者快速把握新闻事件的主体内容信息,而且可以为海量新闻数据的自动分析和处理提供必要的基础内容。由于新闻文本在形式上具有词汇、句式规范、篇章结构统一、语言风格稳定等特点,使得自动抽取新闻事件的关键信息成为可能。然而,目前最常见的新闻抽取系统所解决的问题主要是从新闻网页中抽取正文中的个别句子作为新闻摘要或者对新闻正文进行简单的分类处理,关于理解新闻事件内容,特别是自动地、可解释地进行事件信息抽取等方面的工作仍然空缺。有鉴于此,特提出本发明。技术实现要素:为了解决现有技术中的上述问题,即为了解决如何自动、快速、充分地挖掘新闻事件信息的技术问题而提供一种基于规划-目标图的新闻事件信息抽取方法。为了实现上述目的,提供了以下技术方案:一种基于规划-目标图的新闻事件信息抽取方法,该方法包括:抽取新闻文本的新闻实体信息和关键词信息;基于新闻实体信息和关键词信息,建立新闻事件信息抽取规划-目标图;设置新闻事件信息抽取规划-目标图的状态;根据新闻事件信息抽取规划-目标图的状态,建立新闻事件信息抽取规划-目标图的判定规则;执行新闻事件信息抽取规划-目标图的判定规则,抽取新闻事件信息。进一步地,抽取新闻文本的新闻实体信息和关键词信息具体包括:将新闻文本分为:标题、摘要和正文;针对标题、摘要和正文,分别进行分词、词性标注和命名实体识别处理,抽取出时间实体、地点实体、人物实体、机构实体,并提取出正文的关键词。进一步地,当时间实体和地点实体为多个时,将多个时间实体中的一个作为时间实体抽取值,将多个地点实体中的一个多为地点实体抽取值。进一步地,基于新闻实体信息和关键词信息,建立新闻事件信息抽取规划-目标图,具体包括:基于新闻实体信息和关键词信息,建立层级节点关系图;其中,层级节点关系图由规划节点和目标节点交替组成;设置同一目标节点的多个规划节点之间的优先级。进一步地,设置新闻事件信息抽取规划-目标图的状态具体包括:设置规划节点和目标节点的逻辑属性;确定同一目标节点的多个规划节点之间的优先级。进一步地,执行新闻事件信息抽取规划-目标图的判定规则,抽取新闻事件信息,具体包括:当顶层节点的逻辑属性为真时,根据目标节点的规划节点的优先级,抽取新闻事件信息。进一步地,新闻事件信息包括新闻文本的时间、地点、参与者和事件关键词信息。本发明实施例提供一种基于规划-目标图的新闻事件信息抽取方法。其中,该方法可以包括:抽取新闻文本的新闻实体信息和关键词信息;基于新闻实体信息和关键词信息,建立新闻事件信息抽取规划-目标图;设置新闻事件信息抽取规划-目标图的状态;根据新闻事件信息抽取规划-目标图的状态,建立新闻事件信息抽取规划-目标图的判定规则;执行新闻事件信息抽取规划-目标图的判定规则,抽取新闻事件信息。本发明实施例通过对抽取任务进行子目标与子规划的划分,建立新闻事件信息抽取规划-目标图及其判定规则,并据此来抽取新闻事件信息。由此,本发明实施例解决了如何自动、快速、充分地挖掘新闻事件信息的技术问题,能够实现对新闻信息的高效自动整理;具有非常强的过程解释性,能够根据规划-目标图的节点属性和判定规则随时追踪抽取任务的进程和状态;同时本发明实施例还具有非常强的操作扩展性,能够在不改变方法进程的同时,对规划节点和目标节点进行灵活地增、删、改等操作。本发明实施例公开的方法能为新闻事件检索、新闻报道跟踪和舆情分析等上层应用提供支持。附图说明图1是根据本发明实施例的基于规划-目标图的新闻事件信息抽取方法的流程示意图;图2是根据本发明实施例的新闻事件信息抽取规划-目标示意图。具体实施方式下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。在实际应用中,为了解决如何自动、快速、充分地挖掘新闻事件信息的技术问题。本发明实施例提供一种基于规划-目标图的新闻事件信息抽取方法。如图1所示,该方法可以包括:S100:抽取新闻文本的新闻实体信息和关键词信息。具体地,本步骤可以包括:S101:将新闻文本分为:标题、摘要和正文。在一个优选的实施例中,将新闻文本的首段文本确定为摘要;将新闻文本中除去标题和摘要后的内容确定为正文。举例来说,标题可以为“歼—10女飞行员余旭在训练中不幸牺牲”。摘要可以为“11月12日,空军歼—10女飞行员余旭,在天津武清上空进行飞行训练时不幸牺牲。”。正文可以为“空军新闻发言人申进科表示,飞行是勇敢者的事业,确保飞行安全是世界各国空军的共同追求和良好愿望。空军女飞行员余旭同志在飞行训练中不幸牺牲,我们失去了一名好战友。空军官兵对余旭同志的不幸牺牲深表痛惜,深表哀悼。空军要继续坚持从难从严训练,忠实履行使命责任,不负祖国和人民对空军的期望。牺牲的女飞行员余旭,1986年出生于四川崇州,2005年9月入伍,空军上尉,二级飞行员,为空军八一飞行表演队中队长。2005年,余旭考入中国人民解放军空军航空大学,成为第八批女飞行学员,2009年4月成为北空某部飞行员。2009年10月1日,参加中华人民共和国国庆60周年阅兵,担任教—8梯队三中队右二僚机。2012年7月29日,驾驭中国自主研发的三代战机首次单飞。余旭不仅是中国首批歼击机女飞行员,也是中国第一位歼—10战斗机女飞行员。她还曾参加国庆60周年阅兵,担任教—8梯队三中队右二僚机。在参加2015年纪念抗日战争胜利70周年阅兵时,她作为地面备份人员,为左边位置3号机备份。在八一飞行表演队中,余旭的代号是“金孔雀”,是全国仅有的几名具备表演机飞行资格的女飞行员之一。”。S102:针对标题、摘要和正文,分别进行分词、词性标注和命名实体识别处理,抽取出时间实体、地点实体、人物实体、机构实体,并提取出正文的关键词。在一个可选的实施例中,对于步骤S102,当时间实体和地点实体有多个时,可以只保留第一个抽取值,即将多个时间实体中的一个作为时间实体抽取值,将多个地点实体中的一个作为地点实体抽取值。表1示例性地示出了对新闻文本进行新闻实体信息和关键词信息抽取后得到的信息。表1:S110:基于新闻实体信息和关键词信息,建立新闻事件信息抽取规划-目标图。具体地,本步骤可以通过步骤S111至步骤S112来实现。S111:基于新闻实体信息和关键词信息,建立层级节点关系图,该层级节点关系图由规划节点和目标节点交替组成。其中,目标节点代表实现事件类新闻信息(即新闻事件信息)抽取任务的各个子目标。一个目标有多种规划方法,举例来说,“新闻事件的时间信息抽取”这个目标,可以采取“从标题中抽取时间信息”的规划方法,也可以采取“从摘要中抽取时间信息”的规划方法,还可以采取“从正文中抽取时间信息”的规划方法。组成目标节点的若干规划节点之间是“逻辑或”的关系。其中,规划节点代表为了实现某个目标而采用的方法规划,一个规划可以分成若干个子目标来完成,组成规划节点的若干目标节点之间是“逻辑与”的关系。每个规划节点和目标节点都有属性,属性表示规划节点和目标节点的状态。S112:设置同一目标节点的多个规划节点之间的优先级。下面以优选实施例的方式来详细说明建立层级节点关系图的过程。需要说明的是,该优选实施例不代表实施例的优劣,仅仅为更好地说明本发明。设置规划-目标图的顶层节点为规划节点P0,还可设置顶层规划节点由四个目标节点组成,即:G1“时间信息抽取”、G2“地点信息抽取”、G3“参与者信息抽取”、G4“关键词信息抽取”。其中,G表示GOAL,G1即GOAL1,其他以此类推;P表示PLAN,P0即PLAN0,其他以此类推。应指出的是,新闻事件可以不限于本优选实施例中列举的四个目标节点,其还可以有其他目标节点,比如新闻情感信息、新闻分类信息等。其中,目标节点G1“时间信息抽取”包括三种规划节点,分别为P11“从标题中抽取时间信息”、P12“从摘要中抽取时间信息”和P13“从正文中抽取时间信息”;目标节点G2“地点信息抽取”包括三种规划节点,分别为P21“从标题中抽取地点信息”、P22“从摘要中抽取地点信息”和P23“从正文中抽取地点信息”;目标节点G3“参与者信息抽取”包括三种规划节点,分别为P31“从标题中抽取参与者信息”、P32“从摘要中抽取参与者信息”和P33“从正文中抽取参与者信息”;目标节点G4“关键词信息抽取”包括三种规划节点,分别为P41“从标题中抽取关键词信息”、P42“从摘要中抽取关键词信息”和P42“从正文中抽取关键词信息”。其中,G表示GOAL,G1即GOAL1,其他以此类推;P表示PLAN,P1即PLAN1,其他以此类推。图2示例性地示出了新闻事件信息抽取规划-目标示意图。S120:设置新闻事件信息抽取规划-目标图的状态。具体地,本步骤可以通过步骤S121至步骤S122来实现。S121:设置规划节点和目标节点的逻辑属性。每个规划节点和目标节点都有逻辑属性,逻辑属性表示规划节点和目标节点的状态。本发明实施例可以设置全部规划节点和目标节点的逻辑属性值为假或真。举例来说,可以设置全部规划节点和目标节点的属性值为假。当标题时间实体存在时,P11的逻辑属性为真;当摘要时间实体存在时,P12的逻辑属性为真;当正文时间实体存在时,P13的逻辑属性为真;当标题地点实体存在时,P21的逻辑属性为真。当摘要地点实体存在时,P22的逻辑属性为真;当正文地点实体存在时,P23的逻辑属性为真;当标题参与者实体存在时,P31的逻辑属性为真;当摘要参与者实体存在时,P32的逻辑属性为真。当正文参与者实体存在时,P33的逻辑属性为真;当标题关键词实体存在时,P41的逻辑属性为真;当摘要关键词实体存在时,P42的逻辑属性为真;当正文关键词实体存在时,P43的逻辑属性为真。S122:确定同一目标节点的多个规划节点之间的优先级。作为示例,以顶层节点P0、目标节点G1“时间信息抽取”、G2“地点信息抽取”、G3“参与者信息抽取”、G4“关键词信息抽取”为例,其中,G1的规划节点为P11、P12、P13;G2的规划节点为P21、P22、P23;G3的规划节点为P31、P32、P33;G4的规划节点为P41、P42、P43。确定目标节点G1的规划节点优先级时,可以确定P11优先级最高,P12优先级次之,P13优先级最低。确定目标节点G2的规划节点优先级时,可以确定P21优先级最高,P22优先级次之,P23优先级最低。确定目标节点G3的规划节点优先级时,可以确定P31优先级最高,P32优先级次之,P33优先级最低。确定目标节点G4的规划节点优先级时,可以确定P41优先级最高,P42优先级次之,P43优先级最低。表2示例性地示出了新闻事件信息抽取规划-目标图初始状态。表2:S130:根据新闻事件信息抽取规划-目标图的状态,建立新闻事件信息抽取规划-目标图的判定规则。举例来说,以顶层节点P0、目标节点G1“时间信息抽取”、G2“地点信息抽取”、G3“参与者信息抽取”、G4“关键词信息抽取”为例,其中,G1的规划节点为P11、P12、P13;G2的规划节点为P21、P22、P23;G3的规划节点为P31、P32、P33;G4的规划节点为P41、P42、P43。如果P11的逻辑属性为真或P12的逻辑属性为真或P13的逻辑属性为真,那么G1的逻辑属性为真;如果P21的逻辑属性为真或P22的逻辑属性为真或P23的逻辑属性为真,那么G2的逻辑属性为真;如果P31的逻辑属性为真或P32的逻辑属性为真或P33的逻辑属性为真,那么G3的逻辑属性为真;如果P41的逻辑属性为真或P42的逻辑属性为真或P43的逻辑属性为真,那么G4的逻辑属性为真;如果G1的逻辑属性为真与G2的逻辑属性为真与G3的逻辑属性为真与G4的逻辑属性为真,那么P0的逻辑属性为真。S140:执行新闻事件信息抽取规划-目标图的判定规则,抽取新闻事件信息。具体地,本步骤可以包括:当顶层节点的逻辑属性为真时,根据目标节点的规划节点的优先级,抽取新闻事件信息。作为示例,抽取新闻事件信息可以为依次抽取新闻文本的时间、地点、参与者和事件关键词信息。表3示例性地示出了执行新闻事件信息抽取规划-目标图的判定规则,抽取得到的新闻事件信息。表3:示例新闻事件信息信息值事件发生时间11月12日事件发生地点天津武清事件参与者余旭事件关键词歼—10,女飞行员,训练,牺牲下面以一优选实施例来对本发明进一步详细说明。本优选实施例以《南京日报》的一篇文章“歼—10女飞行员余旭在训练中不幸牺牲”为例。其中,新闻原文如下:“11月12日,空军歼—10女飞行员余旭,在天津武清上空进行飞行训练时不幸牺牲。空军新闻发言人申进科表示,飞行是勇敢者的事业,确保飞行安全是世界各国空军的共同追求和良好愿望。空军女飞行员余旭同志在飞行训练中不幸牺牲,我们失去了一名好战友。空军官兵对余旭同志的不幸牺牲深表痛惜,深表哀悼。空军要继续坚持从难从严训练,忠实履行使命责任,不负祖国和人民对空军的期望。牺牲的女飞行员余旭,1986年出生于四川崇州,2005年9月入伍,空军上尉,二级飞行员,为空军八一飞行表演队中队长。2005年,余旭考入中国人民解放军空军航空大学,成为第八批女飞行学员,2009年4月成为北空某部飞行员。2009年10月1日,参加中华人民共和国国庆60周年阅兵,担任教—8梯队三中队右二僚机。2012年7月29日,驾驭中国自主研发的三代战机首次单飞。余旭不仅是中国首批歼击机女飞行员,也是中国第一位歼—10战斗机女飞行员。她还曾参加国庆60周年阅兵,担任教—8梯队三中队右二僚机。在参加2015年纪念抗日战争胜利70周年阅兵时,她作为地面备份人员,为左边位置3号机备份。在八一飞行表演队中,余旭的代号是“金孔雀”,是全国仅有的几名具备表演机飞行资格的女飞行员之一。”S200:将新闻文本分为:标题、摘要和正文。其中,标题为“歼—10女飞行员余旭在训练中不幸牺牲”;摘要为“11月12日,空军歼—10女飞行员余旭,在天津武清上空进行飞行训练时不幸牺牲”;正文为“空军新闻发言人申进科表示,飞行是勇敢者的事业,确保飞行安全是世界各国空军的共同追求和良好愿望。空军女飞行员余旭同志在飞行训练中不幸牺牲,我们失去了一名好战友。空军官兵对余旭同志的不幸牺牲深表痛惜,深表哀悼。空军要继续坚持从难从严训练,忠实履行使命责任,不负祖国和人民对空军的期望。牺牲的女飞行员余旭,1986年出生于四川崇州,2005年9月入伍,空军上尉,二级飞行员,为空军八一飞行表演队中队长。2005年,余旭考入中国人民解放军空军航空大学,成为第八批女飞行学员,2009年4月成为北空某部飞行员。2009年10月1日,参加中华人民共和国国庆60周年阅兵,担任教—8梯队三中队右二僚机。2012年7月29日,驾驭中国自主研发的三代战机首次单飞。余旭不仅是中国首批歼击机女飞行员,也是中国第一位歼—10战斗机女飞行员。她还曾参加国庆60周年阅兵,担任教—8梯队三中队右二僚机。在参加2015年纪念抗日战争胜利70周年阅兵时,她作为地面备份人员,为左边位置3号机备份。在八一飞行表演队中,余旭的代号是‘金孔雀’,是全国仅有的几名具备表演机飞行资格的女飞行员之一。”其中,摘要指新闻文本正文的首段文本,正文指除去标题和摘要后的新闻文本。S201:对标题、摘要和正文进行分词、词性标注和命名实体识别,抽取出时间实体、地点实体、人物实体、机构实体,并提取出正文的关键词。S202:当时间实体和地点实体有多个时,保留第一个抽取值。表4示例性地示出了经过步骤3处理后得到的信息。表4:S203:建立层级节点关系图,该层级节点关系图由规划节点和目标节点交替组成。S204:设置同一目标节点的多个规划节点之间的优先级。S205:设置规划节点和目标节点的逻辑属性如下:当标题时间实体存在时,P11的逻辑属性为真;当摘要时间实体存在时,P12的逻辑属性为真;当正文时间实体存在时,P13的逻辑属性为真;当标题地点实体存在时,P21的逻辑属性为真。当摘要地点实体存在时,P22的逻辑属性为真;当正文地点实体存在时,P23的逻辑属性为真;当标题参与者实体存在时,P31的逻辑属性为真;当摘要参与者实体存在时,P32的逻辑属性为真。当正文参与者实体存在时,P33的逻辑属性为真;当标题关键词实体存在时,P41的逻辑属性为真;当摘要关键词实体存在时,P42的逻辑属性为真;当正文关键词实体存在时,P43的逻辑属性为真。S206:确定同一目标节点的多个规划节点之间的优先级如下:对于目标节点G1的规划节点优先级,确定P11优先级最高,P12优先级次之,P13优先级最低;对于目标节点G2的规划节点优先级,确定P21优先级最高,P22优先级次之,P23优先级最低;对于目标节点G3的规划节点优先级,确定P31优先级最高,P32优先级次之,P33优先级最低;对于目标节点G4的规划节点优先级,确定P41优先级最高,P42优先级次之,P43优先级最低。S207:根据新闻事件信息抽取规划-目标图的状态,建立新闻事件信息抽取规划-目标图的判定规则如下:如果P11的逻辑属性为真或P12的逻辑属性为真或P13的逻辑属性为真,那么G1的逻辑属性为真;如果P21的逻辑属性为真或P22的逻辑属性为真或P23的逻辑属性为真,那么G2的逻辑属性为真;如果P31的逻辑属性为真或P32的逻辑属性为真或P33的逻辑属性为真,那么G3的逻辑属性为真;如果P41的逻辑属性为真或P42的逻辑属性为真或P43的逻辑属性为真,那么G4的逻辑属性为真;如果G1的逻辑属性为真与G2的逻辑属性为真与G3的逻辑属性为真与G4的逻辑属性为真,那么顶层节点P0的逻辑属性为真。S208:当顶层节点的属性为真时,根据目标节点的规划节点的优先级,依次抽取新闻文本的时间、地点、参与者和关键词信息。本发明实施例提供的基于规划-目标图的新闻事件信息抽取方法,通过对抽取任务进行子目标与子规划的划分,能够实现对新闻信息的高效自动整理。本发明实施例具有非常强的过程解释性,能够根据规划-目标图的节点属性和判定规则随时追踪到抽取任务的进程和状态;本发明实施例同时具有非常强的操作扩展性,能够在不改变方法进程的同时,对规划节点和目标节点进行灵活地增、删、改等操作。本发明实施例公开的方法能为新闻事件检索、新闻报道跟踪和舆情分析等上层应用提供支持。上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。本发明实施例提供的方法既可以在个人计算机、工控机及服务器上以软件的形式安装并执行,也可将方法做成嵌入式芯片以硬件的形式来体现。本发明实施例提供的方法还可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等),例如根据本发明的实施例可以是一种计算机程序产品,运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如:采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如:RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。以上对本发明的示例实施例的详细描述是为了说明和描述的目的而提供。不是为了穷尽或将本发明限制为所描述的精确形式。显然,许多变型和改变对本领域技术人员而言是显而易见的。实施例的选择和描述是为了最佳地说明本发明的原理及其实际应用,从而使本领域其他技术人员能够理解本发明的各种实施例和适于特定使用预期的各种变型。本发明的实施例可以省略上述技术特征中的一些技术特征,仅解决现有技术中存在的部分技术问题。而且,所描述的技术特征可以进行任意组合。本发明的保护范围由所附权利要求及其等价物来限定,本领域技术其他人员可以对所附权利要求中所描述的技术方案进行各种变型或替换和组合,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1