本发明涉及一种事件表示方法,特别是涉及一种面向认知分析的中文事件表示方法。
背景技术:
事件是关联参与者、时间、地点和行为等要素的知识单元,能够反映现实世界中的运动和变化。海量互联网等信息来源中的包含大量以文本形式表示的各类社会事件。事件是新闻等文本记述的主体,以认知为目标,建立事件模型并实现事件信息的提取,以结构化的方式清晰地表达信息承载的主要语义内容,是实现海量文本信息有效组织和机器理解的基础。以面向认知的事件表示模型为基础,从海量中文文本信息中提取政治、军事、外交等领域的社会事件信息,形成社会事件数据储备,并在此基础上进行事件的认知计算,是大数据时代进行社会认知计算的重要途径。
建立一种面向认知分析的中文事件表示方法,需要根据事件的关键属性建立结构化表示模型,并对事件性质建立分类体系,并给出依该体系构建分类器的基本方法。目前,国际上已有若干针对英文的事件分类体系,如政治事件分类体系CAMEO等,但针对中文的事件分类体系尚未形成标准。
技术实现要素:
发明目的:本发明的目的是提供一种能够解决现有技术中存在的缺陷的面向认知分析的中文事件表示方法。
技术方案:本发明所述的面向认知分析的中文事件表示方法,该方法包括以下步骤:
S1:输入待处理的中文文本,进行格式调整和语句分割这两种预处理;
S2:采用自然语言处理工具对文本进行句法解析,准确识别主语、宾语实体和谓语动词,识别对应语句中的时间、地点实体;
S3:进行事件信息提取,包括事件发生的时间、地点及其经纬度编码、事件的发起者与承受者及其所属国家、事件动作,事件的报道时间、重复报道次数和原始信息来源;
S4:进行事件性质判定,根据步骤S3中提取的事件动作信息,辅助考虑事件发起者与承受者的社会属性,将事件划归为20类事件中的一类;
S5:基于步骤S3和S4的处理结果,将事件进行结构化表示和编码,加入事件数据库。
进一步,事件性质分类体系针对政治、军事和外交领域的社会事件,包括公开声明、呼吁、表达合作意向、商议、进行外交合作、进行实质合作、提供援助、让步、调查、要求、不赞成、拒绝、威胁、抗议、展示军事姿态、减少关系、强迫、侵犯、战斗和进行非常规大规模暴力这20类。
有益效果:与现有技术相比,本发明具有如下的有益效果:
1)建立了结构化的事件表示模型,以此为基础,能够实现事件信息的提取,以结构化的方式清晰地表达信息承载的主要语义内容;
2)建立了事件性质分类体系,并给出依该体系构建分类器的基本方法,能够依此实现事件性质的判定,为认知计算提供量化基础。
附图说明
图1为本发明的方法流程图。
具体实施方式
本发明公开了一种面向认知分析的中文事件表示方法,如图1所示,该方法包括以下步骤:
S1:输入待处理的中文文本,进行格式调整和语句分割这两种预处理;
S2:采用自然语言处理工具对文本进行句法解析,准确识别主语、宾语实体和谓语动词,识别对应语句中的时间、地点实体;
S3:依据事件表示模型进行事件信息提取,包括事件发生的时间、地点及其经纬度编码、事件的发起者与承受者及其所属国家、事件动作,事件的报道时间、重复报道次数和原始信息来源;
S4:进行事件性质判定,根据步骤S3中提取的事件动作信息,辅助考虑事件发起者与承受者的社会属性,依据分类器,将事件划归为20类事件中的一类;
S5:基于步骤S3和S4的处理结果,将事件进行结构化表示和编码,加入事件数据库。
事件表示模型如表1所示。模型由ID、PostTime、EventTime、StoryNum、Actor1Name、Actor1Country、Actor1Lat、Actor1Long、Actor2Name、Actor2Country、Actor2Lat、Actor2Long、Action、ActionCountry、ActionLat、ActionLong、Category、Content、URL等字段组成,如表1所示,用于记录有关于什么时间、于什么地点、什么人物(或组织)对什么人物(或组织)做了什么类型的事情。
表1事件表示模型示例
其中,
ID:事件的全局统一标识;
PostTime:事件被报道/发布的日期,格式为YYYYMMDD;
EventTime:事件发生的日期,格式为YYYYMMDD;
StoryNum:事件在不同数据源中被重复提取到的次数,如不同新闻媒体对同一事件的重复报道次数,该属性用于衡量事件的舆论重要性;
Actor1Name:事件发起者的名称,例如国家、省、市的全称,人名或组织的名称等;
Actor1Country:事件发起者所属的国家,使用三位ISO 3166国家编码;
Actor1Lat:事件发起者所属行政区划的地理位置纬度;
Actor1Long:事件发起者所属行政区划的地理位置经度;
Actor2Name事件承受者的名称,例如国家、省、市的全称,人名或组织的名称等;
Actor2Country:事件承受者所属的国家,使用三位ISO 3166国家编码;
Actor2Lat:事件发起者所属行政区划的地理位置纬度;
Actor2Long:事件发起者所属行政区划的地理位置经度;
Action:事件的行为;
ActionCountry:事件发生地所属的国家,使用三位ISO 3166国家编码;
ActionLat:事件发生地所属行政区划的地理位置纬度;
ActionLong:事件发生地所属行政区划的地理位置纬度;
Category:事件类型,根据步骤S2进行分类判定;
Content:抽取该事件对应的文本原文内容;
URL:该事件被抽取的原文对应的网页URL;非网络来源的该字段可空缺。
本发明可用于中文新闻等文本的处理,应用于从海量中文文本信息中提取政治、军事、外交等领域的社会事件信息并进行结构化表示,形成社会事件数据储备,支持在此基础上进行事件的认知计算,为海量事件数据的表示、组织、存储管理和认知分析应用提供了现实可行性,为实现海量文本信息有效组织和机器理解奠定基础。
本发明提供了一种面向认知分析的中文事件表示方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。