一种基于事件要素的事件抽取方法及系统与流程

文档序号：12271386阅读：290来源：国知局

本发明属于数据挖掘技术领域，具体涉及一种基于事件要素的事件抽取方法及系统。

背景技术：

由于现在互联网的发展，以微博为代表的自媒体大行其道，相比起官方的通告，互联网自媒体的声音要更迅速，更贴近。对于应对各类突发事件(如火灾、地震等)，互联网上的信息变得尤为重要，但面对互联网庞大的数据增量，这类数据又显得极为稀疏，因此从互联网庞大的声音中找到各类突发事件的声音，以便即使的做出响应和对策，是现在无论政府还是企业都迫切需要的一种数据挖掘能力。

技术实现要素：

本发明的目的在于解决上述的技术问题而提供一种基于事件要素的事件抽取方法及系统。

为实现上述目的，本发明采用如下技术方案：

一种基于事件要素的事件抽取方法，包括以下步骤：

根据预设事件识别模型，对显示在预设长度文本窗口内的数据中所包含的事件构成要素识别：

根据该预设事件识别模型，对所述数据中所包含的事件特征词进行识别；

对所述事件特征词以及事件构成要素组合成描述相应事件的新的数据对象。

本发明的目的还在于提供一种基于事件要素的事件抽取系统，包括:

要素识别模块，用于根据预设事件识别模型，对显示在预设长度文本窗口内的数据中所包含的事件构成要素识别：

特征词识别模块，用于根据该预设事件识别模型，根据预设事件识别模型对所述数据中所包含的事件特征词进行识别；

数据组合模块，用于对所述事件特征词以及事件构成要素组合成描述相应事件的新的数据对象。

本发明通过数据中所包含的事件的构成要素进行识别后，利用预置的要素同现模型识别出该数据中包含的事件特征词，原来将事件特征词与事件的构成要素进行组合，形成新的描述事件的数据对象，从而实现快速对互联网上传播的数据的抽取，且本发明事件抽取方法可控可干预，从而可极大地满足互联网信息中数据抽取的需要，最终获得效果理想的事件识别结果。

附图说明

图1为本发明实施例提供的基于事件要素的事件抽取方法的流程图；

图2为本发明实施例提供的基于事件要素的事件抽取系统的原理图。

具体实施方式

下面，结合实例对本发明的实质性特点和优势作进一步的说明，但本发明并不局限于所列的实施例。

本发明是通过要素识别、复合以及同现手段以实现对事件自动化的提取的。

见图1所示，一种基于事件要素的事件抽取方法，包括

根据预设事件识别模型，对显示在预设长度文本窗口内的数据中所包含的事件构成要素识别：

根据该预设事件识别模型对所述数据中所包含的事件特征词进行识别；

对所述事件特征词以及事件构成要素组合成描述相应事件的新的数据对象。

所述预设长度文本窗口可以根据需要来设定，如可以根据数据的事件表达的经验值来设定相应的文本窗口的长度，以使一个文本窗口内数据可以表述一个完整的事件为原则。

所述事件构成要素主要是指能构成一个事件的关键要素，该要素组合起来能完整、简要地描述一个事件的发生时间、地点等。

所述事件特征词，是能够确定事件内容的一类特征词，通常是事件具体描述词，是指能表述事件或描述事件的主要特征的词，即描述这是一个什么事件，如火灾事件或爆炸事件。

由于不同类型的事件在互联网文本传播时，在一定文本窗口内所出现的要素类型及要素内容是不同的，也就是说同一个要素内容对于不同的事件贡献不同，根据事件识别模型及数据文本的要素的同现情况，就能确定这段文本数据的具体事件描述。

所述预设事件识别模型根据不同事件抽取的需要而设置，因而对应不同的事件抽取需要，可以是多个事件识别模型，如火灾事件识别模型、爆炸事件识别模型等，不同的事件识别模型要求同现的要素不同，如火灾事件识别模型要求同现的要素可以是事件构成要素如时间、地点与对应的火灾特征词，而爆炸事件识别模型要求同现的要素可以是事件构成要素如时间、地点与对应的爆炸特征词。

如原始文本为：“2016年1月15日凌晨2:50左右，东关镇东华社区一民房因电线老化漏电发生火灾”

利用火灾同现模型，形成的新的数据对象如下：

文本内容：2016年1月15日凌晨2:50左右，东关镇东华社区一民房因电线老化漏电发生火灾

事件特征词：火灾

发生时间：2016年1月15日凌晨2:50

发生地点：东关镇。

具体实现上，本发明中，所述事件构成要素可以是包括时间、地点、数量以及人物；所述数量包括数字及对应的数量单位。

所述时间如数据中的包含的“14年5月20日12点24分”，地点如数据中包含的的“济南市”，数量如数据中包含的“1，111平方米”，人物如数据中包含的“张某某说”。

进一步的，本发明中，在对事件构成要素识别还包括以下格式化的步骤：

对识别出的时间要素，按预置方法进行格式归一化处理转换统一的时间格式；

对识别出的数量要素，将数量要素中的数字与对应的数量单位拆分，将数字转换为预设的数字格式；

对识别出的地点要素，根据地点分类标准将地点分为多级，并给每个地点赋予上级行政区划的属性；

对识别的出人物要素进行格式化处理，提取出相应的人名。

具体的，对上述关于对时间要素、数量要素及地点要素的处理可以是采用如下方法：

时间----从文本中识别出时间，并对时间进行格式归一化，时间分为绝对时间和相对时间：

绝对时间转化为标准时间格式，如14年5月20日12点24分，转化为：2014-05-20 12:24:00；

相对时间通过基准时间进行调整，并转化为标准时间格式；

如昨天(基准时间2014-05-20 12:24:00，)转化为2014-05-19 12:24:00。

地点---从文本中识别出地点，根据地点分类标准，将地点可以分为5级(如国家，省，市，区县，乡镇)，并给每个地点赋予高级行政区划的属性。

如济南市，级别为3级，高级行政区划：中国-山东省。

数量---从文本中识别出数字，对数字进行分类，将数字中的数和单位拆分，数转化为标准的数字格式。

如：1，111平方米，格式化数字：1111，单位：平方米。

人物---从文本中识别出人名。

如：张某某说，格式化人名：张某某。

通过以上的方法，对数据中包含的时间、地点、数量要素进行统一处的处理，形成了统一的格式，便于事件抽取时数据处理统一。

进一步的，本发明中，在对事件构成要素中的时间、地点、数量要素识别出后还包括以下步骤：

根据预选设置的时间、地点、数量的筛选条件，对识别出的事件构成要素中的时间、地点、数量进行筛选。

通过对识别出的地名，时间，数字可以再进行针对性地筛选，可以取得更为细分的结果，从而满足相应的事件识别要求，输出符合要求的事件识别结构，使得事件识别处理更为准确。

具体的，在时间筛选上，可以通过日期比较筛选实现：筛选某一天前后的日期或某个区间的日期；时间筛选：筛选某个时间点前后的时间或某个区间的时间；自定义时间段筛选：可以自定义筛选某个时间特征，如：2016－05－27前的日期，09：10：00后的时间，4月份的时间

地点，根据行政区划进行筛选，如属于中国河南的地点，属于中国浙江省慈溪市的地点

数字，根据数字大小筛选，单位筛选；如大于20的数，单位是“小时”的数量。

需要说明的是，本发明中，所述对显示在预设长度文本窗口内的数据中所包含的事件构成要素识别时以在句内的数据为限进行识别。

事件模型的一重要维度，通常分为整句(句号等结尾)，半句(逗号等结尾)两种划分，因此事件识别模型通过以在句内的数据为限进行识别，能够降低自然语言在跨句时的歧义问题。

如文本窗口内显示的原始文本内容为“2016年1月15日凌晨2:50左右，东关镇东华社区一民房因电线老化漏电发生火灾”

该火灾事件识别模型要求必须包括的要素有：时间+地点+火灾特征词(一句话内)

事件特征词：火灾

事件时间：2016年1月15日凌晨2:50

时间地点：东关镇。

本发明的目的还在于提供一种基于事件要素的事件抽取系统，包括：

要素识别模块，用于根据预设事件识别模型，对显示在预设长度文本窗口内的数据中所包含的事件构成要素识别：

特征词识别模块，用于根据该预设事件识别模型，根据预设事件识别模型对所述数据中所包含的事件特征词进行识别；

数据组合模块，用于对所述事件特征词以及事件构成要素组合成描述相应事件的新的数据对象。

所述的预设长度文本窗口可以根据需要来设定，如可以根据数据的事件表达的经验值来设定相应的文本窗口的长度，以使一个文本窗口内数据可以表述一个完整的事件为原则。

所述事件构成要素主要是指能构成一个事件的关键要素，该要素组合起来能完整、简要地描述一个事件的发生时间、地点等。

由于不同类型的事件在互联网文本传播时，在一定文本窗口内所出现的要素类型及要素内容是不同的，也就是说同一个要素内容对于不同的事件贡献不同，根据事件识别模型及数据文本的要素同现情况，就能确定这段文本数据的具体事件描述。

如原始文本为：“2016年1月15日凌晨2:50左右，东关镇东华社区一民房因电线老化漏电发生火灾”

利用火灾同现模型，形成的新的数据对象如下：

文本内容：2016年1月15日凌晨2:50左右，东关镇东华社区一民房因电线老化漏电发生火灾

事件特征词：火灾

发生时间：2016年1月15日凌晨2:50

发生地点：东关镇。

具体实现上，本发明中，所述事件构成要素包括时间、地点、数量以及人物；所述数量包括数字及对应的数量单位。

进一步的，本发明中，所述要素识别模块包括：

时间要素处理单元，用于对识别出的时间要素，按预置方法进行格式归一化处理转换统一的时间格式；

数量要素处理单元，用于对识别出的数量要素，将数量要素中的数字与对应的数量单位拆分，将数字转换为预设的数字格式；

地点要素处理单元，用于对识别出的地点要素，根据地点分类标准将地点分为多级，并给每个地点赋予上级行政区划的属性。

人名要素处理单元，用于对识别的出人物要素进行格式化处理，提取出相应的人名。

具体的，对上述关于对时间要素、数量要素及地点要素的处理可以是采用如下方法：

时间----从文本中识别出时间，并对时间进行格式归一化，时间分为绝对时间和相对时间：

绝对时间转化为标准时间格式，如14年5月20日12点24分，转化为：2014-05-20 12:24:00；

相对时间通过基准时间进行调整，并转化为标准时间格式；

如昨天(基准时间2014-05-20 12:24:00，)转化为2014-05-19 12:24:00。

地点---从文本中识别出地点，根据地点分类标准，将地点可以分为5级(如国家，省，市，区县，乡镇)，并给每个地点赋予高级行政区划的属性。

如济南市，级别为3级，高级行政区划：中国-山东省。

数量---从文本中识别出数字，对数字进行分类，将数字中的数和单位拆分，数转化为标准的数字格式。

如：1，111平方米，格式化数字：1111，单位：平方米。

人物---从文本中识别出人名。

如：张某某说，格式化人名：张某某。

通过以上的方法，对数据中包含的时间、地点、数量要素进行统一处的处理，形成了统一的格式，便于事件抽取时数据处理统一。

进一步的，本发明中，所述要素识别模块包括筛选单元，用于在对事件构成要素中的时间、地点、数量要素识别出后，根据预选设置的时间、地点、数量的筛选条件，对识别出的事件构成要素中的时间、地点、数量进行筛选。

地点，根据行政区划进行筛选，如属于中国河南的地点，属于中国浙江省慈溪市的地点

数字，根据数字大小筛选，单位筛选；如大于20的数，单位是“小时”的数量。

需要说明的是，本发明中，所述对显示在预设长度文本窗口内的数据中所包含的事件构成要素识别时以在句内的数据为限进行识别。

如文本窗口内显示的原始文本内容为“2016年1月15日凌晨2:50左右，东关镇东华社区一民房因电线老化漏电发生火灾”

该火灾事件识别模型要求必须包括的要素有：时间+地点+火灾特征词(一句话内)

事件特征词：火灾

事件时间：2016年1月15日凌晨2:50

时间地点：东关镇。

可以看出，本发明通过使用要素识别以及事件识别模型，能灵活的针对开放文本进行事件抽取，要素识别为后续处理提供了标准的格式化的事件要素，另外通过要素筛选，要素同现的事件特征词、句内设置及能够简单的对事件抽取效果进行干预，使事件抽取可运营，可干预，效果可控，通过模型的改进，最终获得效果理想的事件识别结果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：史墨轩;杨伟锋;
技术所有人：天津海量信息技术股份有限公司;
我是此专利的发明人

上一篇：基于边界交互的区组合拓扑相似性度量方法与流程
上一篇：一种基于敏感词的文本内容审核方法及系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。