本发明涉及自然语言处理技术领域,具体涉及一种事件时间轴挖掘方法与系统。
背景技术:
事件(event)是信息表示的一种主要形式,它是一种特定人、物、事在特定时间和特定地点相互作用的客观事实(也称“自然事件”),如人的受伤、死亡事件和食品的添加剂事件等。事件是客观事实诉诸文字的独特语用形式,而一篇文章一般由围绕某个话题或者相关主题的各种事件组成,这些事件表达了文章的核心内容。因而文本中的事件往往不是孤立个体,其发生与发展往往与外在的围绕同一话题的其他事件有着一定的关系,如“时序”关系。事件的时序关系是一种重要的事件关系,它连接了某一话题下事件从开始到结束的演变过程以及事件的相互关系,近年来成为信息抽取研究的一个热点。
目前,现有的事件时序分析中分析事件的元素相对单一,比如只分析事件发展过程的重要观点,造成事件时序分析结果较为单一、片面,不能够很好反映事件本身发生、发展和衰减的过程,以及事件在发生、发展和衰减的过程中出现的重要节点。
技术实现要素:
本发明的目的是提供一种事件时间轴挖掘方法与系统,能够从多个维度分析事件的发展,全面反映事件的发展过程,方便监测者监测事件的发展情况。
为解决以上技术问题,本发明实施例提供一种事件时间轴挖掘方法,包括:
采集目标事件的事件信息;
对所述事件信息进行实体识别,抽取所述目标事件的实体;
对所述事件信息进行语义分析,挖掘所述目标事件的事件元素;
对所述事件信息进统计分析,挖掘所述目标事件的重要节点;
对所述事件信息进统计分析,挖掘所述目标事件的发展阶段;
根据所述实体、所述事件元素、所述重要节点以及所述发展阶段,形成所述目标事件的事件时间轴。
优选地,所述事件时间轴挖掘方法还包括:
根据所述实体、所述事件元素、所述重要节点以及所述发展阶段,预测所述目标事件下的网民情绪以及线下活动。
优选地,所述对所述事件信息进行实体识别,抽取所述目标事件的实体,具体包括:
从所述事件信息中查找与收录在预设实体词典中的实体词相匹配的明显实体;
对所述事件信息进行crf句法分析,挖掘所述目标事件的模糊实体;
整合所述明显实体和所述模糊实体,形成所述目标事件的实体。
优选地,所述对所述事件信息进行crf句法分析,挖掘所述目标事件的模糊实体,具体包括:
对所述事件信息进行分词处理,形成训练语料集;
根据所述训练语料集,训练预设的crf模型;
根据所述预设的crf模型,预测所述模糊实体。
优选地,所述目标事件的事件元素包括所述目标事件发生的时间,地点以及相关人物。
优选地,所述对所述事件信息进统计分析,挖掘所述目标事件的重要节点,具体包括:
根据所述事件信息,查找所述事件信息中的大v人物的加入节点;
根据所述事件信息,计算所述目标事件的报道量、评论量以及转发量;
根据所述目标事件的报道量、评论量以及转发量,挖掘所述目标事件的时间转折节点;
整合所述大v人物的加入节点和所述目标事件的时间转折节点,获得所述目标事件的重要节点。
优选地,所述对所述事件信息进统计分析,挖掘所述目标事件的发展阶段,具体包括:
根据所述事件信息,计算所述目标事件的报道量、评论量以及转发量;
根据所述目标事件的报道量、评论量以及转发量,识别所述目标事件所属的发展阶段。
优选地,所述根据所述目标事件的报道量、评论量以及转发量,识别所述目标事件所属的发展阶段,具体包括:
所述目标事件的发展阶段包括上升期、爆发期、稳定期、衰退期;
统计所述目标事件在设定时间内的报道量、评论量以及转发量的总增幅;
判断所述总增幅位于的数值范围;
当所述总增幅位于预设的上升期范围时,所述目标事件的发展阶段为上升期;
当所述总增幅位于预设的爆发期范围时,所述目标事件的发展阶段为爆发期;
当所述总增幅位于预设的稳定期范围时,所述目标事件的发展阶段为稳定期;
当所述总增幅位于预设的衰退期范围时,所述目标事件的发展阶段为衰退期。
本发明实施例还提供一种事件时间轴挖掘系统,包括:
事件信息采集模块,用于采集目标事件的事件信息;
实体抽取模块,用于对所述事件信息进行实体识别,抽取所述目标事件的实体;
事件元素挖掘模块,用于对所述事件信息进行语义分析,挖掘所述目标事件的事件元素;
重要节点挖掘模块,用于对所述事件信息进统计分析,挖掘所述目标事件的重要节点;
发展阶段挖掘模块,用于对所述事件信息进统计分析,挖掘所述目标事件的发展阶段;
事件时间轴挖掘模块,用于根据所述实体、所述事件元素、所述重要节点以及所述发展阶段,形成所述目标事件的事件时间轴。
优选地,所述事件时间轴挖掘系统还包括:
隐含维度预测模块,用于根据所述实体、所述事件元素、所述重要节点以及所述发展阶段,预测所述目标事件下的网民情绪以及线下活动。
相对于现有技术,本发明实施例提供的一种事件时间轴挖掘方法的有益效果在于:所述事件时间轴挖掘方法包括:采集目标事件的事件信息;对所述事件信息进行实体识别,抽取所述目标事件的实体;对所述事件信息进行语义分析,挖掘所述目标事件的事件元素;对所述事件信息进统计分析,挖掘所述目标事件的重要节点;对所述事件信息进统计分析,挖掘所述目标事件的发展阶段;根据所述实体、所述事件元素、所述重要节点以及所述发展阶段,形成所述目标事件的事件时间轴。通过所述事件时间轴挖掘方法,能够从多个维度分析事件的发展,全面反映事件的发展过程,方便监测者监测事件的发展情况。本发明实施还提供一种事件时间轴挖掘系统。
附图说明
图1是本发明实施例提供的一种事件时间轴挖掘方法的流程图;
图2是本发明实施例提供的一种事件时间轴挖掘系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其是本发明实施例提供一种事件时间轴挖掘方法的流程图,所述事件时间轴挖掘方法包括:
s1:采集目标事件的事件信息;
s2:对所述事件信息进行实体识别,抽取所述目标事件的实体;
s3:对所述事件信息进行语义分析,挖掘所述目标事件的事件元素;
s4:对所述事件信息进统计分析,挖掘所述目标事件的重要节点;
s5:对所述事件信息进统计分析,挖掘所述目标事件的发展阶段;
s6:根据所述实体、所述事件元素、所述重要节点以及所述发展阶段,形成所述目标事件的事件时间轴。
本实施例中,通过所述目标事件的事件信息进行多层次的分析,获取所述目标事件的实体、事件元素、重要节点以及所属的发展阶段,并按照时间的先后顺序形成事件时间轴,实现所述目标事件的多个维度分析,全面反映事件的演化过程,方便监测者监测事件的发展情况。
在一种可选的实施例中,所述事件时间轴挖掘方法还包括:
根据所述实体、所述事件元素、所述重要节点以及所述发展阶段,预测所述目标事件下的网民情绪以及线下活动。
在本实施例中,根据所述实体、所述事件元素、所述重要节点以及所述发展阶段,预测所述目标事件引发的网民情绪以及线下活动。
在一种可选的实施例中,所述对所述事件信息进行实体识别,抽取所述目标事件的实体,具体包括:
从所述事件信息中查找与收录在预设实体词典中的实体词相匹配的明显实体;
对所述事件信息进行crf句法分析,挖掘所述目标事件的模糊实体;
整合所述明显实体和所述模糊实体,形成所述目标事件的实体。
在一种可选的实施例中,所述对所述事件信息进行crf句法分析,挖掘所述目标事件的模糊实体,具体包括:
对所述事件信息进行分词处理,形成训练语料集;
根据所述训练语料集,训练预设的crf模型;
根据所述预设的crf模型,预测所述模糊实体。
在本实施例中,训练后的crf模型保存了大量的文本特征,将所述事件信息输入训练后的crf模型,训练后的crf模型根据已保存的文本特征分析出模糊实体。例如:文本特征中有“书记”,则根据“书记”分析出描述的主体人名,获得人名实体。
在一种可选的实施例中,所述目标事件的事件元素包括所述目标事件发生的时间,地点以及相关人物。
在本实施例中,所述目标事件发生的时间,地点以及相关人物可以直接从步骤s2中的获得的实体进行分析抽取,或者直接对所述事件信息进行语义分析,获取所述目标事件发生的时间,地点以及相关人物。例如,根据所述目标事件的相关资讯,提取出相关实体(地名、人名等),实现所述目标事件发生地点以及相关人物的抽取;同时根据文本特征,如“据yyyy年mm月dd日xx网报道”,分析出所述目标事件发生的时间等。
在一种可选的实施例中,所述对所述事件信息进统计分析,挖掘所述目标事件的重要节点,具体包括:
根据所述事件信息,查找所述事件信息中的大v人物的加入节点;
根据所述事件信息,计算所述目标事件的报道量、评论量以及转发量;
根据所述目标事件的报道量、评论量以及转发量,挖掘所述目标事件的时间转折节点;
整合所述大v人物的加入节点和所述目标事件的时间转折节点,获得所述目标事件的重要节点。
在一种可选的实施例中,所述对所述事件信息进统计分析,挖掘所述目标事件的发展阶段,具体包括:
根据所述事件信息,计算所述目标事件的报道量、评论量以及转发量;
根据所述目标事件的报道量、评论量以及转发量,识别所述目标事件所属的发展阶段。
在一种可选的实施例中,所述根据所述目标事件的报道量、评论量以及转发量,识别所述目标事件所属的发展阶段,具体包括:
所述目标事件的发展阶段包括上升期、爆发期、稳定期、衰退期;
统计所述目标事件在设定时间内的报道量、评论量以及转发量的总增幅;
判断所述总增幅位于的数值范围;
当所述总增幅位于预设的上升期范围时,所述目标事件的发展阶段为上升期;
当所述总增幅位于预设的爆发期范围时,所述目标事件的发展阶段为爆发期;
当所述总增幅位于预设的稳定期范围时,所述目标事件的发展阶段为稳定期;
当所述总增幅位于预设的衰退期范围时,所述目标事件的发展阶段为衰退期。
请参阅图2,其是本发明实施例还提供一种事件时间轴挖掘系统的示意图,所述事件时间轴挖掘系统包括:
事件信息采集模块1,用于采集目标事件的事件信息;
实体抽取模块2,用于对所述事件信息进行实体识别,抽取所述目标事件的实体;
事件元素挖掘模块3,用于对所述事件信息进行语义分析,挖掘所述目标事件的事件元素;
重要节点挖掘模块4,用于对所述事件信息进统计分析,挖掘所述目标事件的重要节点;
发展阶段挖掘模块5,用于对所述事件信息进统计分析,挖掘所述目标事件的发展阶段;
事件时间轴挖掘模块6,用于根据所述实体、所述事件元素、所述重要节点以及所述发展阶段,形成所述目标事件的事件时间轴。
本实施例中,通过所述目标事件的事件信息进行多层次的分析,获取所述目标事件的实体、事件元素、重要节点以及所属的发展阶段,并按照时间的先后顺序形成事件时间轴,实现所述目标事件的多个维度分析,全面反映事件的演化过程,方便监测者监测事件的发展情况。
在一种可选的实施例中,所述事件时间轴挖掘系统还包括:
隐含维度预测模块,用于根据所述实体、所述事件元素、所述重要节点以及所述发展阶段,预测所述目标事件下的网民情绪以及线下活动。
在本实施例中,根据所述实体、所述事件元素、所述重要节点以及所述发展阶段,预测所述目标事件引发的网民情绪以及线下活动。
在一种可选的实施例中,所述实体抽取模块包括:
明显实体挖掘模块,用于从所述事件信息中查找与收录在预设实体词典中的实体词相匹配的明显实体;
模糊实体挖掘模块,用于对所述事件信息进行crf句法分析,挖掘所述目标事件的模糊实体;
实体整合模块,用于整合所述明显实体和所述模糊实体,形成所述目标事件的实体。
在一种可选的实施例中,所述模糊实体挖掘模块包括:
分词模块,用于对所述事件信息进行分词处理,形成训练语料集;
模型训练模块,用于根据所述训练语料集,训练预设的crf模型;
模糊实体预测模块,用于根据所述预设的crf模型,预测所述模糊实体。
在本实施例中,训练后的crf模型保存了大量的文本特征,将所述事件信息输入训练后的crf模型,训练后的crf模型根据已保存的文本特征分析出模糊实体。例如:文本特征中有“书记”,则根据“书记”分析出描述的主体人名,获得人名实体。
在一种可选的实施例中,所述目标事件的事件元素包括所述目标事件发生的时间,地点以及相关人物。
在本实施例中,所述目标事件发生的时间,地点以及相关人物可以直接从步骤s2中的获得的实体进行分析抽取,或者直接对所述事件信息进行语义分析,获取所述目标事件发生的时间,地点以及相关人物。例如,根据所述目标事件的相关资讯,提取出相关实体(地名、人名等),实现所述目标事件发生地点以及相关人物的抽取;同时根据文本特征,如“据yyyy年mm月dd日xx网报道”,分析出所述目标事件发生的时间等。
在一种可选的实施例中,所述重要节点挖掘模块包括:
大v节点查找模块,用于根据所述事件信息,查找所述事件信息中的大v人物的加入节点;
第一计算模块,用于根据所述事件信息,计算所述目标事件的报道量、评论量以及转发量;
时间转折节点挖掘模块,用于根据所述目标事件的报道量、评论量以及转发量,挖掘所述目标事件的时间转折节点;
节点整合模块,用于整合所述大v人物的加入节点和所述目标事件的时间转折节点,获得所述目标事件的重要节点。
在一种可选的实施例中,所述发展阶段挖掘模块包括:
第二计算模块,用于根据所述事件信息,计算所述目标事件的报道量、评论量以及转发量;
发展阶段识别模块,用于根据所述目标事件的报道量、评论量以及转发量,识别所述目标事件所属的发展阶段。
在一种可选的实施例中,所述发展阶段识别模块包括第三计算模块以及增幅判断模块,
所述目标事件的发展阶段包括上升期、爆发期、稳定期、衰退期;
所述第三计算模块,用于统计所述目标事件在设定时间内的报道量、评论量以及转发量的总增幅;
所述增幅判断模块,用于判断所述总增幅位于的数值范围;
当所述总增幅位于预设的上升期范围时,所述目标事件的发展阶段为上升期;
当所述总增幅位于预设的爆发期范围时,所述目标事件的发展阶段为爆发期;
当所述总增幅位于预设的稳定期范围时,所述目标事件的发展阶段为稳定期;
当所述总增幅位于预设的衰退期范围时,所述目标事件的发展阶段为衰退期。
相对于现有技术,本发明实施例提供的一种事件时间轴挖掘方法的有益效果在于:所述事件时间轴挖掘方法包括:采集目标事件的事件信息;对所述事件信息进行实体识别,抽取所述目标事件的实体;对所述事件信息进行语义分析,挖掘所述目标事件的事件元素;对所述事件信息进统计分析,挖掘所述目标事件的重要节点;对所述事件信息进统计分析,挖掘所述目标事件的发展阶段;根据所述实体、所述事件元素、所述重要节点以及所述发展阶段,形成所述目标事件的事件时间轴。通过所述事件时间轴挖掘方法,能够从多个维度分析事件的发展,全面反映事件的发展过程,方便监测者监测事件的发展情况。本发明实施还提供一种事件时间轴挖掘系统。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。