事件信息关键词提取方法、监控方法、及其系统和装置与流程

文档序号:17741068发布日期:2019-05-24 20:06阅读:324来源:国知局
事件信息关键词提取方法、监控方法、及其系统和装置与流程

本发明属于本发明实施例涉及计算机科学技术领域,尤其是涉及一种事件信息关键词提取方法、监控方法、及其系统和装置。



背景技术:

随着互联网官方媒体、微信公众号自媒体、微博、贴吧等新型热点事件发布平台的广泛使用,利用这些平台上的文章监测热点事件的发展方向具有重要的意义,尤其是热点事件的关键词漂移变化更能体现事件的发展趋势。

早期工作主要是利用词频-逆文档频率(tfidf)提取关键词;1999年本领域人员相继尝试利用有监督的方法提取关键词;2004年开始提出基于图的textrank方法,该关键词提取方法是目前最有效,被广泛研究的一类无监督的提取方法,该方法考虑了文档中词和词的共现关系等更多的其他特征信息,效果比较好,通常优于其他的无监督方法。2009年提出的community-cluster方法只从最重要的一个聚类主题中选取关键词。

通过对以上方法的分析,有监督的方法需要标注数据以及大量的训练数据集,而且很有可能在训练数据集上过拟合,因此实际使用机会很小,而无监督方法单个存在时性能又不稳定,很难保证完成相关的任务。



技术实现要素:

为了解决现有技术中的上述问题,即为了解决无监督方法提取关键词效果不稳定的问题,本发明的第一方面,提出了一种事件信息关键词提取方法,该方法包括以下步骤:

步骤s10,根据事件关键词组合,按照设定的时间间隔抓取待监控事件文本信息;

步骤s20,基于当前时段抓取的所述待监控事件文本信息,分别采用n种关键词提取方法,分别进行候选关键词提取,合并后作为第一候选关键词集合,并获取各候选关键词热度值;基于热度值、候选关键词互信息值选取第一关键词组;

步骤s30,基于第一候选关键词集合,依据候选关键词相对于上一时段的热度变化程度,选取第二关键词组;

步骤s40,对当前时段所抓取的待监控事件文本信息进行聚类,对每一个聚类分别采用步骤s20的方法获取一个候选关键词组合,将各聚类对应的候选关键词组进行合并作为第三关键词组;

步骤s50,将所述第一关键词组、所述第二关键词组、所述第三关键词组合并后,基于热度值、候选关键词互信息值选取一个关键词组更新所述事件关键词组合。

在一些优选实施方式中,步骤s10所抓取的待监控事件文本信息包括:标题、摘要、正文中的一个或多个。

在一些优选实施方式中,步骤s20中的关键词提取方法包括tfidf、textrank、expandrank中的一个或多个。

在一些优选实施方式中,步骤s20“基于热度值、候选关键词互信息值选取第一关键词组”,其方法为:

从第一候选关键词集合中选取热度值最大的两个候选关键词,基于互信息值分别选取与这两个候选关键词相关性最大的m个候选关键词,得到两个候选关键词组,汇总后作为第一关键词组。

在一些优选实施方式中,步骤s20-步骤s40中,对关键词的合并过程中,相同关键词的热度值相加作为该关键词合并后的热度值。

在一些优选实施方式中,步骤s30“候选关键词相对于上一时段的热度变化程度”,其计算方法为:

当前热度值与上一时段热度值的差值;或者

当前热度值与上一时段热度值的比值;

其中,所述当前热度值为当前时段第一候选关键词集合中的候选关键词的热度值;所述上一时段热度值为上一时段第一候选关键词集合中对应候选关键词的热度值。

在一些优选实施方式中,步骤s40中“对当前时段所抓取的待监控事件文本信息进行聚类”,其聚类的方法为k-means聚类或谱聚类。

本发明的第二方面,提出了一种事件信息关键词监控方法,该方法包括:

基于上述的事件信息关键词提取方法,按照设定时间间隔循环提取事件关键词组合,并根据各时间段内所提取的事件关键词组合进行事件动态监控。

本发明的第三方面,提出了一种事件信息关键词提取系统,该系统包括抓取单元、第一关键词组提取单元、第二关键词组提取单元、第三关键词组提取单元、融合单元;

所述抓取单元,配置为根据事件关键词组合,按照设定的时间间隔抓取待监控事件文本信息;

所述第一关键词组提取单元,配置为基于当前时段抓取的所述待监控事件文本信息,分别采用n种关键词提取方法,分别进行候选关键词提取,合并后作为第一候选关键词集合,并获取各候选关键词热度值;基于热度值、候选关键词互信息值选取第一关键词组;

所述第二关键词组提取单元,配置为基于第一候选关键词集合,依据候选关键词相对于上一时段的热度变化程度,选取第二关键词组;

所述第三关键词组提取单元,配置为对当前时段所抓取的待监控事件文本信息进行聚类,对每一个聚类分别采用所述第一关键词组提取单元提取第一关键词组的方法获取一个候选关键词组合,将各聚类对应的候选关键词组进行合并作为第三关键词组;

所述融合单元,配置为将所述第一关键词组、所述第二关键词组、所述第三关键词组合并后,基于热度值、候选关键词互信息值选取一个关键词组更新所述事件关键词组合。

本发明的第四方面,提出了一种事件信息关键词监控系统,该系统包括上述的事件信息关键词提取系统,还包括监控分析单元;

所述监控分析单元,配置为根据各时间段内所提取的事件关键词组合进行事件动态监控。

本发明的第五方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的事件信息关键词提取方法,或者上述的事件信息关键词监控方法。

本发明的第六方面,提出了一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的事件信息关键词提取方法,或者上述的事件信息关键词监控方法。

本发明的有益效果:

本发明对于获取的待监控的事件信息,基于多种关键词提取技术提取并优选一组相关性很强的关键词作为第一关键词组,而后基于关键词在时域的发展演化选出最新的热点词汇作为第二关键词组,再后对同一时间段内的同一事件的不同报道进行聚类,提取各聚类的关键词合并后作为第三关键字组,最后合并三个关键词组并选定最终的关键词组合,既保证了工程上的实施,又提高了系统的稳定性,同时兼顾了时域及同一事件不同侧面的发展方向,大大提高了关键词提取的稳定性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本发明一种实施例的事件信息关键词提取方法流程示意图;

图2是本发明一种实施例的事件信息关键词提取系统框架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

本发明主要技术构思是针对新闻媒体的热点事件文章,进行关键词的提取,监控事件的发展阶段根据现有的关键词提取技术提取出大量的候选关键词,在这些候选关键词利用组合优化的方法选出一组最有的关键词,通过这组最优的关键词再次抓取相关的事件报道,不断的重复这一过程,达到对事件的监控效果。其中关键词提取技术的组合是关键,主要是基于三种无监督的方法提取出一些候选关键词,然后根据这些关键词的相关程度,以及随事件发展阶段的消长变化,同一事件的不同侧面等信息来评估关键词的重要程度,以这些要素为基本点,融合多方面的信息,由一定的排序算法生产最终的关键词推荐列表,由此解决关键词提取技术的问题,同时也能做到对热点事件及时监控,及时发现等。

本发明的一种事件信息关键词提取方法,如图1所示,包括以下步骤:

步骤s10,根据事件关键词组合,按照设定的时间间隔抓取待监控事件文本信息;

步骤s20,基于当前时段抓取的所述待监控事件文本信息,分别采用n种关键词提取方法,分别进行候选关键词提取,合并后作为第一候选关键词集合,并获取各候选关键词热度值;基于热度值、候选关键词互信息值选取第一关键词组;

步骤s30,基于第一候选关键词集合,依据候选关键词相对于上一时段的热度变化程度,选取第二关键词组;

步骤s40,对当前时段所抓取的待监控事件文本信息进行聚类,对每一个聚类分别采用步骤s20的方法获取一个候选关键词组合,将各聚类对应的候选关键词组进行合并作为第三关键词组;

步骤s50,将所述第一关键词组、所述第二关键词组、所述第三关键词组合并后,基于热度值、候选关键词互信息值选取一个关键词组更新所述事件关键词组合。

需要说明的是,为了便于描述,本发明通过步骤的方式进行顺次描述,但不能理解为对本发明的限制,例如,步骤s20、s30、s40的目的在于分别获取第一关键词组、第二关键词组、第三关键词组,三个关键词组的获取顺序可以根据需要任意调整,并非一定要根据步骤现有步骤顺序进行获取,只需要将步骤s20中获取第一候选关键词集合的方法分别应用至步骤s30、步骤s40的各聚类,即可获取三个关键词组相互独立的获取步骤。

为了更清晰地对本发明事件信息关键词提取方法进行说明,下面结合附图1对本方发明方法一种实施例中各步骤进行展开详述。

步骤s10,根据事件关键词组合,按照设定的时间间隔抓取待监控事件文本信息。

所抓取的文本信息包括标题、摘要、正文,也可以为其中的一个或多个的组合,还包括发布时间信息。

其中抓取的媒体可以包括各大主流媒体,如新华网,人民网等,也可以包括一些小的新闻媒体,如微信公众号、贴吧等。

按照设定的时间间隔进行抓取,以获取发布时间在对应时间段内的待监控事件文本信息。

该步骤在不同实施例中可以灵活设置,例如,初次抓取的时候,可以按照事件段的时长设置进行抓取,也可以抓取该时间节点之前所有的信息;初次抓取时可以通过预设的时间关键词组和进行信息抓取,也可以直接输入相应时间的文本信息作为所抓取的待监控事件文本信息直接进入步骤s20。

步骤s20,基于当前时段抓取的所述待监控事件文本信息,分别采用n种关键词提取方法,分别进行候选关键词提取,合并后作为第一候选关键词集合,并获取各候选关键词热度值;基于热度值、候选关键词互信息值选取第一关键词组。

本实施例中采用三种关键词提取方法:tfidf方法、textrank方法、expandrank方法。该三种提取方法在为本领域已公开技术,此处不再展开描述。

该步骤可以拆分为步骤s21、步骤s22,下面分别对这两个步骤进行描述。

步骤s21,获取第一候选关键词集合。

分别基于其中一种关键词提取方法,对所抓取的当前时段的待监控事件文本信息进行关键词提取,获取热度值,并基于热度值进行排列。将三种方法提取的关键词组合进行合并后得到第一候选关键词集合。在关键词合并的过程中,相同关键词的热度值进行相加计算作为该关键词合并后的热度值。

步骤s22,基于第一候选关键词集合获取第一关键词组。

步骤s201,从第一候选关键词集合中选取热度值最大的两个候选关键词a、b;

步骤s202,基于互信息(pmi)值分别选取与这两个候选关键词相关性最大的m个候选关键词,得到两个候选关键词组a+、b+;其中m为预设的数量阈值。

步骤s203,将两个候选关键词组a+、b+进行合并,得到第一关键词组。

步骤s30,基于第一候选关键词集合,依据候选关键词相对于上一时段的热度变化程度,选取第二关键词组。

该步骤中采用的候选关键词集合可以为步骤s20中获取的第一候选关键词集合,也可以在该步骤中通过再次执行步骤s21获取候选关键词集合,以使两个步骤之间具有相互独立性,脱离先后的逻辑关系。

该步骤采用爆发检测方法的思路,事件随着时间的发展,关键词的产生消长变化,基于当前时段第一候选关键词集合中的大量候选关键词,通过与上一时关键词提取过程中段获取的第一候选关键词集合进行对比,获取当前时段第一候选关键词集合中各候选关键词的热度变化程度,根据变化程度对当前时段第一候选关键词集合中候选关键词进行排序,选取变化程度最大的q个候选关键词作为第二关键词组。其中,q为预设的数量选取阈值。

本实施例中,候选关键词相对于上一时段的热度变化程度的计算方法为:当前热度值与上一时段热度值的差值,或者当前热度值与上一时段热度值的比值;其中,所述当前热度值为当前时段第一候选关键词集合中的候选关键词的热度值;所述上一时段热度值为上一时段第一候选关键词集合中对应候选关键词的热度值。

步骤s40,对当前时段所抓取的待监控事件文本信息进行聚类,对每一个聚类分别采用步骤s20的方法获取一个候选关键词组合,将各聚类对应的候选关键词组进行合并作为第三关键词组。

聚类方法对于发现文档的话题有着很大的优势,在本发明中聚类算法被用在对同一个时间、同一组关键词的抓取的文本信息中,从而分出几大类,以找出相应事件发展的不同侧面,发现事件的主流方向和重要的小方向。本发明实施例中采用的聚类的方法可以为k-means聚类或谱聚类。通过上述两种聚类方法基于文本信息的标题、摘要、正文中的一种或多种内容进行聚类,聚类的方法为本领域现有技术,此处不再展开阐述。

步骤s50,将所述第一关键词组、所述第二关键词组、所述第三关键词组合并后,基于热度值、候选关键词互信息值选取一个关键词组更新所述事件关键词组合。

在对所述第一关键词组、所述第二关键词组、所述第三关键词组合并的过程中,相同关键词的热度值相加作为该关键词合并后的热度值。

该步骤中基于热度值、候选关键词互信息值选取一个关键词组的方法,可以与步骤s22基于第一候选关键词集合获取第一关键词组的方法一致。

采用步骤s10-s50的方法可与对事件进行不同时间段的关键词提取和优化。

本发明一种实施例的事件信息关键词监控方法,基于上述的事件信息关键词提取方法,按照设定时间间隔循环提取事件关键词组合,并根据各时间段内所提取的事件关键词组合进行事件动态监控。

由于本发明事件信息关键词提取方法是根据不同时段花去的文本信息进行的关键词优化和发展方向跟踪,因此根据各时间段内所提取的事件关键词组合可以有效的进行事件动态监控。

本发明第三实施例的一种事件信息关键词提取系统,如图2所示,该系统包括抓取单元、第一关键词组提取单元、第二关键词组提取单元、第三关键词组提取单元、融合单元;

所述抓取单元,配置为根据事件关键词组合,按照设定的时间间隔抓取待监控事件文本信息;

所述第一关键词组提取单元,配置为基于当前时段抓取的所述待监控事件文本信息,分别采用n种关键词抽取方法,分别进行候选关键词提取,合并后作为第一候选关键词集合,并获取各候选关键词热度值;基于热度值、候选关键词互信息值选取第一关键词组;

所述第二关键词组提取单元,配置为基于第一候选关键词集合,依据候选关键词相对于上一时段的热度变化程度,选取第二关键词组;

所述第三关键词组提取单元,配置为对当前时段所抓取的待监控事件文本信息进行聚类,对每一个聚类分别采用所述第一关键词组提取单元提取第一关键词组的方法获取一个候选关键词组合,将各聚类对应的候选关键词组进行合并作为第三关键词组;

所述融合单元,配置为将所述第一关键词组、所述第二关键词组、所述第三关键词组合并后,基于热度值、候选关键词互信息值选取一个关键词组更新所述事件关键词组合。

本发发明第四实施例的一种事件信息关键词监控系统,包括上述的事件信息关键词提取系统,还包括监控分析单元;

所述监控分析单元,配置为根各时间段内所提取的事件关键词组合进行事件动态监控。

所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。

需要说明的是,上述实施例提供的事件信息关键词提取系统、事件信息关键词监控系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。

本发明第五实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的事件信息关键词提取方法,或上述的事件信息关键词监控方法。

本发明第六实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的事件信息关键词提取方法,或上述的事件信息关键词监控方法。

所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。

本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1