一种基于并行关联规则的舆情热点跟踪方法与跟踪装置的制造方法_2

文档序号:9547276阅读:来源:国知局
附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027]图1为本发明的一种基于并行关联规则的舆情热点跟踪方法中生成舆情热点的并行算法执行过程图。
[0028]图2为本发明一实施例提供的基于并行关联规则的舆情热点跟踪装置的结构示意图。
【具体实施方式】
[0029]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0030]实施例一
[0031]本实施例的基础在于,事先获取T0P1000关键词,T0P1000关键词能够满足当前主要舆情热点信息的获取,通过社区划分获取每个节点的实时关键词,1_项频繁关键词集是指:包含系统定义的T0P1000关键词中的1个关键词且达到支持度的关键词集。在此基础上形成1_项频繁关键词集。
[0032]在已经获取1_项频繁关键词集基础上,设置用户支持数,然后依次获得2_项频繁关键词集、…、n_项频繁关键词集。
[0033]k_项频繁关键词集的获得由1_项频繁关键词集和k_l_项频繁关键词集合并获得,分为以下三个阶段:首先根据k_l_项频繁关键词集进行数据分割和任务分配,将一个或者m个k-l_项频繁关键词集分配给一个节点,m的值由k-l_项频繁关键词集的数目和并行系统中节点的数目确定,任务调度尽量保证负载均衡;其次,每个节点获得分配给它的让-1_项频繁关键词集和所有1_项频繁关键词集,在本地进行异步处理,将k-l_项频繁关键词集和所有1_项频繁关键词集逐一合并,对其支持度进行判断,独立产生k_项频繁关键词集;最后,服务器将分布式处理的结果组合形成一个集合并约简,将重复的k_项频繁关键词集删除,得到全局的k_项频繁关键词集。
[0034]令k = k+1,继续进行上面的步骤直到所有k+l_项候选集的支持度都不能达到用户指定的支持度。将存在频繁关键词集的最大项记为η。
[0035]根据得到的所有k_项频繁关键词集(1《k《η)和用户要求的最小可信度,计算产生所有大于最小可信度的关联规则。
[0036]关联规则中涉及的最大项,根据关联规则获取关联关键词,将一个热点关键词的关联关键词组合形成热点相关信息,实现对舆情热点的跟踪和预警。
【主权项】
1.一种基于并行关联规则的舆情热点跟踪方法,其特征在于: 根据获取的社交网络页面信息对T0P1000关键词进行统计,获取1_项频繁关键词集; 设置用户支持数,在已经获得k-l_项频繁关键词集基础上继续获得k_项频繁关键词集的过程如下: k_项频繁关键词集的获得由1_项频繁关键词集和k-l_项频繁关键词集合并获得,分为以下三个阶段:首先根据k-l_项频繁关键词集进行数据分割和任务分配;其次,每个节点获得分配给它的k-l_项频繁关键词集和所有1_项频繁关键词集,在本地进行处理,独立产生k_项频繁关键词集;最后,在服务器将分布式处理的结果组合形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集; 继续进行以上过程直到所有k_项候选集的支持度都不能达到用户指定的支持度,将存在频繁关键词集的最大项记为η ; 根据得到的所有1项频繁关键词集(1《k《η)和用户要求的最小可信度,产生所有大于最小可信度的关联规则,根据关联规则获取关联关键词,将一个热点关键词的关联关键词组合形成热点相关信息,实现对舆情热点的跟踪和预警。2.根据权利要求1所述的一种基于并行关联规则的舆情热点跟踪方法,其特征在于,所述的1_项频繁关键词集是指:包含系统定义的Τ0Ρ1000关键词中的1个关键词且达到支持度的关键词集。3.根据权利要求1所述的一种基于并行关联规则的舆情热点跟踪方法,其特征在于,热点关联关键词展示了舆情热点的相关信息,对其进行筛选和组合,可以获得关联热点,从而实现对舆情热点跟踪和事态发展预测,便于预警。4.一种基于并行关联规则的舆情热点跟踪装置,包括以下模块: 1_项频繁关键词获取模块:根据获取的社交网络页面信息对Τ0Ρ1000关键词进行统计,获取1_项频繁关键词集。 k_项频繁关键词集获取模块:设置用户支持数,在已经获得k-l_项频繁关键词集基础上继续获得k_项频繁关键词集的过程如下: k_项频繁关键词集的获得由1_项频繁关键词集和k-l_项频繁关键词集合并获得,分为以下三个阶段:首先根据k-l_项频繁关键词集进行数据分割和任务分配;其次,每个节点获得分配给它的k-l_项频繁关键词集和所有1_项频繁关键词集,在本地进行处理,独立产生k_项频繁关键词集;最后,在服务器将分布式处理的结果组合形成一个集合,将集合中的重复项删除,得到全局的k_项频繁关键词集; 继续进行以上过程直到所有k_项候选集的支持度都不能达到用户指定的支持度,将存在频繁关键词集的最大项记为η。 关联关键词获取模块:根据得到的所有1项频繁关键词集(1《k《η)和用户要求的最小可信度,产生所有大于最小可信度的关联规则,根据关联规则获取关联关键词,将一个热点关键词的关联关键词组合形成热点相关信息,实现对舆情热点的跟踪和预警。
【专利摘要】本发明实施例提供一种基于并行关联规则的舆情热点跟踪方法。热点关键词与后续事件存在潜在的关联性,通过将关联规则挖掘算法并行实现:首先获取1_项频繁关键词集,然后对数据进行分割并分布式并行处理,接下来合并结果并约简获得包含多项的频繁关键词集,在此基础上获取关联规则并推导热点关联关键词。本发明实施例还提供一种基于并行关联规则的舆情热点跟踪装置。本发明实施例提供的技术方案能够实现舆情热点跟踪和实时响应,为决策提供支持。
【IPC分类】G06F17/30
【公开号】CN105302894
【申请号】CN201510684937
【发明人】李忠伟, 刘昕, 孙贝贝, 邹苹钧
【申请人】中国石油大学(华东)
【公开日】2016年2月3日
【申请日】2015年10月21日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1