微博热点话题检测方法及系统与流程

文档序号:11995430阅读:598来源:国知局
微博热点话题检测方法及系统与流程
本发明涉及社交网络信息安全领域,尤其涉及一种微博热点话题检测方法及系统。

背景技术:
互联网日渐成为舆情产生和传播的主要场所,很多人在网络上主动表达自己的观点和看法。由于网络本身具有虚拟性、隐藏性、渗透性和随意性等特点,使得网络舆情的社会影响力越来越大,甚至会影响国家重大决策。因此,各国政府与军队都高度关注网络舆情的研究,以便及时对热点、焦点与敏感话题做出反应。网络热点话题发现是网络舆论管理需要解决的首要问题,最早在该领域展开研究的是由美国国防部先进研究项目局支持的话题检测与跟踪(Topicdetectionandtracking,简称TDT)项目,该项目在话题检测方面致力于新事件检测以及事件跟踪方面的研究。互联网中的Web信息资源,如新闻网站、论坛、博客及微博,汇集了各类事件和新闻的报道和舆论评价,是热点话题检测的重要信息平台。热点话题检测本质上属于热点话题聚类。目前话题聚类的方法主要有两大类,一类是通过向量空间模型,计算各个新闻或帖子的距离,或潜在的主题模型进行聚类,另一类是直接通过统计词频产生热点词集合,再进行合理聚类,产生的不同热点词集合来表示不同的热点话题。随着微博的流行,主要针对微博进行热点话题检测预警的方法还比较少,现有技术中主要是针对新闻网站、论坛、博客等主要通过单点检测,通过直接统计词或重复串的出现次数,用频繁词集合来表达热点话题。该方法无法有效针对微博转发的情形进行相应的检测,相应检测的准确性也不高。

技术实现要素:
本发明要解决的技术问题在于针对现有技术中无法有效针对微博转发的情形进行相应的热点话题检测的缺陷,提供一种能够在线实时检测,检测准确性高,算法简单,容易实现的微博热点话题检测方法及系统。本发明解决其技术问题所采用的技术方案是:提供一种微博热点话题检测方法,包括以下步骤:S1、采集被监控微博帐号的静态信息和每条微博的动态信息,其中静态信息包括该微博帐号的粉丝数、发布的微博内容、微博的发布时间;每条微博的动态信息包括该微博的每次转发时间、转发该条微博的帐号的粉丝数;转发该微博的粉丝的帐号;所述动态信息还包括对于每个转发该微博的帐号所继续循环采集的信息:该条微博的转发时间和转发该微博的帐号的粉丝数;S2、提取被监控微博帐号中每条微博的内容中的关键词,并将具有近似关键词的微博作为同类话题微博;并采集同类话题微博帐号的静态信息和每条微博的动态信息;S3、计算同类话题微博的热度衡量值,包括微博转发数量值、微博转发速度变化值和微博转发扩散变化值,所述微博转发数量值为当前转发该微博的总数;所述微博转发速度变化值为预设时间内转发该微博的数量;所述微博转发扩散变化值为预设时间内转发该微博的粉丝与所有转发者的总粉丝的比例;S4、若热度衡量值大于相应的阈值,则判定该同类话题为热点话题。本发明所述的方法中,还包括步骤:S5、对热点话题进行排行;S6、将排行结果发送给指定用户。本发明所述的方法中,步骤S2中同类话题微博的判定具体为:分离微博内容中的词和词组,生成一分词集合;将该条微博的分词集合与其他微博的分词集合进行比较,若交集超过一定阈值,则这两条微博为同类话题微博。本发明所述的方法中,所述微博转发数量值为当前转发该微博的总数;所述微博转发速度变化值为预设时间内转发该微博的数量;所述微博转发扩散变化值为预设时间内转发该微博的粉丝与总粉丝的比例。本发明解决其技术问题所采用的另一技术方案是:提供一种微博热点话题检测预警系统,包括:采集模块,用于采集被监控微博帐号的静态信息和每条微博的动态信息,其中静态信息包括该微博帐号的粉丝数、发布的微博内容、微博的发布时间;每条微博的动态信息包括该微博的每次转发时间、转发该条微博的帐号的粉丝数;转发该微博的帐号;所述动态信息还包括继续循环采集的如下传播信息:转发该条微博的时间;转发该微博的帐号的粉丝数;提取模块,用于提取被监控微博帐号中每条微博的内容中的关键词;同类话题微博判定模块,用于将具有近似关键词的微博作为同类话题微博,以通过采集模块采集同类话题微博帐号的静态信息和每条微博的动态信息;计算模块,用于计算同类话题微博的热度衡量值,包括微博转发数量值、微博转发速度变化值和微博转发扩散变化值;判定模块,用于在热度衡量值大于相应的阈值时,判定该同类话题为热点话题。本发明所述的系统中,该系统还包括:排行模块,用于对热点话题进行排行;发送模块,用于将排行结果发送给指定用户。本发明所述的系统中,所述同类话题微博判定模块具体用于分离微博内容中的词和词组,生成一分词集合,并将该条微博的分词集合与其他微博的分词集合进行比较,若交集超过一定阈值,则这两条微博为同类话题微博。本发明所述的方法中,所述微博转发数量值为当前转发该微博的总数;所述微博转发速度变化值为预设时间内转发该微博的数量;所述微博转发扩散变化值为预设时间内转发该微博的粉丝与总粉丝的比例。本发明产生的有益效果是:本发明主要针对微博这一特殊的网络交流方式,对微博内容、粉丝的数量以及粉丝转发的次数,以及粉丝的粉丝的数量以及粉丝的粉丝转发同一微博的时间;并对同类话题微博进行判定和信息统计,从而找出微博中的热点话题。本发明对微博的热点话题检测的算法快速高效,成本低,且判定准确率高,可广泛应用于微博话题的分析、预警和推荐。附图说明下面将结合附图及实施例对本发明作进一步说明,附图中:图1是本发明实施例微博热点话题检测方法的流程图;图2是本发明实施例微博热点话题检测预警系统的结构示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。如图1所示,本发明实施例微博热点话题检测方法,包括以下步骤:S1、采集被监控微博帐号的静态信息和每条微博的动态信息,其中静态信息包括该微博帐号的粉丝数、发布的微博内容、微博的发布时间;每条微博的动态信息包括该微博的每次转发时间、转发该条微博的帐号的粉丝数;转发该微博的帐号;动态信息还包括对于每个转发该微博的帐号所继续循环采集的信息:该条微博的转发时间和转发该微博的帐号的粉丝数;不妨设该微博帐号名为“参考消息”:包括该微博帐号的粉丝数N,不妨设为500,发布的每条微博的内容C,每条微博的发布时间T;例如,【80后夫妻喜欢雇佣“阿姨”】28岁的王小姐说:“雇佣全职阿姨的条件是这样的:一周工作5天,每天8小时,月薪为4500元到5000元,超出时间按每小时50元计算。提供一日三餐。”王小姐代表了许多居住在城市中的年轻中国夫妇。(新加坡《海峡时报》)http://t.cn/zHaaHcu5月31日22:20转发(79)|收藏|评论(68)发布时间为T[1]为5月31日22:20。【中国游客巴黎遭抢案激增】有关此类案件的报告自2012年以来增加了10%以上。有人呼吁法国政府加强安保,并呼吁购物者使用信用卡而不要随身携带大量现金。中国游客喜欢用现金购买奢侈品是招致袭击的一个原因,一辆载满中国游客的巴士就像一辆运金条的车。(香港《南华早报》)http://t.cn/zHaaCZ45月31日21:30转发(56)|收藏|评论(29)发布时间T[2]为5月31日21:30。对于每条微博,需要提取如下微博转发随时间变化的动态信息:该条微博的每次转发的时间FT;转发该条微博的帐号的粉丝数FN;第一层提取完成后,可以得到:FN[1]=25;FT[1]=10秒后;表示在10秒后有一个粉丝数为25的帐号转发了该条微博;FN[2]=50;FT[2]=15秒后;表示在15秒后有一个粉丝数为50的帐号转发了该条微博;FN[3]=20;FT[3]=30秒后;表示在30秒后有一个粉丝数为20的帐号转发了该条微博;依次类推。不妨设,共有N1=3个粉丝对该微博进行了转发。对于每个转发该微博的帐号,继续循环提取如下信息:该条微博的转发时间FT;转发该微博的帐号的粉丝数;例如,对于第1个转发的帐号,该帐号下进一步转发,如下:FN[11]=60;FT[11]=5秒后;表示在5秒后有一个粉丝数为60的帐号转发了该条微博;FN[12]=90;FT[12]=20秒后;表示在20秒后有一个粉丝数为90的帐号转发了该条微博;对于第2个转发的帐号,该帐号下进一步转发,如下:FN[21]=30;FT[21]=20秒后;表示在20秒后有一个粉丝数为30的帐号转发了该条微博;对于第3个转发的微博帐号,该微博帐号下进一步转发,如下:FN[31]=60;FT[31]=10秒后;表示在10秒后有一个粉丝数为60的帐号转发了该条微博;FN[32]=20;FT[32]=22秒后;表示在22秒后有一个粉丝数为20的帐号转发了该条微博;FN[33]=30;FT[33]=30秒后;表示在30秒后有一个粉丝数为30的帐号转发了该条微博;依次类推,通常提取L=3~4层的情况,这里为简单起见,不妨设,共提取L=2层的情况。S2、提取被监控微博帐号中每条微博的内容中的关键词,并将具有近似关键词的微博作为同类话题微博;并采集同类话题微博帐号的静态信息和每条微博的动态信息;S3、计算同类话题微博的热度衡量值,包括微博转发数量值、微博转发速度变化值和微博转发扩散变化值;S4、若热度衡量值大于相应的阈值,则判定该同类话题为热点话题。本发明实施例还包括步骤:S5、对热点话题进行排行;S6、将排行结果发送给指定用户。步骤S2中同类话题微博的判定具体为:分离微博内容中的词和词组,生成一分词集合;将该条微博的分词集合与其他微博的分词集合进行比较,若交集超过一定阈值,则这两条微博为同类话题微博。步骤S3中热度衡量值的计算具体如下:1)、微博转发数量值Index1,即当前转发该微博的总数;例如,第1层转发数为3次;第2层转发的总数为2+1+3=6次,即假设N1个转发的粉丝中,每个转发的帐号中分别有N[i]次转发,于是有N2=N[1]+N[2]+…+N[Ni]=2+1+3=6。假设计算2层,即L=2。则Index1=N1+N2=1+6=7。2)、微博转发速度变化值Index2,即在T时间转发该微博的数量;例如10秒为一个时间段统计一次,10秒后转发的总数为FN1=1+1+1=3次,20秒后转发的总数为FN2=1+1+1=3次,这里计算的是增量;依此类推;30秒后,转发的总数为FN3=1+2=3次,该值其实反映了Index1随时间的变化情况。3)、微博转发扩散变化值Index3,即在T时间转发该微博的粉丝比例FP;计算方法是:例如,第1层转发粉丝数为N1,第1层总粉丝数为M1;第2层转发的粉丝数为N2,总粉丝数为M2;第3层转发的粉丝数为N3,总粉丝数为M3,依次类推。假设计算3层,即L=3。则10秒后FP1=(N1+N2+N3)/(M1+M2+M3),20秒后FP2=(N1+N2+N3)/(M1+M2+M3),依次类推。例如10秒后转发的粉丝占总粉丝的比例FP1=3/(25+50+20),20秒后转发的粉丝数占总粉丝的比例FP2=6/(25+50+20);依次类推;FP3=6/(25+50+20);以上均计算的是总量。Index3即为FPi的随时间的变化情况。若Index1>Th1(预先设定的阈值),Index2>Th2(预先设定的阈值),Index3>Th3(预先设定的阈值),则认为该微博的话题为热点话题;可根据Index1+Index2+Index3的大小对热点信息进行排序。上述计算需要考虑从被监控帐号开始,直到第L层情况,L可以依据实际情况预先设定。本发明实施例的微博热点话题检测预警系统,用于实现上述实施例的方法,如图2所示,包括:采集模块10,用于采集被监控微博帐号的静态信息和每条微博的动态信息,其中静态信息包括该微博帐号的粉丝数、发布的微博内容、微博的发布时间;每条微博的动态信息包括该微博的每次转发时间、转发该条微博的帐号的粉丝数;转发该微博的帐号;所述动态信息还包括继续循环采集的如下传播信息:转发该条微博的时间;转发该微博的帐号的粉丝数;提取模块20,用于提取被监控微博帐号中每条微博的内容中的关键词;同类话题微博判定模块30,用于将具有近似关键词的微博作为同类话题微博,以通过采集模块采集同类话题微博帐号的静态信息和每条微博的动态信息;计算模块40,用于计算同类话题微博的热度衡量值,包括微博转发数量值、微博转发速度变化值和微博转发扩散变化值;判定模块50,用于在热度衡量值大于相应的阈值时,判定该同类话题为热点话题。在本发明的一个实施例中,该系统还包括:排行模块60,用于对热点话题进行排行;发送模块70,用于将排行结果发送给指定用户。进一步地,所述同类话题微博判定模块30具体用于分离微博内容中的词和词组,生成一分词集合,并将该条微博的分词集合与其他微博的分词集合进行比较,若交集超过一定阈值,则这两条微博为同类话题微博。应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1