一种基于微博的事件实时监测方法及系统的制作方法

文档序号:6544756阅读:248来源:国知局
一种基于微博的事件实时监测方法及系统的制作方法
【专利摘要】本发明涉及一种基于微博的事件实时监测方法及系统,所述方法包括:异常事件检测步骤,输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件;地理位置定位步骤,在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。此外,还包括有相关事件推荐步骤和/或事件相关度分析步骤。本发明对用户所关心的事件进行实时监测,监控该事件在微博平台上的传播和发展趋势,能精准地挖掘出事件发生的异常时间点和地理位置,并推荐给用户其感兴趣的话题。
【专利说明】一种基于微博的事件实时监测方法及系统
【技术领域】
[0001]本发明涉及信息安全和数据挖掘领域,特别是涉及一种基于微博的事件实时监测方法及系统。
【背景技术】
[0002]微博,即微博客(Micro-blog),作为Web2.0的产物,是一个基于用户关系信息分享、传播以及获取的平台,用户可以通过WEB、WAP等客户端组建个人社区,以最多140字左右的文字更新信息,并实现即时分享。微博作为一种新型的社交传播媒体,发展迅猛,具有传播速度快、互动性强、信息更新方便等特点,其已经对社会生活产生巨大影响,强势有力的成为我国主要传播媒介之一。比起传统媒体,微博更可能占据信息发布的制高点,这点在突发事件中表现尤为突出。例如2009年11月,西安发生4.4级地震,微博只用了不到I分钟就对该事件做了报道,而国家官方网站第一次发布该信息是在15分钟之后。
[0003]可见,微博的出现拓宽了信息传播的渠道,对经济的发展,社会的进步,科技的普及起到了积极的作用。但是另一方面,随之产生的负面问题也越来越多,比如以下两个方面。
[0004]1、反动、淫秽、迷信、暴力等有害信息在微博上传播,严重危害了国家和社会的稳定,侵蚀人民的思想。譬如恐怖分子在微博上呼吁打砸抢烧,煽动民族动乱等。
[0005]2、社会突发事件经微博快速传播后,造成网络上的小道消息流传,容易引起公众的不理性判断和混乱行为,从而酿成严重后果,特别是经过实名大V账号转发。譬如突尼斯“茉莉花革命”,推手们通过微博推波助澜,最终导致政局动荡。
[0006]如何有效利用社交媒体良好的信息传播特性,同时应对和解决其产生的负面影响?针对此问题,本发明提出了一种基于微博的事件实时监测方法及系统。

【发明内容】

[0007]本发明所要解决的技术问题是提供一种基于微博的事件实时监测方法及系统,用于解决高效、实时地进行微博事件监测的问题。
[0008]本发明解决上述技术问题的技术方案如下:一种基于微博的事件实时监测方法,包括:
[0009]异常事件检测步骤:输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件;
[0010]地理位置定位步骤:在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。
[0011]在上述技术方案的基础上,本发明还可以做如下改进。
[0012]进一步,所述异常事件检测步骤具体包括:
[0013]步骤Al,输入事件关键词,获取与事件关键词相关的微博,并对获取的所有微博进行数据量化,产生一组数据,并初始化该组数据的平均值mean和方差meandev ;
[0014]步骤A2,对于产生的一组数据中的点Ci,判断是否满足以下条件:
【权利要求】
1.一种基于微博的事件实时监测方法,其特征在于,包括: 异常事件检测步骤:输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件; 地理位置定位步骤:在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。
2.根据权利要求1所述的事件实时监测方法,其特征在于,所述异常事件检测步骤具体包括: 步骤Al,输入事件关键词,获取与事件关键词相关的微博,并对获取的所有微博进行数据量化,产生一组数据,并初始化该组数据的平均值mean和方差meandev ; 步骤A2,对于产生的一组数据中的点Ci,判断是否满足以下条件:
3.根据权利要求2所述的事件实时监测方法,其特征在于,所述步骤A3中,当基于点Ci存在一个波峰区间时,该波峰区间的起点索引为i_l,终点索引需要先使用贪心算法得到伪终点索引,然后再通过对该伪终点索引进行修正而得到真正的终点索引。
4.根据权利要求1所述的事件实时监测方法,其特征在于,所述地理位置定位步骤具体包括: 步骤BI,抽取每一条与异常事件相关的微博文本内容中的地理位置实体,并对抽取出的地理位置实体进行分析,获得事件发生的地理位置集合; 步骤B2,采用聚类的方式从事件发生的地理位置集合中筛选出群体性地理位置实体; 步骤B3,将筛选出的群体性地理位置实体转变为便于展示的信息格式。
5.根据权利要求4所述的事件实时监测方法,其特征在于,所述步骤BI具体包括: 步骤B11,选取一条与异常事件相关的微博文本内容进行中文分词,并抽取其中所有的地理位置实体,同时记录事件的关键词与抽取的地理位置实体在微博文本中的位置索引;步骤B12,根据步骤Bll记录的位置索引,计算抽取到的地理位置实体与事件关键词之间的距离,保存与事件关键词最近的地理实体位置的距离; 步骤B13,对步骤Bll抽取到的每个地理位置实体附加权重,权重取值为事件关键词与该地理实体位置之间的距离; 步骤B14,根据实际的地理位置级别关系,整理步骤Bll抽取出的地理位置实体,只保留最细粒度的地理位置实体,且不改变步骤B13为其附加的权重; 步骤B15,从保留的最细粒度的地理位置实体中,选取事件发生的地理位置; 步骤B16,对每一条与异常事件相关的微博文本内容,重复步骤BI I到步骤B15,获得事件发生的地理位置集合。
6.根据权利要求5所述的事件实时监测方法,其特征在于,对于步骤B12,若抽取到的地理位置实体与事件关键词之间存在标点符号,则增大该地理位置实体与事件关键词之间的距离。
7.根据权利要求4所述的事件实时监测方法,其特征在于,所述步骤B2具体包括: 步骤B21,设置频度阈值,过滤事件发生的地理位置集合中小于频度阈值的地理位置实体; 步骤B22,获取经过滤后剩下的地理位置实体的经纬度信息; 步骤B23,根据地理位置实体间的经纬度信息,两两计算地理位置实体之间的空间距离,再利用层次聚类的单链接算法对经步骤B21过滤后的地理位置实体聚类,提取出概率大的聚类簇作为群体性地理位置。
8.根据权利要求1至7中任一所述的事件实时监测方法,其特征在于,还包括相关事件推荐步骤和/或事件相关度分析步骤: 相关事件推荐步骤:构建热点事件数据库,用于实时收集微博平台上的热点事件,遍历该热点事件数据库,抽取与输入的事件关键词相关的若干热点事件,并计算事件关键词与抽取的热点事件的相关度,再按相关度从大到小的顺序将热点事件返回给用户; 事件相关度分析步骤:分 析与异常事件相关的微博文本内容,过滤微博文本内容中与事件无关联的微博文本数据,再对过滤后的结果进行相关度分析,按相关度大小进行排序。
9.一种基于微博的事件实时监测系统,其特征在于,包括: 异常事件检测模块,其用于输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件; 地理位置定位模块,其用于在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。
10.根据权利要求9所述的事件实时监测系统,其特征在于,还包括相关事件推荐模块和/或事件相关度分析模块: 相关事件推荐模块,用于构建热点事件数据库,用于实时收集微博平台上的热点事件,遍历该热点事件数据库,抽取与输入的事件关键词相关的若干热点事件,并计算事件关键词与抽取的热点事件的相关度,再按相关度从大到小的顺序将热点事件返回给用户; 事件相关度分析模块,用于分析与异常事件相关的微博文本内容,过滤微博文本内容中与事件无关联的微博文本数据,再对过滤后的结果进行相关度分析,按相关度大小进行排序。
【文档编号】G06F17/30GK103955505SQ201410168703
【公开日】2014年7月30日 申请日期:2014年4月24日 优先权日:2014年4月24日
【发明者】李凌云, 张鹏, 曹亚男, 乔治, 敖吉, 谭建龙, 郭莉 申请人:中国科学院信息工程研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1