基于活跃用户的微博数据挖掘方法

文档序号:6369211阅读:472来源:国知局
专利名称:基于活跃用户的微博数据挖掘方法
技术领域
本发明属于网络微博中的数据挖掘技术领域,特别是一种基于活跃用户的微博数据挖掘方法。
背景技术
微博作为Web 2. O时代崭新网络应用形式,不仅更加适应现代快节奏生活,而且实现随时随地的信息共享。通过一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。由于实时性强、易接入性等特点,微博成为一种突发新闻消息传播迅速的新媒体。与传统媒体形式不同,在这个微博平台中,每个人都是一个信息发布者(“自媒体”的概念),随时随地实现信息共享。微博用户在新闻事件发生的第一时间参与评论转发,往往先于传统媒体作出反应和表达观点。因此基于微博实时数据的分析已经成为一个值得关注的研究方向。从数据角度来看,微博是一个信息量极大的平台,具有数据格式混乱、噪声繁杂、有效价值难于提取等特点。传统的话题检测方法无法适应这种新形式,而且很难有效地从海量数据信息中提炼和检测突发热门事件。目前微博信息的挖掘处于较为初级的阶段,大多停留在用户关系和社区结构分析上,很少直接对微博实时内容进行分析。主要是通过两种方式来获取微博原始数据采用微博对外API的应用和基于网虫的微博用户页面解析。参考廉捷等新浪微博数据挖掘方案的分析,两者均存在较为明显的缺陷微博对外的API的方式由于API服务商对API接口调用频率与查询范围的限制,加之本身API开发并不十分完善,因此不能实现微博数据的全面获取;而基于网虫的单用户微博页面方式由于缺少一定预先选择机制,存在一定用户选择的盲目性,同样也难免会造成错检漏检的现象。清华大学学报(自然科学版)2011年10期发表的“新浪微博数据挖掘方案”一文(作者廉捷,周欣,曹伟,刘云)即属于此列。

发明内容
为克服现有技术的缺陷和不足,本发明提供了一种基于活跃用户的微博数据挖掘方法。以达到定时随机选取一批新的潜在用户、经过选择筛选进入有效挖掘用户群之目的,使传统数据挖掘过程产生的实时话题模型再次过滤有效用户群,将此领域中不再活跃的用户排除,这样始终保证有效群用户的时效性。为实现上述目的,本发明采用如下技术方案一种基于活跃用户的微博数据挖掘方法,步骤如下I)随机数产生器每10-30分钟产生一批随机的用户ID,作为候选挖掘的微博用户群;以新浪微博为例,用户ID从6位到9位,随机数产生器对应地分为6位随机数、7位随机数、8位随机数、9位随机数四种类型;
随机数产生器产生6-9位随机数的规则如下由RAND O %10产生一位数字,从高位向低位依次产生,重复6_9次;2)对候选集合中的用户进行个人信息采集工作,个人信息出自于个人微博页面的url,如 http://weibo. com/ID ;3)对采集的个人信息采用预定指标进行筛选,这些预定指标包括是否达人、用户的兴趣、用户所在的地区、使用频繁程度、每日微博数量、每日转发评论条数、平均微博影响范围,更新候选用户群;4)使用基于网虫的微博用户页面解析方法动态抓取经过筛选的候选用户群的个 人微博页面,作为用户预选择的原始数据;5)采用近期实时的热门微博话题模型,将微博进行聚类分析,对于大于预设阈值的则聚类收录微博;6)按照候选用户群中的单个用户作为分析对象,统计该用户在各个话题领域聚类的微博数量,若该用户在某个领域的聚类微博数量超过阈值则认为该用户为这个话题领域的有效用户,进入该类话题挖掘的用户群体;7)至此,这批随机产生的用户群处理筛选完毕,加入到各个话题领域的有效挖掘用户集合中;8)采用基于网虫的页面解析方法,以10-30分钟为间隔挖掘有效用户的最新微博页面,进入传统数据挖掘流程;9)经过预处理步骤,这些预处理步骤包括微博特殊含义符号@和#的处理、字数限制过滤、转发评论数量阈值过滤、切词分词、主题词聚类,然后将实时微博进行聚类分析挖掘产生实时话题;10)动态更新实时话题模型,并以此来选择新的用户群体;11)评定已有的有效用户群体,若某用户连续三天没有产生对热门事件的评论和转发事件,则从有效挖掘用户群中移除该用户。上述的rand O % 10表示将生成的随机数对10取余即获得了范围O 9的一个随机数。上述的URL 是英语 Uniform/Universal Resource Locator 的缩写,意思为统一资源定位符,也被称为网页地址,是因特网上标准的资源的地址(Address)。本发明方法通过预先用户的选择更新机制,保证挖掘数据的全面性和有效性,实时维护更新每个话题的挖掘用户群体。同时,已有实时的话题模型再次更新有效用户群体,保证挖掘用户的时效性。


图I为本发明方法的流程示意框图,其中1)-11)为其方法的各个步骤。
具体实施例方式下面结合附图和实施例对本发明作进一步说明,但不限于此。实施例I :一种基于活跃用户的微博数据挖掘方法,如图I所示,步骤如下
I)随机数产生器每20分钟产生一批随机的用户ID,作为候选挖掘的微博用户群;以新浪微博为例,用户ID从6位到9位,随机数产生器对应地分为6位随机数、7位随机数、8位随机数、9位随机数四种类型;随机数产生器产生6-9位随机数的规则如下由RAND O %10产生一位数字,从高位向低位依次产生,重复6_9次;2)对候选集合中的用户进行个人信息采集工作,个人信息出自于个人微博页面的url,如 http://weibo. com/ID ;3)对采集的个人信息采用预定指标进行筛选,这些预定指标包括是否达人、用户的兴趣、用户所在的地区、使用频繁程度、每日微博数量、每日转发评论条数、平均微博影响范围,更新候选用户群;
4)使用基于网虫的微博用户页面解析方法动态抓取经过筛选的候选用户群的个人微博页面,作为用户预选择的原始数据;5)采用近期实时的热门微博话题模型,将微博进行聚类分析,对于大于预设阈值的则聚类收录微博;6)按照候选用户群中的单个用户作为分析对象,统计该用户在各个话题领域聚类的微博数量,若该用户在某个领域的聚类微博数量超过阈值则认为该用户为这个话题领域的有效用户,进入该类话题挖掘的用户群体;7)至此,这批随机产生的用户群处理筛选完毕,加入到各个话题领域的有效挖掘用户集合中;8)采用基于网虫的页面解析方法,以20分钟为间隔挖掘有效用户的最新微博页面,进入传统数据挖掘流程;9)经过预处理步骤,这些预处理步骤包括微博特殊含义符号O和#的处理、字数限制过滤、转发评论数量阈值过滤、切词分词、主题词聚类,然后将实时微博进行聚类分析挖掘产生实时话题;10)动态更新实时话题模型,并以此来选择新的用户群体;11)评定已有的有效用户群体,若某用户连续三天没有产生对热门事件的评论和转发事件,则从有效挖掘用户群中移除该用户。实施例2 同实施例I 一样,只是步骤I)中的“随机数产生器每20分钟产生一批随机的用户ID” ;步骤8)中的“采用基于网虫的页面解析方法,以20分钟为间隔挖掘有效用户的最新微博页面,进入传统数据挖掘流程;”。实施例3 同实施例I 一样,只是步骤I)中的“随机数产生器每30分钟产生一批随机的用户ID” ;步骤8)中的“采用基于网虫的页面解析方法,以30分钟为间隔挖掘有效用户的最新微博页面,进入传统数据挖掘流程;”。
权利要求
1. 一种基于活跃用户的微博数据挖掘方法,步骤如下 1)随机数产生器每10-30分钟产生一批随机的用户ID,作为候选挖掘的微博用户群;以新浪微博为例,用户ID从6位到9位,随机数产生器对应地分为6位随机数、7位随机数、8位随机数、9位随机数四种类型; 随机数产生器产生6-9位随机数的规则如下 由RAND () %10产生一位数字,从高位向低位依次产生,重复6-9次; 2)对候选集合中的用户进行个人信息采集工作,个人信息出自于个人微博页面的url,如 http://weibo. com/ID ; 3)对采集的个人信息采用预定指标进行筛选,这些预定指标包括是否达人、用户的兴趣、用户所在的地区、使用频繁程度、每日微博数量、每日转发评论条数、平均微博影响范围,更新候选用户群; 4)使用基于网虫的微博用户页面解析方法动态抓取经过筛选的候选用户群的个人微博页面,作为用户预选择的原始数据; 5)采用近期实时的热门微博话题模型,将微博进行聚类分析,对于大于预设阈值的则聚类收录微博; 6)按照候选用户群中的单个用户作为分析对象,统计该用户在各个话题领域聚类的微博数量,若该用户在某个领域的聚类微博数量超过阈值则认为该用户为这个话题领域的有效用户,进入该类话题挖掘的用户群体; 7)至此,这批随机产生的用户群处理筛选完毕,加入到各个话题领域的有效挖掘用户集合中; 8)采用基于网虫的页面解析方法,以10-30分钟为间隔挖掘有效用户的最新微博页面,进入传统数据挖掘流程; 9)经过预处理步骤,这些预处理步骤包括微博特殊含义符号@和#的处理、字数限制过滤、转发评论数量阈值过滤、切词分词、主题词聚类,然后将实时微博进行聚类分析挖掘产生实时话题; 10)动态更新实时话题模型,并以此来选择新的用户群体; 11)评定已有的有效用户群体,若某用户连续三天没有产生对热门事件的评论和转发事件,则从有效挖掘用户群中移除该用户。
全文摘要
一种基于活跃用户的微博数据挖掘方法,属于网络微博中的数据挖掘技术领域,本发明方法首先定时随机选取一批新的潜在用户,经过选择筛选进入有效挖掘用户群,这样不断更新产生新的活跃用户,从而保证了数据的全面性;然后,传统数据挖掘过程产生的实时话题模型再次过滤有效用户群,将此领域中不再活跃的用户排除,这样始终保证有效群用户的时效性。本发明方法通过预先用户的选择更新机制,保证挖掘数据的全面性和有效性,实时维护更新每个话题的挖掘用户群体。同时,已有实时的话题模型再次更新有效用户群体,保证挖掘用户的时效性。
文档编号G06F17/30GK102708176SQ20121014053
公开日2012年10月3日 申请日期2012年5月8日 优先权日2012年5月8日
发明者宋玉川, 江铭炎, 王伟, 袁东风 申请人:山东大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1