一种基于微博平台的事件可视化方法及系统的制作方法

文档序号:8223478阅读:159来源:国知局
一种基于微博平台的事件可视化方法及系统的制作方法
【技术领域】
[0001] 本发明涉及信息抽取及可视化技术,特别涉及一种基于微博平台的事件可视化方 法及系统。
【背景技术】
[0002] 随着互联网的飞速发展,近年来各种社交媒体应运而生,常见的有Facebook(脸 书)、Twitter (推特)、新浪微博、人人网,其中以Twitter、新浪微博为代表的微博平台以其 开放的信息分享及传播特性成为当前热门的互联网应用。
[0003] 微博,即微博客(Microblog)的简称,用户可以在平台上随时随地发布140字以内 的文字、图片、视频等信息。微博具有原创性、时效性、碎片性、重复性等特点。在微博平台 当中,用户可以搜索查看自己感兴趣的话题,浏览话题相关的内容并参与话题内容的讨论。 但是由于在微博平台当中,充斥着大量关于某一个事件的相关微博,同时因为微博的短文 本特性,这带来了发布信息碎片化、难理解等问题。发布信息参差不齐在微博平台是一个十 分显著的现象。正是因为上述的各种原因,使得用户对很难在短时间内快速了解一个事件 的发展动态,使用户交互体验变差。
[0004] 在现有微博事件可视化的技术当中,一般简单对事件相关的微博按时间进行排 序,将最近时间段内的微博展示给用户,也有按微博的热度进行排序,将热门的微博展示给 用户,另外还有方法通过选择一定时间范围内的微博进行时间或者热度排序的展示。以上 这些展示方法均为对原始微博内容的直接展示,具有多方面的不足之处。第一,由于网络信 息量呈爆炸式增长,传统的对原始微博进行可视化展示的方法很难让用户快速的获取事件 相关的信息内容;第二,由于微博的短文本特性,微博发布信息质量参差不齐,微博口语化 的问题使得用户很难快速理解微博的内容,而要从微博文本中挖掘关于事件的重要信息更 是大海携针。
[0005] 在事件可视化方法当中,有一类是对事件的所有文本信息,进行关键词抽取,然后 对抽取的关键词通过一个词云来展示。这种方式,可以让微博用户从主要的关键词当中了 解事件主要的话题,但是微博用户并不能对事件的各个子事件及事件的发展演变有一个直 观的了解。
[0006] 另外一些可视化的方式通过抽取事件当中的人物、地点、事件摘要句,将它们作为 事件发展的节点信息,以它们之间的关联关系为边,对事件进行可视化的展示。但是这种基 于人物、地点、事件摘要句的可视化展示方式对于微博事件来说具有很大的局限性,因为微 博不像正式的新闻报道具有规范的人物、地点、组织机构等信息,所以从微博中很难获取这 些信息。因此这种可视化方式对于微博来说具有很大的局限性。
[0007] 发明专利"基于用户兴趣挖掘的微博词云生成方法及访问支持系统",该发明公开 一种基于用户兴趣挖掘的微博词云生成方法及微博消息访问支持系统,该方法包括:给定 当前登录用户所关注用户新发布的微博消息集,从中抽取出关键词集;分别基于用户关系、 基于关键词的相似度计算当前登录用户对该关键词集中关键词的兴趣度,并将两种计算所 得的兴趣度融合,计算最终兴趣度;从所述关键词集中选择兴趣度最高的k个关键词;在一 个区域内显示所选择出的k个关键词。该系统包括用户信息获取模块、词云生成器等关键 模块。该发明能够使用户更加高效地从微博消息中获取其感兴趣的信息。但是本发明与该 发明研宄对象不同:该发明以微博用户为研宄对象,分析微博用户的微博内容,通过提取 关键词进行词云展示。而本发明以新闻事件为研宄对象;可视化的不同:该发明仅对微博 进行关键词抽取以词云方式进行展示。而本发明以事件的子事件进行关键词抽取,进行组 合词云的多维度展示。
[0008] 发明专利"基于微博的事件特征演化挖掘方法及系统",该发明公开一种基于微博 的事件特征演化挖掘方法,包括:在微博时序序列中选取演化起始文档集,并在微博文档集 合上基于词汇的共现特征构造文档的图模型以得到事件的知识网络结构;依据词汇的字面 特征,词汇倾向性的相容性特征将微博图模型进行合并,构造事件特征的微观演化图;在事 件的微观演化图上进行剪枝、切分和转化,形成事件特征的宏观演化图。该方法在挖掘事件 特征的演化规律过程中采用了基于事件的知识网络的图挖掘方法,使得整个事件特征演化 挖掘方法在知识的继承性方面得到提升,挖掘结果的可解释性更强。但是本发明与该发明 特征抽取不同:该发明主要从词汇结构上进行特征抽取,通过构建知识网络结构进行事件 的演化展示。本发明主要对事件聚类,挖掘事件的子话题特征信息进行演化展示。

【发明内容】

[0009] 针对现有技术不足,本发明提出了一种基于微博平台的事件可视化方法及系统, 以解决以上技术问题。
[0010] 本发明提出了一种基于微博平台的事件可视化方法,包括:
[0011] 步骤1,根据该事件的关键词和时间范围,通过该微博平台的事件搜索接口,检索 与该事件相关的该时间范围内的微博;
[0012] 步骤2,将该微博按照时间进行排序,生成一个微博集合;
[0013] 步骤3,该微博集合通过聚类算法,生成多个聚类子集;
[0014] 步骤4,对该多个聚类子集进行关键词抽取,生成多个词云,并将重复出现在该多 个词云中的该关键词赋予相同的颜色、位置、旋转方式;
[0015] 步骤5,通过将每个该聚类子集和与其相对应的该词云进行展示的方式,将该事件 进行可视化展示。
[0016] 所述的基于微博平台的事件可视化方法,该步骤2之前还包括:
[0017] 步骤21,过滤该时间范围内的该微博中字数小于某阈值的微博;
[0018] 步骤22,过滤该时间范围内的该微博中热度小于某阈值的微博;
[0019] 步骤23,过滤该时间范围内的该微博中非文本格式的信息;
[0020] 步骤24,过滤该时间范围内的该微博中的用户名"。
[0021] 所述的基于微博平台的事件可视化方法,该步骤22中该热度的计算公式为:
【主权项】
1. 一种基于微博平台的事件可视化方法,其特征在于,包括: 步骤1,根据该事件的关键词和时间范围,通过该微博平台的事件搜索接口,检索与该 事件相关的该时间范围内的微博; 步骤2,将该微博按照时间进行排序,生成一个微博集合; 步骤3,该微博集合通过聚类算法,生成多个聚类子集; 步骤4,对该多个聚类子集进行关键词抽取,生成多个词云,并将重复出现在该多个词 云中的该关键词赋予相同的颜色、位置、旋转方式; 步骤5,通过将每个该聚类子集和与其相对应的该词云进行展示的方式,将该事件进行 可视化展示。
2. 如权利要求1所述的基于微博平台的事件可视化方法,其特征在于,该步骤2之前还 包括: 步骤21,过滤该时间范围内的该微博中字数小于某阈值的微博; 步骤22,过滤该时间范围内的该微博中热度小于某阈值的微博; 步骤23,过滤该时间范围内的该微博中非文本格式的信息; 步骤24,过滤该时间范围内的该微博中的用户名"。
3. 如权利要求2所述的基于微博平台的事件可视化方法,其特征在于,该步骤22中该 热度的计筧公式为:
其中retweets代表微博转发数量,comments代表微博的评论数,Heat代表微博热度。
4. 如权利要求1所述的基于微博平台的事件可视化方法,其特征在于,该步骤4中对每 个该聚类子集进行关键词抽取,生成组合词云的具体步骤包括: 步骤41,对每个该聚类子集进行分词处理,生成词语集合; 步骤42,通过维基百科词条与网络热词对该词语集合进行合并,生成该组合词云。
5. 如权利要求1所述的基于微博平台的事件可视化方法,其特征在于,该步骤4还包 括:根据逆文档频率,将该词语赋予高透明度。
6. -种基于微博平台的事件可视化系统,其特征在于,包括: 检索模块,用于根据该事件的关键词和时间范围,通过该微博平台的事件搜索接口,检 索与该事件相关的该时间范围内的微博; 排序模块,用于将该微博按照时间进行排序,生成一个微博集合; 聚类模块,用于该微博集合通过聚类算法,生成多个聚类子集; 生成组合词云模块,用于对该多个聚类子集进行关键词抽取,生成多个词云,并将重复 出现在该多个词云中的该关键词赋予相同的颜色、位置、旋转方式; 展示模块,用于通过将每个该聚类子集和与其相对应的该词云进行展示的方式,将该 事件进行可视化展示。
7. 如权利要求6所述的基于微博平台的事件可视化系统,其特征在于,还包括过滤模 块,用于过滤该时间范围内的该微博中字数小于某阈值的微博;过滤该时间范围内的该微 博中热度小于某阈值的微博;过滤该时间范围内的该微博中非文本格式的信息;过滤该时 间范围内的该微博中的" @用户名"。
8. 如权利要求7所述的基于微博平台的事件可视化系统,其特征在于,该过滤模块中 该热度的计算公式为:
其中retweets代表微博转发数量,comments代表微博的评论数,Heat代表微博热度。
9. 如权利要求6所述的基于微博平台的事件可视化系统,其特征在于,该生成组合词 云模块中对每个该聚类子集进行关键词抽取,生成组合词云的具体步骤包括:对每个该聚 类子集进行分词处理,生成词语集合;通过维基百科词条与网络热词对该词语集合进行合 并,生成该组合词云。
10. 如权利要求6所述的基于微博平台的事件可视化系统,其特征在于,该展示模块还 用于:根据逆文档频率,将该词语赋予高透明度。
【专利摘要】本发明公开了一种基于微博平台的事件可视化方法及系统,本发明涉及信息抽取及可视化技术,该方法包括根据该事件的关键词和时间范围,通过该微博平台的事件搜索接口,检索与该事件相关的该时间范围内的微博;将该微博按照时间进行排序,生成一个微博集合;该微博集合通过聚类算法,生成多个聚类子集;对该多个聚类子集进行关键词抽取,生成多个词云,并将重复出现在该多个词云中的该关键词赋予相同的颜色、位置、旋转方式;通过将每个该聚类子集和与其相对应的该词云进行展示的方式,将该事件进行可视化展示。依托微博平台,通过事件关键词对相关的微博进行采集,可以全面的获取关于某个事件的微博信息。
【IPC分类】G06F17-30
【公开号】CN104536956
【申请号】CN201410354273
【发明人】曹娟, 储达峰, 周兴, 张勇东, 谢菲, 苏宇
【申请人】中国科学院计算技术研究所, 新华通讯社
【公开日】2015年4月22日
【申请日】2014年7月23日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1