基于用户兴趣挖掘的微博词云生成方法及访问支持系统的制作方法

文档序号:6535908阅读:387来源:国知局
基于用户兴趣挖掘的微博词云生成方法及访问支持系统的制作方法
【专利摘要】本发明公开一种基于用户兴趣挖掘的微博词云生成方法及微博消息访问支持系统,该方法包括:给定当前登录用户所关注用户新发布的微博消息集,从中抽取出关键词集;分别基于用户关系、基于关键词的相似度计算当前登录用户对该关键词集中关键词的兴趣度,并将两种计算所得的兴趣度融合,计算最终兴趣度;从所述关键词集中选择兴趣度最高的k个关键词;在一个区域内显示所选择出的k个关键词。该系统包括用户信息获取模块、词云生成器等关键模块。本发明能够使用户更加高效地从微博消息中获取其感兴趣的信息。
【专利说明】基于用户兴趣挖掘的微博词云生成方法及访问支持系统
【技术领域】
[0001]本发明涉及微博【技术领域】,尤其涉及一种基于用户兴趣挖掘的微博词云生成方法及微博消息访问支持系统。
【背景技术】
[0002]微博(Microblog,微型博客)是一种基于用户关系的信息分享、传播及获取平台。在微博系统中,用户可以向微博发布消息,实现消息的即时分享。同时,用户还可以关注其他用户以收听他们发布的微博消息。
[0003]在实际的微博系统中,一个用户通常会关注很多其他用户,因此一个用户每天、甚至每小时都能收到大量其关注用户新发布的微博消息,这些微博消息一般以列表的形式分页展示给该用户。在当前的商业化微博系统中,由于用户在阅读这些新微博消息之前无法了解其概要内容,用户需对全部新微博消息进行逐条阅读以避免错过任何其感兴趣的信息。对用户来说,这样做是极其耗时的。
[0004]微博消息的词云(Word Cloud for Microblogs,简称微博词云)为微博用户提供了一种访问新微博消息的途径。具体来说,一组新微博消息的词云将微博消息中所包含的一些关键词以可视化的方式呈现给用户,使用户在阅读微博消息之前便可以了解这些微博消息的概要内容,并且微博词云中的关键词以超链接的形式展现,使用户点击其感兴趣的关键词便可到达包含该关键词的新微博消息集,继而用户便可以阅读相应的新微博消息。
[0005]获取工作、学习、生活、娱乐等多方面有趣的信息,已成为越来越多用户使用微博系统的重要目的。当前,人们生成微博词云的核心思想是基于词频排序,即在一组新微博消息中出现频率较高的关键词优先在词云中显示,基于这种思想所生成出来的微博词云能够较好地反映微博消息所包含的流行话题,但不能较好地覆盖用户可能感兴趣的信息。因此,提供一种能够生成出更好覆盖用户兴趣的微博词云的方法,并提供相应的微博消息访问支持系统是十分必要的,可以使用户能够从微博系统中更高效地获取其感兴趣的信息。

【发明内容】

[0006]本发明提供一种基于用户兴趣挖掘的微博词云生成方法,在生成词云时,分析用户的兴趣并以此确定哪些关键词在词云中优先显示,使微博词云中包含更多该用户可能感兴趣的关键词;在该微博词云生成方法的基础上,本发明提供一种微博消息访问支持系统,使用户可以在阅读全部新微博消息之前先通过微博词云发现其感兴趣的关键词,然后再通过点击微博词云中其感兴趣的关键词快速访问相应的微博消息,节省用户获取信息的时间。
[0007]本发明提供的基于用户兴趣挖掘的微博词云生成方法,包括如下步骤:
[0008]I)给定当前登录用户所关注用户新发布的微博消息集,从所述微博消息集中抽取出关键词集;
[0009]2)分别基于用户关系、基于关键词的相似度计算所述当前登录用户对所述关键词集中各个关键词的兴趣度,并将计算所得的两种兴趣度融合,得到最终兴趣度;
[0010]3)根据兴趣度的值从所述关键词集中选择k个关键词,其中k为事先给定的正整数,并在一个区域内显示所选择出的k个关键词,以将所述k个关键词构成的微博词云可视化地呈现给用户。
[0011]进一步地,步骤I)抽取关键词集的方法是:令初始关键词集为空,对所述微博消息集中每条微博消息的文本进行分词,去掉其中与该微博消息的主要内容无关的词语,包括助词、介词、连词、语气词和叹词,保留反映该微博消息的主要内容的词语,包括描述事件、主题、人物和地点的词语,并将所保留的全部关键词加入关键词集中;
[0012]进一步地,步骤2)计算所述兴趣度的步骤包括:
[0013]2a)基于用户关系计算所述当前登录用户u对所述关键词集中任意关键词w的兴趣度,其基本思想是U与对W感兴趣的其他微博用户越相似,U对W越有可能具有较高的兴趣度:
[0014]首先,对于u及其任意关注用户V,将用户基本信息、所关注用户或者发布、评价、转发的微博消息中所包含的关键词作为特征,以特征集合为依据,利用集合之间的相似关系计算U与V之间的相似度S1 (U,V);
[0015]其次,根据一个关键词在一个用户过去一段时间内发布、评价、转发的微博消息中所出现的频率计算V对W的兴趣因子P (V, w),该时间段可由所述当前登录用户配置;
[0016]最后,对于u所 关注的全部用户,根据u与这些用户的相似度以及这些用户对w的兴趣因子,计算U对W的兴趣度,其公式如下:
[0017]其中υ表示u所关注的全部用户的集合;
[0018]2b)基于关键词的相似度计算所述当前登录用户u对所述关键词集中任意关键词W的兴趣度,其基本思想是W与U之前感兴趣的关键词越相似,U对W越有可能具有较高的兴趣度:
[0019]首先,对于u之前发布、评价、转发的微博消息中所包含的任意关键词W’,依据关键词所出现在的微博消息集合之间的相似关系,计算W与W’之间的相似度S2 (W,W’ );
[0020]其次,根据一个关键词在一个用户过去一段时间内发布、评价、转发的微博消息中所出现的频率计算U对W’的兴趣因子P (U,W’ ),该时间段可由所述当前登录用户配置;
[0021]最后,对于u发布、评价、转发的全部微博消息中所包含的关键词,根据w与这些关键词的相似度以及U对这些关键词的兴趣因子,计算U对W的兴趣度,其公式如下:
[0022]
【权利要求】
1.一种基于用户兴趣挖掘的微博词云生成方法,其步骤包括: 1)给定当前登录用户所关注用户新发布的一个微博消息集,从所述微博消息集中抽取出一个关键词集; 2)分别基于用户关系、基于关键词的相似度计算所述当前登录用户对所述关键词集中各个关键词的兴趣度,并将计算所得的两种兴趣度融合,得到最终兴趣度; 3)根据兴趣度的值从所述关键词集中选择k个关键词,其中k为事先给定的正整数,并在一个区域内显示所选择出的k个关键词,以将所述k个关键词构成的微博词云可视化地呈现给用户。
2.如权利要求1所述的方法,其特征在于,步骤I)中抽取关键词集的方法是:令初始关键词集为空,对所述微博消息集中每条微博消息的文本进行分词,去掉其中与该微博消息的主要内容无关的词语,包括助词、介词、连词、语气词和叹词,保留反映该微博消息的主要内容的词语,包括描述事件、主题、人物和地点的词语,并将所保留的全部关键词加入关键词集中。
3.如权利要求1所述的方法,其特征在于,步骤2)计算所述兴趣度的步骤包括: 2a)基于用户关系计算当前登录用户u对所述关键词集中任意关键词w的兴趣度,u与对W感兴趣的微博用户越相似,则U对W越有可能具有较高的兴趣度: 首先,对于U及其任意关注用户V,将用户基本信息、所关注用户或者发布、评价、转发的微博消息中所包含的关键词作为特征,以特征集合为依据,利用集合之间的相似关系计算U与V之间的相似度S1 (U,V); 其次,根据一个关键词在一个用户过去一段时间内发布、评价、转发的微博消息中所出现的频率计算V对W的兴趣因子P (V, w),该时间段可由所述当前登录用户配置; 最后,对于U所关注的全部用户,根据U与这些用户的相似度以及这些用户对W的兴趣因子,计算U对W的兴趣度,其公式如下:
4.如权利要求3所述的方法,其特征在于:步骤2c)取λ=0.5,表示两种兴趣度具有相同的权重值。
5.如权利要求1所述的方法,其特征在于:步骤3)选择的k个关键词是兴趣度最高的k个关键词,k远远小于所述关键词集的大小。
6.如权利要求1所述的方法,其特征在于,步骤3)显示所选择出的k个关键词的步骤包括: 3a)按照兴趣度大小、字母顺序或随机顺序排列各个关键词; 3b)依据兴趣度大小决定各个关键词显示时的字体大小,计算关键词w的字体大小Z(W)的公式如下:

7.一种微博消息访问支持系统,其特征在于,包括: 微博消息获取模块,用于获取当前登录用户所关注的用户在一段时间内所新发布的微博消息的集合; 用户信息获取模块,用于获取下列信息中的一种或多种:所述当前登录用户的基本信息,所述当前登录用户所关注的用户,所述当前登录用户之前发布、评价、转发的微博消息,所述当前登录用户的关注用户的基本信息,所述当前登录用户的关注用户所关注的用户,所述当前登录用户的关注用户之前发布、评价、转发的微博消息; 选择词管理模块,用于存储和显示所述当前登录用户当前在微博词云中已选择的关键词集合,简称为用户当前已选择词集:初始化用户当前已选择词集为空,当所述当前登录用户在微博词云中点击一个关键词时,此模块将该关键词保存在用户当前已选择词集中并将该新词集显示给所述当前登录用户;当所述当前登录用户取消选择用户当前已选择词集中的一个关键词时,此模块将该关键词从用户当前已选择词集中删除并将该新词集显示给所述当前登录用户; 词云生成器,用于接受所述微博消息获取模块所获取到的微博消息集,所述用户信息获取模块所获取到的用户信息,以及选择词管理模块所存储的用户当前已选择词集,针对微博消息集中包含用户当前已选择词集中全部关键词的微博消息的集合,利用用户信息、使用基于用户兴趣挖掘的微博词云生成方法生成微博词云,将该微博词云显示给所述当前登录用户,并返回所述当前登录用户在微博词云中所点击的关键词; 消息显示模块,用于接受所述微博消息获取模块所获取到的微博消息集和选择词管理模块所存储的用户当前已选择词集,向所述当前登录用户按照时间顺序显示微博消息集中包含用户当前已选择词集中全部关键词的微博消息的集合。
8.如权利要求7所述的微博消息访问支持系统,其特征在于,所述词云生成器包括: 同步控制模块,用于监控输入的各项数据是否有变化,若有变化,则使用变化后的数据生成微博词云; 词抽取模块,用于从包含用户当前已选择词集中全部关键词的输入微博消息的集合中抽取出反映该微博消息集内容的关键词集; 用户兴趣挖掘模块,用于根据用户信息计算所述当前登录用户对所述关键词集中各个关键词的兴趣度; 词选择模块,用于从所述关键词集中选择兴趣度最高的k个关键词; 词显示模块,用于在一个区域内将所选出的k个关键词显示给所述当前登录用户,监控所述当前登录用户对所显示的关键词的点击,并返回用户所点击的关键词。
9.如权利要求7所述的微博消息访问支持系统,其特征在于,所述词抽取模块将已经进行关键词抽取的微博消息和从中抽取出的关键词存储到数据库中,当对一条微博消息抽取关键词时,首先检查该微博消息是否已经在数据库中,若在,则不需要对其进行关键词抽取,而是直接从数据库中获取相应的关键词,若不在,则对该微博消息进行关键词抽取,并将抽取的结果保存到数据库中。
10.一种使用权利要求7所述微博消息访问支持系统访问微博消息的方法,其步骤包括: S1:所述系统显示全部微博消息,即当前登录用户所关注的用户在一段时间内所新发布的微博消息,针对全部微博消息的集合生成微博词云,令用户当前已选择词集为空并显示该词集; S2:所述当前登录用户点击微博词云中的一个关键词; S3:所述系统将用户所点击的关键词保存在用户当前已选择词集中并显示该新词集; S4:所述系统显示全部微博消息中包含用户当前已选择词集中全部关键词的微博消息,针对所显示的微博消息的集合生成微博词云; S5:所述当前登录用户为如下三种情况之一: S5-1:继续在微博词云中点击关键词,转到S2 ; S5-2:取消关键词的选择,转到S6 ; S5-3:阅读微博消息,转到S8 ; S6:所述当前登录用户对用户当前已选择词集中一个关键词取消选择; S7:所述系统将用户所取消的关键词从用户当前已选择词集中删除并显示该新词集,转到S4 ; S8:所述当前登录用户阅读所述系统所显示的微博消息。
【文档编号】G06F17/30GK103793481SQ201410020292
【公开日】2014年5月14日 申请日期:2014年1月16日 优先权日:2014年1月16日
【发明者】汪美玲, 陶秋铭, 周翔, 李梅, 赵琛 申请人:中国科学院软件研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1