基于微博文本的微博用户兴趣发现方法及系统的制作方法

文档序号:6545987阅读:115来源:国知局
基于微博文本的微博用户兴趣发现方法及系统的制作方法
【专利摘要】本发明提出一种基于微博文本的微博用户兴趣发现方法,包括以下步骤:从互联网上获取数据信息,其中,数据信息包括微博文本、转发信息和关注信息;对微博文本进行分析以获取先验知识,其中,先验知识包括用户互动关系和种子词;对微博文本进行主题聚类以生成主题模型;以及将先验知识集成至主题模型中以对用户的兴趣进行发现。本发明实施例的方法能够快速的从海量微博用户及其文本中发现用户兴趣分布,另外,该方法自适应性好、易于扩展。本发明还提供了一种基于微博文本的微博用户兴趣发现系统。
【专利说明】基于微博文本的微博用户兴趣发现方法及系统
【技术领域】
[0001]本发明涉及计算机应用技术与互联网【技术领域】,特别涉及一种基于微博文本的微博用户兴趣发现方法及系统。
【背景技术】
[0002]随着网络与Web2.0的不断发展,微博已经成为了人们日常生活中记录事件、发表看法的重要渠道。在微博上,不同的用户有着不同的兴趣爱好,发布着不同领域的微博。通过对用户发布的微博文本进行分析,我们可以推断出用户的兴趣所在。也正是由于这个原因,各大厂商都在致力于从微博上挖掘单个用户和所有用户的兴趣分布并加以聚类,从而为今后的决策提供数据支持。但是,以新浪微博为例,新浪微博共有约5亿注册用户,每天有超过2亿条新微博被发布。如果这些微博全由人工处理,显然既费时费力,又不能把握最新的用户兴趣。

【发明内容】

[0003]本发明旨在至少在一定程度上解决上述相关技术中的技术问题之一。
[0004]为此,本发明的一个目的在于提出一种基于微博文本的微博用户兴趣发现方法,该方法能够快速的从海量微博用户及其文本中发现用户兴趣分布,另外,该方法自适应性好,易于扩展。
[0005]本发明的另一个目的在于提供一种基于微博文本的微博用户兴趣发现系统。
[0006]为了实现上述目的,本发明第一方面的实施例提出了一种基于微博文本的微博用户兴趣发现方法,包括以下步骤:从互联网上获取数据信息,其中,所述数据信息包括微博文本、转发信息和关注信息;对所述微博文本进行分析以获取先验知识,其中,所述先验知识包括用户互动关系和自动提取的种子词;对所述微博文本进行主题聚类以生成主题模型;以及将所述先验知识集成至所述主题模型中以对用户的兴趣进行发现。
[0007]根据本发明实施例的基于微博文本的微博用户兴趣发现方法,从互联网上获取微博文本、转发信息和关注信息,并对微博文本进行分析以获取先验知识(即用户互动关系和种子词),并对微博文本进行主题聚类以生成主题模型,并进一步将先验知识集成至主题模型中以对用户的兴趣进行发现。因此,该方法无需对当前的微博文本进行人工分析,即可快速、自动地得到用户的兴趣分布,省时省力。另外,该方法的自适应性强,即对兴趣种类数能自适应,在用户指定兴趣的种类数后,能自动地重新抽取需要的先验知识,并重新训练模型,不需要对核心算法进行修改。进一步地,该方法能够很容易地通过加入先验知识的方式对核心算法进行扩展,另外当有新的数据信息加入时,可在原有模型的基础上,使用新数据对模型进行更新,无需重新训练整个模型,因此,该方法还具有良好的扩展性。
[0008]另外,根据本发明上述实施例的基于微博文本的微博用户兴趣发现方法还可以具有如下附加的技术特征:
[0009]在一些示例中,所述主题模型为隐式狄利克雷分配(LDA),所述LDA通过吉布斯采样实现,采样公式为:
【权利要求】
1.一种基于微博文本的微博用户兴趣发现方法,其特征在于,包括以下步骤: 从互联网上获取数据信息,其中,所述数据信息包括微博文本、转发信息和关注信息;对所述微博文本进行分析以获取先验知识,其中,所述先验知识包括用户互动关系和自动提取的种子词; 对所述微博文本进行主题聚类以生成主题模型;以及 将所述先验知识集成至所述主题模型中以对用户的兴趣进行发现。
2.根据权利要求1所述的基于微博文本的微博用户兴趣发现方法,其特征在于,所述主题模型为隐式狄利克雷分配(LDA),而所述LDA则通过吉布斯采样实现,采样公式为:
3.根据权利要求2所述的基于微博文本的微博用户兴趣发现方法,其特征在于,所述用户互动关系包括@、转发和关注。
4.根据权利要求3所述的基于微博文本的微博用户兴趣发现方法,其特征在于,所述将所述先验知识集成至所述主题模型中以对用户的兴趣进行发现,具体包括: 通过非对称狄利克雷分配对所述用户互动关系进行集成,其中,用户m对于主题k的互动系数为:

5.根据权利要求4所述的基于微博文本的微博用户兴趣发现方法,其特征在于,还包括: 对集成后的用户互动关系进行釆样,釆样公式为:

6.根据权利要求4所述的基于微博文本的微博用户兴趣法发现方法,其特征在于,还包括: 通过计算和加入文档-主题相关度对所述种子词进行集成,其中,文档m和主题k的相关度计算公式为:
7.根据权利要求6所述的基于微博文本的微博用户兴趣法发现方法,其特征在于,还包括: 对集成后的种子词进行采样,采样公式为:
8.一种基于微博文本的微博用户兴趣发现系统,其特征在于,包括: 用户界面模块,所述用户界面模块用于为用户提供图形化的操作界面,以使用户浏览所需的兴趣分布或计算用户之间的兴趣相似度; 数据库接口模块,所述数据库接口模块用于为所述发现系统提供数据库读写接口 ; 功能模块,所述功能模块包括: 数据信息获取子模块,所述数据信息获取子模块用于从互联网上获取数据信息,其中,所述数据信息包括微博文本、转发信息和关注信息; 先验知识获取子模块,所述先验知识获取子模块用于对所述微博文本进行分析以获取先验知识,其中,所述先验知识包括用户互动关系和自动提取的种子词; 主题模型子模块,所述主题模型子模块用于对所述微博文本进行主题聚类以生成主题模型; 集成子模块,所述集成子模块用于将所述先验知识集成至所述主题模型中以对用户的兴趣进行发现。
9.根据权利要求8所述的基于微博文本的微博用户兴趣发现系统,其特征在于,所述主题模型为隐式狄利克雷分配(LDA),所述LDA通过吉布斯采样实现,采样公式为:
10.根据权利要求9所述的基于微博文本的微博用户兴趣发现系统,其特征在于,所述用户互动关系包括@、转发和关注。
11.根据权利要求10所述的基于微博文本的微博用户兴趣发现系统,其特征在于,所述集成子模块还用于通过非对称狄利克雷分配对所述用户互动关系进行集成,其中,用户m对于主题k的互动系数为:
12.根据权利要求11所述的基于微博文本的微博用户兴趣发现系统,其特征在于,所述集成子模块还用于对集成后的用户互动关系进行采样,采样公式为:
13.根据权利要求11所述的基于微博文本的微博用户兴趣发现系统,其特征在于,所述集成子模块还用于通过计算和加入文档-主题相关度对所述种子词进行集成,其中,文档m和主题k的相关度计算公式为:
14.根据权利要求13所述的基于微博文本的微博用户兴趣发现系统,其特征在于,所述集成子模块还用于对集成后的种子进行采样,采样公式为:
【文档编号】G06F17/30GK103970866SQ201410194170
【公开日】2014年8月6日 申请日期:2014年5月8日 优先权日:2014年5月8日
【发明者】徐华, 杨炜炜, 王玮 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1