基于微博社交网络的话题自动推荐方法及其系统的制作方法

文档序号:9687640阅读:462来源:国知局
基于微博社交网络的话题自动推荐方法及其系统的制作方法
【技术领域】
[0001]本发明涉及计算机应用技术与社交网络领域,具体涉及一种基于微博社交网络的话题自动推荐方法及其系统。
【背景技术】
[0002]近年来,微博平台的兴起极大激发了人们发布与分享信息的兴趣,越来越多的网民加入到这些社交网站成为其内容贡献者。用户除了分享信息外,更注重人与人之间的交流,因此其内容都比较随意和口语化,而且简短。比如新浪微博限制其每条消息长度不能超过140个字。
[0003]在当今互联网,短文本的流行有着必然性,即它能很好的适应信息产生与传播速度不断增长的要求。从用户角度考虑,发布一篇长文本文档需要耗费较长的时间和精力编写。而短文本信息则风格随意,编写简单,发布起来没有任何门槛。其次,从信息接受者角度考虑,短文本对信息的表达更加简约紧凑、来源更丰富,使得用户可以利用碎片化时间更快更多的获取信息。
[0004]互联网特别是基于微博的社交网络平台上的海量文本数据是一座有待开采的金矿,其中蕴含着丰富的有价值信息。这些信息对很多应用多有重要意义。然而如何从这些短文本中挖掘有价值的信息却并不简单。这些短文本内容很稀疏,导致上下文相关信息严重不足,并且通常包含很多新生词汇、无关信息,给文本语义分析带来了很大困难。
[0005]在Web2.0时代前,短文本在互联网上并非主流,与其相关的语义处理分析研究并不多见。一个相关的研究方向是信息检索领域的对查血理解和处理。通常查询长度在5个词以内,查询也是一种典型的短文本。早期的信息检索主要基于向量空间模型或者统计语言模型来计算查询文本和文档直接的相似度。这种简单的处理方式只能搜索到那些至少包含一个查询词的文档,无法检索那些从语义上更加相关而词汇不匹配的文档。
[0006]近年来,伴随着短文本在互联网应用中的增多,短文本挖掘相关研究也逐渐受到重视,研究者们尝试了多种方法来改进短文本语义分析与处理。而其中针对短文本主题模型的研究更是受到广泛关注。在这些工作中,为了克服短文本内容稀疏问题作出了很多尝试。例如,很多人将多条微博聚合,形成一篇长文档,再利用经典的话题模型对其进行语义分析。这种聚合方式,实际上可以看成是利用内部数据来扩充原来的短文本文档。但是很多应用场合需要对单条微博内容进行语义分析,这就使得我们不能采用聚合方式的语义分析主题模型,因此,针对短文本的主题模型研究一直是一个重要课题。

【发明内容】

[0007]本发明旨在至少解决上述技术问题之一。
[0008]为此,本发明的第一个目的在于提出一种基于微博社交网络的话题自动推荐方法。
[0009]本发明的第二个目的在于提出一种基于微博社交网络的话题自动推荐系统。
[0010]为了实现上述目的,本发明的实施例公开了一种基于微博社交网络的话题自动推荐方法,包括以下步骤:S1:对用户的每条微博内容进行预处理,预处理后文字内容至少包括两个词;S2:使用增量双词主题模型对所述预处理后的文字内容进行主题预测,得到每条微博对应的主题;S3:根据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型;S4:根据所述隐含狄利克雷分布模型挖掘所述用户的兴趣分布;S5:从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘所述用户的兴趣分布,并删除发布时间最早的微博内容;以及S6:根据所述用户的兴趣分布向所述用户推荐相应内容。。
[0011]根据本发明实施例的基于微博社交网络的话题自动推荐方法,对微博社交网络平台用户发送的新微博自动推荐合适的话题。话题不仅可以帮助用户和微博平台对海量微博内容进行管理,也能在自然语言处理很多应用场景下提高现有系统的准确性。
[0012]另外,根据本发明上述实施例的基于微博社交网络的话题自动推荐方法,还可以具有如下附加的技术特征:
[0013]进一步地,所述关键词包括文字内容、微博序列和微博发布时间。
[0014]进一步地,所述步骤S2进一步包括:S201:从进行预数理后的文字内容中选取多个双词,并根据所述增量双词主题模型对多个所述双词采用对应的主题;S202:对于每个双词,从所述双词中抽取部分信息构成再生双词序列,其中,所述再生双词序列包括多个双词,所述再生双词序列中的每个双词,根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。
[0015]为了实现上述目的,本发明的实施例公开了一种基于微博社交网络的话题自动推荐系统,包括:数据预处理模块,用于对用户的每条微博内容进行预处理,预处理后的文字内容至少包括两个关键词;主题预测模块,用于根据增量双词主题模型对所述预处理后的文字内容进行主题预测,得到每条微博对应的主题;主题建模模块,用于据用户的历史微博数据对应的主题建立相应的隐含狄利克雷分布模型;兴趣分布挖掘模块,用于根据所述隐含狄利克雷分布模型挖掘所述用户的兴趣分布,还用于从所述用户新发布的微博内容中抽取预设数量的微博内容重新挖掘所述用户的兴趣分布,并删除发布时间最早的微博内容;以及话题推荐展示模块,用于根据所述用户的兴趣分布推荐预设数量的话题。
[0016]根据本发明实施例的基于微博社交网络的话题自动推荐系统,对微博社交网络平台用户发送的新微博自动推荐合适的话题。话题不仅可以帮助用户和微博平台对海量微博内容进行管理,也能在自然语言处理很多应用场景下提高现有系统的准确性。
[0017]另外,根据本发明上述实施例的基于微博社交网络的话题自动推荐系统,还可以具有如下附加的技术特征:
[0018]进一步地,所述数据预处理模块包括:数据清洗模块,用于对所述用户微博中获取的数据进行数据清洗,并将清洗后的关键词放入词袋模型;时间获取模块,用于获取用户发布微博的时间信息;关联微博文档建立模块,用于取每个用户固定数量的最新发布的微博构成;以及双词抽取模块,用于将微博按照发布时间整理成序列化数据,从中抽取最近发布的预设数量个双词。
[0019]进一步地,所述主题建模模块包括:双词选取模块,用于从进行预数理后的文字内容中选取多个双词;增量双词主题模型,用于对多个所述双词采用对应的主题;信息抽取模块,用于从所述双词中抽取部分信息构成再生双词序列,其中,所述再生双词序列包括多个双词,所述再生双词序列中的每个双词,根据条件概率重新采用所述双词的主题以修正由于数据不足导致的采样偏差。
[0020]本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0021]本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0022]图1是本发明一个实施例的基于微博社交网络的话题自动推荐方法的流程图;
[0023]图2是本发明一个实施例的基于微博社交网络的话题自动推荐系统的结构示意图。
【具体实施方式】
[0024]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。<
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1