一种基于用户模型的微博文本推荐方法及其推荐装置的制造方法

文档序号:9432654阅读:224来源:国知局
一种基于用户模型的微博文本推荐方法及其推荐装置的制造方法
【技术领域】
[0001] 本发明设及数据挖掘、自然语言处理和信息检索领域,尤其设及一种基于用户模 型的微博文本推荐方法(MicrobloggingContentRecommendationAlgorithnbMCRA)及其 推荐装置。
【背景技术】
[0002] 目前对微博用户建模进行个性化推荐的方法有多种,从侧重点出发考虑大致可W 归纳为两种:微博用户关系或微博用户发布文本内容。分析微博用户关系,进行个性化推 荐:通过分析微博用户在社交网络中的关系,分析其在社区中的位置,分析其在社区内的用 户影响力,通过对影响力进行排名,对微博用户进行用户推荐。分析微博用户发布的文本内 容:针对微博用户发布的微博内容,对其进行处理和分析,从而对微博用户进行建模和个性 化推荐。通过判断其他用户与此模型的相似度,向用户推荐与其相似度最高的用户或者内 容。运种解决方案的核屯、就是进行用户内容建模。
[0003] 对用户内容建模方法常用的有传统的统计方法词项频率一逆向文本频率模型 (TermRrequen巧-InverseDo州mentRrequen巧,TF-IDFO和主题建模。但传统的内容建模 方法TF-IDF,无法体现用户对于潜在主题的兴趣。
[0004] 主题建模技术主要有潜在语义模型化atentSemanticAnalysis,LSA)、概率潜在 语义模型(Prob油ilisiticLatentSemanticAnalysis,PLSA)、隐式狄利克雷分布模型 化atentDirichletAllocation,LDA)等。LSA模型将文档从稀疏的高维词空间映射到一个 低维的向量空间,使用低维空间刻画同义词,同义词会对应着相同或相似的主题。然而LSA 模型没有刻画词项出现次数的概率模型;PLSA模型类似LSA模型的思想,引入了类(主题) 和词之间的概率表示,使用最大期望算法巧xpectationMaximizationAlgorithm,EM)与 最大似然估计可W获得此模型的参数。此模型在文档层面上没有提供合适的概率模型,使 得化SA模型并不是完备的生成式模型,而必须在确定文档的情况下才能对模型进行随机 抽样。 阳0化]针对化SA的不足,研究者们提出了隐狄里克雷分布LDA模型。LDA模型引入了两 个概率分布,即文档主题概率分布和主题词项概率分布,认为文档是由多主题W某种概率 形式组成,主题是由词项W某种概率形式组成,运符合文档的生成过程。LDA主题模型能 够较好地反应出用户关注的主题,但运种方法无法避免微博文字数目限制带来的建模不准 确。在推荐中单纯使用运种用户主题模型无法达到最好的推荐效果。

【发明内容】

[0006] 本发明提供了一种基于用户模型的微博文本推荐方法及其推荐装置,本发明能够 在其他微博用户发布的海量微博信息中发现实验目标用户可能感兴趣的微博信息,并推荐 给目标用户,从而加强用户之间的联系W便于提升微博的生命力,详见下文描述:
[0007] 一种基于用户模型的微博文本推荐方法,所述方法包括W下步骤:
[0008] 获取微博数据,形成微博文档,对微博文档进行预处理;
[0009] 根据LDA主题模型,建立目标用户主题模型,并计算候选微博与目标用户主题模 型的匹配度;
[0010] 基于TF-IDF算法,建立目标用户关键词向量模型,并计算候选微博与目标用户关 键词向量模型的匹配度;
[0011] 使用加权平均的方法结合两个匹配度,计算候选微博与目标用户模型的匹配度作 为候选微博的评分,并对评分进行排序。
[0012] 其中,所述计算候选微博与目标用户模型的匹配度作为候选微博的评分,并对评 分进行排序的步骤具体为:
[0013] 获取候选微博的评分Score(W,U)后,根据评分对候选微博进行排序,构建目标用 户的初始微博推荐列表L。,对初始微博推荐列表L。进行冗余处理;
[0014] 输出冗余处理后的推荐列表。
[0015] 一种基于用户模型的微博文本推荐装置,所述装置包括:
[0016] 获取与预处理模块,用于获取微博数据,形成微博文档,对微博文档进行预处理;
[0017] 第一计算模块,用于根据LDA主题模型,建立目标用户主题模型,并计算候选微博 与目标用户主题模型的匹配度;
[0018] 第二计算模块,用于基于TF-IDF算法,建立目标用户关键词向量模型,并计算候 选微博与目标用户关键词向量模型的匹配度;
[0019] 排序模块,用于使用加权平均的方法结合两个匹配度,计算候选微博与目标用户 模型的匹配度作为候选微博的评分,并对评分进行排序。
[0020] 其中,所述排序模块还包括:
[0021] 冗余处理子模块,用于获取候选微博的评分Score(W,U)后,根据评分对候选微博 进行排序,构建目标用户的初始微博推荐列表L。,对初始微博推荐列表L。进行冗余处理; 阳0巧输出子模块,用于输出冗余处理后的推荐列表。
[0023] 本发明提供的技术方案的有益效果是:
[0024](1)在短文本推荐中,结合LDA主题模型方法和TF-IDF的建模方法为目标用户建 立目标用户模型,有效发挥两种方法的优势,取得更准确的用户建模效果,同时提出计算候 选微博与用户模型匹配度的计算方法。
[00对 似根据微博文本特点,提出基于加权的候选微博评分标准,通过对权值的调整, 可W有效地控制建模方法在评分中占有的比重。为候选微博评分并进行T0P-N推荐,进而 获得更精确的微博文本推荐算法。
【附图说明】
[00%]图1为一种基于用户模型的微博文本推荐方法的流程图;
[0027] 图2为MCRA算法的流程图;
[0028] 图3为a=0. 0001时,P取不同值时AP的变化示意图;
[0029] 图4为MCRA,LDA和TF-IDF的F值比较的示意图;
[0030] 图5为MCRA和TF-IDF算法的AP值对比的示意图;
[0031] 图6为一种基于用户模型的微博文本推荐装置的示意图;
[0032] 图7为排序模块的示意图。
[0033] 附图中,各标号所代表的部件列表如下:
[0034] 1 :获取与预处理模块; 2 :第一计算模块; W35] 3 :第二计算模块; 4 :排序模块;
[0036] 41 :冗余处理子模块; 42 ;输出子模块。
【具体实施方式】
[0037] 为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步 地详细描述。 阳0測 实施例1
[0039] 一种基于用户模型的微博文本推荐方法,参见图1,该微博文本推荐方法包括W下 步骤:
[0040] 101 :获取微博数据,形成微博文档,对微博文档进行预处理;
[0041] 例如:W新浪微博为研究对象,选定某个新浪微博用户作为本发明实施例的目标 用户,对其进行内容推荐。使用目标用户及其关注者的发布微博内容和转发微博内容作为 本发明实施例的研究范围,假设目标用户及其关注者发布和转发的微博内容是目标用户喜 欢的内容,可作为研究内容分析目标用户的兴趣爱好。抓取目标用户及其关注者发布和转 发的微博数据,并形成本发明实施例进行模型构建的微博文档。
[0042] 在对每个微博文档进行预处理,包括:分词、向量化、降维等步骤,选定实验用的训 练集和测试集(由候选微博组成的集合)。该步骤的具体操作为本领域技术人员所公知,本 发明实施例对此不做寶述。
[00创 102 :根据LDA主题模型,建立目标用户主题模型,并计算候选微博与目标用户主 题模型的匹配度; W44] 103 :基于TF-IDF算法,建立目标用户关键词向量模型,并计算候选微博与目标用 户关键词向量模型的匹配度;
[0045]目标用户模型包括:目标用户主题模型和目标用户关键词向量模型。计算候选微 博与目标用户模型的匹配度时,即分别计算候选微博与目标用户主题模型、W及目标用户 关键词向量模型的匹配度。
[0046] 104 :使用加权平均的方法结合两个匹配度,计算候选微博与目标用户模型的匹配 度作为候选微博的评分,并对评分进行排序。
[0047] 具体实现时,本发明实施例根据目标用户发布的消息内容对目标用户进行主题建 模。获取待推荐微博列表,然后根据候选微博与目标用户的主题匹配度对候选微博进行评 分,根据评分对候选微博进行排序从而进行推荐。
[0048] 综上所述,本发明实施例通过上述步骤101至步骤104提高了微博文本推荐的准 确率,使得目标用户真正感兴趣的微博排列在推荐列表中更靠前的位置。 W49] 实施例2
[0050]
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1