一种基于用户模型的微博文本推荐方法及其推荐装置的制造方法

文档序号：9432654阅读：224来源：国知局

一种基于用户模型的微博文本推荐方法及其推荐装置的制造方法
【技术领域】
[0001] 本发明设及数据挖掘、自然语言处理和信息检索领域，尤其设及一种基于用户模型的微博文本推荐方法（MicrobloggingContentRecommendationAlgorithnbMCRA)及其推荐装置。
【背景技术】
[0002] 目前对微博用户建模进行个性化推荐的方法有多种，从侧重点出发考虑大致可W 归纳为两种：微博用户关系或微博用户发布文本内容。分析微博用户关系，进行个性化推荐：通过分析微博用户在社交网络中的关系，分析其在社区中的位置，分析其在社区内的用户影响力，通过对影响力进行排名，对微博用户进行用户推荐。分析微博用户发布的文本内容：针对微博用户发布的微博内容，对其进行处理和分析，从而对微博用户进行建模和个性化推荐。通过判断其他用户与此模型的相似度，向用户推荐与其相似度最高的用户或者内容。运种解决方案的核屯、就是进行用户内容建模。
[0003] 对用户内容建模方法常用的有传统的统计方法词项频率一逆向文本频率模型 (TermRrequen巧-InverseDo州mentRrequen巧,TF-IDFO和主题建模。但传统的内容建模方法TF-IDF，无法体现用户对于潜在主题的兴趣。
[0004] 主题建模技术主要有潜在语义模型化atentSemanticAnalysis,LSA)、概率潜在语义模型（Prob油ilisiticLatentSemanticAnalysis,PLSA)、隐式狄利克雷分布模型化atentDirichletAllocation,LDA)等。LSA模型将文档从稀疏的高维词空间映射到一个低维的向量空间，使用低维空间刻画同义词，同义词会对应着相同或相似的主题。然而LSA 模型没有刻画词项出现次数的概率模型；PLSA模型类似LSA模型的思想，引入了类（主题）和词之间的概率表示，使用最大期望算法巧xpectationMaximizationAlgorithm,EM)与最大似然估计可W获得此模型的参数。此模型在文档层面上没有提供合适的概率模型，使得化SA模型并不是完备的生成式模型，而必须在确定文档的情况下才能对模型进行随机抽样。阳0化]针对化SA的不足，研究者们提出了隐狄里克雷分布LDA模型。LDA模型引入了两个概率分布，即文档主题概率分布和主题词项概率分布，认为文档是由多主题W某种概率形式组成，主题是由词项W某种概率形式组成，运符合文档的生成过程。LDA主题模型能够较好地反应出用户关注的主题，但运种方法无法避免微博文字数目限制带来的建模不准确。在推荐中单纯使用运种用户主题模型无法达到最好的推荐效果。

【发明内容】

[0006] 本发明提供了一种基于用户模型的微博文本推荐方法及其推荐装置，本发明能够在其他微博用户发布的海量微博信息中发现实验目标用户可能感兴趣的微博信息，并推荐给目标用户，从而加强用户之间的联系W便于提升微博的生命力，详见下文描述：
[0007] 一种基于用户模型的微博文本推荐方法，所述方法包括W下步骤：
[0008] 获取微博数据，形成微博文档，对微博文档进行预处理；
[0009] 根据LDA主题模型，建立目标用户主题模型，并计算候选微博与目标用户主题模型的匹配度；
[0010] 基于TF-IDF算法，建立目标用户关键词向量模型，并计算候选微博与目标用户关键词向量模型的匹配度；
[0011] 使用加权平均的方法结合两个匹配度，计算候选微博与目标用户模型的匹配度作为候选微博的评分，并对评分进行排序。
[0012] 其中，所述计算候选微博与目标用户模型的匹配度作为候选微博的评分，并对评分进行排序的步骤具体为：
[0013] 获取候选微博的评分Score(W，U)后，根据评分对候选微博进行排序，构建目标用户的初始微博推荐列表L。，对初始微博推荐列表L。进行冗余处理；
[0014] 输出冗余处理后的推荐列表。
[0015] 一种基于用户模型的微博文本推荐装置，所述装置包括：
[0016] 获取与预处理模块，用于获取微博数据，形成微博文档，对微博文档进行预处理；
[0017] 第一计算模块，用于根据LDA主题模型，建立目标用户主题模型，并计算候选微博与目标用户主题模型的匹配度；
[0018] 第二计算模块，用于基于TF-IDF算法，建立目标用户关键词向量模型，并计算候选微博与目标用户关键词向量模型的匹配度；
[0019] 排序模块，用于使用加权平均的方法结合两个匹配度，计算候选微博与目标用户模型的匹配度作为候选微博的评分，并对评分进行排序。
[0020] 其中，所述排序模块还包括：
[0021] 冗余处理子模块，用于获取候选微博的评分Score(W，U)后，根据评分对候选微博进行排序，构建目标用户的初始微博推荐列表L。，对初始微博推荐列表L。进行冗余处理；阳0巧输出子模块，用于输出冗余处理后的推荐列表。
[0023] 本发明提供的技术方案的有益效果是：
[0024](1)在短文本推荐中，结合LDA主题模型方法和TF-IDF的建模方法为目标用户建立目标用户模型，有效发挥两种方法的优势，取得更准确的用户建模效果，同时提出计算候选微博与用户模型匹配度的计算方法。
[00对似根据微博文本特点，提出基于加权的候选微博评分标准，通过对权值的调整，可W有效地控制建模方法在评分中占有的比重。为候选微博评分并进行T0P-N推荐，进而获得更精确的微博文本推荐算法。
【附图说明】
[00%]图1为一种基于用户模型的微博文本推荐方法的流程图；
[0027] 图2为MCRA算法的流程图；
[0028] 图3为a=0. 0001时，P取不同值时AP的变化示意图；
[0029] 图4为MCRA，LDA和TF-IDF的F值比较的示意图；
[0030] 图5为MCRA和TF-IDF算法的AP值对比的示意图；
[0031] 图6为一种基于用户模型的微博文本推荐装置的示意图；
[0032] 图7为排序模块的示意图。
[0033] 附图中，各标号所代表的部件列表如下：
[0034] 1 :获取与预处理模块； 2 :第一计算模块； W35] 3 :第二计算模块； 4 :排序模块；
[0036] 41 :冗余处理子模块； 42 ;输出子模块。
【具体实施方式】
[0037] 为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。阳0測实施例1
[0039] 一种基于用户模型的微博文本推荐方法，参见图1，该微博文本推荐方法包括W下步骤：
[0040] 101 :获取微博数据，形成微博文档，对微博文档进行预处理；
[0041] 例如：W新浪微博为研究对象，选定某个新浪微博用户作为本发明实施例的目标用户，对其进行内容推荐。使用目标用户及其关注者的发布微博内容和转发微博内容作为本发明实施例的研究范围，假设目标用户及其关注者发布和转发的微博内容是目标用户喜欢的内容，可作为研究内容分析目标用户的兴趣爱好。抓取目标用户及其关注者发布和转发的微博数据，并形成本发明实施例进行模型构建的微博文档。
[0042] 在对每个微博文档进行预处理，包括：分词、向量化、降维等步骤，选定实验用的训练集和测试集（由候选微博组成的集合）。该步骤的具体操作为本领域技术人员所公知，本发明实施例对此不做寶述。
[00创 102 :根据LDA主题模型，建立目标用户主题模型，并计算候选微博与目标用户主题模型的匹配度； W44] 103 :基于TF-IDF算法，建立目标用户关键词向量模型，并计算候选微博与目标用户关键词向量模型的匹配度；
[0045]目标用户模型包括：目标用户主题模型和目标用户关键词向量模型。计算候选微博与目标用户模型的匹配度时，即分别计算候选微博与目标用户主题模型、W及目标用户关键词向量模型的匹配度。
[0046] 104 :使用加权平均的方法结合两个匹配度，计算候选微博与目标用户模型的匹配度作为候选微博的评分，并对评分进行排序。
[0047] 具体实现时，本发明实施例根据目标用户发布的消息内容对目标用户进行主题建模。获取待推荐微博列表，然后根据候选微博与目标用户的主题匹配度对候选微博进行评分，根据评分对候选微博进行排序从而进行推荐。
[0048] 综上所述，本发明实施例通过上述步骤101至步骤104提高了微博文本推荐的准确率，使得目标用户真正感兴趣的微博排列在推荐列表中更靠前的位置。 W49] 实施例2
[0050]

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：喻梅;徐天一;王建荣;于健;缑小路;郭佳;
技术所有人：天津大学;
我是此专利的发明人

上一篇：一种基于本体库的交通大数据语义应用服务方法
上一篇：一种数据相似度分析方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。