消息推荐方法及装置的制造方法_4

文档序号:9375590阅读:来源:国知局
别通过上述公式 (4)及(5)计算出用户u的兴趣描述消息(即第一消息的兴趣描述消息),及用户V发布的消 息t的话题描述信息(即第二消息的话题描述消息)。从而,通过上述公式(7)计算所述第 二消息在K个话题上的概率分布信息与所述第一消息在K个话题上的概率分布信息的相似 度。
[0115] 步骤103、若所述相似度大于或等于预定值时,向所述第一用户推送所述第二用户 发布的所述第二消息。
[0116] 本发明实施例中,可以通过上述公式(6)或(7)计算得到第一用户的兴趣描述信 息与第二用户发布的消息t的兴趣描述信息的相似度,若该相似度大于或等于预定值,则 可以认为所述第二用户发布的消息t是第一用户感兴趣的消息,从而向所述第一用户推送 该消息,否则,则认为该消息t不是第一用户感兴趣的消息,从而不给第一用户推送该消 息。可选地,所述向第一用户推送该消息还可以包括:将所述相似度结果提供给社交网络用 以给用户推送感兴趣的消息。
[0117] 本发明实施例中,通过分别解析第一用户在网络上发布的第一消息以及第二用户 在网络上发布的第二消息,获取所述第一消息的兴趣描述信息以及所述第二消息的话题描 述信息;将所述话题描述信息与所述兴趣描述信息进行比较,并计算所述话题描述信息与 所述兴趣描述信息的相似度;若所述相似度大于或等于预定值时,向所述第一用户推送所 述第二用户发布的所述第二消息,从而使用户可以方便灵活地获取到感兴趣的消息。
[0118] 图2为本发明消息推荐方法实施例二的流程图,如图2所示,首先,可以通过数据 抓取服务器(网络爬虫)以及数据抓取控制器(爬虫调度)从社交网络如新浪微博爬取文档 数据存入网络文件系统(Network File System,简称NFS);其次,通过数据解析服务器和解 析控制器把爬虫爬到的文档数据解析为结构化数据,作为UMM学习的输入,其中,所述UMM 模型可以为根据本发明消息推荐方法实施例一中步骤101所述方法建立的模型;然后,根 据该文档所属的作者和内容(所述结构化数据),通过UMM模型自动学习生成话题、生成文档 话题(即每一个文档在话题层面的表示,也即消息的话题描述信息)以及生成用户话题(即 每一个用户在话题层面的表示,也即用户的兴趣描述信息)并作为UMM模型的输出,即上述 Φ €1£及 最后,当社交网络上检测到新产生的微博文档时,根据UMM模型计算新的 文档的话题描述信息,并与用户兴趣描述信息进行比较(即相似度计算),可以在线预测每 一个用户对这个新的微博文档的喜好程度,可选地,可以将该喜好程度反馈到社交网络用 以根据该结果选取与各用户的兴趣最相似的微博进行相应地推荐。
[0119] 可选地,本发明实施例的方法不依赖于具体语言的特征抽取技术、具体的社交网 络环境及特定的用户行为模式,因此,本发明的应用场景不限于新浪微博、twitter等,可以 方便地扩展到各种不同的社交网络环境和不同内容推荐,本发明实施例在此并不作限定。
[0120] 图3为本发明消息推荐装置实施例的结构示意图,如图3所示,本实施例提供的消 息推荐装置30包括:获取模块301、比较模块302及推送模块303。
[0121] 其中,获取模块301用于分别解析第一用户在网络上发布的第一消息以及第二用 户在网络上发布的第二消息,获取所述第一消息的兴趣描述信息以及所述第二消息的话题 描述信息;其中,所述第二用户为除所述第一用户之外的其它用户;
[0122] 比较模块302用于将所述话题描述信息与所述兴趣描述信息进行比较,并计算所 述话题描述信息与所述兴趣描述信息的相似度;
[0123] 推送模块303用于若所述相似度大于或等于预定值时,向所述第一用户推送所述 第二用户发布的消息。
[0124] 可选地,所述兴趣描述信息包括所述第一用户发布的所述第一消息在K个话题上 的概率分布信息;所述话题描述信息包括所述第二用户发布的所述第二消息在K个话题上 的概率分布信息,所述K为大于0的整数;
[0125] 相应地,所述比较模块具体用于:比较所述第二消息在K个话题上的概率分布信 息与所述第一消息在K个话题上的概率分布信息,并计算所述第二消息在K个话题上的概 率分布信息与所述第一消息在K个话题上的概率分布信息的相似度。
[0126] 可选地,所述获取模块301具体用于:分别解析第一用户在网络上发布的第一消 息以及第二用户在网络上发布的第二消息,获取所述第一消息以及所述第二消息中每一个 词在K个话题上的分配信息;分别根据所述分配信息确定所述第一消息的兴趣描述信息以 及所述第二消息的话题描述信息。
[0127] 可选地,所述获取模块301包括:
[0128] 分配单元,用于将消息中的每一个词随机分配给所述K个话题中的任意一个,获 取经过随机分配后所述消息中每一个词在所述K个话题上的分配信息;其中,所述消息包 括所述第一消息或所述第二消息;
[0129] 第一确定单元,用于使用吉布斯采样的方法,从所述消息中的第一个词开始,根据 所述词属于其他话题概率的大小,确定是否需要将所述词重新分配到其他话题,当确定结 果为是,则将所述词进一步分配到所述需要分配的话题上,直至遍历所述消息中所有词,更 新经过所述遍历之后所述消息中需要重新分配的词在所述K个话题上的分配信息;
[0130] 所述第一确定单元,还用于:重复所述遍历,直至重复的次数达到第一预定值,或 者需要被重新分配话题的词占据发送所述消息的用户发布的所有消息中的所有词的比例 少于第二预定值时停止所述遍历,并获取经过最后一次遍历之后所述消息中每一个词在K 个话题上的当前分配信息;
[0131] 第二确定单元,用于若所述消息为所述第一消息时,根据所述第一消息中每一个 词在所述K个话题上的当前分配信息确定所述第一消息的兴趣描述信息;还用于若所述消 息为所述第二消息时,根据所述第二消息中每一个词在所述K个话题上的当前分配信息确 定所述第二消息的话题描述信息。
[0132] 可选地,所述比较模块302,具体用于:
[0133] 使用余弦相似度算法:
[0134]
?中,s(u,d)表示所述第一消息的兴趣描述信息与所述 第二消息的话题描述信息的相似度;u表示所述第一消息的兴趣描述信息;d表示所述第二 消息的话题描述信息;Pl表示向量u的第i个分量;qi表示向量d的第i个分量。
[0135] 可选地,所述比较模块302,还具体用于:
[0136] 使用KL散度算法:
[0137]
其中,KL(u,d)表示所述第一消息的兴趣描述信息与所述 第二消息的话题描述信息的相似度;u表示所述第一消息的兴趣描述信息;d表示所述第二 消息的话题描述信息;Pl表示向量u的第i个分量;qi表示向量d的第i个分量。
[0138] 本实施例的消息推荐装置,可以用于上述消息推荐方法实施例的技术方案,其实 现原理和技术效果类似,此处不再赘述。
[0139] 图4为本发明消息推荐设备实施例的结构示意图,如图4所示,本实施例提供的消 息推荐设备40包括处理器401和存储器402。消息推荐设备40还可以包括数据接口单元 403,该数据接口单元403可以和处理器401相连。其中,数据接口单元403用于接收/发 送数据,存储器402用于存储执行指令。当消息推荐设备40运行时,处理器401与存储器 402之间通信,处理器401调用存储器402中的执行指令,用以执行上述消息推荐方法实施 例中的操作。
[0140] 本实施例的消息推荐设备,可以用于执行本发明消息推荐方法上述实施例中的技 术方案,其实现原理和技术效果类似,此处不再赘述。
[0141] 本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通 过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程 序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟 或者光盘等各种可以存储程序代码的介质。
[0142] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制; 尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其 依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征 进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技 术方案的范围。
【主权项】
1. 一种消息推荐方法,其特征在于,包括: 分别解析第一用户在网络上发布的
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1