一种基于近邻关系的微博系统朋友推荐方法_2

文档序号：9420234阅读：来源：国知局

海量微博信息中找到自己感兴趣的信息资源W及因此导致的兴趣匹配用户之间的联系频率仍然较低的问题。通过把在线用户的位置和兴趣相结合，提出了一种全新的基于近邻关系的朋友推荐方法。
[001引【附图说明】：图1为NBFR总体结构图；图2为邻居组示意图（黑色圆圈代表源用户）；图3为无障碍蓝牙测试场景描述和测试结果描述图；图4为通过1个或2个主题区别用户示意图；图5为一个=维超立方体示意图；图6为一个T-space的实例图；图7为具有4个主题的二进制超立方体结构；图8为捷径示意图。
[0017]
【具体实施方式】
[0018] 下面结合实施例说明本发明，运里所述实施例的方案，不限制本发明，本领域的专业人员按照本发明的精神可W对其进行改进和变化，所述的运些改进和变化都应视为在本发明的范围内，本发明的范围和实质由权利要求来限定。
[001引实施例1 相关工作近几年微博系统蓬勃发展并吸引了大量Internet用户，用户所发海量微博内容 (tweets)成为理解微博用户行为的重要资源。目前大量在线朋友推荐研究正是通过对微博内容进行分析从而得出用户的兴趣和喜好，并把兴趣相似的用户彼此推荐，W便使用户获得自身感兴趣的信息资源。然而，大多数运些现有研究忽略了社会媒体用户位置和兴趣之间潜在的紧密关系，并不能使用户获得真正想要的信息。为此，本文提出了基于近邻的朋友推荐（nei曲borbasedfriendrecommendation)运一全新的推荐方法，通过把用户附近一定范围内兴趣爱好相似的其他微博用户推荐给该用户，为社交媒体用户提供了与周围可能感兴趣的其他微博用户进行联系和进一步沟通的独特渠道。本发明采取超立方体的方法来描述不同用户的不同兴趣主题。同时，提出主题匹配的捷径算法（topicmatching short州talgorithm)进一步提高推荐的准确性。
[0020] 推荐算法及超立方体推荐算法推荐算法的目的是为网络用户推荐感兴趣的文档、用户或是媒体信息。近年来，随着在线社会媒体的迅速发展，推荐算法得到了广泛研究。最常用的推荐方法称为协同过滤推荐 (Coll油orativeFiltering,CF),在CF中作者提出依靠用户对物体或其他用户的等级评定来预测用户喜好的策略。由于CF系统易受不公正评定的影响，到底向网络用户推荐何种类型的用户仍是一个难W解决的问题。为了把微博消息尽可能推送（mention)给网络中对该消息感兴趣的用户，某文献提出基于用户兴趣匹配的消息推荐系统，该系统首先收集各个用户所发微博内容，接着利用LDA算法进行用户兴趣挖掘。然而由于一条微博内容的信息量通常有限（140字之内），利用传统LDA算法对微博内容进行兴趣挖掘并不可行，得到的兴趣主题也并不准确。L.Nowell等研究用户之间的相互推荐，W帮助社交网络用户发现已知的线下接触和社会网络上的新朋友。在实际应用中，Facebook则发起"你可能认识的人" 运一应用，利用基于"朋友的朋友"的链接预测方法向用户推荐可能认识的人。该方法认为拥有共同朋友的用户彼此相识的可能性非常大。新浪微博随后也提出了类似功能，通过微博用户的地理位置信息、用户的"关注"或者共同朋友信息向用户推荐可能感兴趣的其他用户。然而上述基于链接预测的方法可能产生如"富者更富（richergetricher)"的消极影响。
[0021] 超立方体超立方体最初在并行分布式计算中得到应用，其中大多数超立方体研究关注于数据消息的路由。针对移动Adhoc网络的灵活性和动态性，某文献提出利用超立方体进行组播路由协议的设计。H.化0等基于逻辑超立方体结构定义路由选择和维护策略。有文献提出把所有蓝牙设备链接成超立方体结构W建立并行计算和通信环境。为利用超立方体的特性对 HCNs(人类接触网络，humancontactnetworks)进行有效路由算法的设计，某文献则提出把人的不同社会特征映射到超立方体结构中。
[002? 概述 NBFR提出把微博用户的位置和兴趣联系起来的新思想。对于某一用户，NBFR能够发现周围与他兴趣相似的其他微博用户并把他们彼此推荐。为此，NBFR主要包括S部分，分别为邻居发现（nei曲bordefinition)、用户兴趣分析（userinterestdetection)及兴趣匹配和推荐（interestmatchandrecommendation),其工作流程如图1所示。
[0023] 邻居发现:目前越来越多的移动手持设备配备有GPS，手机携带者通过GI^就能获得当前的位置信息。然而GI^通常存在误差，并且在室内往往很难获得GI^的读数，为了进行准确的邻居发现，NBFR通过用户移动设备上的短距离无线通信装置，如蓝牙4.0或Wifi_ direct来完成邻居探测功能。目前基于Amlroid或IOS操作系统的智能手机通常具备两种近场通信方式：蓝牙和WifLDirect。通过人为授权或启动NBFR服务时自动开启，用户可W 方便的使用蓝牙或WifLDirect装置发现和探测通信范围内邻居用户手机上的同类设备。对于某特定用户，我们把探测到的与该用户位于相互通信范围内的所有用户（包括该用户本身）称为他的邻居组（group)。一个典型的邻居组概念如图2所示。当某用户启动NBFR 服务时，我们首先进行邻居组探测，之后把该用户邻居组中所有微博用户的如ID号等基本信息上传到中屯、服务器，再由NBFR服务器对邻居组内用户进行兴趣挖掘和分析。图3是无障碍环境下节点距离为60m下扫描周期从Is到3s设备数据接收率的变化情况测试结果，通过实验我们发现，目前蓝牙4. 0版本在实际无障碍环境下的传输距离可达60米之余，而通常人眼在无障碍情况下的清晰可视距离为300到500米，远远大于无障碍下蓝牙4. 0的通信距离。因而，当前位于同一邻居组的用户在现实世界中彼此可见的可能性非常大。
[0024] 用户兴趣分析：用户发布微博内容无疑能够反映他的个人兴趣。为了挖掘用户的兴趣爱好，我们收集邻居组中每个用户近期所发微博，并采用矩阵分解方法得到反映用户潜在主题兴趣分布的用户兴趣矩阵，该矩阵的每一行表示邻居组内一个用户的主题兴趣向量。
[0025] 兴趣匹配和推荐：给定用户的主题兴趣向量，NBFR把邻居组中所有用户映射到多维超立方体结构，并根据超立方体的特性来衡量邻居组中各用户间的兴趣相似度。NBFR会根据兴趣匹配结果形成推荐列表，并把排名列表中前^兴趣最相关的用户推荐给源用户。
[0026] 用户兴趣分析如何准确的挖掘并分析用户的潜在兴趣成为实现精确兴趣推荐的前提和关键。NBH?拟收集用户近期所发微博，通过挖掘微博文本内容得到用户的潜在主题兴趣分布。然而由于微博文本和传统文本有着显著的区别，主要表现在其文本内容较短(仅限于140字之内），微博消息往往只是个文本片段，甚至于只有寥寥数字，携带的信息不够完整。此外，微博消息还包含各种各样的主题、书写随意、符号表情较多，噪声较大。因此，采用何种方法有效的进行微博主题兴趣提取成为研究的挑战。针对运一问题，某些研究应用传统的主题模型如LDA 方法对微博消息进行分析。标准LDA认为一个文档包含特定数量的主题，表示为主题的分布。文档的每个词则W-定概率选择了某个主题。运种假设对于长文本来说是合理的，然而对于微博，一条微博文本往往只反映一个主题，因此利用LDA对微博内容进行挖掘并不合理。为了提高兴趣挖掘的准确性，我们提出采用词袋化agOfwords)和矩阵分解（matrix 化ctorization)挖掘微博文本主题的方法。
[0027] 建立用户特征矩阵对于邻居组内用户，我们首先爬取他们近期所发表的微博文本并定义巧J爬取到的用户最近所发微博内容的总集合。基于文本集合^/，在采用7'^'6如工具分词和进一步去停留词操作把y里面所有词语或单词提取出来后，构成了包含如^不同词语的词典D。利用词袋模型，每条微博文本均可W被表示成一个n维向量。向量中的每个元素表示词典D中相关元素在文本集合冲出现的次数。例如向量[1，3，1，1，2，0，0，1，0]中第一个元素 1表示词典中第一个词语(或单词)在该条微博中出现了 1次。对爬取的每条微博应用上述词袋模型，最终每个用户可W被表示成一个尤X。的矩阵：
(1) 其中矩阵的每一行代表该用户的一条微博文本向量，^示文本集合冲包含的该用户的微博条数，(片，2,…，n)表示词典中的第i个单词在该用户的第7条微博中出现的总次数。
[0028] 对于邻居组中任一用户（假定用户3)，如果把他所对应的矩阵(定义为尤）同一列的所有元素相加，即得列向量护(心心…，心，其中分量为词典D中第i个单词在爬取的用户a的微博内容中出现的总次数。对每个用户采用上述方法提取列向量，爬取的邻居

完整全部详细技术资料下载

当前第2页1 2 3 4