一种基于分布式并行处理模式的社交网络好友过滤方法

文档序号:6493119阅读:124来源:国知局
一种基于分布式并行处理模式的社交网络好友过滤方法
【专利摘要】本发明公开了一种基于分布式并行处理模式的社交网络好友过滤方法,包括:(1)从社交网站采集数据,并按照数据采集的先后顺序存储该数据,(2)基于分布式并行处理框架结构对采集的数据中的社交行为信息进行过滤,以产生用户关注和关注用户的好友信息,(3)基于分布式并行处理框架结构对采集的数据中的好友信息、兴趣信息和个人信息进行过滤,并根据用户与好友的相似度按照从小到大的顺序对好友进行排列,用化简函数合并步骤(2)和(3)中过滤后的信息,以建立用户、对该用户的社交行为信息进行访问的好友二者之间的映射关系。本发明解决了目前社交网站存储和网络资源浪费、用户体验降低的问题,并提供了一种准确、高效的好友过滤服务。
【专利说明】—种基于分布式并行处理模式的社交网络好友过滤方法
【技术领域】
[0001]本发明属于分布式计算和社交网络【技术领域】,更具体地,涉及一种一种基于分布式并行处理模式的社交网络好友过滤方法。
【背景技术】
[0002]随着Twitter、Facebook等社交网络的日益流行,通过网络结交兴趣相投的朋友成为一种趋势。为提高用户在这类应用中的体验,一种有效做法是向用户推荐潜在好友,扩大其朋友圈子。
[0003]而随着社交规模的扩大,信息的海量增长,用户数据呈现如下特点:多样性、异构性和个性化、用户访问的高并发性和动态性,以及数据自身的复杂性等。随着社交圈的扩增和变化,用户已经很难在过载的噪声信息中,发现自己想要了解的好友信息。
[0004]为了解决信息过载的问题,各大社交网站采取的策略包括=Facebook的好友列表过滤,基于兴趣的好友分组功能;G00gle+的圈子功能;人人网的特别关注功能;新浪微博的特别收听功能等等。这些方法的一个共同特点是从海量的信息中凸显出用户真正关注的人或话题,进而帮助用户更好的获取知识。
[0005]目前社交网站所采取的应对策略普遍存在一些问题:1、存储资源的浪费。用户的关注重心已转入特别关注的人或话题上,而存储系统还需对噪声信息进行存储和管理,造成存储资源的严重浪费。2、网络资源的浪费。用户请求页面信息时,服务器会将海量的噪声信息一同反馈给用户,在海量的并发请求中,严重降低了网络资源的有效利用率。3、用户体验的降低。用户需要自己筛选和管理特别关注的人或话题,同时特别关注的人或话题也会因为用户管理不善导致信息过载,增加了用户的社交负担,降低了用户体验质量。

【发明内容】

[0006]针对现有技术的缺陷,本发明的目的在于提供一种基于分布式并行处理模式的社交网络好友过滤方法,旨在解决目前社交网站采取的策略导致的存储资源浪费、网络资源浪费、用户体验降低的问题,并提供一种准确、高效的好友过滤服务。。
[0007]为实现上述目的,本发明提供了一种基于分布式并行处理模式的社交网络好友过滤方法,包括以下步骤:
[0008]( I)从社交网站采集数据,并按照数据采集的先后顺序存储该数据,具体包括有好友信息、社交行为信息、兴趣信息、个人信息;
[0009](2)基于分布式并行处理框架结构对采集的数据中的社交行为信息进行过滤,以产生用户关注和关注用户的好友信息;
[0010](3)基于分布式并行处理框架结构对采集的数据中的好友信息、兴趣信息和个人信息进行过滤,并根据用户与好友的相似度按照从小到大的顺序对好友进行排列;
[0011](4)用化简函数合并步骤(2)和(3)中过滤后的信息,以建立用户、对该用户的社交行为信息进行访问的好友二者之间的映射关系。[0012]步骤(I)中,采集信息的时间可以根据用户需求进行设置。
[0013]分布式并行处理框架结构采用MapReduce框架结构。
[0014]步骤(2)包括以下子步骤:
[0015](2-1)采用映射函数将存储的数据进行重新排列,以建立用户、该用户的社交行为信息和对该社交行为信息进行访问的好友三者之间的映射关系,映射关系具体是通过以下排列格式得以体现:(键,值)=((user_id), (item_id, friend_id)),其中user_id表示用户在社交网站中的序列号,item_id表示用户的社交行为信息,包括该用户发表的日志、照片、状态,friend_id表示好友信息中对用户的社交行为信息进行访问的好友的序列号;
[0016](2-2)使用本地化简函数提取重新排列后的数据中的好友信息,以建立用户、对该用户的社交行为信息进行访问的好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(user_id, friend_id);
[0017](2-3)采用映射函数将存储的数据进行重新排列,以建立对该社交行为信息进行访问的用户好友的好友、用户好友的社交行为信息、用户好友三者之间的映射关系,映射关系具体是通过以下排列格式得以体现:(键,值)=((friendfriend_id), (item_id, friend_id)),其中friendfriencLid表示好友的好友信息中,对好友的社交行为信息进行访问的好友的序列号,friend_id表示好友在社交网站中的序列号,item_id表示好友的社交行为信息,包括该用户发表的日志、照片、状态;
[0018](2-4)使用本地化简函数提取步骤(2-3)重新排列后的数据中的好友信息,以建立该用户的、对该用户好友的社交行为信息进行访问的好友的好友、用户好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(friendfriend_id, friend_id);
[0019](2-5)使用本地化简函数合并步骤(2-4)提取后的数据中的好友信息,合并键为firendfriend_id=user_id的键值对,以建立用户、该用户对好友社交行为信息进行访问的好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(user_id,friend_id);
[0020](2-6 )使用分布式化简函数合并(2-2 )和(2-5 )处理后的数据中的好友信息,以建立用户、对该用户的社交行为信息进行访问的好友或被该用户访问过社交信息的好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(user_id, friend_id),过程结束;
[0021]映射函数采用的是map函数,本地化简函数采用的是combine函数,分布式化简函数采用的是reduce函数。
[0022]步骤(3)包括以下子步骤:
[0023](3-1)采用映射函数将存储的数据进行重新排列,以建立用户、该用户的好友信息、该用户的兴趣信息、该用户好友的兴趣信息四者之间的映射关系,映射关系具体是通过以下排列格式得以体现:(键,值)=((user_id), (friend_id, (userinterest_id),(friendinterest_id)),其中userinterest_id表示用户兴趣在社交网站中的序列号,friendinterest_id表示用户好友兴趣在社交网站中的序列号;
[0024](3-2)使用本地化简函数首先根据用户兴趣相似度算法计算用户与其好友的共同兴趣相似度,并按照共同兴趣相似度由小到大提取重新排列后的数据中的好友信息,以建立用户与其好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)= (user_id, friend_id),并从好友信息中提取前X个共同兴趣相似度对应的好友信息,其
中X取值为小于等于用户的好友信息总数,共同兴趣相似度
【权利要求】
1.一种基于分布式并行处理模式的社交网络好友过滤方法,其特征在于,包括以下步骤: (1)从社交网站采集数据,并按照数据采集的先后顺序存储该数据,具体包括有好友信息、社交行为信息、兴趣信息、个人信息; (2)基于分布式并行处理框架结构对采集的数据中的社交行为信息进行过滤,以产生用户关注和关注用户的好友信息; (3)基于分布式并行处理框架结构对采集的数据中的好友信息、兴趣信息和个人信息进行过滤,并根据用户与好友的相似度按照从小到大的顺序对好友进行排列; (4)用化简函数合并步骤(2)和(3)中过滤后的信息,以建立用户、对该用户的社交行为信息进行访问的好友二者之间的映射关系。
2.根据权利要求1所述的社交网络好友过滤方法,其特征在于,步骤(1)中,采集信息的时间可以根据用户需求进行设置。
3.根据权利要求1所述的社交网络好友过滤方法,其特征在于,分布式并行处理框架结构采用MapReduce框架结构。
4.根据权利要求1所述的社交网络好友过滤方法,其特征在于,步骤(2)包括以下子步骤: (2-1)采用映射函数将存储的数据进行重新排列,以建立用户、该用户的社交行为信息和对该社交行为信息进行访问的好友三者之间的映射关系,映射关系具体是通过以下排列格式得以体现:(键,值)=((u ser_id), (item_id, friend_id)),其中user_id表示用户在社交网站中的序列号,item_id表示用户的社交行为信息,包括该用户发表的日志、照片、状态,friend_id表示好友信息中对用户的社交行为信息进行访问的好友的序列号; (2-2)使用本地化简函数提取重新排列后的数据中的好友信息,以建立用户、对该用户的社交行为信息进行访问的好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(user_id, friend_id); (2-3)采用映射函数将存储的数据进行重新排列,以建立对该社交行为信息进行访问的用户好友的好友、用户好友的社交行为信息、用户好友三者之间的映射关系,映射关系具体是通过以下排列格式得以体现:(键,值)=((friendfriend_id), (item_id, friend_id)),其中friendfriencLid表示好友的好友信息中,对好友的社交行为信息进行访问的好友的序列号,friend_id表示好友在社交网站中的序列号,item_id表示好友的社交行为信息,包括该用户发表的日志、照片、状态; (2-4)使用本地化简函数提取步骤(2-3)重新排列后的数据中的好友信息,以建立该用户的、对该用户好友的社交行为信息进行访问的好友的好友、用户好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(friendfriend_id, friend_id); (2-5)使用本地化简函数合并步骤(2-4)提取后的数据中的好友信息,合并键为firendfriend_id=user_id的键值对,以建立用户、该用户对好友社交行为信息进行访问的好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(user_id,friend_id); (2-6 )使用分布式化简函数合并(2-2 )和(2-5 )处理后的数据中的好友信息,以建立用户、对该用户的社交行为信息进行访问的好友或被该用户访问过社交信息的好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)=(user_id, friend_id),过程结束。
5.根据权利要求4所述的社交网络好友过滤方法,其特征在于,映射函数采用的是map函数,本地化简函数采用的是combine函数,分布式化简函数采用的是reduce函数。
6.根据权利要求1所述的社交网络好友过滤方法,其特征在于,步骤(3)包括以下子步骤: (3-1)采用映射函数将存储的数据进行重新排列,以建立用户、该用户的好友信息、该用户的兴趣信息、该用户好友的兴趣信息四者之间的映射关系,映射关系具体是通过以下排列格式得以体现:(键,值)=((user_id), (friend_id, (userinterest_id),(friendinterest_id)),其中userinterest_id表示用户兴趣在社交网站中的序列号,friendinterest_id表示用户好友兴趣在社交网站中的序列号; (3-2)使用本地化简函数首先根据用户兴趣相似度算法计算用户与其好友的共同兴趣相似度,并按照共同兴趣相似度由小到大提取重新排列后的数据中的好友信息,以建立用户与其好友二者之间的映射关系,具体是通过以下排列格式得以体现:(键,值)= (user_id,小于等于用户的好友信息总数,共同兴趣相似度
7.根据权利要求1所述的社交网络好友过滤方法,其特征在于,步骤(4)中的映射关系具体是通过以下排列格式得以体现:(键,值)= (user_id,friend_id),其中friend_id为步骤(3-7)的值 f riend_id与步骤(2-6)的值friend_id的差集。
【文档编号】G06F17/30GK103870510SQ201210550427
【公开日】2014年6月18日 申请日期:2012年12月17日 优先权日:2012年12月17日
【发明者】王芳, 冯丹, 吴雪瑞 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1