一种社交网络数据采集方法及系统的制作方法

文档序号:6523301阅读:279来源:国知局
一种社交网络数据采集方法及系统的制作方法
【专利摘要】本发明提供一种社交网络数据采集方法和系统,所述方法包括根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量。其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为。所述方法还包括根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。本发明可针对不同的用户制定不同的实时数据采集策略,提高了社交网络数据采集的实时性和效率。
【专利说明】一种社交网络数据采集方法及系统
【技术领域】
[0001]本发明涉及数据挖掘领域,具体涉及一种社交网络数据采集方法及系统。
【背景技术】
[0002]社交网络服务(SNS, social network service),简称社交网络,其概念最先起源于社会网络研究者提出的“六度理论”,其主要作用是为一群拥有相同兴趣与活动的人建立线上社区。此类服务往往基于网络,为用户提供聊天、交流的各种交互通路,如电子邮件、即时消息服务等。大部分社交网络会向使用者提供多种互动方式,如聊天、寄信、影音、档案分享、部落格,以及讨论群组等。
[0003]目前,社交网络正在迅速发展,作为社交网络的典型代表,Facebook拥有9.55亿月活跃用户,每天上传的照片总量3亿张,每天产生12亿个喜好(like),在美国,每5个页面的访问量就有一个来自Facebook。此外,Twitter平台拥有用户数量也已超过5亿,每天微博发布数目超过3亿,每天接受的查询数据已经高达16亿。在中国本土,诸如新浪微博、腾讯微博等微博平台也快速崛起。其中,仅新浪微博用户数量就突破3亿。如今,社交网络的发展速度仍在急速增长。
[0004]社交网络中的数据还有着普通网络数据所不具备的特点:1)数据量巨大,据Facebook 2012年公布的数据,Facebook每天收集的数据已经超过500TB,并且随着时间的推移,社交网络的数据量越来越大;2)质量高,与普通的网页数据相比,社交网络数据多为专而深的内容,是进行商业信息挖掘、人际关系学习,以及博弈论研究的高质量数据;3)便于处理,虽然社交网络的数据量非常大,但是网页的格式通常是标准的,且一般不含有附件等其它文本,可以根据其编码格式进行统一化处理。
[0005]然而,目前的信息检索主要着眼于普通网页的数据采集,现有的搜索引擎并不能很好地采集社交网络数据。此外,当前鲜有的社交网络数据采集也只是在某一种网络中对ajax进行处理,缺少数据采集的实时性和高效性。

【发明内容】

[0006]针对这个问题,本发明提供一种社交网络的数据采集方法及系统。所述方法包括:
[0007]步骤I)、根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量;其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为;
[0008]步骤2)根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。
[0009]在一个实施例中,在步骤I)中,计算所述用户的用户资料和过去一段时间的数据更新信息与每个用户组中所有用户的用户资料的加权平均值和过去一段时间的数据更新信息的加权平均值的相似度,将所述用户归入最大相似度对应的用户组。
[0010]在一个实施例中,步骤2 )包括:
[0011]在所述用户组的数据更新分布向量中得到在待采集时间片段的数据更新次数;
[0012]当该数据更新次数为O时,在待采集时间片段不对所述用户进行数据采集;
[0013]当该数据更新次数小于等于I时,在待采集时间片段对所述用户以该数据更新次数为概率进行数据采集;
[0014]当该数据更新次数大于I时,在待采集时间片段对所述用户以该数据更新次数作为采集次数进行采集。
[0015]在一个实施例中,步骤I)之前还包括:
[0016]步骤O)、通过计算社交网络中多个用户在其用户资料和过去一段时间的数据更新信息上的相似度来聚类这些用户形成用户组,并且计算每个用户组的数据更新分布向量。
[0017]在一个实施例中,步骤O)包括:
[0018]步骤i)、采集社交网络中多个用户的用户资料和过去一段时间的数据更新信息,获得每个用户的用户资料向量,通过计算用户间用户资料向量的相似度对用户进行聚类,得到多个用户组;
[0019]步骤ii)、在每个用户组中对所有用户的数据更新分布向量进行拟合,得到每个用户组的数据更新分布向量;其中用户的数据更新分布向量体现该用户在一个时间区间内所有时间片段的数据更新次数。
[0020]在进一步的实施例中,步骤ii)之前还包括:
[0021]根据用户过去一段时间的数据更新信息得到该用户在一个或多个时间区间内所有时间片段的数据更新次数,对所述一个或多个时间区间内每个时间片段的数据更新次数进行加权求和得到该用户的数据更新分布向量。
[0022]在一个实施例中,所述用户资料向量包括用户性别、年龄、地址、职业、好友数量、好友、喜好、关注、用户发布消息主题、信息完整度中的一个或多个。
[0023]在一个实施例中,在步骤i)中,计算用户间用户资料向量的相似度包括:
[0024]步骤a)、计算所述用户资料向量中每一维数据的相似度;
[0025]步骤b)、对每一维数据的相似度进行加权求和,得到用户间用户资料向量的相似度。
[0026]在一个实施例中,所述时间区间为一天。
[0027]根据本发明的一个实施例,还提供一种社交网络数据采集系统,包括:
[0028]归类装置,用于根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量;其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为;以及
[0029]策略制定装置,用于根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。
[0030]采用本发明可以达到如下的有益效果:
[0031]本发明根据用户资料向量对用户进行聚类得到用户组,根据用户与用户组的相似度选择一个用户组的数据更新分布向量来制定该用户的实时数据采集策略,参考用户组的数据更新分布向量使得数据采集的准确性较高,从而提高了社交网络中数据采集的效率。此外,针对一天中不同的时间片段可制定实时的数据采集策略,提高了数据采集的实时性。
【专利附图】

【附图说明】
[0032]图1是根据本发明一个实施例的社交网络数据采集方法的流程图;
[0033]图2是根据本发明一个实施例的构建社交网络数据更新模型的方法的流程图;以及
[0034]图3是根据本发明一个实施例的制定数据采集策略的方法的流程图。
【具体实施方式】
[0035]下面结合附图和【具体实施方式】对本发明加以说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0036]根据本发明的一个实施例,提供一种社交网络数据采集方法。参考图1且简要而言,该方法首先根据社交网络用户的用户资料和用户数据更新信息构建社交网络数据更新模型;然后依据该社交网络数据更新模型,针对不同用户制定不同的数据采集策略。
[0037]继续参考图1,具体描述本发明提供的社交网络数据采集方法的步骤:
[0038]第一步、根据用户资料和用户数据更新信息构建社交网络数据更新模型
[0039]在一个实施例中,可首先采集社交网络用户的用户资料和用户过去一段时间/最近一段时间的数据更新信息(简称用户数据更新信息),接着根据这些信息对用户进行聚类得到不同的用户组,并且得到聚类后每个用户组的数据更新分布向量,根据每个用户组的数据更新分布向量构建社交网络数据更新模型。根据本发明的一个实施例,如图2所示,这一过程包括以下步骤:
[0040]1、采集社交网络用户的用户资料和过去一段时间的数据更新信息
[0041]用户资料是用于描述用户的身份、特征、爱好等的数据,在社交网络中,用户资料可包括性别、年龄等信息。用户过去一段时间的数据更新信息体现该用户的数据更新行为,其可包括与用户在过去一段时间内发起或转发的信息、评论的信息以及用户个人资料更新信息等相关的信息。
[0042]在一个实施例中,用户资料可被划分为三种不同类型的数据。第一种数据为定性数据,如性别(S)、年龄(a)、地址(ad)、职业(p)、好友数量(f)等,这些数据均为定值且是不会发生强烈变化的单一数值;第二种数据是可变数据,如喜好(L)、关注(A)、好友(F)等,这些数据均是不确定且可变的,可采用集合的形式来表示;第三种数据是测评性数据,如信息完整度(d),该数据是对用户个人信息的完整性进行评估所得到的数据,可根据整个用户资料统计得出,是单一的数值,其取值分布在0-1之间。表I给出了部分Facebook用户的用户资料的例子,其中仅示出性别(s)、年龄(a)、地址(ad)、职业(P)、爱好(L)和信息完整度⑷。
[0043]表I
[0044]
【权利要求】
1.一种社交网络数据采集方法,包括: 步骤I)、根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量;其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为; 步骤2)根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。
2.根据权利要求1所述的方法,在步骤I)中,计算所述用户的用户资料和过去一段时间的数据更新信息与每个用户组中所有用户的用户资料的加权平均值和过去一段时间的数据更新信息的加权平均值的相似度,将所述用户归入最大相似度对应的用户组。
3.根据权利要求1或2所述的方法,其中,步骤2)包括: 在所述用户组的数据更新分布向量中得到在待采集时间片段的数据更新次数; 当该数据更新次数为O时,在待采集时间片段不对所述用户进行数据采集; 当该数据更新次数小于等于I时,在待采集时间片段对所述用户以该数据更新次数为概率进行数据采集; 当该数据更新次数大于I时,在待采集时间片段对所述用户以该数据更新次数作为采集次数进行采集。
4.根据权利要 求1或2所述的方法,其中,步骤I)之前还包括: 步骤O)、通过计算社交网络中多个用户在其用户资料和过去一段时间的数据更新信息上的相似度来聚类这些用户形成用户组,并且计算每个用户组的数据更新分布向量。
5.根据权利要求4所述的方法,其中步骤O)包括: 步骤i)、采集社交网络中多个用户的用户资料和过去一段时间的数据更新信息,获得每个用户的用户资料向量,通过计算用户间用户资料向量的相似度对用户进行聚类,得到多个用户组; 步骤ii)、在每个用户组中对所有用户的数据更新分布向量进行拟合,得到每个用户组的数据更新分布向量;其中用户的数据更新分布向量体现该用户在一个时间区间内所有时间片段的数据更新次数。
6.根据权利要求5所述的方法,其中,步骤ii)之前还包括: 根据用户过去一段时间的数据更新信息得到该用户在一个或多个时间区间内所有时间片段的数据更新次数,对所述一个或多个时间区间内每个时间片段的数据更新次数进行加权求和得到该用户的数据更新分布向量。
7.根据权利要求5或6所述的方法,其中,所述用户资料向量包括用户性别、年龄、地址、职业、好友数量、好友、喜好、关注、用户发布消息主题、信息完整度中的一个或多个。
8.根据权利要求7所述的方法,在步骤i)中,计算用户间用户资料向量的相似度包括: 步骤a)、计算所述用户资料向量中每一维数据的相似度; 步骤b)、对每一维数据的相似度进行加权求和,得到用户间用户资料向量的相似度。
9.根据权利要求1或2所述的方法,其中所述时间区间为一天。
10.一种社交网络数据采集系统,包括:归类装置,用于根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量;其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为;以及 策略制定装置,用于根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据`采集策略。
【文档编号】G06F17/30GK103631949SQ201310674521
【公开日】2014年3月12日 申请日期:2013年12月11日 优先权日:2013年12月11日
【发明者】程学旗, 王元卓, 刘强, 李静远, 邢国亮 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1