数据处理方法及装置的制造方法

文档序号:8457276阅读:341来源:国知局
数据处理方法及装置的制造方法
【技术领域】
[0001]本发明涉及数据处理领域,尤其涉及一种数据处理方法及装置。
【背景技术】
[0002]随着在线社会网络如社交网站、微博、在线社区等的快速发展,一个真正的双向传播和新媒体时代逐步形成。在线社会网络让每个用户都能创造自己的内容,并且快速传播出去。据不完全统计,国内大型微博网站平均每秒有超过3000条的新数据产生。
[0003]在如此规模的数据基础上,在线社会网络管理者如何快速准确地获取用户活跃度成为亟待解决的问题。对此,现有技术中,还没有能够准确快捷地获取用户活跃度的方案。

【发明内容】

[0004]本发明提供一种数据处理方法及装置,用于解决现有技术无法准确快捷地获取用户活跃度的问题。
[0005]本发明的第一个方面是提供一种数据处理方法,包括:
[0006]接收请求设备发送的处理请求,所述处理请求包括目标网站的标识;
[0007]根据采集到的历史原始数据,获得用户在预设的目标时间范围内,在所述目标网站中发布的各类型对应的信息的平均数量,所述历史原始数据包括各用户在各网站中发布的信息;
[0008]针对每个所述类型对应的信息的平均数量,计算其与所述类型对应的预设权值的乘积,其中,所述各类型对应的权值之和为I ;
[0009]计算所述各类型对应的乘积之和,获得所述用户在所述目标时间范围内相对于所述目标网站的用户活跃度;
[0010]向所述请求设备发送处理结果,所述处理结果包括所述用户活跃度。
[0011]本发明的另一个方面是提供一种数据处理装置,包括:
[0012]接收模块,用于接收请求设备发送的处理请求,所述处理请求包括目标网站的标识;
[0013]获取模块,用于根据采集到的历史原始数据,获得用户在预设的目标时间范围内,在所述目标网站中发布的各类型对应的信息的平均数量,所述历史原始数据包括各用户在各网站中发布的信息;
[0014]处理模块,用于针对每个所述类型对应的信息的平均数量,计算其与所述类型对应的预设权值的乘积,其中,所述各类型对应的权值之和为I;
[0015]所述处理模块,还用于计算所述各类型对应的乘积之和,获得所述用户在所述目标时间范围内相对于所述目标网站的用户活跃度;
[0016]发送模块,用于向所述请求设备发送处理结果,所述处理结果包括所述用户活跃度。
[0017]本发明提供的数据处理方法及装置,根据集到的历史原始数据,获得目标用户在预设的目标时间范围内,在预设的目标网站中发布的各类型对应的信息的平均数量,进而基于各类型对应的权值,获得目标用户在所述目标时间范围内相对于该目标网站的用户活跃度,实现准确快捷地获取用户的用户活跃度。
【附图说明】
[0018]图1为本发明实施例一提供的一种数据处理方法的流程示意图;
[0019]图2为本发明实施例二提供的一种数据处理装置的结构示意图。
【具体实施方式】
[0020]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
[0021]图1为本发明实施例一提供的一种数据处理方法的流程示意图,如图1所示,所述方法包括:
[0022]101、接收请求设备发送的处理请求,所述处理请求包括目标网站的标识。
[0023]其中,网站具体可以为各微博网站,例如,新浪微博、腾讯微博等,具体的,网站的标识可以采用服务配置文件标识符(Service Profile Identifier,简称spID)标识。
[0024]102、根据采集到的历史原始数据,获得用户在预设的目标时间范围内,在所述目标网站中发布的各类型对应的信息的平均数量,所述历史原始数据包括各用户在各网站中发布的信息。
[0025]在实际应用中,可以以大规模的社交网络信息为基础,通过对数据结构进行设计,利用分布式架构存储并压缩,获得所述历史原始数据。具体的,所述社交网络信息可以包括发布时间、网站、发布信息的类型和用户的标识等。其中,所述类型可以包括多种情形,例如,原创、转发、评论及分享等。
[0026]进一步的,在本实施例的数据处理过程中,为了能够快速读取所述历史原始数据,可以将所述社交网络信息中的信息拼接起来,并在各信息之间使用“#”分隔。具体的,所述用户的标识可以采用用户代码(usercode)标识,所述类型的标识可以采用assetType标识,发布时间的标识可以采用date标识。举例来说,最后存储的历史原始数据的形式可以为:发布时间#网站标识#类型标识#用户的标识,即date#spID#assetType#usercode。例如,假设用户A的用户在时刻B时,在网站C中发布了类型为D的信息,则该信息对应的历史原始数据可以为B#cmm。
[0027]进一步的,为了节约存储空间和传输带宽,在存储之前可以对拼接后获得的数据进行压缩,具体的,可以采用压缩比和传输速度较快的Lempel-Ziv-Oberhumer,简称LZO压缩算法进行压缩。
[0028]具体的,在本实施例中所述信息的平均数量,可以为单位时长内的信息数量,则相应的,102可以包括:
[0029]根据所述历史原始数据,获得所述用户在所述目标时间范围内,在所述目标网站中发布的各类型对应的信息的数量;
[0030]分别将所述各类型对应的信息的数量除以所述目标时间范围对应的时长,获得用户在所述目标时间范围内,在所述目标网站中发布的各类型对应的信息的平均数量。
[0031]其中,所述目标时间范围对应的时长为所述目标时间范围内单位时长的个数。具体的,所述单位时长可以预先设定。需要说明的是,对于不同的单位时长,计算出的信息的平均数量也会不同,具体举例来说,假设某用户在最近一周内,在某网站中发布的某类型的信息的数量为70,则若以一天为单位时长,则所述目标时间范围对应的时长为7/1=7,相应的所述信息的平均数量为70/7=10 ;而若直接以一周为单位时长,则所述目标时间范围对应的时长为7/7=1,相应的所述信息的平均数量为70/1=70。
[0032]再具体的,在实际应用中,获得所述用户在所述目标时间范围内,在所述目标网站中发布的各类型对应的信息的数量的具体流程可以包括:
[0033]根据预设的目标时间范围,获得在该目标时间范围内各用户在各网站中发布的各类型对应的信息,其数据格式为:spID#assetType#usercode ;
[0034]通过对上述数据进行降维处理,获得所述目标用户在所述目标时间范围内,在所述目标网站中发布的各类型对应的信息的数量,其数据格式为spID#assetType#usercodenurn。
[0035]具体的,可以利用格式(key, value)进行降维处理,其中的value值为key值出现的次数。进一步的,为了更加直观的理解本实施例的方案,现通过以下举例进行说明,需要说明的是,以下举例只是一种具体的实施方式,其并未对本实施例的其它实施方式进行限制。
[0036]假设当前需要统计在所述目标时间范围内,用户A在网站C中发布的类型为D的信息的数量,则可以将C#D#A作为key值,查询在所述目标时间范围内各用户在各网站中发布的各类型对应的信息。具体的,经过上述操作,输出数据的格式为C#D#A[1,1,...],其中,当key值每出现一次,则在[1,1,...]中记一个“I”。查询完毕后,统计“ I”的个数,即将key值出现的次数进行求和计算,获得value值,也就是用户A在所述目标时间范围内在网站C中,发布的类型为D的信息的数量。进一步的,输出的结果数据为C#D#A num,其中,num为value 值。
[0037]103、针对每个所述类型对应的信息的平均数量,计算其与所述类型对应的预设权值的乘积,其中,所述各类型对应的权值之和为I。
[0038]具体的,不同类型的信息对于用户活跃度的贡献存在差异性,例如,原创、转发和评论类型中,原创类型的信息更能反映用户活跃度。因此,可以根据不同类型对用户活跃度的影响,设定不同类型对应的权值。例如,假设所述类型包括原创、转发和评论类型,原创类型对应的权值为0.7,转发类型对应的权值为0.2,评论类型对应的权值为0.1。则相应的,假设用户在所述目标时间范围内在所述目标网站中发布的原创、转发和评论类型对应的信息的平均数量分别为30,20,10,则原创类型对应的乘积为0.7X30=21,转发类型对应的乘积为0.2 X 20=4,评论类型对应的乘积为0.1 X 10=1。
[0039]104、计算所述各类型对应的乘积之和,获得所述用户在所述目标时间范围内相对于所述目标网站的用户活跃度。
[0040]具体的,在上述举例中,所述用户在所述目标时间范围
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1