一种移动用户上网记录的数据处理方法及装置的制造方法

文档序号:8299191阅读:333来源:国知局
一种移动用户上网记录的数据处理方法及装置的制造方法
【技术领域】
[0001] 本发明涉及通信领域,具体涉及一种移动用户上网记录的数据处理方法及装置。
【背景技术】
[0002] 移动终端无线上网每天产生的是数以亿计,占用存储空间TB量级的海量数据,一 个月的数据更是万亿、PB量级的海量数据记录。从该海量数据库中能够挖掘各种有用信 息,比如以用户手机号码为基本维度,可以按照网络类型、业务类型以及移动基站等三个分 类维度分别进行流量信息分析统计。使用分布式计算框架MapReduce计算,能够快速从海 量数据中提取出需求的数据。
[0003]目前为了解决按照用户手机号码为基本维度,依照网络类型、业务类型以及移动 基站三个分类维度进行流量信息分析统计的问题,主要使用MapReduce分布式计算框架进 行数据分析提取,需要针对不同统计维度分别编写MapReduce任务实现代码,然后进行任 务Job的依次执行。现有方案的执行过程描述如下:
[0004] (1)根据三个统计维度的需求说明,编写三个独立的基于MapReduce计算框架的 Job程序;
[0005] (2)依据三个任务各自需求,设定Mapper和Reducer的键值对(Key-Value);
[0006] (3)由于上网记录大数据集群负载压力大,所以每次只能运行一个Job任务,首先 运行按照网络类型进行统计的任务Job;
[0007] (4)上一个任务Job执行完成后,运行按照业务类型进行统计的任务Job;
[0008] (5)上一个任务Job执行完成,最后运行按照移动基站进行统计的任务Job;
[0009] (6)所有任务Job运行结束,输出结果从HDFS文件系统上拷贝到本地以便后续数 据分析使用。
[0010] 由于大数据集群性能限制导致每次只能运行一个任务Job,所以三个不同Job只 能依次执行。需要花费大量时间,并且多个任务执行时,会产生大量的中间数据。

【发明内容】

[0011] 本发明要解决的技术问题是如何加快移动上网数据的处理。
[0012] 为了解决上述问题,本发明提供了一种移动用户上网记录的数据处理方法,包 括:
[0013]S110、分别根据预定时间段中每一条上网记录构造N条数据,一条数据包含标识 及统计信息;所述标识包括所述上网记录中的手机号、数据类型及记录类型;所述数据类 型为N种,与所述上网记录中的N个预定字段一一对应,由一条上网记录所构造出的N条数 据的数据类型互不相同;所述记录类型为本条数据中所述数据类型所对应的预定字段在所 述上网记录中的值;N为大于1的正整数;
[0014]S120、对标识相同的数据中的统计信息进行累加,得到各标识对应的统计信息的 累加值。
[0015] 可选地,所述N等于3 ;N种所述数据类型所对应的N个预定字段为VPN、BUSI TYPE、以及LAC加CELLID。
[0016] 可选地,所述统计信息包括流量、时长和点击次数;所述流量为所述上网记录中 UP字段和DOWN字段的值,所述时长为所述上网记录中时间字段的值,所述点击次数为1。
[0017] 可选地,所述步骤S110包括:
[0018] 将从Hadoop文件系统HDFS读取的预定时间段中每一条上网记录处理成N条键值 对数据,其中键Key包括手机号码、数据类型和记录类型;值Value包括上网记录中DOWN、 UP、时间的值,以及点击次数1 ;
[0019] 步骤S120包括:
[0020] 将Key相同的键值对数据各合并成一条键值对数据,合并后的键值对数据的Key 不变,Value为参与合并的键值对数据中UP、DOWN、时间、点击次数的值分别进行累加的结 果。
[0021] 可选地,步骤S120后还包括:
[0022] S130、在步骤S120得到的键值对数据中,将手机号相同且数据类型相同的键值对 数据各合并成一条键值对数据,合并后的键值对数据的Key为手机号,Value为参与合并的 各键值对数据的Value的并集。
[0023] 本发明还提供了一种移动用户上网记录的数据处理装置,包括:
[0024] 数据构造模块,用于分别根据预定时间段中每一条上网记录构造N条数据,一条 数据包含标识及统计信息;所述标识包括所述上网记录中的手机号、数据类型及记录类型; 所述数据类型为N种,与所述上网记录中的N个预定字段一一对应,由一条上网记录所构造 出的N条数据的数据类型互不相同;所述记录类型为本条数据中所述数据类型所对应的预 定字段在所述上网记录中的值;N为大于1的正整数;
[0025] 累加模块,用于对标识相同的数据中的统计信息进行累加,得到各标识对应的统 计信息的累加值。
[0026] 可选地,所述N等于3 ;N种所述数据类型所对应的N个预定字段为VPN、BUSI TYPE、以及LAC加CELLID。
[0027] 可选地,所述统计信息包括流量、时长和点击次数;所述流量为所述上网记录中 UP字段和DOWN字段的值,所述时长为所述上网记录中时间字段的值,所述点击次数为1。
[0028] 可选地,所述数据构造模块分别根据预定时间段中每一条上网记录构造N条数据 是指:
[0029] 所述数据构造模块将从Hadoop文件系统HDFS读取的预定时间段中每一条上网记 录处理成N条键值对数据,其中键Key包括手机号码、数据类型和记录类型;值Value包括 上网记录中DOWN、UP、时间的值,以及点击次数1;
[0030] 所述累加模块对标识相同的数据中的统计信息进行累加是指:
[0031] 所述累加模块将Key相同的键值对数据各合并成一条键值对数据,合并后的键值 对数据的Key不变,Value为参与合并的键值对数据中UP、D0WN、时间、点击次数的值分别进 行累加的结果。
[0032] 可选地,所述的装置还包括:
[0033] 合并模块,用于在累加模块得到的键值对数据中,将手机号相同且数据类型相同 的键值对数据各合并成一条键值对数据,合并后的键值对数据的Key为手机号,Value为参 与合并的各键值对数据的Value的并集。
[0034] 本发明通过设计改进,能将多个统计任务需求集中执行,可以一次性处理多个维 度的统计任务;这样数据只需要载入、遍历一次就能完成多个维度的统计任务,而不是针对 每个维度的统计任务都必须单独进行载入和遍历,因此大大减少了数据处理的总时长。采 用该方案,既能避免执行时间过长问题,加快了任务分析处理速度。
【附图说明】
[0035] 图1是实施例一的数据处理方法的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1