一种实现上网流量记录预处理的方法及装置的制造方法

文档序号:9436140阅读:258来源:国知局
一种实现上网流量记录预处理的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及大数据领域,尤指一种实现上网流量记录预处理的方法及装置。
【背景技术】
[0002] 运营商采集了移动用户的上网流量记录用于流量精细化经营,将用户的上网流量 记录信息进行抽取、合并后放入后端的数据库进行处理,可以分析运营商的基站运行情况, 也为新的基站规划、建设提供数据支持。
[0003]原始的上网记录是很细粒度的,平均一个用户一天的上网记录有一千条的话,1亿 用户一天的记录量超过一千亿条,传统的数据库无法处理这么大量的数据,由于分析基站 运行情况不需要细粒度的数据,且存储大量数据需要耗费较多的资源,增加了运营成本。因 此,运营商对原始的上网记录进行预处理:将流量记录按照某种规则进行合并以减少数据 量。例如、可以将一定时长内的流量记录按照保留基站号、时间、上网流量和上网时长的情 况下,对同一基站预设时长内(例如、一个小时)的上网流量和上网时长分别进行累加,记 录数为汇总的记录条数。表1为原始的用户上网记录;表2是预处理后用户上网记录。其 中,表1中的第1、第3和第4条记录被合并为表2中的第1条记录。
[0004]
[0007]表2
[0008] 对原始的用户上网流量记录进行预处理时,各省分别包含有若干采集机,一台采 集机采集几个地市的上网流量记录,或一个地市由几台采集机进行上网流量记录的采集 (取决于用户规模和用户上网流量使用情况);各省分将采集的原始的上网流量记录上传 到同一预处理平台后,由预处理平台分配到系统内的各个预处理服务器中,对原始上网流 量记录的预处理;具体包括以下两种方式进行原始上网流量记录的预处理。方法1、根据系 统内各个预处理服务器的负载情况,按照预先设定的周期(一般1分钟~10分钟左右)将 采集机采集的原始上网流量记录分配到负载较少的预处理服务器中,实现预处理平台的负 载均衡。方法2、预先指定各个省分采集机采集的原始上网流量记录分配到相应的预处理服 务器中进行预处理。
[0009] 根据预处理服务器的负载情况分配原始上网流量记录虽然可以保持预处理平台 的负载均衡;但是,将各省分的原始上网流量记录根据预处理服务器的负载情况分配到各 个预处理服务器处理时,多个预处理服务器将分别对同一基站生成相应的合并后的上网流 量记录,例如,第一时刻省分1的采集机上传原始上网流量记录到预处理平台后,系统判断 将第一时刻省分1上传的原始上网流量记录分配给被确定为负载较少预处理服务器1进行 合并,生成省分1的合并后的上网流量记录1 ;第二时刻省分1上传原始上网流量记录到预 处理平台后,系统判断将第二时刻省分1原始上网流量记录分配给被确定为负载较少预处 理服务器2进行合并,生成省分1的合并后的上网流量记录2 ;以将一定时长内的流量记录 按照保留基站号、时间、上网流量和上网时长的情况下,对同一基站一个小时内的上网流量 和上网时长分别进行累加,记录数为汇总的记录条数的合并方法为例;如果第一时刻和第 二时刻在同一个小时内,则同一小时内,省分1的原始上网流量记录被分配到多少预处理 服务器,将生成多份合并后的上网流量记录,预处理效率低。如果进行进一步整合过程,需 要预处理服务器之间进行较大的数据传输,且增加预处理平台的工作量,降低预处理平台 的工作效率。预先指定各个省分采集机采集的原始上网流量记录分配相应的预处理服务器 进行预处理,虽然可以保证预处理效率,但是各省分的原始上网流量记录数量不同且在不 断变化,采用固定分配的方式容易造成部分预处理服务器空闲,部分预处理服务器无法完 成预处理的工作,各个预处理服务器负载不均衡。

【发明内容】

[0010] 为了解决上述技术问题,本发明提供一种实现上网流量记录预处理的方法及装 置,能够提高预处理效率和实现预处理服务器的负载均衡。
[0011] 为了达到本发明目的,本发明提供了一种实现上网流量记录预处理的方法,包 括:
[0012] 按照预设周期,计算各省预设时长内预设周期的平均话单数;
[0013] 从未被分配的各省的话单中,逐一选择平均话单数最大的省的平均话单数个话单 分配给未被分配话单的预处理服务器;
[0014] 各预处理服务器均被分配话单时,从未被分配的各省的话单中,将平均话单数最 大的省的平均话单数个话单分配给被分配话单最少的预处理服务器中;
[0015] 以分配至各预处理服务器的话单总数作为话单数集合,根据话单数集合确定是否 微调分配到各预处理服务器中的话单,话单分配完成后,进行上网流量记录的预处理;
[0016] 所述上网流量记录为话单中包含的记录;
[0017] 各省预设时长的话单为各省预设时长内采集机采集的话单。
[0018] 进一步地,根据话单数集合确定是否微调分配到各预处理服务器中的话单包括:
[0019] 计算所述话单数集合的标准差;
[0020] 话单数集合的标准差大于预设的标准阈值时,从分配最多话单的预处理服务器中 拆分话单数最多的采集机的话单到分配最少话单的预处理服务器中,并重新计算所述话单 数集合的标准差,直至话单数集合的标准差小于或等于预设的标准阈值时,确定话单分配 完成,进行所述上网流量记录的预处理。
[0021] 进一步地,该方法之前还包括:
[0022] 对各省内的各采集机的话单添加相应的采集区分编码;对各省的话单添加相应的 省分编码。
[0023] 进一步地,所述标准阈值为:
[0024] 开根号计算需预处理的上网流量记录的省的个数除以预处理服务器个数的商,获 得标准阈值系数;以需预处理的上网流量记录的各省预设时长的话单作为预设时长话单集 合,计算预设时长话单集合的标准差;
[0025] 将标准阈值系数乘以预设时长话单集合的标准差获得所述标准阈值。
[0026] 进一步地,当预处理服务器中被分配的话单数大于预先设定的负载阈值时,该方 法还包括:
[0027] 从分配至该预处理服务器的话单中拆分话单数最多的采集机的话单到被分配最 少话单的预处理服务器中,直至预处理服务器中被分配的话单数小于或等于预先设定的负 载阈值。
[0028] 另一方面,本申请还提供一种实现上网流量记录预处理的装置,包括:计算单元、 第一分配单元、第二分配单元和第一微调单元;其中,
[0029] 计算单元,用于按照预设周期,计算各省预设时长内预设周期的平均话单数;
[0030] 第一分配单元,用于从未被分配的各省的话单中,逐一选择平均话单数最大的省 的平均话单数个话单分配给未被分配话单的预处理服务器;
[0031] 第二分配单元,用于各预处理服务器均被分配话单时,从未被分配的各省的话单 中,将平均话单数最大的省的平均话单数个话单分配给被分配话单最少的预处理服务器 中;
[0032] 第一微调单元,用于以分配至各预处理服务器的话单总数作为话单数集合,根据 话单数集合确定是否微调分配到各预处理服务器中的话单,话单分配完成后,进行上网流 量记录的预处理。
[0033] 进一步地,所述第一微调单元具体用于,计算所述话单数集合的标准差;
[0034] 话单数集合的标准差大于预设的标准阈值时,从分配最多话单的预处理服务器中 拆分话单数最多的采集机的话单到分配最少话单的预处理服务器中,并重新计算所述话单 数集合的标准差,直至话单数集合的标准差小于或等于预设的标准阈值时,确定话单分配 完成,进行所述上网流量记录的预处理。
[0035] 进一步地,该装置还包括添加编码单元,用于对各省内的各采集机的话单添加相 应的采集区分编码;对各省的话单添加相应的省分编码,以区分各省话单和各省话单中各 米集机米集的话单。
[0036] 进一步地,所述标准阈值为:开根号计算需预处理的上网流量记录的省的个数除 以预处理服务器个数的商,获得标准阈值系数;以需预处理的上网流量记录的各省预设时 长的话单作为预设时长话单集合,计算预设时长话单集合的标准差;
[0037] 将标准阈值系数乘以预设时长话单集合的标准差获得所述标准阈值。
[0038] 进一步地,该装置还包括第二微调单元,用于当预处理服务器中被分配的话单数 大于预先设定的负载阈值时,从分配至该预处理服务器的话单中拆分话单数最多的采集机 的话单到被分配最少话单的预处理服务器中,直至预处理服务器中被分配的话单数小于或 等于预先设定的负载阈值。
[0039]
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1