一种旅客行为数据分布式处理方法及系统的制作方法

文档序号:8445670阅读:187来源:国知局
一种旅客行为数据分布式处理方法及系统的制作方法
【技术领域】
[0001]本发明涉及航空数据处理领域,具体涉及一种旅客行为数据分布式处理方法及系统。
【背景技术】
[0002]随着互联网的蓬勃发展,航空公司对旅客的深度认知变得越来越重要。在航空公司进行精细化营销的过程中,也提出对旅客分为分析更高的要求,不仅仅是分析旅客的乘机次数,平均购票提前时间等。而且,需要深度了解旅客,需要通过旅客的乘机行为分析出来,旅客的核心价值,旅客的常住地址,旅客之间的出行关系等。
[0003]目前比较大的航空集团,每年运送的旅客量在6000-7000万左右,2年的数据将会有1.4亿条数据。由于数据量庞大,传统的数据库分析手段仅仅能够对旅客行为数据做简单的行为汇总分析,例如:乘机次数,平均购票提前时间,而且随着数据量的增大每次预算时间会越来越长,由于现有分析系统多为集中式分析系统,不能随意扩充系统内的机器数量,只能够不断的增强已有机器的配置,然而,即使不断增强机器的配置,由于机器配置提高空间是有限制的,每次相关运算的时间都达到几十个小时乃至更长的时间;其次对于分析例如:旅客的核心价值(涉及到乘机的舱位,乘机的里程运算),旅客的常住地(涉及到2年内的出行记录,身份证信息,手机号信息等),旅客之间的出行关系(涉及到2年内的出行记录,经常与那些人出行),对于这类庞大数据量的分析对于航空集团来说越来越重要。
[0004]然而,采用现有技术增强机器配置是无法及时更新用户的相关数据。并且,利用传统的数据库分析手段对旅客的核心价值、旅客的常住地和旅客之间的出行关系这类庞大数据量的分析,其分析时间过长,无法及时获得所需信息。

【发明内容】

[0005]本发明实施例提供了一种旅客行为数据分布式处理方法及系统,能够能准确的分析旅客的行为数据,大大提高旅客行为分析的效率。
[0006]有鉴于此,本发明实施例第一方面提供一种旅客行为数据分布式处理方法,可包括:分布式控制中心接收客户端发出的计算任务;所述计算任务基于第一旅客行为数据;
[0007]所述客户端将所述计算任务对应的计算资源包存入分布式集群;
[0008]所述分布式控制中心根据所述计算任务从所述分布式集群中获取所述计算资源包的输入分割信息,所述输入分割信息用于指示所述计算资源包被分割后的子资源包;
[0009]所述分布式控制中心根据所述输入分割信息向第一计算节点下发map计算任务,并向第二计算节点下发reduce计算任务;
[0010]所述第一计算节点从所述分布式集群中获取所述map计算任务对应的第一子资源包和对应的第一旅客行为数据;
[0011]所述第一计算节点根据所述第一子资源包和所述第一旅客行为数据执行map计算任务生成第二旅客行为数据;
[0012]所述第二计算节点从所述分布式集群中获取所述reduce计算任务对应的第二子资源包;
[0013]所述第二计算节点根据所述第二子资源包和所述第二旅客行为数据执行reduce计算任务生成目标旅客行为数据;
[0014]所述第二计算节点将所述目标旅客行为数据存入所述分布式集群。
[0015]结合第一方面,在第一方面的第一种可能的实现方式中,所述客户端将对应所述计算任务的计算资源包存入分布式集群之后还包括:
[0016]所述客户端向分布式控制中心发送确认信息;
[0017]所述分布式控中心根据所述确认信息对所述计算任务进行初始化。
[0018]结合第一方面,在第一方面的第二种可能的实现方式中,所述方法还可包括:
[0019]所述分布式集群内的文件系统客户端节点从所述分布式集群内的分布式文件控制中心节点获取所述分布式集群内的第一数据节点的写入位置信息;
[0020]所述文件系统客户端节点向第一数据节点发出第一写入请求;所述第一写入请求指示待写入的数据,所述待写入的数据包括计算资源包或目标旅客行为数据;
[0021]所述第一数据节点根据所述第一写入请求写入所述待写入的数据之中部分数据;
[0022]所述第一数据节点向所述分布式集群内的第二数据节点发出第二写入请求;所述第二数据节点与第一数据节点为相邻数据节点;
[0023]所述第二数据节点根据所述第二写入请求写入所述待写入的数据之中余下部分数据。
[0024]结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述第二数据节点根据所述第二写入请求写入余下部分数据之后还包括:
[0025]所述第一数据节点接收第二数据节点返回的成功写入信息;
[0026]所述第一数据节点向所述文件系统客户端节点反馈数据写入完成信息。
[0027]结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述方法还包括:
[0028]所述第一数据节点或第二数据节点中还根据所述第一数据节点或第二数据节点中写入的所述数据建立与所述数据对应的副本;
[0029]所述第一数据节点或第二数据节点存储所述副本。
[0030]结合第一方面的第种二可能的实现方式,在第一方面的第五种可能的实现方式中,所述文件系统客户端节点从所述分布式文件控制中心节点获取文件位置信息;
[0031]所述文件系统客户端节点根据所述位置信息从对应的所述第一数据节点和所述第二数据节点中读取数据;
[0032]所述文件系统客户端节点将读取的数据汇总并进行本地存储。
[0033]结合第一方面、第一方面的第一种可能的实现方式、第一方面的第二种可能的实现方式、第一方面的第三种可能的实现方式、第一方面的第四种可能的实现方式和第一方面的第五种可能的实现方式之中任意一种,在第一方面的第六种可能的实现方式中,所述第一旅客行为数据包括离岗信息,所述离岗信息包括身份证ID,起飞城市和到达城市。
[0034]结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,所述第一计算节点根据所述第一子资源包和所述第一旅客行为数据执行map计算任务生成第二旅客行为数据包括:
[0035]所述第一计算节点根据身份证ID、起飞城市和到达城市获取身份证ID、城市和总数,所述总数包含相同的起飞城市和到达城市出现的数量之和;
[0036]所述第一计算节点生成包含身份证ID以及与身份证ID对应的所有城市和总数的第二旅客行为数据。
[0037]结合第一方面的第七种可能的实现方式,在第一方面的第八种可能的实现方式中,所述第二旅客行为数据还包括常旅客信息和手机归属地信息;
[0038]所述常旅客信息包括身份证ID、手机号码和邮件地址;
[0039]所述手机归属地信息包括手机号码和归属地。
[0040]结合第一方面的第八种可能的实现方式,在第一方面的第九种可能的实现方式中,所述第二计算节点根据所述第二子资源包和所述第二旅客行为数据执行reduce计算任务生成目标旅客行为数据包括:
[0041]所述第二计算节点根据第二旅客行为数据获取常旅地信息;所述常旅地信息包括身份证ID以及与身份证ID对应的总数前两名的城市和对应所述城市的总数;
[0042]所述第二计算节点根据常旅客数据、手机归属地数据和常旅地信息获取目标旅客行为数据,所述目标旅客行为数据包括身份证ID和常住地。
[0043]本发明第二方面还提供一种旅客行为数据分布式处理系统,可包括:
[0044]分布式控制中心,用于接收客户端发出的计算任务,
[0045]还用于根据所述计算任务从所述分布式集群中获取所述计算资源包的输入分割信息,
[0046]还用于根据所述输入分割信息向第一计算节点下发map计算任务,并向第二计算节点下发reduce计算任务;
[0047]客户端,用于向所述分布式控制中心发出的计算任务,
[0048]还用于将所述计算任务对应的计算资源包存入分布式集群;
[0049]分布式集群,用于为分布式控制中心、客户端、第一计算节点和第二计算节点提供数据存取;
[0050]第一计算节点,用于从所述分布式集群中获取所述map计算任务对应的第一子资源包和对应的第一旅客行为数据,
[0051]还用于根据所述第一子资源包和所述第一旅客行为数据执行map计算任务生成第二旅客行为数据;
[0052]第二计算节点,用于从所述分布式集群中获取所述reduce计算任务对应的第二子资源包,
[0053]还用于根据所述第二子资源包和所述第二旅客行为数据执行reduce计算任务生成目标旅客行为数据,
[0054]还用于将所述目标旅客行为数据存入所述分布式集群。
[0055]结合第二方面,在第二方面的第一种可能的实现方式中,所述客户端还
[0056]用于向分布式控制中心发送确认信息;
[0057]所述分布式控中心还用于根据所述确认信息对所述计算任务进行初始化。
[0
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1