一种海量网络发票明细数据分布式分析方法

文档序号:6512844阅读:246来源:国知局
一种海量网络发票明细数据分布式分析方法
【专利摘要】本发明提供一种海量网络发票明细数据分布式分析方法,其具体分析过程为:构建网络发票明细数据计算工作集群,客户机服务节点:用于接收来自客户的计算指令;任务调度服务节点:用于进行节点管理和任务追踪;数据仓库节点:存储需要参与分析计算得的原始网络发票明细数据;分布式计算节点:用于进行原始数据处理和生成目标键值对;汇聚计算节点:根据计算指令对数据预处理结果进行汇聚计算,并返还计算结果和注销调度任务。该一种海量网络发票明细数据分布式分析方法和现有技术相比,解决原系统中的性能瓶颈,从而实现提高海量网络发票明细数据的分析计算效率,实用性强,易于推广。
【专利说明】一种海量网络发票明细数据分布式分析方法
【技术领域】
[0001]本发明涉及税务行业的数据分析和数据处理技术,具体的说是一种海量网络发票明细数据分布式分析方法。
【背景技术】
[0002]随着国家金税三期网络发票项目的推广,全国纳税人每年可产生以TB为单位的海量网络发票明细数据,这些数据如何能够被更高效的分析利用,从而作为管理机构的决策依据,已经成为各级管理部门日益突出的需求。
[0003]在现有的网络发票明细数据计算体系中,影响性能的主要有两大方面的原因: 一是现有的计算机组成体系和计算模式。
[0004]二是现有的网络发票明细数据在关系型数据库中的半结构化存储模式。
[0005]综合分析以上两大原因,在进行海量网络发票明细数据分析计算时,其瓶颈主要体现在:
A、数据存储模式,在进行海量网络发票明细数据分析时,存在传输瓶颈,无法线性提高传输效率。
[0006]B、按照B树方式存储的关系型数据库,在进行海量网络发票数据分析时,包含的大量磁盘寻址操作,严重影响计算效率
C、业务逻辑的计算,无法进行单元分割,无法以多线程的方式提高计算效率。
[0007]D、作为半结构化的网络发票明细数据,由于行业的不同、发票的不同导致存储格式存在较大差异,无法按照统一数据处理模式进行处理。
[0008]本发明所提出的海量网络发票明细数据分布式分析方法,正是基于该背景下提出的。

【发明内容】

[0009]本发明的技术任务是解决现有技术的不足,提供一种实用性强、海量网络发票明细数据分布式分析方法。
[0010]本发明的技术方案是按以下方式实现的,该一种海量网络发票明细数据分布式分析方法,其具体分析过程为:
1)首先构建网络发票明细数据计算工作集群,该工作集群包含以下节点:客户机服务节点、与客户机服务节点通信连接的任务调度服务节点、与任务调度服务节点通信连接的数据仓库节点、与数据仓库节点通信连接的分布式计算节点、与任务调度服务节点及分布式计算节点均通信连接的汇聚计算节点;
2)由客户机服务节点接收来自客户的计算指令;
3)根据计算指令,任务调度服务节点进行节点管理和任务追踪;
4)数据仓库节点存储需要参与分析计算得的原始网络发票明细数据;
5)分布式计算节点进行原始数据处理和生成目标键值对; 6)根据计算指令由汇聚计算节点对数据预处理结果进行汇聚计算,并返还计算结果和注销调度任务;
7)任务调度节点将返回的最终处理结果返回到客户机服务节点,反馈给用户;同时注销任务调度节点的任务调度清单。
[0011]所述步骤2)的详细过程为:客户机服务节点接收到客户的数据分析指令后,对分析指令进行预编译处理,分成数据范围指令和数据处理指令,并向任务调度服务节点提交数据处理任务请求,异步等待处理结果。
[0012]所述步骤3)的详细过程为:任务调度节点接收到来自客户机服务节点的数据处理任务请求之后,检查当前分布式计算节点、汇聚计算节点的资源占用情况,如果没有可分配资源,则向客户机服务节点返回系统繁忙指令,拒绝其数据处理任务请求;如果有可分配资源,则为该请求分配计算资源,生成任务调度清单,将数据范围指令分配给数据仓库节点,将数据处理指令分配给汇聚计算节点。
[0013]所述步骤4)的详细过程为:数据仓库节点接收到数据范围指令后,对原始网络发票明细数据根据其存储特征值进行初步筛查,初步确认有效原始数据;对原始发票明细数据,按照数据文件分配规则,从结构数据转储为非结构化的流式数据,并进行文件分割;分割完成的元数据文件,根据调度策略依次提交分布式计算接点,进行二次数据处理。
[0014]所述步骤5)的详细过程为:分布式计算节点接收到元数据文件后,对元数据文件中的数据记录进行二次筛查,剔除无效数据记录和异常数据记录,并对有效地数据记录按照网络发票票面元素组成内容,对需要参加分析计算的票面元素进行提取,生成KEY/VALUE键值对,作为下一步的输出内容提交到汇聚计算节点。
[0015]所述步骤6)的详细过程为:汇聚计算节点按照数据计算指令对接收到的网络发票分析计算元素键值对进行计算处理,由第一个处理完成的汇聚计算节点作为主节点,通过心跳线向其他节点发送命令处理广播,待所有节点的计算任务完成以后,由该主节点汇总生成最终处理结果,并提交到任务调度节点。
[0016]所述工作集群的各节点在组成数量上应满足以下要求:客户机服务节点设置有I个,任务调度服务节点设置有I个,数据仓库节点设置有I个,分布式计算节点设置有至少2个,汇聚计算节点设置有至少I个,其中各分布式计算节点各自进行内容计算,互不干涉,直到所有元数据文件被全部处理完成。
[0017]本发明与现有技术相比所产生的有益效果是:
本发明的一种海量网络发票明细数据分布式分析方法通过搭建网络发票明细数据计算工作集群,将半结构化的网络发票明细数据利用网络存储文件系统进行转储为流式文件系统,并进行元数据分割,解决传输效率低和磁盘寻址操作多的问题;将计算单元按照分布式任务进行调度,解决无法以多线程方式进行计算的问题;通过数据预处理,形成标准化的KEY/VALUE键值对,解决数据格式不统一问题,从而大大提高海量网络发票明细数据的分析计算效率;通过采用网络存储文件系统和重新构建MAP/REDUCE键值对分析方法,来实现半结构化的原始网络发票明细数据在该工作集群上的的数据转储、文件分割、并行分析计算、数据结果处理等海量数据高速分析任务,解决原系统中的性能瓶颈,从而实现提高海量网络发票明细数据的分析计算效率,实用性强,易于推广。【专利附图】

【附图说明】
[0018]附图1是本发明的网络发票明细数据计算工作集群的联机结构示意图。
【具体实施方式】
[0019]下面结合附图对本发明的一种海量网络发票明细数据分布式分析方法作详细说明。
[0020]本发明的方法是利用分布式计算方法和网络存储文件系统,解决海量网络发票明细数据分析计算中的数据传输瓶颈、计算性能瓶颈、数据存储瓶颈等问题,从而提高海量网络发票明细数据的计算效率,达到海量网络发票明细数据分析利用的目的,如附图1所示,现提供一种海量网络发票明细数据分布式分析方法,其具体分析过程为:
1)首先构建网络发票明细数据计算工作集群,该工作集群包含以下节点:客户机服务节点、与客户机服务节点通信连接的任务调度服务节点、与任务调度服务节点通信连接的数据仓库节点、与数据仓库节点通信连接的分布式计算节点、与任务调度服务节点及分布式计算节点均通信连接的汇聚计算节点;
2)由客户机服务节点接收来自客户的计算指令;
3)根据计算指令,任务调度服务节点进行节点管理和任务追踪;
4)数据仓库节点存储需要参与分析计算得的原始网络发票明细数据;
5)分布式计算节点进行原始数据处理和生成目标键值对;
6)根据计算指令由汇聚计算节点对数据预处理结果进行汇聚计算,并返还计算结果和注销调度任务;
7)任务调度节点将返回的最终处理结果返回到客户机服务节点,反馈给用户;同时注销任务调度节点的任务调度清单。
[0021]所述步骤2)的详细过程为:客户机服务节点接收到客户的数据分析指令后,对分析指令进行预编译处理,分成数据范围指令和数据处理指令,并向任务调度服务节点提交数据处理任务请求,异步等待处理结果。
[0022]所述步骤3)的详细过程为:任务调度节点接收到来自客户机服务节点的数据处理任务请求之后,检查当前分布式计算节点、汇聚计算节点的资源占用情况,如果没有可分配资源,则向客户机服务节点返回系统繁忙指令,拒绝其数据处理任务请求;如果有可分配资源,则为该请求分配计算资源,生成任务调度清单,将数据范围指令分配给数据仓库节点,将数据处理指令分配给汇聚计算节点。
[0023]所述步骤4)的详细过程为:数据仓库节点接收到数据范围指令后,对原始网络发票明细数据根据其存储特征值进行初步筛查,初步确认有效原始数据;对原始发票明细数据,按照数据文件分配规则,从结构数据转储为非结构化的流式数据,并进行文件分割;分割完成的元数据文件,根据调度策略依次提交分布式计算接点,进行二次数据处理。
[0024]所述步骤5)的详细过程为:分布式计算节点接收到元数据文件后,对元数据文件中的数据记录进行二次筛查,剔除无效数据记录和异常数据记录,并对有效地数据记录按照网络发票票面元素组成内容,对需要参加分析计算的票面元素进行提取,生成KEY/VALUE键值对,作为下一步的输出内容提交到汇聚计算节点。
[0025]所述步骤6)的详细过程为:汇聚计算节点按照数据计算指令对接收到的网络发票分析计算元素键值对进行计算处理,由第一个处理完成的汇聚计算节点作为主节点,通过心跳线向其他节点发送命令处理广播,待所有节点的计算任务完成以后,由该主节点汇总生成最终处理结果,并提交到任务调度节点。
[0026]所述工作集群的各节点在组成数量上应满足以下要求:客户机服务节点设置有I个,任务调度服务节点设置有I个,数据仓库节点设置有I个,分布式计算节点设置有至少2个,汇聚计算节点设置有至少I个,其中各分布式计算节点各自进行内容计算,互不干涉,直到所有元数据文件被全部处理完成。
[0027]其中任务调度服务节点具备服务跟踪功能。
[0028]数据仓库节点具备对不同格式的结构化或者半结构化的原始网络发票明细数据的转储为文本化的流式数据的功能。
[0029]分布式计算节点具备线性扩展功能,即可通过增加节点的数量来同倍数提高对元数据的处理能力。
[0030]分布式计算节点可按照网络发票明细数据组成要素进行数据分解,提取需要参加分析计算的组成要素,形成KEY/VALUE键值对。
[0031]汇聚计算节点具备分布式计算调度功能,可通过心跳线或者心跳信号来进行逻辑主从节点的计算工作调度,并对计算结果进行汇总。
[0032]除说明书所述的技术特征外,均为本专业技术人员的公知技术。
【权利要求】
1.一种海量网络发票明细数据分布式分析方法,其特征在于,其具体分析过程为: 1)首先构建网络发票明细数据计算工作集群,该工作集群包含以下节点:客户机服务节点、与客户机服务节点通信连接的任务调度服务节点、与任务调度服务节点通信连接的数据仓库节点、与数据仓库节点通信连接的分布式计算节点、与任务调度服务节点及分布式计算节点均通信连接的汇聚计算节点; 2)由客户机服务节点接收来自客户的计算指令; 3)根据计算指令,任务调度服务节点进行节点管理和任务追踪; 4)数据仓库节点存储需要参与分析计算得的原始网络发票明细数据; 5)分布式计算节点进行原始数据处理和生成目标键值对; 6)根据计算指令由汇聚计算节点对数据预处理结果进行汇聚计算,并返还计算结果和注销调度任务; 7)任务调度节点将返回的最终处理结果返回到客户机服务节点,反馈给用户;同时注销任务调度节点的任务调度清单。
2.根据权利要求1所述的一种海量网络发票明细数据分布式分析方法,其特征在于,所述步骤2)的详细过程为:客户机服务节点接收到客户的数据分析指令后,对分析指令进行预编译处理,分成数据范围指令和数据处理指令,并向任务调度服务节点提交数据处理任务请求,异步等待处理结果。
3.根据权利要求1所述的一种海 量网络发票明细数据分布式分析方法,其特征在于,所述步骤3)的详细过程为:任务调度节点接收到来自客户机服务节点的数据处理任务请求之后,检查当前分布式计算节点、汇聚计算节点的资源占用情况,如果没有可分配资源,则向客户机服务节点返回系统繁忙指令,拒绝其数据处理任务请求;如果有可分配资源,则为该请求分配计算资源,生成任务调度清单,将数据范围指令分配给数据仓库节点,将数据处理指令分配给汇聚计算节点。
4.根据权利要求1所述的一种海量网络发票明细数据分布式分析方法,其特征在于,所述步骤4)的详细过程为:数据仓库节点接收到数据范围指令后,对原始网络发票明细数据根据其存储特征值进行初步筛查,初步确认有效原始数据;对原始发票明细数据,按照数据文件分配规则,从结构数据转储为非结构化的流式数据,并进行文件分割;分割完成的元数据文件,根据调度策略依次提交分布式计算接点,进行二次数据处理。
5.根据权利要求1所述的一种海量网络发票明细数据分布式分析方法,其特征在于,所述步骤5)的详细过程为:分布式计算节点接收到元数据文件后,对元数据文件中的数据记录进行二次筛查,剔除无效数据记录和异常数据记录,并对有效地数据记录按照网络发票票面元素组成内容,对需要参加分析计算的票面元素进行提取,生成KEY/VALUE键值对,作为下一步的输出内容提交到汇聚计算节点。
6.根据权利要求1所述的一种海量网络发票明细数据分布式分析方法,其特征在于,所述步骤6)的详细过程为:汇聚计算节点按照数据计算指令对接收到的网络发票分析计算元素键值对进行计算处理,由第一个处理完成的汇聚计算节点作为主节点,通过心跳线向其他节点发送命令处理广播,待所有节点的计算任务完成以后,由该主节点汇总生成最终处理结果,并提交到任务调度节点。
7.根据权利要求1-6中任一所述的一种海量网络发票明细数据分布式分析方法,其特征在于,所述工作集群的各节点在组成数量上应满足以下要求:客户机服务节点设置有I个,任务调度服务节点设置有I个,数据仓库节点设置有I个,分布式计算节点设置有至少2个,汇聚计算节点设置有至少I个,其中各分布式计算节点各自进行内容计算,互不干涉,直到所有元数据文件被全部处 理完成。
【文档编号】G06F17/30GK103455633SQ201310437262
【公开日】2013年12月18日 申请日期:2013年9月24日 优先权日:2013年9月24日
【发明者】徐兵兵, 于治楼, 王永军 申请人:浪潮齐鲁软件产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1