一种用于增值税的数据清洗存储方法

文档序号:8319149阅读:282来源:国知局
一种用于增值税的数据清洗存储方法
【技术领域】
[0001] 本发明涉及税控技术领域,特别涉及一种用于增值税的数据清洗存储方法。
【背景技术】
[0002] 增值税防伪税控系统是国家金税工程的重要组成部分。通过运用数字密码和电子 存储技术并强化专用发票的防伪功能,做到了成功遏制利用增值税专用发票偷税、漏税的 现象。
[0003] 企业端开票软件是运用数字密码和电子信息存贮技术,强化专用发票的防伪功 能,实现对增值税一般纳税人税源监控,用于企业开具增值税专用发票的系统。
[0004] 当前一般纳税人的税务数据主要来自企业端开票软件、防伪税控网络版和CTAIS (中国税收征管信息系统,China Tex Administration Information System)核心征管三个 系统。
[0005] CTAIS是以国家税务总局制定的《税收征管业务规程》、《市局级税收征管业务需 求》和《国家税务总局CTAIS开发要求概要》为基准开发的,它是面向全国各级税务机关的、 统一的、大型的应用软件。
[0006] 以上三个系统记录了一般纳税人海量的税务数据,为各类税务系统的应用开发提 供了原始的数据来源。
[0007] 因此,如何设计一种方法,能够将这些庞大的数据高效地清洗过滤进而存储起来, 为这些业务应用提高效率,即为本领域技术人员的研究方向所在。

【发明内容】

[0008] 本发明的目的是提供一种用于增值税的数据清洗存储方法,能够将杂乱冗余的原 始数据进行ETL处理(提取、转换、加载),然后按设计的结构存储起来,为后续增值税常用业 务监控做好数据准备。
[0009] 为了达到上述目的,本发明提供一种用于增值税的数据清洗存储方法,其包括如 下步骤:
[0010] 针对增值税业务监控所需税务数据进行业务分析;
[0011] 针对分析结果进行数据库表结构的设计;
[0012] 进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进 行存储。
[0013] 其中,针对增值税业务监控所需税务数据进行业务分析是对以面向对象的分析技 术分析所需的数据项和数据项之间的关联关系,是对增值税业务数据的监控,包括增值税 进销项发票数据及税收征管数据。
[0014] 其中,针对分析结果进行数据库表结构的设计是以面向对象的设计思想,对从数 据源提供的数据进行建模处理,产生ETL数据库结构模型,包括进项发票数据表、进项发票 清单数据表、销项发票表、销项发票清单表、税务机关数据表、操作人员数据表及纳税人数 据表。
[0015] 其中,ETL过程需要进行异常处理,并且形成了一系列的异常处理表,对一些特殊 处理对象进行特殊处理。
[0016] 其中,进销项发票数据以及清单数据分别以认证时间和报税时间为分区键,每月 一个分区进行分区优化存储,并且在相关字段上建立索引。
[0017] 其中,针对业务分析结果进行数据库表结构的设计采用相关聚合表技术,在考虑 报表设计时,通过预处理事先将计算好的汇总数据保存到数据表中,直接提供给用户查询。
[0018] 其中,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的 设计进行存储的步骤中,是清洗掉无关的、冗余的、杂乱的数据,处理特殊含义的数据,将最 终结果按数据库设计存储起来。
[0019] 其中,对于ETL过程,需要从源数据库中提取所需要的数据,并且规范数据格式, 存储在ETL数据模型中,并对数据的准确性、处理的性能和业务扩展上进行关注。
[0020] 其中,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的 设计进行存储的步骤中,在提取原始数据时,根据异常处理表去掉或替换异常字符,在提取 过来以后可能会发现个别数据填写的内容不正确,是通过后台管理程序更正这些数据后, 标注这些数据不再被同步更新,以规范原始数据。
[0021] 其中,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的 设计进行存储的步骤中,源数据的ETL过程具体包括:进项发票数据提取、转换、加载过程; 进项发票清单数据提取、转换、加载过程;销项发票数据提取、转换、加载过程;销项发票清 单数据提取、转换、加载过程;税务机关数据提取、转换、加载过程;操作人员数据提取、转 换、加载过程及纳税人数据提取、转换、加载过程。
[0022] 与现有技术相比,本发明的有益效果在于:在庞大的数据里面快速清洗提取出为 了检测增值税相关业务所需的数据,并且能够巧妙地存储起来为后续判断提供准备,提高 了系统检测相关业务的效率。
【附图说明】
[0023] 图1为本发明实施例所提供的一种用于增值税的数据清洗存储方法流程图。
【具体实施方式】
[0024] 以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
[0025] 如图1所示,为本发明实施例所提供的一种用于增值税的数据清洗存储方法流程 图,本发明的一种用于增值税的数据清洗存储方法包括以下步骤:
[0026] 步骤Sl :针对增值税业务监控所需税务数据进行业务分析;
[0027] 在本步骤中,是以面向对象的分析技术(OOA)分析所需的数据项和数据项之间的 关联关系,为数据库的表结构设计提供依据。在业务上,是对增值税业务数据的监控主要包 括:纳税人分析(利用关联关系分析技术,确定纳税人所涉及到商品及其构成)、疑点监控 (主要包括对增值税阴阳票监控、滞留票监控、进项一号多名发票的监控)、查询统计(主要 包括对增值税监控所涉及的纳税人、进项发票、销项发票信息进行查询)三个功能模块;系 统主要操作对象为:增值税进销项发票数据(主要来源于防伪税控网络版所提供的抄报认 证快照数据,包括抄报发票存根联明细、抄报非抵扣存根联明细、认证发票抵扣联明细等数 据,以及企业端远程抄报认证软件所采集的进销项发票七要素、发票清单、发票扫描图片等 数据)和税收征管数据(主要来源于中国税收征管信息系统CTAIS包括税务机关数据、操作 人员、纳税人、行业等数据)。
[0028] 步骤S2 :针对步骤Sl的分析结果进行数据库表结构的设计;
[0029] 本步骤是针对步骤Sl的结果(主要包括增值税业务监控所需要数据项以及数据 项之间的关系),进行数据库的设计,同时充分考虑查询效率、数据规模等因素。根据业务需 要,我们以面向对象的设计思想(OOD)对从数据源提供的数据进行建模处理,产生ETL数据 库结构模型,主要包括进项发票数据表、进项发票清单数据表、销项发票表、销项发票清单 表、税务机关数据表、操作人员数据表、纳税人数据表等;在异常处理方面,同时由于其它第 三方信息管理系统数据不准确,为了避免由于这些不准确数据造成本系
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1