一种基于大数据中心的增值税发票应用分析系统的制作方法

文档序号:16857822发布日期:2019-02-12 23:33
一种基于大数据中心的增值税发票应用分析系统的制作方法

本发明属于税务信息处理领域,特别涉及一种基于大数据中心的增值税发票应用分析系统。



背景技术:

我国增值税发票的审批及办税流程滋生了一些企业借助政策“红利”虚开品名、违规抵扣进项,变更品名虚开发票,虚增产能虚开发票,多抵扣少交税,违规享受税收优惠政策,申报税额与实际开票税额不一致等问题,税务机关往往需要加强对增值税发票的后续监控管理,跟踪分析纳税人发票使用及纳税申报情况。

国内对于税收信息化的研究也不断的在探索和创新,税收信息化建设化历程也与时俱进,先后经历二个阶段,一个突破,第一阶段是以CTAIS为核心的税收征管系统建设,该系统在全国各级税务机关建立了一个统一的、完整的、全面的、严密的涵盖三个应用层次,四级网络的大型应用系统。这一阶段研究方向主要体现在税收征管以及基于数据仓库技术的税收征管决策支持研究。第二阶段是以金税三期(简称金三)为主的核心征管体系建设,该体系围绕着“一个平台、两级处理、三个覆盖、四个系统”的总体目标而建立,其总体要求为:“构建以明晰征纳双方权利和业务为前提,以风险管理为导向,以专业化管理为基础,以重点税源管理为着力点,以信息化为支撑的现代化税收征管体系”。这一阶段研究的重点在依法治税及企业涉税风险分析与防范等方面。

近年来,随着营改增工作的稳步推进,相关开票数据,申报数据,征收数据呈现几何级增长,尤其是以电子底账为核心的开票数据,增长效果明显,税务机关一方面要基于现有的数据量,准确的分析出各行业、各地区、各票种的发展现状,存在的短板,另一方面,要与历年数据比对,对国民经济发展情况进行环比、同比分析,预测未来经济发展趋势。同时,对于涉及税收违法行为要进行研判、预警并进行有效追溯,因此,传统的数据分析手段已不能满足现时段的分析要求,随着大数据理论的不断成熟,大数据技术在税源管理和监控方面的应用及理论研究日常活跃。

我国税收信息化起步晚,发展迅速,从最早的CTAIS1.0到CTAIS2.0再到金三核心征管系统,信息化水平越来越高,管理也越来越精细化。研究的重点从税务体制建设到税务信息化建设到税收遵从管理再到税收治理研究,层层递进。特别是在大数据背景及相关行业成功案例下,税收的数据管理、数据挖掘及税收风险管理成为各个学者研究的重点。

国外在税收信息化研究方面,普遍重视税收数据的重要性,把税收大数据视为一种重要的资源,通过分析利用推动税收管理优化及提高税收征管效率,随着大数据的深入应用,国外学者开始基于税收大数据,对纳税人行为进行分析,对税收征收与国家各行业的经济关系及制约因素进行研究,最大限度的发挥大数据的应用效果。本发明吸收借鉴了国外研究结果,对税收与国民经济行业的经济关系亦进行了相关研究与设计。



技术实现要素:

为了解决上述问题,本发明提供了一种基于大数据中心的增值税发票应用分析系统,实现对海量的、多种数据来源的增值税发票数据、税收征管数据、其它纳税人相关数据进行分析和比对,从而发现其中潜在的税收问题。

一种基于大数据中心的增值税发票应用分析系统,包括:

大数据中心和控制中心,所述大数据中心与控制中心连接,用于对税务数据进行采集、分析处理;

所述大数据中心基于Hadoop技术搭建,包括Sqoop模块、MapReduce模块、HDFS分布式文件系统、Hive模块、关系数据库、开源数据库及Mahout模块,所述HDFS分布式文件系统连接所述Sqoop模块、MapReduce模块、Hive模块及Mahout模块;

所述Sqoop模块基于Sqoop技术从业务系统中采集数据并传输至所述HDFS分布式文件系统;

所述MapReduce模块基于MapReduce技术从半结构化的数据文件、日志文件和Excel表格中采集数据并传输至所述分布式文件系统;

所述HDFS分布式文件系统将采集到的数据通过所述Hive模块进行ETL过程,并通过所述Hive模块将处理后的结果数据传输至所述控制中心;

所述Sqoop模块还用于将处理后的结果数据传输至所述关系数据库,所述关系数据库用于将所述结果数据极性数据展现;

所述MapReduce模块还用于将处理后的结果数据传输至所述开源数据库,所述开源数据库基于Hbase进行数据索引;

所述Mahout模块用于数据挖掘。

进一步地,所述增值税发票应用分析系统还包括数据分析模块,所述数据分析模块与控制中心连接,接收所述控制中心的结果数据;

所述数据分析模块包括进项分析、销项分析、发票来源地分析、发票流向地分析、企业流及货物流六个子模块,用于通过对结果数据的挖掘和分析,将发票流、货物流、企业流按照行业和区域进行展示。

进一步地,所述增值税发票应用分析系统还包括综合查询模块,所述综合查询模块与所述与控制中心连接,接收所述控制中心的结果数据;

所述综合查询模块包括一户式查询、进项发票查询及销项发票查询三个子模块,通过对税务机关、开票日期、发票类别、发票性质、纳税人、发票代码、发票号码、税率、作废标志的设置来实现对发票的精确查找;

进一步地,所述增值税发票应用分析系统还包括数据预警模块,所述数据预警模块与所述与控制中心连接,接收所述控制中心的结果数据;

所述数据预警模块包括进销项差异监控、自定义疑点监控、农产品收购发票监控、小规模纳税人达标监控、申报表异常监控、纳税人疑点信息监控、红字发票异常监控、作废发票异常监控、金额突增发票监控、销项销货清单监控、进项销货清单监控、减免税异常监控、申报为开票小于0异常监控、普通发票红冲异常监控、专票红字信息单异常监控及开票且有欠税异常监控16个预警子模块和风险对应工作台账,用于对税源进行实时监控、数据系统化分析和风险精准应对。

进一步地,所述增值税发票应用分析系统还包括系统管理模块,所述系统管理模块与所述与控制中心连接,接收所述控制中心的结果数据;

所述系统管理模块用于对所述增值税发票应用分析系统进行分层级管理。

进一步地,所述增值税发票应用分析系统还包括今日看板模块,所述今日看板模块与所述与控制中心连接,接收所述控制中心的结果数据;

所述今日看板模块用于对最近一段时间的增值税发票进销项情况进行图表示分析展示。

本发明的有益效果:本发明提供了一种基于大数据中心的增值税发票应用分析系统,能大量高效分析处理税票数据,减少税务人员的工作量,提高工作效率以及质量。通过税务登记信息、进销项发票开具明细、纳税申报信息的加工比对处理,增强后续监管手段,促进发票后续管理精细化。通过疑点纳税人和疑点发票的筛选处理,定期发布疑点信息,提升征管质量,促进税收风险管理常态化。通过经营信息、完税信息、财务报表数据的深度挖掘与清洗转换,理清纳税人经营脉络,揭示区域间、行业间税源发展特点,研判税收经济发展趋势,促进服务经济发展能力专业化,提高经济税收工作的前瞻性和敏感性。

附图说明

图1为本发明实施例提出的一种基于大数据中心的增值税发票应用分析系统的结构示意图。

图2为本发明实施例的大数据中心的结构示意图。

图3为本发明实施例的数据分析模块的结构示意图。

图4为本发明实施例的综合查询模块的结构示意图。

图5为本发明实施例的数据预警模块的结构示意图。

图中:10-增值税发票应用分析系统;110-控制中心;120-大数据中心;121-HDFS分布式文件系统;122-Sqoop模块;123-MapReduce模块;124-Hive模块;125-关系数据库;126-开源数据库;127-Mahout模块;130-数据分析模块;140-综合查询模块;150-数据预警模块;160-系统管理模块;170-今日看板模块。

具体实施方式

下面结合附图对本发明的实施例做进一步的说明。

请参阅图1,本发明提供一种基于大数据中心120的增值税发票应用分析系统10,包括:控制中心110、大数据中心120、数据分析模块130、综合查询模块140、数据预警模块150、系统管理模块160及今日看板模块170,控制中心110作为数据传输中枢与大数据中心120、数据分析模块130、综合查询模块140、数据预警模块150、系统管理模块160及今日看板模块170连接。

本系统采用前后台分离结构,后台采用的软件环境为Linux操作系统,搭建Hadoop集群,用hive实现多数据源的ETL过程,在数据源整合基础上再次经过数据清洗、数据选择、数据转换等过程,选出进入模型指标,然后基于Oracle etl工具结合waterdrop对指标进行相关分析、加工、计算,形成指标结果。前台采用J2EE框架结构,软件环境为windows操作系统,数据库为Oracle关系型数据库,通过Hive模块124将大数据中心120形成的指标结果推送到前台,结合AOS平台进行相关数据展现,最后主要功能为实现发票信息按地区、行业、品目、企业等分类展示,研究税收与国民经济行业的经济关系;实现“海淘”全票种有效发票、申报等疑点信息,实现对风险企业的实时预警、动态监控;实现对风险发布任务的绩效跟踪,确保增值税发票管理风险应对实效。

请参阅图2,搭建的基于Hadoop的大数据中心120包括Sqoop模块122、MapReduce模块123、HDFS分布式文件系统121、Hive模块124、关系数据库125、开源数据库126及Mahout模块127,HDFS分布式文件系统121连接Sqoop模块122、MapReduce模块123、Hive模块124及Mahout模块127。

本实施例中,通过Sqoop模块122和MapReduce模块123进行数据采集。其中,运用Sqoop技术从现有的业务系统数据库中采集数据,例如金三征管、稽核系统、电子底账等存放有税务信息的数据库;运用MapReduce技术从大量半结构化的数据文件、日志文件、Excel表格中采集数据;还可以通过网络爬虫从互联网中爬取各种与纳税人相关的网络数据。

本实施例中,海量的税务数据通过各方式采集后传输至HDFS分布式文件系统121中,对数据进行一系列地分析与处理过程。这个过程即包括传统的ETL数据清洗、转换、集成,最后形成数据仓库的过程,也包括各种监控指标的运算与分析过程。通过这一系列分析与处理过程,最终形成各种多维数据模型,以及指标运算结果,通过Sqoop模块122存放到关系数据库125中,用于数据展现。本发明搭建的基于Hadoop技术的大数据中心120,可以有更加丰富的数据分析技术,更加精细地对数据进行分析与处理,包括对纳税人经营行为的分析而进行打标签、划分类别,对其销售状况以及税收行为进行分类、聚类分析,运用数据挖掘与机器学习的方式,去分析和发现纳税人税收行为潜在的问题。

其中,ETL过程通过Hive模块124实现,并通过Hive模块124将大数据中心120得到的指标结果传输至控制中心110。

本实施例中,当系统经过对海量数据大量地分析与处理过程以后,最后形成的是数据量不大,但包含大量有用信息的结果数据,最终存放于关系数据库125中进行数据展现。在进行数据展现时,将运用专业的UI展现技术,更加直观地展现大量数据表现出的整体状况、变化趋势,以及通过这些进而发现的问题,为用户的决策支持提供帮助。

本实施例中,在面对海量历史数据的实时查询这部分,如对某个纳税人及其进销项发票的查询,通过MapReduce模块123将处理后的结果数据传输至开源数据库126,基于HBase建立数据索引,从而实现数据的高效快捷。

本实施例中,Mahout模块127用于进行数据挖掘。

本实施例中,聚合离散数据,形成统一数据标准。将不同票种的发票信息进行数据整合,建立起基于全票种的进项、销项发票信息及货物信息,在此基础上,进一步建立起基于税务机关、行业、税率、物品、企业等多维度的全票种进项、销项发票信息及货物信息,并赋予各票种基础征管信息,从而建立起从金三征管、电子底账到申报系统之间的数据统一提数标准及建模标准。

综上,本发明采用了如下技术:

基于Hadoop分布式处理技术解决海量数据运算性能。

本发明研究的范围涉及增值税专用发票、普通发票、货运发票、机动车发票、卷式发票、电子发票等,研究领域涵盖进项发票数据、销项发票数据、货运专票数据、机动车销售、海关缴款书、出口退税及纳税申报等,相关分析、预警类指标取数时间跨度长,数据量大,形成研判结果的过程计算量大且复杂,在现有服务器资源不变情况下,通过Hadoop分布式处理技术,大幅提升现有海量数据的处理能力,缩短处理时间,提高各项指标执行的成功率。

基于MapReduce技术解决并行处理问题。

在对分析、监控类指标的运行设计中,海量数据的核心监控类指标的运行时间不宜超过30分钟,基于以上构件思路,研究MapReduce的块状分割技术,将各项监控指标的数据分发到不同的服务器上以32块的分区模式并行处理,全面提升各类应用指标的数据速度,缩短处理时间。

基于Sqoop技术解决结构型数据库与关系型数据库之间的数据共享。

基于Sqoop技术研究本课题的业务系统与大数据中心120的数据交互:一是将业务系统自定义数据同步到大数据中心120中,参与指标的清洗与运算;二是将大数据中心120计算后的结果数据推送到业务系统中,转化成关系型数据,通过图形化方式,展示在用户界面中。

利用数据仓库技术思路,对数据进行整理聚合。

本发明研究金三征管数据、电子底账数据,申报数据的存储特点,从多个维度对数据进行清理整合,将若干形态各异,分布广泛的非关联性数据通过数据仓库技术建立起高聚合且彼此之间强联系的关系型数据,形成了以进、项两条线为主线的全票种数据聚合,在此基础上抽取出按税务机关、行业、物品、税率、企业等的全票种进、销两条线的数据聚合,并赋予聚合数据金三征管属性,进而建立起一种数据底层采集标准,基于该标准,快速构建各项分析预警指标模型。

利用Hive工具实现数据建模及加工。

本发明所涉及的ETL过程及数据建模,拟基于传统的SQL编写规范,将各项指标模型,通过Hive工具,遵循Hive工具中的编写规范,将传统SQL语句转化成大数据平台执行的特定语句,降低分布式数据处理过程的技术难度,提升开发效率。

本实施例中,增值税发票应用分析系统10还包括数据分析模块130,数据分析模块130与控制中心110连接,接收控制中心110的结果数据。

请参阅图3,数据分析模块130包括进项分析、销项分析、发票来源地分析、发票流向地分析、企业流及货物流六个子模块,通过对数据的挖掘和分析,客观地将发票流、货物流、企业流按照行业和区域来进行展示,为领导决策、宏观分析和基层局管理提供数据支撑。

增值税发票应用分析系统10还包括综合查询模块140,综合查询模块140与与控制中心110连接,接收控制中心110的结果数据。

本实施例中,控制中心110将从大数据中心120得到的结果数据传输至其它模块进行分析处理。

请参阅图4,综合查询模块140包括一户式查询、进项发票查询及销项发票查询三个子模块,通过对税务机关、开票日期、发票类别、发票性质、纳税人、发票代码、发票号码、税率、作废标志的设置来实现全景式精确查找发票的功能。

本实施例中,增值税发票应用分析系统10还包括数据预警模块150,数据预警模块150与与控制中心110连接,接收控制中心110的结果数据。

请参阅图5,数据预警模块150包括进销项差异监控、自定义疑点监控、农产品收购发票监控、小规模纳税人达标监控、申报表异常监控、纳税人疑点信息监控、红字发票异常监控、作废发票异常监控、金额突增发票监控、销项销货清单监控、进项销货清单监控、减免税异常监控、申报为开票小于0异常监控、普通发票红冲异常监控、专票红字信息单异常监控及开票且有欠税异常监控16个预警子模块和风险对应工作台账,实现了税源实时化监控、数据系统化分析和风险精准化应对,探索出了一条全方位指标监控体系。从微观上实现实时预警,重点监控预警纳税人进销项差异、使用升级版开具农产品收购发票的申报表中农产品申报数据的比对、未按照规定使用税控系统开具销货清单等,实现对部分企业进销不匹配、开票不规范、票表不符、申报异常等涉嫌违规情况的自动化监控,进一步提升风险管理针对性和有效性。通过数据系统化分析和人工挑选相结合,发挥税收情报对税收日常征管和风险管理的数据支撑作用,以票控税,信息管票,逐步形成智能化监控管理。

本实施例中,增值税发票应用分析系统10还包括系统管理模块160,系统管理模块160与控制中心110连接,接收所述控制中心110的结果数据。增值税发票应用分析系统10采用分层级管理,只有管理员才能操作“系统管理”菜单。系统管理日常使用的主要包括:用户管理、货品名称管理、风险库维护、台账批次维护。

本实施例中,增值税发票应用分析系统10还包括今日看板模块170,今日看板模块170与控制中心110连接,接收控制中心110的结果数据。今日看板模块170用于对最近一段时间的增值税发票进销项情况进行图表示分析展示。

本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1