一种基于大数据行为分析的电子税务局数据预处理方法与流程

文档序号:18009798发布日期:2019-06-25 23:52阅读:904来源:国知局
一种基于大数据行为分析的电子税务局数据预处理方法与流程

本发明属于数据处理技术领域,特别是涉及一种基于大数据行为分析的数据预处理方法。



背景技术:

随着互联网的不断发展,纳税人办税逐渐从实体办税厅转移到网上办税,电子税务局作为纳税人网上办税的主要渠道,在纳税人高并发办税的情况下,其办理效率变得至关重要。数据预处理可以直接提高纳税人在电子税务局的办税效率。而如何应用大数据处理技术成为提高电子税务局办税效率的关键。

目前很多电子税务局主要针对申报等业务将相关发票等数据进行预处理,具有业务局限性。当很多纳税人在同一时段集中办理业务时,还是会造成电子税务局客户端频繁与后台数据交互,增大后台数据处理压力,降低办税效率。



技术实现要素:

基于现有书中存在的问题,本发明的目的是提供一种基于大数据行为分析的电子税务局数据预处理方法,在充分利用系统闲暇时间资源基础上进行数据预处理,提高纳税人在电子税务局的办税效率。

为实现上述目的,本发明采用的技术方案如下:

一种基于大数据行为分析的电子税务局数据预处理方法,其特征在于,包括:

办税行为分类步骤:根据纳税人办税行为构建不同业务下的纳税人办税行为模型,以将不同业务下的纳税人进行行为分类;

办税行为时间优化步骤:根据办税行为分类结果,将每一类的聚类频次均值分布纳入纳税人办税行为模型,进一步明确每个分类的集群特征,按照聚类的频次均值将每个分类的批处理时间进行分类;

数据预处理步骤,在业务流程梳理的基础上,根据纳税人办税行为模型的批处理时间分类结果,分别进行数据预处理。

进一步的,办税行为分类步骤中,所述的纳税人办税行为是指纳税人针对某一业务在近一年内每月的办理频次。

进一步的,办税行为分类步骤中,所述的构建纳税人办税行为模型是指利用k-means算法,将纳税人办税行为数据进行聚类,以便得到纳税人的办税行为特征。

进一步的,所述的办税行为时间优化步骤,批处理时间分为按日批处理、按周批处理、按月批处理。批处理时间的选取具体包括以下四种:

某一类的频次均值等于0,则不做批处理;若只有某几个月的频次等于0,则只对这几个月不做批处理;

某一类的频次均值大于0且小于1,则按月批处理;若只有某几个月的频次大于0且小于1,则只在这几个月进行按月批处理;

某一类的频次均值大于1且小于4,则按周批处理;若只有某几个月的频次大于1且小于4,则只在这几个月进行按周批处理;

某一类的频次均值大于4,则按日批处理;若只有某几个月的频次大于4,则只在这几个月进行按日批处理。

进一步的,若某一类在每个月的频次均值存在四种的混合情况,则对每个月份按照其频次均值分别进行不做批处理、按月批处理、按周批处理、按日批处理。

进一步的,所述数据预处理步骤具体包括:

基于电子税务局业务系统数据,将电子税务局客户端每个业务处理对应的服务端的数据以及程序进行梳理;服务端数据项应用于多个业务,可复用,保证同一个数据的出口一致;

根据以上数据批处理的分类,在某一业务的某一分类的预处理时间开始时,将该分类对应的所有纳税人的电子税务局客户端待处理的数据集传至服务端,由服务端的程序将数据集进行加载,启动相关交互程序处理数据集生成客户端需要的结果数据存储待用,完成数据预处理;

其中,某一业务的某一分类的预处理时间选择夜间或者闲暇资源。

作为本发明的一种优选方式,本发明的方法还包括办税行为诊断步骤,是对构建好的纳税人办税行为模型进行评价、诊断,实现纳税人办税行为分类最优化。

进一步的,所述的办税行为诊断具体方法如下:计算sse:

其中,uj为第j簇的质心;

重复执行几次k-means算法,选取sse最小的一次作为最终的聚类结果。

本发明提供的一种基于大数据行为分析的电子税务局数据预处理方法,通过对纳税人的办税行为分析,将涉税业务、纳税人、办税频次、预处理时间分别对应分析,同一涉税业务针对不同纳税人分类群体,根据其办税频次分析进行数据预处理的时间不同,合理将预处理时间进行分流,避免不必要的数据预处理。

附图说明

图1为本发明实施例基于大数据行为分析的电子税务局数据预处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供一种基于大数据行为分析的电子税务局数据预处理方法,充分利用夜间或闲暇时间资源,对电子税务局相关业务数据分流预处理,提高各业务场景的办税效率。

图1为本发明实施例基于大数据行为分析的电子税务局数据预处理方法的流程图,如图1所示,本发明提供的基于大数据行为分析的电子税务局数据预处理方法,包括以下步骤:

步骤101:办税行为分类,针对某一业务将纳税人近一年内每月的办理频次进行提取;利用k-means算法,将纳税人办税行为数据进行聚类,构建出纳税人办税行为模型,以便得到纳税人的办税行为特征,将不同业务下的纳税人进行行为分类;

步骤102:办税行为诊断,对上述步骤构建好的纳税人办税行为模型进行评价、诊断,实现划分效果最优化。

k-means算法评价准则是基于欧几里得距离,使得簇内误差平方和(within-clustersumofsquarederrors,sse)最小;特别地,但是由于sse是一个非凸函数,只能确保局部最优解。通过重复执行几次k-means算法,选取sse最小的一次作为最终的聚类结果。

其中,uj为第j簇的质心。

步骤103:办税行为时间优化,在办税行为分类结果的基础上,将每一类的聚类频次均值分布纳入模型,进一步明确每个分类的集群特征,按照聚类的频次均值将每个分类的批处理时间分为按日批处理、按周批处理、按月批处理等;批处理时间选取方式具体包括:

某一类的频次均值等于0,则不做预处理;进一步地,若只有某几个月的频次等于0,则只对这几个月不做批处理;

某一类的频次均值大于0且小于1,则按月批处理;进一步地,若只有某几个月的频次大于0且小于1,则只在这几个月进行按月批处理;

某一类的频次均值大于1且小于4,则按周批处理;进一步地,若只有某几个月的频次大于1且小于4,则只在这几个月进行按周批处理;

某一类的频次均值大于4,则按日批处理;进一步地,若只有某几个月的频次大于4,则只在这几个月进行按日批处理;

若某一类在每个月的频次均值存在以上四种的混合情况,则对每个月份按照其频次均值分别进行不做批处理、按月批处理、按周批处理、按日批处理。

步骤104:数据预处理,在业务流程梳理的基础上,根据办税行为分析模型的批处理时间分类结果,分别进行数据预处理,具体包括:基于电子税务局业务系统数据,将电子税务局客户端每个业务处理对应的服务端的数据以及程序进行梳理,服务端数据项应用于多个业务,可复用,保证同一个数据的出口一致;根据以上数据批处理的分类,在某一业务的某一分类的预处理时间开始时,将该分类对应的所有纳税人的电子税务局客户端待处理的数据集传至服务端,由服务端的程序将数据集进行加载,启动相关交互程序处理数据集生成客户端需要的结果数据存储待用,完成数据预处理;其中,某一业务的某一分类的预处理时间一般选择夜间或者闲暇资源。

本发明提供的基于大数据行为分析的电子税务局数据预处理技术通过对纳税人的办税行为分析,将涉税业务、纳税人、办税频次、预处理时间分别对应分析,同一涉税业务针对不同纳税人分类群体,根据其办税频次分析进行数据预处理的时间不同,合理将预处理时间进行分流,避免不必要的数据预处理。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1