税收可疑数据的提取方法及系统的制作方法

文档序号:9922417阅读:476来源:国知局
税收可疑数据的提取方法及系统的制作方法
【技术领域】
[0001]本发明涉及数据处理技术领域,具体涉及一种提取税收可疑数据的方法及系统。
【背景技术】
[0002]目前,随着税收业务的进一步扩大,税收业务量不断增加。为全面推行税收执法责任制,进一步发挥信息化手段在执法督察中的作用,构建人机结合的税收执法责任考核追究机制,强化对实体法税收执法行为的监督,完成了疑点信息库的开发。自疑点信息库运行以来,2011年查处实体性执法问题71万多个,各地对查出的问题通过问题整改、责任追究等措施,促进了基层规范执法,维护了税收法律法规的权威。但是,现在的做法大多是在已有的疑点信息库中通过人工进行筛查以确认真正的可疑数据,花费时间长,效率较低,且准确率亦较低。

【发明内容】

[0003]本发明实施例所要解决的技术问题在于提供了一种能更为准确的找出税收可疑数据的方法,包括:
[0004]数据准备:将原始税收数据样本分割成若干数据子集,并将不同的数据子集提交给各SOM网络进行同时学习;各个并行的SOM网络对其分得的数据子集进行学习直至稳定;利用各个SOM的学习结果进行集中学习进而得到最终学习结果;
[0005]可疑数据分类器的训练:训练时所采用的算法为PSOM算法及SVM算法并用;所采用的输入为训练集T = [X ;Y],其中矩阵X的列Χ]表示第i个特征中的第j个的值,每一行X1是第i个特征的向量,元素I,表示第i个特征的类标签;通过并用PSOM算法及SVM算法对所输入的训练集T = [X ;Y]进行运算后,得到的输出包括两个:第一个为X’,即矩阵X经过算法PSOM训练结果的子集;第二个为PSOM-SVM分类机;以及
[0006]将要分类的数据输入已经训练好的分类器,得到分类结果,其中属于错误类别的数据就是最后需要输出的疑点数据,即被作为是税收可疑数据。
[0007]进一步的,所述步骤“数据准备”中,利用以往存储的正确数据和错误数据作为训练样本。
[0008]其中,根据税收业务的实际情况,针对不同的税收业务,需要进行不同的关键维度提取,所述关键维度包括税收业务样本的发生时间、宽限日期、用户税款、应补税金、滞纳金及税务机关。
[0009]进一步的,所述步骤“可疑数据分类器的训练”包括:
[0010]步骤S210:将数据集X按照分类或者随机分割成η个子集X1;
[0011]步骤S220:利用矩阵S0M,并且M ^乍为训练神经元的集合;
[0012]步骤S230:对于神经元HiiG Mi找到使Iiii是最佳匹配单元的特征集,设f ^是…在子集X1中的熟练度;
[0013]步骤S240:对于每个类子集X1,设Nj是所有满足f # t条件神经元η郝集合,其中t是阈值;
[0014]步骤S250:对于每一个类重复步骤S230到步骤S240以获得新的训练集X’,其中X,= [N1U...U NJ ;
[0015]步骤S260:用X’再次集中训练S0M,将M’作为神经元集合;
[0016]步骤S270:对于神经元Hi1G M’,找到使Hi1是最佳匹配单元的的特征集,设f ^是!!^在C1中的熟练度;
[0017]步骤S280:对于每个类Cj,设N;是所有满足匕彡t条件神经元n s的集合,其中t是阈值;
[0018]步骤S290:对于集合N/,找到他所对应类别为Cj的最佳匹配单元S / ;
[0019]步骤S291:对于每一个类重复步骤S230到步骤S250以获得新的训练集X",其中X" = [S1' U...U S;];以及
[0020]步骤S292:用X"和所对应的类别标签Y’训练SVM。
[0021]其中,步骤S280 中,t = I。
[0022]本发明还提供了一种税收可疑数据的提取系统,包括:
[0023]数据压缩单元,用于对原始税收收据进行压缩;
[0024]分类器单元,用于对输入的训练集进行运算,以得到税收可疑数据分类器;以及
[0025]可疑数据输出单元,用于根据得到的税收可疑数据分类器将税收数据进行分类,并将其中属于错误类别的数据作为税收可疑数据。
[0026]其中,所述数据压缩单元包括子集分割模块及学习运算模块,所述子集分割模块用于将原始税收数据分割成若干数据子集;所述学习运算模块用于分布式学习及集中学习,其中分布式学习指对各个并行的SOM网络所分得的数据子集进行学习直至稳定,集中学习指利用各个SOM的学习结果进行集中学习进而得到最终学习结果。
[0027]其中,所述子集分割模块在将原始税收数据分割成若干数据子集时,根据税收业务的实际情况,针对不同的税收业务,需要进行不同的关键维度提取,所述关键维度包括税收业务样本的发生时间、宽限日期、用户税款、应补税金、滞纳金及税务机关。
[0028]其中,所述分类器单元包括输入模块、训练运算模块以及输出模块;所述输入模块用于输入训练集T = [X ;Y],其中矩阵X的列Χ]表示第i个特征中的第j个的值,每一行X ,是第i个特征的向量,元素Y1表示第i个特征的类标签;所述训练运算模块用于通过并用PSOM算法及SVM算法对由所述输入模块所输入的训练集进行运算。
[0029]上述税收可疑数据提取方法及系统利用了税收执法系统中大量的历史数据和典型违法数据进行神经网络的训练,获得分类效果良好的分类器。通过不断的调优,最后得到准确的分类效果,精确无误的提取出税收执法过程中的违法样本,尤其是典型样本。通过这种方法能够有效地提高税收疑点数据的准确率,有利于找出典型的税收违法行为,提高疑点信息系统的警示作用,有利于督促基层税收执法人员依法进行税收工作,推进税收工作的顺利进行。
【附图说明】
[0030]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
[0031]图1-图4是本发明税收可疑数据的提取方法的较佳实施方式的流程图。
[0032]图5是本发明税收可疑数据的提取系统的较佳实施方式的方框图。
【具体实施方式】
[0033]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0034]首先,在对实施例进行描述之前,有必要对本文中出现的一些术语进行解释。例如:
[0035]本文中若出现使用“第一”、“第二”等术语来描述各种元件,但是这些元件不应当由这些术语所限制。这些术语仅用来区分一个元件和另一个元件。因此,“第一”元件也可以被称为“第二”元件而不偏离本发明的教导。
[0036]另外,应当理解的是,当提及一元件“连接”或者“联接”到另一元件时,其可以直接地连接或直接地联接到另一元件或者也可以存在中间元件。相反地,当提及一元件“直接地连接”或“直接地联接”到另一元件时,则不存在中间元件。
[0037]在本文中出现的各种术语仅仅用于描述具体的实施方式的目的而无意作为对本发明的限定。除非上下文另外清楚地指出,则单数形式意图也包括复数形式。
[0038]当在本说明书中使用术语“包括”和/或“包括有”时,这些术语指明了所述特征、整体、步骤、操作、元件和/或部件的存在,但是也不排除一个以上其他特征、整体、步骤、操作、
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1