一种基于纳税人利益关联网络的可疑纳税人识别方法

文档序号:6619784阅读:269来源:国知局
一种基于纳税人利益关联网络的可疑纳税人识别方法
【专利摘要】本发明公开了一种基于纳税人利益关联网络的可疑纳税人识别方法,基于纳税人利益关联网络(TPIN)的拓扑特征识别可疑纳税人。整体工作流程为:首先,对纳税人利益关联网络<V,E>进行拓扑特征的分析。采用Motif方法寻找频繁子图,并根据度中心度和聚集系数拓扑指标寻找正常和可疑纳税人的差异;其次,选择拓扑特征,使用C4.5分类器实验,从而实现自动识别可疑纳税人的功能。本发明的贡献在于:①将纳税人和利益关系作为网络进行关系识别。并将拓扑方法中的Motif、聚集系数、度中心度特性应用于纳税人利益关联网络。②正常和可疑纳税人之间的差异性为检测可疑纳税行为提供可信的方法和依据。
【专利说明】一种基于纳税人利益关联网络的可疑纳税人识别方法

【技术领域】
[0001] 本发明涉及计算机科学与技术中的数据挖掘、自然语言处理、舆情分析、税务应用 领域,具体涉及一种基于纳税人利益关联网络的可疑纳税人识别方法。

【背景技术】
[0002] 现实生活中,企业偷税漏税均采用人工分析的方式,且税务数据跨地区存储存在 很多问题,难以发现纳税人的很多隐式利益关联。对税务数据进行分析,通过税务文档以及 纳税人利益关联网络发现并最终打击可疑纳税人显得很有必要,并成为税务系统分析的难 点。
[0003] 对税务系统的分析中,可疑纳税人和不良纳税行为的检测和分析已有不少研究成 果和专利。专利"电子衡税收监控系统和监控方法",CN101777232A描述了一种电子衡税收 监控方法,包括:由称重显示控制器的称重控制模块获取电子衡的测量读数;称重控制模 块将所述测量读数传送到一电子衡税控装置;电子衡税控装置将测量读数和其统计信息加 密存储在其内部的税控存储器之中;电子衡税控装置将测量读数发送至企业端的称重管理 系统,同时将测量读数数据加密转发到税务端的税控管理服务器;企业端的称重管理系统 产生报税信息并送至税务端的税控管理服务器;税务端的税控管理服务器将来自企业称重 管理系统的所述报税信息和来自电子衡税控装置的信息进行比对,从而进行税收监控。
[0004] 专利"网络生成税务发票方法、发票物联网监管系统及电子图章"CN102117523A介 绍了一种网络生成税务发票方法、发票物联网监管系统及电子图章:由用户的票据财务计 算机向税务管理网络中心申请带有编码的电子税务发票;税务管理网络中心发放带有编码 的电子税务发票;用户在电子税务发票上按发票填写要求,录入交易内容与金额;财务人 员专用电子卡放在发票章电子印台的台面上,读取财务人员电子卡信息;票据财务计算机 在电子税务发票上自动生成双方交易信息及财务人员印章;票据财务计算机通过税控发票 打印机打印出纸质税务发票;将纸质税务发票在放在发票章电子印台台面上,加盖单位发 票电子图章;发票电子图章的信息送给票据财务计算机;票据财务计算机在电子税务发票 上自动增加发票专用章图,并向由税务管理网络中心备案管理。


【发明内容】

[0005] 本发明的目的在于提供一种基于纳税人利益关联网络的可疑纳税人识别方法,该 方法根据纳税人之间的关系构建利益关联网络(TPIN),通过对网络结构和特征的分析识别 可疑纳税人。
[0006] 本发明是通过以下技术方案来实现:
[0007] -种基于纳税人利益关联网络的可疑纳税人识别方法,包括以下步骤:
[0008] 步骤一:对纳税人利益关联网络进行拓扑特征分析
[0009] 首先,对纳税人利益关系网络进行3-Motif分析,得到13维Motif特征向量;然后 采用度中心度和聚集系数分别进行拓扑特征分析,得到另外两维特征向量;最终构建得到 15维表示网络节点的特征向量;
[0010] 步骤二:分类识别可疑纳税人
[0011] 首先,对纳税人利益关联网络的节点类型进行人工标注,为判别正常和可疑纳税 人提供类标签;
[0012] 其次,对步骤一构建得到的15维特征向量,采用C4. 5分类器对不同网络的特征进 行分类;
[0013] 最后,将分类结果与人工标注结果进行比对,使用准确率、召回率和F值衡量结 果,识别出可疑纳税人。
[0014] 步骤一中所述的对纳税人利益关联网络进行拓扑特征分析,构建得到15维特征 向量,具体包括以下步骤:
[0015] 1)定义纳税人利益关联网络TPIN =< V,E > ;
[0016] 其中,V = {vjn,表示节点集合,每个节点表示一个纳税人;Eg「><「,E表示 ΤΡΙΝ中所有边的集合,eij e Ε表示节点Vi和节点Vj之间存在利益关联;
[0017] 2)采用3-Motif方法找出频繁出现的3节点子图,并通过Z-Score值来衡量每一 种Motif的显著性,定义Motif显著性的计算方法为:
[0018] z-scoreLa ^: = 1,2,...13 (1)
[0019] 其中,freqk指第k种Motif在TPIN中出现的频率;α是与TPIN同节点规模的随 机网络中第k种Motif出现频率的期望值;β是与TPIN同节点规模的随机网络中第k种 Motif出现的标准差;
[0020] 3)纳税人利益关联网络一共有13种3-Motif模式,节点i属于相同或不同的 Motif子图,定义节点i的特征为:
[0021] _[0, 节点不属于第好中Motif子图 7 ,节点属于第好中Moti仔图(=U,···,13 (2)
[0022] 其中,Mik表示节点i是否属于第k个子图模式;根据节点i的13维Motif特征值 表示出该节点的13维Motif特征向量为(M n,Mi2, . . .,Mil3);
[0023] 4)采用度中心度进行拓扑特征分析,得到1维的度中心度特征向量,如式(3): C (v卜她)
[0024] " * (3) /=1
[0025] 其中,Cdeg(vD是指节点Vi的度中心度;deg(ν)是指节点Vi的度;
[0026] 5)采用聚集系数进行拓扑特征分析,得到1维的聚集系数特征向量,如式(4):
[0027] C(Vi)= ^ -dH、 (4) jxC/x(y,. ) + 0,(!,)
[0028] 其中,G, (Vi)表示TPIN中包含Vi的闭三点组的数量,G- (Vi)表示TPIN中包含Vi 的开三点组的数量,闭三点组指网络中任意两两相连的三个节点,开三点组指网络中被两 条边连接起来的三个节点;
[0029] 6)使用13维的Motif特征向量、1维的度中心度特征向量及1维的聚集系数特征 向量形成15维表示网络节点i的特征向量,得到^^ 2,...^13,(:(\),(^?),其中, k = 1,2,. . .,13,Mik表示节点i是否属于第k个子图模式;C(Vi)表示聚集系数值;Ch^Vi) 表示度中心度的大小。
[0030] 与现有技术相比,本发明具有以下有益的技术效果:
[0031] 本发明方法从大量的税务文档以及纳税人利益关联网络中识别能够有效区分正 常纳税人和可疑纳税人的不同特征。首先,对纳税人的利益关联网络进行拓扑特征分析,根 据Motif发现网络中不同的频繁子图,并根据子图特性挖掘不同纳税人的行为规律,同时, 采用度中心度和聚集系数刻画纳税人的不同。其次,根据这些特征差异进行选择,并采用分 类算法对正常和可疑纳税人分类。该方法利用纳税人利益关系的拓扑特征,挖掘纳税人之 间的不同类型。不仅简化了复杂的纳税人利益关系网络,同时提升了正常和可疑纳税人识 别并区分的精度和效率。本发明的贡献在于:①将纳税人和利益关系作为网络进行关系识 另IJ。并将拓扑方法中的Motif、聚集系数、度中心度特性应用于纳税人利益关联网络。②正 常和可疑纳税人之间的差异性为检测可疑纳税行为提供可信的方法和依据。

【专利附图】

【附图说明】
[0032] 图1为是13种3-Motif模式示意图。

【具体实施方式】
[0033] 下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而 不是限定。
[0034] 基于纳税人利益关联网络的可疑纳税人识别方法是本专利进行纳税人关系分析 以及偷税漏税识别的基础。
[0035] 本发明方法的具体实施方案,分为如下步骤:
[0036] 1、对纳税人利益关联网络进行拓扑特征分析
[0037] 包括纳税人利益关联网络Motif特性、度中心度及聚类系数的拓扑特征分析;
[0038] 2、基于不同特征的正常和可疑纳税人分类。
[0039] 具体描述如下:
[0040] 1、纳税人利益关联网络的拓扑特性分析:
[0041] 纳税人利益关联网络TPIN =< V,E >,V = {vjn表示节点集合,每个节点表示一 个纳税人;E d?^,E表示TPIN中所有边的集合,eij e E表示节点Vi和节点Vj之间存 在利益关联。作为一种复杂网络,TPIN具有一般网络特性。因此正常和可疑纳税人在聚集 系数等复杂网络参数上呈现不同的特征。本发明采用拓扑特征如下:
[0042] 第一:Motif特性分析
[0043] 现实的关系网络中,实体和实体间的关系并不单一,每种关系都构成一个关系网 络,这种关系网络的集合称为异质网络。纳税人利益关联网络存在不同的节点和边类型,也 是一种异质网络。异质网络中存在不同关系链,而关系链的分析类似于数据挖掘中关联规 则的发现,一般是在大量的关系链中找出一些频繁的或者有意义的模式,用来分析网络中 隐藏的有意义的信息。
[0044] Motif定义为一种网络连接方式,即一种子图。这种子图在真实网络中大量出现的 次数远远高于同规模随机网络中的次数,这种特征反应了网络微观结构的组成,进而突出 该网络子图的独特性。
[0045] 本发明对3 - Motif的分析发现网络中独有的节点模式,对研究纳税人利益关联 网络的潜在关系和形成模式具有重要意义。
[0046] 复杂网络中有很多不同类型的子图模式,但并不是网络中频繁出现的子图都是 3-Motif,而是要与同节点规模的随机网络比较来判断。一般情况下,通过计算Z-Score值 来衡量Motif的显著性。Z-Score的分值体现了异质网络与同规模随机网络中频繁子图出 现的频率差异。频繁子图的Z-Score分值越大,说明该频繁子图越是独特,越能作为局部特 征。
[0047] 这里我们定义一种Motif的显著性计算方法为:
[0048] z_scorek = .f!Lq% a ^ = 1,2,...13 Q)
[0049] 其中,freqk指第k种Motif在ΤΡΙΝ中出现的频率;α是与ΤΡΙΝ同节点规模的随 机网络中第k种Motif出现频率的期望值;β是与ΤΡΙΝ同节点规模的随机网络中第k种 Motif出现的标准差;Z-Score的分值体现了异质网络与同规模随机网络中Motif出现的频 率差异:
[0050] 采用已有的成熟分析工具FANM0D生成大量的同规模随机网络数据。该工具能够 较快的生成指定个数的随机网络,对不同类型的节点进行着色区分。
[0051] 纳税人利益关联网络共有13种3-Motif模式,具体如附图1所示。节点i可能同 时属于不同的Motif子图,因此,定义节点i的Motif特征为 :
[0052]

【权利要求】
1. 一种基于纳税人利益关联网络的可疑纳税人识别方法,其特征在于,包括以下步 骤: 步骤一:对纳税人利益关联网络进行拓扑特征分析 首先,对纳税人利益关系网络进行3-Motif分析,得到13维Motif特征向量;然后采用 度中心度和聚集系数分别进行拓扑特征分析,得到另外两维特征向量;最终构建得到15维 表示网络节点的特征向量; 步骤二:分类识别可疑纳税人 首先,对纳税人利益关联网络的节点类型进行人工标注,为判别正常和可疑纳税人提 供类标签; 其次,对步骤一构建得到的15维特征向量,采用C4. 5分类器对不同网络的特征进行分 类; 最后,将分类结果与人工标注结果进行比对,使用准确率、召回率和F值衡量结果,识 别出可疑纳税人。
2. 根据权利要求1所述的一种基于纳税人利益关联网络的可疑纳税人识别方法,其特 征在于,步骤一中所述的对纳税人利益关联网络进行拓扑特征分析,构建得到15维特征向 量,具体包括以下步骤: 1) 定义纳税人利益关联网络TPIN = < V,E > ; 其中,V = {Vi}n,表示节点集合,每个节点表示一个纳税人;,E表示TPIN中 所有边的集合,eg e Ε表示节点Vi和节点Vj之间存在利益关联; 2) 采用3-Motif方法找出频繁出现的3节点子图,并通过Z-Score值来衡量每一种 Motif的显著性,定义Motif显著性的计算方法为:
其中,freqk指第k种Motif在TPIN中出现的频率;α是与TPIN同节点规模的随机网 络中第k种Motif出现频率的期望值;β是与ΤΡΙΝ同节点规模的随机网络中第k种Motif 出现的标准差; 3) 纳税人利益关联网络一共有13种3-Motif模式,节点i属于相同或不同的Motif子 图,定义节点i的特征为:
其中,Mik表示节点i是否属于第k个子图模式;根据节点i的13维Motif特征值表示 出该节点的13维Motif特征向量为(Mn,Mi2,…,Mil3); 4) 采用度中心度进行拓扑特征分析,得到1维的度中心度特征向量,如式(3): (y)= deg(v,) ^degV^V η κ ? \ Zdeg(v,) ⑶ /=1 其中,是指节点Vi的度中心度;degh)是指节点Vi的度; 5) 采用聚集系数进行拓扑特征分析,得到1维的聚集系数特征向量,如式(4): C(v;) =--3χ〇λ(1;/)-- (4) 其中,G, (Vi)表示ΤΡΙΝ中包含Vi的闭三点组的数量,G-(Vi)表示ΤΡΙΝ中包含 Vi的开 三点组的数量,闭三点组指网络中任意两两相连的三个节点,开三点组指网络中被两条边 连接起来的三个节点; 6)使用13维的Motif特征向量、1维的度中心度特征向量及1维的聚集系数特征向量 形成15维表示网络节点1的特征向量,得到%1^2,...^13,(:(\),(^?),其中,1^ = 1,2,. . .,13,Mik表示节点i是否属于第k个子图模式;C(Vi)表示聚集系数值;表示 度中心度的大小。
【文档编号】G06Q40/00GK104103011SQ201410328391
【公开日】2014年10月15日 申请日期:2014年7月10日 优先权日:2014年7月10日
【发明者】刘均, 李晨玮, 郑庆华, 张未展, 吕彦章 申请人:西安交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1