一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法_3

文档序号:9811173阅读:来源:国知局
0的节点,止于出度为0的节点或 首次到达的某条交易边的终止节点。
[0105] -条模式可以用以下两种形式表示:
[0106] 形式一 :(Ai,A2,...,Ar);
[0107] 形式二:(Αι,A2,…,Ar)-Cs;
[0108] 其中,(Ar,r=l,2,…,NP)表示网络中的第r个节点,(C s,S = l,2,…,Nc)表示第S个 企业节点,箭头表示交易关系,Np表示网络中的节点总数,Nc表示网络中的企业节点总数,显 然有Nc〈Np; (Ai,A2,···,Ar)称为前件;Cs称为后件。
[0109 ](二)基于着色图的纳税人利益关联网络的构建
[0110] 纳税人利益关联网络表示为四元组:TPIIN=(V,E,VColor,EColor)<^*V={v P p=l,···,NP}表示节点集合,其中NP表示网络中的节点个数;E表示图中所有存在边的集合, 且令E = {eM} = {(vP,Vq) | 0<p,q < NP},其中eM = (vP,Vq)表示存在从第p个节点到第q个节点 的有向连线;节点着色集合表示为VCo 1 or = {LC,CC,BC},其中LC表示法人代表颜色;CC表示 企业颜色;BC表示董事颜色;通过VColor中的颜色对TPIIN中的V节点分类可得:V = L U C U 8,其中1^={¥1|1 = 1,'",见,汍〈化}表示所有标记颜色为]^的法人代表节点,汍表示网络中的 法人代表节点的个数,C= {ν。I c = l,···,Nc,N(;〈NP}表示所有标记颜色为CC的企业节点,Nc表 示网络中的企业节点的个数,B = {vb | b = 1,…,Nb,Nb〈Np }表示所有标记颜色为BC的董事节 点,Nb表示网络中的董事节点的个数,则有Nl + Nc + Nb = NP;有向边着色集合表示为 EC、ol〇f=iC:i,//H/H7:^.,其中cl表示法人代表与企业之间的单向实际控制人关 系;/?表示董事与企业之间的单向控股关系;&表示企业之间的单向控股关系;/$表示法 人代表之间双向的亲属关系;表示多个董事间的双向互锁关系;2?表示企业间的单向交 易关系。
[0111] -个TPIIN的图例说明及实例如图2所示,结合图2(a)中的图例说明,由图2(b)可 知:L1和L2表示法人代表,B1和B2表示董事,C1、C2和C3表示企业,其中L1与L2之间存在亲属 关系遍;B1和B2之间存在互锁关系与C1、L2与C1之间存在实际控制人关系d 与 C3、B2与C3之间存在董事控股关系//}? ;C1与C3之间存在企业控股关系/^ ^1与C2,C2与C3 之间存在交易关系^上述这些节点和它们之间的边组成了一个简单的纳税人利益关联 网络。
[0112] 基于着色图的纳税人利益关联网络的构建是采用多网融合方法来生成一个纳税 人利益关联网络,如图3所示。该方法具体步骤如下:
[0113] Stepl:从证监会、公安户籍部门、税务局等信息源获得的相关税务信息中,提取出 所有的企业C、法人代表L、董事B的信息以及它们之间不同的关系信息,具体包括:企业之间 的控股关系/Xr和交易关系法人代表与企业之间的实际控制人关系董事与企业之 间的控股关系///?,法人代表之间的亲属关系/i ,以及董事之间的互锁关系/1.;
[0114] Step2:利用上述6种同构关系分别构建相关的同构关系网络,具体构造过程如下:
[0115] Step2.1:对于C中的所有企业节点,在控股企业和被控股企业之间添加单向控股 边说,形成企业控股关系网络IN-Net;
[0116] Step2.2:对于C中的所有企业节点,在卖出企业和购入企业之间添加单向交易边 7^·.,.形成交易关系网络TR-Net;
[0117] Step2.3:对于L中的所有法人代表节点和C中的所有企业节点,若某个法人代表节 点和某个企业节点之间存在单向实际控制人关系,则添加单向实际控制人边形成实际 控制人关系网络CL-Net;
[0118] Step2.4:对于B中的所有董事节点和C中的所有企业节点,若某个董事节点和某个 企业节点之间存在单向控股关系,则添加单向控股边,形成董事控股关系网络HR-Net;
[0119] Step2.5:对于L中的所有法人代表节点,在存在亲属关系的两个法人代表节点之 间添加双向亲属关系边$ ·形成亲属关系网络IR-Net;
[0120] Step2.6:对于B中的所有董事节点,在存在互锁关系的两个董事节点之间添加双 向互锁关系边£,形成互锁关系网络IL-Net;
[0121] Step3:合并Step2中生成的六种同构关系网络,即将上述六种同构关系网络的所 有节点与边的信息进行保留并生成在同一张网络中,所生成的融合网络即构成了一个纳税 人利益关联网络TPIIN,即TPIIN= IN-Net U TR-Net U CL-Net U HR-Net U IR-Net U IL-Net。
[0122] 本发明对于纳税人利益关联网络的构建也与CN103383767B有所不同。 CN103383767B中采用的是整体构建的方法,首先生成所有的节点,然后添加所有的关系边; 而本发明采用分布式构建,首先分别构建具有相同关系的同构关系网络,然后融合所有的 同构关系网络即为纳税人利益关联网络。
[0123] (三)基于强连通分量的纳税人利益关联网络的约减
[0124] 本发明利用Tarjan算法求出有向图TPIIN中的所有强连通分量。Tarjan算法是基 于图的深度优先搜索(Depth-First Search,DFS)的算法,从图中任意选择一个节点开始进 行DFS(如果DFS结束后图中仍然有未遍历过的节点,则需要从中任选一个节点再次进行 DFS)。如果图中的某个节点已经被遍历过,则再次进行DFS时将不再对其进行遍历。在DFS过 程中,把当前搜索树中未处理过的节点存入一个堆栈,当从搜索树的子树返回至一个节点 时,判断该节点是否是某一个强连通分量的根节点,如果是,则删除堆栈中的该节点,那么, 比这个节点先出栈并且还不存在于其他的强连通分量中的节点就构成了该节点所在的强 连通分量。
[0125] 依据以下步骤对纳税人利益关联网络TPIIN进行逐次约减操作:
[0126] Stepl:将TPIIN中法人代表与企业之间的控制人关系、董事与企业之间的控股关 系与企业之间的控股关系统一归约为"利益控制关系",用表不,即<.因 此,由上述三种利益控制关系所分别构成的三种同构关系网络,包括企业控股关系网络ΙΝ-Net、实际控制人关系网络CL-Net以及董事控股关系网络HR-Net,也合并为一个同构关系网 络,称为"利益控制关系网络",用I C-Net表示,即IC-Net = CL-Net U HR-Net U IN-Net,则 TPIIN简化为约减纳税人利益关联网络,用STPIIN表示,即STPIIN= IC-Net U IR-Net U IL-Net U TR-Net;
[0127] Step2:对于亲属关系网络IR-Net,利用Tarjan算法找到IR-Net中所有的强连通分 量,这些强连通分量的集合表示为IR-Scc,然后,基于IR-Scc中的强连通分量在STPIIN上进 行亲属关系聚合操作,STPIIN变为约减后的I型纳税人利益关联网络,用STPIIN-Ι表示;
[0128] Step3:对于互锁关系网络IL-Net,利用Tarjan算法找到其中所有的强连通分量, 这些强连通分量的集合表示为IL-Scc,然后,基于IL-Scc中的强连通分量在STPIIN-Ι上进 行互锁关系聚合操作,STPIIN-Ι变为约减后的II型纳税人利益关联网络,用STPIIN-Π 表 示;
[0129] Step4:对于利益控制关系网络IC-Net,利用Tarjan算法找到其中所有的强连通分 量,这些强连通分量的集合表示为IC-Scc,然后,基于IC-Scc中的强连通分量在STPIIN-II 上进行利益控制关系聚合操作,STPIIN-Π 变为约减后的III型纳税人利益关联网络,用 STPIIN-ΠΙ 表示;
[0130] 经过上述步骤,由纳税人利益关联网络TPIIN得到网络TN,即TN=STPIIN-II I。
[0131] 其中,
[0132] a)采用Tarjan算法挖掘图中的所有强连通分量的具体步骤如下:
[0133] Stepl:将图中所有的节点的颜色都初始化白色,并清空栈;
[0134] Step2:任意找到一个白色的节点X,并令k = l;
[0135] Step3:给节点X-个时间戳DFN[x],令Low[x]=DFN[x],将节点圧入栈中,并将该 节点标记为灰色;
[0136] Step4:遍历节点X的每条边(x,y)。若color[y]是白色,转Step3,并令Low[x] =min (Low[y],Low[x]);如果color[y]是灰色,令Low[x]=min(Low[x],DFN[y]),转Step5;如果 color [x]是黑色,不作任何处理;
[0?37] Step5:把节点的颜色标记为黑色,如果Low[x] =DFN[x],就把从栈顶到节点X间的 元素弹出,存入集合SCC(k)中,令k = k+l;
[0138] Step6:重复Step2到Step5,直到图中没有白色节点。
[0139] 其中,
[0140] DFN[x]--指节点X被遍历的时间;
[0141] Low[x]--指在搜索树中,节点X和其子孙可以访问到的最早的祖先,Low[x]= min(DFN[x],DFN[y],Low[z]),其中y是X的祖先(把子孙连到祖先的边叫后向边),z是X的子 女;
[0142] color[x]一一用于标记节点x的状态,白色表示还没到搜索到,灰色表示正在被搜 索,黑色表示处理完毕;
[0143] SCC--所有的强连通分量的集合,SCC = {SCC(k) I k = 1,2,…,Nscc},其中Nscc表示 强连通分量的个数。
[0144] b)亲属关系聚合操作的过程是:
[0145] 由于亲属关系网络强连通分量集合IR-Scc中的每个强连通分量中的法人代表节 点之间存在亲属关系,相应亲属关系边的颜色标记为备,则在网络STPIIN中,将每个强连通 分量所包含的多个法人代表节点聚合为一个新生法人代表聚合节点,并将该新生节点 的颜色标记为1/,同时,删除这些聚合的法人代表节点之间的亲属关系边;此外,重新构 建与这些聚合的法人代表节点均存在共同连接的企业节点和新生法人代表聚合节点V,的 边,将原有连接强连通分量集合IR-Scc中的每个强连通分量的连接边重新连接到v^。
[0146] 如图4所示,在图4(a)中,由于节点L1和L2为一个强连通分量,且它们之间存在亲 属关系,因此对其进行约减,得到图4(b),其中1/为L1和L2约减后的节点。
[0147] c)互锁关系聚合操作的过程是:
[0148] 由于互锁关系网络强连通分量集合IL-Scc中的每个强连通分量中的董事节点之 间存在互锁关系边1,则在网络STPIIN-I中,将每个强连通分量所包含的多个董事节点聚 合为一个新生董事聚合节点,并将该新生节点的颜色标记为V,同时,删除这些聚合 的董事节点间的互锁关系边;此外,重新构建与这些聚合的董事节点均存在共同连接的企 业节点和新生董事聚合节点的边;在将原有连接强连通分量集合IL-Scc中的每个强连 通分量的连接边重新连接到的同时,若存在指向外部同一节点的不同边,则分别按照颜 色聚合为不同颜色的边(每种颜色只保留一条)。
[0149] 如图5所示,在图5(a)中,由于董事节点B1、B2、B3为一个强连通分量,且它们之间 存在互锁关系,因此对其进行约减,得到图5(b),其中V为B1、B2、B3约减后的节点。
[0150] d)利益控制关系聚合操作的过程是:
[0151] 由于利益控制关系网络强连通分量集合IC-Scc中的每个强连通分量中的企业节 点之间存在利益控制关系边/^,则在网络STPIIN-II中,将每个强连通分量所包含的多个 企业节点聚合为一个新生企业聚合节点Vc/,并将该新生节点Vc/的颜色标记为C,同时,删 除这些聚合的企业节点间的利益控制关系边;此外,重新构建与这些聚合的企业节点均存 在共同连接的其他节点和新生企业聚合节点Vc/的边;在将原有连接强连通分量集合IC-Scc中的每个强连通分量的连接边重新连接到Vc/的同时,若存在指向外部同一节点的不同 边,则分别按照颜色聚合为不同颜色的边(每种颜色只保留一条)。
[0152] 如图6所示,在图6(a)中,由于企业节点04、05、06、07为一个强连通分量,且它们之 间存在利益控制关系,因此对其进行约减,得到图6 (b),其中为C4、C5、C6、C7约减后的节 点。
[0153] 如图7所示,经过上述的计算步骤,图7(a)可以约减为图7(b)。首先,把图7(a)中的 企业之间的控股关系、法人代表与企业之间的控制人关系、董事与企业之间的控股关系统 一化简为利益控制关系。其次,基于强连通分量对网络进行约减,其中,法人代表节点Ln和 L12之间存在亲属关系且为强连通分量,对其进行亲属关系聚合操作,可以聚合为L1;董事节 点Bn和B 12之间存在互锁关系且为强连通分量,对其进行互锁关系聚合操作,可以聚合为 B1;企业节点Cn,C12,C13之间存在利益控制关系且为强连通分量,对其进行利益控制关系聚 合操作,可以聚合为C1,最终得到图7 (b)。
[0154] (四)利益前件网络中的所有极大弱连通子图的发现
[0155] ①生成利益前件网络(Ante-TN)和交易关系网络(Tr-TN)
[0156] 对于网络TN,将其中除交易关系边之外的利益控制关系边及相应的法人代表、董 事、企业节点组成的网络称为利益前件网络,用Ante-TN表示,将所有的交易关系边及相应 的企业节点组成的网络称为交易关系网络,用Tr-TN表示。为方便起见,所有网络均用边链 表的形式表不。
[0157] 以图7(b)为例,利益前件网络Ante-TN表示为{(LI,C1),(LI,C2),(LI,C4),(L2, C3),(L3,C5),(L4,C6),(L4,C7),(B1,C7),(B1,C8),(L5,C8),(Cl,C3),(C2,C5)};交易关系 网络 Tr-TN 表示为{(C2,C4),(C3,C5),(C6,C7),(C7,C8),(C6,C8)}。
[0158] ②在Ante-TN中发现所有的极大弱连通子图及其对应的交易边
[0159] 对于上述①中生成的利益前件网络Ante-TN,利用改进的深度优先搜索算法寻找 其中所有的极大弱连通子图,这些极大弱连通子图的集合表示为subgraph ={ subgraph (i) i = l, 2,…,num}中,其中num表示所发现的极大弱连通子图的个数;同时,利用上述①中生 成的交易关系网络Tr-TN,寻找每个极大弱连通子图subgraph( i)中的所有交易关系边,这 些交易关系边的集合表示为trade= {trade(i) | i = l,2,…,num} 〇 [0160]上述算法的具体步骤如下:
[0161] Stepl:搜索Ante-TN中的所有入度为0的节点,存入集合node-0-L中;
[0162] Step2:访问node-0-L中的任意一个节点V,并令i = l;
[0163] Step3:得到Ante-TN所对应的无向利益前件网络,用Undirected-Ante-TN表示;
[0164] Step4:在Undirected-Ante-ΤΝ中,从V的任一邻接点W出发,若W属于node-O-L,则 从node _0_L中移除W;
[0165] Step5:若W未被访问过,则访问之,转Step4;若W已被访问,转Step6;
[0166] Step6:构建从V到W方向的有向边ew=(V,W),若evw属于Ante-TN,则将evw存入 subgraph(i)中,若evw属于Tr-TN,则将evw存入trade(i)中;若evw既不属于Ante-TN也不属于 Tr-TN,则构建从W至ijV方向的边ewv= (W,V),若ewv属于Ante-TN,则将ewv存入subgraph(i)中, 若ewv属于Tr-TN,则将ewv存入trade(i)中,并构建二元组(subgraph(i),t
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1