一种基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测方法_2

文档序号:9811173阅读:来源:国知局
对<rooti,oldPatternBaseList>,其中, oldPatternBaseList为同一个键所对应的模式的集合,合并后的值传给Reducer2任务的方 法函数,执行对应的算法;
[0052] Step5:调用Reducer2任务的方法函数遍历所有输入的〈rooti, oldPatternBaseList〉,对于 oldPatternBaseList 中的每个模式,包括 oldPatternBasel和 〇1(1?31^61'111^862,删掉其中的根节点1'0〇1^,生成模式(41,,",41〇和(41,",41〇4¥,分别用 patternBasel 与 patternBase2 表不,均存入模式列表 patternBaseList 中;
[0053] ③生成键值对列表
[0054] Stepl :Maper3端将第2个MapReduce过程输出的模式列表patternBaseList按照 Hadoop分布式文件系统的块大小划分为M3个分片,每个分片包含的模式的个数为mi = N3i/ M3,其中N3i为patternBaseList中的模式的总数,M3为Maper3任务的个数,然后,作业调度器 Job3将每个分片分别交给其对应的一个Maper3任务进行处理;
[0055] Step2:调用Maper3任务的方法函数提取每个模式patternBase的前件中的所有元 素(41广_,41〇及后件元素¥分别作为键,生成沁个键/值对〈4^31^61'118386>,'",〈八1·, patternBase〉,〈V,patternBase〉,其中Νι为patternBase中的节点个数,将这些键/值对存 入集合keyValuesList3中,keyValuesList3暂时放在本地的内存缓冲区,若缓冲区存满,贝1J 将缓冲区的数据写入本地创建的溢写文件中;
[0056] Step3:对于keyValuesList3中的所有键/值对,首先在本地进行合并,并按键的值 进行排序,然后分区类?&1"1:;[1:;[011613将1^5^3111681^8七3中的键/值对分为1?3个分区,每个分 区包含的键/值对的个数为n32 = N32/R3,其中N32为keyValuesList3中的键/值对的总数,R 3为 Reducer 3任务的个数,每个分区分别交给其对应的一个Reducer 3任务进行处理;
[0057] Step4:ReduCer3任务接收Maper3任务传来的有序数据并顺序读取,将具有相同键 w的键/值对合并为一类,形成新的键/值对<w,newPatternBaseList>,其中, newPatternBaseList为同一个键所对应的所有值的集合,合并后的值传给Reducer3任务的 方法函数,执行对应的算法;
[0058] Step5:调用Reducer3任务的方法函数遍历所有输入的<w, newPatternBaseList〉, 对于newPatternBaseList中的每个模式patternBase,若w为其前件元素,则将patternBase 放入前件列表r_patternBaseList中;若w为其后件元素,则将patternBase放入后件列表v_ patternBaseList中,最后,对每一个键¥生成键/值对〈'\¥,1'_。&1^61'1113&861^81:>或〈'\¥,¥_ patternBaseList);
[0059] ④利用键值对列表进行前件匹配
[ΟΟ?Ο] Stepl :Maper4端将第3个MapReduce过程的输出按照Hadoop分布式文件系统的块 大小划分为M4个分片,每个分片包含的模式的个数为Π 41 = Ν4?/Μ4,其中N41为输入的所有键/ 值对的个数,Μ4为Maper4任务的个数,然后,作业调度器Job4将每个分片分别交给其对应的 一个Maper4任务进行处理;
[0061 ] Step2:对输入的每一个键w调用Maper4任务的方法函数,首先判断其对应的前件 列表:r_patternBaseList和后件列表v_patternBaseList是否均存在,若均存在,则每次从 r_patternBaseLisi^Pv_patte;rnBaseList 中各取出一个模式patternBasel 和 patternBasd进行匹配,直到所有组合匹配完毕;反之,则不考虑该键/值对;其中,上述匹 配原则为:若对应的两个模式patternBasel和patternBase2存在相同的前件元素,贝lj匹配 成功,将patternBasel和patternBase2放入模式二元组(patternBasel,patternBase2)中, 并生成键/值对<w, (patternBasel,patternBase2)>,将这些键/值对存入集合 keyValueSList4中,keyValueSList4暂时放在本地的内存缓冲区,若缓冲区存满,则将缓冲 区的数据写入本地创建的溢写文件中;
[0062] Step3:对于keyValuesList4中的所有键/值对,首先在本地进行合并,并按键的值 进行排序,然后分区类?31"1:;[1:;[011614将1^5^3111681^8丨4中的键/值对分为1?4个分区,每个分 区包含的键/值对的个数为IU2 = N42/R4,其中N42为keyValuesList4中的键/值对的总数,R4为 Reducer4任务的个数,每个分区分别交给其对应的一个Reducer4任务进行处理;
[0063] Step4:Reducer4任务接收Maper4任务传来的有序数据并顺序读取,把具有相同键 的键/值对合并为一类,形成新的键/值对〈w,patternBasePair〉,其中,patternBasePair为 同一个键所对应的所有模式二元组(patternBasel,patternBase2)的集合,合并后的值传 给Reducer4任务的方法函数,执行对应的算法;
[0064] 3七6口5:对输入〈'\¥,口31^61'111^8 6?3;[1'>调用1^(1110 614任务的方法函数,取出 patternBasePair中的二元组(patternBasel,patternBase2),找到patternBase 1 和 patternBase2形成的弱连通子图,将其中包含的所有节点存入集合wccii中,然后将wccii 作为输出存入偷漏税嫌疑群组列表susGroups中,即susGroups= {wccii |ii = l,2,…,p},其 中P表示弱连通子图的数量。
[0065]基于着色图的纳税人利益关联网络的构建中Step2:利用上述6种同构关系分别构 建相关的同构关系网络,具体构造过程如下:
[0066] Step2.1:对于企业C中的所有企业节点,在控股企业和被控股企业之间添加单向 控股边/>*形成企业控股关系网络IN-Net;
[0067] Step2.2:对于企业C中的所有企业节点,在卖出企业和购入企业之间添加单向交 易边77?,形成交易关系网络TR_Net;
[0068] Step2.3:对于法人代表L中的所有法人代表节点和企业C中的所有企业节点,若某 个法人代表节点和某个企业节点之间存在单向实际控制人关系,则添加单向实际控制人边 .CX,形成实际控制人关系网络CL-Net;
[0069] Step2.4:对于董事B中的所有董事节点和企业C中的所有企业节点,若某个董事节 点和某个企业节点之间存在单向控股关系,则添加单向控股?/&,形成董事控股关系网络 HR-Net;
[0070] Step2.5:对于法人代表L中的所有法人代表节点,在存在亲属关系的两个法人代 表节点之间添加双向亲属关系边& ?形成亲属关系网络IR-Net;
[0071] Step2.6:对于董事B中的所有董事节点,在存在互锁关系的两个董事节点之间添 加双向互锁关系边!,形成互锁关系网络IL-Net。
[0072] 基于强连通分量的纳税人利益关联网络的约减中的亲属关系聚合操作、互锁关系 聚合操作与利益控制关系聚合操作具体如下:
[0073] a)亲属关系聚合操作:
[0074]由于亲属关系网络强连通分量集合IR-Scc中的每个强连通分量中的法人代表节 点之间存在亲属关系,相应亲属关系边的颜色标记为&,则在网络STPIIN中,将每个强连 通分量所包含的多个法人代表节点聚合为一个新生法人代表聚合节点,并将该新生节 点^^的颜色标记为1/,同时,删除这些聚合的法人代表节点之间的亲属关系边;此外,重新 构建与这些聚合的法人代表节点均存在共同连接的企业节点和新生法人代表聚合节点 V1' 的边,将原有连接强连通分量集合IR-Scc中的每个强连通分量的连接边重新连接到; [0075] b)互锁关系聚合操作:
[0076]由于互锁关系网络强连通分量集合IL-Scc中的每个强连通分量中的董事节点之 间存在互锁关系边£,则在网络STPIIN-I中,将每个强连通分量所包含的多个董事节点聚 合为一个新生董事聚合节点,并将该新生节点的颜色标记为V,同时,删除这些聚合 的董事节点间的互锁关系边;此外,重新构建与这些聚合的董事节点均存在共同连接的企 业节点和新生董事聚合节点的边;在将原有连接强连通分量集合IL-Scc中的每个强连 通分量的连接边重新连接到的同时,若存在指向外部同一节点的不同边,则分别按照颜 色聚合为不同颜色的边,每种颜色只保留一条;
[0077] c)利益控制关系聚合操作:
[0078]由于利益控制关系网络强连通分量集合IC-Scc中的每个强连通分量中的企业节 点之间存在利益控制关系边f ·,则在网络STPIIN-II中,将每个强连通分量所包含的多个 企业节点聚合为一个新生企业聚合节点Vc/,并将该新生节点Vc/的颜色标记为C,同时,删 除这些聚合的企业节点间的利益控制关系边;此外,重新构建与这些聚合的企业节点均存 在共同连接的其他节点和新生企业聚合节点Vc/的边;在将原有连接强连通分量集合IC-Scc中的每个强连通分量的连接边重新连接到Vc/的同时,若存在指向外部同一节点的不同 边,则分别按照颜色聚合为不同颜色的边,每种颜色只保留一条。
[0079] 构建模式树中Step2中所述的计算subgraph(i)中的每个节点Vm的入度indegreem 和出度outdegreem由以下MapReduce过程实现:
[0080] Step2.1〖MapeV端把subgraph(i)按照Hadoop分布式文件系统的块大小划分为, 个分片,每个分片包含的边的个数为η/ =N//V,其中N/为subgraph(i)中的边的总数, 为MapeV任务的个数,然后,作业调度器Jobl'将每个分片分别交给其对应的一个MapeV任 务进行处理;
[0081 ] Step2.2:对分片中的每条边e = (Vm,vn)调用MapeV任务的方法函数,得到入度为 〇、出度为1的节点vm,以及入度为1、出度为0的节点vn,分别生成键/值对〈Vm,0>、〈 Vm,l>,W 及0",1>、〈%,0>,将入度相关的键/值对〈^,0>和〈%,1>存入入度表丨111(67¥ &111681^8七中, 将出度相关的键/值对〈Vm, 1>和〈Vn,0>存入出度表outKeyValuesList中,inKeyValuesList 和outKeyValuesList暂时存放在本地的内存缓冲区,若缓冲区存满,则将缓冲区的数据写 入本地创建的溢写文件中;
[0082] Step2 · 3:对于 inKeyValuesList和outKeyValuesList中的所有键/值对,首先在本 地进行合并,并按键的值进行排序,然后分区类Partitioned将inKeyValuesList和 outKeyValuesList中的键/值对分为V个分区,每个分区包含的键/值对的个数为/ f,其中N2'为inKeyValuesList或outKeyValuesList中的键/值对的总数,f 为Reducer'任 务的个数,每个分区分别交给其对应的一个ReduceV任务进行处理;
[0083] Step2.4: Reduced任务接收MapeV任务传来的有序数据,顺序读取入度表与出度 表中的数据,并分别将入度表和出度表中具有相同键Vm的键/值对合并为一类,形成新的 键 / 值对〈Vm, VminList〉和〈Vm, VmOUtList〉,其中,VminList和 VmOUtList分别为同一个键 Vm 戶斤 对应的所有入度和出度值的集合,合并后的值传给Reducer 2任务的方法函数,执行对应的 算法;
[0084] Step2 · 5:对同一个键vm所对应的VminList和Vm〇utList调用Reducer'任务的方法 函数,分别将VminList和VmOutList中的所有值相加,得到节点Vm的入度indegreem和出度 outdegreem〇
[0085] 与现有技术相比,本发明具有的有益效果:
[0086] 本发明首先,提出了利用多网融合来构建基于着色图的纳税人利益关联网络的方 法;其次,提出了基于强连通分量的纳税人利益关联网络的约减方法;然后,引入利益前件 网络的概念,在利益前件网络中发现所有的极大弱连通子图,最后,利用多阶段MapReduce 模型,对每个极大弱连通子图及其对应的交易边构建模式树,然后遍历模式树来生成模式 库,进而对模式库中的模式进行两两匹配,找到所有符合匹配原则的模式对,最终生成所有 的纳税人偷漏税嫌疑群组。其中,多阶段MapReduce模型由于采用分布式计算,能够极大地 提高国家税务部门的嫌疑偷漏税分析效率,为国家挽回税务流失的损失。
[0087]本发明提出了利用工商、税务、证监会的数据,结合经济学原理以及多网融合的方 法构建基于着色图的纳税人利益关联网络模型,提出了基于强连通分量的纳税人利益关联 网络的约减方法,然后,引入利益前件网络的概念,找到利益前件网络中的所有极大弱连通 子图,最后,利用多阶段MapReduce模型得到每个极大弱连通子图与其对应的交易边所构成 的网络中的所有纳税人偷漏税嫌疑群组。与现有技术相比,本发明具有以下两方面的优点: 1、多阶段MapReduce模型由于采用分布式计算,能够极大地提高图处理效率,解决了图挖掘 方面存在的模式组合爆炸问题。2、利用模式匹配能够发现任意形状的偷漏税嫌疑群组,解 决了现有技术中的不足。
【附图说明】
[0088]图1为基于多阶段MapReduce模型的纳税人偷漏税嫌疑群组检测流程图。
[0089] 图2为着色图表示的纳税人利益关联网络的图例说明及实例。
[0090] 图3为多网融合示意图。
[0091] 图4为亲属关系聚合操作图例。
[0092] 图5为董事互锁关系聚合操作图例。
[0093] 图6为利益控制关系聚合操作图例。
[0094] 图7为纳税人利益关联网络约减与偷漏税嫌疑群组判定图例。其中(a)为未约减的 纳税人利益关联网络,(b)为约减后的纳税人利益关联网络。
[0095]图8为实现纳税人嫌疑群组发现的4个MapReduce过程。
【具体实施方式】
[0096] 以下结合附图及【具体实施方式】对本发明作进一步的详细说明。
[0097] 为了更清楚的理解本发明,以下结合附图对本发明作进一步的详细描述。本发明 方法涉及的一种纳税人偷漏税嫌疑群组的发现过程如图1所示。
[0098](一)本发明中使用的若干概念的相关定义 [0099]定义1:强联通分量
[0100] 在有向图G中,如果两个顶点Vi,Vj之间有一条从Vi到Vj的有向路径,同时还有一条 从vj到Vi的有向路径,则称这两个顶点强连通(strongly connected)。如果有向图G的每两 个顶点都强连通,称G是一个强连通图。有向图的极大强连通子图,称为强连通分量 (strongly connected components)。
[0101] 定义2:极大弱连通子图
[0102] 将有向图G的所有有向边替换为无向边,所得到的图称为原图的基图在G'中, 如果从顶点Vl到顶点W有路径,则称^和^连通,G'中的极大连通子图称为有向图G的极大 弱连通子图。
[0103] 定义3:模式
[0104] -条模式表示一个节点序列,该序列起于入度为
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1