一种基于图理论的纳税人利益关联团体识别方法

文档序号:10726180阅读:182来源:国知局
一种基于图理论的纳税人利益关联团体识别方法
【专利摘要】本发明公开了一种基于图理论的纳税人利益关联团体识别方法,首先,构建出有向加权的纳税人利益关联网络;然后,在纳税人利益关联网络中进行团体识别,识别出纳税人利益关联网络中,所有由联系紧密的纳税人及其关联自然人组成的纳税人利益关联团体。从而解决从非结构化的纳税人信息中识别利益关联团体的问题,为后续的纳税评估和重点监控奠定基础。
【专利说明】
一种基于图理论的纳税人利益关联团体识别方法
技术领域
[0001] 本发明涉及计算机科学与技术中的并行图计算领域,具体涉及一种基于图理论的 纳税人利益关联团体识别方法。
【背景技术】
[0002] 纳税人利益关联团体是指通过投资、控股、交易等关系紧密联系在一起的纳税人 集合,在集合内部利益关联紧密程度远高于集合间。在纳税人利益关联团体内部普遍存在 着关联交易、抵消交易等偷逃漏税行为,对国家税收征管带来了严峻的挑战,如何对纳税人 利益关联团体进行识别并重点监控,成为当前纳税评估和风险监控一个亟待解决的问题。
[0003] 实际税务分析中纳税人利益关联团体主要来源于纳税人集团信息,然而仅仅以纳 税人的集团属性作为纳税人利益关联团体划分的唯一标准具有局限性,没有充分考虑纳税 人间基于投资、控股、交易的间接关联性,不利于纳税人之间潜在、隐蔽、多样利益关联关系 的挖掘。
[0004] 目前尚未有纳税人利益关联团体的识别方法的相关研究,但纳税人利益关联团体 与其他领域中的社团概念类似,均为由联系紧密的节点组成。因此其他领域中的社团识别 方法,对于解决纳税人利益关联团体识别问题具有参考价值。以下两个专利提供了其他领 域社团发现的不同技术方案:
[0005] 1 .基于复杂网络模型并行化标签传播算法的药物社团发现方法 (201210111171.2);
[0006] 2. -种用于电力网络故障诊断的社团自组织检测方法(201310299446.4)。
[0007]文献1提供一种基于复杂网络模型并行化标签传播算法的药物社团发现方法。文 献2提出一种用于电力网络中社团检测的方法,根据节点的局部适应度选择节点所属的社 团,然后不断迭代得到使得全局适应度最优的社团划分情况。
[0008] 以上文献所述方法,运用在纳税人利益关联团体识别过程中,存在以下问题:文献 1使用的标签传播算法在社团发现过程中会出现节点的所属社团反复震荡的问题;文献2使 用的局部适应度函数和全局适应度函数不考虑社团内节点的个数,会导致个别社团的节点 数目不断增长直到迭代次数达到上限,使得得到的社团规模过大而失去研究意义。
[0009] 针对上述文献中存在的不足,本发明提出了一种纳税人利益关联团体识别方法, 解决税务大数据领域中纳税人利益关联团体的识别问题,其依赖的【背景技术】主要包括纳税 人利益关联网络(简称TPIN)模型和Apache Spark分布式计算框架。
[0010] 专利《基于纳税人利益关联网络模型的偷漏税关联企业识别方法》[申请号: 201310293435.5]公开了一种纳税人利益关联网络模型,有效利用了纳税人之间控股关系、 实际控制人关系以及企业之间的交易关系。其中的纳税人利益关联网络TPIN以图的方式来 组织纳税人及其关联关系,可形式化表示为TPIN= (V,E,W),其中V= {vP | p = 1,…,NP}表示 顶点集合,¥包含三种类别,有¥ = 1^(:1^,其中1^={^|1 = 1,...凡,凡〈价}表示所有法人顶 点,C={vc|c = l, · . .Nc,N(^Np}表示所有企业顶点,B={vb|b=l,. . .Nb,Nb〈Np}表示所有董 事顶点;E表示图中所有边的集合,且令E={eM} = {(vP,Vq)|0〈p,q彡Np},其中eM=(vP,Vq) 表示存在从Vp到Vq的有向连线;W= {wPq| 0〈P,q<Np}为边(Vp,Vq)的权值。边之间的权值与边 的类别有关。£'八//^ = {@,^,77^7^7^表示有向边的类别集合,其中及表示实际控制人 间双向的间接关联关系,且如果~到~的边ePq的颜色为孫,记为<,则边epq的权值 = h泛表示法人vi与企业V。之间、或者董事vb和企业V。间的单向实际控制人关系, = 1:77^表示法人与企业之间、或董事与企业之间、或企业之间的单向控股关系, 4巧卜(〇,1],表示控股百分比;71表示多个董事间的双向互锁关系,4€)£(〇,1],其表示 董事间控股权重程度;?表示企业间的单向交易关系。
[0011 ] Apache Spark是当前广泛使用的并行计算框架。GraphX是ApacheSpark中一个用 于图并行计算的模块,允许由顶点集合和边集合构造一个点和边都带属性的有向图Graph, 并提供面向点和边的属性操作符以及消息传递机制。

【发明内容】

[0012]本发明的目的在于提供一种基于图理论的纳税人利益关联团体识别方法,首先, 构建出有向加权的纳税人利益关联网络;然后,在纳税人利益关联网络中进行团体识别,识 别出纳税人利益关联网络中,所有由联系紧密的纳税人及其关联自然人组成的纳税人利益 关联团体。从而解决从非结构化的纳税人信息中识别利益关联团体的问题,为后续的纳税 评估和重点监控奠定基础。
[0013]为了达到以上目的,本发明是采取如下技术方案予以实现的:
[0014] (1)构建有向加权的纳税人利益关联网络
[0015] 构建有向加权的纳税人利益关联网络,即将非结构化的纳税人信息转化为结构化 的纳税人利益关联网络的点和边。利用纳税人利益关联网络的边来结构化表示纳税人的交 易、投资和控制关系,利用边的权值来表示关联关系的紧密程度;利用纳税人利益关联网络 的点来结构化表示纳税人及其关联自然人,利用点的属性来保存团体编号和历史消息集 合。
[0016] (2)在纳税人利益关联网络中进行团体识别
[0017] 所述团体识别操作,具体包括以下步骤:
[0018] stepl.沿网络中的每条边传播源点和终点的团体编号;
[0019] 首先,沿网络中的每条边向边的源点,发送包含边终点的团体编号及边的权值的 消息,格式形如:((^(1,'\¥618111:),其中(^(1表示边终点的团体编号,'\¥618111:表示边的权值。然 后,沿网络中的每条边向边的终点,发送包含边源点的团体编号及边的权值的消息。
[0020] Step2.对顶点接收到的消息进行聚集,获得网络中的每个顶点的当前消息集合;
[0021] 首先,对纳税人利益关联网络中的每个顶点,接收该顶点的所有邻接顶点发送的 包含团体编号和边权值的消息。然后,对接收到的消息进行聚集,构成当前消息集合。消息 集合的格式形如:Map (c i d,we i gh t ),其中Map表示消息集合的数据结构为键值映射表,Map 的键c i d表示团体编号,Map的值we i ght表示团体编号c i d对应的权值之和。
[0022] Step3.综合当前消息集合与历史消息集合选出每个顶点的所属利益关联团体编 号;
[0023]首先,合并顶点的当前消息集合与历史消息集合。将当前消息集合记为Mapc,将历 史消息集合记为MapH,将合并后的消息集合记为Mapu。对于Mapc和MapH中的任意一条记录 (cidl,weightl),若cidl已存在于Mapu中,贝丨彳将Mapu中cidl对应的权值加上weightl;否则在 Mapu中新增一条记录(c id 1,we igh11)。然后,将合并后的消息集合中权值最大的团体编号 作为该顶点当前所属利益关联团体的团体编号。特殊的,如果存在多个团体编号的权值均 相同且最大,则随机选取其中一个团体编号。最后,将顶点的当前消息集合作为顶点下一次 迭代的历史消息集合。
[0024] Step4.若迭代次数达到预定的最大值或没有任何顶点的团体编号发生改变,则识 别过程结束;否则,返回执行St印1。
[0025] 迭代结束得到的纳税人利益关联网络中,将顶点属性中的团体编号相同的所有顶 点,划分到同一个纳税人利益关联团体中,即可得到所有的纳税人利益关联团体。
[0026] 本发明一种纳税人利益关联团体识别方法,对于税务稽查领域,能够快速定位可 能存在偷逃漏税行为的隐秘利益团伙,有效减轻人工税务稽查的工作量。与现有的社团发 现技术相比,本发明的优点是:
[0027] a.识别效率高,借助Spark并行化技术,扩充计算资源,缩短识别时间,足以应对规 模庞大且日益增长的税务大数据;
[0028] b.识别范围广,不依赖于单个纳税人的企业信息,而是通过利用纳税人利益关联 网络的拓扑结构中蕴藏的信息,识别内部联系紧密的纳税人利益关联团体。
[0029] c.稳定性好,依据两次迭代的消息集合决定顶点的所属团体,使得顶点的所属团 体编号不会出现震荡。
【附图说明】
[0030] 图1为本发明基于图理论的纳税人利益关联团体识别方法的流程图。
[0031] 图2为团体识别算法的流程图。
【具体实施方式】
[0032] 为了更清楚地说明本发明的技术方案,下面结合附图和具体实施例对本发明基于 图理论的纳税人利益关联团体识别方法进行详细描述。
[0033] 如图1所示,本实施例中,纳税人利益关联团体的识别过程包括:
[0034] 构建有向加权的纳税人利益关联网络:
[0035] 有向加权的纳税人利益关联网络中的顶点,包含编号和属性。编号是该顶点在纳 税人利益关联网络中的唯一标识。属性包括两部分:第一部分标识该顶点当前所属利益关 联团体的团体编号,初始情况下,设置为该顶点的编号;第二部分是一个历史消息集合,用 来记录上一次迭代接收到的消息,初始情况下,只包含该顶点的编号且权值为1,表示为 (vid,l),其中二元组的第一个元素 vid表示该顶点的编号,二元组的第二个元素表示这个 编号在历史消息集合中的权值。
[0036] 有向加权的纳税人利益关联网络中的边,包含源点编号、终点编号和边的权值。源 点编号是该边的源点在纳税人利益关联网络中的唯一标识;终点编号是该边的终点在纳税 人利益关联网络中的唯一标识;边的权值是一个0到1之间的小数,表示这条边所反映的关 联关系的紧密程度。
[0037] 本实施例中,所构建的轻量级的纳税人利益关联网络中有三个顶点。顶点VI的属 性中团体编号为1,历史消息集合为[(1,1)],其中,中括号表示Map内所有记录的数组,(1, 1)表示一条二元组记录,记录之间用英文逗号","分隔;顶点V2的属性中团体编号为2,历史 消息集合为[(2,1)];顶点V3的属性中团体编号为3,历史消息集合为[(3,1)]。所构建的轻 量级的纳税人利益关联网络中有三条有向边,分别在VI与V2之间、V2与V3间、V3与VI之间, 权值均为1,分别表示为Edge(1,2,1)、Edge(2,3,1)和Edge(3,1,1),其中Edge括号中的第一 个元素为源点编号,第二个元素为终点编号,第三个元素为边权值。
[0038] 在纳税人利益关联网络中进行团体识别。如图2所示,所述团体识别的具体步骤 为:
[0039] 沿网络中的每条边传播源点和终点的团体编号;
[0040] 首先,沿网络中的每条边向边的源点,发送包含边终点的团体编号及边的权值的 消息,格式形如:((^(1,'\¥618111:),其中(^(1表示边终点的团体编号,'\¥618111:表示边的权值。然 后,沿网络中的每条边向边的终点,发送包含边源点的团体编号及边的权值的消息。
[00411本实施例中,对于边Edge(l,2,1 ),向边的源点VI发送消息(2,1 ),然后向边的终点 V2发送消息(3,1);对于边Edge(2,3,l),向边的源点V2发送发送消息(3,1),然后向边的终 点V3发送发送消息(2,1);对于边Edge(3,l,l),向边的源点V3发送发送消息(1,1),然后向 边的终点VI发送发送消息(3,1)。
[0042] 对顶点接收到的消息进行聚集,获得网络中的每个顶点的当前消息集合;
[0043] 首先,对纳税人利益关联网络中的每个顶点,接收该顶点的所有邻接顶点发送的 包含团体编号和边权值的消息。然后,对接收到的消息进行聚集,构成当前消息集合。消息 集合的格式形如:Map (c i d,we i gh t ),其中Map表示消息集合的数据结构为键值映射表,Map 的键c i d表示团体编号,Map的值we i ght表示团体编号c i d对应的权值之和。
[0044] 本实施例中,对于VI,其接收到的团体编号有2、3,它的当前消息集合为[(2,1), (3,1)];对于V2,其接收到的团体编号有1、3,它的当前消息集合为[(1,1),(3,1)];对于V3, 其接收到的团体编号有1、2,它的当前消息集合为[(1,1),(2,1)]。
[0045] 综合当前消息集合与历史消息集合选出每个顶点的所属利益关联团体编号;
[0046]首先,合并顶点的当前消息集合与历史消息集合。将当前消息集合记为Mapc,将历 史消息集合记为MapH,将合并后的消息集合记为Mapu。对于Mapc和MapH中的任意一条记录 (cidl,weightl),若cidl已存在于Mapu中,贝丨彳将Mapu中cidl对应的权值加上weightl;否则在 Mapu中新增一条记录(c id 1,we igh11)。然后,将合并后的消息集合中权值最大的团体编号 作为该顶点当前所属利益关联团体的团体编号。特殊的,如果存在多个团体编号的权值均 相同且最大,则随机选取其中一个团体编号。最后,将顶点的当前消息集合作为顶点下一次 迭代的历史消息集合。
[0047]本实施例的第一次迭代中,V1、V2、V3的历史消息集合与当前消息集合合并后均为 [(1,1),(2,1),(3,1)],结果仅代表本实施例,其他实施例的每个点的合并结果没有必然的 相等关系。V1、V2、V3均随机选取1、2、3其中一个团体编号作为当前所属利益关联团体的团 体编号。
[0048] 若迭代次数达到预定的最大值或没有任何顶点的团体编号发生改变,则识别过程 结束;否则进行迭代,重新沿网络中的每条边传播源点和终点的团体编号。
[0049] 本实施例的第一次迭代中,VI随机选取2作为它的所属团体编号、V2随机选取2作 为它的所属团体编号、V3随机选取1作为它的所属团体编号;然后,返回执行下一次迭代。第 二次迭代后,VI所属团体编号为2, V2所属团体编号为2, V3所属团体编号为2。之后的第三次 迭代,所有顶点的团体编号均不再变化,识别过程结束。
[0050] 迭代结束得到的纳税人利益关联网络中,将顶点属性中团体编号相同的所有顶 点,划分到同一个纳税人利益关联团体中,即可得到所有的纳税人利益关联团体。
[0051] 本实施例中,迭代结束时,三个顶点的属性中的团体编号均为2,故三个顶点划分 到同一个纳税人利益关联团体中,共得到一个纳税人利益关联团体。
[0052]本领域的技术人员容易理解,以上所述仅为本发明的方法实施例而已,并不用以 限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含 在本发明的保护范围之内。
【主权项】
1. 一种基于图理论的纳税人利益关联团体识别方法,其特征在于,具体步骤如下: (1) 构建有向加权的纳税人利益关联网络 构建有向加权的纳税人利益关联网络,即将非结构化的纳税人信息转化为结构化的纳 税人利益关联网络的点和边,利用纳税人利益关联网络的边来结构化表示纳税人的交易、 投资和控制关系,利用边的权值来表示关联关系的紧密程度;利用纳税人利益关联网络的 点来结构化表示纳税人及其关联自然人,利用点的属性来保存团体编号和历史消息集合; (2) 在纳税人利益关联网络中进行团体识别 所述团体识别操作,具体包括以下步骤: Stepl.沿网络中的每条边传播源点和终点的团体编号; 首先,沿网络中的每条边向边的源点,发送包含边终点的团体编号及边的权值的消息, 格式形如:((^(1,'\¥618111:),其中(^(1表示边终点的团体编号,'\¥618111:表示边的权值;然后,沿 网络中的每条边向边的终点,发送包含边源点的团体编号及边的权值的消息; Step2.对顶点接收到的消息进行聚集,获得网络中的每个顶点的当前消息集合; Step3.综合当前消息集合与历史消息集合选出每个顶点的所属利益关联团体编号; Step4.若迭代次数达到预定的最大值或没有任何顶点的团体编号发生改变,则识别过 程结束;否则,返回执行St印1; 迭代结束得到的纳税人利益关联网络中,将顶点属性中的团体编号相同的所有顶点, 划分到同一个纳税人利益关联团体中,即可得到所有的纳税人利益关联团体。2. 根据权利要求1所述的一种基于图理论的纳税人利益关联团体识别方法,其特征在 于,所述的Step2步骤如下: 首先,对纳税人利益关联网络中的每个顶点,接收该顶点的所有邻接顶点发送的包含 团体编号和边权值的消息;然后,对接收到的消息进行聚集,构成当前消息集合,消息集合 的格式形如:Map(cid, weight ),其中Map表示消息集合的数据结构为键值映射表,Map的键 c i d表示团体编号,Map的值we i ght表示团体编号c i d对应的权值之和。3. 根据权利要求1所述的一种基于图理论的纳税人利益关联团体识别方法,其特征在 于,所述的Step3步骤如下: 首先,合并顶点的当前消息集合与历史消息集合,将当前消息集合记为Mapc,将历史消 息集合记为MapH,将合并后的消息集合记为Mapu;对于Mapc和MapH中的任意一条记录(cidl, weightl),若cidl已存在于Mapu中,则将Mapu中cidl对应的权值加上weightl,否则在Mapu中 新增一条记录(cidl,weightl);然后,将合并后的消息集合中权值最大的团体编号作为该 顶点当前所属利益关联团体的团体编号;特殊的,如果存在多个团体编号的权值均相同且 最大,则随机选取其中一个团体编号;最后,将顶点的当前消息集合作为顶点下一次迭代的 历史消息集合。
【文档编号】G06Q40/00GK106097090SQ201610462523
【公开日】2016年11月9日
【申请日】2016年6月22日
【发明人】董博, 阮建飞, 郑庆华, 贾俊杰, 蔚文达
【申请人】西安交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1