一种基于图神经网络的纳税人风险评测方法与流程

文档序号:29362219发布日期:2022-03-23 02:02阅读:507来源:国知局
一种基于图神经网络的纳税人风险评测方法与流程

1.本发明涉及一种纳税人风险评测方法,尤其涉及一种使用基于图神经网络(graph convolutional network,gcn)的图风险传播模型,属于人工智能领域。


背景技术:

2.纳税人风险等级评价是税务机关根据纳税人的历史纳税状况、纳税人经营状况、纳税人进销商品状况等综合测评出纳税人风险等级。当前的纳税人风险等级评测是相对人工化的,主要是相关专家根据已有数据对纳税人进行风险测评,用到的数据也只是纳税人基本信息和经营状况信息,根据一定的规则对纳税人某一指标打分,最终得分由所有的指标求和得出,人工的工作量比较多,更重要的是,只是考察纳税人独自信息,并没有考虑到纳税人在交易链路、关系网中的嵌入位置信息。当前的模型很难发现“团伙作案”的模式,而这样的模式对于发现纳税人经营过程中的风险传播变化是极其重要的。故我们提出了结合纳税人特征信息和票流信息、关系网拓扑结构信息的图风险传播模型,既能智能化的评测纳税人风险等级,减少人工工作量,又能结合图网络算法发现团伙信息。
3.当前,风险等级评价任务主要有两类解决方案:1.基于机器学习的方案,2.基于专家建模的方案。
4.1.基于机器学习的方案主要考虑纳税人的基本信息建模为机器学习指标然后用机器学习算法比如决策树(decision tree)、支持向量机(svm)、梯度提升树(gbdt)等进行分类决策。这种方法的优点是可以直观的看到基本信息中属性对分类结果的影响,可解释性比较强。缺点是需要人为的设计纳税人特征向量,更重要的是没有考虑票流关系,没有考虑进销货物情况,只能单独的对纳税人分析,缺少了必要的拓扑信息,得到的结果并不十分准确,也不能发现团伙现象。
5.2.基于专家建模的方法,主要利用了专家经验,专家们在实践中总结了一套业务知识,来相对准确判定纳税人风险等级,专家根据一系列特征来打分最终判定纳税人风险等级。比如,某纳税人符合有销无进、夜间开票特征就打较高的风险分数,如果纳税人企业经营敏感行业打分就相对较低。这种方法由专家们来打分评判。缺点也是比较明显的,需要专家知识,人工成本较高,不够智能化。业务知识有滞后性,不能很好应对新的形况。


技术实现要素:

6.针对上述技术问题,本发明的目的在于提供一种基于图卷积神经网络风险传播的纳税人风险评测方法,图卷积方法基于图算法,图算法主要考虑纳税人在票流中的拓扑位置。根据发票购销方往来货物数据,构建票流网络。然后依据票流网络,使用图算法比如中心性算法(度中心性算法、接近中心性算法、中介中心性算法、pagerank算法等)社区发现算法(labelpropagation algorithm、componentsalgorithm等)。基于图论的算法较好考虑了企业的票流关系(企业上下游关系),给出在图中影响力较大的结点,和划分社团。图论算法的优势是通过票流关系把纳税人形成关系网络,在关系网络中通过图算法进行分析。这种
方案的优点是利用了票流关系,可以较好的发现团伙关系,缺点也比较明显,无法利用纳税人基本属性信息,而属性信息对于预测纳税人风险等级也是重要的。
7.有没有一种方法既考虑到纳税人基本信息又考虑到拓扑信息呢?图神经网络(gcn)能解决这一问题。
8.纳税人基本信息(纳税人名称、企业年限、行业类型、信用等级、雇工人数等)、关联关系网(相同注册/经营地址、mac地址、法人、办税人、领票人、电话号码等)、发票票流网(纳税人发票往来构成网络)等能够反映出纳税人风险等级变化。通过使用图卷积风险传播模型,巧妙结合了纳税人基本信息和关联关系网、发票票流网,进行纳税人风险传播,可以准确合理的对纳税人进行风险等级测评,帮助主管税务机关对纳税人进行风险测评,降低了人工工作量,提高了对风险企业的预先管控能力。对实现自动、智能的业务处理具有重要意义,是构建智能化税务系统的重要步骤。
9.该方法对纳税人风险等级进行评定预测,预测效果较好,并对存在高风险、形成团伙的纳税人进行及时的风险提示提醒。本方法的具体流程示意如图1所示。
10.step1构建纳税人属性信息网络:以纳税人基本信息为依托构建图网络。具体包括:1.纳税人注册/登记地址、2.纳税人开具发票mac地址、3.企业电话号码、4.纳税人法人身份证件号码、5.企业财务负责人、办税人、领票人姓名身份证件号码。具体地,以纳税人为图网络结点,如果两个纳税人之间的注册/登记地址相同、mac地址相同、电话相同、法人身份证件号码任一相同,则此两个纳税人之间有边相连,通过具体地,以mac地址相同为例,首先找到所有mac地址相同的纳税人,对这些纳税人构建全连通图(即邻接矩阵除对角线为0外全为1)。其他属性相同的类似处理。
11.step2构建纳税人票流关系信息网,以增值税专用发票信息为依托,如果纳税人a销售货物给纳税人b且货物金额一年内累计超过10万,则从纳税人a连边到纳税人b,这样构成票流网。
12.step3构建最终的图网络。合并属性信息网和票流关系信息网,具体地,由于属性信息网是无向的,票流关系网是有向的。不能直接合并两个图,我们把属性信息网转化为有向的,一个无向边相当于两个相反的有向边相连,于是把无向的属性信息网转化为有向的属性信息网,之后对两个有向的网络进行合并,即对两个有向图所对应的邻接矩阵按位取并这样形成最终的图网络,最终的图网络的邻接矩阵用作神经网络的参数。
13.step4纳税人名称向量化。使用词向量(word2vec)技术,首先使用python jieba分词库,对纳税人名称进行分词得到分词序列,使用预训练好的词向量查找表对分词序列进行查找向量化得到纳税人名称向量化矩阵,由于纳税人名称分词后的序列长度不定,为了固定长度,使用全局平均池化和全局最大池化拼接作为最终的纳税人名称向量;
14.step5纳税人登记时长向量化。用考察当下的时间(2021)减去纳税人登记日期得到纳税人年限;进一步纳税人人年限分为5个等级:0-1年为a级、1-2年为b级、2-5年为c级、5-7年为d级,大于7年为e级。五个等级使用one-hot编码向量化得到长度为5的纳税人年限向量;
15.step6纳税人行业代码向量化。行业代码是四位数字,编码了不同行业,由于行业代码本身为数字,即使用四位行业代码作为行业代码向量;
16.step7纳税人雇工人数向量化。将纳税人雇工人数分为7个等级:0-5人a级、5-10人
b级、10-30人c级、30-200人d级200-500人e级、500-1000人f级、大于1000人g级。七个等级使用one-hot编码向量化得到长度为7的雇工人数向量。
17.step8纳税人信用等级向量化。纳税人信息等级是使用一系列纳税人信息评定得到的,分为5个等级:a级、b级、c级、d级、m级。m级代表企业未满一年暂未评价,从a级到d级信用等级依次降低。五个等级使用one-hot编码向量化得到长度为5的信用等级向量。
18.step9构建纳税人特征向量:纳税人特征向量包括:1.纳税人名称、2.纳税人登记时长、3.纳税人行业代码、4.纳税人雇工人数、5.纳税人信息用等级。将以上五类特征向量化,拼接为特征向量。
19.step10构建图风险传播模型的数据集。我们选择全国风险名录库中的部分纳税人设定其风险值为1.0。全国风险名录库中的纳税人是确定被税务机关稽查的纳税人。我们选择一部分被认定为非正常户的纳税人设定其风险值为0.8,被认定为非正常户的纳税人没有按时交税等原因会被认定为非正常户。选择一部分正常纳税人设定其风险值为0.0。以上三部分数据组成最终的数据集,之后再由专家对一部分数据风险值进行微调,使风险值分布于区间0-1。最后对区间0-1进行等级划分0-0.1为a级,0.1-0.3为b级,0.3-0.5为c级,0.5-0.7为d级0.7-1.0为e级。五个等级作为纳税人风险标签。
20.step11训练图风险传播网络。本发明使用gcn图卷积网络模型,gcn是一种在图(graph)上进行卷积的神经网络,有效结合结点所处局部拓扑解结构和结点自身的特征。gcn也被认为是标签传播算法,也即结点标签沿着拓扑网络传播,即使标签覆盖率较低时,gcn得到的结果也是比较准确的。gcn的结构如图2所示:两层gcn的数学表达式为
21.z=f(x,a)=softmax(arelu(axw
(0)
)w
(1)
)
22.其中,x代表结点的特征向量,a代表标准化后的邻接矩阵,即步骤三得到的图网络的邻接矩阵,relu代表relu激活函数,w
(0)
代表第一层图卷积神经网络的参数矩阵,w
(1)
代表第二层的图卷积神经网络参数矩阵,第一层神经网络和第二层神经网络通过激活函数relu相连,最后得到的结果经过softmax函数输出,依下游任务不同选择不同的损失函数。由于我们的任务是结点分类,所以选择交叉熵损失函数。
23.step12模型测试:将上面训练好的模型用测试集进行测试,验证模型的泛化能力。
24.step13模型评估:使用5折交叉验证(5-fold cross validation),将数据集分成五份,轮流将其中4份做训练1份做验证,5次的结果的均值作为对模型精度的估计,评估指标选用准确率,如果效果不理想,则调整模型参数重新训练。
25.step14纳税人风险等级预测:对一组待测评的纳税人,使用已经训练好的模型,对纳税人风险等级进行预测,得到每个纳税人的风险等级,进一步确定高风险的纳税人及是否存在团伙情况,是否为团伙依据其对应的网络结构进行判断,如果在网络结构中预测结果为高风险纳税人且有边相连(通过最大连通子图判定是否存在团伙),实际评判中最大连通子图会依据一定规则逻辑进行剪枝,剪枝后的则判定为团伙。
26.与现有技术相比,本发明的优点:
27.1.步骤4、5、6、7中,向量化纳税人基本信息包括纳税人名称、纳税人企业年限、纳税人信息用等级、纳税人雇工人数等信息。以上信息对评价纳税人自身的风险系数有较大关系。
28.2.步骤1、2、3中,构建图传播网络,使用票流信息(发票的上下游关系)、纳税人属
性信息(相同开票mac地址、注册地址等),更加准确定位了纳税人在图网络中的拓扑结构。
29.3.步骤11中,使用最新的图卷积网络模型双层gcn,gcn网络巧妙的结合了纳税人基本信息即gcn公式中的x特征矩阵和其所处的拓扑网络即邻接矩阵。即考虑了纳税人的基本信息,又结合了其票流关系,使结果合理性和准确有了保证,也容易发现团伙情况,使用神经网络进行训练参数,实现了端到端的任务应用,模型评价指标平均f1值达85%,取得了很好的效果。
附图说明
30.图1为本发明的方法流程示意图;
31.图2为gcn模型结构图。
具体实施方式
32.下面结合附图对本发明进行进一步详细描述。
33.1.构建图网络
34.1)构建纳税人属性信息网络。使用税务机关纳税人基本信息表中中的相关信息。具体实施方案,取纳税人基本信息表中的登记地址,由于登记地址中存在不规范的填写情况,使用外部资源标准化登记地址,使用标准化后的登记地址来进行边的关联,如果两个企业的标准化登记地址相同,则此两个企业进行边的相连。同样的方案,我们取纳税人基本信息表中的开具发票mac地址、注册电话号码、企业法人身份证件号码、财务负责人、办税人、领票人姓名身份证件号码。如果两个企业以上信息至少有一个相同,则在这两个企业间连边。最终构成属性信息网络。
35.2)构建票流信息网络。我们取增值税专用发票数据,增值税专用发票数据包含了销货方纳税人识别号、购货方纳税人识别号、货物名称、货物金额等字段。取最近一年的数据,对相同购销方识别号的发票数据的金额做归集,对归集后的数据进行筛选过滤金额小于10万的数据。依据最终的发票数据构建票流信息网络,在一条发票数据中,从销方纳税人连一条有向线段到购方纳税人得到一条边关系,把所有的发票数据按以上方式构边就得到最终的票流信息网络。
36.3)合并属性信息网和票流关系信息网结合,由于两个图的属性不同一个是无向图一个是有向图,不能直接合并。我们把无向图转化为有向图,一条无向边相当于两条方向相反的边。把属性信息无向图转化为有向图后和票流关系信息网合并,得到最终的有向图作为纳税人的拓扑结构图。
37.2.构建纳税人特征向量
38.纳税人特征向量表达了纳税人自身信息,其中纳税人名称、登记时长、行业、雇工人数、信用等级对评价纳税人风险等级具有较大影响。纳税人名称是字符串类型,我们通过自然语言处理中的词向量(word2vec)技术来实现字符串的向量化,首先对纳税人名称进行分词,然后查找词向量表得到对应的向量,由于分词后的长度可能不一致,所以在后面添加一层最大池化层得到最终的纳税人名称向量。词向量查找表的维度为50维,得到纳税人名称向量同样为50维。其他属性通过分等级在进行one-hot编码得到相应的编码向量,最终,把所有的向量拼接起来得到纳税人特征向量维长度为71。
39.3.图风险模型搭建
40.使用双层gcn网络作为图风险传播模型,单层gcn网络的算法结构如图2所示。数学表达式为:
41.h=relu(awx)
42.其中,a表示图标准化后的邻接矩阵,x表示输入特征向量,w表示权重系数,relu表示非线性激活函数。h表示得到的隐层向量。
43.为了增加网络模型的提取能力,我们使用两个gcn网络进行提取特征,两层gcn能挖掘结点的二阶邻居信息。双层gcn模型表达式为:
44.z=f(x,a)=softmax(arelu(axw
(0)
)w
(1)
)
45.其中w
(1)
为第二层的权重矩阵,softmax为第二层的激活函数,z为得到了结点的表示向量。具体地,隐藏层(即第一层gcn的输出层)的维度设置为16,最终结点表示向量的维度为5。
46.本发明通过dgl搭建双层模型。dgl是为方便构建图神经网络的python包,它能够以pytorch,mxnet或者tensorflow作为后端运行。本发明搭建的是双层gcn网络纳税人风险传播模型,其中模型输入为拓扑图和纳税人特征向量,输出为风险等级(abcde级)。该模型采用两个gcn中间以relu为激活函数链接的神经网络,选用adam算法作为优化器,以交叉熵损失作为模型的损失函数,以f1值作为模型的评价指标。
47.4.图风险模型训练和评估
48.搭建好双层gcn网络后,开始训练模型,批处理大小设置为256,adam优化器参数中设置β1=0.9,β2=0.999,∈=10e-8。由于建模为分类任务使用交叉熵函数:
[0049][0050]
其中,y是真实标签,y_hat为模型预测的标签,评价模型使用f1值:
[0051][0052]
f1值平衡了精确率和召回率,在分类任务中有着广泛的应用。
[0053]
本发明采用n折交叉验证进行模型评估,具体地,将数据集分成五份,轮流将其中四份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的f1。5次的结果的正f1平均值作为对模型效果的估计,双层gcn模型的平均f1为85%,结果比较理想。
[0054]
5.图风险传播模型预测
[0055]
得到训练好的双层gcn风险传播模型,输入纳税人特征向量模型的预测此纳税人的风险等级,风险等级份分五个等级abcde级。a级风险最高其他等级依次降低,根据风险纳税人在图中的关系能发现团伙现象,在实际应用中有巨大意义。
[0056]
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1