一种基于税务大数据分析的信用评估方法与流程

文档序号:18744856发布日期:2019-09-21 02:12阅读:420来源:国知局
一种基于税务大数据分析的信用评估方法与流程
本发明涉及行政管理
技术领域
,具体的说是一种基于税务大数据分析的信用评估方法。
背景技术
:目前主流的信用评估方法为AHP(AnalyticHierarchyProcess,即层次分析法)和模糊综合评价法,例如银行的信用评估是将贷款人的行为和基本信息构建成指标体系,通过权重设置分值的形式进行评分和评级获取量化衡量贷款人的信用值。这种方式存在着大量的人为主观因素影响和权重调整滞后不能在局势变化时快速反映整体变化趋势等问题。技术实现要素:本发明针对目前技术发展的需求和不足之处,针对传统纳税信用评价基于行为数据的总结时即使发现失信行为也无法实施有效管理的缺陷,提供一种基于税务大数据分析的信用评估方法,解决纳税信用评价的滞后性。本发明的一种基于税务大数据分析的信用评估方法,解决上述技术问题采用的技术方案如下:一种基于税务大数据分析的信用评估方法,该信用评估方法包括如下步骤:步骤一、提取税务数据,将税务数据进行按照评价主体进行归一处理;步骤二、针对评价主体进行显著特征提取,将企业的非常规行为按照纳税人进行打标签,并通过群体画像的形式分析显著特征标签提取;步骤三、利用AI方式分析税务数据,选取指标并进行验证,基于验证通过的指标,将提取的显著特征进行场景化;步骤四、基于AHP建立指标体系递阶层次结构,将影响评价的各因素按照不同属性自上而下分解成目标层、准则层和标签层三个层次,且同一层次的各因素从属于上一层次的因素;步骤五、在指标体系递阶层次结构的基础上,根据上下层次之间的隶属关系构造判断矩阵;步骤六、根据步骤五构造的判断矩阵,计算判断矩阵的最大特征值所对应的正规化的特征向量,该特征向量即为本层次因素相对于上层次所属因素的相对重要性权重值;步骤七、根据步骤六计算得到个指标的权重,每个准则及指标都有一个权重系数,且每一层的权重系数之和等于1;步骤八、利用专家评分法根据各指标对整个体系中影响程度,为每一个指标设定初始值;步骤九、依据步骤一到步骤八货物的数据,构建信用评分模型,并抽样某地市的税务数据灌入信用评分模型进行训练,得到打分结果,根据打分结果不断调整信用评分模型的参数,并最终得到可以直接输出打分结果的新信用评分模型。在步骤一中,所述评价主体包括纳税人和办税人;A)所述评价主体为纳税人时,将数据信息按照纳税人进行归集;B)评价主体为办税人时,办税人员进行数据归集,数据归集方式包括:B1)若采集数据的系统进行了实名制,则按照实名为主线进行归集,与实名制的主体相关的信息都认为是该主体的信息;B2)若采集数据的系统未进行实名制,未实名制的信息则统一采用相同识别号或者身份证号为主线归集。在步骤二中,所述企业的非常规行为包括注销行为、非正常行为、逾期行为;利用大数据的打标签方法,人工标签或者自动标签企业的非常规行为。在步骤三中,基于验证通过的指标,将提取的显著特征进行场景化,其具体操作内容包括:1)删除取值变化小的指标,若某个特征90%的实例取值相等,就认为该指标作用不大,随后删除该取值变化小的指标;2)通过皮尔逊相关系数度量不同指标之间的相关性,尤其通过皮尔逊相关系数对连续指标之间的线性相关进行度量,减少冗余指标;3)采用距离相关系数,若距离相关系数为0,则判定这两个指标是各自独立的;4)对于离散型指标之间的相关性,采用Spearman相关系数进行度量,通过不同的相关系数计算方法,度量任意两个离散指标之间的相关性,根据相关性的大小进行单指标提取;5)基于机器学习模型的方法进行特征选择,采用决策树算法、随机森林算法、支持向量机算法至少一种算法对选择的特征进行打分,随后将打分结果运用到特征任务选择中,用来提取显著特征。在步骤四中,所述目标层评价结果量化预定目标;所述准则层表示支持预定目标的分项支撑,准则层分为三级:a)一级准则层分为基本特质-税务属性、行为偏好-涉税行为、历史信息-涉税历史、履约能力-遵从能力、税务关系-关联关系,以全面覆盖评价主体和税务数据范围为准;b)二级准则层,按照税务业务分类,登记、认定、优惠、证明、申报、征收、法制等,囊括纳税人或办税人的全部涉税行为;c)第三级为具体办理业务事项;所述标签层表示实现预定目标所采用的指标,标签层包含增值税申报、个人所得税缴纳、增值税专用发票领用各具体事项,标签层是整个分析系统的最小单位。在步骤五中,构造判断矩阵时,采用TLSaaty教授[1]提出的标度法:设对于某一准则X,几个比较因素构成了一个两两判断矩阵:u=(uij)n*n标度法公式其中,标度法公式中Uij为因素Ui与Uj相对于X的重要性的比例标度,且Uij=1;基于标度法公式,以上一层次的某因素为准则,对下一层次诸因素有支配关系,通过两两比较下一层次诸因素对上一层次某因素的相对重要性,并赋予一定的分值。在步骤六中,计算判断矩阵的最大特征值所对应的正规化的特征向量,该计算过程包括:1)计算n阶判断矩阵P每行所有元素的乘积的n次方根,得到向量V=[V1,V2…Vn]T,其中,2)将向量V作归一化处理,得到相应的特征向量,也就是相对权重向量W=[W1,W2…Wn]T,其中,3)计算判断矩阵P的最大特征值,得其中,(PW)i是权重向量W右乘判断矩阵P得到的列向量PW中的第i个分量;λmax用于对判断矩阵的一致性检验。在步骤九中,利用SPSS对打分结果进行相关性分析,得出各指标之间的相互关系及影响度,打分结果应当符合正态分布。本发明的一种基于税务大数据分析的信用评估方法,与现有技术相比具有的有益效果是:1)本发明能够更准确及时的将纳税人行为通过信用得分来体现,更好的约束及规范纳税人办税行为;尤其针对传统纳税信用评价基于行为数据的总结时即使发现失信行为也无法实施有效管理的问题,可以解决纳税信用评价的滞后性;2)本发明可应用于银行借贷、物品租赁等金融行业来规避风险,优化资源配置,还可以用于其他行政部分,对一些信用较好的人员开通绿色通道或提供其他便利,优化办事流程,提高办事效率。附图说明附图1是本实施例中将正态分布曲线下的面积划分成对应4份的结构示意图。具体实施方式为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下获得的所有实施例,都在本发明的保护范围之内。实施例一:本实施例提出一种基于税务大数据分析的信用评估方法,该信用评估方法包括如下步骤:步骤一、提取税务数据,将税务数据进行按照评价主体进行归一处理;步骤二、针对评价主体进行显著特征提取,将企业的非常规行为按照纳税人进行打标签,并通过群体画像的形式分析显著特征标签提取;步骤三、利用AI方式分析税务数据,选取指标并进行验证,基于验证通过的指标,将提取的显著特征进行场景化;步骤四、基于AHP建立指标体系递阶层次结构,将影响评价的各因素按照不同属性自上而下分解成目标层、准则层和标签层三个层次,且同一层次的各因素从属于上一层次的因素;步骤五、在指标体系递阶层次结构的基础上,根据上下层次之间的隶属关系构造判断矩阵;步骤六、根据步骤五构造的判断矩阵,计算判断矩阵的最大特征值所对应的正规化的特征向量,该特征向量即为本层次因素相对于上层次所属因素的相对重要性权重值;步骤七、根据步骤六计算得到个指标的权重,每个准则及指标都有一个权重系数,且每一层的权重系数之和等于1;步骤八、利用专家评分法根据各指标对整个体系中影响程度,为每一个指标设定初始值;步骤九、依据步骤一到步骤八货物的数据,构建信用评分模型,并抽样某地市的税务数据灌入信用评分模型进行训练,得到打分结果,根据打分结果不断调整信用评分模型的参数,并最终得到可以直接输出打分结果的新信用评分模型。在步骤一中,所述评价主体包括纳税人和办税人;A)所述评价主体为纳税人时,将数据信息按照纳税人进行归集;B)评价主体为办税人时,办税人员进行数据归集,数据归集方式包括:B1)若采集数据的系统进行了实名制,则按照实名为主线进行归集,与实名制的主体相关的信息都认为是该主体的信息;B2)若采集数据的系统未进行实名制,未实名制的信息则统一采用相同识别号或者身份证号为主线归集。在步骤二中,所述企业的非常规行为包括注销行为、非正常行为、逾期行为;利用大数据的打标签方法,人工标签或者自动标签企业的非常规行为。在步骤三中,基于验证通过的指标,将提取的显著特征进行场景化,其具体操作内容包括:1)删除取值变化小的指标,若某个特征90%的实例取值相等,就认为该指标作用不大,随后删除该取值变化小的指标;2)通过皮尔逊相关系数度量不同指标之间的相关性,尤其通过皮尔逊相关系数对连续指标之间的线性相关进行度量,减少冗余指标;3)采用距离相关系数,若距离相关系数为0,则判定这两个指标是各自独立的;4)对于离散型指标之间的相关性,采用Spearman相关系数进行度量,通过不同的相关系数计算方法,度量任意两个离散指标之间的相关性,根据相关性的大小进行单指标提取;5)基于机器学习模型的方法进行特征选择,采用决策树算法、随机森林算法、支持向量机算法至少一种算法对选择的特征进行打分,随后将打分结果运用到特征任务选择中,用来提取显著特征。在步骤四中,所述目标层评价结果量化预定目标;所述准则层表示支持预定目标的分项支撑,准则层分为三级:a)一级准则层分为基本特质-税务属性、行为偏好-涉税行为、历史信息-涉税历史、履约能力-遵从能力、税务关系-关联关系,以全面覆盖评价主体和税务数据范围为准;b)二级准则层,按照税务业务分类,登记、认定、优惠、证明、申报、征收、法制等,囊括纳税人或办税人的全部涉税行为;c)第三级为具体办理业务事项;所述标签层表示实现预定目标所采用的指标,标签层包含增值税申报、个人所得税缴纳、增值税专用发票领用各具体事项,标签层是整个分析系统的最小单位。在步骤五中,构造判断矩阵时,采用TLSaaty教授[1]提出的标度法:设对于某一准则X,几个比较因素构成了一个两两判断矩阵:u=(uij)n*n标度法公式其中,标度法公式中Uij为因素Ui与Uj相对于X的重要性的比例标度,且Uij=1;基于标度法公式,以上一层次的某因素为准则,对下一层次诸因素有支配关系,通过两两比较下一层次诸因素对上一层次某因素的相对重要性,并赋予一定的分值。在步骤六中,计算判断矩阵的最大特征值所对应的正规化的特征向量,该计算过程包括:1)计算n阶判断矩阵P每行所有元素的乘积的n次方根,得到向量V=[V1,V2…Vn]T,其中,2)将向量V作归一化处理,得到相应的特征向量,也就是相对权重向量W=[W1,W2…Wn]T,其中,3)计算判断矩阵P的最大特征值,得其中,(PW)i是权重向量W右乘判断矩阵P得到的列向量PW中的第i个分量;λmax用于对判断矩阵的一致性检验。在步骤九中,利用SPSS对打分结果进行相关性分析,得出各指标之间的相互关系及影响度,打分结果应当符合正态分布。在本实施例中,可以将得分结果与专家设定的等级得分对照表进行等级划分,例如评价等级为A、B、C、D,并进行如下列表布局:分值企业评级数量占比[100,90)AAiAp[90,80)BBiBp[80,60)CCiCp[60,0]DDiDp随后,根据正态分分布的3σ原则划分一个区间,区间需要满足Ap+Bp+Cp+Dp,。让3σ原则是指数值分布在区间(μ-3σ,μ+3σ)中。现在根据A、B、C、D级的企业占比将这个区间的正态分布曲线下的面积划分成对应的4份,参考附图1,计算对应的分位数,即附图1中三角形指示的x轴位置。3σ原则对应到标准正态分布的区间为(-3,3),通过查标准正态分布表,或Python的norm.ppf函数,可根据概率计算出对应的分位数,具体过程如下:1号三角形:概率p=1-0.0013=0.9987,分位数x值为3;2号三角形:概率p=1-0.0013-0.0156=0.9831,分位数x值为2.12;3号三角形:概率p=1-0.0013-0.0156-0.5991=0.384,分位数x值为-0.295;4号三角形:概率p=1-0.0013-0.0156-0.5991-0.1731=0.2109,分位数x值为-0.803。通过式子将分位数由范围[-3,3]压缩到[0,1],结果分别为1、0.853、0.451、0.366。最后根据实际计算的评分结果进行调试,不断修改评分权重直至符合正态分布。综上可知,采用本发明的一种基于税务大数据分析的信用评估方法,能够更准确及时的将纳税人行为通过信用得分来体现,更好的约束及规范纳税人办税行为,针对传统纳税信用评价基于行为数据的总结时即使发现失信行为也无法实施有效管理的问题,解决纳税信用评价的滞后性。以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容,并不用于限制本发明的保护范围,本发明的技术方案不限制于上述具体实施方式内。基于本发明的上述具体实施例,本
技术领域
的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1