一种面向企业行业分类的异常检测方法与流程

文档序号:17467491发布日期:2019-04-20 05:36阅读:340来源:国知局
一种面向企业行业分类的异常检测方法与流程

本发明属于数据挖掘领域,特别涉及一种基于tadm(two-levelanomalydetectionmodel,2层级异常检测模型)的面向企业行业分类的异常检测方法。



背景技术:

改革开放以后,我国国民经济快速发展,市场经济不断繁荣,国家的经济结构逐步完善,企业行业分工也逐渐细化。新时期,研究企业行业分类对于推进财政、税务、国家标准管理起到了基础性的作用,也为进一步分析国民经济行业和产业发展现状,把握国民经济发展趋势提供了依据。由国家质量监督检验检疫总局、国家标准化管理委员会发布的《国民经济行业分类》(gb/t4754-2017)提供了企业经济活动的行业分类与代码,具体包括97个行业大类和1380个行业明细。工商管理部门在企业登记注册时需要根据企业经营范围等信息确定企业所属的国民经济行业分类。然而现有的企业行业分类主要通过人工实现,受限于工作人员的专业知识和经验,当面临海量的企业分类任务时,往往会出现分类错误的情况。错误的企业行业分类会对国家的统计、税收、工商管理等工作产生一系列不良的影响,因此,如何利用计算机程序对企业行业分类异常的情况进行检测和识别,已成为一个亟待解决的问题。

目前尚未有相关研究对检测企业行业分类异常提出相应的解决方案。公开技术旨在建立通用的异常检测方法,代表性的工作为:

文献1:一种基于自动编码机的分布式离散点检测方法及系统(201410225026.6)

文献2:一种基于密度的局部离群点检测方法(201710559390.x)

文献3:一种多维数据异常检测方法及装置(201710411852.3)

文献1提出了一种基于自动编码机的分布式离群点检测方法,利用分布式计算技术更新自动编码机模型参数,并根据样本的重构误差进行异常检测。

文献2设计了一种基于密度的局部离散点检测方法,考虑了样本点与其邻域样本点的分散程度,根据样本点及其邻域样本之间的距离的期望和方差定义了k邻域分散度,利用k邻域分散度重新定义了局部离群系数,通过计算样本点的邻域密度判断样本是否异常。

文献3利用重构网络对高维数据进行异常检测,构建重构模型,根据多维重构数据判断样本的异常情况。

上述传统方法虽然可以解决其特定的异常检测问题,但是很难直接拓展至行业分类的异常检测问题上,原因在于行业分类的异常检测具有多类别、多层次的特点。其一,企业行业分类属于多分类问题,类别多样且数据量大使异常检测问题变得复杂。文献1和3的自编码网络结构过于简单,只有一个隐层,无法有效提取数据的详细特征,在大规模数据集下严重缺乏泛化能力;文献2利用k邻域分散度定义了局部离群系数,但是在行业类别多且行业信息数据量很大的情况下k值的选取变得异常困难。其二,企业行业大类和明细间具有分层隶属关系,二者之间分别隶属不同的层级,且行业明细是对行业大类的扩展细化,任一企业都对应一个行业大类和一个行业明细,各自需要不同信息粒度(反映信息的详细程度)的数据进行异常分析,文献1-3都没有针对行业分类多层级异常检测问题的解决方案。

针对行业大类和行业明细分属不同层级的现状,本专利引入深度自编码网络模型,深度自编码网络同样具有明显的层级特性,网络在编码和解码过程中,不同网络层的输出分别对应其不同特征空间,不同特征空间代表的信息粒度不同,这和行业分类的层级特性相匹配,因此利用深度自编码网络可以同时解决行业大类和行业明细的异常检测问题。



技术实现要素:

本发明旨在提供一种基于tadm的面向企业行业分类的异常检测方法。首先,提取纳税人行业信息中待挖掘的文本和非文本信息并进行特征处理和编码处理;其次,构建符合行业分类异常检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;再次,基于所构建的深层网络结构,采用不同的训练策略通过交叉验证分别训练行业大类和行业明细的网络;最后,利用行业大类网络的降维特性融合sos(stochasticoutlierselection,随机异常选择)算法对行业大类进行异常检测,根据行业明细网络的重构特性对行业明细进行异常检测,两个过程相互独立,实现了行业大类和行业明细的同步异常检测。

本发明采用如下技术方案来实现的:

一种面向企业行业分类的异常检测方法,包括:

首先,提取纳税人行业信息中待挖掘的文本和非文本信息并进行特征处理和编码处理;其次,构建符合行业分类异常检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;再次,基于所构建的深层网络结构,采用不同的训练策略通过交叉验证分别训练行业大类和行业明细的网络;最后,利用行业大类网络的降维特性融合sos异常检测算法对行业大类进行异常检测,根据行业明细网络的重构特性对行业明细进行异常检测。

本发明进一步的改进在于,具体包括以下实现步骤:

1)纳税人文本属性处理

分析纳税人行业信息表中的文本信息,提取具有代表性的文本属性,利用提取后的属性进行异常检测;

2)非文本属性处理

纳税人行业信息的非文本属性包含两部分:数值型属性和类别型属性;使用z-score标准化方法对数值型属性进行处理,使用one-hot对类别型属性进行编码;

3)异常指标生成和分析

异常指标生成和分析以深度学习的自编码网络为原型,根据不同层级行业信息包含不同信息粒度的理论,设计出了基于tadm的行业分类异常指标的计算方法;

4)异常评估

第一层级的行业大类异常指标由tadm网络和sos异常检测算法得到,该模型最终计算出每一个样本的异常概率,并给出异常概率阈值,所有纳税人特征样本的异常概率与该阈值比较,如果异常概率大于该阈值,判定样本为该行业大类中的异常数据;

第二层级的行业明细异常指标由tadm网络重构得到,模型最终计算出每一个样本的重构误差,并给出重构误差阈值,所有行业明细的样本重构误差和该阈值比较,如果重构误差大于该阈值,判定样本为行业明细中的异常数据。

本发明进一步的改进在于,步骤1)中,纳税人文本属性处理具体包括以下步骤:

step1.文本信息预处理

文本预处理是对纳税人行业信息进行规范化操作,具体的实施包括:(1)删除数据库中字符乱码;(2)删除文本属性中的数字及量词;(3)删除数据库null标识的数据;

step2.基于ansj分词器进行分词

基于国家经济行业分类构建行业分类专业词典以及基于全国省市区县地名大全和四级行政区划地名词库构建停用词词典,根据构建的停用词词典基于ansj分词器对文本进行分词,建立分词语料库;

step3.构建词向量

根据分词语料库中不同类别文本的所占比例,对所有的样本的词赋权重;筛选出权重较大的词,每个语料保留n个权重最大的关键词,利用word2vec工具将n个关键词转成词向量。

本发明进一步的改进在于,步骤2)中,纳税人行业信息的非文本属性处理包含两部分:数值型属性处理和类别型属性处理;

使用z-score标准化方法对数值型属性进行处理,具体步骤为:

step1.计算各个属性的均值

记u=(u1,u2,...,um)为均值向量,其中m表示数值型属性的种类数,ui表示第i个数值型属性的均值,其具体的计算形式为:

其中,n表示纳税人行业信息样本的数量,表示第i个样本的第j个数值型属性取值;

step2.计算各个属性的方差

记σ=(σ1,σ2,...,σm)为各个数值型属性的方差,其中m表示数值型属性的种类数,σi表示第i个数值型属性的方差,σi计算的具体形式为:

均值和方差是数值型属性的基本指标,通过均值和方差可对数值型属性做标准化处理;

step3.对数据进行标准化处理

根据前述两个步骤计算的数值型属性的均值和方差对样本数据进行标准化,具体形式为:

其中,是z-score处理后的结果,xi是第i个数值型属性对应的列向量,ui表示第i个数值型属性的均值,σi表示第i个数值型属性的方;

使用one-hot对类别型属性进行编码,详细步骤为:

step1.判断属性的离散取值个数,设该指标有m种离散值,采用m位状态寄存器对m个状态进行编码,每个状态都有其独立的寄存器位,并确保只有一位有效;

step2.设置m位的状态寄存器,每一个状态寄存器只有一位是1其余都是0,通过这种设置方式将类别型数据的差异转化为欧式空间中的距离;

step3.将m种状态编码分别和m种离散值一一对应,确定每个属性的取值都为一个m维向量,该向量表示属性取值的one-hot编码。

本发明进一步的改进在于,步骤3)中,该方法具体包括tadm网络的构建、行业大类异常指标的生成和行业明细异常指标的生成,如下:

step1.tadm网络构建

tadm网络共有五层神经网络,输入层和输出层神经元数量相同,且等于纳税人信息文本属性和非文本属性处理后数据的总维数,tadm网络以纳税人信息特征向量作为网络的输入,以重构结果作为网络的输出;

具体的,tadm网络采用标准的前馈神经网络,其权重更新采用bp神经网络算法,利用bp神经网络算法最小化整体的重构误差of并更新网络参数,其形式化表示为:

其中,ω表示网络参数,n表示样本个数,ofi表示第i个样本的重构误差,网络编码和解码的能力由网络参数ω决定;

step2.行业大类异常指标的生成

利用tadm网络中间网络层降维的特性,提取中间层的主元空间特征并融合sos异常检测算法进行行业大类的异常检测;

其中,sos异常检测算法是基于相似性的异常检测方法,通过计算异常概率判断样本是否异常,并选择合适的阈值作为异常数据评估的标准,sos异常检测算法的步骤包括:

(1)生成纳税人特征之间的相异度矩阵

针对纳税人特征,分别计算不同纳税人特征之间的相异度,相异度表示两个数据点之间的差异程度,具体描述为一种欧式距离的形式:

其中,原始数据的特征矩阵为x=(xij)n×m,x中每一行是一个样本的特征向量;n表示矩阵行数,具体表示为数据的样本个数;m表示矩阵列数,具体表示为每个样本的属性种类数目;相异度矩阵为d=(dij)n×n,矩阵中元素dij表示样本i和样本j的差异程度;

(2)通过相异度信息生成纳税人特征之间的关联度矩阵

用关联度表示每个纳税人特征和其他纳税人特征之间相关程度,关联度矩阵的具体生成方法为构建一个非线性映射,该映射可以将相异度矩阵d映射为关联度矩阵a;具体的映射关系为:

其中,是特征向量xi的方差,表示纳税人行业信息中第i个主元特征所对应数据的离散程度;aij是样本i和样本j之间的关联度;

(3)通过关联度信息生成纳税人特征之间的关联概率矩阵

纳税人特征之间的关联概率由矩阵b=(bij)n×n表示,关联概率矩阵的计算过程中每个样本抽象成图模型中的点,点与点之间边的权值代表关联概率;具体的,关联概率计算的形式化表示为:

其中,bij表示点i和点j之间的关联概率,且满足

(4)通过关联概率得出纳税人特征之间的异常概率

根据图理论,纳税人特征样本为异常点的概率具体表示为:该纳税人特征对应的图模型中的点入度为零的概率;通过样本之间的关联概率导出异常概率,其具体的计算方法为:

其中,p(xi∈outlier)表示样本xi是异常数据的概率,计算出样本异常概率后,根据给定阈值对行业大类异常实施评估;

step3.行业明细异常指标的生成

行业明细的异常检测要比行业大类需要更多的特征信息,step1构建的tadm网络具有对正常数据编码和解码能力,编码具体表示为将数据输入到网络并压缩至低维空间的过程,解码具体表示为将低维空间数据映射并输出至高维空间的过程;通过样本的重构误差判断行业明细的异常情况,重构误差的具体计算为:

其中,ofi表示第i个样本的重构误差,n表示输入层和输出层神经元的个数,xij表示第i个样本中的输入层的第j个神经元的值,oij表示第i个样本中输出层的第j个神经元的值。

本发明具有如下有益的技术效果:

本发明提供的一种面向企业行业分类的异常检测方法,为行业分类及其它企业行业数据分析问题提供更加准确、可靠的数据。改进了现有的异常检测技术,使其适用于解决行业异常检测问题。与现有技术相比,本发明的优点是:

(1)本发明结合纳税人的文本信息和非文本信息进行行业分类,现有的技术一般只进行文本信息的语义分析,存在信息使用不全面的缺点,本发明将文本信息进行自然语言处理,非文本信息进行特征向量化处理,综合了纳税人行业信息中重要的属性,对纳税人行业信息的利用更加全面。

(2)本发明巧妙地结合深度学习中的自编码网络模型进行行业分类的异常检测,公开了tadm异常检测方法,利用网络的重构特性进行行业明细的异常检测,并利用网络的降维特性辅助sos异常检测算法进行业大类的异常检测,有效解决了2层级的行业分类异常检测问题。

(3)网络结构可以复用,可以利用相同的网络结构分别对行业大类和行业明细进行异常检测,不需要重新设计网络结构。

附图说明

图1整体框架流程图。

图2文本属性处理流程图。

图3非文本属性处理流程图。

图4纳税人信息2层级异常数据示意图。

图5tadm模型进行两层级异常检测示意图。

图6tadm模型实施流程图。

图7行业大类异常指标计算流程图。

具体实施方式

以下结合附图和实施例对本发明做出进一步的说明。

选取某地区国税中2011年至2017年登记注册的纳税人信息,包含25个行业大类,112个行业明细的样本数据,每个行业大类下属多个不同的行业明细。以下参照附图,结合实验案例及具体实施方式对本发明作进一步的详细描述。凡基于本发明内容所实现的技术均属于本发明的范围。

如图1所示,本专利的具体实施中,对纳税人行业2层级分类的异常检测过程包括以下步骤:

步骤1.文本属性处理

纳税人行业信息表中有很多可用于行业分类的有价值的信息和知识,其中部分信息以文本的方式存在数据库中。登记纳税人信息和登记纳税人信息扩展表中提取出9种文本属性包括:{hy_dm,zy,jy,jyfs,cwbbzl,fshy1_dm,fshy2_dm,fshy3_dm,jyfw},代表含义分别为:{行业代码,主营,兼营,经营方式,财务报表种类,国标附属行业1,国标附属行业2,国标附属行业3和经营范围}。文本属性处理实施过程如图2,具体包括以下步骤:

s101.文本信息预处理

对纳税人行业信息进行规范化处理,具体的实施包括:(1)删除数据库中字符乱码;(2)删除文本中的数字及量词;(3)删除null标识的数据。

s102.基于ansj分词器进行分词

纳税人登记信息中的人名、地名、行业描述等词汇往往超过分词工具自带词典的涵盖能力。为了防止纳税人信息分词过程中被分割成语义不完整的单词碎片,根据国家经济行业分类标准构建行业分类专业词典,根据全国省市区县地名大全和四级行政区划地名词库构建纳税人信息中地名的停用词词典,依据构建的停用词词典基于ansj分词器对文本属性进行分词,生成分词后的语料库。

本实施例中,根据收集的国家经济行业分类标准专业词典和地名词典,每条语料使用ansj分词器进行分词,去停用词。例如,本实施例中某公司的jyfw(经营范围)属性值为:“节能环保产品、设备及配件,建筑装饰材料、通信设备、机械设备、五金交电、电子产品、日用百货的销售,计算机软硬件的开发及销售,保洁服务”。分词后,文本信息被分成独立的词,分词的结果为:“节能环保产品设备配件建筑装饰材料通信设备机械设备五金交电电子产品日用百货销售计算机软硬件开发销售保洁服务”。

s103.构建词向量

根据语料库中不同类别词语所占的比例,对所有样本的词赋权重,筛选出权重较大的词,每个样本的文本保留n个权重最大的关键词。本实施例确定n=25,最后使用word2vec工具将每个样本的25个词语转化成数值向量。

步骤2.非文本属性处理

纳税人登记信息数据库中除了文本信息还包括一些非文本信息,非文本信息中存在更直观的特征,这些非文本信息对于纳税人行业分类、聚类分析及异常检测同样具有重要价值。

如图3所示,本实施例非文本属性详细的处理步骤包括:

s201.数值型属性处理

数值型属性的取值虽然可以直接用来计算,但是由于不同属性的性质不同,通常具有不同的量纲和数量级。为了保证经过处理后的数据的分布尽量符合正态分布,且消除不同量纲带来的影响。本实施例采用z-score方法对数值型属性进行处理。

查询纳税人行业信息数据库中登记纳税人信息和登记纳税人信息扩展表。提取出数值型属性{zczb,tzze,cyrs,wjrs,hhrs,gdrs,zrrtzbl,wztzbl,gytzbl},对应的含义分别为:{注册资本,投资总额,从业人数,外籍人数,合伙人数,固定人数,自然人投资比例,外资投资比例,国有投资比例},然后对上述9个数值型属性进行z-score处理。

具体的,在本实施例中,z-score过程的具体计算形式为:

其中,xi是纳税人信息的第i个数值型属性取值的向量,ui表示第i个数值型属性的均值,σi表示第i个数值型属性的方差,是z-score处理后的向量。经过z-score处理后的数值型属性的数据分布接近标准正太分布。

s202.类别型属性特征处理

在异常检测算法中,数据之间距离的度量是必要的,然而类别型属性的取值是离散的,离散型取值具体代表一种标识而非数值大小,需要对类别型属性重新进行编码,编码后的属性值可以进行距离的度量。

查询纳税人行业信息数据库中登记纳税人信息和登记纳税人信息扩展表,提取7维类别型属性:{djzclx_dm,zjg_bz,gghbz,zzlb_dm,hymx_dm,sfclgjxzjzhy,dzfpqy_bz},对应的含义分别为:{登记注册类型,总结构标志,是否属于国税、地税共管户,执照类别代码,行业明细代码,是否从事国家限制和禁止行业,电子发票企业标志},对上述类别型属性进行编码处理。

本实施例采用one-hot技术对上述7种类别型属性进行编码。所述one-hot编码的过程以属性zjg_bz(总机构标志)为例,编码详细步骤为:

(1)判断总机构标志的离散取值个数,根据纳税人行业信息表,该属性取值有3种,y(总机构),n(非总机构)和f(分支机构)。

(2)设置3位的状态寄存器,每一个状态寄存器只有一位是1其余都是0,设置的3位状态码分别是{001,010,100}。

(3)将3种状态码分别和3种离散值相对应,y(总机构),n(非总机构)和f(分支机构)分别对应001,010和100,确定最终总机构标志的one-hot编码。

s203.合并特征向量

非文本属性和文本属性经过步骤s201和s202处理后,得到可用于计算的特征向量,将这些特征向量合并到一个空间,构成完整的样本特征。

步骤3.异常指标生成和分析

首先对异常检测的具体任务进行详细说明,本实施例以2层级分类为例,但实际中本发明的应用范围不只限制在2层级分类的异常检测。图4是2层级行业分类的异常数据示意图。p和q是第一层级行业大类的两个簇,在一级簇q中,a、b、c、d和e是第二层级行业明细的簇,样本a和样本f是簇q中行业大类的异常数据。样本e是二级簇d中的一个行业明细异常数据,样本m是二级簇a中的一个行业明细异常数据。同样的,在一级簇p中,f、g、h、j和t是第2级行业明细分类的簇,样本q是p中的行业大类异常数据,样本t是二级簇j中的一个行业明细异常数据。本发明最终的目的是识别出行业大类和行业明细的异常数据,并在原始数据中将这些异常数据去除,为纳税人行业分类提供更准确、更可靠的原始数据。

如图5所示的异常指标生成和分析示意图,此部分包括深度自编码网络构建、行业大类异常指标生成以及行业明细异常指标生成三部分。行业大类异常指标生成过程中,深度自编码网络中间层提取行业大类主元特征,然后利用主元特征融合sos异常检测算法实现行业大类异常指标的计算。行业明细异常指标生成过程中,自编码网络输出每个样本的重构结果,作为行业明细的异常指标。异常指标生成和分析的构建步骤如图6所示,详细的构建流程包括:

s301.网络结构设计

首先确定tadm网络结构,根据步骤2得到的样本特征空间的维数确定tadm网络的输入和输出神经元个数,样本特征空间的维数和图5中n相等,本发明设计了5层的网络。输入层和输出层都是n个神经元,本实施例最终确定n为65。第二层是隐层网络,网络中神经元个数为m,本实施例中经过实验最终确定m为30。第三层是中间隐层网络,该层网络输出的结果将作为行业大类异常检测的依据,本实施例中确定k为12。第四层网络和第二层网络结构相同。输出层神经元个数和输入层相同,各层网络均采用全连接的方式连接。

最终tadm网络训练得到用于异常检测的模型,由网络参数ω决定,该模型具备对样本空间中的正常数据编码和解码的能力,正常的样本更容易被网络从输入端复制到输出端,而异常数据和正常数据分布差异较大,网络对其重构的效果不显著,故利用该模型的这个特点可以进行异常检测和识别。模型训练过程中行业大类和行业明细异常检测虽然采用不同的训练策略,但二者可以共用网络结构,因此tadm不需要重新设计网络结构。

s302.网络参数设定

tadm网络结构确定后,需要确定具体的网络参数。本实施例中所有的网络层都是全连接网络,第二层和第四层的激活函数采用双曲正切函数形式,其形式化表示为:

f(x)=tanh(x)

中间层网络的激活函数设置和其它层的不同,该层网络的激活函数为类阶梯型的激活函数,形式化表示为:

其中,k表示网络层的索引,n具体表示为激活函数的阶梯数,a参数控制从一个阶梯到下一个阶梯的跃迁率。具体的,本实施例中n=10,k=3,a=100。上述激活函数将数据量化为n个离散的值:将原本连续的数据映射到离散值的向量空间中,实现了数据压缩的目的。

输出层采用sigmoid激活函数,形式化表示为:

s303.网络训练策略

本实施例选取25个行业大类和行业大类下属的112个行业明细数据进行实验。网络训练的过程将数据按照6:1:1的比例划分训练集、验证集和测试集,然后利用交叉验证法训练tadm网络。针对不同的任务训练不同的网络参数,行业大类和行业明细的异常检测采用的训练策略不同。

具体的,在行业明细的异常检测中,每一个行业大类下属的行业明细训练一个网络,本实施例中称为tiny-neti,i表示对应行业大类的索引。tiny-neti具体表示为针对第i个行业大类下属行业明细的异常检测的网络。每个tiny-neti按6:1:1的比例制划分练集、验证集和测试集,并训练对应的网络更新网络参数,然后对该行业大类下属行业明细进行异常检测。

行业大类的异常检测单独训练一个网络,本实施例中称为large-net。该网络训练需要数据库中25个行业大类所有的数据。具体的数据使用策略为:每个行业大类中的数据按6:1:1的比例随机抽取数据,然后将每个行业大类提取的数据合并,利用合并后的数据采用交叉验证法训练large-net。

s304.行业大类异常指标的生成

数据在高维空间中分布相对低维空间更加离散化,会丢失分簇的特性,导致异常数据难以被检测。行业大类的异常检测需要对原始数据进行降维,提取主元空间信息。

由步骤s303得到的large-net网络具备提取样本主元特征的能力。行业大类异常检测重点应用large-net的第三层,第三层网络提取主元特征后融合sos异常检测算法进行行业大类异常检测,所述sos异常检测算法流程如图7,检测的详细步骤为:

(1)生成纳税人特征之间的相异度矩阵

由large-net将25个行业大类的纳税人行业信息数据进行降维,降维后的主元特征矩阵为x。相异度矩阵用d=(dij)n×n表示,矩阵元素dij表示第i个样本和第j个样本的差异程度。

本实施例中相异度是一种欧式距离的形式,其形式化表示为:

其中,xij表示第i个样本的第j个特征的取值,n表示样本个数,m表示每个样本的特征向量的维数。

(2)通过相异度信息生成纳税人特征之间的关联度矩阵

纳税人特征之间关联度由矩阵a=(aij)n×n表示,生成关联度矩阵的具体方法是构建一个非线性映射,该映射将相异度矩阵d映射为关联度矩阵a,具体的映射形式为:

其中,是主元特征向量xi的方差,具体表示为纳税人行业信息中第i个主元特征所对应数据的离散程度,aij表示样本i和样本j之间的关联度。

(3)通过关联度信息生成纳税人特征之间的关联概率矩阵

纳税人特征之间关联概率由矩阵b=(bij)n×n表示,关联概率矩阵的计算过程中每个样本抽象成图模型中的点,点与点之间边的权值代表关联概率。本实施例中,关联概率计算形式化表示为:

其中,bij表示点i和点j之间的关联概率,且满足

(4)通过关联概率得出纳税人特征之间的异常概率

根据图理论,样本为异常点的概率具体表示为该点入度为零的概率。通过纳税人特征之间的关联概率导出异常概率,其具体的计算方法为:

其中,p(xi∈outlier)表示样本xi是异常数据的概率,计算出样本异常概率后,根据给定阈值对行业大类数据的异常实施评估。

s305.行业明细异常指标的生成

由s303得到的各个行业大类的tiny-neti(i表示行业大类索引)具备对行业明细数据进行自编码的能力。tiny-neti对行业大类i中所有行业明细样本进行自编码处理,对行业明细样本计算重构误差,其形式化表示为:

其中,n表示输入层和输出层神经元的个数,xij表示第i个样本在输入层中第j个神经元的取值,oij表示第i个样本在输出层的第j个神经元的取值。

步骤4.异常评估

tadm模型构建完成后需要给出异常结果。tadm模型对行业大类和行业明细的异常指标分别给出了具体的计算方案,但是模型得出的异常指标并不能直接给出数据是否异常的结论,需要对结果做进一步的评估。

在行业大类的异常检测评估中,对行业大类设置异常概率阈值θ,如果样本的异常概率值p大于该阈值,判定该样本为行业大类的异常数据。本实施例中异常概率阈值θ为0.15。

在行业明细的异常检测评估中,对行业明细设置重构误差阈值ε,如果样本的重构误差大于ε,判定该样本为异常数据。本实施例中ε设置为0.08。

步骤5.异常数据输出

综合步骤4中行业大类和行业明细的评估结果,对纳税人行业信息的异常数据进行标记,输出异常数据编号。在原始数据中将标记异常的数据删除,为行业分类任务提供更准确、更可靠的数据。

本领域的技术人员容易理解,以上所述仅为本发明的方法实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1