出口骗税企业的检测方法、装置、设备及存储介质与流程

文档序号:30434767发布日期:2022-06-15 19:12阅读:218来源:国知局
出口骗税企业的检测方法、装置、设备及存储介质与流程

1.本公开涉及数据分析技术领域,尤其涉及一种出口骗税企业的检测方法、装置、设备及存储介质。


背景技术:

2.近年来,出口骗税企业通过对企业所生产或者经营的商品假报出口等欺骗手段,来骗取国家出口退税款而获利,严重损坏了国家利益,因此,对出口骗税企业的精准检测对于遏止骗取出口退税的行为具有重要意义,可以有效提高税收征管和稽查工作的效率。
3.目前关于出口骗税企业的检测主要是基于专家评价指标体系的检测方案,但是,评价指标的选取、指标权重和风险定性阈值的设定工作非常依赖税务专家的领域经验,导致检测的准确率和效率低下。


技术实现要素:

4.为了解决上述技术问题,本公开提供了一种出口骗税企业的检测方法、装置、设备及存储介质。
5.本公开实施例的第一方面提供了一种出口骗税企业的检测方法,该方法包括:获取企业的税务数据;对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征;将特征输入预设的出口骗税企业检测模型,基于出口骗税企业检测模型进行出口骗税企业检测。
6.本公开实施例的第二方面提供了一种出口骗税企业的检测装置,该装置包括:获取模块,用于获取企业的税务数据;提取模块,用于对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征;检测模块,用于将特征输入预设的出口骗税企业检测模型,基于出口骗税企业检测模型进行出口骗税企业检测。
7.本公开实施例的第三方面提供了一种计算机设备,该计算机设备包括存储器和处理器,其中,存储器中存储有计算机程序,当计算机程序被所述处理器执行时,实现上述第一方面的出口骗税企业的检测方法。
8.本公开实施例的第四方面提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,当计算机程序被处理器执行时,实现上述第一方面的的出口骗税企业的检测方法。
9.本公开实施例提供的技术方案与现有技术相比具有如下优点:
10.本公开实施例,通过获取企业的税务数据;对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征;将特征输入预设的出口骗税企业检测模型,基于出口骗税企业检测模型进行出口骗税企业检测,减少了对人工检测经验的依赖,提高了出口骗税企业检测的准确性和检测效率,能够适用于不断更新的骗税手法的检测。
附图说明
11.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
12.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
13.图1是本公开实施例提供的一种出口骗税企业检测方法的流程图;
14.图2是本公开实施例提供的一种梯度提升模型xgboost模型的原理示意图;
15.图3是本公开实施例提供的一种出口骗税企业检测模型训练方法的流程图;
16.图4是本公开实施例提供的一种出口骗税企业检测装置的结构示意图。
具体实施方式
17.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
18.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
19.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
20.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
21.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
22.本公开实施例提供的出口骗税企业的检测方法和出口骗税企业检测模型的训练方法,可以由一种计算机设备来执行,该计算机设备可以被理解为任意一种具有处理能力和计算能力的设备,该计算机设备可以包括但不限于诸如智能手机、笔记本电脑、个人数字助理(pda)、平板电脑(pad)、便携式多媒体播放器(pmp)、可穿戴设备等的移动终端,以及诸如数字tv、台式计算机、智能家居设备等的固定电子设备。
23.本公开实施例中的出口骗税企业可以理解为采取对所生产或者经营的商品假报出口等欺骗手段,骗取国家出口退税款的行为的注册纳税实体。
24.出口骗税企业的检测可以理解为在海量注册纳税实体中对潜在的出口骗税企业进行有效识别,相关技术中,对出口骗税企业检测的方案主要是基于专家评价指标体系的
检测方案,基于评价指标体系的检测方案的检测性能取决于评价指标的选取、指标权重的设定以及风险定性阈值的设定三项主要工作,但是评价指标的选取、指标权重和风险定性阈值的设定工作非常依赖税务专家的领域经验,指标阈值的确定是基于专家经验进行的,是一个固定数值,该阈值设定策略难以适应骗税手法的变化更新,导致检测方案对于新型骗税手法的适应性较差。
25.针对相关技术在出口骗税企业的检测方法方面存在的缺陷,本公开实施例提供了一种出口骗税企业的检测方法、装置、设备及存储介质,有效减少了对人工检测经验的依赖,提高了出口骗税企业检测的准确性和检测效率,能够适用于不断更新的骗税手法的检测。
26.为了更好的理解本公开实施例的发明构思,下面结合示例性的实施例对本公开实施例的技术方案进行说明。
27.图1为本公开实施例提供的一种出口骗税企业的检测方法的流程图,如图1所示,本实施例提供的出口骗税企业的检测方法包括如下步骤:
28.步骤101、获取企业的税务数据。
29.本公开实施例中的企业指正常在税务机关登记、注册的纳税实体。
30.本公开实施例中的税务数据可以理解为纳税企业的税务相关数据,可以包括企业的增值税发票的开票数据以及进票数据等数据、企业的供应商数据、企业人员信息、收入金额和支出金额等数据。
31.本公开实施例中,可以通过税务大数据平台获取企业的税务数据,这里的税务大数据平台可以包括国家税务局的数据库,也可以包括其他税务数据库,这里不作限定。
32.在本公开的另一些实施例中,为降低税务数据中存在的偶然性,可以获取企业在预设时段内的税务数据,其中预设时段可以根据需要自行设定,这里不作具体限定。
33.步骤102、对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征。
34.在本公开的一些实施例中,在对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征之前,可以对获取的税务数据进行预处理,预处理的方式至少包括缺失值处理、异常值处理、量纲处理、去重处理、噪声处理中的一种。
35.本公开实施例中的缺失值可以理解为税务数据中由于某种原因造成缺失的数据,可以理解,存在缺失值的数据是不完整的数据。缺失值的产生原因主要包括机械原因和人为原因,其中,机械原因是由于机械本身导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障等导致的某个数据未能收集。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,数据录入人员失误漏录了数据。
36.在一些实施例中,当缺失值在税务数据中的比例大于等于预设比例阈值时,可以认为该税务数据会降低检测的准确性,可以对该税务数据进行剔除处理;当缺失值在税务数据中的比例小于第一预设比例阈值时,可以认为该税务数据不会影响检测的准确性,即可以保留该税务数据,在另一些实施例中,当缺失值在税务数据中的比例小于预设比例阈值时,可以对该税务数据中的缺失值进行数据补充,以使该税务数据完整。
37.本公开实施例中的异常值可以理解为错误的数据,产生原因可以包括数据录入人员失误录错了数据等。在一些实施例中,当异常值在税务数据中的比例大于等于第二预设比例阈值时,可以认为该税务数据会降低检测的准确性,可以对该税务数据进行剔除处理;
当异常值在税务数据中的比例小于第二预设比例阈值时,可以认为该税务数据不会影响检测的准确性,即可以保留该税务数据。
38.本公开实施例中的量纲可以理解为数据的物理量固有的、可度量的物理属性,每一个数据的物理量都只有一个量纲。量纲处理可以理解为将各个数据的量纲统一为同一个量纲,例如将金额的单位“美元”统一转换为“人民币”,方便后续的计算。
39.本公开实施例中的去重处理可以理解为去除重复出现的数据。
40.本公开实施例中的噪声处理可以理解为去除与税务数据不相关的数据。
41.本公开实施例通过对税务数据进行预处理,可以实现数据的标准化,降低数据因素对出口骗税企业检测模型推理性能的影响。
42.本公开实施例中的与出口退税行为相关的特征至少包括如下一种:接收到的虚开的专票的总金额占接收到的专票的总金额的占比、接收到的异常户的专票的总金额占接收到的专票的总金额的占比、在第一时间段内和第二时间段内的相同供应商的第三数量与第一时间段内的供应商的第一数量和第二时间段内的供应商的第二数量的和值的比值、第二出口额相对于第一出口额的变化量、出口业务的收入金额与出口业务的支出金额的差值占出口业务的支出金额的比例、风险人员的数量占涉税人员的数量的比例和供应商的总数量。
43.本公开实施例中,税务数据中可以包括接收到的专票的数据,以及接收到的专票中包括的虚开的专票的数据。对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征,可以包括:基于税务数据,确定接收到的专票的总金额和接收到的虚开的专票的总金额;将接收到的虚开的专票的总金额占接收到的专票的总金额的占比,确定为企业与出口退税行为相关的特征。
44.具体的,接收到的虚开的专票的总金额占接收到的专票的总金额的占比可以理解为企业接收到的虚开的专票的总金额在接收到的专票的总金额中的比例,反映出了企业接收虚假增值税专用发票的情况,可以作为企业假报出口骗取退税款的特征之一,企业接收虚开专票金额占比越大,可以认为企业为出口骗税企业的风险越大。
45.接收到的专票的总金额可以理解为企业接收的增值税专用发票的总金额,其中,增值税专用发票是由国家税务总局监制设计印制的,只限于增值税一般纳税人领购使用的,既作为纳税人反映经济活动中的重要会计凭证又是兼记销货方纳税义务和购货方进项税额的合法证明,是增值税计算和管理中重要的决定性的合法的专用发票。
46.接收到的虚开的专票的总金额可以理解为企业接收的虚开增值税专用发票的金额,其中,虚开增值税专用发票是指开票人为了取得非法所得或者牟取其他私利的目的,在本人没有货物销售或没有提供应税劳务的情况下而开具专用发票,或者即使有货物销售或者提供了应税劳务但开具内容不实的专用发票直接给受票方,用以骗取抵扣税款或出口退税的行为。
47.在与出口退税行为相关的特征包括接收到的虚开的专票的总金额占接收到的专票的总金额的占比时,计算接收到的虚开的专票的总金额占接收到的专票的总金额的占比的计算公式可以为:
48.49.其中,vec1表示企业接收到的虚开的专票的总金额占接收到的专票的总金额的占比,ni表示企业接收到的虚开的专票的总金额,no表示企业接收到的专票的总金额。
50.本公开的另一些实施例中,税务数据可以包括接收到的专票的数据,以及接收到的专票中包括的异常户的专票的数据。对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征,可以包括:基于税务数据,确定接收到的专票的总金额和接收到的异常户的专票的总金额;将接收到的异常户的专票的总金额占接收到的专票的总金额的占比,确定为企业与出口退税行为相关的特征。
51.具体的,接收到的异常户的专票的总金额占接收到的专票的总金额的占比可以理解为企业接收到的异常户的专票的总金额在接收到的专票的总金额的比例,从另外一个维度反映了企业接收专票的状况,是骗税企业的重要特征之一,也反映了企业上游供应商的经营情况,企业接收到的异常户的专票的总金额占接收到的专票的总金额的占比越大,可以认为企业为出口骗税企业的风险越大。
52.本公开实施例中,接收到的异常户的专票的总金额可以理解为企业接收的异常户增值税专用发票供货金额,其中,异常户包括非正常户和注销户,非正常户可以理解为税务数据存在问题的企业,例如存在虚开专票行为、出口骗税行为的企业、未按规定纳税的企业等;注销户可以理解为在税务登记机关注销登记信息的企业。
53.在与出口退税行为相关的特征包括接收到的异常户的专票的总金额占接收到的专票的总金额的占比时,计算接收到的异常户的专票的总金额占接收到的专票的总金额的占比的计算公式可以为;
[0054][0055]
其中,vec2表示企业接收到的异常户的专票的总金额占接收到的专票的总金额的占比,n
off
表示企业接收到的异常户的专票的总金额,no表示企业接收到的专票的总金额。
[0056]
本公开的另一些实施例中,税务数据中可以包括企业在第一时间段内的供应商的第一数量,以及企业在第二时间段内的供应商的第二数量,以及企业在第一时间段内和第二时间段内的相同供应商的第三数量。
[0057]
对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征,可以包括:确定第二数量与第一数量的和值;将第三数量与第二数量与第一数量的和值的比值,确定为企业与出口退税行为相关的特征。
[0058]
具体的,第三数量与第二数量与第一数量的和值的比值可以理解为供应商的变动系数,反映了企业的供应商在第一时间段和第二时间段内的变化幅度,是骗税企业的重要特征之一,企业供应商的第三数量与第二数量与第一数量的和值的比值越大,即供应商变动系数越大,可以认为企业为出口骗税企业的风险越大。
[0059]
本公开实施例中的供应商可以理解为向企业及其竞争对手供应各种所需资源的企业和个人,包括提供原材料、设备、能源、劳务等。
[0060]
在与出口退税行为相关的特征包括第三数量与和值的比值时,第三数量与和值的比值的计算公式可以为:
[0061][0062]
其中,vec3表示企业的第三数量与第二数量与第一数量的和值的比值,a表示企业第一时间段内供应商的集合,b表示企业第二时间段内供应商的集合,分母表示企业在第一时间段内的供应商的第一数量和第二时间段内的供应商的第二数量的和值,分子表示企业在第一时间段内和第二时间段内的相同供应商的第三数量。
[0063]
本公开的另一些实施例中,税务数据中可以包括企业变更法定代表人之前的第一出口额和变更法定代表人之后的第二出口额。
[0064]
对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征,可以包括:确定第二出口额相对于第一出口额的变化量;将第二出口额相对于第一出口额的变化量确定为企业与出口退税行为相关的特征。
[0065]
本公开实施例中的法定代表人指依法律或法人章程规定代表法人行使职权的负责人,其中,法人是具有民事权利能力和民事行为能力,依法独立享有民事权利和承担民事义务的组织。
[0066]
具体的,当第二出口额相对于第一出口额的变化量大于0时,变化量表示第二出口额相对于第一出口额增加的额度,当第二出口额相对于第一出口额的变化量小于0时,变化量表示第二出口额相对于第一出口额减小的额度,当第二出口额相对于第一出口额的变化量的绝对值大于预设变化阈值时,可以认为法定代表人变更前后出口额出现突变,其中,预设变化阈值可以根据实际情况选取,这里不作具体限定。第二出口额相对于第一出口额的变化量反映了企业法定代表人变更前后出口额的变化情况,可以作为企业与出口退税行为相关的特征之一,第二出口额相对于第一出口额的变化量的绝对值越大,可以认为企业为出口骗税企业的风险越大。
[0067]
在与出口退税行为相关的特征包括第二出口额相对于第一出口额的变化量时,第二出口额相对于第一出口额的变化量的计算公式可以为:
[0068]
vec4=e
1-e0[0069]
其中,vec4表示第二出口额相对于第一出口额的变化量,e0表示企业变更法定代表人之前的第一出口额,e1表示企业变更法定代表人之后的第二出口额。
[0070]
本公开的另一些实施例中,税务数据中可以包括企业在预设时间内的出口业务的支出金额的数据和出口业务的收入金额的数据。
[0071]
对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征,可以包括:确定出口业务的收入金额与出口业务的支出金额的差值;将差值的绝对值占出口业务的支出金额的比例,确定为企业与出口退税行为相关的特征。
[0072]
具体的,当企业的出口业务的收入金额与出口业务的支出金额的差值占出口业务的支出金额的比例小于或等于零时,此时企业处于亏损或不盈利的状态,表示企业盈利异常,其中,预设比例阈值可以根据实际需要设置,这里不作具体限制。企业盈利异常是判定出口企业是否骗税的一个重要指标,对处于亏损或不盈利的状态的企业,说明退税利润是供货企业享受的,出口企业实际上是供货企业的出口“代理”而不是正常的自营,出口业务的收入金额与出口业务的支出金额的差值占出口业务的支出金额的比例可以作为企业与
出口退税行为相关的特征之一,出口业务的收入金额与出口业务的支出金额的差值占出口业务的支出金额的比例越小,可以认为企业为出口骗税企业的风险越大。
[0073]
在与出口退税行为相关的特征包括出口业务的收入金额与出口业务的支出金额的差值占出口业务的支出金额的比例时,出口业务的收入金额与出口业务的支出金额的差值占出口业务的支出金额的比例的计算公式可以为:
[0074][0075]
其中,vec5表示出口业务的收入金额与出口业务的支出金额的差值占出口业务的支出金额的比例,m
in
表示出口业务的收入金额,m
out
表示出口业务的支出金额。
[0076]
本公开的另一些实施例中,税务数据中可以包括涉税人员的数据,以及涉税人员中涉税风险指数超过预设阈值的风险人员的数据。
[0077]
对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征,可以包括:基于涉税人员的数据以及风险人员的数据,确定涉税人员的数量和风险人员的数量;将风险人员的数量占涉税人员的数量的比例,确定为企业与出口退税行为相关的特征。
[0078]
具体的,预设阈值可以根据实际需要设置,这里不作具体限制。
[0079]
本公开实施例中的涉税人员可以理解为与企业税务数据相关的人员,可以包括企业的法定代表人、办税员、财务负责人等人员,可以通过抽取企业人员的身份证件信息等数据识别涉税人员。
[0080]
风险人员的数量占涉税人员的数量的比例对企业骗税风险的量化具有重要意义,风险人员的数量占涉税人员的数量的比例可以作为企业假报出口骗取退税款的特征之一,风险人员的数量占涉税人员的数量的比例越大,可以认为企业为出口骗税企业的风险越大。
[0081]
本公开的另一些实施例中,税务数据中可以包括企业在预设时间内的供应商的总数量。
[0082]
对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征,可以包括:将供应商的总数量确定为企业与出口退税行为相关的特征。
[0083]
具体的,供应商的总数量可以理解为在预设时间内的供应商总量的多少,出口骗税企业为了防止被相关部门查到出口骗税行为,一般情况下会频繁更换供应商,导致在预设时间内的供应商的总数量较多,因此,供应商的总数量可以作为企业与出口退税行为相关的特征之一,若企业在预设时间内的供应商的总数量越多,可以认为企业为出口骗税企业的风险越大。
[0084]
本公开实施例,通过对企业的税务数据进行特征提取处理,得到企业与出口退税行为相关的特征,可以实现对企业出口退税行为的精准刻画。
[0085]
步骤103、将特征输入预设的出口骗税企业检测模型,基于出口骗税企业检测模型进行出口骗税企业检测。
[0086]
在本公开的一些实施例中,在得到企业与出口退税行为相关的特征之后,需对特征数据进行编码处理,获得特征对应的特征向量,然后将特征向量输入预设的出口骗税企业检测模型,基于出口骗税企业检测模型进行出口骗税企业检测。
[0087]
在另一些实施例中,在得到企业与出口退税行为相关的特征之后,可以将特征输
入预设的出口骗税企业检测模型,出口骗税企业检测模型可以首先对特征数据进行编码处理,获得特征对应的特征向量,然后模型基于特征向量,进行出口骗税企业检测。
[0088]
本公开实施例,通过预设的出口骗税企业检测模型,综合评估各个特征对企业出口骗税行为影响的大小,可以得到企业为出口骗税企业的概率,将得到的概率大于预设概率阈值的企业确定为出口骗税企业,其中,预设概率阈值可以根据实际需要进行设置,这里不作具体限制。
[0089]
本公开实施例中的出口骗税企业检测模型可以包括xgboost(extreme gradient boosting,梯度提升模型)模型,xgboost模型是一种有监督的梯度提升学习模型,可以理解为一种专注于梯度提升算法的机器学习函数库,此函数库拥有优良的学习效果以及高效的训练速度。xgboost模型可以包括多棵不同的特征预测树,每棵树可以选择不同的特征和针对每个特征的判断标准,将不同的特征划分到不同的位置,并对不同位置的特征进行打分,最后对所有树的打分进行求和,得到样本的预测值。
[0090]
首先使用训练集和样本真值训练一棵树,样本真值为样本的真实属性值,可以通过人为计算获得,然后使用这棵树预测训练集,得到每个样本的预测值,由于预测值与真值存在偏差,所以二者相减可以得到“残差”。接下来训练第二棵树,此时不再使用真值,而是使用残差作为标准答案。两棵树训练完成后,可以再次得到每个样本的残差,然后进一步训练第三棵树,以此类推,可以减小训练结果的误差,使训练结果更接近真值。树的总棵树可以人为指定,也可以通过监控某些指标来停止训练。在预测新样本时,每棵树都会有一个输出值,将这些输出值相加,即得到样本最终的预测值。xgboost模型作为出口骗税企业检测模型,具有良好的泛化性和鲁棒性,可以充分挖掘企业税务数据中与出口退税行为相关的特征数据蕴含的风险扩散因素,可以显著提高出口骗税企业检测的精确率以及召回率。
[0091]
例如,图2为梯度提升模型xgboost模型的一种原理示意图,现有5个样本,样本分别为a、b、c、d、e,每个样本表示一个人的数据,从样本的数据中进行特征提取,得到每个样本与喜欢计算机游戏相关的特征,包括人的年龄、性别、日常是否使用计算机等特征,将提取的特征输入该模型,用来得到某人喜欢计算机游戏的分数,分数越高,喜欢计算机游戏的概率越大。该模型包括两课树,树1和树2,将5个样本分别输入树1和树2,树1选取年龄和性别特征进行判断,树2选取日常是否使用计算机的特征进行判断。树1首先根据年龄是否小于15岁进行分类,若a、b的年龄小于15岁,其余大于等于15岁,则将a、b划分到位置203,c、d、e划分到位置204,并对位置204打分为-1;再根据性别对a、b进行分类,若a为男性,b为女性,则将a划分到位置205,并对位置205打分为+2,将b划分到位置206,并对位置206为打分为+0.1;树2根据日常是否使用计算机进行分类,若a、c日常使用计算机,其余日常不使用计算机,则将a、c划分到位置208,并对位置208打分为+0.9,其余划分到位置209,并对位置209打分为-0.9,则a喜欢计算机游戏的分数为2.9(2+0.9),b喜欢计算机游戏的分数为-0.8(+0.1-0.9-1-0.9),c喜欢计算机游戏的分数为-0.1(-1+0.9),d喜欢计算机游戏的分数为-1.9(-1-0.9),e喜欢计算机游戏的分数为-1.9(-1-0.9),则5个样本喜欢计算机游戏的概率由大到小排序为a》c》b》d=e。可以理解,图2只是对xgboost模型原理的示例性说明,而不是唯一说明。
[0092]
本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0093]
本公开实施例,通过获取企业的税务数据;对税务数据进行特征提取处理,得到企
业与出口退税行为相关的特征;将特征输入预设的出口骗税企业检测模型,基于出口骗税企业检测模型进行出口骗税企业检测,减少了对人工检测经验的依赖,提高了出口骗税企业检测的准确性和检测效率,能够适用于不断更新的骗税手法的检测。
[0094]
图3是本公开实施例提供的一种出口骗税企业检测模型训练方法的流程图,如图3所示,本实施例提供的出口骗税企业检测模型训练方法包括如下步骤:
[0095]
步骤301、获取多个出口骗税企业和多个非出口骗税企业的税务数据,构成原始数据集,将原始数据集划分成训练集、验证集和测试集。
[0096]
本公开实施例中,基于企业内的税务数据构建原始数据集,将非出口骗税企业的税务数据确定为正样本,将出口骗税企业的税务数据确定为负样本。
[0097]
本公开实施例中的税务数据可以通过税务大数据平台获取,这里的税务大数据平台可以包括国家税务局的数据库、公安系统的企业数据,也可以包括其他税务数据库,这里不作限定。企业是否为出口骗税企业也可以从税务大数据平台中确定,国家相关税务部门根据企业的历史税务行为数据确定企业是否为出口骗税企业,若企业为出口骗税企业,则将该企业录入出口骗税企业名单,并在税务大数据平台公布。
[0098]
在本公开的另一些实施例中,为降低税务数据中存在的偶然性,可以获取企业在预设时段内的税务数据,其中预设时段可以根据需要自行设定,这里不作具体限定。
[0099]
本公开实施例中,按照预设比例将原始数据集划分为训练集、验证集和测试集。基于训练集、验证集和测试集,采用交叉验证方式进行模型训练和参数调整。
[0100]
步骤302、对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征。
[0101]
本公开实施例中的具体步骤可以参考上述步骤102,这里不再赘述。
[0102]
步骤303、将特征输入模型进行训练,获得出口骗税企业检测模型。
[0103]
本公开实施例中,在得到企业与出口退税行为相关的特征之后,需对特征数据进行编码处理,获得特征对应的特征向量,将上述数据集中的正样本和负样本中的各个特征向量输入模型进行训练,使模型学习到各个特征分别对应的权重值,并基于权重值对各个特征进行打分,进而获得各个特征的总分,一个特征总分的大小反映该特征对判断企业为出口骗税企业的置信水平,通过数据集中正样本和负样本的多轮迭代训练,通过损失函数不断优化模型参数,对各个特征的总分进行修正,得到各个特征总分的最优解,输出训练好的出口骗税企业检测模型,使模型学习到根据各个与出口退税行为相关的特征综合判断企业是否为出口骗税企业。
[0104]
本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0105]
本公开实施例,通过获取多个出口骗税企业和多个非出口骗税企业的税务数据,构成原始数据集,将原始数据集划分成训练集、验证集和测试集;对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征;将特征输入模型进行训练,获得出口骗税企业检测模型,充分考虑了企业出口退税行为数据中风险特征的提取及量化对企业是否存在骗税行为进行推理,可以显著提升训练所得模型的推理性能和泛化性能及扩大检测模型的适用性,相比于传统的基于专家评价指标体系的出口骗税企业检测方案,本公开的出口骗税企业检测模型能够提高出口骗税企业检测的准确性和检测效率。
[0106]
图4是本公开实施例提供的一种出口骗税企业的检测装置的结构示意图,该装置可以被理解为上述计算机设备或者上述计算机设备中的部分功能模块。如图4所示,该出口
骗税企业检测装置400包括:
[0107]
获取模块410,用于获取企业的税务数据;
[0108]
提取模块420,用于对税务数据进行特征提取处理,得到企业与出口退税行为相关的特征;
[0109]
检测模块430,用于将特征输入预设的出口骗税企业检测模型,基于出口骗税企业检测模型进行出口骗税企业检测。
[0110]
可选的,上述装置400还包括:
[0111]
预处理模块,用于对税务数据进行预处理,预处理的方式至少包括缺失值处理、异常值处理、量纲处理、去重处理、噪声处理中的一种。
[0112]
可选的,上述税务数据中包括接收到的专票的数据,以及接收到的专票中包括的虚开的专票的数据;上述提取模块420,包括:
[0113]
第一确定子模块,用于基于税务数据,确定接收到的专票的总金额和接收到的虚开的专票的总金额;
[0114]
第二确定子模块,用于将接收到的虚开的专票的总金额占接收到的专票的总金额的占比,确定为企业与出口退税行为相关的特征。
[0115]
可选的,上述税务数据包括接收到的专票的数据,以及接收到的专票中包括的异常户的专票的数据;上述提取模块420,包括:
[0116]
第三确定子模块,用于基于税务数据,确定接收到的专票的总金额和接收到的异常户的专票的总金额;
[0117]
第四确定子模块,用于将接收到的异常户的专票的总金额占接收到的专票的总金额的占比,确定为企业与出口退税行为相关的特征。
[0118]
可选的,上述税务数据中包括企业在第一时间段内的供应商的第一数量,以及企业在第二时间段内的供应商的第二数量,以及企业在第一时间段内和第二时间段内的相同供应商的第三数量;上述提取模块420,包括:
[0119]
第五确定子模块,用于确定第二数量与第一数量的和值;
[0120]
第六确定子模块,用于将第三数量与和值的比值,确定为企业与出口退税行为相关的特征。
[0121]
可选的,上述税务数据中包括企业变更法定代表人之前的第一出口额和变更法定代表人之后的第二出口额;上述提取模块420,包括:
[0122]
第七确定子模块,用于确定第二出口额相对于第一出口额的变化量;
[0123]
第八确定子模块,用于将第二出口额相对于第一出口额的变化量确定为企业与出口退税行为相关的特征。
[0124]
可选的,上述税务数据中包括企业在预设时间内的出口业务的支出金额的数据和出口业务的收入金额的数据;上述提取模块420,包括:
[0125]
第九确定子模块,用于确定出口业务的收入金额与出口业务的支出金额的差值;
[0126]
第十确定子模块,用于将出口业务的收入金额与出口业务的支出金额的差值占出口业务的支出金额的比例,确定为企业与出口退税行为相关的特征。
[0127]
可选的,上述税务数据中包括涉税人员的数据,以及涉税人员中涉税风险指数超过预设阈值的风险人员的数据;上述提取模块420,包括:
[0128]
第十一确定子模块,用于基于涉税人员的数据以及风险人员的数据,确定涉税人员的数量和风险人员的数量;
[0129]
第十二确定子模块,用于将风险人员的数量占涉税人员的数量的比例,确定为企业与出口退税行为相关的特征。
[0130]
可选的,上述税务数据中包括企业在预设时间内的供应商的总数量;上述提取模块420,包括:
[0131]
第十三确定子模块,用于将供应商的总数量确定为企业与出口退税行为相关的特征。
[0132]
本实施例提供的出口骗税企业检测装置能够执行上述任一实施例所述的方法,其执行方式和有益效果类似,在这里不再赘述。
[0133]
本公开实施例还提供一种计算设备,该计算设备包括处理器和存储器,其中,存储器中存储有计算机程序,当该计算机程序被该处理器执行时可以实现上述任一实施例所述的方法,其执行方式和有益效果类似,在这里不再赘述。
[0134]
本公开实施例提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,当该计算机程序被处理器执行时,可以实现上述任一实施例所述的方法,其执行方式和有益效果类似,在这里不再赘述。
[0135]
上述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0136]
上述计算机程序可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0137]
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1