一种发票虚开企业监控识别方法及系统与流程

文档序号:12470811阅读:396来源:国知局
一种发票虚开企业监控识别方法及系统与流程

本发明涉及企业监管技术领域,特别涉及一种发票虚开企业监控识别方法及系统。



背景技术:

随着税务系统行政审批改革的不断深入,在简化办税程序、激发市场活力的同时,部分环节的税收管理风险也随之有所增加,特别是不法分子通过建立空壳商贸企业来虚开发票现象在个别地区有所抬头,严重扰乱了正常的税收和经济秩序。

在现有针对发票虚开企业的纳税风险防控的实际工作中,仍然是依托于税收分析人员的业务经验,导致纳税遵从风险模型的主观成分较重,准确性不够强。并且由于人工分析的效率较低的原因,导致很难全面识别出存在虚开发票的企业。

综上所述可以看出,如何提升对发票虚开企业的监控识别效果以及识别效率是目前还有待解决的问题。



技术实现要素:

有鉴于此,本发明的目的在于提供一种发票虚开企业监控识别方法及系统,提升了对发票虚开企业的监控识别效果以及识别效率。其具体方案如下:

一种发票虚开企业监控识别方法,包括:

提取目标企业的特征信息,得到目标特征信息;

将所述目标特征信息输入至预先创建的企业类型预测模型;所述企业类型预测模型为利用预设的机器学习算法和样本集,进行相应的模型训练后得到的判别模型;所述样本集中的每份样本数据均包括企业类型已明确的企业的特征信息以及该企业的企业类型;其中,企业的企业类型为虚开发票企业或合法纳税企业;

获取所述企业类型预测模型根据所述目标特征信息输出的企业类型预测结果,以根据所述企业类型预测结果确定所述目标企业的企业类型是否为虚开发票企业。

可选的,所述提取目标企业的特征信息的过程,包括:

提取所述目标企业的第一类特征信息,得到所述目标企业的企业年龄、企业注册地址所对应的已注册企业数量、企业法人拥有的已注册企业数量、企业注册地址与企业法人的个人户籍地之间的差异性、企业法人的非正常纳税状态信息、以及企业法人的年龄。

可选的,所述企业类型预测模型的创建过程,包括:

获取第一组样本数据和第二组样本数据,得到所述样本集;其中,所述第一组样本数据中包括N1家企业对应的第一类特征信息以及企业类型,所述第二组样本数据中包括M1家企业对应的第一类特征信息以及企业类型,N1和M1均为正整数,并且,所述N1家企业中任一企业的企业类型均为虚开发票企业,所述M1家企业中任一企业的企业类型均为合法纳税企业;

按照预设的第一划分比例,将所述样本集划分成两部分,得到相应的第一训练集和第一测试集;

利用所述机器学习算法、所述第一训练集和所述第一测试集,进行相应的模型训练以及模型测试,得到所述企业类型预测模型。

可选的,所述提取目标企业的特征信息的过程,包括:

提取所述目标企业的第二类特征信息,得到所述目标企业的企业年龄、连续开具发票的数量信息以及时间间隔信息、本月晚上开票金额占本月累计开票金额的比例、本月晚上开票份数占本月累计开票份数的比例、本月开票金额大于预设金额阈值的发票金额占本月累计开票金额的比例、本月开票金额大于所述预设开票金额阈值的发票份数占本月累计开票份数的比例、本月向同一购货方开具发票的份数占本月累计开票份数的比例、以及本月向同一购货方开具发票的发票金额占本月累计开票金额的比例。

可选的,所述提取目标企业的特征信息的过程,包括:

获取第三组样本数据和第四组样本数据,得到所述样本集;其中,所述第三组样本数据中包括N2家企业对应的第二类特征信息以及企业类型,所述第四组样本数据中包括M2家企业对应的第二类特征信息以及企业类型,N2和M2均为正整数,并且,所述N2家企业中任一企业的企业类型均为虚开发票企业,所述M2家企业中任一企业的企业类型均为合法纳税企业;

按照预设的第二划分比例,将所述样本集划分成两部分,得到相应的第二训练集和第二测试集;

利用所述机器学习算法、所述第二训练集和所述第二测试集,进行相应的模型训练以及模型测试,得到所述企业类型预测模型。

可选的,所述机器学习算法为决策树算法。

本发明还公开了一种发票虚开企业监控识别系统,包括:

信息提取模块,用于提取目标企业的特征信息,得到目标特征信息;

信息输入模块,用于将所述目标特征信息输入至预先创建的企业类型预测模型;所述企业类型预测模型为利用预设的机器学习算法和样本集,进行相应的模型训练后得到的判别模型;所述样本集中的每份样本数据均包括企业类型已明确的企业的特征信息以及该企业的企业类型;其中,企业的企业类型为虚开发票企业或合法纳税企业;

结果获取模块,用于获取所述企业类型预测模型根据所述目标特征信息输出的企业类型预测结果,以根据所述企业类型预测结果确定所述目标企业的企业类型是否为虚开发票企业。

可选的,所述信息提取模块,包括:

第一类特征提取子模块,用于提取所述目标企业的第一类特征信息,得到所述目标企业的企业年龄、企业注册地址所对应的已注册企业数量、企业法人拥有的已注册企业数量、企业注册地址与企业法人的个人户籍地之间的差异性、企业法人的非正常纳税状态信息、以及企业法人的年龄。

可选的,所述信息提取模块,包括:

第二类特征提取子模块,用于提取所述目标企业的第二类特征信息,得到所述目标企业的企业年龄、连续开具发票的数量信息以及时间间隔信息、本月晚上开票金额占本月累计开票金额的比例、本月晚上开票份数占本月累计开票份数的比例、本月开票金额大于预设金额阈值的发票金额占本月累计开票金额的比例、本月开票金额大于所述预设开票金额阈值的发票份数占本月累计开票份数的比例、本月向同一购货方开具发票的份数占本月累计开票份数的比例、以及本月向同一购货方开具发票的发票金额占本月累计开票金额的比例。

可选的,所述机器学习算法为决策树算法。

本发明中,发票虚开企业监控识别方法,包括:提取目标企业的特征信息,得到目标特征信息;将目标特征信息输入至预先创建的企业类型预测模型;企业类型预测模型为利用预设的机器学习算法和样本集,进行相应的模型训练后得到的判别模型;样本集中的每份样本数据均包括企业类型已明确的企业的特征信息以及该企业的企业类型;其中,企业的企业类型为虚开发票企业或合法纳税企业;获取企业类型预测模型根据目标特征信息输出的企业类型预测结果,以根据企业类型预测结果确定目标企业的企业类型是否为虚开发票企业。

可见,本发明预先利用机器学习算法以及包含企业特征信息和企业类型的样本集,创建了用于对企业类型进行预测的预测模型,当需要对目标企业进行监控识别时,会对该目标企业进行相应的特征提取,然后把提取到的目标特征信息输送至上述预测模型,从而可以得到上述目标企业的企业类型,以此预测出上述目标企业究竟是虚开发票企业还是合法纳税企业。由上可见,本发明是基于机器学习算法来对企业进行监控识别的,以确定企业是否为虚开发票企业,避免了人工分析所带来的各种缺陷,由此提升了对发票虚开企业的监控识别效果以及识别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种发票虚开企业监控识别方法流程图;

图2为本发明实施例公开的一种具体的发票虚开企业监控识别方法流程图;

图3为本发明实施例公开的一种具体的发票虚开企业监控识别方法流程图;

图4为本发明实施例公开的一种发票虚开企业监控识别系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种发票虚开企业监控识别方法,参见图1所示,该方法包括:

步骤S11:提取目标企业的特征信息,得到目标特征信息。

需要说明的是,本实施例中企业的特征信息具体包括但不限于企业注册信息和/或企业发票开具行为特征信息。

步骤S12:将目标特征信息输入至预先创建的企业类型预测模型;其中,企业类型预测模型为利用预设的机器学习算法和样本集,进行相应的模型训练后得到的判别模型;上述样本集中的每份样本数据均包括企业类型已明确的企业的特征信息以及该企业的企业类型;本实施例中,企业的企业类型为虚开发票企业或合法纳税企业。

本实施例中,上述机器学习算法可以是现有技术中已经公开的各种常用机器学习算法。其中,本实施例优先采用决策树算法作为上述机器学习算法。

步骤S13:获取企业类型预测模型根据目标特征信息输出的企业类型预测结果,以根据企业类型预测结果确定目标企业的企业类型是否为虚开发票企业。

可见,本发明预先利用机器学习算法以及包含企业特征信息和企业类型的样本集,创建了用于对企业类型进行预测的预测模型,当需要对目标企业进行监控识别时,会对该目标企业进行相应的特征提取,然后把提取到的目标特征信息输送至上述预测模型,从而可以得到上述目标企业的企业类型,以此预测出上述目标企业究竟是虚开发票企业还是合法纳税企业。由上可见,本发明是基于机器学习算法来对企业进行监控识别的,以确定企业是否为虚开发票企业,避免了人工分析所带来的各种缺陷,由此提升了对发票虚开企业的监控识别效果以及识别效率。

参见图2所示,本发明实施例公开了一种具体的发票虚开企业监控识别方法,包括如下步骤:

步骤S21:提取目标企业的第一类特征信息,得到目标企业的企业年龄、企业注册地址所对应的已注册企业数量、企业法人拥有的已注册企业数量、企业注册地址与企业法人的个人户籍地之间的差异性、企业法人的非正常纳税状态信息、以及企业法人的年龄。

也即,本实施例中,可以基于目标企业的第一类特征信息,判断出该目标企业是否为虚开发票企业。其中,企业的第一类特征信息包括企业的企业年龄、企业注册地址所对应的已注册企业数量、企业法人拥有的已注册企业数量、企业注册地址与企业法人的个人户籍地之间的差异性、企业法人的非正常纳税状态信息、以及企业法人的年龄。

由于现在有不少新办商贸企业均存在虚开发票行为,所以本发明实施例可以优先对新办商贸企业进行监控识别。所谓的新办商贸企业是指企业年龄小于或等于两年的批发零售企业。

本实施例中,上述企业的企业年龄是指当前时间与企业登记注册日之间的时间间隔,其中,如果目标企业的企业年龄小于或等于两年,则意味着该目标企业拥有较高的虚开发票的嫌疑。上述企业注册地址所对应的已注册企业数量是指企业所在的企业注册地址上拥有的已注册企业的数量。如果目标企业当前所在的企业注册地址上,同时拥有两户或两户以上的纳税人,则该目标企业拥有较高的虚开发票的嫌疑。上述企业法人拥有的已注册企业数量是指企业的同一法人拥有的已注册企业的数量。如果目标企业的同一企业法人身份证号对应有两户或两户以上的纳税人,则该目标企业拥有较高的虚开发票的嫌疑。上述企业注册地址与企业法人的个人户籍地之间的差异性是指企业的企业注册地址与企业法人的个人户籍地之间的差异。如果目标企业的企业注册地址与目标企业的企业法人的个人户籍地不相同,则该目标企业拥有较高的虚开发票的嫌疑。上述企业法人的非正常纳税状态信息是指企业的企业法人是否曾经存在过非正常户案底。如果目标企业的企业法人曾经存在过非正常户案底,则该目标企业拥有较高的虚开发票的嫌疑。上述企业法人的年龄是指企业的企业法人的实际年龄。如果目标企业的企业法人的年龄小于25岁或者大于60岁,则该目标企业拥有较高的虚开发票的嫌疑。

步骤S22:将目标企业的第一类特征信息输入至预先创建的企业类型预测模型。

具体的,上述企业类型预测模型的创建过程,包括下面步骤S201至步骤S203:

步骤S201:获取第一组样本数据和第二组样本数据,得到样本集;其中,第一组样本数据中包括N1家企业对应的第一类特征信息以及企业类型,第二组样本数据中包括M1家企业对应的第一类特征信息以及企业类型,N1和M1均为正整数,并且,N1家企业中任一企业的企业类型均为虚开发票企业,M1家企业中任一企业的企业类型均为合法纳税企业。

本实施例中,为了确保样本的均匀性,上述N1值和M1值优先取为相同的数值。另外,本实施例中,上述N1值和M1值之和优先大于或等于10000。

步骤S202:按照预设的第一划分比例,将样本集划分成两部分,得到相应的第一训练集和第一测试集。

其中,上述第一划分比例可以根据实际应用需要进行具体设定,例如可以设为7:3的比例,这样最终得到的第一训练集中的样本数量与第一测试集中的样本数量之比为7:3。

步骤S203:利用机器学习算法、第一训练集和第一测试集,进行相应的模型训练以及模型测试,得到上述企业类型预测模型。

其中,上述步骤S203中的机器学习算法具体为决策树算法。另外,本实施例中,基于决策树算法训练得到的企业类型预测模型的模型深度优先设为5。

步骤S23:获取上述企业类型预测模型根据目标企业的第一类特征信息输出的企业类型预测结果,以根据企业类型预测结果确定目标企业的企业类型是否为虚开发票企业。

本实施例中公开的技术方案适用于发票领购阶段,在企业的发票领购结构阶段,通过本发明实施例中公开的技术方案,可以对潜在的虚开发票企业进行监控识别,从而实现在发票虚开事件发生之前及时发现潜在的虚开发票企业。

参见图3所示,本发明实施例公开了一种具体的发票虚开企业监控识别方法,包括如下步骤:

步骤S31:提取目标企业的第二类特征信息,得到目标企业的企业年龄、连续开具发票的数量信息以及时间间隔信息、本月晚上开票金额占本月累计开票金额的比例、本月晚上开票份数占本月累计开票份数的比例、本月开票金额大于预设金额阈值的发票金额占本月累计开票金额的比例、本月开票金额大于预设开票金额阈值的发票份数占本月累计开票份数的比例、本月向同一购货方开具发票的份数占本月累计开票份数的比例、以及本月向同一购货方开具发票的发票金额占本月累计开票金额的比例。

也即,本实施例中,可以基于目标企业的第二类特征信息,判断出该目标企业是否为虚开发票企业。其中,企业的第二类特征信息包括企业的企业年龄、连续开具发票的数量信息以及时间间隔信息、本月晚上开票金额占本月累计开票金额的比例、本月晚上开票份数占本月累计开票份数的比例、本月开票金额大于预设金额阈值的发票金额占本月累计开票金额的比例、本月开票金额大于预设开票金额阈值的发票份数占本月累计开票份数的比例、本月向同一购货方开具发票的份数占本月累计开票份数的比例、以及本月向同一购货方开具发票的发票金额占本月累计开票金额的比例。

具体的,本实施例中,如果目标企业的企业年龄小于或等于两年,则意味着该目标企业拥有较高的虚开发票的嫌疑。如果目标企业在30分钟内开具大量发票,并且开具发票的时间间隔不超过3分钟,则意味着该目标企业拥有较高的虚开发票的嫌疑。如果本月目标企业在晚上开具专用发票的不含税金额与本月累计开具专用发票的不含税金额之间的比例大于50%,则意味着该目标企业拥有较高的虚开发票的嫌疑。如果本月目标企业在晚上开具专用发票份数与本月累计开具的专用发票份数之间的比例大于20%,则意味着该目标企业拥有较高的虚开发票的嫌疑。如果本月目标企业所有顶格开具的专用发票的不含税金额与本月累计开具发票的金额之间的比例大于20%,则意味着该目标企业拥有较高的虚开发票的嫌疑。其中,上述顶格开具的专用发票是指开票金额大于最大开具限额的99%的专用发票。如果本月目标企业所有顶格开具的专用发票的数量与本月累计开票份数之间的比例大于20%,则意味着该目标企业拥有较高的虚开发票的嫌疑。如果本月目标企业向外地的同一购货方开具的发票份数与本月累计开票份数之间的比例大于80%,则意味着该目标企业拥有较高的虚开发票的嫌疑。如果本月目标企业向外地的同一购货方开具的所有发票的发票金额与本月累计开具发票的金额之间的比例大于20%,则意味着该目标企业拥有较高的虚开发票的嫌疑。

步骤S32:将目标企业的第二类特征信息输入至预先创建的企业类型预测模型。

具体的,上述企业类型预测模型的创建过程,包括下面步骤S301至步骤S303:

步骤S301:获取第三组样本数据和第四组样本数据,得到样本集;其中,第三组样本数据中包括N2家企业对应的第二类特征信息以及企业类型,第四组样本数据中包括M2家企业对应的第二类特征信息以及企业类型,N2和M2均为正整数,并且,N2家企业中任一企业的企业类型均为虚开发票企业,M2家企业中任一企业的企业类型均为合法纳税企业。

本实施例中,为了确保样本的均匀性,上述N2值和M2值优先取为相同的数值。另外,本实施例中,上述N2值和M2值之和优先大于或等于10000。

步骤S302:按照预设的第二划分比例,将样本集划分成两部分,得到相应的第二训练集和第二测试集。

其中,上述第二划分比例可以根据实际应用需要进行具体设定,例如可以设为7:3的比例,这样最终得到的第二训练集中的样本数量与第二测试集中的样本数量之比为7:3。

步骤S303:利用机器学习算法、第二训练集和第二测试集,进行相应的模型训练以及模型测试,得到企业类型预测模型。

其中,上述步骤S303中的机器学习算法具体为决策树算法。另外,本实施例中,基于决策树算法训练得到的企业类型预测模型的模型深度优先设为5。

步骤S33:获取上述企业类型预测模型根据目标企业的第二类特征信息输出的企业类型预测结果,以根据企业类型预测结果确定目标企业的企业类型是否为虚开发票企业。

本实施例中公开的技术方案适用于发票开具监控阶段,在企业的发票开具监控阶段,通过本发明实施例中公开的技术方案,可以对企业的发票开具过程中可能存在的发票虚开行为,从而识别出该企业是否为虚开发票企业。

相应的,本发明实施例还公开了一种发票虚开企业监控识别系统,参见图4所示,该系统包括:

信息提取模块11,用于提取目标企业的特征信息,得到目标特征信息;

信息输入模块12,用于将目标特征信息输入至预先创建的企业类型预测模型;企业类型预测模型为利用预设的机器学习算法和样本集,进行相应的模型训练后得到的判别模型;样本集中的每份样本数据均包括企业类型已明确的企业的特征信息以及该企业的企业类型;其中,企业的企业类型为虚开发票企业或合法纳税企业;

结果获取模块13,用于获取企业类型预测模型根据目标特征信息输出的企业类型预测结果,以根据企业类型预测结果确定目标企业的企业类型是否为虚开发票企业。

可见,本发明预先利用机器学习算法以及包含企业特征信息和企业类型的样本集,创建了用于对企业类型进行预测的预测模型,当需要对目标企业进行监控识别时,会对该目标企业进行相应的特征提取,然后把提取到的目标特征信息输送至上述预测模型,从而可以得到上述目标企业的企业类型,以此预测出上述目标企业究竟是虚开发票企业还是合法纳税企业。由上可见,本发明是基于机器学习算法来对企业进行监控识别的,以确定企业是否为虚开发票企业,避免了人工分析所带来的各种缺陷,由此提升了对发票虚开企业的监控识别效果以及识别效率。

具体的,上述信息提取模块,可以包括第一类特征提取子模块,用于提取目标企业的第一类特征信息,得到目标企业的企业年龄、企业注册地址所对应的已注册企业数量、企业法人拥有的已注册企业数量、企业注册地址与企业法人的个人户籍地之间的差异性、企业法人的非正常纳税状态信息、以及企业法人的年龄。

与上述第一类特征提取子模块对应的,本实施例中的企业类型预测模型具体是利用预设的机器学习算法以及包含企业的第一类特征信息和企业类型的样本集进行模型训练后得到的模型。

另外,本实施例中的信息提取模块,也可以包括:

第二类特征提取子模块,用于提取目标企业的第二类特征信息,得到目标企业的企业年龄、连续开具发票的数量信息以及时间间隔信息、本月晚上开票金额占本月累计开票金额的比例、本月晚上开票份数占本月累计开票份数的比例、本月开票金额大于预设金额阈值的发票金额占本月累计开票金额的比例、本月开票金额大于预设开票金额阈值的发票份数占本月累计开票份数的比例、本月向同一购货方开具发票的份数占本月累计开票份数的比例、以及本月向同一购货方开具发票的发票金额占本月累计开票金额的比例。

与上述第二类特征提取子模块对应的,本实施例中的企业类型预测模型具体是利用预设的机器学习算法以及包含企业的第二类特征信息和企业类型的样本集进行模型训练后得到的模型。

具体的,上述预设的机器学习算法优先为决策树算法。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种发票虚开企业监控识别方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1