一种行为评估方法、装置及相关设备与流程

文档序号:17442343发布日期:2019-04-17 04:55阅读:166来源:国知局
一种行为评估方法、装置及相关设备与流程

本申请涉及互联网技术领域,特别涉及一种行为评估方法,还涉及一种行为评估装置、设备以及计算机可读存储介质。



背景技术:

一般而言,一个企业的运营少不了多方企业的合作以及多方人员的参与,因此,如何基于某一特定企业快速准确的查找到与该企业具有一定关联关系的其企业或人员,以实现对整个企业运营团体的综合评估,实现统一管理和监督,一直以来是一个较为复杂的问题。

在已有技术中,多是通过采集特定企业的相关企业信息查询获得所有相关联的其他企业和人员,然后由专业部门针对个体进行逐一识别和评估,从而识别获得存在较大关联关系的企业团体,以实现整个企业运营团体的管理。但该种实现方式工作量巨大,效率低下。更为具体的,对于某些企业为满足自身某种需求而在运作过程中采用虚假手段,存在违背法律法规行为的情况,如偷税漏税、虚开发票等,就只能在违法行为发生之后,对相关企业进行监督和查处,而不能有效的依靠原有数据提前发现违法行为,这种单点突破方式导致查处到的违法企业较少,且经常出现查处时已经出逃的情况。因此,现有的企业行为评估仅能够针对个体进行分类识别和评估,而无法追溯至整个团体的行为信息,同时效率低下、准确度不高。

因此,如何根据特定行为类型的企业的相关信息快速且精确地挖掘出整个关联团体,从而实现整个企业团体的有效评估和统一管理是本领域技术人员亟待解决的问题。



技术实现要素:

本申请的目的是提供一种行为评估方法,该行为评估方法可根据特定行为类型的企业的相关信息快速且精确地挖掘出整个关联团体,从而实现整个企业团体的有效评估和统一管理;本申请的另一目的是提供一种行为评估装置、设备以及计算机可读存储介质,也具有上述有益效果。

为解决上述技术问题,本申请提供了一种行为评估方法,所述行为评估方法包括:

获取目标企业的目标数据信息;其中,所述目标企业为已知行为类型的企业;

对所述目标数据信息进行信息抽取,获得初始关联企业信息和初始关联人员信息;

根据所述初始关联企业信息对初始关联企业进行传染度计算,并在所述初始关联企业信息中抽取满足预设传染度阈值条件的中间关联企业信息;

根据所述初始关联人员信息对初始关联人员进行亲密度计算,并在所述初始关联人员信息中抽取满足预设亲密度阈值条件的中间关联人员信息;

根据所述中间关联企业信息和中间关联人员信息构建关联网络大图;

对所述关联网络大图进行关联程度筛选,获得关联企业和关联人员;

将所述关联企业和所述关联人员标记为所述目标企业对应的行为类型。

优选的,所述对所述目标数据信息进行信息抽取,获得初始关联企业信息和初始关联人员信息,包括:

根据所述目标数据信息获得所有相关企业信息和所有相关人员信息;

对所有所述相关企业信息和所述相关人员信息进行整合,生成二维宽表;

将所述二维宽表导入arangodb图数据库进行处理,获得初始关联网络;

在所述初始关联网络的预设范围内抽取所述初始关联企业信息和所述初始关联人员信息。

优选的,所述对所有所述相关企业信息和所述相关人员信息进行整合,生成二维宽表,包括:

根据所有所述相关企业信息构建目标企业-关系-相关企业的三元组交易边;

根据所有所述相关人员信息构建相关人员-关系-目标企业的第一三元组控制边;

根据所述三元组交易边和所述第一三元组控制边构建相关人员-关系-相关企业的第二三元组控制边;

对所述三元组交易边、所述第一三元组控制边和所述第二三元组控制边进行整合,获得所述二维宽表。

优选的,所述在所述初始关联网络的预设范围内抽取所述初始关联企业信息和所述初始关联人员信息,包括:

利用广度优先搜索算法在所述初始关联网络的预设范围内抽取所述初始关联企业信息和所述初始关联人员信息。

优选的,所述对所述关联网络大图进行关联程度筛选,获得关联企业和关联人员,包括:

利用连通社团划分算法对所述关联网络大图进行计算,获得连通子图集合;

通过预设业务规则对所述连通子图集合中的所有连通子图进行筛选,获得关联子图;

在所述关联子图中提取所述关联企业和所述关联人员。

优选的,所述欺诈团伙识别方法还包括:

对所述关联子图进行业务验证,获得验证结果;

结合预设连通关系模式,根据所述验证结果确定团体操作模式。

优选的,所述欺诈团伙识别方法还包括:

根据所述验证结果进行反馈调参;其中,调整参数包括所述预设传染度阈值、预设亲密度阈值、所述初始关联网络的预设范围、所述预设业务规则、预设连通关系模式。

为解决上述技术问题,本申请还提供了一种行为评估装置,所述行为评估装置包括:

信息获取模块,用于获取目标企业的目标数据信息;其中,所述目标企业为已知行为类型的企业;

信息抽取模块,用于对所述目标数据信息进行信息抽取,获得初始关联企业信息和初始关联人员信息;

传染度计算模块,用于根据所述初始关联企业信息对初始关联企业进行传染度计算,并在所述初始关联企业信息中抽取满足预设传染度阈值条件的中间关联企业信息;

亲密度计算模块,用于根据所述初始关联人员信息对初始关联人员进行亲密度计算,并在所述初始关联人员信息中抽取满足预设亲密度阈值条件的中间关联人员信息;

网络构建模块,用于根据所述中间关联企业信息和中间关联人员信息构建关联网络大图;

网络筛选模块,用于对所述关联网络大图进行关联程度筛选,获得关联企业和关联人员;

行为标记模块,用于将所述关联企业和所述关联人员标记为所述目标企业对应的行为类型。

为解决上述技术问题,本申请还提供了一种行为评估设备,所述行为评估设备包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现上述任意一种行为评估方法的步骤。

为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种行为评估方法的步骤。

本申请所提供的一种行为评估方法,包括获取目标企业的目标数据信息;其中,所述目标企业为已知行为类型的企业;对所述目标数据信息进行信息抽取,获得初始关联企业信息和初始关联人员信息;根据所述初始关联企业信息对初始关联企业进行传染度计算,并在所述初始关联企业信息中抽取满足预设传染度阈值条件的中间关联企业信息;根据所述初始关联人员信息对初始关联人员进行亲密度计算,并在所述初始关联人员信息中抽取满足预设亲密度阈值条件的中间关联人员信息;根据所述中间关联企业信息和中间关联人员信息构建关联网络大图;对所述关联网络大图进行关联程度筛选,获得关联企业和关联人员;将所述关联企业和所述关联人员标记为所述目标企业对应的行为类型。

可见,本申请所提供的行为评估方法,根据特定行为类型的目标企业的相关数据信息,对其所涉及的所有相关企业和人员进行传染度和亲密度的计算,从而完成关联网络大图的构建,进一步,对关联网络大图进行关联程度筛选,即可从中识别获得与目标企业具有相同行为类型的其他企业和人员,由此,即可基于一户特定行为类型的企业挖掘出其同期有关联的企业和人员,实现对具有同一行为类型的团体的识别,便于专业部门对该团体进行有效评估和统一管理,具有较高的实时性和针对性;此外,基于计算机技术实现企业行为评估,相较于已有技术中通过人工排查以针对个体进行分类评估的方法,具有较高的评估效率和评估准确度。

本申请所提供的一种行为评估装置、设备以及计算机可读存储介质,均具有上述有益效果,在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请所提供的一种行为评估方法的流程示意图;

图2为本申请所提供的一种行为评估过程中网络大图筛选方法的流程示意图;

图3为本申请所提供的一种行为评估过程中相关信息抽取方法的流程示意图;

图4为本申请所提供的一种行为评估装置的结构示意图;

图5为本申请所提供的一种行为评估设备的结构示意图。

具体实施方式

本申请的核心是提供一种行为评估方法,该行为评估方法可根据已知行为类型的企业的相关信息,快速且精确地挖掘出整个关联团体,从而实现整个团体的有效评估和统一管理;本申请的另一核心是提供一种行为评估装置、设备以及计算机可读存储介质,也具有上述有益效果。

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

请参考图1,图1为本申请所提供的一种行为评估方法的流程示意图,该行为评估方法可以包括:

s101:获取目标企业的目标数据信息;其中,目标企业为已知行为类型的企业;

具体而言,对特定行为类型的企业关联团体进行识别评估,主要依赖于某一个已经确定存在上述特定行为的企业,进一步基于该企业进行数据挖掘和搜寻,方可获得对应的企业关联团体,从而实现团体管理与监督。因此,在对存在某一特定行为的企业关联团体进行识别评估时,首先需要对一个已经确定存在该特定行为的企业,即上述目标企业进行相关数据的获取,当然,该相关数据为与该特定行为具有一定关联关系的数据,即上述目标数据信息。其中,该目标数据信息的种类对应于目标企业的行为类型,例如,对于存在偷税漏税行为的企业,其目标数据信息即为该企业的缴税信息,对于存在虚开发票行为的企业,其目标数据信息即为该企业的发票信息。以上,对于该目标数据信息的获取方法,可基于已经有技术中的任意一种方式实现,本申请对此不做限定。

s102:对目标数据信息进行信息抽取,获得初始关联企业信息和初始关联人员信息;

本步骤旨在当获得目标数据信息时,对其进行信息抽取,以获得与上述目标企业具有一定关联关系的其他企业和人员的信息,即上述初始关联企业信息和初始关联人员信息。例如,当目标企业存在虚开发票行为时,其发票信息即为目标数据信息,其中会包括有交易数据、供销方信息、财务负责人、购票人等信息,由此,即可在目标数据信息中提取出涉嫌参与该目标企业虚开发票行为的所有相关企业及人员,包括该目标企业的上游相关企业和人员、下游相关企业和人员;进一步,即可在所有的相关企业及人员中抽取出与目标企业虚开发票行为在一定程度上具有关联关系的企业和人员,从而获得对应的初始关联企业信息和初始关联人员信息,例如,可以抽取该目标企业上游一层、下游三层的相关企业作为初始关联企业,抽取该目标企业下游一层企业的相关人员作为初始关联人员。

s103:根据初始关联企业信息对初始关联企业进行传染度计算,并在初始关联企业信息中抽取满足预设传染度阈值条件的中间关联企业信息;

在获得初始关联企业信息之后,本步骤旨在基于初始关联企业信息对相应的初始关联企业进行传染度计算,以在所有初始关联企业中抽取获得与目标企业具有较高关联程度的中间关联企业,并获取其对应的相关信息,即上述中间关联企业信息;其中,相较于初始关联企业,该中间关联企业与目标企业之间的关联程度更高。具体而言,传染度越高,初始关联企业与目标企业的关联程度越高,因此,可计算所有初始关联企业相较于目标企业的传染度,以提取传染度高于预设传染度阈值的初始关联企业作为上述中间关联企业,从而进一步获得对应的中间关联企业信息。当然,对于上述预设传染度阈值的具体取值,可由技术人员根据实际需求进行设置,本申请对此不做限定。

s104:根据初始关联人员信息对初始关联人员进行亲密度计算,并在初始关联人员信息中抽取满足预设亲密度阈值条件的中间关联人员信息;

在获得初始关联人员信息之后,本步骤旨在基于初始人员信息对相应的初始关联人员进行亲密度计算,以在所有初始关联人员中抽取获得与目标企业具有较高关联程度的中间关联人员,并获取其对应的相关信息,即上述中间关联人员信息;其中,相较于初始关联人员,该中间关联人员与目标企业之间的关联程度更高。具体而言,亲密度越高,初始关联人员与目标企业的关联程度越高,因此,可计算所有初始关联人员相较于目标企业的亲密度,以提取亲密度高于预设传亲密度阈值的初始关联人员作为上述中间关联人员,从而进一步获得对应的中间关联人员信息。同样,对于上述预设亲密度阈值的具体取值,可由技术人员根据实际需求进行设置,本申请对此不做限定。

需要说明的是,s103和s104分别实现了对初始相关企业的传染度计算,和对初始相关人员的亲密度计算,但以上两个步骤的实现顺序,并不影响本技术方案的实施,当然,为保证评估效率,可将二者同时执行。

s105:根据中间关联企业信息和中间关联人员信息构建关联网络大图;

具体的,本步骤旨在基于中间关联企业信息和中间关联人员信息构建与目标企业具有较高关联程度的关联网络大图,以便后续过程中根据该关联网络大图较为准确的识别获得与目标企业行为类型相似度较高的其他企业或人员,从而完成企业关联团体的识别。其中,该关联网络大图中可明确表征目标企业、中间关联企业、中间关联人员之间的关系信息,更加便于进行企业关联团体的识别评估。当然,对于该关联网络大图的构建方法,可采用已有技术中的任意一种,本申请不做限定。

s106:对关联网络大图进行关联程度筛选,获得关联企业和关联人员;

s107:将关联企业和关联人员标记为目标企业对应的行为类型。

具体的,上述步骤旨在实现对关联网络大图进行进一步的筛选,以准确获得与目标企业行为类型相同的关联企业和关联人员,也就是说,该关联企业即为识别出的参与目标企业上述特定行为的其他企业,该关联人员即为识别出的参与目标企业上述特定行为的相关人员;进一步,即可将二者标记为目标企业对应的行为类型,由此,即完成了对存在某一特定行为的企业关联团体的识别评估。此外,对于以上关联程度的筛选方式,可基于相关的算法或业务规则实现。

作为一种优选实施例,请参考图2,图2为本申请所提供的一种行为评估过程中网络大图筛选方法的流程示意图,上述对关联网络大图进行关联程度筛选,获得关联企业和关联人员可以包括:

s201:利用连通社团划分算法对关联网络大图进行计算,获得连通子图集合;

s202:通过预设业务规则对连通子图集合中的所有连通子图进行筛选,获得关联子图;

s203:在关联子图中提取关联企业和关联人员。

本申请提供了一种较为具体的关联子图的筛选方法,具体而言,首先通过连通社团划分算法对关联网络大图进行计算处理,获得连通子图集合,该连通子图集合中包括有多个具有一定关联关系的连通子图,其中,连通社团划分算法是为对复杂网络进行合理划分,找出真实存在的社团结构而提出的一种算法,具有较高的划分准确度。进一步,可基于预设业务规则对连通子图集合中的所有连通子图进行筛选过滤,从而获得关联子图,该关联子图中所涉及到的所有企业和人员即对应于上述关联企业和关联人员,由此,即可在该关联子图中抽取获得上述关联企业和关联人员。当然,上述预设业务规则可根据实际需求进行差异性设置,其主要针对于关联子图中的企业节点数目和人员节点出度。

作为一种优选实施例,该行为评估方法还可以包括对关联子图进行业务验证,获得验证结果;结合预设连通关系模式,根据验证结果确定团体操作模式。

具体的,本实施例旨在实现对以上识别结果,即上述关联子图的验证,从而获得对应的验证结果,进一步,结合预设连通关系模式,确定以上识别出的企业关联团体的团体操作模式,更加便于相关部门进行后续稽查工作。其中,团体操作模式可分为交易控制三角形、四边形环、五边形环等,预设连通关系模式同上,其具体类型根据实际业务需求进行设置即可。

其中,交易控制三角形由一条交易关系边,两条控制关系边构成;大于三角形的环可能为团体闭环(如资金回流),也可能为终止企业闭环(如同一企业与不同关联企业交易),此类环中的关系信息较为复杂,无法直接认定为团伙,则需要进一步依靠业务规则进行模式识别(如环中人员个数和交易关系控制关系占比等)。此外,对于两个人员控制有多家相同企业(其中包含2家以上存在特定行为的企业)的情况,可认定为这两个人为一个人(如家庭亲属关系),对于此类情况,资金回流的三角形环可以扩展为四边形、五边形环等。

本申请所提供的行为评估方法,根据特定行为类型的目标企业的相关数据信息,对其所涉及的所有相关企业和人员进行传染度和亲密度的计算,从而完成关联网络大图的构建,进一步,对关联网络大图进行关联程度筛选,即可从中识别获得与目标企业具有相同行为类型的其他企业和人员,由此,即可基于一户特定行为类型的企业挖掘出其同期有关联的企业和人员,实现对具有同一行为类型的团体的识别,便于专业部门对该团体进行有效评估和统一管理,具有较高的实时性和针对性;此外,基于计算机技术实现企业行为评估,相较于已有技术中通过人工排查以针对个体进行分类评估的方法,具有较高的评估效率和评估准确度。

在上述实施例的基础上,请参考图3,图3为本申请所提供的一种行为评估过程中相关信息抽取方法的流程示意图。

作为一种优选实施例,上述s102中对目标数据信息进行信息抽取,获得初始关联企业信息和初始关联人员信息这一过程可具体包括:

s301:根据目标数据信息获得所有相关企业信息和所有相关人员信息;

s302:对所有相关企业信息和相关人员信息进行整合,生成二维宽表;

s303:将二维宽表导入arangodb图数据库进行处理,获得初始关联网络;

s304:在初始关联网络的预设范围内抽取初始关联企业信息和初始关联人员信息。

对于初始关联企业和初始关联人员的抽取方法,本申请提供了一种较为具体的实现方式。具体而言,可首先在目标数据信息中提取出与目标企业具有关联关系的所有其他企业和人员,即目标数据信息中所涉及到的所有企业即人员,然后对其进行整合,生成二维宽表,由此,该二维宽表中即涵盖了所有与目标企业相关的其他企业、人员及其对应关系;进一步,将二维宽表导入arangodb图数据库进行处理,arangodb支持灵活的数据模型,具有较高的性能,二维宽表经过arangodb处理后即可获得对应的初始关联网络,该初始关联网络类似于上述关联网络大图,但不同之处在于,初始关联网络中明确表征了目标企业、初始关联企业、初始关联人员之间的关系信息,关联网络大图中明确表征了目标企业、中间关联企业、中间关联人员之间的关系信息。由此,即可在初始关联网络中的预设范围内抽取出初始关联企业和初始关联人员。当然,以上预设范围的设置不会影响本技术方案的实施,参照上一实施例的举例,该预设范围可以为以目标企业为起点的上游一层、下游三层的相关企业及人员。

优选的,上述对所有相关企业信息和相关人员信息进行整合,生成二维宽表可以包括:根据所有相关企业信息构建目标企业-关系-相关企业的三元组交易边;根据所有相关人员信息构建相关人员-关系-目标企业的第一三元组控制边;根据三元组交易边和第一三元组控制边构建相关人员-关系-相关企业的第二三元组控制边;对三元组交易边、第一三元组控制边和第二三元组控制边进行整合,获得二维宽表。

对于s302中二维宽表的获取过程,本申请提供了一种较为具体的实现方式。具体而言,可基于所有相关企业信息和相关人员信息构建出目标企业-关系-相关企业的三元组交易边和相关人员-关系-目标企业的三元组控制边,进一步根据二者获得相关人员-关系-相关企业的三元组控制边,由此,即可基于以上一个三元组交易边和两个三元组控制边整合获得相应的二维宽表。

优选的,上述在初始关联网络的预设范围内抽取初始关联企业信息和初始关联人员信息可以包括利用广度优先搜索算法在初始关联网络的预设范围内抽取初始关联企业信息和初始关联人员信息。

具体的,对于s303中初始关联企业信息和初始关联人员信息的抽取方法,可基于广度优先搜索算法(breadth-firstsearch,bfs)实现,bfs算法是一种图形搜索演算法,可系统地展开并检查图中的所有节点,以找寻结果,bfs算法具有完全性,即无论图形的种类如何,只要目标存在,则一定会找到目标节点,即存在欺诈行为的企业和人员。

由此,基于上述过程,即实现了初始关联企业信息和初始关联人员信息的抽取,具有较高的识别效率和识别准确率。

在上述各实施例的基础上,为进一步提高识别准确度,该行为评估方法还可以包括:根据验证结果进行反馈调参;其中,调整参数包括预设传染度阈值、预设亲密度阈值、初始关联网络的预设范围、预设业务规则、预设连通关系模式。

本申请实施例旨在实现相关参数的反馈调节,以进一步提高以上识别算法的精确度。具体而言,可根据验证结果实现相关参数的验证,该相关参数即为以上行为评估过程中所涉及到的各个预设参数,具体可包括预设传染度阈值、预设亲密度阈值、初始关联网络的预设范围、预设业务规则、预设连通关系模式等。

对于本申请实施例的其他实现步骤,参照上一实施例即可,本申请在此不再赘述。

本申请实施例所提供的行为评估方法,基于识别结果有效实现了识别过程中各预设相关参数的调节,提高了行为识别算法的精确度,进一步提高了相应评估结果的准确度。

在上述各个实施例的基础上,以存在发票虚开行为的目标企业为例,本申请提供了一种更为具体的行为评估方法。其中,下述内容中的虚开企业即为目标企业。

(1)对发票虚开企业的原始数据(即上述目标数据信息)进行处理,对包含有虚开企业和其虚开发票关联企业及人员的数据信息进行整合抽取,获取相关的全量数据(即上述初始相关企业信息和初始相关人员信息):

其中,发票虚开企业即为已经被识别确定为存在发票虚开行为的目标企业,进一步将其原始数据作为发票虚开团伙识别算法输入进行数据处理。

其中,关联企业的数据信息可从发票开具交易数据、供销方月度信息等数据中获得,以获取与发票虚开企业存在交易关系的企业,如二者可分别作为购方和销方,本实施例中,以虚开企业为起点,其上游找一层,下游找三层,所获得的所有关联企业数据构成虚开企业-关系-关联企业的三元组交易边。

其中,关联人员的数据信息可从纳税人税务登记数据,投资关系数据,自然人信息等数据中获得,以获取与发票虚开企业有关联的人员,如企业法人,投资人,财务负责人,办税人,购票人等基本信息,身份证号和手机号码,归属地等信息,由此,所获得的所有关联人员数据构成关联人员-关系-虚开企业的三元组控制边。

进一步,依据以上两步骤中的三元组交易边和三元组控制边,进行关联人员与关联企业的关联,构成关联人员-关系-关联企业的三元组控制边。由此,即可对以上三元组交易边数据和两个三元组控制边数据进行整合,抽取其中的实体数据,组成二维宽表。

进一步,将二维宽表导入arangodb图数据库中,制成企业与企业、人员与企业的初始关联网络。具体而言,首先,将三元组交易边和三元组控制边整合成edge边表;其次,抽取三元组交易边中的企业作为实体1,抽取三元组控制边中的人员作为实体2、企业作为实体3,并将实体1/2/3制成节点vertex点表;最后,将edge边表作为关系输入,vertex点表作为实体输入,构建出th(团伙)的初始关联网络。其中,可将vertex点表和edge边表的相关属性设置如下:

vertex点表:

_key:企业节点为纳税人电子档案号,人员节点为身份证号;

sfxk:是否存在虚开行为,存在取1,不存在取0;其中,由于人员均为虚开企业的关联人员,因此,人员节点均取1;

ishuman:区分是否为人员节点,人员节点取1,企业节点取0;

sensi_weight:传染度,初始值均设定为0;

inti_weight:亲密度初始值均设定为0;

is_community:是否为虚开团伙,初始值均设定为0;

community_label:虚开团伙表示,初始值均设定为0。

edge边表:

_from:三元组交易边为销方纳税人电子档案号,三元组控制边为责任人身份证号;

_to:下游企业纳税人电子档案号;

je:供销月度信息金额;

xfxkze:销方虚开总额,虚开企业开具虚开发票的金额总额;

gfze:购方购进虚开发票的金额总额;

tradefrom:购货方取得虚开发票金额/销货方开具虚开发票金额*100%;

tradeto:购货方取得虚开发票金额/销货方全部购进金额*100%;

controltype:人员控制企业的类型,其中,1为法人,2为财务人员,4为办税人,8为购票人,16为投资人,身兼多职为编号相加。

进一步,从初始关联网络中获取算法构建需要的信息,进行二次整合,并构造算法需要的数据格式。具体而言,在初始关联网络中,以发票虚开企业为起点,进行图的广度优先遍历(bfs),找到上游一层,下游三层的关系数据;以人员作为起点,进行图的广度优先遍历(bfs),找到下游一层的关系数据,由此,即完成了初始关联企业信息和初始关联人员信息的获取。

(2)传染度计算过程:

具体而言,遍历所有边,对符合条件_from为发票虚开企业,_to为非发票虚开初始关联企业的边,进行传染度计算获得下游节点的传染度。此处,需要说明的是,只有发票虚开企业和下游节点才会有虚开金额交易关系,才能计算传染度。此外,对同一企业节点有多个发票虚开企业传染的则累加传染度。

其中,下游非发票虚开企业的传染度计算公式如下:

sensiweight=tradefrom*阈值+tradeto*(1-阈值);

其中,上述阈值为基于业务逻辑预先设定的参数阈值,本申请中设定为0.5;tradefrom为购货方取得虚开发票金额占销货方开具虚开发票金额的比重,tradeto为购货方取得虚开发票金额占购货方全部购进金额的比重。

以下举例介绍传染度的计算模式:

虚开企业a:

{“sensi_weight”:1};

交易关系:

{“tradefrom”:0.3,“tradeto”:0.6};

虚开下游企业b:

{“sensiweight”:?}

则b的传染度为:0.3*0.5+0.6*0.5=0.45。

(3)亲密度计算过程:

具体而言,由于亲密度为人员节点关联企业的属性,可先遍历所有人员节点,以人员节点为起始点,在初始关联网络中遍历下游所有企业节点,此处设置深度为1,即遍历下游一层企业的相关信息。其中,对下游企业节点中的非虚开企业更新亲密度,对同一企业节点与多个发票虚开企业有人员关联的累加亲密度。

首先,对edge边表中的controltype属性定义亲密度对应数值,如下:

scores={‘1’:0.5,‘2’:0.2,‘4’:0.1,‘8’:0.1,‘16’:0.5,……};

则关联企业中非虚开企业的亲密度计算公式如下:

intiweight=scores[controltype0]+scores[controltype1];

其中,controltype0为人员与发票虚开企业间的controltype,controltype1为同一人员与非发票虚开企业间的controltype。

以下举例介绍传染度的计算模式:

虚开企业a,人员m,以及人员下游企业c;其中,

m与a的控制关系:兼任法人和责任人,则{“controltype”:17};

m与c的控制关系:担任法人,则{“controltype”:1};

那么,人员下游企业c{“intiweight”:?};

则有17:0.5+0.5=1;1:0.5;则c的亲密度为:1+0.5=1.5。

进一步,基于预设传染度阈值和预设亲密度阈值进行节点过滤,在本申请中,设置预设传染度阈值为0.35,设置预设亲密度阈值为0.6。由此,即可提取传染度大于0.35的节点,亲密度大于0.6的节点,从而获得中间关联企业信息和中间关联人员信息。

(4)关联网络大图的构建:

本步骤中,旨在根据过滤后的节点和边,重新构建明确表征发票虚开企业、中间关联企业、中间关联人员之间的关系信息的关联网络大图。

(5)发票虚开团伙识别:

对上述关联网络大图,采用连通社团划分算法进行计算,一次过滤得到企业节点数目大于3和人员节点出度大于2的连通子图集合;进一步,基于预设业务规则对集合中每个符合初步条件的连通子图再次进行遍历,判断其是否符合人员控制关系为主,交易关系为辅的模式,以二次过滤得到企业节点数目大于3和人员节点出度大于2的连通子图,对连通子图中所涉及到的企业和人员进行疑是团伙的标记,由此,即获得上述关联子图,从而实现发票虚开团伙识别。

(6)发票虚开团伙验证及操作模式分析:

具体而言,按照实际的业务规则对以上发票虚开团伙进行业务验证,从而得到三角环路、四边形环路等常见的团体操作模式,由此,即可依据该模式在初始关联网络中进行模式匹配,得到新的符合条件的识别结果。针对发票虚开行为,其对应的业务规则可以为虚开链条不会过长,因此虚开发票需要保证资金回流。

(7)反馈调参:

具体而言,依照验证结果,进行算法反馈调参,其主要是调整预设传染度阈值(取值举例:0.1,0.3,0.6,0.9),预设亲密度阈值(取值举例:0.2,0.35,0.45,0.7),节点数目k(取值举例:3,4,7),连通关系的模式(类型举例:三角形,四边形,五边形)等。

本申请实施例所提供的行为评估方法,针对于发票虚开行为,根据存在发票虚开行为的企业的相关数据信息对其所涉及的相关企业和人员进行传染度和亲密度的计算,从而完成关联网络大图的构建,该关联网络大图中包括与上述存在发票虚开行为的企业具有一定关联关系的相关企业和人员,进一步,对关联网络大图进行关联程度筛选,即可从中识别获得同样可能存在发票虚开行为的相关企业和人员,即上述关联企业和关联人员,由此,即可基于一户存在发票虚开行为的企业挖掘出其同期有关联的企业和人员,实现发票虚开团伙的识别,便于相关稽查部门有目的性的发现存在发票虚开行为的问题企业,并对其进行有效监督,具有较高的实时性和针对性;此外,基于计算机技术实现发票虚开团伙的识别,相较于已有技术中通过人工查处以针对个体进行分类识别的方法,具有较高的识别效率。

为解决上述问题,请参考图4,图4为本申请所提供的一种行为评估装置的结构示意图,该行为评估装置可包括:

信息获取模块10,用于获取目标企业的目标数据信息;其中,目标企业为已知行为类型的企业;

信息抽取模块20,用于对目标数据信息进行信息抽取,获得初始关联企业信息和初始关联人员信息;

传染度计算模块30,用于根据初始关联企业信息对初始关联企业进行传染度计算,并在初始关联企业信息中抽取满足预设传染度阈值条件的中间关联企业信息;

亲密度计算模块40,用于根据初始关联人员信息对初始关联人员进行亲密度计算,并在初始关联人员信息中抽取满足预设亲密度阈值条件的中间关联人员信息;

网络构建模块50,用于根据中间关联企业信息和中间关联人员信息构建关联网络大图;

网络筛选模块60,用于对关联网络大图进行关联程度筛选,获得关联企业和关联人员;

行为标记模块70,用于将关联企业和关联人员标记为目标企业对应的行为类型。

作为一种优选实施例,上述信息抽取模块20可以包括:

信息提取单元,用于根据目标数据信息获得所有相关企业信息和所有相关人员信息;

信息整合单元,用于对所有相关企业信息和相关人员信息进行整合,生成二维宽表;

信息处理单元,用于将二维宽表导入arangodb图数据库进行处理,获得初始关联网络;

信息抽取单元,用于在初始关联网络的预设范围内抽取初始关联企业信息和初始关联人员信息。

作为一种优选实施例,上述信息整合单元可具体用于根据所有相关企业信息构建目标企业-关系-相关企业的三元组交易边;根据所有相关人员信息构建相关人员-关系-目标企业的第一三元组控制边;根据三元组交易边和第一三元组控制边构建相关人员-关系-相关企业的第二三元组控制边;对三元组交易边、第一三元组控制边和第二三元组控制边进行整合,获得二维宽表。

作为一种优选实施例,上述信息抽取单元可具体用于利用广度优先搜索算法在初始关联网络的预设范围内抽取初始关联企业信息和初始关联人员信息。

作为一种优选实施例,上述网络筛选模块60可以包括:

网络计算单元,用于利用连通社团划分算法对关联网络大图进行计算,获得连通子图集合;

网络筛选单元,用于通过预设业务规则对连通子图集合中的所有连通子图进行筛选,获得关联子图;

网络提取单元,用于在关联子图中提取关联企业和关联人员。

作为一种优选实施例,该行为评估装置还可以包括:

模式分析模块,用于对关联子图进行业务验证,获得验证结果;结合预设连通关系模式,根据验证结果确定团体操作模式。

作为一种优选实施例,该行为评估装置还可以包括:

参数优化模块,用于根据验证结果进行反馈调参;其中,调整参数包括预设传染度阈值、预设亲密度阈值、初始关联网络的预设范围、预设业务规则、预设连通关系模式。

对于本申请提供的装置的介绍请参照上述方法实施例,本申请在此不做赘述。

为解决上述问题,请参考图5,图5为本申请所提供的一种行为评估设备的结构示意图,该行为评估设备可包括:

存储器11,用于存储计算机程序;

处理器12,用于执行计算机程序时实现如下步骤:

获取目标企业的目标数据信息;其中,目标企业为已知行为类型的企业;对目标数据信息进行信息抽取,获得初始关联企业信息和初始关联人员信息;根据初始关联企业信息对初始关联企业进行传染度计算,并在初始关联企业信息中抽取满足预设传染度阈值条件的中间关联企业信息;根据初始关联人员信息对初始关联人员进行亲密度计算,并在初始关联人员信息中抽取满足预设亲密度阈值条件的中间关联人员信息;根据中间关联企业信息和中间关联人员信息构建关联网络大图;对关联网络大图进行关联程度筛选,获得关联企业和关联人员;将关联企业和关联人员标记为目标企业对应的行为类型。

对于本申请提供的设备的介绍请参照上述方法实施例,本申请在此不做赘述。

为解决上述问题,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下骤:

获取目标企业的目标数据信息;其中,目标企业为已知行为类型的企业;对目标数据信息进行信息抽取,获得初始关联企业信息和初始关联人员信息;根据初始关联企业信息对初始关联企业进行传染度计算,并在初始关联企业信息中抽取满足预设传染度阈值条件的中间关联企业信息;根据初始关联人员信息对初始关联人员进行亲密度计算,并在初始关联人员信息中抽取满足预设亲密度阈值条件的中间关联人员信息;根据中间关联企业信息和中间关联人员信息构建关联网络大图;对关联网络大图进行关联程度筛选,获得关联企业和关联人员;将关联企业和关联人员标记为目标企业对应的行为类型。

该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的行为评估方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围要素。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1