可疑洗钱团伙的识别方法和识别装置与流程

文档序号:14941451发布日期:2018-07-13 20:57阅读:602来源:国知局

本说明书涉及数据处理技术领域,尤其涉及一种可疑洗钱团伙的识别方法和识别装置。



背景技术:

随着信息科技的发展,互联网技术逐渐拓展至金融领域,形成新的业务模式——互联网金融。互联网金融拓宽了金融服务的通道、优化了资金的配置、降低了交易成本、简化了交易程序,能够弥补传统金融的不足,满足用户多样化的需求。

然而,互联网本身具有的匿名、快速、便捷等特点,也为各种非法行为的实施提供了有利条件,网络洗钱就是其中的一种。近年来,洗钱呈现由传统支付工具向互联网金融转移的趋势,不法分子利用网络支付工具洗钱已成常态。在这样的背景下,如何快速有效地防范洗钱风险已成为互联网金融行业发展亟待解决的问题。



技术实现要素:

有鉴于此,本说明书提供一种可疑洗钱团伙的识别方法,包括:

基于满足预定统计条件的资金往来记录,建立记录中资金账户之间的资金往来关系;

根据所建立的资金往来关系,对资金账户采用聚类算法进行聚类,并生成每个类别的类别特征;

将满足黑名单条件的类别标记为洗钱类别,将满足白名单条件的类别标记为正常类别,以洗钱类别和正常类别的类别特征作为样本数据,对二分类模型进行训练;

将除洗钱类别和正常类别以外的其他类别的类别特征输入训练完成的二分类模型,根据二分类模型的输出判断所述其他类别是否为可疑洗钱团伙。

本说明书还提供了一种可疑洗钱团伙的识别装置,包括:

资金往来关系单元,用于基于满足预定统计条件的资金往来记录,建立记录中资金账户之间的资金往来关系;

类别特征生成单元,用于根据所建立的资金往来关系,对资金账户采用聚类算法进行聚类,并生成每个类别的类别特征;

二分类模型训练单元,用于将满足黑名单条件的类别标记为洗钱类别,将满足白名单条件的类别标记为正常类别,以洗钱类别和正常类别的类别特征作为样本数据,对二分类模型进行训练;

可疑团伙判定单元,用于将除洗钱类别和正常类别以外的其他类别的类别特征输入训练完成的二分类模型,根据二分类模型的输出判断所述其他类别是否为可疑洗钱团伙。

本说明书提供的一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行上述可疑洗钱团伙的识别方法所述的步骤。

本说明书提供的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述可疑洗钱团伙的识别方法所述的步骤。

由以上技术方案可见,本说明书的实施例中,采用账户间的资金往来关系将账户聚类为若干个类别,分别将满足黑名单条件和白名单条件的类别标记为洗钱类别和正常类别,以洗钱类别和正常类别的类别特征作为样本数据训练二分类模型,利用训练完成的二分类模型来识别其他类别是否是可疑洗钱团伙;本说明书的实施例能够采用近期的资金往来记录,基于从资金往来关系发现的账户之间的关联,快速而准确的识别出高风险的可疑洗钱团伙。

附图说明

图1是本说明书实施例中一种可疑洗钱团伙的识别方法的流程图;

图2是本说明书应用示例中一种识别可疑洗钱团伙的过程示意图;

图3是运行本说明书实施例的设备的一种硬件结构图;

图4是本说明书实施例中一种可疑洗钱团伙的识别装置的逻辑结构图。

具体实施方式

本说明书的实施例提出一种新的可疑洗钱团伙的识别方法,采用账户间的资金往来关系来对账户进行聚类并提炼出每个类别的类别特征,以已知的洗钱类别和正常类别的类别特征作为样本数据,训练以类别特征为输入的二分类模型,利用训练完成的二分类模型来发现其他未知类别中的可疑洗钱团伙,从而实现了基于账户关系的高风险可疑洗钱团伙识别,相对于基于用户行为的单个可疑洗钱账户识别更为高效,并且由于采用近期资金往来记录进行模型训练和识别,对可疑洗钱账户的识别更为快速和准确。

本说明书的实施例可以运行在任何具有计算和存储能力的设备上,如手机、平板电脑、pc(personalcomputer,个人电脑)、笔记本、服务器等设备;还可以由运行在两个或两个以上设备的逻辑节点来实现本说明书实施例中的各项功能。

本说明书的实施例中,可疑洗钱团伙的识别方法的流程如图1所示。

步骤110,基于满足预定统计条件的资金往来记录,建立记录中资金账户之间的资金往来关系。

本说明书的实施例中,互联网金融服务提供商的系统以用户采用资金账户进行的与资金流动相关的网络行为,来作为识别可疑洗钱团伙的数据基础。资金账户可以是任何用户能够用来实现资金流入或流出的账户,例如在各种支付平台注册的账户、借记卡、信用卡、存折等。

用户采用资金账户进行的各种导致资金流入或流出的每笔操作,会作为一条资金往来记录被互联网金融服务提供商的系统保存起来。每条资金往来记录中包括资金流入账户、资金流出账户、以及流动的资金量等信息。

在互联网金融服务提供商的系统的运行过程中,资金往来记录在持续不断的产生。可以采用预定统计条件,选择部分或全部的资金往来记录用来对可疑洗钱团伙进行识别。可以根据实际应用场景中互联网金融服务提供商的业务特点、识别的准确程度和时效要求等因素,来确定预定统计条件。例如,可以将在预定时间段(如两个月)内对某项或某些项具体业务(如转账、充值和提现行为)的资金往来记录用作识别可疑洗钱团伙的数据;再如,可以将预定时间段内超过某个阈值的资金往来记录用作识别可疑洗钱团伙的数据。

基于资金往来记录,可以在各个资金账户之间构建出资金往来关系,用来对记录中的各个资金网络账户进行聚类。

根据实际应用场景的业务特点、可疑洗钱团伙识别的精确度要求、采用的聚类算法等因素,来确定构建资金往来关系的具体方式,本说明书的实施例不做限定。以下举例说明。

第一个例子:在满足预定统计条件的资金往来记录中每条记录的两个资金账户,即资金流入账户和资金流出账户之间建立资金往来关系。也即,所有上述记录中曾经发生资金往来的资金账户间都存在资金往来关系。

第二个例子:在满足预定统计条件的资金往来记录中每条记录的两个资金账户之间建立资金往来关系,累计上述记录中曾经发生资金往来的任意两个资金账户之间的资金往来总量,如果某两个资金账户间的资金往来总量低于预定阈值,则删除这两个资金账户间的资金往来关系。未被删除的资金往来关系将用来对记录中的资金账户采用聚类算法进行聚类。这个例子中将关注点集中在有大额度资金流量的资金账户之间,可以减少资金往来关系的数量,加快聚类算法的运行速度,并使得聚类结果更为准确。

第三个例子:对一些聚类算法,资金往来关系中的资金流向将对聚类结果产生影响。在这种情况下,两个资金账户a和b之间的资金往来关系包括:由a到b的单向资金关系(即资金由资金账户a流向资金账户b)、由b到a的单向资金关系、和双向资金关系(即资金由资金账户a流向资金账户b,也由资金账户b流向资金账户a)。可以将已建立的资金往来关系(如第一个例子或第二个例子的结果),按照两个资金账户间的资金流量标记为单向资金关系或双向资金关系。

第四个例子:在第三个例子中标记单向资金关系或双向资金关系时,分别累计具有资金往来关系的两个资金账户之间的两个资金流向的单向总流量,当两个资金账户之间两个流向的单向总流量满足预定差异条件时,将这两个资金账户之间的资金往来关系标记为单向资金关系,否则认为这两个资金账户之间为双向资金关系。预定差异条件可以根据实际应用场景的需要来设定,例如可以是两个流向的单向总流量之差的绝对值达到或超过某个第一既定值,也可以是较大的单向总流量与较小的单向总流量的比值达到或超过某个第二既定值。

步骤120,根据所建立的资金往来关系,对资金账户采用聚类算法进行聚类,并生成每个类别的类别特征。

所建立的资金往来关系可以描述资金账户之间的关联,以资金账户间的为依据,采用聚类算法可以将这些资金账户汇聚为若干个类别,每个类别包括若干个资金账户。可以采用任意的无监督聚类算法来对资金账户进行聚类,本说明书的实施例不做限定,如k-means(k均值)、dbscan(density-basedspatialclusteringofapplicationswithnoise,具有噪声的基于密度的聚类方法)、lpa(labelpropagationalgorithm,标签传播算法)等。

对每个类别,可以采用任意的特征抽取算法来生成每个类别的类别特征,本说明书的实施例同样不做限定,如pca(principalcomponentanalysis,主成分分析)、networkmotifs(网络模体)方法等。

在一种实现方式中,采用由资金往来关系构建的网络图来进行聚类和特征抽取。具体而言,以满足预定统计条件的资金往来记录中的资金账户为节点、以所建立的资金往来关系为边,建立资金关系网络图;按照资金网络关系图,采用聚类算法对其中的资金账户进行聚类;以属于每个类别的资金账户为节点,以属于该类别的资金账户之间的资金往来关系为边,构建每个类别的类别子图;对每个类别子图分别应用特征抽取算法,生成每个类别子图的特征向量,作为每个类别的类别特征。其中,资金网络关系图可以是有向图(即由单向资金关系和双向资金关系构建的资金网络关系图),也可以是无向图(即由不区分资金流向的资金往来关系构建的资金网络关系图)。

步骤130,将满足黑名单条件的类别标记为洗钱类别,将满足白名单条件的类别标记为正常类别,以洗钱类别和正常类别的类别特征作为样本数据,对二分类模型进行训练。

本说明书的实施例中,以类别特征作为输入构建二分类模型,二分类模型的输出为属于该类别的资金账户是可疑洗钱团伙的可能性。二分类模型可以采用任意的二分类机器学习算法,不做限定。

对聚类后得到的各个类别,基于已知的洗钱账户(确认有过洗钱行为或经常有洗钱行为的资金账户)和正常账户(即确认从未有过洗钱行为的资金账户),可以将其中的一部分满足黑名单条件的类别判定为洗钱类别,另一部分满足白名单条件的类别判定为正常类别。其中,洗钱类别中的资金账户被认为是洗钱团伙,属于正常类别的资金账户被认为是正常账户。

黑名单条件和白名单条件可以根据实际应用场景的业务特点来设置。以黑名单条件为例,可以将类别中已知的洗钱账户超过某个第一数值来作为黑名单条件,可以将类别中已知的洗钱账户占比超过某个第二数值来来作为黑名单条件,还可以将类别中已知的洗钱账户占比超过某个第三数值同时类别中已知的正常账户占比低于某个第四数值来作为黑名单条件。

以标记为洗钱类别和正常类别的类别特征作为样本数据,来对二分类模型进行训练。

步骤140,将除洗钱类别和正常类别以外的其他类别的类别特征输入训练完成的二分类模型,根据二分类模型的输出判断所述其他类别是否为可疑洗钱团伙。

在二分类模型训练完成后,可以用来判定除洗钱类别和正常类别以外的其他类别(称之为未知类别)是否为可疑洗钱团伙。具体而言,将某个未知类别的类别特征输入训练完成的二分类模型,当二分类模型的输出满足既定的可疑条件(如超过或不足某个值)时,认为该未知类别为可疑洗钱团伙,即该类别中的资金账户极有可能被用来进行洗钱。

此外,对聚类后得到的各个类别,还可以采用异常检测算法,来在所有类别中查找异常类别,如果找出明显有异的类别,可以将找到的异常类别用于风险网络特征的发现。风险网络特征的发现可以采用算法自动实现,也可以由专家人工实现。具体的异常检测算法不做限定,如可以使用iforest(isolationforest,孤立森林)算法。

可见,本说明书的实施例中,采用账户间的资金往来关系来对账户进行聚类并提炼出每个类别的类别特征,分别将满足黑名单条件和白名单条件的类别标记为洗钱类别和正常类别,以洗钱类别和正常类别的类别特征作为样本数据,训练以类别特征为输入的二分类模型,利用训练完成的二分类模型来识别其他类别是否是可疑洗钱团伙;从而实现了利用近期的资金往来记录,基于资金账户关联关系的高风险可疑洗钱团伙识别,更为快速、准确和高效。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书的一个应用示例中,第三方支付平台需要防范用户通过转账、充值和提现进行的洗钱犯罪。第三方支付平台上保存有每个用户在每笔转账、充值和提现时的资金往来记录,即由哪个资金账户(包括在第三方支付平台注册的账户、在其他互联网支付工具上注册的账户、银行卡、信用卡等)向哪个资金账户流入或流出了多少资金量。

第三方支付平台利用资金往来记录识别可疑洗钱团伙的过程如图2所示。

第三方支付平台提取最近一个月内在本平台注册的所有账户的转账、充值和提现交易的资金往来记录,建立资金账户之间的资金往来关系。对两个在上述时间段内有资金往来的资金账户(设为资金账户a和资金账户b),统计由资金账户a向资金账户b流入资金的单向总流量、由资金账户b向资金账户a流入资金的单向总流量、以及资金账户a与b之间的资金往来总量(即两个流向的单向总流量之和)。当资金往来总量不到2000元人民币时,认为资金账户a与资金账户b之间没有资金往来关系。当资金往来总量达到2000元人民币时,如果由资金账户a向资金账户b流入资金的单向总流量与由资金账户b向资金账户a流入资金的单向总流量的比值达到或超过5,则认为两个资金账户之间为由资金账户a向资金账户b流入的单向资金关系;如果由资金账户a向资金账户b流出资金的单向总流量与由资金账户b向资金账户a流出资金的单向总流量的比值达到或超过5,则认为两个资金账户之间为由资金账户a向资金账户b流出的单向资金关系;否则认为两个资金账户之间为双向资金关系。

在建立资金账户之间的单向或双向的资金往来关系后,以资金账户为节点,资金往来关系为边,绘制出资金网络关系图。对资金网络关系图运行无监督聚类算法lpa,将所有资金往来记录中涉及的资金账户划分为若干个类别,每个类别以一个groupid作为标识,每个资金账户都对应于一个groupid。

对每个类别,以对应于该类别groupid的所有资金账户为节点,以对应于该类别groupid的资金账户之间的资金往来关系为边,绘制出该类别的类别子图。对每一个类别子图使用networkmotifs方法抽取特征,抽取后每个类别子图具有一个特征向量,来作为该类别的类别特征。

第三方支付平台上维护有已经被判定为洗钱账户的若干个资金账户、以及已经被判定为正常账户的若干个资金账户。对每个类别,查找对应于该类别groupid的所有资金账户中有多少洗钱账户和正常账户,如果洗钱账户占该类别所有资金账户的比例超过一半并且正常账户占该类别所有资金账户的比例不足一成,则将该类别标记为洗钱类别;如果洗钱账户占该类别所有资金账户的比例不足一成并且正常账户占该类别所有资金账户的比例超过一半,则将该类别标记为正常类别;否则将该类别标记为未知类别。

将正常类别和洗钱类别的特征向量作为样本数据,训练神经网络二分类模型。二分类模型的输入为特征向量,输出为类别是洗钱类别的可能性。

在二分类模型训练完成后,将未知类别的特征向量输入该二分类模型,如果二分类模型的输出超过某个既定阈值,则将该类别判定为可疑洗钱团伙。

另外,对所有类别的特征向量应用异常检测算法isolationforest,来找出明显异常的类别,将检测出的异常类别提供给专家,辅助专家研究该类别中资金账户的特点、资金账户间的资金流动的特性、资金账户的行为特征等,进行新的风险网络特征发现。

与上述流程实现对应,本说明书的实施例还提供了一种可疑洗钱团伙的识别装置。该装置可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为逻辑意义上的装置,是通过所在设备的cpu(centralprocessunit,中央处理器)将对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,除了图3所示的cpu、内存以及存储器之外,可疑洗钱团伙的识别装置所在的设备通常还包括用于进行无线信号收发的芯片等其他硬件,和/或用于实现网络通信功能的板卡等其他硬件。

图4所示为本说明书实施例提供的一种可疑洗钱团伙的识别装置,包括资金往来关系单元、类别特征生成单元、二分类模型训练单元和可疑团伙判定单元,其中:资金往来关系单元用于基于满足预定统计条件的资金往来记录,建立记录中资金账户之间的资金往来关系;类别特征生成单元用于根据所建立的资金往来关系,对资金账户采用聚类算法进行聚类,并生成每个类别的类别特征;二分类模型训练单元用于将满足黑名单条件的类别标记为洗钱类别,将满足白名单条件的类别标记为正常类别,以洗钱类别和正常类别的类别特征作为样本数据,对二分类模型进行训练;可疑团伙判定单元用于将除洗钱类别和正常类别以外的其他类别的类别特征输入训练完成的二分类模型,根据二分类模型的输出判断所述其他类别是否为可疑洗钱团伙。

可选的,所述装置还包括:异常类别发现单元,用于对所有类别采用异常检测算法查找其中的异常类别,用于进行风险网络特征的发现。

一个例子中,所述类别特征生成单元具体用于:以满足预定统计条件的资金往来记录中的资金账户为节点、以所建立的资金往来关系为边,建立资金关系网络图;采用聚类算法对资金关系网络中的资金账户进行聚类;以属于每个类别的资金账户为节点,以属于所述类别的资金账户之间的资金往来关系为边,构建每个类别的类别子图;采用特征抽取算法,生成每个类别子图的特征向量,作为每个类别的类别特征。

上述例子中,所述特征抽取算法包括:网络模体networkmotifs方法;所述聚类算法包括:标签传播算法lpa、或k均值k-means算法。

可选的,所述资金往来关系单元具体用于:在满足预定统计条件的资金往来记录中每条记录的两个资金账户之间建立资金往来关系;累计具有资金往来记录的任意两个资金账户之间的资金往来总量,当某两个资金账户间的资金往来总量低于预定阈值时,删除所述两个资金账户间的资金往来关系。

一种实现方式中,所述资金往来关系包括:两个资金账户间的单向资金关系和双向资金关系。

上述实现方式中,所述资金往来关系单元还用于:分别累计具有资金往来关系的任意两个资金账户之间的两个流向的单向总流量,当两个资金账户之间两个流向的单向总流量满足预定差异条件时,认为所述两个资金账户之间为单向资金关系,否则认为所述两个资金账户之间为双向资金关系。

可选的,所述预定统计条件包括:在预定时间段内资金账户间的转账、充值和提现行为。

本说明书的实施例提供了一种计算机设备,该计算机设备包括存储器和处理器。其中,存储器上存储有能够由处理器运行的计算机程序;处理器在运行存储的计算机程序时,执行本说明书实施例中可疑洗钱团伙的识别方法的各个步骤。对可疑洗钱团伙的识别方法的各个步骤的详细描述请参见之前的内容,不再重复。

本说明书的实施例提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,这些计算机程序在被处理器运行时,执行本说明书实施例中可疑洗钱团伙的识别方法的各个步骤。对可疑洗钱团伙的识别方法的各个步骤的详细描述请参见之前的内容,不再重复。

以上所述仅为本说明书的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1