业务操作的风险检测方法和装置与流程

文档序号:12124668阅读:344来源:国知局
业务操作的风险检测方法和装置与流程

本发明涉及互联网安全技术领域,尤其涉及一种业务操作的风险检测方法和装置。



背景技术:

目前,业务操作的风险检测方法通常有两类,一类是基于规则策略,即设置安全的业务操作应该满足的规则,将不符合规则的业务操作判断为存在风险的业务操作。但是,这种方式需要根据业务和场景变化进行调整,智能化程度较低。另一类是采用二类智能判别方法,该方法可以建立二类模型,根据模型将业务操作划分为正常业务操作和危险业务操作。

以业务操作是互联网交易为例,互联网交易中,相比于海量的正常交易,危险交易在量级上极小且形态各异,也即存在小样本问题:白样本海量而黑样本稀缺。在小样本场景下,为了解决样本不均衡的问题,在建模时需要采用大类(正常交易)欠采样,或者小类(危险交易)过采样,但是,这种方式会导致数据过学习等问题,检测方式可能失效。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的一个目的在于提出一种业务操作的风险检测方法,该方法可以实现业务操作的风险检测,并且在小样本问题下依然保持有效。

本发明的另一个目的在于提出一种业务操作的风险检测装置。

为达到上述目的,本发明第一方面实施例提出的业务操作的风险检测方法,包括:获取待检测的业务操作的初始特征;根据预先获取的映射函数,对所述初始特征进行映射,获取映射后的特征,其中,所述映射后的特征的个数小于所述初始特征的个数,且,所述映射后的特征与所述初始特征具有局部流形保持特性;根据所述映射后的特征判断所述业务操作是否存在风险。

本发明第一方面实施例提出的业务操作的风险检测方法,通过对初始特征进行降维处理,且降维后的特征与初始特征具有局部流形保持特性,可以最大化的不丢失原始数据业务操作,并且可以选择少量数据进行运算,实现业务操作风险检测,并且不需要 根据不同类别的样本进行建模,不需要考虑数据不均衡问题,在小样本问题下依然适用。

为达到上述目的,本发明第二方面实施例提出的业务操作的风险检测装置,包括:第一获取模块,用于获取待检测的业务操作的初始特征;映射模块,用于根据预先获取的映射函数,对所述初始特征进行映射,获取映射后的特征,其中,所述映射后的特征的个数小于所述初始特征的个数,且,所述映射后的特征与所述初始特征具有局部流形保持特性;判断模块,用于根据所述映射后的特征判断所述业务操作是否存在风险。

本发明第二方面实施例提出的业务操作的风险检测装置,通过对初始特征进行降维处理,且降维后的特征与初始特征具有局部流形保持特性,可以最大化的不丢失原始数据业务操作,并且可以选择少量数据进行运算,实现业务操作风险检测,并且不需要根据不同类别的样本进行建模,不需要考虑数据不均衡问题,在小样本问题下依然适用。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1是本发明一实施例提出的业务操作的风险检测方法的流程示意图;

图2是本发明实施例中多种维度的特征的示意图;

图3是本发明实施例中基于局部流形保持的交易采样点的示意图;

图4是本发明另一实施例提出的业务操作的风险检测方法的流程示意图;

图5是本发明另一实施例提出的业务操作的风险检测方法的流程示意图;

图6是本发明实施例中采用F分布统计量检测风险的示意图;

图7是本发明另一实施例提出的业务操作的风险检测方法的流程示意图;

图8是本发明另一实施例提出的业务操作的风险检测装置的结构示意图;

图9是本发明另一实施例提出的业务操作的风险检测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发 明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的业务操作的风险检测方法的流程示意图,该方法包括:

S11:获取待检测的业务操作的初始特征。

本发明实施例中,将以业务操作具体为交易进行说明。

例如,数据库中记录交易的标识信息与交易的特征之间的对应关系,通过该对应关系以及待检测的交易的标识信息,可以获取相应的初始特征。

S12:根据预先获取的映射函数,对所述初始特征进行映射,获取映射后的特征,其中,所述映射后的特征的个数小于所述初始特征的个数,且,所述映射后的特征与所述初始特征具有局部流形保持特性。

在互联网交易场景下,每个交易的初始特征是具有多个维度的特征。参见图2,特征可以分为客户主体、行为、交易、时间频次等多个维度。两个维度之间都可以笛卡尔积叠加而成,因此会引发海量的特征集,特别是时间维度的引入,每个交易样本所带有的特征可能达到上万种。

现有技术中,需要在海量的特征中进行选择,从而根据选择后的特征建模。现有技术中通常是采用人工方式选择特征,也即建模研究人员和工程师对业务的理解对最终的模型性能起到了决定性的作用。因此,极大地影响业务快速扩展,模型体系变得越来越重。

虽然初始特征具有海量维度,但是,这些海量的初始特征往往只受少数内置的约束变量所控制,高维数据虽外在表现为高维,但内在存在着线性或非线性相关关系。也即真正驱动过程数据的自由隐变量数往往大幅小于原始变量数,即其内在核心结构往往是低维的。变量之间的这种相关性可认为其在几何上表现为数据点散布在低维光滑流形上或者附近。

也就是说,一些高维数据虽外在表现为高维,但内在本质上可以映射到低维数据,且高维数据和相应的低维数据具有局部流形保持特性。局部流形保持特性的具体含义可以参见各种已有流形学习算法,大概含义是指:局部特征点在高维和低维上具有相同的空间特性,局部特征点是指在所有的采样点中选择的目标点,相同的空间特性例如两个目标点在高维空间的欧式距离与其在低维空间上的欧式距离相同。例如,目标点分别是A、B、C,如果满足局部保持特性,那么,在高维空间上,A、B、C这三个点两两之间的空间距离,与映射后,在低维空间上,这三个点两两之间的空间距离是相同的,而这三个目标点与其他采样点或其他采样点之间在映射前后的距离关系可以改变。可以理解的是,相同可以是指完全一致或者在预设误差范围内的相同。

为此,本实施例中,采用映射函数的方式,实现初始特征的降维,一方面可以实现特征个数的减少,另一方面,通过局部流形保持特性,可以使得高维中两点之间(具有相似 购买习惯的群体、相似年龄、收入层和社交圈的一类个体)的距离能够在降维后依旧保持(那些相似特征个体在经过维度降解后也应聚集在同处或者相近处),实现数据特征的最大化保持。

在局部流形保持时,将一个交易的采样点作为目标点,该目标点所在的邻接域内的采样点之间的空间距离结构,在高维空间与低维空间具有一致性。

例如,参见图3,便于可视化且不失一般性,假设原始空间的特征集为3维空间(实际交易风险特征维度为超高维),各圆圈点表示交易采样点。假设图3(1)中的采样点Xi为目标点,该采样点的邻接域内的采样点包括另外三个采样点,且参见图3(2)另外三个采样点与目标点之间的距离分别为R1i、R2i和R3i。参见图3(3),经过降维后,邻接域内的这四个采样点之间从三维空间降维到二维空间还是保持空间距离结构,而其他采样点的距离结构则可能发生变化。

因此,在计算各点到目标点的距离后,可获得相应的权重。也即,距离越近,权重越大。从互联网支付交易的业务场景分析,那些高维空间上与目标交易事件越相似的交易事件(具有相似购买习惯的群体、相似年龄、收入层和社交圈的一类个体),其距离应该最接近,而在投影计算中,这些临近点权重值越大。并且,在完成超高维特征降解后,在低维空间也应当保持该特性(那些相似特征个体在经过维度降解后也应聚集在同处或者相近处)。

为了实现特征降维并保持局部流形,本实施例可以预先生成映射函数,采用该映射函数进行映射。

参见图4,该方法还可以包括获取映射函数的流程,其中,以业务操作具体是交易为例,获取映射函数可以包括:

S41:收集历史交易的初始特征,并根据所述初始特征确定第一交易采样点,所述第一交易采样点是历史交易在初始特征所在的高维空间内的交易采样点。

相对于当前检测的交易,映射函数是预先建立的,其根据的特征是之前的交易对应的特征,之前的交易可以称为历史交易。

在每次进行交易时可以在数据库内记录该交易与对应的高维特征,因此,可以从数据库中获取交易的高维特征,也就是初始特征。

在获取每个历史交易对应的初始特征后,可以在初始特征所在的高维空间内,确定每个历史交易对应的坐标点,该坐标点可以称为第一交易采样点。

S42:确定邻接域。

其中,可以设置邻接域的范围和阈值,例如,将某个年龄段的人群对应的交易采样点确定为同一个邻接域等。

S43:确定同一个邻接域内的第一交易采样点,根据待求解的映射函数和第一交易采样点确定第二交易采样点,所述第二交易采样点是第一交易采样点映射到低维空间内的交易采样点,以及,确定目标函数,所述目标函数使得第二交易采样点之间的空间距离关系与所述第一交易采样点之间的空间距离关系相同。

在确定邻接域后,可以确定高维空间内同一个邻接域内的交易采样点,也就是第一交易采样点,根据映射函数可以将第一交易采样点映射到低维空间,得到第二交易采样点,从而第二交易采样点与映射函数相关。

该目标函数可以称为基于局部流形保持的数据结构描述。通过该目标函数,可以保证特征降维后,同一个邻接域内的交易采样点的空间距离关系保持不变,而邻接域之外的交易采样点之间的空间距离关系可以发生改变。

可以理解的是,该具有相同的空间距离关系可以是完全相同,或者是在设定误差范围内的相同。

S44:求解所述目标函数,得到映射函数。

由于目标函数是关于映射函数的函数,通过求解目标函数可以获取映射函数。

在S44之后可以执行S11’-S13’,S11’-S13’是具体将S11-S13中的业务操作具体为交易。

S13:根据所述映射后的特征判断所述业务操作是否存在风险。

例如,在对交易的特征进行降维后,可以对少量特征进行处理,以判断交易是否存在风险。

一些实施例中,参见图5,S13可以具体包括:

S51:对所述映射后的特征进行统计运算,得到统计量。

一些实施例中,计算的统计量可以具体是指F分布统计量。

在得到低维的特征后,可以计算这些特征的F分布统计量。

S52:根据所述统计量与预设的阈值,判断所述业务操作是否存在风险。

例如,参见图6,以统计量是F分布统计量为例,可以预先设置一个阈值,以业务操作是交易为例,当一个交易的F分布统计量大于该阈值时,判断出存在风险,如图6所示的交易61为存在风险的交易,否则,当一个交易对应的F分布统计量小于或等于该阈值时,确定该交易不存在风险。

其中,存在风险的交易可以称为危险交易,不存在风险的交易可以称为正常交易。

一些实施例中,在判断出正常交易和危险交易后,可以进行相应处理。

例如,参见图7,S11’-S13’之后,该方法还可以包括:

S71:当该交易是正常交易时,对该交易进行放行。

例如,允许支付,转账等。

S72:当该交易是危险交易时,进行交易异常处理。

交易异常处理例如拦截,交易失败处理,或者,账户限权等。

本实施例中,通过对初始特征进行降维处理,且降维后的特征与初始特征具有局部流形保持特性,可以最大化的不丢失原始数据信息,并且可以选择少量数据进行运算,实现交易风险检测,并且不需要根据不同类别的样本进行建模,不需要考虑数据不均衡问题,在小样本问题下依然适用。

图8是本发明另一实施例提出的交易风险检测装置的结构示意图,该装置80包括:

第一获取模块81,用于获取待检测的业务操作的初始特征;

具体的,将以业务操作是交易进行具体说明。

例如,数据库中记录交易的标识信息与交易的特征之间的对应关系,通过该对应关系以及待检测的交易的标识信息,可以获取相应的初始特征。

映射模块82,用于根据预先获取的映射函数,对所述初始特征进行映射,获取映射后的特征,其中,所述映射后的特征的个数小于所述初始特征的个数,且,所述映射后的特征与所述初始特征具有局部流形保持特性;

在互联网交易场景下,每个交易的初始特征是具有多个维度的特征。参见图2,特征可以分为客户主体、行为、交易、时间频次等多个维度。两个维度之间都可以笛卡尔积叠加而成,因此会引发海量的特征集,特别是时间维度的引入,每个交易样本所带有的特征可能达到上万种。

现有技术中,需要在海量的特征中进行选择,从而根据选择后的特征建模。现有技术中通常是采用人工方式选择特征,也即建模研究人员和工程师对业务的理解对最终的模型性能起到了决定性的作用。因此,极大地影响业务快速扩展,模型体系变得越来越重。

虽然初始特征具有海量维度,但是,这些海量的初始特征往往只受少数内置的约束变量所控制,高维数据虽外在表现为高维,但内在存在着线性或非线性相关关系。也即真正驱动过程数据的自由隐变量数往往大幅小于原始变量数,即其内在核心结构往往是低维的。变量之间的这种相关性可认为其在几何上表现为数据点散布在低维光滑流形上或者附近。

也就是说,一些高维数据虽外在表现为高维,但内在本质上可以映射到低维数据,且高维数据和相应的低维数据具有局部流形保持特性。局部流形保持特性的具体含义可以参见各种已有流形学习算法,大概含义是指:局部特征点在高维和低维上具有相同的空间特性,局部特征点是指在所有的采样点中选择的目标点,相同的空间特性例如两个目标点在高维空间的欧式距离与其在低维空间上的欧式距离相同。例如,目标点分别是A、B、C,如果满足局部保持特性,那么,在高维空间上,A、B、C这三个点两两之间的空间距离, 与映射后,在低维空间上,这三个点两两之间的空间距离是相同的,而这三个目标点与其他采样点或其他采样点之间在映射前后的距离关系可以改变。可以理解的是,相同可以是指完全一致或者在预设误差范围内的相同。

为此,本实施例中,采用映射函数的方式,实现初始特征的降维,一方面可以实现特征个数的减少,另一方面,通过局部流形保持特性,可以使得高维中两点之间(具有相似购买习惯的群体、相似年龄、收入层和社交圈的一类个体)的距离能够在降维后依旧保持(那些相似特征个体在经过维度降解后也应聚集在同处或者相近处),实现数据特征的最大化保持。

在局部流形保持时,将一个交易的采样点作为目标点,该目标点所在的邻接域内的采样点之间的空间距离结构,在高维空间与低维空间具有一致性。

例如,参见图3a-图3c,便于可视化且不失一般性,假设原始空间的特征集为3维空间(实际交易风险特征维度为超高维),各圆圈点表示交易采样点。假设图3a中的采样点Xi为目标点,该采样点的邻接域内的采样点包括另外三个采样点,且参见图3b,另外三个采样点与目标点之间的距离分别为R1i、R2i和R3i。参见图3c,经过降维后,邻接域内的这四个采样点之间从三维空间降维到二维空间还是保持空间距离结构,而其他采样点的距离结构则可能发生变化。

因此,在计算各点到目标点的距离后,可获得相应的权重。也即,距离越近,权重越大。从互联网支付交易的业务场景分析,那些高维空间上与目标交易事件越相似的交易事件(具有相似购买习惯的群体、相似年龄、收入层和社交圈的一类个体),其距离应该最接近,而在投影计算中,这些临近点权重值越大。并且,在完成超高维特征降解后,在低维空间也应当保持该特性(那些相似特征个体在经过维度降解后也应聚集在同处或者相近处)。

为了实现特征降维并保持局部流形,本实施例可以预先生成映射函数,采用该映射函数进行映射。

一些实施例中,参见图9,该装置80还包括:用于获取映射函数的第二获取模块84,所述第二获取模块84具体用于:

收集历史业务操作的初始特征,并根据所述初始特征确定第一业务操作采样点,所述第一业务操作采样点是历史业务操作在初始特征所在的高维空间内的业务操作采样点;

确定邻接域;

确定同一个邻接域内的第一业务操作采样点,根据待求解的映射函数和第一业务操作采样点确定第二业务操作采样点,所述第二业务操作采样点是第一业务操作采样点映射到低维空间内的业务操作采样点,以及,确定目标函数,所述目标函数使得第二业务操作采 样点之间的空间距离关系与所述第一业务操作采样点之间的空间距离关系相同;

求解所述目标函数,得到映射函数。

相对于当前检测的交易,映射函数是预先建立的,其根据的特征是之前的交易对应的特征,之前的交易可以称为历史交易。

在每次进行交易时可以在数据库内记录该交易与对应的高维特征,因此,可以从数据库中获取交易的高维特征,也就是初始特征。

在获取每个历史交易对应的初始特征后,可以在初始特征所在的高维空间内,确定每个历史交易对应的坐标点,该坐标点可以称为第一交易采样点。

其中,可以设置邻接域的范围和阈值,例如,将某个年龄段的人群对应的交易采样点确定为同一个邻接域等。

在确定邻接域后,可以确定高维空间内同一个邻接域内的交易采样点,也就是第一交易采样点,根据映射函数可以将第一交易采样点映射到低维空间,得到第二交易采样点,从而第二交易采样点与映射函数相关。

该目标函数可以称为基于局部流形保持的数据结构描述。通过该目标函数,可以保证特征降维后,同一个邻接域内的交易采样点的空间距离关系保持不变,而邻接域之外的交易采样点之间的空间距离关系可以发生改变。

可以理解的是,该具有相同的空间距离关系可以是完全相同,或者是在设定误差范围内的相同。

由于目标函数是关于映射函数的函数,通过求解目标函数可以获取映射函数。

判断模块83,用于根据所述映射后的特征判断所述业务操作是否存在风险。

由于目标函数是关于映射函数的函数,通过求解目标函数可以获取映射函数。

一些实施例中,参见图9,所述判断模块83包括:

第一单元831,用于对所述映射后的特征进行统计运算,得到统计量;

一些实施例中,计算的统计量可以具体是指F分布统计量。

在得到低维的特征后,可以计算这些特征的F分布统计量。

第二单元832,用于根据所述统计量与预设的阈值,判断所述业务操作是否存在风险。

所述统计量是F分布统计量,所述第二单元具体用于:

当所述F分布统计量大于所述阈值时,判断出所述业务操作存在风险。

例如,参见图6,以统计量是F分布统计量为例,可以预先设置一个阈值,当一个交易的F分布统计量大于该阈值时,判断出存在风险,如图6所示的交易61为存在风险的交易,否则,当一个交易对应的F分布统计量小于或等于该阈值时,确定该交易不存在风险。

其中,存在风险的交易可以称为危险交易,不存在风险的交易可以称为正常交易。

一些实施例中,在判断出正常交易和危险交易后,可以进行相应处理。

一些实施例中,参见图9,该装置80还包括:

处理模块85,用于当判断结果是不存在风险时,对所述业务操作进行放行处理;或者,当判断结果是存在风险时,对所述业务操作进行异常处理。

例如,在正常交易时,允许支付,转账等。或者,在危险交易时,交易异常处理例如拦截,交易失败处理,或者,账户限权等。

本实施例中,通过对初始特征进行降维处理,且降维后的特征与初始特征具有局部流形保持特性,可以最大化的不丢失原始数据信息,并且可以选择少量数据进行运算,实现交易风险检测,并且不需要根据不同类别的样本进行建模,不需要考虑数据不均衡问题,在小样本问题下依然适用。

需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读 取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1