操作风险识别方法及装置与流程

文档序号:26010319发布日期:2021-07-23 21:30阅读:216来源:国知局
操作风险识别方法及装置与流程

本发明涉及计算机技术领域,可应用于金融领域和其他领域,尤指代一种操作风险识别方法及装置。



背景技术:

近年来,金融界的重量级案件频发,一系列由操作风险而引发的案例给商业银行造成了巨大损失。当前操作风险防控方式主要为事后防控,亦即在风险事件实施且产生损失后,进行事后分析评估并指定规则来缓解相关风险,并予以调整风险防控手段直至新的风险事件出现。

该种方式无法有效的降低风险事件的发生,同时损伤已造成难以追回,因此要想降低因操作风险带来的损失,就须在损失发生前和发生中进行有效布控和拦截。在本领域中未有针对损失发生前和发生中的进行有效的风险识别,为此,业内亟需一种改变传统操作风险监控方法,从源头控制操作风险的方法及装置。



技术实现要素:

本发明目的在于提供一种操作风险识别方法及装置,以准确地识别出存在的操作风险,在识别出后对操作人员进行预警,能够有效降低因操作风险导致的经济损失。

为达上述目的,本发明所提供的操作风险识别方法,具体包含:获取历史风险事件数据,按预设数据类型提取所述历史风险事件数据中每一风险事件的关联特征;通过广义回归神经网络对根据所述关联特征进行特征拟合获得所述风险事件的行为特征;获取待分析的操作行为,将所述操作行为与所述行为特征匹配获得匹配结果;根据所述匹配结果获得待分析的操作行为的操作风险。

在上述操作风险识别方法中,优选的,通过广义回归神经网络对根据所述关联特征进行特征拟合获得所述风险事件的行为特征还包含:通过dbscan算法对所述关联特征进行密度聚类,根据聚类结果对不同分区分别应用由高到低的平滑函数获得函数曲线;根据所述函数曲线上点到原始数据点之间的平均点距离获得评估值;根据所述评估值获得所述行为特征的评估效果。

在上述操作风险识别方法中,优选的,获取待分析的操作行为包含:识别所述待分析的操作行为,当所述待分析的操作行为中存在缺失值时,通过贝叶斯估计中的多重填补对所述缺失值进行补全。

在上述操作风险识别方法中,优选的,通过贝叶斯估计中的多重填补对所述缺失值进行补全包含:针对所述待分析的操作行为中各个缺失值分别生成补充值数据集合;通过评分函数分析各个补充值数据集合,获得所述补充值数据集合中各个补充值数据的评分;根据所述评分于所述缺失值数据集合调取补全值,通过所述补全值对所述缺失值进行补全。

在上述操作风险识别方法中,优选的,获取待分析的操作行为,将所述操作行为与所述行为特征匹配获得匹配结果包含:根据待分析的操作行为记录获取用户的关联信息,根据所述关联信息生成用户画像;根据所述用户画像筛选所述行为特征,将所述待分析的操作行为记录中的操作行为与筛选后的所述行为特征匹配获得匹配结果。

在上述操作风险识别方法中,优选的,所述预设数据类型包含风险事件类型、等级、行为、事件和操作人。

在上述操作风险识别方法中,优选的,所述风险事件数据包含时间信息、风险相关人员信息、时间内容信息、代价信息、概率信息和风险等级信息。

本发明还提供一种操作风险识别装置,所述装置包含:数据采集模块、特征提取模块、匹配模块和分析模块;所述数据采集模块用于获取历史风险事件数据,按预设数据类型提取所述历史风险事件数据中每一风险事件的关联特征;所述特征提取模块用于通过广义回归神经网络对根据所述关联特征进行特征拟合获得所述风险事件的行为特征;所述匹配模块用于获取待分析的操作行为,将所述操作行为与所述行为特征匹配获得匹配结果;所述分析模块用于根据所述匹配结果获得待分析的操作行为的操作风险。

在上述操作风险识别装置中,优选的,所述特征提取模块还包含优化单元,所述优化单元用于通过dbscan算法对所述关联特征进行密度聚类,根据聚类结果对不同分区分别应用由高到低的平滑函数获得函数曲线;根据所述函数曲线上点到原始数据点之间的平均点距离获得评估值;根据所述评估值获得所述行为特征的评估效果。

在上述操作风险识别装置中,优选的,所述匹配模块包含:补全单元,所述补全单元用于识别所述待分析的操作行为,当所述待分析的操作行为中存在缺失值时,通过贝叶斯估计中的多重填补对所述缺失值进行补全。

本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明的有益技术效果在于:改变了以往“事后”分析、风险发生后才进行规则建设的滞后性问题,避免更多因操作风险导致的潜在损失;首次提出通过行为分析进行操作风险识别,推进了技术创新;节约了人力成本。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:

图1为本发明一实施例所提供的操作风险识别方法的流程示意图;

图2为本发明一实施例所提供的操作风险识别方法的应用时序示意图;

图3为本发明一实施例所提供的dbscan算法的评估流程示意图;

图4为本发明一实施例所提供的dbscan表示dbscan辅助的grnn平滑参数分区拟合示意图;

图5为本发明一实施例所提供的行为特征匹配流程示意图;

图6为本发明一实施例所提供的操作风险识别装置的结构示意图;

图7为本发明一实施例所提供的电子设备的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。

另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

请参考图1所示,本发明所提供的操作风险识别方法,具体包含:

s101获取历史风险事件数据,按预设数据类型提取所述历史风险事件数据中每一风险事件的关联特征;

s102通过广义回归神经网络对根据所述关联特征进行特征拟合获得所述风险事件的行为特征;

s103获取待分析的操作行为,将所述操作行为与所述行为特征匹配获得匹配结果;

s104根据所述匹配结果获得待分析的操作行为的操作风险。

在上述实施例中,所述预设数据类型可包含风险事件类型、等级、行为、事件和操作人。所述风险事件数据包含时间信息、风险相关人员信息、时间内容信息、代价信息、概率信息和风险等级信息。在实际工作中,上述实施例原理在于将风险事件类型、等级、行为、时间、操作人等特征存入数据特征库;对每一个风险事件进行分析、推理,推断出行为,拟合出特征;接入所有操作,并事实分析每一笔和组合操作以推断行为,以便后续进行干预和提示。具体可参考图2所示,操作风险严重度一般是从风险概率(风险发生可能性的大小)和影响(负面影响的大小)两个维度综合衡量,因此可以按照概率和影响两个维度把操作风险划分为四大类:高频高危、高频低危、低频高危和低频低危。针对于此,在实际应用上述实施例时,可执行如下准备步骤:

针对风险行为特征提出以下六个元组(t,w,c,p,r,g)来描述:t:时间,风险事件发生的时间点;w:风险相关人,包括客户和员工;c:内容,事件内容;p:代价,造成的损失/影响;r:概率,发生的概率;g:等级,风险事件等级;

基于该元组内容可进一步应用:

元组单元分割模块,用于构建失配碰撞域;混合自动状态机模块,用于实现点与段数据的统一匹配;通配符映射模块,用于解决匹配中的通配符匹配问题;通配规则计算模块,用于减小通配符映射造成的冗余操作。算法是:提取元组参数构建普通自动状态机,构建碰撞域;利用通配符映射,解决通配符匹配问题,并精确通配替换规则,减少冗余计算。具体应用方式可根据实际需要,由本领域相关技术人员选择现有技术进行组合实现,对此本发明就不再一一详述。

其中,元组单元分割模型的具体分割与转换方法可采用如下方式实现:

设原始输入五元组为:t:时间,风险事件发生的时间点;w:风险相关人,包括客户和员工;c:内容,事件内容;p:代价,造成的损失/影响;r:概率,发生的概率;g:等级,风险事件等级;

针对含有输入元组,统一规则及待匹配元组的格式。分割元组中的格式为:{yyyy-mm-dd:hh:mmss-sss,personnames:[],content,price,rate,grade};

其中相关人包括行内员工和行外客户等,以行内员工为主;内容为格式化描述:原因(如:尽职调查未完成)|过程(如:xx客户到xx,办理xxx等)|分析情况,其来源为人工标定;代价为量化描述:如xxxx元资金损失;xxx处罚等;概率:通过计算获得,样本时间为1年,即1年内同类风险事件出现频次;等级:行内评定等级。

广义回归神经网络是径向基函数神经网络的一种特殊形式。由四层组成,分别为输入层、模式层、求和层和输出层。可参考图3所示,对应网络输入为x=[x1,x2,x3,......,xn,]t,输出为:y=[y1,y2,y3,....,yn,]t,概括的来说:输入层为向量,维度为m,样本个数为n,传输函数是线性函数;隐藏层与输入层全连接,隐藏层神经元个数与样本个数相等,传输函数为径向基函数;求和层中有两个节点,第一个节点为每个隐含层节点的输出和,第二个节点为预期的结果与每个隐含层节点的加权和;输出层中的神经元数目等于学习样本中红输出向量的维度k,各神经元将求和层的输出相除。传统grnn拟合分析将一个平滑参数分配给所有训练样本是不明智的。对于所有不同的区间,σ1=σ2=...σn-1=σn,并不总是具有良好的预测准确性。当设置比较大的σ,拟合出来的曲线比较平缓,不能更好的描述特征。而较小的σ容易造成过度拟合(过分学习);如果对不同的分区设定不同的平滑因子,拟合效果更优,为此,请参考图3所示,在本发明一实施例中,通过广义回归神经网络对根据所述关联特征进行特征拟合获得所述风险事件的行为特征还包含:

s301通过dbscan算法对所述关联特征进行密度聚类,根据聚类结果对不同分区分别应用由高到低的平滑函数获得函数曲线;

s302根据所述函数曲线上点到原始数据点之间的平均点距离获得评估值;

s303根据所述评估值获得所述行为特征的评估效果。

由此,使用dbscan先进行密度聚类,对产生的不同分区分别应用从高到底的平滑函数,通过评估拟合曲线上的点到原始数据点之间的平均点距离来评估效果;具有请参考图4所示,图4中的x表示传统grnn拟合曲线;o代表原数据点,dbscan表示dbscan辅助的grnn平滑参数分区拟合;可以看到后者有更加好的效果。

在本发明一实施例中,获取待分析的操作行为包含:识别所述待分析的操作行为,当所述待分析的操作行为中存在缺失值时,通过贝叶斯估计中的多重填补对所述缺失值进行补全。具体的,通过贝叶斯估计中的多重填补对所述缺失值进行补全包含:针对所述待分析的操作行为中各个缺失值分别生成补充值数据集合;通过评分函数分析各个补充值数据集合,获得所述补充值数据集合中各个补充值数据的评分;根据所述评分于所述缺失值数据集合调取补全值,通过所述补全值对所述缺失值进行补全。

在实际工作中,缺失值,不仅包括数据库中的null值,也包括用于表示数值缺失的特殊数值(比如,在系统中用-999来表示数值不存在)。本发明可采用多重填补(multipleimputation,mi)对空值进行补全。多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。

多重插补方法分为三个步骤:①为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合。②每个插补数据集合都用针对完整数据集的统计方法进行统计分析。③对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。

假设一组数据,包括三个变量y1,y2,y3,它们的联合分布为正态分布,将这组数据处理成三组,a组保持原始数据,b组仅缺失y3,c组缺失y1和y2。在多值插补时,对a组将不进行任何处理,对b组产生y3的一组估计值(作y3关于y1,y2的回归),对c组作产生y1和y2的一组成对估计值(作y1,y2关于y3的回归)。

当用多值插补时,对a组将不进行处理,对b、c组将完整的样本随机抽取形成为m组(m为可选择的m组插补值),每组个案数只要能够有效估计参数就可以了。对存在缺失值的属性的分布作出估计,然后基于这m组观测值,对于这m组样本分别产生关于参数的m组估计值,给出相应的预测即,这时采用的估计方法为极大似然法,在计算机中具体的实现算法为期望最大化法(em)。对b组估计出一组y3的值,对c将利用y1,y2,y3它们的联合分布为正态分布这一前提,估计出一组(y1,y2)。

上例中假定了y1,y2,y3的联合分布为正态分布。这个假设是人为的,但是已经通过验证(graham和schafer于1999),非正态联合分布的变量,在这个假定下仍然可以估计到很接近真实值的结果。

多重插补和贝叶斯估计的思想是一致的,但是多重插补弥补了贝叶斯估计的几个不足。

(1)贝叶斯估计以极大似然的方法估计,极大似然的方法要求模型的形式必须准确,如果参数形式不正确,将得到错误得结论,即先验分布将影响后验分布的准确性。而多重插补所依据的是大样本渐近完整的数据的理论,在数据挖掘中的数据量都很大,先验分布将极小的影响结果,所以先验分布的对结果的影响不大。

(2)贝叶斯估计仅要求知道未知参数的先验分布,没有利用与参数的关系。而多重插补对参数的联合分布作出了估计,利用了参数间的相互关系。

贝叶斯网络是用来表示变量间连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。贝叶斯网络仅适合于对领域知识具有一定了解的情况,至少对变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高(随着变量的增加,指数级增加),网络维护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响了它的预测精度。当在任何一个对象中的缺失值数量很大时,存在指数爆炸的危险。

请参考图5所示,在本发明一实施例中,获取待分析的操作行为,将所述操作行为与所述行为特征匹配获得匹配结果包含:

s501根据待分析的操作行为记录获取用户的关联信息,根据所述关联信息生成用户画像;

s502根据所述用户画像筛选所述行为特征,将所述待分析的操作行为记录中的操作行为与筛选后的所述行为特征匹配获得匹配结果。

在实际工作中,数据满足元组集合,一个操作行为记录中可以包括至少一条操作行为信息,一条操作行为信息可以为用户进行某个操作行为时的相关信息。例如:在对手数据中,效果最好的是用户个人金融属性数据:年龄、收入、职业、学历、资产、负债。这些数据信用相关度高。

除此之外,部分用户行为数据对于信用风险评估也具有较大的影响,甚至在某些条件下这些行为数据是决定用户信用风险事件的强相关因素,这些因素和操作风险正相关。物以类聚、人以群分,一些群体性的行为特征规律是值得关注的,因此,通过标签获取的用户行为数据,通常倾向于分析用户群体的规律行为的相近性判断。基于用户画像,即为用户打标签,区分不同属性的用户。如:性别标签、年龄标签、消费偏好标签。

用户画像包括人口统计学特征、消费能力数据、兴趣数据、风险偏好,包括企业的生产、流通、运营、财务、销售和客户数据、相关产业链上下游等数据。通过样本数据分析不同标签用户的行为特征,再根据分析获得到的知识对未知标签的用户进行分类。包括员工操作和对象操作。此外,数据源也可以多样,除操作日志外,还可以有企业客户的产业链上下游数据等。访问记录某内部工作人员在某段时间内操作存贷/汇交易的时间大幅度快于其历史水平;通过对用户行为数据的采集和分析,找出风险操作人留下的蛛丝马迹,预防欺诈行为的发生;其现实意义在于在欺诈行为发生之前就将其制止。

请参考图6所示,本发明还提供一种操作风险识别装置,所述装置包含:数据采集模块、特征提取模块、匹配模块和分析模块;所述数据采集模块用于获取历史风险事件数据,按预设数据类型提取所述历史风险事件数据中每一风险事件的关联特征;所述特征提取模块用于通过广义回归神经网络对根据所述关联特征进行特征拟合获得所述风险事件的行为特征;所述匹配模块用于获取待分析的操作行为,将所述操作行为与所述行为特征匹配获得匹配结果;所述分析模块用于根据所述匹配结果获得待分析的操作行为的操作风险。

在上述实施例中,所述特征提取模块还包含优化单元,所述优化单元用于通过dbscan算法对所述关联特征进行密度聚类,根据聚类结果对不同分区分别应用由高到低的平滑函数获得函数曲线;根据所述函数曲线上点到原始数据点之间的平均点距离获得评估值;根据所述评估值获得所述行为特征的评估效果。在另一实施例中,所述匹配模块包含:补全单元,所述补全单元用于识别所述待分析的操作行为,当所述待分析的操作行为中存在缺失值时,通过贝叶斯估计中的多重填补对所述缺失值进行补全。

本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明的有益技术效果在于:改变了以往“事后”分析、风险发生后才进行规则建设的滞后性问题,避免更多因操作风险导致的潜在损失;首次提出通过行为分析进行操作风险识别,推进了技术创新;节约了人力成本。

如图7所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图7中所示的所有部件;此外,电子设备600还可以包括图7中没有示出的部件,可以参考现有技术。

如图7所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为lcd显示器,但并不限于此。

该存储器140可以是固态存储器,例如,只读存储器(rom)、随机存取存储器(ram)、sim卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为eprom等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。

基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1