一种基于组合赋权的用户业务安全综合风险的评估方法与流程

文档序号:21367833发布日期:2020-07-04 04:43阅读:792来源:国知局
一种基于组合赋权的用户业务安全综合风险的评估方法与流程

本发明涉及计算机数据安全领域,具体是一种基于组合赋权的用户业务安全综合风险的评估方法。



背景技术:

近年来,大数据风控、智能风控等技术广为应用。随着c端用户规模的不断扩大,防范薅羊毛、盗刷、盗号等业务风险逐渐成为企业安全建设中不可或缺的一个模块。有效的业务安全风险防护和反欺诈措施,既可以避免企业营销成本的浪费,又保障了企业的市场策略能够更精准的触及到真实用户,一定程度上维护着企业的品牌效益。

目前多数的大数据风控系统中,用户行为分析、基于设备和环境的异常分析、用户画像等技术都能够实现从不同的维度对用户的风险系数进行刻画。此外,金融风控行业还有基于用户评分卡技术,得到用户的综合信用评分,服务于贷前、贷中、贷后的用户信用评级。

现有的用户风险评级技术主要是基于机器学习模型,构建不同场景的用户评分卡。例如,反欺诈评分卡、行为评分卡、催收评分卡等。这种分场景的评分卡模型忽略了不同业务场景之间的关系。具体而言,在各个环节风险都较高的用户,相比于仅在单一环节风险高的用户,其总体风险更高。现有的指标统计方法得到的风险综合评分通常不能将风险用户和正常用户的评价结果最大程度地划分开,导致两者的信用得分产生大量重叠、对风险的区分能力低。此外,对于业务场景较多的企业,只能通过罗列重要场景的用户风险获取多个风险标签,因此也难以反映全流程业务中用户风险行为的分布情况。



技术实现要素:

本发明实施例的目的在于提供一种基于组合赋权的用户业务安全综合风险的评估方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明实施例提供如下技术方案:

一种基于组合赋权的用户业务安全综合风险的评估方法,具体步骤如下:

步骤一,数据处理:对原始数据进行频数统计、比例计算和标签化,形成初步的指标变量;

步骤二,风险指标筛选:从区分度和相似度两个方面进行风险指标筛选;

步骤三,计算单一方法赋权的权重系数:采用主观赋权法和客观赋权法分别生成权重系数;

步骤四,求解多种赋权方法的组合赋权权重,计算出各用户的综合风险分值。

要使得上述两个需求都能满足,一是具有通用性的业务风险综合评估体系,二是能够明显区分出风险用户和非风险用户,本发明主要有以下解决思路。针对问题一,解决思路是涵盖了主观赋权和客观赋权两种权重生成方法,作为体系的第一层权重。针对问题二,解决思路是基于逼近各指标理想点的目标构建目标函数,求解组合赋权的第二层权重。

作为本发明实施例进一步的方案:步骤一中原始数据的来源为数据仓库抽取的多维度数据,包括业务数据、风控日志数据、sdk采集的设备数据、ip数据等。

作为本发明实施例进一步的方案:步骤一的原始数据中的数值型数据要根据指标含义进行对应的标准化处理,标准化处理包括正向标准化、负向标准化和区间型标准化。

作为本发明实施例进一步的方案:步骤二中采用多元统计分析中的fisher判别方法和随机森林学习模型中的任意一种进行筛选,数据量不大的情况下,多元统计分析中的fisher判别即可满足需求,数据量增大的情况下,随机森林学习模型的效率更高,计算指标之间的相关系数进行两者取其一的处理,两者间剔除相似度过高但影响度小的变量。

作为本发明实施例进一步的方案:步骤三中主观赋权法包括层次分析法(ahp)、g1法和bwm法,客观赋权法包括熵权法、dea模型和基尼系数赋权法。

作为本发明实施例进一步的方案:步骤四中采用topsis算法设计组合赋权权重的求解方案。

作为本发明实施例进一步的方案:g1法的计算公式如下:

rk是相邻指标之间重要程度之比,wk为第k个指标的权重,总体指标数量为m。

与现有技术相比,本发明实施例的有益效果是:

本发明提出了指标和模型相结合的权重生成方法,并使用实际数据验证了其有效性。本发明的用户总体风险评分方法具有风险识别能力,且评分能够将风险客户和非风险客户显著地区分开,安全风险等级评估体系更加直观;本发明的方法在不同行业的业务环境中具有一定的通用性,能够更好的区分优质用户和风险用户,使用前景广阔。

附图说明

图1为基于组合赋权的用户业务安全综合风险的评估方法的流程示意图。

图2为基于组合赋权的用户业务安全综合风险的评估方法中topsis算法的流程示意图。

图3为基于组合赋权的用户业务安全综合风险的评估方法中风险指标筛选的流程示意图。

图4为基于组合赋权的用户业务安全综合风险的评估方法的一种实际效果图。

图5为基于组合赋权的用户业务安全综合风险的评估方法的另一种实际效果图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

实施例1

一种基于组合赋权的用户业务安全综合风险的评估方法,具体步骤如下:

步骤一,数据处理:对原始数据进行频数统计、比例计算和标签化,形成初步的指标变量,原始数据的来源为数据仓库抽取的多维度数据,包括业务数据、风控日志数据、sdk采集的设备数据、ip数据等;

步骤二,风险指标筛选:从区分度和相似度两个方面进行风险指标筛选;

步骤三,计算单一方法赋权的权重系数:采用主观赋权法和客观赋权法分别生成权重系数;

步骤四,求解多种赋权方法的组合赋权权重,计算出各用户的综合风险分值。

实施例2

一种基于组合赋权的用户业务安全综合风险的评估方法,具体步骤如下:

步骤一,数据处理:对原始数据进行频数统计、比例计算和标签化,形成初步的指标变量,原始数据中的数值型数据要根据指标含义进行对应的标准化处理,标准化处理包括正向标准化、负向标准化和区间型标准化;假设vij表示用户i的第j维变量的指标值,训练集样本量为n,标准化后的指标值为xij。和用户风险呈负相关的指标可选择正向标准化,计算方法如下:和用户风险呈正相关的指标可选择负向标准化,计算方法如下:当变量取值在合理范围[q1,q2]内时用户均不存在明显风险,则可选择如下所示的区间标准化:分类变量或定性指标可根据标签类型进行打分实现编码。例如,指纹js加密解密结果是否相符合。

步骤二,风险指标筛选:本发明所提出的用户安全风险的综合评估是由多个定量或定性的评级指标构成的指标体系,从区分度和相似度两个方面进行风险指标筛选,以确保构建所用的指标能够反映风险状况、区分风险程度,进行风险指标筛选的方法和建模前变量选择的方法共通,数据量不大的情况下,多元统计分析中的fisher判别方法即可满足需求;而数据量增大的情况下,随机森林学习模型的效率更高。为避免代入相似性过高的指标导致指标体系冗余,再基于相似度进行筛选。具体而言,计算指标之间的相关系数进行两者取其一的处理,两者间剔除相似度过高但影响度小的变量;fisher判别方法是以风险状态为因变量、以评级指标为自变量建立fisher判别函数。根据fisher判别函数的高低,反映特定指标对违约状态的影响程度,剔除对风险状态的判别没有影响的指标。随机森林学习模型是根据训练所得分类器中的变量重要性函数计算得到,可以反映各特征包含的信息量对风险状态的影响程度,据此剔除风险分类能力较弱的特征。

步骤三,计算单一方法赋权的权重系数:筛选后的特征首先构建第一层权重系数,可选择的权重生成方法主要有两类,主观赋权法和客观赋权法。主观赋权法是依赖专家对指标重要度的打分进行赋权,不受指标取值的影响。客观赋权法是由指标的实际数值根据相应的统计方法计算得到。本发明包含了主观和客观两类赋权方法,旨在后续步骤中组合基于专家经验的指标重要性程度和指标数值分布所体现的客观信息。由于单一赋权法发展较早,已经形成了成熟的计算方法论,在此不再赘述;

代表性的主观赋权法有层次分析法(ahp)、g1(序关系分析)法和bwm(最优最劣)法。ahp的权重生成原理是计算判断矩阵的特征值。判断矩阵的生成要求对所有三级指标重要性进行两两对比,专家给出1-9标度化打分结果。三级指标较多的情况下,专家打分局限于1-9标度化的取值范围,容易出现各个指标之间区分度不高的现象。为了避免这种偏差,会采用多个专家打分,这会出现新的特征值不一致的问题。而现实中难以保证多个专家的判断矩阵都是一致阵。

g1法更适合于三级指标数量较多、可采访的专家群体较大的情况。g1法是基于指标重要性排序关系的分析方法,且计算简单。专家给出有序关系和满足有序关系条件的相邻指标之间重要程度之比rk的数值,即可根据下式计算出三级指标的权重:rk是相邻指标之间重要程度之比,wk为第k个指标的权重,总体指标数量为m。

最优最劣方法(bwm)和ahp法的思想类似,同样是基于成对比较的思想。相比于ahp,bwm改进了原始的两两比较方法,减少了比较次数,显著降低了不一致性风险。其次,权重生成方法为求解规划问题,相比于ahp的求解特征值,在汇总专家群组意见时保证了可解性。但是bwm法的权重生成需遵循一套严格的结构化比较方式,生成方式依旧比较复杂。

代表性的客观赋权法有熵权法、dea模型和基尼系数赋权法。客观赋权法的核心目标是让生成的权重更好的反映指标的数据信息。目前常用的客观赋权法通常为基于指标差异程度的赋权,其思想为指标的数据差异越大,蕴含的数据信息越多,相对应的指标赋权就更大。

熵权法根据指标的熵值大小进行赋权。熵值采用各个指标相对于所有指标的特征比重所反映的数据差异大小,熵值越大表示该指标相对于所有数据的数据差异越小。

dea模型是一种综合评价生产效率的非参数统计方法,将生产效率分解为技术效率(tp)、纯技术效率(pte)和规模效率(se),求解相对效率最优的规划方程,因此在应用场景上主要为经济学指标评价。

基尼系数赋权法的权重生成方法为对各个指标的基尼系数进行归一化。指标k的基尼系数计算方法如下:其中yki为第k个指标的第i个数据,μk为第k个指标所有数据的期望值,n为数据量。相比于熵值的计算,基尼系数反映的内容更加全面,包括了任意两个用户之间的指标数据差异。

步骤四,本发明基于topsis算法的思想设计组合权重的求解方案,直接计算了样本点到最优方案、最劣方案理想点的距离,根据距离值的大小评价风险的大小。本发明中提出的改进topsis算法具有样本预测的功能,通过已知风险情况的样本点求解各二级指标到对应理想点距离最小的目标方程,得到风险区分效果最佳的的权重值。

algorithm:改进的topsis算法

input三级指标标准化x={x1,x2,...,xn}

g1赋权和基尼系数赋权生成的权重w={w1,w2,...,wn}

process

1.标准化的三级指标加权生成标准化二级指标,其中uij为标准化后的三级指标和对应权重的乘积,uij=xijwij;

2.确定最优方案s+,表示理想情况下风险最低的正常用户的二级指标数据集合,其中标准化的风险最低用户

3.确定最劣方案s-,表示理想情况下最高风险用户二级指标数据集合,其中标准化的风险最高用户

4.分别计算各正常用户和最优方案之间的距离以及各风险用户和最劣方案之间的距离这里采用欧几里得距离,计算方法如下式(1.6)所示;

5.根据距离代数和最小原则,求解两目标规划方程如下(1.7)所示,其中有二级指标的综合权重为

s.t.θ1+θ2=1,θ1≥0(0.2)

6.汇总权重体系,包括三级指标的权重w、二级指标的组合权重θ,据此计算各样本的综合风险评价分值。

output各用户样本的综合风险分值

图4和图5是实际应用中的两个实施例,从图4和图5可以看出,本发明的方法可以通过赋权不同,有效反映出不同用户的风险点不同。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1