一种诈骗电话动态识别区间构建方法

文档序号:25992348发布日期:2021-07-23 21:04阅读:123来源:国知局
一种诈骗电话动态识别区间构建方法

本发明涉及互联网通信领域、人工智能领域,是一种诈骗电话动态识别区间构建方法,可应用于电信反欺诈领域。



背景技术:

诈骗电话严重扰乱了正常通信秩序,妨害公民通信自由,干扰人民群众正常工作生活,已成为当今社会一个严重的问题。如何有效识别和拦截诈骗电话在电信反欺诈机制中起着重要作用,引起了学术界、工业界和政府资助机构的广泛关注。

相关技术中,利用众包标注的方法进行诈骗电话识别是较常用的方法,但是众包标注成本高,效率低下。随着人工智能技术得飞速发展,在相关技术中,也利用机器学习方法构建诈骗电话识别模型,但是大多数研究者只用模型输出的正确率评价模型的好坏,然而对于诈骗电话话单数据这种典型的不平衡数据集,模型识别存在较大偏差,正确率并不能准确反映模型的识别效果。因此,本发明基于多种评价指标的机器学习算法,提出一种诈骗电话动态识别区间。



技术实现要素:

本发明的目的在于提供了一种诈骗电话识别动态区间构建方法,旨在解决电信领域反欺诈场景中诈骗电话识别准确率不高的问题,即电信运营商可运用该模型完成诈骗电话识别并采取相应的控制措施,减少用户损失,提高用户体验。将用户话单日志数据作为模型输入,经过模型分析判别,输出每条用户话单日志数据为诈骗电话的置信度,根据置信度与诈骗电话动态区间的上下界阙值,判断该样本是否为可疑诈骗电话,为运营商进行用户分析和管理提供了重要参考。

一种诈骗电话动态识别区间构建方法,其特征在于,包括如下步骤,

步骤1:提出了基于随机森林进行诈骗电话用户话单数据进行特征提取的方法;

步骤2:根据步骤1处理的数据,利用混合采样方法对数据进行再平衡处理,减少由于数据不平衡分布对模型带来的影响;

步骤3:根据诈骗电话用户话单数据的特点,构建诈骗电话识别模型,并用多种评价指标衡量模型识别效果;

步骤4:根据步骤3,利用诈骗电话识别模型判读数据样本为诈骗电话的概率,构建诈骗电话动态识别区间。

1、本发明利用随机森林诈骗电话用户话单数据特征提取方法,计算数据集中每个维度特征的信息增益,根据信息增益构建每棵树的节点分裂,最后计算每个维度数据的得分。用原始诈骗电话用户话单数据作为输入,本发明使用vim表示变量的重要性度量,gi表示基尼指数。

具有n个示例的训练数据集s定义为:

s={si},i=1,2,...,n(1)

其中si表示样本集中任意一个样本点,n表示该样本集中包含n个样本点,si的定义如式2所示。

si=(xi,yi),i=1,2,...,n(2)

其中,xi={v1,v2,...,vw}表示是一个实例,vj表示是xi样本的特征,yi={1,2,...,c}表示相对应的xi的标签,在本发明中数据分为正常电话用户话单数据和诈骗电话用户话单数据即c=2。

本发明中使用的数据维度为数据脱敏手机号v1、被呼叫的手机号v2、通话频率v3、成功连接的比率v4、平均通话持续时间v5、铃声的平均持续时间v6、呼叫类型v7、呼叫时间v8、呼叫持续时间v9、被挂断电话的比率v10、手机的状况v11、通话时间v12字段。因此在本发明中w=12。

gi基尼指数定义为:

其中,k表示k个类别,pmk表示类别k在节点m中所占的比例,pmk'表示类别不为k的节点m所占的比例。

vim变量重要性定义为:

其中,gileft和giright分别表示m节点的左右两个新分支节点的gi索引。

最后,标准化所有变量的重要度度量。对于任意一个诈骗电话特征vi,其重要度为vimi,这期重要度的标准化计算公式如式(5)所示。

其中,∑vim表示本发明中的12个特征的特征重要度之和。根据重要度得分对数据进行排序,选出得分大于0.8的前9个特征构建数据的特征向量,得到新的可用于后续实验的诈骗电话用户话单数据集。

2、根据用户话单数据是典型的不平衡数据,本发明提出使用混合采样的方法对数据进行采样,用1处理后的数据作为输入。根据正常电话与诈骗电话样本不平衡比例设置采样比率r,设正常电话样本数量为p,诈骗电话样本数量为q,则选取其中一个样本点si,利用欧氏距离计算si到它附近的r少数类样本点的距离,得到其r近邻;对于每个少数类诈骗电话样本sc,从其r个最近邻样本中随机抽取若干样本其中r∈{1,2,3,...a},表示样本sc周围除了sc以外的其他样本点,对每一个选取的近邻样本与原始样本按照snew=sc+rand(0,1)×(sc'-sc)合成新样本snew,其中rand(0,1)是生成0到1之间的随机数函数,sc'表示每一个随机选出的近邻样本。将新合成的样本snew加入到原来的数据集中,形成新的样本集;在本发明中正常电话为107,935条,诈骗电话8,448条,共计116,383条,经过上述方法处理后的正常电话为107,007条,诈骗电话104,059条,共计211,066条。

3、根据诈骗电话用户话单数据的特点,本发明创新提出一种结合基于梯度的单边采样和特征捆绑的提升树算法构建诈骗电话识别模型,同时用基于随机森林的超参数优化算法对梯度提升机的参数进行优化,构建诈骗电话识别模型,并用准确率、召回率、f1值和auc值多种指标判断模型性能。

其中真阳性(tp)表示诈骗电话被预测为诈骗电话的个数,假阳性是正常电话被预测为诈骗电话得数量,假阴性是诈骗电话被预测为正常电话,真阴性是正常电话被预测为正常电话。

准确率(precision)是指预测为诈骗电话的样本中,原本就是诈骗电话的比例,用数学公式表示如下式(6)所示。

召回率(recall)是指原本为诈骗电话的样本中,预测为诈骗电话的比例,用数学公式表示如下式(7)所示。

f1是调和准确率和召回率的一个新的评价指标f-measure简称f1,具体数学公式如下式(8)所示。

auc是指roc曲线下的面积,roc曲线是根据算法预测的结果中,原本是正常电话的样本被预测为诈骗电话的比率与原本是诈骗电话被预测为诈骗电话的比率做出的曲线,具体数学公式如下式(9)所示。其中smin表示诈骗电话的数量,smaj表示正常电话数量,代表第i条样本的序号,表示把诈骗电话序号加起来。

4、根据步骤3所述的诈骗电话识别模型,其特征在于,模型可以输出每个样本的置信度,根据模型输出的置信度可以判断其为诈骗电话的可能性,根据样本为诈骗电话的置信度与样本真实标签数据结果,设置诈骗电话判别阈值,构建诈骗电话动态识别区间。诈骗电话动态识别区间模型工作流程如下,

步骤4.1:准备利用1,2处理后的得到的107,007条正常电话,104,059条正常电话,共计211,066条的数据;

步骤4.2:对步骤4.1得到的数据随机分为10份,取其中的8份用于训练模型,2份用于测试模型;

步骤4.3:用基于随机森林的超参优化算法不断优化模型,当模型在训练集和测试集上的正确率,召回率,f1值和auc值多个评价指标均大于0.9时为止;

步骤4.4:利用步骤4.2,4.3训练好的模型输出训练样本的置信度y;

步骤4.5:绘制出样本散点图,分析每个样本置信度与样本真实标签的异同,得到诈骗电话识别动态区间0≤α<β≤1,其中α=0.2,β=0.8。当模型输出结果0≤y≤α时,该样本为正常电话;当模型输出结果α<y<β时,该样本为可疑电话;当模型输出结果β<y≤1时,该样本为诈骗电话;

步骤6:利用步骤2中划分剩下的2份测试集测试对该模型的效果进行测试验证;

步骤7:结束。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1示出了本发明的系统框图;

图2示出了本发明的部分测试结果图;

图3示出了本发明的部分样本分布统计图;

图4示出了发明的部分样本分布密度统计图;

具体实施方式

为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。

应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

为了实现诈骗电话识别系统,本发明采用的技术方案为一种诈骗电话动态识别区间构建方法,本发明整体系统结果图如图1所示,该方法一共分为五步:

(1)数据预处理:本发明需要以用户话单日志数据作为输入数据,对用户话单日志数据进行处理,其中包括缺失值处理、异常值处理、统一规格和删除重复值;其次,为了减少数据量纲对后续模型的影响,对数据进行标准化,最后输出预处理后的数据集。

(2)特征提取:本发明以基于随机森林的诈骗电话用户话单数据特征提取方法,计算数据集中每个维度特征的信息增益,根据信息增益构建每棵树的节点分裂,最后计算每个维度数据的得分,根据得分对数据进行排序,选出得分大于0.8的前9个特征构建数据的特征向量。

(3)不平衡数据再平衡处理:用第(1),(2)步处理后的数据作为输入,根据正常电话与诈骗电话样本不平衡比例设置采样比率r,设正常电话样本数量为p,诈骗电话样本数量为q,则选取其中一个样本点si,利用欧氏距离计算si到它附近的r少数类样本点的距离,得到其r近邻;对于每个少数类诈骗电话样本sc,从其r个最近邻样本中随机抽取若干样本其中r∈{1,2,3,...a},表示样本sc周围除了sc以外的其他样本点,对每一个选取的近邻样本与原始样本按照snew=sc+rand(0,1)×(sc'-sc)合成新样本snew,其中rand(0,1)是生成0到1之间的随机数函数,sc'表示每一个随机选出的近邻样本。将新合成的样本snew加入到原来的数据集中,形成新的样本集;在本发明中正常电话为107,935条,诈骗电话8,448条,共计116,383条,经过上述方法处理后的正常电话为107,007条,诈骗电话104,059条,共计211,066条。

(4)诈骗电话识别模型构建:对上一步的数据随机分成10份,随机取其中的8份作为训练集,作为模型的输入数据训练构建好的基于梯度的单边采样和特征捆绑的提升树算法模型,根据诈骗电话识别模型,模型输出样本识别的正确率、召回率、f1值和auc值,并不断使用基于随机森林的超参优化算法对其进行优化,并用剩余的2份数据测试模型的效果,直到模型在训练集和测试集上的正确率,召回率,f1值和auc值多个评价指标均大于0.9时为止。

(5)诈骗电话动态识别区间构建:用上一步构建的诈骗电话识别模型,同样的把第3步形成的新的数据集分成10份,随机取其中的8份作为训练集,2份作为测试集,首先训练集作为输入,模型经过分析输出样本置信度,根据样本置信度构建诈骗电话识别动态区间0≤α<β≤1,其中α=0.2,β=0.8。当模型输出结果0≤y≤α时,该样本为正常电话;当模型输出结果α<y<β时,该样本为可疑电话;当模型输出结果β<y≤1时,该样本为诈骗电话,然后用测试集作为模型的输入,输出样本是否为诈骗电话,并与样本真实的标签进行比较。该实验使用刘明等公开的诈骗电话话单数据对该发明方法进行测试,部分测试结果如图2所示。部分样本分布统计图如图3所示,部分样本分布密度统计图如图4所示,通过样本分布统计图我们可以看出模型对正常电话话单数据的置信度大多数都在0.2以下,对置信度在0.2到0.8之前的为可疑电话,对诈骗电话话单数据的置信度大多数都在0.8以上,在这批数据集上实验验证了本发明提出的动态识别区间α=0.2,β=0.8的合理性和可行性。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1