一种改进的过采样SMOTE算法的制作方法

文档序号:18832963发布日期:2019-10-09 04:04阅读:846来源:国知局

本发明属于smote算法技术领域,具体涉及一种改进的过采样smote算法。



背景技术:

信用卡数据集是一个不平衡数据集,信用卡被盗刷交易占总体的比例通常不足1%,样本不平衡影响分类器的学习能力,使分类器向多样本数据倾斜,smote算法是一种过采样增加样本数据的方法,可以有效的扩大其中少量样本的规模使样本数据达到平衡状态,但不能保证数据的分布信息,新增样本可能会大量出现在边界附近,出现过泛化、样本重叠、噪声等问题。



技术实现要素:

为解决现有不能保证数据的分布信息,新增样本可能会大量出现在边界附近,出现过泛化、样本重叠、噪声等问题;本发明的目的在于提供一种改进的过采样smote算法。

本发明的一种改进的过采样smote算法,它的步骤如下:

将信用卡欺诈交易使用k均值聚类,得到a个聚类中心,计算每个类中的点到该类中心点的距离p,信用卡数据集样本数据表示为:

式中,n为信用卡训练集样本数据,样本个数为quote,quote为信用卡正常交易数据,样本个数为quote,quote为信用卡欺诈交易数据quote

式中,quote为欺诈数据第i个类,该类样本数量为quote,样本quote(quote)到所属类的距离为quote且使quote,quote为欺诈样本中不属于任何类的孤立点,样本数量为quote

期望训练集中欺诈数据占正常数据的quote,则欺诈样本第i个类需要添加数据样本为:

smote算法合成新的人工数据,对于某个样本quote,首先找到距离其最近的m个最邻近样本,从m个最邻近样本中有放回随机选择quote个样本,记为quote

式中,quote,quote为quote的m个邻域中距离quote类中心最远的距离,quote为quote中下标的数值,quote为已新生成的距离quote类中心距离小于quote的样本个数。quote为正整数a向上取整;

对于每一个quote,按如下公式生成新的样本;

式中,quote为0-1之间测随机数。

与现有技术相比,本发明的有益效果为:

一、采用k均值(k-means)聚类和smote算法生成新的数据,可以保证样本边界信息,克服样本重叠问题;

二、同时计算快速且简便。

具体实施方式

本具体实施方式采用以下技术方案:它的步骤如下:

将信用卡欺诈交易使用k均值聚类,得到a个聚类中心,计算每个类中的点到该类中心点的距离p,信用卡数据集样本数据表示为:

式中,n为信用卡训练集样本数据,样本个数为quote,quote为信用卡正常交易数据,样本个数为quote,quote为信用卡欺诈交易数据quote

式中,quote为欺诈数据第i个类,该类样本数量为quote,样本quote(quote)到所属类的距离为quote且使quote,quote为欺诈样本中不属于任何类的孤立点,样本数量为quote

期望训练集中欺诈数据占正常数据的quote,则欺诈样本第i个类需要添加数据样本为:

smote算法合成新的人工数据,对于某个样本quote,首先找到距离其最近的m个最邻近样本,从m个最邻近样本中有放回随机选择quote个样本,记为quote

式中,quote,quote为quote的m个邻域中距离quote类中心最远的距离,quote为quote中下标的数值,quote为已新生成的距离quote类中心距离小于quote的样本个数。quote为正整数a向上取整;

对于每一个quote,按如下公式生成新的样本;

式中,quote为0-1之间测随机数。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1