本发明属于smote算法技术领域,具体涉及一种改进的过采样smote算法。
背景技术:
信用卡数据集是一个不平衡数据集,信用卡被盗刷交易占总体的比例通常不足1%,样本不平衡影响分类器的学习能力,使分类器向多样本数据倾斜,smote算法是一种过采样增加样本数据的方法,可以有效的扩大其中少量样本的规模使样本数据达到平衡状态,但不能保证数据的分布信息,新增样本可能会大量出现在边界附近,出现过泛化、样本重叠、噪声等问题。
技术实现要素:
为解决现有不能保证数据的分布信息,新增样本可能会大量出现在边界附近,出现过泛化、样本重叠、噪声等问题;本发明的目的在于提供一种改进的过采样smote算法。
本发明的一种改进的过采样smote算法,它的步骤如下:
将信用卡欺诈交易使用k均值聚类,得到a个聚类中心,计算每个类中的点到该类中心点的距离p,信用卡数据集样本数据表示为:
式中,n为信用卡训练集样本数据,样本个数为quote
式中,quote
期望训练集中欺诈数据占正常数据的quote
smote算法合成新的人工数据,对于某个样本quote
式中,quote
对于每一个quote
式中,quote
与现有技术相比,本发明的有益效果为:
一、采用k均值(k-means)聚类和smote算法生成新的数据,可以保证样本边界信息,克服样本重叠问题;
二、同时计算快速且简便。
具体实施方式
本具体实施方式采用以下技术方案:它的步骤如下:
将信用卡欺诈交易使用k均值聚类,得到a个聚类中心,计算每个类中的点到该类中心点的距离p,信用卡数据集样本数据表示为:
式中,n为信用卡训练集样本数据,样本个数为quote
式中,quote
期望训练集中欺诈数据占正常数据的quote
smote算法合成新的人工数据,对于某个样本quote
式中,quote
对于每一个quote
式中,quote
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。