一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统的制作方法

文档序号:6525375阅读:765来源:国知局
一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统的制作方法
【专利摘要】本发明公开了一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统,系统包括依次连接的电子商务网站用户数据处理模块,电子商务网站用户数据存储模块,电子商务网站用户数据分析模块,结果展示模块;方法包括数据的收集,数据的预处理,数据的转换,数据的分析和数据的显示等步骤,本发明基于机器学习方法中的随机森林算法,收集用户静态数据和动态数据,快速地进行数据挖掘和数据分析,既保证了用户信息的完整性、连续性和有效性,又获得了较好地分类结果。
【专利说明】一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统
【技术领域】
[0001]本发明属于电子商务领域,特别是一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统。
【背景技术】
[0002]随着信息化技术的飞速发展和互联网的扩张,传统市场的概念在量的范围内发生了巨大的变化:表现在时间维度上的扩张和空间维度上的拓展。传统市场的地理、政治、观念等差异所形成的市场界限变得日益模糊,而互联网的迅速发展使信息高度共享,进一步弱化了人们跨越时空的障碍,电子商务便是在这一时代背景下诞生的事物,它随着互联网的发展而迅速成长,在进入21世纪后日益成熟。电子商务使消费者有了一种全新的消费体验,它极大地丰富了人们的物质生活,让我们的生活环境变得更加舒适。
[0003]但是,当我们为网络所带来的种种便利而欢欣鼓舞时,却又不得不面对由于网络交易的虚拟性所引起的网络欺诈行为的恶化趋势。以美国为例,美国专门成立了一个机构IFCC (美国互联网欺诈投诉中心,the Internet Fraud Complaint Center)来分析和应付由于严重的网络欺诈行为对社会和经济带来了重大的损失题目。产生欺诈问题的根源在于电子商务交易主体的复杂性以及交易双方的信息不对称性。
[0004]许多国外学者对于在线欺诈的类型、成因做出研究,例如Macinnes (2005)曾总结出影响网上交易欺诈的因素包括产品、交易者、交易过程三方面。网上交易欺诈的类型主要包括有收款不发货、故意提供错误信息、隐瞒费用、提供非法或劣质产品、多头拍卖、雇佣他人来虚假出价等。由于网上交易并不像传统交易那样可以当场检验商品,我们只能在商品递送到买家手中才能进行检验,所以交易发生前消费者只有根据卖家提供的特定信息进行评估,这就给卖家利用信息不对称进行欺诈提供了机会。有效地识别用户欺诈行为,才能进一步阻止这种违法及不利行为的发生,促进社会的快速健康发展。
[0005]这里,可以借鉴其他领域有关用户欺诈识别的研究。
[0006]研究一:针对信用卡欺诈行为,许多学者采用了关联规则分析的方法:以信用卡欺诈行为特征识别为例,境外发卡银行通过对发生欺诈交易的历史数据分析,发现在大额欺诈交易之前往往会出现小额试探性交易,并且这些小额试探性交易往往发生在夜间和偏僻地点。也就是说,同一卡号在夜间偏僻地点发生的小额自助交易和后续大额交易是否存在欺诈交易,二者之间往往具有较高关联性,这就为发卡银行的反欺诈工作提供了一定的借鉴。还有部分学者采用了机器学习中的支持向量机的方法:整个流程包括学习阶段和检测阶段。首先,收集信用卡历史数据,对这些数据进行预处理,使其成为支持向量机能够识别的数据形式。然后,将信用卡数据分为训练样本和检测样本,分别用于学习阶段和检测阶段的支持向量机建模。接着,利用支持向量机对训练样本进行学习,建立最优信用卡检测模型。最后,采用最优检测模型对信用卡检测样本进行检测,验证模型的有效性,并输出检测结果。[0007]研究二:针对电信欺诈用户,国内学者采用机器学习中的朴素贝叶斯分类方法进行研究。朴素贝叶斯分类模型将训练实例分解成特征向量和决策类别变量。假定特征向量的各分量相对于决策变量是相对独立的,也就是说各分量独立地作用于决策变量。尽管这一假定一定程度上限制了朴素贝叶斯模型的适用范围,然而在实际应用中,该模型不仅大大降低了贝叶斯网络构建的复杂性,而且在许多不符合这一假定的情况下,朴素贝叶斯也表现出相当的健壮性和高效性。
[0008]从上面的研究可以看出,机器学习的方法在数据挖掘建模领域越来越受到重视,并且取得了不错的成果。而在本发明中采用了机器学习中的随机森林算法,该算法,具有很好的分类性能和较高的分类准确性,其模型的运算效率比较高,适合各种数据集的运算。同时,随机森林算法对特征选取具有较好的鲁棒性,不需要特征筛选也能得到较高的准确率,适用于超高维特征向量空间,具有较好的数据推广和泛化能力。所以本发明选择随机森林算法作为电子商务网站欺诈用户识别的分类器。

【发明内容】

[0009]本发明的目的在于提供一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统,通过随机森林算法对电子商务网站用户进行分类,来有效地识别出欺诈用户。
[0010]实现本发明目的的技术解决方案为:
[0011]一种基于随机森林算法的电子商务网站欺诈用户识别系统,包括依次连接的电子商务网站用户数据处理模块,用户数据存储模块,用户数据分析模块,结果展示模块。
[0012]一种基于随机森林算法的电子商务网站欺诈用户识别方法,包括以下步骤:
[0013]步骤一:电子商务网站用户数据处理模块自动获取单位时间内收集到的用户数据,包括公司ID,公司主页,公司名称,公司类别,公司注册时间,公司关联IP等字段。对数据进行清理,消除无用的、不完整的数据,使其成为能够被随机森林算法所识别的数据形式;
[0014]步骤二:电子商务网站用户数据存储模块将经过处理的用户数据存储在相应的存储单元中;
[0015]步骤三:电子商务网站用户数据分析模块利用已构建的最优随机森林用户分类模型对用户数据进行分类,并输出分类结果;
[0016]步骤四:结果展示模块将用户数据分析模块输出的结果展示于用户终端显示器界面。
[0017]本发明与现有技术相比,其显著优点:
[0018]1、获取的用户数据较全面,包括静态和动态的行为信息,保证了用户行为信息的完整性、连续性和有效性;
[0019]2、随机森林分类方法能够有效的处理大数据,特别是在不平衡的数据类别中平衡误差,运行速度快而且不会产生过度拟合,可以根据需要生成任意多的树。
[0020]3、数据挖掘算法离线计算,计算结果清晰、客观,以方便企业进一步分析、挖掘欺诈用户特征,进行有效的预警。
[0021]本发明还展示了一种用于生成电子商务网站用户分类结果的系统,所述系统包括在其上记录有用于控制至少一个处理器的计算机程序逻辑的计算机可用介质,计算机程序逻辑包括用于实现本文中展示的方法的计算机程序代码装置。
[0022]将参考附图在下文中进一步详细地描述本发明的实施例、特征和优点。
【专利附图】

【附图说明】
[0023]图1是根据本发明的一种基于随机森林算法的电子商务网站欺诈用户识别系统的结构示意图。
[0024]图2是根据本发明实施例的B2B电子商务网站用户数据分析模块结构示意图。
[0025]图3是根据本发明实施例的B2B电子商务网站欺诈用户识别系统的流程图。
【具体实施方式】
[0026]为使本发明的实施例的目的、技术方案和优点更加清楚,下面对本发明中涉及的一些术语做简单解释。
[0027]树:随机森林算法中的每一棵树,实际上是一棵基于CART算法的决策树;
[0028]森林:由η个决策树构成森林,η可以自己设定,默认η=500 ;
[0029]用户:电子商务网站交易用户。
[0030]本发明一种基于随机森林算法的电子商务网站欺诈用户识别系统,该系统包括依次连接的电子商务网站用户数据处理模块,用户数据存储模块,用户数据分析模块,结果展示模块。
[0031]参见图1,根据本发明的一种基于随机森林算法的电子商务网站欺诈用户识别系统的结构示意图,具体包括以下模块。
[0032]电子商务网站用户数据处理模块101:将电子商务网站信息服务系统收集的用户数据,主要包括用户基本信息和用户行为数据进行预处理,消除不完整的,杂乱的“脏”数据,使之成为能够被用户数据分析模块使用的数据。
[0033]电子商务网站用户数据存储模块102:将处理完成的数据存储到响应的存储单元,以方便数据分析模块进行数据抽取。
[0034]电子商务网站用户数据分析模块103:从用户数据存储模块中抽取单位时间内的用户数据,使用构建的最优随机森林用户分类模型对用户进行分类,评判分类结果的覆盖率和准确率,将超过阈值的分类结果输出。
[0035]结果展示模块104:将数据分析的结果显示于系统管理员终端显示器界面。
[0036]最优随机森林用户分类模型的构建,包括以下步骤:
[0037]步骤一:从信息系统服务器获取用户历史分类数据,将用户历史分类数据进行预处理,消除无用的、不完整的数据,使其成为能够被随机森林算法所识别的数据形式;
[0038]步骤二:将处理完成的数据按照预设比例分为训练数据集和测试数据集,存入相应存储单兀中;
[0039]步骤三:读取训练数据集,使用随机森林算法进行分类。
[0040]在进行模型优化的过程中,随机森林算法会给出变量重要性评分:设原始样本含量为N,表示各样本的变量为X1, X2,, X111O应用bootstrap法有放回地随机抽取b个新的自助样本,并由此形成b个分类树,每次未被抽到的样本则组成b个袋外数据。袋外数据作为测试样本可以用来评估各个变量在分类中的重要性,实现过程:[0041]1.用自助样本形成每一个树分类器,同时对相应的OOB进行分类,得到b个自助样本OOB中每一个样品的投票分数,记为Vote1, vote2,...,voteb。
[0042]2.将变量Xi的数值在b个OOB样本中的顺序随机改变,形成新的OOB测试样本,然后用已建立的随机森林算法对新的OOB进行分类,根据判别正确的样品数得到每一个样本的投票分数,所得结果表示为:
[0043]
【权利要求】
1.一种基于随机森林算法的电子商务网站欺诈用户识别系统,其特征在于,该系统包括以下模块: 电子商务网站用户数据处理模块:将电子商务网站信息服务系统收集的用户数据,包括用户基本信息和用户行为数据进行预处理,消除不完整的,杂乱的“脏”数据,使之成为能够被电子商务网站用户数据分析模块使用的数据; 电子商务网站用户数据存储模块:将处理完成的数据存储到相应的存储单元,以方便数据分析模块进行数据抽取; 电子商务网站用户数据分析模块:从电子商务网站用户数据存储模块中抽取单位时间内的用户数据,使用构建的最优随机森林用户分类模型对用户进行分类,评判分类结果的覆盖率和准确率,将超过阈值的分类结果输出; 结果展示模块:将数据分析的结果显示于系统管理员终端显示器界面。
2.根据权利要求1所述的电子商务网站欺诈用户识别系统,其特征在于:所述最优随机森林用户分类模型,包括: 预处理单元:从信息系统服务器获取用户历史分类数据,将用户历史分类数据进行预处理,消除无用的、不完整的数据,使其成为能够被随机森林算法所识别的数据形式; 存储单元:将处理完成的数据按照预设比例分为训练数据集和测试数据集,存入相应存储单元中; 分类单元:读取训练数据集,使用随机森林算法进行分类; 确定单元:读取测试数据集,使用已构建的随机森林分类模型进行模型检测,查看分类准确率和覆盖率,若准确率和`覆盖率均较低,则重新构建分类模型;若准确率和覆盖率均超过阈值,则确定为最优分类模型。 保存单元:将最优分类模型保存在用户数据分析模块中,以便进行新数据的分类。
3.根据权利要求2所述的电子商务网站欺诈用户识别系统,其特征在于:所述分类单元在进行模型优化的过程中,随机森林算法会给出变量重要性评分:设原始样本含量为N,表示各样本的变量为X1, X2,..., Xm ;应用bootstrap法有放回地随机抽取b个新的自助样本,并由此形成b个分类树,每次未被抽到的样本则组成b个袋外数据;袋外数据作为测试样本用来评估各个变量在分类中的重要性,根据变量重要性评分,筛选出重要的分类变量,进一步改进分类模型。
4.根据权利要求3所述的电子商务网站欺诈用户识别系统,其特征在于,所述变量重要性评分: 用自助样本形成每一个树分类器,同时对相应的OOB进行分类,得到b个自助样本OOB中每一个样品的投票分数,记为Vote1, vote2,..., Voteb ; 将变量Xi的数值在b个OOB样本中的顺序随机改变,形成新的OOB测试样本,然后用已建立的随机森林算法对新的OOB进行分类,根据判别正确的样品数得到每一个样本的投票分数,所得结果表示为:
5.一种基于随机森林算法的电子商务网站欺诈用户识别方法,其特征在于,包括以下步骤: 步骤一:电子商务网站用户数据处理模块自动获取单位时间内收集到的用户数据,包括公司ID,公司主页,公司中英文名称,公司类别,公司注册时间,公司关联IP字段;对数据进行清理,消除无用的、不完整的数据,使其成为能够被随机森林算法所识别的数据形式; 步骤二:电子商务网站用户数据存储模块将经过处理的用户数据存储在相应的存储单元中; 步骤三:电子商务网站用户数据分析模块利用已构建的最优随机森林用户分类模型对用户数据进行分类,并输出分类结果; 步骤四:结果展示模块将用户数据分析模块输出的结果展示于用户终端显示器界面。
6.根据权利要求5所述的电子商务网站欺诈用户识别方法,其特征在于,步骤一中获取的用户数据共有46个属性,既包括公司ID,公司主页,公司中英文名称静态数据,还包括公司关联IP,公司近30天登录次数,发布产品数,搜索商情数动态数据。
7.根据权利要求5所述的电子商务网站欺诈用户识别方法,其特征在于,步骤三中的电子商务网站用户数据分析模块首先要构建最优随机森林用户分类模型,其次,再用已构建的最优随机森林用户分类模型对新的用户数据进行分类。
8.根据权利要求7所述的电子商务网站欺诈用户识别方法,其特征在于,构建最优随机森林用户分类模型,包括以下步骤: 步骤1:从信息系统服务器获取用户历史分类数据,将用户历史分类数据进行预处理,消除无用的、不完整的数据,使其成为能够被随机森林算法所识别的数据形式; 步骤2:将处理完成的数据按照预设比例分为训练数据集和测试数据集,存入相应存储单元中; 步骤3:读取训练数据集,使用随机森林算法进行分类; 步骤4:读取测试数据集,使用已构建的随机森林分类模型进行模型检测,查看分类准确率和覆盖率,若准确率和覆盖率均较低,则返回步骤3重新构建分类模型;若准确率和覆盖率均超过阈值,则确定为最优随机森林用户分类模型;步骤5:将最优随机森林用户分类模型保存于用户数据分析模块中,以便进行新数据的分类。`
【文档编号】G06Q30/00GK103678659SQ201310722134
【公开日】2014年3月26日 申请日期:2013年12月24日 优先权日:2013年12月24日
【发明者】李莉, 郑一曼, 蒋巧娜, 黄建鹏 申请人:焦点科技股份有限公司, 南京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1