一种少数类用户网络访问特征的选取方法

文档序号:10594208阅读:231来源:国知局
一种少数类用户网络访问特征的选取方法
【专利摘要】本发明公开了一种少数类用户网络访问特征的选取方法,涉及大数据分析领域,包括如下步骤:首先,从网关服务器下载日志,统计真实用户的网络访问数据,并组成初始数据集;其次,创建N名少数类的虚拟用户,构建虚拟数据集;再次,对虚拟数据集进行相关性分析,选取出与少数类用户显著相关的访问特征;最后,进行因子分析,进一步降低特征维数。本发明通过创建虚拟用户,自动平衡少数类用户的比例,使得在目标用户人数占比很小时,依然可以提取的网络访问特征。
【专利说明】
-种少数类用户网络访问特征的选取方法
技术领域
[0001] 本发明设及大数据分析领域,尤其设及一种少数类用户网络访问特征的选取方 法。
【背景技术】
[0002] 随着互联网技术的流行,互联网用户的数量已经越来越庞大。网络已经渗入了生 活的方方面面,因此对用户的网络行为进行分析是十分有意义的,它可W有助于理解用户, 为开展决策提供科学的依据。例如,在电商领域,分析用户的购买行为可W实现商品广告的 精准投放;在教育领域,分析青少年的上网行为,可W及时矫正他们的不良网络访问;在信 息安全领域,检测用户的上网行为,可W及时阻止非法用户的访问。选取最能表达用户网络 行为的网络访问特征,是用户行为分析过程中必不可少的,也是最重要的环节。
[0003] 目前的研究中最常见的用户网络访问特征是访问不同类型网址的频次和时间。运 些特征的个数都是非常多的,有必要从中选取重要的特征来达到降低维数的目的。现有的 研究选取特征的方法有很多,例如相关性分析就是一种简单快速易执行的特征选取方法。 但目前的特征选择算法往往都没有考虑到目标用户属于少数类用户的情况,也就是说占全 体用户的比例非常少,如浏览过某商品广告的大量用户中只有少部分用户愿意购买。在运 种情况下,因为人数比例的不均衡,会造成选取的特征不够全面,不能完全表达目标用户的 访问信息。因此如何在少数类用户占全体比例很小的情况下,自适应地从大量的网络访问 特征中选取出重要的特征,就显得非常具有研究意义和应用价值。

【发明内容】

[0004] 有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种少数类用户 网络访问特征的选取方法,能够在少数类用户占全体比例很小的情况下,自适应地从大量 的网络访问特征中选取出重要的特征。
[0005] 为实现上述目的,本发明提供了一种少数类用户网络访问特征的选取方法,其特 征在于,包括如下步骤:
[0006] 步骤一、从网关服务器下载日志,统计真实用户的网络访问数据,并组成初始数据 集;其中,初始数据集的维数是m X d,m是总人数,d是特征数目,初始数据集的数据包含有符 合指数分布的数据;
[0007] 步骤二、创建N名少数类的虚拟用户,构建虚拟数据集;其中,虚拟数据集的维度为 (m+N) XcU虚拟数据集与初始数据集的数据满足概率同分布;
[000引步骤=、对虚拟数据集进行相关性分析,选取出与少数类用户显著相关的访问特 征。
[0009] 进一步而言,一种少数类用户网络访问特征的选取方法还包含步骤四:对已进行 相关性分析的虚拟数据集进行因子分析,进一步降低特征维数。
[0010] 进一步而言,步骤二具体包括:
[oow AO、标记少数类用户Si,其中1£[1,9],9是少数类用户的总人数;
[0012] A1、计算每个特征的均值Jij, JG [l,d];
[0013] A2、计算需要创建的虚拟少数类用户的总人数:N=m-p;
[0014] A3、判断P是否大于1,如果是,则继续执行A4,否则直接复制N名Si并执行所述步骤
-* ? -?,
[0015] A4、计算每名真实少数类用户需对应虚拟的人i 巧表了向下取整运 算;
[0016] A5、按照指数分布对Si增加 n名虚拟用户。
[0017] 进一步而言,在步骤二的A5步骤中,具体包括如下:
[001引B0、判断i是否超过真实少数类用户人数,如果是,则终止,否则继续执行;
[0019] 61、执行1 = 1+1;
[0020] B2、判断对Si创建的虚拟用户人数是否超过n,如果没有则继续B3,否则跳转BO继 续执行;
[0021] B3、找到min(p-l,5)名和其欧式距离最小的真实的少数类用户;
[0022] B4、随机选取min(p-l ,5)名用户中的一名,记作鮮,kG [1 ,min(p-l ,5)];
[0023] B5、生成一个随机数R,且R~U(0,1);
[0024] B6、创建虚拟用户S^i,所述虚拟用户的第j个特征S'i(j),表示为:
[0025]
[0026] 其中 jE[l,d];
[0027] B7、组合运些特征,获得新创建的虚拟用户的特征集合为:
[0028] S'i=[S'i(l),S'i(2),. . .,S'i(j),. . .,S'i(d)]。
[0029] 进一步而言,在步骤=中,所述相关性分析为简单相关分析,其相关系数为皮尔森 相关系数,显著水平为0.05;输出的显著特征集合为[Sigi,Sig2, . . .,Sigs],其中S是显著相 关的特征数目,Sigs是显著相关的特征。
[0030] 进一步而言,步骤四具体包括:
[0031 ] Cl、计算Badlett统计量和KMO统计量;
[0032] C2、判断Badlett统计量是否小于0.05并且KMO统计量是否小于0.5,如果否,则继 续执行,否则终止;
[0033] C3、选择特征根大于1的公因子,所述公因子包含有若干少数类用户网络访问的同 类特征;
[0034] C4、使用最大方差法进行因子轴的旋转,凸显少数类用户网络访问特征。
[0035] 本发明的有益效果是:本发明能通过创建虚拟用户,自动平衡少数类用户的比例, 保证新增的虚拟用户后,各个特征依然服从原有的指数分布,达到自适应提取少数类用户 网络访问行为的特征的目的。
【附图说明】
[0036] 图1是本发明实施例一的流程示意图;
[0037] 图2是创建学业困难大学生虚拟用户的流程示意图;
[0038] 图3是基于指数分布创建虚拟用户的流程示意图;
[0039] 图4是因子分析法的流程示意图。
【具体实施方式】
[0040] 下面结合附图和实施例对本发明作进一步说明:
[0041] 本实施例W学业困难大学生为少数类,利用本发明分析其网络访问特征。
[0042] 如图1至图4所示,本实施例提供一种学业困难大学生网络访问特征的选取方法, 包括如下步骤:
[0043] 步骤一、从网关服务器下载日志,统计全体学生的网络访问数据,并组成初始数据 集;在数据集中,包含有非学业困难大学生W及少数学业困难大学生。从网关服务器下载日 志包含有U化、学号等。主要分析学业困难大学生访问网络类型、网络访问频次、网络访问时 长等。初始数据集的维数是mXd,m是总学生数,d是特征数目,特征主要包括频次、访问时长 等。值得一提的是,频次特征、访问时长特征是符合指数分布的。此外,为了降低数据分析工 作量,通常按不同类型网址,对频次和时间特征进行统计。一般网站可分为大型口户网站、 行业网站、交易类网站、分类信息网站、论坛、政府网站、功能性质网站、娱乐类型网站、企业 网站等。
[0044] 步骤二、创建N名学业困难大学生虚拟用户(少数类),构建虚拟数据集;m名真实用 户和N名学业困难大学生虚拟用户构成维度为(m+N) Xd的虚拟数据集。通过创建学业困难 大学生虚拟用户,少数类数量将增大并加入数据集,有助于对其网络访问特征的提取。值得 一提的是,所创建的学业困难大学生虚拟用户,其特征应与真实用户的数据是满足概率同 分布。示例性的,网络访问的频次和访问时长是无记忆性的,满足指数分布,即新创建的虚 拟学业困难大学也应该满足真实学业困难大学生指数分布。
[0045] 具体而言,如图2所示W分析学业困难大学生网络访问特征,步骤二包括:
[0046] A0、标记真实的学业困难大学生用户Si,其中i G [l,p],p是真实的学业困难大学 生用户的总人数;
[0047] A1、计算每个特征的均值Jij, JG [l,d];
[004引A2、计算需要创建的学业困难大学生虚拟用户的总人数:N=m-p;
[0049] A3、判断P是否大于1,如果是,则继续执行A4,否则直接复制N名Si并执行所述步骤 -* ? -?,
[0050] A4、计算每名真实学业困难大学生需对应虚拟用户的人i
'戈表了向 下取整运算;
[0051] A5、按照指数分布对Si增加 n名学业困难大学生虚拟用户;
[0052] 进一步而言,如图3所示,A5所述的按照指数分布对Si增加 n名学业困难大学生虚 拟用户的具体步骤如下:
[0053] B0、判断i是否超过真实学业困难大学生用户人数,如果是,则终止,否则继续执行 BI;
[0化4] 61、执行1 = 1+1;
[0055] B2、判断对Si创建的学业困难大学生虚拟人数是否超过n,如果没有则继续B3,否 则跳转BO继续执行;
[0056] B3、找到min(p-l,5)名和其欧式距离最小的真实的学业困难大学生;
[0化7] B4、随机选取min(p-l,5)名用户中的一名,记作鱗,kG[l,min(p-l,5)];
[0化引 65、生成一个随机数1?,且1?~1](0,1);
[0059] B6、要保证创建学业困难大学生虚拟用户少1后,所有学业困难大学生依然服从相 同的指数.那/乂对丰倍个時征j而言,应该满足:
[0060] (1)
[0061] 使用指数分布的分布函数求解(1)式,可得到新创建的学业困难大学生虚拟用户 的第j个特征S'i(j),可W表示如下:
[0062]
^2)
[006;3]其中 jE[l,d]
[0064] B7、组合运些特征,获得新创建的学业困难大学生虚拟用户的特征集合为:
[00化]S'i=[S'i(l),S'i(2),...,S'i(j),...,S'i(d)] (3)
[0066] 步骤=、对虚拟数据集进行相关性分析,选取出与学业困难大学生显著相关的访 问特征。
[0067] 在本实施例中,采用简单相关分析,其相关系数为皮尔森相关系数,显著水平为 0.05;输出的显著特征集合为[Sigi,Sig2, . . .,Sigs],其中S是显著相关的特征数目,Sigs是 显著相关的特征。
[0068] 步骤四、进行因子分析,进一步降低学业困难大学生特征维数,具体包括:
[0069] Cl、计算Ba;rtlett统计量和KMO统计量;
[0070] C2、判断Badlett统计量是否小于0.05并且KMO统计量是否小于0.5,如果否,则继 续执行,否则终止;
[0071] C3、选择特征根大于1的公因子,每个公因子包含有少数类用户网络访问的同类特 征,运些公因子是对特征的分类,每一个公因子代表了影响学生学业的一类特征;
[0072] C4、使用最大方差法进行因子轴的旋转,凸显少数类用户网络访问特征,使获得的 公因子可解释性更加明显,帮助理解影响大学生学业的主要因素。
[0073] 综上,本实施例通过创建学业困难大学生虚拟用户,自动平衡少数类用户的比例, 同时也保证新增的虚拟用户后,所有学业困难大学生虚拟用户的各个特征依然服从原有的 指数分布,达到自适应提取少数类用户网络访问行为的特征的目的。本实施例虽然是W学 业困难大学生为少数类并分析网络访问行为,同样适用于其它少数类网络访问行为研究案 例,运里不再寶述。
[0074] W上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无 需创造性劳动就可W根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术 人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可W得到的 技术方案,皆应在由权利要求书所确定的保护范围内。
【主权项】
1. 一种少数类用户网络访问特征的选取方法,其特征在于,包括如下步骤: 步骤一、从网关服务器下载日志,统计真实用户的网络访问数据,并组成初始数据集; 其中,所述初始数据集的维数是m X d,m是总人数,d是特征数目,所述初始数据集的数据包 含有符合指数分布的数据; 步骤二、创建N名少数类的虚拟用户,构建虚拟数据集;其中,所述虚拟数据集的维度为 (m+N)Xd,所述虚拟数据集与初始数据集的数据满足概率同分布; 步骤三、对虚拟数据集进行相关性分析,选取出与少数类用户显著相关的访问特征。2. 如权利要求1所述的一种少数类用户网络访问特征的选取方法,其特征在于,所述选 取方法还包含步骤四:对已进行相关性分析的虚拟数据集进行因子分析,进一步降低特征 维数。3. 如权利要求1所述的一种少数类用户网络访问特征的选取方法,其特征在于,所述步 骤二具体包括: A0、标记所述少数类用户&,其中1£[1,1)],1)是所述少数类用户的总人数; A1、计算每个特征的均值μ」,j e [ 1,d]; A2、计算需要创建的所述虚拟少数类用户的总人数:N=m-p; A3、判断p是否大于1,如果是,则继续执行A4,否则直接复制并执行所述步骤三; A4、计算每名真实少数类用户需对应虚拟的人数《 = μν/户」; Α5、按照指数分布对&增加η名所述虚拟用户。4. 如权利要求3所述的一种少数类用户网络访问特征的选取方法,其特征在于:Α5所述 的按照指数分布对Si增加η名虚拟用户的具体步骤如下: Β0、判断i是否超过所述真实少数类用户人数,如果是,则终止,否则继续执行; Bl、iRi = i+l; B2、判断对Sjij建的虚拟用户人数是否超过n,如果没有则继续B3,否则跳转BO继续执 行; B3、找到min(p-l,5)名和其欧式距离最小的真实的少数类用户; B4、随机选取min(p-l,5)名用户中的一名,记作Sf[1,min(p-l,5)]; B5、生成一个随机数R,且R~U(0,1); B6、创建虚拟用户S',所述虚拟用户的第j个特征S\(j),表示为: 其中 je[l,d];B7、组合这些特征,获得新创建的虚拟用户的特征集合为:5. 如权利要求1所述的一种少数类用户网络访问特征的选取方法,其特征在于:在所述 步骤三中,所述相关性分析为简单相关分析,其相关系数为皮尔森相关系数,显著水平为 0.05;输出的显著特征集合为[Sigl,Sig2,. . .,Sigs],其中s是显著相关的特征数目,Sigs是 显著相关的特征。6. 如权利要求2所述的一种少数类用户网络访问特征的选取方法,其特征在于,所述步 骤四按以下步骤进行: C1、计算Bartlett统计量和KMO统计量; C2、判断Bartlett统计量是否小于0.05并且KMO统计量是否小于0.5,如果否,则继续执 行步骤C3,否则终止; C3、选择特征根大于1的公因子,所述公因子包含有若干少数类用户网络访问的同类特 征; C4、使用最大方差法进行因子轴的旋转,凸显少数类用户网络访问特征。
【文档编号】G06F17/30GK105956187SQ201610394392
【公开日】2016年9月21日
【申请日】2016年6月3日
【发明人】牟超, 周庆, 胡月, 孙启亮, 孟瑶, 全文君, 廖凤露, 尹春梅
【申请人】重庆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1