数据挖掘方法、装置及系统与流程

文档序号:11155265阅读:来源:国知局

技术特征:

1.一种数据挖掘方法,其特征在于,包括:

获取用户的预定行为数据,所述预定行为数据包括所述预定行为的效用数据和所述预定行为的生成时间;

根据每个用户的所述预定行为数据的生成时间和所述预定行为数据的数量对所述用户进行分类,确定目标用户集合;

根据所述预定行为数据生成所述目标用户集合中每个用户的单用户特征向量;

根据所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合。

2.根据权利要求1所述的方法,其特征在于,

所述预定行为数据还包括所述预定条件标识和效用抵扣数据,根据所述预定条件标识识别第一预定行为数据;

所述单用户特征向量包括第一特征向量指标、第二特征向量指标第三特征向量指标、第四特征向量指标、第五特征向量指标和/或第六特征向量指标;

所述根据所述预定行为数据生成所述目标用户集合中每个用户的单用户特征向量包括:

根据所述用户的所述第一预定行为数据的数量与所述预定行为数据的数量的比值确定所述用户的所述第一特征向量指标;

确定所述用户的各个所述预定行为数据的所述效用抵扣数据与所述效用数据的比值,并将所述比值取均值,确定所述用户的所述第二特征向量指标;

根据所述用户的所述效用抵扣数据之和与所述效用数据之和的比值确定所述用户的所述第三特征向量指标;

根据所述用户的所述效用抵扣数据之和确定所述用户的所述第四特征向量指标;

根据所述用户的所述第一预定行为数据的数量确定所述用户的所述第五特征向量指标;和/或,

根据所述用户的存在所述第一预定行为数据的时间段的数量与从用户入网开始经过的时间段数量的比值确定所述用户的所述第六特征向量指标。

3.根据权利要求1所述的方法,其特征在于,所述根据所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合包括:

根据每个用户的所述单用户特征向量确定高密度区域用户;

从所述高密度区域用户中选择作为初始聚类中心的用户,所述初始聚类中心的数量与所述预定分级数量相等;

根据所述初始聚类中心,基于K均值算法确定所述分级用户集合。

4.根据权利要求3所述的方法,其特征在于,所述在所述高密度区域用户中选择初始聚类中心包括:

根据所述单用户特征向量在所述高密度区域用户中选择密度参数最大的用户作为第一初始聚类中心;

从所述高密度区域用户中选取距离所述第一初始聚类中心最远的用户作为第二初始聚类中心;

从所述高密度区域用户中选取距离所述第一初始聚类中心和所述第二初始聚类中心集合的距离最远的用户作为第三初始聚类中心;

依次类推直至确定全部所述初始聚类中心。

5.根据权利要求2所述的方法,其特征在于,还包括:

排除所述目标用户集合中的异常用户,所述异常用户包括用户的所述效用抵扣数据之和大于预定分位数的用户;

所述根据所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合包括:

根据排除异常用户后的所述目标用户集合中用户的所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合;

基于预定策略为所述异常用户选择分级用户集合,并将所述异常用户并入所述分级用户集合中。

6.根据权利要求1所述的方法,其特征在于,还包括:将所述单用户特征向量中的特征向量指标进行数据标准化处理;

所述根据所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合包括:

根据标准化处理后的所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合。

7.一种数据挖掘装置,其特征在于,包括:

数据获取模块,用于获取用户的预定行为数据,所述预定行为数据包括所述预定行为的效用数据和所述预定行为的生成时间;

用户分类模块,用于根据每个用户的所述预定行为数据的生成时间和所述预定行为数据的数量对所述用户进行分类,确定目标用户集合;

特征向量生成模块,用于根据所述预定行为数据生成所述目标用户集合中每个用户的单用户特征向量;

用户分级模块,用于根据所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合。

8.根据权利要求7所述的装置,其特征在于,

所述预定行为数据还包括所述预定条件标识和效用抵扣数据,根据所述预定条件标识识别第一预定行为数据;

所述单用户特征向量包括第一特征向量指标、第二特征向量指标第三特征向量指标、第四特征向量指标、第五特征向量指标和/或第六特征向量指标;

所述根据所述预定行为数据生成所述目标用户集合中每个用户的单用户特征向量包括:

根据所述用户的所述第一预定行为数据的数量与所述预定行为数据的数量的比值确定所述用户的所述第一特征向量指标;

确定所述用户的各个所述预定行为数据的所述效用抵扣数据与所述效用数据的比值,并将所述比值取均值,确定所述用户的所述第二特征向量指标;

根据所述用户的所述效用抵扣数据之和与所述效用数据之和的比值确定所述用户的所述第三特征向量指标;

根据所述用户的所述效用抵扣数据之和确定所述用户的所述第四特征向量指标;

根据所述用户的所述第一预定行为数据的数量确定所述用户的所述第五特征向量指标;和/或,

根据所述用户的存在所述第一预定行为数据的时间段的数量与从用户入网开始经过的时间段数量的比值确定所述用户的所述第六特征向量指标。

9.根据权利要求7所述的装置,其特征在于,所述用户分级模块包括:

高密度用户确定单元,用于根据每个用户的所述单用户特征向量确定高密度区域用户;

初始中心确定单元,用于所述高密度区域用户中选择作为初始聚类中心的用户,所述初始聚类中心的数量与所述预定分级数量相等;

聚类单元,用于根据所述初始聚类中心,基于K均值算法确定所述分级用户集合。

10.根据权利要求9所述的装置,其特征在于,所述初始中心确定单元用于:

在所述高密度区域用户中选择密度参数最大的用户作为第一初始聚类中心;

从所述高密度区域用户中选取距离所述第一初始聚类中心最远的用户作为第二初始聚类中心;

从所述高密度区域用户中选取距离所述第一初始聚类中心和所述第二初始聚类中心集合的距离最远的用户作为第三初始聚类中心;

依次类推直至确定全部所述初始聚类中心。

11.根据权利要求8所述的装置,其特征在于,还包括:

异常用户排除模块,用于排除所述目标用户集合中的异常用户,所述异常用户包括用户的所述效用抵扣数据之和大于预定分位数的用户;

所述用户分级模块用于:

根据排除异常用户后的所述目标用户集合中用户的所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合;

基于预定策略为所述异常用户选择分级用户集合,并将所述异常用户并入所述分级用户集合中。

12.根据权利要求7所述的装置,其特征在于,还包括:

标准化处理模块,用于将所述单用户特征向量中的特征向量指标进行数据标准化处理;

所述用户分级模块用于根据标准化处理后的所述单用户特征向量,基于聚类算法对所述目标用户集合进行分级,确定分级用户集合。

13.一种数据挖掘系统,其特征在于:

包括存储器;以及

耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至6任一项所述的方法。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1