网络业务用户群组划分的方法和装置的制造方法_4

文档序号:9527397阅读:来源:国知局
特征;
[0179] 信息推送模块250,用于根据各个群组的群组特征,分别向各个群组的用户推送对 应群组特征的业务推送信息。
[0180] 用户在通过终端设备访问网络业务时,服务器会接收到对应的操作指令,并根据 这些操作指令执行对应的网络业务操作,同时,为了对用户进行合理划分群组,服务器还对 用户操作的数据进行统计,包括用户周期内访问总天数、周期内访问总次数、周期内访问总 时长、参与的附加项目总个数、投入资本等多个统计指标的数据,多个统计指标的属性和/ 或行为数据组合起来,构成该用户的属性和/或行为数据,该属性和/或行为数据包括多个 维度,即一个维度对应一个统计指标。由于各个统计指标的单位和统计标准不同,为了便于 群组划分,需将属性和/或行为数据中各个统计指标的属性和/或行为数据转换为统一标 准,即标准化数据。
[0181] 按照预设的群组划分个数确定群组中心点的个数,每一个群组包括一个群组中心 点,群组中心点可从标准化数据中选取,也可以由标准化数据求均值、均方根等方式获得, 或采用k-means聚类算法获得。在确定群组中心点后,将每一个标准化数据与各个群组中 心点比较,找到距离该标准化数据最近的一个群组中心点,将该标准化数据划分到该群组 中心点所在群组中。
[0182] 在完成群组划分后,需对该组特点进行分析。由于每个标准化数据中都包括了多 个统计指标,各个群组中标准化数据存在差异,对各个群组中标准化数据的差异性进行分 析,几个确定该群组的群组特征。
[0183] 在完成群组划分以及特征分析后,服务器根据特征制定推送方案,向各个群组的 用户终端推送相应特征的业务信息,例如在网络视频业务中,对于访问新闻类视频较多的 用户推送更新的新闻资讯,对于访问电视剧较多的用户推送最近更新的热播电视剧等。
[0184] 本实施例根据用户属性和/或行为数据对用户群组进行精细划分,使划分后的群 组具备各自的群组特征,划分更加准确,使业务信息推送更加合理。
[0185] 进一步的,数据统计模块210获取的属性和/或行为数据包括:
[0186] U1 = (XII,X21,......, Xjl, , Xml);
[0187] U2 = (X12,X22,......, Xj2, , Xm2);
[0188] ......;
[0189] Ui= (Xli,X2i,......, Xji, , Xmi);
[0190] ......;
[0191] Un= (Xln,X2n,......, Xjn, , Xmn);
[0192] 其中,i为用户的序号,n为获取的用户总个数,Ui为第i个用户的属性和/或行 为数据,j为属性和/或行为数据的统计指标的序号,m为属性和/或行为数据的统计指标 的总个数,Xj为第j个统计指标的属性和/或行为数据,Xji为第i个用户的第j个统计指 标的属性和/或行为数据。
[0193] 例如,将上述属性和/或行为数据表示为下表:
[0194]
[0195] 进一步的,当属性和/或行为数据为连续型数据时,例如连续数字的取值范围,数 据转换模块220采用以下公式将属性和/或行为数据转换为标准化数据:
[0196] Xji标准=(Xji-Xjmin)+(Xjmax-Xjmin);
[0197] Ui标准=(Xli标准,X2i标准,......,Xji标准,......,Xmi标准);
[0198] 其中,Xji转换后的标准化数据,Xjmax为当前统计周期内第j个统计指 标的所有属性和/或行为数据中数值最大的属性和/或行为数据,Xjmin为当前统计周期 内第j个统计指标的所有属性和/或行为数据中数值最小的属性和/或行为数据。
[0199] 采用上述方式将连续型属性和/或行为数据中各个统计指标的属性和/或行为 数据转换为统一标准的标准化数据,有利于弱化各个统计指标的单位和统计标准不同的问 题,简化了多维度的属性和/或行为数据的计算难度,便于群组划分的处理流程。
[0200] 进一步的,当属性和/或行为数据为分类型数据时,例如用户等级分为一级、二 级、三级,会员类型分为非会员、普通会员、高级会员,数据转换模块220采用以下方式将属 性和/或行为数据转换为标准化数据:
[0201] 对同一个统计指标中属性和/或行为数据的取值进行分类,相同的取值分为一 类,分类后的取值包括Yl、Y2、……、Ye、……、Yf,其中f为取值分类总个数,e为取值的 分类序号,Ye为第e类取值;
[0202] 判断f是否小于或等于2 ;
[0203] 当f小于或等于2时,判断Y1和Y2是否仅为0或1 ;
[0204] 如果是,则无需数值转换,原属性和/或行为数据作为标准化数据Xji;
[0205] 如果否,则将Y1转换为0、Y2转换为1,或将Y1转换为1、Y2转换为0,将转换后的 数据作为标准化数据Xji;
[0206] 当f大于2时,若属性和/或行为数据的取值为Ye,则使Ye对应的取值为1、除Ye 之外的取值为〇,按照Y1、Y2、……、Ye、……、Yf的排列顺序,将属性和/或行为数据的取 值转换为f位的二值型数据,并将转换后的二值型数据乘以1/& ,获得标准化数据Xjisa。
[0207] 对于f小于或等于2,且Y1和Y2仅为0或1的情况,举例说明,假设统计指标为会 员类型,包括会员和非会员两类,则会员对应取值为1,非会员对应取值为〇,则无需数值转 换,原属性和/或行为数据作为标准化数据Xji。
[0208] 对于f小于或等于2,且Y1和Y2不仅仅为0和1的情况,举例说明,假设统计指标 为用户等级,包括一级用户和二级用户两类,一级用户对应数值为1,二级用户对应数值为 2,则需将其进行数值转换,使转换后的一级用户赋值为0 (或1),转换后的二级用户赋值为 1 (或 〇)。
[0209] 对于f大于2的情况,举例说明,假设统计指标为会员类型,包括普通会员、银卡会 员、金卡会员三类,则需将其进行数值转换,普通会员对应Y1、银卡会员对应Y2、金卡会员 对应Y3 ;用户U1为普通会员,则Y1 = 1、Y2 = 0、Y3 = 0,用户U1的会员类型的取值转换 后的二值型数据为(1,〇,〇);用户U2为银卡会员,则Y1 = 0、Y2 = 1、Y3 = 0,用户U2的会 员类型的取值转换后的二值型数据为(〇,1,〇);用户U3为金卡会员,则Y1 = 0、Y2 = 0、Υ3 =1,用户U3的会员类型的取值转换后的二值型数据为(0,0,1)。此外,在计算两个标准化 数据之间距离时,为了使距离范围在〇~1之间,对于f大于2的情况,在进行二值型数据 转换后,还需将转换后的二值型数据乘以丨/vC,例如,上述实施例中,用户U1的会员类型的 标准化数据为(1/#,〇,〇),用户U2的会员类型的标准化数据为(0,!/&,0),用户U1的 会员类型的标准化数据为(〇,〇, 1/七)。
[0210] 采用上述方式将分类型属性和/或行为数据中各个统计指标的属性和/或行为数 据转换为统一标准的标准化数据,使不同取值的统计指标采用〇~1的标准化数据代替,简 化了多维度的属性和/或行为数据的计算难度,便于群组划分的处理流程。
[0211] 进一步的,群组中心点包括初始群组中心点、修正群组中心点和最终群组中心点; 数据分组模块230还用于:
[0212] 从所有标准化数据中获取任一个作为第一个初始群组中心点C01 ;
[0213] 从除去C01之外的标准化数据中查找距离C01最远的标准化数据,作为第二个初 始群组中心点C02;
[0214] 从除去C01、C02之外的标准化数据中,计算各标准化数据Ui?分别至C01的距离 Dil和至C02的距离Di2,选择Dil和Di2中较小值作为Ui标准至中心点集合{C01,C02}的 距离,比较各标准化数据至中心点集合{C01,C02}的距离的大小,选取至中心点集合{C01,C02}的距离最大的标准化数据作为第三个初始群组中心点C03 ;
[0215] 从除去C01、C02、C03之外的标准化数据中,计算各标准化数据Ui?分别至C01的 距离Dil、至C02的距离Di2和至C03的距离Di3,选择Dil、Di2和Di3中最小值作为Ui标 准至中心点集合{C01,C02,C03}的距离,比较各标准化数据至中心点集合{C01,C02,C03} 的距离的大小,选取至中心点集合{C01,C02,C03}的距离最大的标准化数据作为第四个初 始群组中心点C04 ;
[0216] 以此类推,直至确定k个初始群组中心点C01、C02、......、⑶k,其中k为预设的群 组总个数;
[0217] 计算每一个标准化数据至各初始群组中心点的距离,将标准化数据划分到距离最 小的初始群组中心点所在群组;
[0218] 分别计算各个群组中标准化数据的平均值,分别作为第一次迭代后的k个修正群 组中心点C11、C12、......、Clk;
[0219] 计算每一个标准化数据至第一次迭代后的各修正群组中心点的距离,将标准化数 据划分到距离最小的修正群组中心点所在群组;
[0220] 分别计算第一次迭代后各个群组中标准化数据的平均值,分别作为第二次迭代后 的k个修正群组中心点C21、C22、……、C2k;
[0221] 以此类推,直至在计算本次迭代后的修正群组中心点与对应的前一次迭代后的修 正群组中心点之间的距离后,k个距离之和在预设范围内,或直至迭代次数达到预设次数, 则将本次迭代后的k个修正群组中心点作为最终群组中心点;
[0222] 计算每一个标准化数据至各最终群组中心点的距离,将标准化数据划分到距离最 小的最终群组中心点所在群组。
[0223] 本实施例采用k-means聚类算法进行群组划分,其中群组中心点包括了初始群组 中心点、修正群组中心点和最终群组中心点。首先获取任一个作为第一个初始群组中心点C01。在所有的标准化数据中除去已经被选为第一个初始群组中心点C01的数据,剩下的数 据分别与C01计算距离。两个标准化数据之间的距离采用欧氏距离公式计算,例如,取C01 =U1 = (XII,X21,......,Xjl,......,Xml),计算Ui= (Xli,X2i,......,Xji,......,Xmi) 与C01之间的距离,可采用以下公式:
[0224]
[0225] Di值最大的标准化数据即为距离C01最远的标准化数据,作为第二个初始群组中 心点C02。
[0226] 在计算第三个初始群组中心点C03时,计算除去C01、C02之外的标准化数据至中 心点集合{C01,C02}的距离,选取距离中心点集合{C01,C02}最远的一个数据标准化数据 作为第三个初始群组中心点C03。在计算后续的初始群组中心点时,采用与计算C03同理的 方式,直至找到预设数量的初始群组中心点。
[0227] 在确定初始群组中心点后,对各标准化数据进行初始划分群组,仍然采用欧氏距 离公式计算标准化数据至各初始群组中心点的距离,将标准化数据划分到距离最近的初始 群组中心点所在群组。
[0228] 完成初始划分群组后,采用求取群组平均值的方式获得一次迭代的群组中心点修 正值,即修正群组中心点。求取平均值采用对该群组中各个统
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1