网络业务用户群组划分的方法和装置的制造方法_5

文档序号:9527397阅读:来源:国知局
计指标的标准化数据分别求 平均值即可,例如,第一个群组中包括以下数据:
[0229] U1 = (XII,X21, ......, Xjl, , Xml);
[0230] U3 = (X13,X23, ......, Xj3, , Xm3);
[0231] U5 = (X15,X22, ......, Xj5, , Xm5);
[0232] 则第一次迭代后的第一个修正群组中心点为:
[0233]
[0234] 重新对各标准化数据进行群组划分,仍然采用欧氏距离公式计算标准化数据至各 修正群组中心点的距离,将标准化数据划分到距离最近的修正群组中心点所在群组。经过 多次迭代,反复求取修正群组中心点和群组划分,直至多次迭代后的修正群组中心点无变 化或变化细微,或达到预设迭代次数,则停止迭代。在判断前后两次迭代后的修正群组中心 点无变化或变化细微时,可采用以下方式:
[0235] 例如,第一次迭代后的k个修正群组中心点C11、C12、......、Clk,第二次迭代后的 k个修正群组中心点C21、C22、……、C2k;
[0236] 计算前后两次迭代后的对应的修正群组中心点之间的距离:
[0237]C11与C21的距离Dl,C12与C22的距离D2,......,Clk与C2k的距离Dk;
[0238] 可分别判断D1、D2、......、Dk是否在预设范围内;
[0239]另外还可以对Dl、D2、......、Dk求和,得到距离之和Sum(D),判断Sum⑶是否在 预设范围内;
[0240] 当各D1、D2、......、Dk均在预设范围内,或Sum⑶在预设范围内,则认为前后两次 迭代后的修正群组中心点无变化或变化细微。
[0241] 在获得最终的群组中心点后,再次将各标准化数据划分到距离最近的最终群组中 心点所在群组,完成群组划分。
[0242] 本实施例采用了k-means聚类算法对用户群组进行精细划分,使划分后的群组更 加准确,有利于业务信息的合理推送。
[0243] 进一步的,特征确定模块240用于:
[0244] 根据各个群组中的标准化数据,分别计算各个群组中各个统计指标的偏差概率, 比较各个群组中同一个统计指标的偏差概率大小,获取统计指标的偏差概率较其他群组差 异最显著的群组,将统计指标的数值特征作为该群组的群组特征。
[0245] 在确定群组特征时,可比较各个群组中同一个统计指标的偏差概率大小,比较出 特征最明显的一个群组,将该统计指标的数值特征作为该群组的群组特征,例如统计指标 为访问次数,群组1的访问次数的偏差概率较其他群组大很多,则群组1的访问次数的数值 特征为访问次数较多,该数值特征即作为群组1的群组特征,群组2的访问次数的偏差概率 较其他群组小很多,则群组2的访问次数的数值特征为访问次数较少,该数值特征即作为 群组2的群组特征。求取偏差概率可采用多种方式,例如,在一个群组中,获取一个统计指 标的所有标准化数据,求取这些标准化数据的均值或均方根作为偏差概率,然后再来比较 各个偏差概率的大小。
[0246] 本实施例对统计指标中各个群组的偏差概率进行计算,以确定群组的群组特征, 划分后的群组具备各自的群组特征,业务信息推送使按照各群组的特征进行推送,使信息 推送更加合理。
[0247] 进一步的,特征确定模块240还用于:
[0248] 计算所有标准化数据的各个统计指标的平均值:
[0249] Q01标准、Q02标准、......、Q〇J·标准、......、Q〇m标准:
[0250] Q〇j标准=(Xjl标准+Xj2标准+......+Xjn标准)7n;
[0251 ]其中QOj 所有标准化数据中第j个统计指标的平均值;
[0252] 在最终确定的群组中,分别计算各个群组中各个统计指标的平均值Qtlsm、Qt2s 准、......、Qtj标准、......、Qtm标准,其中t为群组的序可,1 <t<k,Qtj标准为弟t个群组中 第j个统计指标的平均值;
[0253] 分别计算各个群组中各个统计指标的偏差概率:
[0254] Ptl标准、Pt2标准、......、Ptj标准、......、Ptm标准;
[0255] Ptj标准=(Qtj标准一Q0j标准)+Q0j标准;
[0256] 其中,Ptjsm为第t个群组中第j个统计指标的偏差概率;
[0257] 比较Plj标准、P2j标准、……、Ptj标准、……、Pkj标准的大小,获取第j个统计指标中 偏差概率较其他群组差异最显著的群组,将第j个统计指标的数值特征作为该群组的群组 特征。
[0258] 采用上述方式获得同一个统计指标中各个群组的偏差概率,可一并参考图9所示 图表,在图表中,群组1的偏差最显著,且相对其他群组来说偏差较大,则将该统计指标的 数值特征作为群组1的群组特征,即群组1的该统计指标偏差较大。如果统计指标中各群 组的偏差概率区别不明显,则可重新设置群组划分个数或重新选择用户属性和/或行为数 据,重新确定群组中心点以及群组划分,在重新确定群组中心点时,可选择与前一次相同的 点作为初始群组中心点,以使后续群组的划分更加稳定。此外,计算偏差概率时也可以不采 用标准化数据,直接采用属性和/或行为数据同样可以得到群组的群组特征。
[0259] 本实施例对统计指标中各个群组的偏差概率进行计算,以确定群组的群组特征, 划分后的群组具备各自的群组特征,业务信息推送使按照各群组的特征进行推送,使信息 推送更加合理。
[0260] 进一步的,数据统计模块210还用于,获取下一个统计周期的用户的属性和/或行 为数据;
[0261] 数据转换模块220还用于,将下一个统计周期的用户的属性和/或行为数据转换 为标准化数据;
[0262] 数据分组模块230还用于,将下一个统计周期的用户的标准化数据划分到距离最 近的群组中心点所在群组;
[0263] 信息推送模块250还用于,根据下一个统计周期的用户所在群组的群组特征,向 下一个统计周期的用户推送对应群组特征的业务推送信息。
[0264] 在上述实施例中,获得了一个群组划分的固定模型,在后续统计周期内,只需要将 用户属性和/或行为数据套用到该固定模型中,即可实现用户的群组划分。由于采用了上 述实施例中的固定模型,在后续统计周期内可使用户群组划分更加快速、准确,有利于提高 业务信息推送的合理性、准确性和快捷性。
[0265] 需要说明的是,在本文中,术语"包括"、"包含"或者其任何其他变体意在涵盖非排 他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而 且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有 的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在包括 该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0266] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0267] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方 法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下 前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做 出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质 (如R0M/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机, 服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0268] 以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用 本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关 的技术领域,均同理包括在本发明的专利保护范围内。
【主权项】
1. 一种网络业务用户群组划分的方法,其特征在于,包括步骤: 获取多个用户在当前统计周期内的属性和/或行为数据,每个用户的属性和/或行为 数据包括多个统计指标,并将所述属性和/或行为数据转换为标准化数据; 根据所述标准化数据,确定多个群组中心点,将所述标准化数据划分到距离最近的群 组中心点所在群组; 根据所述各个群组中的标准化数据,确定各个群组的群组特征; 根据各个群组的群组特征,分别向各个群组的用户推送对应群组特征的业务推送信 肩、。2. 如权利要求1所述的网络业务用户群组划分的方法,其特征在于,所述根据所述各 个群组中的标准化数据,确定各个群组的群组特征的步骤包括: 根据所述各个群组中的标准化数据,分别计算各个群组中各个统计指标的偏差概率, 比较各个群组中同一个统计指标的偏差概率大小,获取所述统计指标的偏差概率较其他群 组差异最显著的群组,将所述统计指标的数值特征作为该群组的群组特征。3. 如权利要求2所述的网络业务用户群组划分的方法,其特征在于,所述属性和/或行 为数据包括:其中,i为用户的序号,η为获取的用户总个数,Ui为第i个用户的属性和/或行为数 据,j为属性和/或行为数据的统计指标的序号,m为属性和/或行为数据的统计指标的总 个数,Xj为第j个统计指标的属性和/或行为数据,Xji为第i个用户的第j个统计指标的 属性和/或行为数据。4. 如权利要求3所述的网络业务用户群组划分的方法,其特征在于,当所述属性和/或 行为数据为连续型数据时,所述将属性和/或行为数据转换为标准化数据采用以下公式:其中,Xji 为Xji转换后的标准化数据,Xjmax为当前统计周期内第j个统计指标的 所有属性和/或行为数据中数值最大的属性和/或行为数据,Xjmin为当前统计周期内第j 个统计指标的所有属性和/或行为数据中数值最小的属性和/或行为数据。5. 如权利要求3所述的网络业务用户群组划分的方法,其特征在于,当所述属性和/或 行为数据为分类型数据时,所述将属性和/或行为数据转换为标准化数据采用以下步骤: 对同一个统计指标中属性和/或行为数据的取值进行分类,相同的取值分为一类,分 类后的取值包括Y1、Y2、……、Ye、……、Yf,其中f为取值分类总个数,e为取值的分类序 号,Ye为第e类取值; 判断f是否小于或等于2 ; 当f小于或等于2时,判断Y1和Y2是否仅为0或1 ; 如果是,则无需数值转换,原属性和/或行为数据作为标准化数据Xji ; 如果否,则将Y1转换为〇、Y2转换为1,或将Y1转换为1、Y2转换为0,将转换后的数据 作为标准化数据Xji ; 当f大于2时,若所述属性和/或行为数据的取值为Ye,则使Ye对应的取值为1、除Ye 之外的取值为〇,按照Y1、Y2、……、Ye、……、Yf的排列顺序,将所述属性和/或行为数据 的取值转换为f位的二值型数据,并将转换后的二值型数据乘以i/vi,获得标准化数据Xj i 标准136. 如权利要求2所述的网络业务用户群组划分的方法,其特征在于,所述群组中心点 包括初始群组中心点、修正群组中心点和最终群组中心点;所述根据标准化数据,确定多个 群组中心点,将所述标准化数据划分到距离最近的群组中心点所在群组的步骤包括: 从所有标准化数据中获取任一个作为第一个初始群组中心点C01 ; 从除去C01之外的标准化数据中查找距离C01最远的标准化数据,作为第二个初始群 组中心点C02 ; 从除去C01、C02之外的标准化数据中
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1