网络业务用户群组划分的方法和装置的制造方法_3

文档序号:9527397阅读:来源:国知局
2的距离Di2,选择Dil和Di2中较小值作为至中心点集合 {C01,C02}的距离,比较各标准化数据至中心点集合{C01,C02}的距离的大小,选取至中心 点集合{C01,C02}的距离最大的标准化数据作为第三个初始群组中心点C03;
[0120] 在计算第三个初始群组中心点C03时,计算除去C01、C02之外的标准化数据至中 心点集合{C01,C02}的距离,选取距离中心点集合{C01,C02}最远的一个数据标准化数据 作为第三个初始群组中心点C03。
[0121] 步骤S204,从除去C01、C02、C03之外的标准化数据中,计算各标准化数据Ui标准分 别至C01的距离Dil、至C02的距离Di2和至C03的距离Di3,选择Dil、Di2和Di3中最小 值作为至中心点集合{C01,C02,C03}的距离,比较各标准化数据至中心点集合{C01, C02,C03}的距离的大小,选取至中心点集合{C01,C02,C03}的距离最大的标准化数据作为 第四个初始群组中心点C04;
[0122] 步骤S205,以此类推,直至确定k个初始群组中心点C01、C02、……、0^,其中让 为预设的群组总个数;
[0123] 在计算后续的初始群组中心点时,采用与计算C03同理的方式,直至找到预设数 量的初始群组中心点。
[0124] 步骤S206,计算每一个标准化数据至各初始群组中心点的距离,将标准化数据划 分到距离最小的初始群组中心点所在群组;
[0125] 在确定初始群组中心点后,对各标准化数据进行初始划分群组,仍然采用欧氏距 离公式计算标准化数据至各初始群组中心点的距离,将标准化数据划分到距离最近的初始 群组中心点所在群组。
[0126] 步骤S207,分别计算各个群组中标准化数据的平均值,分别作为第一次迭代后的 k个修正群组中心点C11、C12、……、Clk;
[0127] 完成初始划分群组后,采用求取群组平均值的方式获得一次迭代的群组中心点修 正值,即修正群组中心点。求取平均值采用对该群组中各个统计指标的标准化数据分别求 平均值即可,例如,第一个群组中包括以下数据:
[0128] Ul = (XII, X21, ......, Xjl, , Xml);
[0129] U3 = (X13, X23, ......, Xj3, , Xm3);
[0130] U5 = (X15, X22, ......, Xj5, , Xm5);
[0131]则第一次迭代后的第一个修正群组中心点为:
[0132]
[0133] 步骤S208,计算每一个标准化数据至第一次迭代后的各修正群组中心点的距离, 将标准化数据划分到距离最小的修正群组中心点所在群组;
[0134] 重新对各标准化数据进行群组划分,仍然采用欧氏距离公式计算标准化数据至各 修正群组中心点的距离,将标准化数据划分到距离最近的修正群组中心点所在群组。
[0135] 步骤S209,分别计算第一次迭代后各个群组中标准化数据的平均值,分别作为第 二次迭代后的k个修正群组中心点C21、C22、……、C2k;
[0136] 步骤S210,以此类推,直至在计算本次迭代后的修正群组中心点与对应的前一次 迭代后的修正群组中心点之间的距离后,k个距离之和在预设范围内,或直至迭代次数达到 预设次数,则将本次迭代后的k个修正群组中心点作为最终群组中心点;
[0137] 经过多次迭代,反复求取修正群组中心点和群组划分,直至多次迭代后的修正群 组中心点无变化或变化细微,或达到预设迭代次数,则停止迭代。在判断前后两次迭代后的 修正群组中心点无变化或变化细微时,可采用以下方式:
[0138] 例如,第一次迭代后的k个修正群组中心点C11、C12、......、Clk,第二次迭代后的 k个修正群组中心点C21、C22、……、C2k;
[0139] 计算前后两次迭代后的对应的修正群组中心点之间的距离:
[0140]C11与C21的距离Dl,C12与C22的距离D2,......,Clk与C2k的距离Dk;
[0141] 可分别判断D1、D2、……、Dk是否在预设范围内;
[0142]另外还可以对D1、D2、......、Dk求和,得到距离之和Sum(D),判断Sum⑶是否在 预设范围内;
[0143] 当各D1、D2、......、Dk均在预设范围内,或Sum⑶在预设范围内,则认为前后两次 迭代后的修正群组中心点无变化或变化细微。
[0144] 步骤S211,计算每一个标准化数据至各最终群组中心点的距离,将标准化数据划 分到距离最小的最终群组中心点所在群组。
[0145] 在获得最终的群组中心点后,再次将各标准化数据划分到距离最近的最终群组中 心点所在群组,完成群组划分。
[0146] 本实施例采用了k-means聚类算法对用户群组进行精细划分,使划分后的群组更 加准确,有利于业务信息的合理推送。
[0147] 如图5所示,图5为本发明网络业务用户群组划分的方法的第一实施例中确定群 组特征的步骤流程图。本实施例是对图2所示实施例中的步骤S30详细说明,步骤S30具 体包括以下步骤:
[0148] 步骤S300,根据各个群组中的标准化数据,分别计算各个群组中各个统计指标的 偏差概率,比较各个群组中同一个统计指标的偏差概率大小,获取该统计指标中偏差概率 较其他群组差异最显著的群组,将该统计指标的数值特征作为该群组的群组特征。
[0149] 在确定群组特征时,可比较各个群组中同一个统计指标的偏差概率大小,比较出 特征最明显的一个群组,将该统计指标的数值特征作为该群组的群组特征,例如统计指标 为访问次数,群组1的访问次数的偏差概率较其他群组大很多,则群组1的访问次数的数值 特征为访问次数较多,该数值特征即作为群组1的群组特征,群组2的访问次数的偏差概率 较其他群组小很多,则群组2的访问次数的数值特征为访问次数较少,该数值特征即作为 群组2的群组特征。求取偏差概率可采用多种方式,例如,在一个群组中,获取一个统计指 标的所有标准化数据,求取这些标准化数据的均值或均方根作为偏差概率,然后再来比较 各个偏差概率的大小。
[0150] 本实施例对统计指标中各个群组的偏差概率进行计算,以确定群组的群组特征, 划分后的群组具备各自的群组特征,业务信息推送使按照各群组的特征进行推送,使信息 推送更加合理。
[0151] 如图6所示,图6为本发明网络业务用户群组划分的方法的第一实施例中确定群 组特征的进一步详细步骤流程图。本实施例对图5所示实施例中的步骤S300详细说明,具 体包括以下步骤:
[0152] 步骤S301,计算所有标准化数据的各个统计指标的平均值:
[0153] Q01 标准、Q02 标准、......、Q〇j标准、......、Q〇m标准:
[0154] Q〇j标准=(Xjl标准+Xj2 标准 +......+Xjn标准)7n;
[0155] 其中QOj所有标准化数据中第j个统计指标的平均值;
[0156] 步骤S302,在最终确定的群组中,分别计算各个群组中各个统计指标的平均值 Qtl标准、Qt2标准、......、Qtj标准、......、Qtm标准,其中t为群组的序可,1 <t<k,Qtj标准为弟 t个群组中第j个统计指标的平均值;
[0157] 例如,一个群组中包括以下标准化数据:
[0158] U1 标准=(XII标准,X21 标准,......,Xj!标准,......,Xm!标准);
[0159] U3标准=(X13标准,X23标准,......,Xj3 标准,......,Xm3 标准);
[0160] U5标准=(X15标准,X22标准,......,Xj5 标准,......,Xm5 标准);
[0161] MQtj标准=(Xjl标准+Xj3标准+Xj5标准)+3 ;
[0162] 步骤S303,分别计算各个群组中各个统计指标的偏差概率:
[0163] Ptl标准、Pt2 标准、......、Ptj标准、......、Ptm标准;
[0164] Ptj标准=(Qtj标准-Q〇j标准)7QOj标准;
[0165] 其中,Ptjsm为第t个群组中第j个统计指标的偏差概率;
[0166] 步骤S304,比较PIj标准、P2j标准、……、Ptj标准、……、Pkj标准的大小,获取第j个 统计指标中偏差概率较其他群组差异最显著的群组,将第j个统计指标的数值特征作为该 群组的群组特征。
[0167] 采用上述方式获得同一个统计指标中各个群组的偏差概率,可一并参考图9所示 图表,在图表中,群组1的偏差最显著,且相对其他群组来说偏差较大,则将该统计指标的 数值特征作为群组1的群组特征,即群组1的该统计指标偏差较大。如果统计指标中各群 组的偏差概率区别不明显,则可重新设置群组划分个数或重新选择用户属性和/或行为数 据,重新确定群组中心点以及群组划分,在重新确定群组中心点时,可选择与前一次相同的 点作为初始群组中心点,以使后续群组的划分更加稳定。此外,计算偏差概率时也可以不采 用标准化数据,直接采用属性和/或行为数据同样可以得到群组的群组特征。
[0168] 本实施例对统计指标中各个群组的偏差概率进行计算,以确定群组的群组特征, 划分后的群组具备各自的群组特征,业务信息推送使按照各群组的特征进行推送,使信息 推送更加合理。
[0169] 如图7所示,图7为本发明网络业务用户群组划分的方法的第二实施例的流程图。 本实施例包括了图2所示实施例中的所有步骤,并在步骤S40之后增加了以下步骤:
[0170] 步骤S50,获取下一个统计周期的用户的属性和/或行为数据,并将所述下一个统 计周期的用户的属性和/或行为数据转换为标准化数据;
[0171] 步骤S60,将下一个统计周期的用户的标准化数据划分到距离最近的群组中心点 所在群组;
[0172] 步骤S70,根据下一个统计周期的用户所在群组的群组特征,向下一个统计周期的 用户推送对应群组特征的业务推送信息。
[0173] 在图2至图6所示实施例中,获得了一个群组划分的固定模型,在后续统计周期 内,只需要将用户属性和/或行为数据套用到该固定模型中,即可实现用户的群组划分,具 体的执行流程可参照图2至图6所示实施例,在此不做赘述。由于采用了上述实施例中的 固定模型,在后续统计周期内可使用户群组划分更加快速、准确,有利于提高业务信息推送 的合理性、准确性和快捷性。
[0174] 如图8所示,图8为本发明实施例的网络业务用户群组划分的装置的结构示意图。 本实施例提到的网络业务用户群组划分的装置,包括:
[0175] 数据统计模块210,用于获取多个用户在当前统计周期内的属性和/或行为数据, 每个用户的属性和/或行为数据包括多个统计指标;
[0176] 数据转换模块220,用于将属性和/或行为数据转换为标准化数据;
[0177] 数据分组模块230,用于根据标准化数据,确定多个群组中心点,将标准化数据划 分到距离最近的群组中心点所在群组;
[0178] 特征确定模块240,用于根据所述各个群组中的标准化数据,确定各个群组的群组
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1