一种用户活跃度的预测方法、装置及其应用方法和系统的制作方法_3

文档序号:9866261阅读:来源:国知局
间之后的预设时间段内为流失用户, 其中可W通过多种方式确定出正样本和负样本,下面列举其中的两种进行介绍,当然,在具 体实施过程中,不限于W下两种情况。
[0152] 第一种,通过人工标记的方式确定出正样本和负样本,例如:标记人员认为某样本 的用户在采样时间之后的预设时间段内(例如:1天、1周之内)处于活跃状态,则将该样本标 记为正样本;标记人员认为某样本的用户在采样时间之后的预设时间段内处于不活跃状 态,则将该样本标记为负样本。
[0153] 在运种情况下,满足第一预设活跃度条件例如为被标记为正样本(也即被标记为 活跃用户),不满足第一预设活跃度条件例如为被标记为负样本(也即被标记为不活跃用 户)。
[0154] 第二种,采集获得各个采样用户访问预定网络访问对象的访问数据,基于访问数 据确定出每个采样用户是否满足第一预设活跃度条件。例如:获得采样时间之后的预设时 间段内每个采样用户访问预定网络访问对象的访问时长,判断访问时长是否大于预设持续 活跃时长,如果大于预设持续活跃时长,则确定该采样用户满足第一预设活跃度条件,该采 样样本为正样本,如果不大于预设持续活跃时长,则确定该采样用户不满足第一预设活跃 度条件,采样样本为负样本;又或者,判断采样时间之后的预设时间段内,各个采样用户访 问预定网络访问对象的访问次数是否大于预设次数,如果大于预设次数,则确定对应采样 用户满足第一预设活跃度条件,采样样本为正样本;如果不大于预设次数,确定该采样用户 不满足第一预设活跃度条件,采样样本为负样本等等,当然,还可W通过其他方式确定出正 样本和负样本,本发明实施例不再详细列举,并且不作限制。
[0155] 步骤S103中,在采用正样本和负样本进行逻辑回顾训练时,可W训练多种形式的 逻辑回归公式,下面列举其中的两种进行介绍,当然,在具体实施过程中,不限于W下两种 情况。
[0156] 逻辑回归公式①
..............................
[0157] 其中,X表示用户向量,ρ(?|χ,θ)表示某用户为满足第一活跃度条件的用户的概 率.
[015引逻辑回归公式②
_ _
[0159] 其中,X表示用户向量,ρ(〇|χ,θ)表示某用户为不满足第一活跃度条件的用户的概 率。
[0160] 通过将多个采样样本的用户特征代入逻辑回归模型就可W确定出向量Θ,基于向 量9就可W得到用于确定用户活跃度值的逻辑回归模型。
[0161] 其中,如果所获得的逻辑回归公式为公式①,则直接将用户向量代入公式①就可 w确定出用户对预定网络访问对象的用户活跃度值;如果所获得逻辑回归公式为公式②, 首先将用户向量代入该公式②,获得一个计算结果,然后通过1减去该计算结果,就可W获 得用户活跃度值。
[0162] W上用户活跃度的预测方法既可W应用于网络服务器,也可W应用于终端,本发 明实施例不作限制。
[0163] 基于同一发明构思,本发明实施例还提供另一种用户活跃度的预测方法,请参考 图3,包括:
[0164] 步骤S301:获得终端采集的用户预设时间内的Μ种特征数据,Μ为正整数;
[0165] 步骤S302:将Μ种特征数据发送至网络服务器,W供网络服务器基于Μ特征数据确 定出用户的用户向量并将用户向量输入逻辑回归模型,进而获得逻辑回归模型的输出结果 作为在预设时间段之后用户对预定网络访问对象的用户活跃度值;
[0166] 其中,逻辑回归模型基于多组采样样本进行逻辑回归训练获得,多组采样样本中 的每组采样样本包含采样用户的Μ种特征数据;多组采样样本包含正样本和负样本,在采样 时间之后的预设时间段内,正样本中的采样用户在预定网络访问对象的用户活跃度满足第 一预设活跃度条件;在采样时间之后的预设时间段内,负样本中的采样用户在预定网络访 问对象的用户活跃度值不满足第一预设活跃度条件。
[0167] 举例来说,Μ种特征数据例如包括W下几种特征类别中至少一特征类别下的特征 数据:
[0168] ①用户行为特征类别,用户行为特征类别包括:清理行为数据、访问应用程序的行 为数据、下载应用程序的行为数据、点击应用程序的行为数据中的至少一种行为数据。
[0169] ②终端特征类别,终端特征类别包括:安装应用程序的数量、安装应用程序的名 称、安装应用程序的版本、系统版本、内存参数、流量参数中的至少一种终端特征。
[0170] ③用户个人特征类别包括:性别、年龄、职业、所在地、教育背景中的至少一种用户 个人特征。
[0171] 基于同一发明构思,本发明实施例还提供一种基于用户活跃度的信息推送方法, 该方法为对本发明实施例所介绍的用户活跃度的预测方法的进一步应用,请参考图4,包 括:
[0172] 步骤S401:基于本发明任一实施例所介绍的用户活跃度的预测方法,确定出第一 用户针对预定网络访问对象的用户活跃度值;
[0173] 步骤S402:基于第一用户的用户活跃度值,判断预设时间段后第一用户是否成为 预定网络访问对象的流失用户;
[0174] 步骤S403:如果第一用户将成为流失用户,通过第一用户的终端向第一用户产生 第一推送信息。
[0175] 步骤S402中,举例来说,可W针对用户活跃度值设置一个预设阔值(例如:0.5、0.6 等等);然后判断计算出的用户活跃度值是否不小于该预设阔值,如果不小于该预设阔值, 则说明预设时间段之后,用户依然为活跃用户;如果小于该预设阔值,则说明预设时间段 后,该用户不再为活跃用户,而是成为流失用户,为了防止运些用户成为流失用户,则可W 针对运些用户产生第一推送信息,基于第一推送信息可W提高预定网络访问对象对对应用 户的吸引力,从而防止运些用户成为流失用户。
[0176] 在具体实施过程中,在通过第一用户的终端向第一用户产生第一推送信息之前, 可W通过多种方式确定出第一推送信息,下面列举其中的两种进行介绍,当然,在具体实施 过程中,不限于W下两种情况。
[0177] 产生第一推送信息的方式一:获取用户访问网络过程中的历史访问记录;基于历 史访问记录确定出用户的兴趣特征;基于用户的兴趣特征确定出第一推送信息。
[0178] 举例来说,用户访问网络过程中的历史访问记录可W为用户访问整个网络的历史 访问记录、也可W为用户基于预定网络访问对象访问网络所获得历史访问记录,另外,还可 W为其他方式获得的历史访问记录,本发明实施例不再详细列举,并且不作限制。
[0179] 可W收集预设时间段(例如:1周、半个月)内用户的历史访问记录,该历史访问记 录包括:网络捜索记录、网络点击记录、网络浏览记录等等,然后,从历史访问记录中提取出 用户访问网络所包含的关键词信息,并从关键词信息中获取排序位于前几位(例如:5位、10 位等等)的关键词作为该用户的兴趣特征。然后通过该兴趣特征在网络进行捜索获得对应 的捜索结果,并将对应的捜索结果作为第一推送信息提供给用户,又或者通过该兴趣特征 在该预定网络访问对象中进行捜索,获得预定网络访问对象中用户所感兴趣的内容提供给 用户。进而,提高预定网络访问对象对用户的吸引力,防止用户成为预定网络访问对象的流 失用户。
[0180] 确定第一推送信息的方式二:基于用户与其他用户的Μ种特征数据确定出与用户 的用户相似度值大于预设相似度值的推荐用户;确定推荐用户的兴趣特征;基于推荐用户 的兴趣特征确定出第一推送信息。
[0181] 在具体实施过程中,通过用户与其他用户的Μ种特征数据确定出与用户的相似度 值大于预设相似度值的推荐用户,包括:通过用户的Μ种特征数据确定出用户的用户向量; 通过其他用户的Μ种特征数据确定出其他用户的用户向量;通过当前用户的用户向量和其 他用户的用户向量确定出当前用户与对应用户的用户相似度值。
[0182] 其中,通过当前用户的用户向量与其他用户的用户向量确定出当前用户与对应用 户的用户相似度值时,又可W采用多种方式,下面列举其中的两种进行介绍,当然,在具体 实施例过程中,不限于W下两种情况。
[0183] 确定用户相似度值的方式①:计算当前用户的用户向量与对应用户的用户向量的 第一距离值;通过第一距离值确定出用户相似度值,第一距离值与用户相似度值呈反相关 关系。
[0184] 在具体实施过程中,可W计算当前用户的用户向量与对应用户的用户向量的多种 形式的第一距离值,下面列举其中的几种进行介绍,当然,在具体实施过程中,不限于W下 几种情况。
[01化]①欧几里得距离化uclidean Distance),其计算公式如下:
[0186] ·· · 占.*.:·. ·*.'* · ?·* β·'* *..·.* ·*· t
[0187] 其中,X表示当前用户的用户向量,Y表示对应用户的用户向量。
[0188] ②明可夫斯基距离(Minkowski Dis1:ance)
[0189] 其中,明氏距离是欧氏距离的推广,是对多个距离度量公式的概括性的表述。其计 算公式如下:
[0190]
[0191] 其中,X表示当前用户的用户向量,Υ表示对应用户的用户向量,运里的ρ值是一个 变量,当Ρ = 2的时候就得到了公式[引。
[0192] ③曼哈顿距离(Manhattan Dis1:ance)
[0193] 其中,曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结 果,即当上面的公式[4]中p = l时得到的距离度量公式,具体如下:
[0194] .........................................[5]
[0195] 其中,X表示当前用户的用户向量,Y表示对应用户的用户向量。
[0196] 其中,由于用户相似度值与第一距离值呈反向关关系,故而可W将第一距离值的 倒数,作为对应的用户相似度值;又或者,给该倒数乘上一个特定系数(该特定系数可W为 任意值,例如:10、20等等)之后作为对应的用户相似度值。
[0197] 确定用户相似度值的方式②:计算当前用户的用户向量与对应用户的用户向量的 第一相似度值;通过第一相似度值确定出用户相似度值,第一相似度值与用户相似度值呈 正相关关系。
[0198] 在具体实施过程中,可W计算当前用户的用户向量与对应用户的用户向量的多种 形式的第一相似度值,下面列举其中的几种进行介绍,当然,在具体实施过程中,不限于W 下几种情况。
[0199] ①余弦相似度(Cosine Similarity)
[0200] 余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大 小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。公 式如下:
[0201] ?…...............··...间
[0202] 其中,X表不当前用户的用户向量,Y表不对应用户的用户向量。[0203] ②皮尔森相关系数(Pearson Correlation Coefficient)[0204] 即相关分析中的相关系数r,分别对X和Υ基于自身总体标准化后计算空间向量的 余弦夹角,公式如下:
[0205] .......................[7]
[0206] 其中,X表示当前用户的用户向量,Υ表示对应用户的用户向量。
[0207] ③调整余弦相似度(Adjusted Cosine Similarity)
[0208] 虽然余弦相似度对个体间存在的偏见可W进行一定的修正,但是因为只能分辨个 体在维之间的差异,没法衡量每个维数值的差异,会导致运样一个情况:比如用户对内容评 分,5分制,X和Y两个用户对两个内容的评分分别为(1,2)和(4,5),使用余弦相似度得出的 结果是ο. 98,两者极为相似,但从评分上看X似乎不喜欢运2个内容,而化k较喜欢,余弦相似 度对数值的不敏感导致了结果的误差,需要修正运种不合理性,就出现了调整余弦相似度, 即所有维度上的数值都减去一个均值,比如X和Y的评分均值都是3,那么调整后为(-2,-1) 和(1,2),再用余弦相似度计算,得到-0.8,相似度为负值并且差异不小,但显然更加符合现 实。
[0209] 其中,由于用户相似度值与第一相似度值呈正向关关系,故而可W直接将第一相 似度作为用户相似度值,又或者将第一相似度值乘上一个特定系数(该特定系数可W为任 意值,例如:1〇、1〇〇等等)之后作为对应的用户相似度值。
[0210] 在确定出用户与各个其他用户的用户相似度值之后,可W判断用户与每个用户的 用户相似度值是否大于预设用户相似度值,如果大于预设用户相似度值,则确定对应用户 与当前用户为相似用户,两者有着相似的兴趣特征,进而可W将对应用户的兴趣特征作为 当前用户的兴趣特征,基于对应用
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1