一种用户行为时间相关性的确定方法及装置制造方法

文档序号:6628183阅读:154来源:国知局
一种用户行为时间相关性的确定方法及装置制造方法
【专利摘要】本发明实施例公开了一种用户行为时间相关性的确定方法及装置,确定N个用户,其中,所述N个用户中的任一用户均具有第一行为A和第二行为B;在设定数量的时间片内,利用流形学习机,通过图谱理论构造微分流形,分别对所述N个用户中每一用户行为进行学习,得到所述N个用户中每一用户对行为在时间上的学习结果序列;根据所述N个用户中任一用户对不同行为在时间上的学习结果序列、以及该用户的不同行为之间的时间差,利用行为时间相关性确定单元,确定该用户不同行为的时间相关性系数。应用本发明实施例,通过图谱理论构造微分流形,在数据降维的过程中,提高了对数据离群值响应的鲁棒性,减少计算的复杂性,并确定了用户不同行为的时间相关性。
【专利说明】一种用户行为时间相关性的确定方法及装置

【技术领域】
[0001] 本发明涉及互联网【技术领域】,特别涉及一种用户行为时间相关性的确定方法及装 置。

【背景技术】
[0002] 随着互联网技术的发展,在互联网应用的过程中,通常需要对挖掘到的用户行为 数据进行处理,以确定用户行为数据之间的相关性。例如:电子商务网站中,用户在线活跃 度和用户的商业价值之间的相关性;在线教育网站中,学生的课堂表现、成绩和职业发展潜 力之间的相关性。
[0003] 现有的用户行为数据相关性的确定方法是:通过统计学习的方法对挖掘到的用户 行为数据之间的相关性进行数据处理,以确定用户行为数据的相关性。在确定用户行为数 据之间的相关性过程中,通常采用主成分分析或多维尺度变换等线性降维方法,或采用等 距映射或者局部线性嵌入等非线性降维方法对用户行为数据进行降维处理。
[0004] 但是,采用上述线性降维方法对用户行为数据进行降维处理,对数据离群值的响 应鲁棒性较差;采用上述非线性降维方法对用户行为数据进行降维处理,计算的复杂性较 高;并且利用统计学习的方法确定用户行为之间的相关性,忽视了用户行为在时间维度上 的关系,因此不能确定用户不同行为的时间相关性。


【发明内容】

[0005] 本发明实施例的目的在于提供一种用户行为时间相关性的确定方法及装置,以在 对用户行为数据降维的过程中,提高对数据离群值响应的鲁棒性,减少计算的复杂性,并确 定用户不同行为的时间相关性。
[0006] 为达到上述目的,本发明实施例公开了一种用户行为时间相关性的确定方法,包 括:
[0007] 确定N个用户,其中,N大于等于1,且所述N个用户中的任一用户均具有第一行为 A和第二行为B ;
[0008] 在设定数量的时间片内,利用第一流形学习机,通过图谱理论构造微分流形,分别 对所述N个用户中每一用户的所述第一行为A进行学习,得到所述N个用户中每一用户对 所述第一行为A在时间上的第一学习结果序列

【权利要求】
1. 一种用户行为时间相关性的确定方法,其特征在于,包括: 确定N个用户,其中,N大于等于1,且所述N个用户中的任一用户均具有第一行为A和 第二行为B; 在设定数量的时间片内,利用第一流形学习机,通过图谱理论构造微分流形,分别对所 述N个用户中每一用户的所述第一行为A进行学习,得到所述N个用户中每一用户对所述 第一行为A在时间上的第一学习结果序列,并利用第二流形学习机,通过图谱理论 构造微分流形,分别对所述N个用户中每一用户的所述第二行为B进行学习,得到所述N个 用户中每一用户对所述和对所述第二行为B在时间上的第二学习结果序列 根据所述N个用户中的任一用户对所述第一行为A的第一学习结果序列、所述第二行 为B的第二学习结果序列以及该用户的所述第一行为A和该用户的所述第二行为B之间的 时间差,利用行为时间相关性确定单元,确定该用户所述第一行为A和该用户所述第二行 为B的时间相关性系数。
2. 根据权利要求1所述的方法,其特征在于,在设定数量的时间片内,利用流形学习 机,通过图谱理论构造微分流形,分别对用户中每一用户行为进行学习,得到所述N个用户 中每一用户对行为在时间上的学习结果序列,包括: 将所述N个用户的行为数据集输入到流形学习机,其中,Xi为用户行为数 据的一组参数组成的向量,用户的行为数据集^包含带标记的用户行为数据子集 {xj=1和未带标记的用户行为数据子集{Xjf=l+1,其中,带标记的用户行为数据子集 :{xj=1的学习结果序列为:{木}丨=1; 在设定数量的时间片内,通过图谱理论构造微分流形,根据带标记的用户行为数据子 集{xd=1的学习结果序列丨+;}^,得到未带标记的用户行为数据子集|^^^+1的学习结 果序列,进而得到所述N个用户中每一用户对行为在时间上的学习结果序列。
3. 根据权利要求2所述的方法,其特征在于,所述在设定数量的时间片内,通过图谱理 论构造微分流形,根据带标记的用户行为数据子集学习结果序列I[木}|=1,得到 未带标记的用户行为数据子集:的学习结果序列,进而得到所述N个用户中每一用 户对行为在时间上的学习结果序列,包括: 利用所述N个用户的行为数据,构造具有N个数据节点加权无向图G,其中, 定义图G中任意两个数据节点i和j是相连的,当且仅当其表示的数据Xi和Xj的 距离满足条件:I IXi-XjI I<e,定义图G中边的权重函数Wij为一个高斯核函数,
,其中,e和〇2为图谱参数; 生成Gram矩阵
计算图G的拉普拉斯矩阵L=T-W,其中,w=Iwd是权重矩阵,T是NXN对角阵,其 中,T的第ii个元I
在图G中没有自环,即对所有的i有Wii =O的情况下,则对拉普拉斯矩阵L的第ij个 元素,有
厶 厶 入A为正则化参数,Xz为本征正则化参数, F为通过学习过程要找到的最佳输入-输出关系函数使得d=F(X),Ws(F)为经验代 价函数,根据最小二乘法,得出
W。(F)为正则化项,定义1
D为线性微分算子, 叫工(F)为流形正则化项,定义W1 (F) =fTLf,f= [F(X1),F(x2),...,F(xN) ]T; 根据广义表示定理,最小化代价函数的最优解满足形式:
,将构造的代价函数W(F)表示为矩阵形式:
其中, d为预期响应向量,d= [Clpd2,...,+,0,...,0]、J为NxN对角阵,对角阵J的对角线 的 1 个单位项J=diag[l,1,? ? ? 1,0, ? ? ? 0]; 对所述W(a)表达式中的向量a进行微分计算,求解出最小值对应的a%a# = (JK+入AI+入弘广抑,进而得到最优逼近函f
根据最优逼近函数,计算得到d=F(X),对于任意dm,均有:
,进而得到所述N个用户中每一 用户对行为的学习结果序列均为:,进而得到所述N个用户中每一用户对所述第一 行为A的学习结果序列和对所述第二行为B的学习结果序列。
4.根据权利要求3所述的方法,其特征在于,所述根据所述N个用户中的任一用户对所 述第一行为A的第一学习结果序列、所述第二行为B的第二学习结果序列以及该用户的所 述第一行为A和该用户的所述第二行为B之间的时间差,利用行为时间相关性确定单元,确 定该用户所述第一行为A和该用户所述第二行为B的时间相关性系数,包括: 所述行为时间相关性确定单元,对于所述N个用户中的第i个用户,该用户对所述第一 行为A的学习结果序列为:对所述第二行为B的学习结果序列为:df其中,t= 1,2,3,……,df(t)和df⑴是联合宽平稳随机过程,其时间平均分别为^和Ub,标准差 分别为O4和OB ; 计算该用户所述第一行为A和该用户所述第二行为B的时间相关性系数:
其中,T为该用户所述第一行为A和所述第二行为 B之间的时间差。
5. -种用户行为时间相关性的确定装置,其特征在于,包括:用户确定单元、第一流形 学习机、第二流形学习机和行为时间相关性确定单元,其中, 所述用户确定单元,用于确定N个用户,其中,N大于等于1,且所述N个用户中的任一 用户均具有第一行为A和第二行为B; 所述第一流形学习机,用于在设定数量的时间片内,通过图谱理论构造微分流形,分别 对所述N个用户中每一用户的所述第一行为A进行学习,得到所述N个用户中每一用户对 所述第一行为A在时间上的第一学习结果序列 所述第二流形学习机,用于在设定数量的时间片内,通过图谱理论构造微分流形,分别 对所述N个用户中每一用户的所述第二行为B进行学习,得到所述N个用户中每一用户对 所述第二行为B在时间上的第二学习结果序列 所述行为时间相关性确定单元,用于根据所述N个用户中的任一用户对所述第一行为A的第一学习结果序列、所述第二行为B的第二学习结果序列以及该用户的所述第一行为A 和该用户的所述第二行为B之间的时间差,确定该用户所述第一行为A和该用户所述第二 行为B的时间相关性系数。
6. 根据权利要求5所述的装置,其特征在于,所述第一流形学习机包括:第一学习输入 子单元和第一学习输出子单元,其中, 所述第一学习输入子单元,用于接收所述N个用户的第一行为A数据集jf=1,其 中,Xi为用户第一行为A数据的一组参数组成的向量,用户的第一行为A数据集 包含带标记的用户第一行为A数据子集和未带标记的用户第一行为A数据子 集{xf}f=;.+1,其中,带标记的用户第一行为A数据子集丨的学习结果序列为: IdfYi=^ 所述第一学习输出子单元,用于在设定数量的时间片内,通过图谱理论构造微分流形, 根据带标记的用户第一行为A数据子集的学习结果序列Idf^=1,得到未带标记的 用户第一行为A数据子集{xf}t;+1的学习结果序列; 所述第二流形学习机包括:第二学习输入子单元和第二学习输出子单元,其中, 所述第二学习输入子单元,用于接收所述N个用户的第二行为B数据集,其 中,Xi为用户第二行为B数据的一组参数组成的向量,用户的第二行为B数据集{xflf=i 包含带标记的用户第二行为B数据子集〇cf^=1和未带标记的用户第二行为B数据子 集伏,其中,带标记的用户第二行为B数据子集卩fU=1的学习结果序列为: 所述第二学习输出子单元,用于在设定数量的时间片内,通过图谱理论构造微分流形, 根据带标记的用户第二行为B数据子集的学习结果序列fdfU=1,得到未带标记的 用户第二行为B数据子集{xf}f=;+1的学习结果序列。
7. 根据权利要求6所述的装置,其特征在于,所述第一学习输出子单元,具体用于: 利用所述N个用户的行为数据,构造具有N个数据节点加权无向图G,其中, 定义图G中任意两个数据节点i和j是相连的,当且仅当其表示的数据Xi和Xj的 距离满足条件:IIXi-XjII<e,定义图G中边的权重函数Wij为一个高斯核函数,
|,其中,e和〇2为图谱参数; 生成Gram矩阵K= 计算图G的拉普拉斯矩阵L=T-W,其中,w=Iwd是权重矩阵,T是NXN对角阵,其 中,T的第ii个元素k= , 在图G中没有自环,即对所有的i有Wii = 0的情况下,则对拉普拉斯矩阵L的第ij个 元素,有
入A为正则化参数,Xz为本征正则化参数, F为通过学习过程要找到的最佳输入-输出关系函数使得d=F(X),Ws(F)为经验代 价函数,根据最小二乘法,得出
We(F)为正则化项,定J
D为线性微分算子, 叫工(F)为流形正则化项,定义W1 (F) =fTLf,f= [F(X1),F(x2),...,F(xN) ]T; 根据广义表示定理,最小化代价函数的最优解满足形式:
,将构造的代价函数W(F)表示为矩阵形式: _
^ ^ >其中, d为预期响应向量,d=[屯,d2, . . .,d,,. . .,0]、J为NXN对角阵,对角阵J的对角 线的 1 个单位项J=diag[l,1,? ? ? 1,0, ? ? ? 0]; 对所述W(a)表达式中的向量a进行微分计算,求解出最小值对应的a%a# = (JK+入AI+入山1(广/(1,进而得到最优逼近函数
根据最优逼近函数,计算得到d=F(X),对于任意dm,均有:
,进而得到所述N个用户中每一 用户对第一行为A的学习结果序列均为 所述第二学习输出子单元,与所述第一学习输出子单元功能相同,用于: 得到所述N个用户中每一用户对第二行为B的学习结果序列均为<df>f=1。
8. 根据权利要求7所述的装置,其特征在于,所述行为时间相关性确定单元,具体用 于: 对于所述N个用户中的第i个用户,该用户对所述第一行为A的学习结果序列为:df(t),对所述第二行为B的学习结果序列为:df(t),其中,t= 1,2,3,……,df(t)和 是联合宽平稳随机过程,其时间平均分别为1^和Ub,标准差分别为〇&和〇B; 计算该用户所述第一行为A和该用户所述第二行为B的时间相关性系数:
,其中, T为该用户所述第一行为A和所述第二行为B之间的时间差。
【文档编号】G06F17/30GK104268217SQ201410495331
【公开日】2015年1月7日 申请日期:2014年9月25日 优先权日:2014年9月25日
【发明者】张文铸 申请人:张文铸
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1