一种用户行为时间相关性的确定方法及装置制造方法

文档序号：6628183阅读：154来源：国知局

一种用户行为时间相关性的确定方法及装置制造方法
【专利摘要】本发明实施例公开了一种用户行为时间相关性的确定方法及装置，确定N个用户，其中，所述N个用户中的任一用户均具有第一行为A和第二行为B；在设定数量的时间片内，利用流形学习机，通过图谱理论构造微分流形，分别对所述N个用户中每一用户行为进行学习，得到所述N个用户中每一用户对行为在时间上的学习结果序列；根据所述N个用户中任一用户对不同行为在时间上的学习结果序列、以及该用户的不同行为之间的时间差，利用行为时间相关性确定单元，确定该用户不同行为的时间相关性系数。应用本发明实施例，通过图谱理论构造微分流形，在数据降维的过程中，提高了对数据离群值响应的鲁棒性，减少计算的复杂性，并确定了用户不同行为的时间相关性。
【专利说明】一种用户行为时间相关性的确定方法及装置

【技术领域】
[0001] 本发明涉及互联网【技术领域】，特别涉及一种用户行为时间相关性的确定方法及装置。

【背景技术】
[0002] 随着互联网技术的发展，在互联网应用的过程中，通常需要对挖掘到的用户行为数据进行处理，以确定用户行为数据之间的相关性。例如：电子商务网站中，用户在线活跃度和用户的商业价值之间的相关性；在线教育网站中，学生的课堂表现、成绩和职业发展潜力之间的相关性。
[0003] 现有的用户行为数据相关性的确定方法是：通过统计学习的方法对挖掘到的用户行为数据之间的相关性进行数据处理，以确定用户行为数据的相关性。在确定用户行为数据之间的相关性过程中，通常采用主成分分析或多维尺度变换等线性降维方法，或采用等距映射或者局部线性嵌入等非线性降维方法对用户行为数据进行降维处理。
[0004] 但是，采用上述线性降维方法对用户行为数据进行降维处理，对数据离群值的响应鲁棒性较差；采用上述非线性降维方法对用户行为数据进行降维处理，计算的复杂性较高；并且利用统计学习的方法确定用户行为之间的相关性，忽视了用户行为在时间维度上的关系，因此不能确定用户不同行为的时间相关性。

【发明内容】

[0005] 本发明实施例的目的在于提供一种用户行为时间相关性的确定方法及装置，以在对用户行为数据降维的过程中，提高对数据离群值响应的鲁棒性，减少计算的复杂性，并确定用户不同行为的时间相关性。
[0006] 为达到上述目的，本发明实施例公开了一种用户行为时间相关性的确定方法，包括：
[0007] 确定N个用户，其中，N大于等于1，且所述N个用户中的任一用户均具有第一行为 A和第二行为B ;
[0008] 在设定数量的时间片内，利用第一流形学习机，通过图谱理论构造微分流形，分别对所述N个用户中每一用户的所述第一行为A进行学习，得到所述N个用户中每一用户对所述第一行为A在时间上的第一学习结果序列

【权利要求】
1. 一种用户行为时间相关性的确定方法，其特征在于，包括：确定N个用户，其中，N大于等于1，且所述N个用户中的任一用户均具有第一行为A和第二行为B; 在设定数量的时间片内，利用第一流形学习机，通过图谱理论构造微分流形，分别对所述N个用户中每一用户的所述第一行为A进行学习，得到所述N个用户中每一用户对所述第一行为A在时间上的第一学习结果序列，并利用第二流形学习机，通过图谱理论构造微分流形，分别对所述N个用户中每一用户的所述第二行为B进行学习，得到所述N个用户中每一用户对所述和对所述第二行为B在时间上的第二学习结果序列根据所述N个用户中的任一用户对所述第一行为A的第一学习结果序列、所述第二行为B的第二学习结果序列以及该用户的所述第一行为A和该用户的所述第二行为B之间的时间差，利用行为时间相关性确定单元，确定该用户所述第一行为A和该用户所述第二行为B的时间相关性系数。
2. 根据权利要求1所述的方法，其特征在于，在设定数量的时间片内，利用流形学习机，通过图谱理论构造微分流形，分别对用户中每一用户行为进行学习，得到所述N个用户中每一用户对行为在时间上的学习结果序列，包括：将所述N个用户的行为数据集输入到流形学习机，其中，Xi为用户行为数据的一组参数组成的向量，用户的行为数据集^包含带标记的用户行为数据子集 {xj=1和未带标记的用户行为数据子集{Xjf=l+1，其中，带标记的用户行为数据子集 :{xj=1的学习结果序列为：{木}丨=1; 在设定数量的时间片内，通过图谱理论构造微分流形，根据带标记的用户行为数据子集{xd=1的学习结果序列丨+；}^，得到未带标记的用户行为数据子集|^^^+1的学习结果序列，进而得到所述N个用户中每一用户对行为在时间上的学习结果序列。
3. 根据权利要求2所述的方法，其特征在于，所述在设定数量的时间片内，通过图谱理论构造微分流形，根据带标记的用户行为数据子集学习结果序列I[木}|=1，得到未带标记的用户行为数据子集:的学习结果序列，进而得到所述N个用户中每一用户对行为在时间上的学习结果序列，包括：利用所述N个用户的行为数据，构造具有N个数据节点加权无向图G，其中，定义图G中任意两个数据节点i和j是相连的，当且仅当其表示的数据Xi和Xj的距离满足条件：I IXi-XjI I<e，定义图G中边的权重函数Wij为一个高斯核函数，
，其中，e和〇2为图谱参数；生成Gram矩阵
计算图G的拉普拉斯矩阵L=T-W，其中，w=Iwd是权重矩阵，T是NXN对角阵，其中，T的第ii个元I
在图G中没有自环，即对所有的i有Wii =O的情况下，则对拉普拉斯矩阵L的第ij个元素，有
厶厶入A为正则化参数，Xz为本征正则化参数， F为通过学习过程要找到的最佳输入-输出关系函数使得d=F(X)，Ws(F)为经验代价函数，根据最小二乘法，得出
W。(F)为正则化项，定义1
D为线性微分算子，叫工（F)为流形正则化项，定义W1 (F) =fTLf，f= [F(X1)，F(x2)，...，F(xN) ]T; 根据广义表示定理，最小化代价函数的最优解满足形式：
，将构造的代价函数W(F)表示为矩阵形式：
其中， d为预期响应向量，d= [Clpd2,...，+，0，...，0]、J为NxN对角阵，对角阵J的对角线的 1 个单位项J=diag[l，1，? ? ? 1，0, ? ? ? 0]; 对所述W(a)表达式中的向量a进行微分计算，求解出最小值对应的a%a# = (JK+入AI+入弘广抑，进而得到最优逼近函f
根据最优逼近函数，计算得到d=F(X)，对于任意dm，均有：
，进而得到所述N个用户中每一用户对行为的学习结果序列均为：，进而得到所述N个用户中每一用户对所述第一行为A的学习结果序列和对所述第二行为B的学习结果序列。
4.根据权利要求3所述的方法，其特征在于，所述根据所述N个用户中的任一用户对所述第一行为A的第一学习结果序列、所述第二行为B的第二学习结果序列以及该用户的所述第一行为A和该用户的所述第二行为B之间的时间差，利用行为时间相关性确定单元，确定该用户所述第一行为A和该用户所述第二行为B的时间相关性系数，包括：所述行为时间相关性确定单元，对于所述N个用户中的第i个用户，该用户对所述第一行为A的学习结果序列为：对所述第二行为B的学习结果序列为：df其中，t= 1,2,3,……，df(t)和df⑴是联合宽平稳随机过程，其时间平均分别为^和Ub，标准差分别为O4和OB ; 计算该用户所述第一行为A和该用户所述第二行为B的时间相关性系数：
其中，T为该用户所述第一行为A和所述第二行为 B之间的时间差。
5. -种用户行为时间相关性的确定装置，其特征在于，包括：用户确定单元、第一流形学习机、第二流形学习机和行为时间相关性确定单元，其中，所述用户确定单元，用于确定N个用户，其中，N大于等于1，且所述N个用户中的任一用户均具有第一行为A和第二行为B; 所述第一流形学习机，用于在设定数量的时间片内，通过图谱理论构造微分流形，分别对所述N个用户中每一用户的所述第一行为A进行学习，得到所述N个用户中每一用户对所述第一行为A在时间上的第一学习结果序列所述第二流形学习机，用于在设定数量的时间片内，通过图谱理论构造微分流形，分别对所述N个用户中每一用户的所述第二行为B进行学习，得到所述N个用户中每一用户对所述第二行为B在时间上的第二学习结果序列所述行为时间相关性确定单元，用于根据所述N个用户中的任一用户对所述第一行为A的第一学习结果序列、所述第二行为B的第二学习结果序列以及该用户的所述第一行为A 和该用户的所述第二行为B之间的时间差，确定该用户所述第一行为A和该用户所述第二行为B的时间相关性系数。
6. 根据权利要求5所述的装置，其特征在于，所述第一流形学习机包括：第一学习输入子单元和第一学习输出子单元，其中，所述第一学习输入子单元，用于接收所述N个用户的第一行为A数据集jf=1，其中，Xi为用户第一行为A数据的一组参数组成的向量，用户的第一行为A数据集包含带标记的用户第一行为A数据子集和未带标记的用户第一行为A数据子集{xf}f=;.+1，其中，带标记的用户第一行为A数据子集丨的学习结果序列为： IdfYi=^ 所述第一学习输出子单元，用于在设定数量的时间片内，通过图谱理论构造微分流形，根据带标记的用户第一行为A数据子集的学习结果序列Idf^=1，得到未带标记的用户第一行为A数据子集{xf}t;+1的学习结果序列；所述第二流形学习机包括：第二学习输入子单元和第二学习输出子单元，其中，所述第二学习输入子单元，用于接收所述N个用户的第二行为B数据集，其中，Xi为用户第二行为B数据的一组参数组成的向量，用户的第二行为B数据集{xflf=i 包含带标记的用户第二行为B数据子集〇cf^=1和未带标记的用户第二行为B数据子集伏，其中，带标记的用户第二行为B数据子集卩fU=1的学习结果序列为：所述第二学习输出子单元，用于在设定数量的时间片内，通过图谱理论构造微分流形，根据带标记的用户第二行为B数据子集的学习结果序列fdfU=1，得到未带标记的用户第二行为B数据子集{xf}f=;+1的学习结果序列。
7. 根据权利要求6所述的装置，其特征在于，所述第一学习输出子单元，具体用于：利用所述N个用户的行为数据，构造具有N个数据节点加权无向图G，其中，定义图G中任意两个数据节点i和j是相连的，当且仅当其表示的数据Xi和Xj的距离满足条件：IIXi-XjII<e，定义图G中边的权重函数Wij为一个高斯核函数，
|，其中，e和〇2为图谱参数；生成Gram矩阵K= 计算图G的拉普拉斯矩阵L=T-W，其中，w=Iwd是权重矩阵，T是NXN对角阵，其中，T的第ii个元素k= ，在图G中没有自环，即对所有的i有Wii = 0的情况下，则对拉普拉斯矩阵L的第ij个元素,有
入A为正则化参数，Xz为本征正则化参数， F为通过学习过程要找到的最佳输入-输出关系函数使得d=F(X)，Ws(F)为经验代价函数，根据最小二乘法，得出
We(F)为正则化项，定J
D为线性微分算子，叫工（F)为流形正则化项，定义W1 (F) =fTLf，f= [F(X1)，F(x2)，...，F(xN) ]T; 根据广义表示定理，最小化代价函数的最优解满足形式：
,将构造的代价函数W(F)表示为矩阵形式： _
^ ^ >其中， d为预期响应向量，d=[屯，d2, . . .，d，，. . .，0]、J为NXN对角阵，对角阵J的对角线的 1 个单位项J=diag[l，1，? ? ? 1，0, ? ? ? 0]; 对所述W(a)表达式中的向量a进行微分计算，求解出最小值对应的a%a# = (JK+入AI+入山1(广/(1，进而得到最优逼近函数
根据最优逼近函数，计算得到d=F(X)，对于任意dm，均有：
，进而得到所述N个用户中每一用户对第一行为A的学习结果序列均为所述第二学习输出子单元，与所述第一学习输出子单元功能相同，用于：得到所述N个用户中每一用户对第二行为B的学习结果序列均为<df>f=1。
8. 根据权利要求7所述的装置，其特征在于，所述行为时间相关性确定单元，具体用于：对于所述N个用户中的第i个用户，该用户对所述第一行为A的学习结果序列为：df(t)，对所述第二行为B的学习结果序列为：df(t)，其中，t= 1，2,3，……，df(t)和是联合宽平稳随机过程，其时间平均分别为1^和Ub，标准差分别为〇&和〇B; 计算该用户所述第一行为A和该用户所述第二行为B的时间相关性系数：
，其中， T为该用户所述第一行为A和所述第二行为B之间的时间差。
【文档编号】G06F17/30GK104268217SQ201410495331
【公开日】2015年1月7日申请日期:2014年9月25日优先权日:2014年9月25日
【发明者】张文铸申请人:张文铸

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张文铸
技术所有人：张文铸
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。