基于主成分分析的用户房间兴趣度计算方法及系统与流程

文档序号:11865749阅读:340来源:国知局

本发明涉及直播平台用户数据分析领域,具体是涉及一种基于主成分分析的用户房间兴趣度计算方法及系统。



背景技术:

用户在使用直播平台时,通常会进入大量不同的房间观看直播。同一个用户在不同房间时,产生的行为不一样,观看的时间长短、观看的频率、是否有赠送信息,都反映该用户对房间的兴趣度。为了能够准确地判断用户的喜好,向其推荐可能感兴趣的房间,增加用户体验,需要获得用户对房间的兴趣度。但是,如何确定用户对房间的兴趣度,目前缺乏有效的计算方法。



技术实现要素:

本发明的目的是为了克服上述背景技术的不足,提供一种基于主成分分析的用户房间兴趣度计算方法及系统,本发明有助于准确判断用户的喜好,有助于向用户准确推荐可能感兴趣的房间,增加用户体验。

本发明提供一种基于主成分分析的用户房间兴趣度计算方法,包括以下步骤:

S1、根据用户对房间的行为信息,提取多个行为指标,并对所述行为指标进行分析,对相关系数绝对值大于相关阈值的行为指标进行相互替代,筛选出n个具有代表性的行为指标作为主要评估指标,n为≥3的正整数,构建兴趣度计算指标体系;

S2、获取一定时间段内多个用户所产生的房间行为信息,构建初始化矩阵X,对初始化矩阵X进行标准化处理,得到标准化矩阵Z;计算标准化矩阵Z的相关系数矩阵R,并计算相关系数矩阵R对应的特征值λ;将特征值λ由大到小排列,得到λ1、λ2、……、λn,对应的特征向量为e1、e2、……、en,特征向量e满足|e|=1,每个特征值对应一个主成分,每个特征向量包含n个元素;

S3、计算每个主成分的方差贡献率v,va=λa/(λ12+……+λn),a为正整数,1≤a≤n,va表示第a个主成分的方差贡献率,λa表示第a个主成分对应的特征值;计算主成分的累计方差贡献率,第a个主成分的累计方差贡献率=第1个主成分的方差贡献率至第(a-1)个主成分的方差贡献率之和;

S4、按照特征值大于1,累计方差贡献率大于指定阈值的原则,提取满足条件的特征值个数,作为最终选择的主成分个数;如果满足条件的特征值个数为b,选择b个主成分,λ1,λ2,……,λb为b个主成分分别对应的特征值,其分别对应的特征向量e1,e2,……,eb为b个主成分的特征向量,特征向量和标准化后的数据相乘,得到主成分的线性表达式;

S5、以主成分的方差贡献率为权重,对主要评估指标在各个主成分线性表达式中的系数进行加权平均,计算每个主要评估指标的综合权重;将所有n个主要评估指标的综合权重进行归一化,得到每个主要评估指标的权重值w′,w′j=第j个主要评估指标的综合权重/所有主要评估指标的综合权重之和,根据获得的权重值,进行加权计算,得到每个用户对不同房间的兴趣度得分。

在上述技术方案的基础上,步骤S2中,所述对初始化矩阵X进行标准化处理的过程如下:

初始化矩阵X中的元素包括xij、xj,xij表示第i个用户第j个行为指标的数据情况,xj表示第j个行为指标的数据情况,i、j均为正整数,1≤j≤n;采用最大值函数max和最小值函数min对初始化矩阵X进行标准化处理,具体公式为:zij=(xij-min(xj))/(max(xj)-min(xj)),其中,zij表示标准化矩阵Z中的一个元素。

在上述技术方案的基础上,步骤S4中,所述主成分的线性表达式如下:

Yc=ec1*Z1+ec2*Z2+……+ecn*Zn

其中,c为正整数,1≤c≤b,Yc表示第c个主成分,ec1为第1个指标在第c个主成分线性表达式中的系数,表示第c个特征向量中的第1个元素,ecn为第n个指标在第c个主成分线性表达式中的系数,表示第c个特征向量中的第n个元素,Z1表示第1个指标经过标准化处理后的值,Zn表示第n个指标经过标准化处理后的值。

在上述技术方案的基础上,步骤S5中,所述计算综合权重的公式如下:

wj=v1*e1j/(v1+v2……+vb)+v2*e2j/(v1+v2……+vb)+……+vb*ebj/(v1+v2……+vb),

其中,wj表示第j个主要评估指标的综合权重,v1表示第1个主成分的方差贡献率,vb表示第b个主成分的方差贡献率。

在上述技术方案的基础上,步骤S5中,所述兴趣度得分的计算公式如下:

S=w′1*Z1+w′2*Z2+……+w′n*Zn,其中,S表示兴趣度得分,w1表示第1个指标的权重值,Z1表示第1个指标经过标准化处理后的值,wn表示第n个指标的权重值,Zn表示第n个指标经过标准化处理后的值。

本发明还提供一种基于主成分分析的用户房间兴趣度计算系统,该系统包括:体系构建单元、主成分分析单元、权重分析单元,其中,

所述体系构建单元用于:根据用户对房间的行为信息,提取多个行为指标,并对所述行为指标进行分析,对相关系数绝对值大于相关阈值的行为指标进行相互替代,筛选出n个具有代表性的行为指标作为主要评估指标,n为≥3的正整数,构建兴趣度计算指标体系;

所述主成分分析单元用于:获取一定时间段内多个用户所产生的房间行为信息,构建初始化矩阵X,对初始化矩阵X进行标准化处理,得到标准化矩阵Z;计算标准化矩阵Z的相关系数矩阵R,并计算相关系数矩阵R对应的特征值λ;将特征值λ由大到小排列,得到λ1、λ2、……、λn,对应的特征向量为e1、e2、……、en,特征向量e满足|e|=1,每个特征值对应一个主成分,每个特征向量包含n个元素;

计算每个主成分的方差贡献率v,va=λa/(λ12+……+λn),a为正整数,1≤a≤n,va表示第a个主成分的方差贡献率,λa表示第a个主成分对应的特征值;计算主成分的累计方差贡献率,第a个主成分的累计方差贡献率=第1个主成分的方差贡献率至第(a-1)个主成分的方差贡献率之和;

按照特征值大于1,累计方差贡献率大于指定阈值的原则,提取满足条件的特征值个数,作为最终选择的主成分个数;如果满足条件的特征值个数为b,选择b个主成分,λ1,λ2,……,λb为b个主成分分别对应的特征值,其分别对应的特征向量e1,e2,……,eb为b个主成分的特征向量,特征向量和标准化后的数据相乘,得到主成分的线性表达式;

所述权重分析单元用于:以主成分的方差贡献率为权重,对主要评估指标在各个主成分线性表达式中的系数进行加权平均,计算每个主要评估指标的综合权重;将所有n个主要评估指标的综合权重进行归一化,得到每个主要评估指标的权重值w′,w′j=第j个主要评估指标的综合权重/所有主要评估指标的综合权重之和,根据获得的权重值,进行加权计算,得到每个用户对不同房间的兴趣度得分。

在上述技术方案的基础上,所述对初始化矩阵X进行标准化处理的过程如下:

初始化矩阵X中的元素包括xij、xj,xij表示第i个用户第j个行为指标的数据情况,xj表示第j个行为指标的数据情况,i、j均为正整数,1≤j≤n;采用最大值函数max和最小值函数min对初始化矩阵X进行标准化处理,具体公式为:zij=(xij-min(xj))/(max(xj)-min(xj)),其中,zij表示标准化矩阵Z中的一个元素。

在上述技术方案的基础上,所述主成分的线性表达式如下:

Yc=ec1*Z1+ec2*Z2+……+ecn*Zn

其中,c为正整数,1≤c≤b,Yc表示第c个主成分,ec1为第1个指标在第c个主成分线性表达式中的系数,表示第c个特征向量中的第1个元素,ecn为第n个指标在第c个主成分线性表达式中的系数,表示第c个特征向量中的第n个元素,Z1表示第1个指标经过标准化处理后的值,Zn表示第n个指标经过标准化处理后的值。

在上述技术方案的基础上,所述计算综合权重的公式如下:

wj=v1*e1j/(v1+v2……+vb)+v2*e2j/(v1+v2……+vb)+……+vb*ebj/(v1+v2……+vb),

其中,wj表示第j个主要评估指标的综合权重,v1表示第1个主成分的方差贡献率,vb表示第b个主成分的方差贡献率。

在上述技术方案的基础上,所述兴趣度得分的计算公式如下:

S=w′1*Z1+w′2*Z2+……+w′n*Zn,其中,S表示兴趣度得分,w1表示第1个指标的权重值,Z1表示第1个指标经过标准化处理后的值,wn表示第n个指标的权重值,Zn表示第n个指标经过标准化处理后的值。

与现有技术相比,本发明的优点如下:

本发明通过分析用户对房间产生不同的行为,构建指标评价体系,并确定评估指标的权重,定量衡量用户对房间的兴趣度,有助于准确判断用户的喜好;使用该兴趣度得分,能够得到用户对观看过的房间进行兴趣排名,有助于向用户准确推荐可能感兴趣的房间,增加用户体验。

附图说明

图1是本发明实施例中用户房间兴趣度计算方法的流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述。

参见图1所示,本发明实施例提供一种基于主成分分析的用户房间兴趣度计算方法,包括以下步骤:

S1、根据用户对房间的行为信息,提取多个行为指标,并对行为指标进行分析,对相关系数绝对值大于相关阈值的行为指标进行相互替代,筛选出n个具有代表性的行为指标作为主要评估指标,构建兴趣度计算指标体系;实际应用中,相关阈值一般大于0.7,优选为0.8,n一般为≥3的正整数;

步骤S1的具体过程如下:

根据用户对房间的行为信息,构建一级指标,一级指标包括赠送行为、观看行为、关注行为,弹幕行为;对一级指标进行细分,细化用户对房间的行为信息指标,得到最初评估指标,例如,“观看行为”这个一级指标下,包括有效观看时长、有效观看天数这两个最初评估指标;对最初评估指标进行相关分析,对相关系数绝对值大于0.8的高相关指标进行相互替代,筛选出n个具有代表性的行为指标作为主要评估指标,确定兴趣度计算指标体系;

本实施例中,通过上述的分析,得出n=6,表示主要评估指标有6个,6个主要评估指标分别为:有效观看时长、有效观看天数、发送弹幕数、免费礼物数、付费礼物数、是否关注。

S2、获取近一周时间内多个用户所产生的房间行为信息,构建初始化矩阵X,对初始化矩阵X进行标准化处理,得到标准化矩阵Z,对初始化矩阵X进行标准化处理的过程如下:

初始化矩阵X中的元素包括xij、xj,xij表示第i个用户第j个行为指标的数据情况,xj表示第j个行为指标的数据情况,i、j均为正整数,1≤j≤n;采用最大值函数max和最小值函数min对初始化矩阵X进行标准化处理,具体公式为:zij=(xij-min(xj))/(max(xj)-min(xj)),其中,zij表示标准化矩阵Z中的一个元素;

计算标准化矩阵Z的相关系数矩阵R,并计算相关系数矩阵R对应的特征值λ;将特征值λ由大到小排列,得到λ1、λ2、……、λ6,对应的特征向量为e1、e2、……、e6,特征向量e满足|e|=1,每个特征值对应一个主成分,每个特征向量包含6个元素,例如,向量e1包括e12、e12、e13、……、e16

S3、计算每个主成分的方差贡献率v,va=λa/(λ12+……+λ6),a为正整数,1≤a≤n,va表示第a个主成分的方差贡献率,λa表示第a个主成分对应的特征值;计算主成分的累计方差贡献率,第a个主成分的累计方差贡献率=第1个主成分的方差贡献率至第(a-1)个主成分的方差贡献率之和;例如,第二主成分的累计方差贡献率为:第一主成分的方差贡献率+第二主成分的方差贡献率;

S4、按照特征值大于1,累计方差贡献率大于指定阈值的原则,提取满足条件的特征值个数,作为最终选择的主成分个数;实际应用中,指定阈值=3,本发明按照上述规则,最终提取3个主成分,λ1,λ2,λ3为3个主成分分别对应的特征值,其分别对应的特征向量e1,e2,e3为3个主成分的特征向量,特征向量和标准化后的数据相乘,得到主成分的线性表达式,如:

Y1=e11*Z1+e12*Z2+……+e16*Z6

Y2=e21*Z1+e22*Z2+……+e26*Z6

Y3=e31*Z1+e32*Z2+……+e36*Z6

其中,Y1表示第1个主成分,e11为第1个指标在第1个主成分线性表达式中的系数,表示特征向量e1中的第1个元素,e16为第6个指标在第1个主成分线性表达式中的系数,表示特征向量e1中的第6个元素,Z1表示第1个指标经过标准化处理后的值,以此类推。

S5、主成分的方差贡献率越大,表示该主成分的重要性越强,将方差贡献率定义为不同主成分的权重;以主成分的方差贡献率为权重,对主要评估指标在各个主成分线性表达式中的系数进行加权平均,计算每个主要评估指标的综合权重;计算公式如下:

w1=v1*e11/(v1+v2+v3)+v2*e21/(v1+v2+v3)+v3*e31/(v1+v2+v3);

w2=v2*e12/(v1+v2+v3)+v2*e22/(v1+v2+v3)+v3*e32/(v1+v2+v3);

……;

w6=v1*e16/(v1+v2+v3)+v2*e26/(v1+v2+v3)+v3*e36/(v1+v2+v3);

w1表示第1个主要评估指标的综合权重,以此类推,可得到各个主要评估指标对应的综合权重;

将所有6个主要评估指标的综合权重进行归一化,得到每个主要评估指标的权重值w′,w′j=第j个主要评估指标的综合权重/所有主要评估指标的综合权重之和,根据获得的权重值,进行加权计算,得到每个用户对不同房间的兴趣度得分,兴趣度得分的计算公式如下:

S=w′1*Z1+w′2*Z2+……+w′6*Z6,其中,S表示兴趣度得分。

本发明实施例还提供一种基于主成分分析的用户房间兴趣度计算系统,该系统包括:体系构建单元、主成分分析单元、权重分析单元,其中,

体系构建单元用于:根据用户对房间的行为信息,提取多个行为指标,并对行为指标进行分析,对相关系数绝对值大于相关阈值的行为指标进行相互替代,筛选出n个具有代表性的行为指标作为主要评估指标,构建兴趣度计算指标体系;实际应用中,相关阈值一般大于0.7,优选为0.8,n一般为≥3的正整数;

具体过程如下:

根据用户对房间的行为信息,构建一级指标,一级指标包括赠送行为、观看行为、关注行为,弹幕行为;对一级指标进行细分,细化用户对房间的行为信息指标,得到最初评估指标,例如,“观看行为”这个一级指标下,包括有效观看时长、有效观看天数这两个最初评估指标;对最初评估指标进行相关分析,对相关系数绝对值大于0.8的高相关指标进行相互替代,筛选出n个具有代表性的行为指标作为主要评估指标,确定兴趣度计算指标体系;本实施例中,通过上述的分析,得出n=6,表示主要评估指标有6个,6个主要评估指标分别为:有效观看时长、有效观看天数、发送弹幕数、免费礼物数、付费礼物数、是否关注。

主成分分析单元用于:获取近一周时间内多个用户所产生的房间行为信息,构建初始化矩阵X,对初始化矩阵X进行标准化处理,得到标准化矩阵Z,对初始化矩阵X进行标准化处理的过程如下:

初始化矩阵X中的元素包括xij、xj,xij表示第i个用户第j个行为指标的数据情况,xj表示第j个行为指标的数据情况,i、j均为正整数,1≤j≤n;采用最大值函数max和最小值函数min对初始化矩阵X进行标准化处理,具体公式为:zij=(xij-min(xj))/(max(xj)-min(xj)),其中,zij表示标准化矩阵Z中的一个元素;

计算标准化矩阵Z的相关系数矩阵R,并计算相关系数矩阵R对应的特征值λ;将特征值λ由大到小排列,得到λ1、λ2、……、λ6,对应的特征向量为e1、e2、……、e6,特征向量e满足|e|=1,每个特征值对应一个主成分,每个特征向量包含6个元素,例如,向量e1包括e12、e12、e13、……、e16

计算每个主成分的方差贡献率v,va=λa/(λ12+……+λ6),a为正整数,1≤a≤n,va表示第a个主成分的方差贡献率,λa表示第a个主成分对应的特征值;计算主成分的累计方差贡献率,第a个主成分的累计方差贡献率=第1个主成分的方差贡献率至第(a-1)个主成分的方差贡献率之和;例如,第二主成分的累计方差贡献率为:第一主成分的方差贡献率+第二主成分的方差贡献率;

按照特征值大于1,累计方差贡献率大于指定阈值的原则,提取满足条件的特征值个数,作为最终选择的主成分个数;实际应用中,指定阈值=3,本发明按照上述规则,最终提取3个主成分,λ1,λ2,λ3为3个主成分分别对应的特征值,其分别对应的特征向量e1,e2,e3为3个主成分的特征向量,特征向量和标准化后的数据相乘,得到主成分的线性表达式,如:

Y1=e11*Z1+e12*Z2+……+e16*Z6

Y2=e21*Z1+e22*Z2+……+e26*Z6

Y3=e31*Z1+e32*Z2+……+e36*Z6

其中,Y1表示第1个主成分,e11为第1个指标在第1个主成分线性表达式中的系数,表示特征向量e1中的第1个元素,e16为第6个指标在第1个主成分线性表达式中的系数,表示特征向量e1中的第6个元素,Z1表示第1个指标经过标准化处理后的值,以此类推。

权重分析单元用于:以主成分的方差贡献率为权重,对主要评估指标在各个主成分线性表达式中的系数进行加权平均,计算每个主要评估指标的综合权重;计算公式如下:

w1=v1*e11/(v1+v2+v3)+v2*e21/(v1+v2+v3)+v3*e31/(v1+v2+v3);

w2=v2*e12/(v1+v2+v3)+v2*e22/(v1+v2+v3)+v3*e32/(v1+v2+v3);

……;

w6=v1*e16/(v1+v2+v3)+v2*e26/(v1+v2+v3)+v3*e36/(v1+v2+v3);

w1表示第1个主要评估指标的综合权重,以此类推,可得到各个主要评估指标对应的综合权重;

将所有6个主要评估指标的综合权重进行归一化,得到每个主要评估指标的权重值w′,w′j=第j个主要评估指标的综合权重/所有主要评估指标的综合权重之和,根据获得的权重值,进行加权计算,得到每个用户对不同房间的兴趣度得分,兴趣度得分的计算公式如下:

S=w′1*Z1+w′2*Z2+……+w′6*Z6,其中,S表示兴趣度得分。

本领域的技术人员可以对本发明实施例进行各种修改和变型,倘若这些修改和变型在本发明权利要求及其等同技术的范围之内,则这些修改和变型也在本发明的保护范围之内。

说明书中未详细描述的内容为本领域技术人员公知的现有技术。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1