一种面向网络电视用户的时序主题偏好预测方法与流程

文档序号:12279755阅读:206来源:国知局

本发明涉及一种网络电视用户预测技术领域,尤其是一种面向网络电视用户的时序主题偏好预测方法。



背景技术:

随着交互式网络电视(Internet Protocol Television,IPTV)产业的快速发展,网络电视用户数不断增长,电视节目源随之增加。把握用户的节目偏好,为用户及时推荐感兴趣的电视节目,有利于网络电视运营商提供优质用户体验,吸引用户资源,防止用户流失。用户的节目主题偏好往往能够体现出网络电视用户的家庭成员组成结构、家庭成员兴趣等特征,通过分析用户的主题偏好有利于运营商针对用户的家庭成员组成结构、用户兴趣提供相应的增值服务,甚至是为用户提供第三方服务,有利于提高运营商的经济效益。

现有的预测电视用户观看节目行为的方法有:1)、多用户上下文识别的节目推荐,2)、基于协同过滤的电视节目推荐等,以上方法在一定程度上预测了用户的节目偏好,并进行相似节目的推荐,但其存在一定的缺点,(1)、是用户在一天中各个时间区间的节目偏好不同,即便用户偏好某一个电视节目,但是因为推荐的时间点不恰当;(2)、分析用户的节目偏好,预测用户可能喜欢的节目,只能为用户推荐电视节目。



技术实现要素:

针对现有技术的不足,本发明提供一种面向网络电视用户的时序主题偏好预测方法,该方法能够准确预测电视用户在不同时间段的电视节目偏好。

本发明的技术方案为:一种面向网络电视用户的时序主题偏好预测方法,其特征在于,包括以下步骤:

1)通过网络电视运营商服务器抓取用户d天内观看网络电视节目的基本数据,其中每一天的记录时间为00:00:00到23:59:59;

2)、针对抓取的基本数据设置电视节目观看最小时间tmin、时间区间长度L、电视节目的主题Tk(k=1,2,...n)的数量n;

3)、根据用户观看每条电视节目的起始时间和结束时间分别计算出每条电视节目的观看时间t,如果t<tmin,则删除该条电视节目;

4)、将d天的每一天按照从00:00:00到23:59:59依次等分成N个时间片段,从而得到d天的时间片段集Sj,i={s1,1,s1,2,...s1,i,s2,1,s2,2,...s2,i,...sj,2,...sj,i},其中sj,i表示第i(i=1,2,...d)天的第j(j=1,2,...N)个时间片段,sj={sj,1,sj,2,...sj,i}表示第j(j=1,2,...N)个时间片段,通过时间片段集Sj,i={s1,1,s1,2,...s1,i,s2,1,s2,2,...s2,i,...sj,2,...sj,i}与用户观看电视节目的天数d构建得到每个用户d天观看电视节目集Q={q1,1,q1,2,...q1,j,q2,1,q2,2,...q2,j,...qi,2,...qi,j},其中,qi,j表示该用户在第i天的第j个时间片段sj,i里观看的电视节目集;

5)、利用隐含狄利克雷分布(LDA)模型对电视节目集Q进行分析,得到n个关于电视节目的主题Tk(k=1,2,...n),以及每个电视节目分别落在主题Tk(k=1,2,...n)下的概率TPP={P1,1,…P1,k,…,P1,n,…,Pp,1,…Pp,k,…,Pp,n},其中,Pp,k表示电视节目p落在主题Tk下的概率;

6)、对每个主题Tk(k=1,2,...n)下的电视节目按照其在该主题Tk(k=1,2,...n)下的概率TPP从大到小依次进行排序,选取该主题Tk(k=1,2,...n)下前5个电视节目作为该主题Tk(k=1,2,...n)下隐含的偏好电视节目,并将该偏好电视节目的特征作为该主题Tk(k=1,2,...n)隐含的特征;

7)、对于步骤4中得到的每个用户观看电视节目集Q的每个元素qi,j中的电视节目p,根据其在n个主题Tk(k=1,2,...n)下的概率分布为{Pp,1,…,Pp,n},当则将该电视节目p替换为其对应的主题Tk(k=1,2,...n);

8)、根据得到用户在各个时间片段中各个主题Tk(k=1,2,...n)的分布比例,其中,Count(Tk|sj)表示主题Tk(k=1,2,...n)在第j个时间片段sj={sj,1,sj,2,...sj,i}出现的总次数;

9)、将步骤9中得到的该用户在第j个时间片段sj={sj,1,sj,2,...sj,i}里观看的主题Tk(k=1,2,...n)的分布比例按照从大到小进行排序,选取前m个分布比例累加和大于0.8的主题Tk(k=1,2...n)作为用户在该时间片段sj={sj,1,sj,2,...sj,i}内的偏好主题,从而得到每个时间片段的m个偏好主题;

10)、将步骤9中得到的每个时间片段的偏好主题以及该偏好主题下的5个偏好电视节目、偏好节目特征作为预测结果。

本发明的有益效果为:通过对提取的数据先进行清理,清除了一些实用性不强的数据,从而提高了预测结果的可靠性,通过LDA模型能够获得若干个主题,得到每一个主题隐含的用户特征,通过将一天划分为N个时间片段,细化了预测用户节目偏好的时间片段,不仅提高了电视节目偏好预测在时间上的精准性,并且结合电视节目主题体现的用户特征可以分析得到用户家庭成员结构以及兴趣特征,有利于电视运营商为用户提供高质量用户体验服务,有利于电视运营商结合用户特征推广增值服务及第三方商业服务,提高经济效益。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明:

如图1所示,一种面向网络电视用户的时序主题偏好预测方法,其特征在于,包括以下步骤:

1)通过网络电视运营商服务器抓取用户d天内观看网络电视节目的基本数据,其中每一天的记录时间为00:00:00到23:59:59;

2)、针对抓取的基本数据设置电视节目观看最小时间tmin、时间区间长度L、电视节目的主题Tk(k=1,2,...n)的数量n;

3)、根据用户观看每条电视节目的起始时间和结束时间分别计算出每条电视节目的观看时间t,如果t<tmin,则删除该条电视节目;

4)、将d天的每一天按照从00:00:00到23:59:59依次等分成N个时间片段,从而得到d天的时间片段集Sj,i={s1,1,s1,2,...s1,i,s2,1,s2,2,...s2,i,...sj,2,...sj,i},其中sj,i表示第i(i=1,2,...d)天的第j(j=1,2,...N)个时间片段,sj={sj,1,sj,2,...sj,i}表示第j(j=1,2,...N)个时间片段,通过时间片段集Sj,i={s1,1,s1,2,...s1,i,s2,1,s2,2,...s2,i,...sj,2,...sj,i}与用户观看电视节目的天数d构建得到每个用户d天观看电视节目集Q={q1,1,q1,2,...q1,j,q2,1,q2,2,...q2,j,...qi,2,...qi,j},其中,qi,j表示该用户在第i天的第j个时间片段sj,i里观看的电视节目集;

5)、利用隐含狄利克雷分布(LDA)模型对电视节目集Q进行分析,得到n个关于电视节目的主题Tk(k=1,2,...n),以及每个电视节目分别落在主题Tk(k=1,2,...n)下的概率TPP={P1,1,…P1,k,…,P1,n,…,Pp,1,…Pp,k,…,Pp,n},其中,Pp,k表示电视节目p落在主题Tk下的概率;

6)、对每个主题Tk(k=1,2,...n)下的电视节目按照其在该主题Tk(k=1,2,...n)下的概率TPP从大到小依次进行排序,选取该主题Tk(k=1,2,...n)下前5个电视节目作为该主题Tk(k=1,2,...n)下隐含的偏好电视节目,并将该偏好电视节目的特征作为该主题Tk(k=1,2,...n)隐含的特征;

7)、对于步骤4中得到的每个用户观看电视节目集Q的每个元素qi,j中的电视节目p,根据其在n个主题Tk(k=1,2,...n)下的概率分布为{Pp,1,…,Pp,n},当则将该电视节目p替换为其对应的主题Tk(k=1,2,...n);

8)、根据得到用户在各个时间片段中各个主题Tk(k=1,2,...n)的分布比例,其中,Count(Tk|sj)表示主题Tk(k=1,2,...n)在第j个时间片段sj={sj,1,sj,2,...sj,i}出现的总次数;

9)、将步骤9中得到的该用户在第j个时间片段sj={sj,1,sj,2,...sj,i}里观看的主题Tk(k=1,2,...n)的比例按照从大到小进行排序,选取前m个比例累加和大于0.8的主题Tk(k=1,2...n)作为用户在该时间片段sj={sj,1,sj,2,...sj,i}内的偏好主题,从而得到每个时间片段的偏好主题;10)、将步骤9中得到的每个时间片段的偏好主题以及该偏好主题下的5个偏好电视节目、偏好节目特征作为预测结果。

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1