本发明涉及智能电视技术领域,具体地说是一种用户电影播放行为相似度的获取方法及系统。
背景技术:
播放行为记录,指的是用户在对视频进行观看时,系统对用户行为进行的记录,这些记录可以包括用户播放该视频的时长、用户播放的是哪个视频等等。
目前,播放行为记录并没有得到非常理想的应用,基于此,本发明提出一种快速、自动地从大量epg信息中检测出缺少、重复、重叠等异常情况的实现方法,应用于广电、有线运营商等的epg管理、编排系统。
技术实现要素:
本发明的技术任务是针对以上不足之处,提供一种有效提升用户体验、用户电影播放行为相似度的获取方法及系统。
一种用户电影播放行为相似度的获取方法,其获取过程为,
步骤一、首先加载用户电影播放记录;
步骤二、对加载的数据进行统计,得出每个用户每个维度值的播放量,以及各个维度值播放量的总和∑,这里的维度包括导演、演员、编剧和类型四个维度;
步骤三、确定基础相似指数,这里的基础相似指数是指用户之间相同维度播放占总播放量的比例;
步骤四、确定相似指数偏移量;
步骤五、将基础相似指数与相似指数偏移量相乘,得到的数值为相似指数,该相似指数为一个大于0小于1的数字,该数字越大则代表两个用户行为越接近,电影播放行为相似度越高。
所述步骤一中的电影播放记录是指电影有效播放记录,即电影有效播放至少占电影时长的80%。
所述步骤三中用户之间相同维度播放占总播放量的比例是指:
对两个用户m、n的维度值取交集v(m∩n);
获取m和n两个用户各自交集v(m∩n)中的维度值总播放量∑(v(m∩n))占各自的所有维度值播放量总和∑的比例,取m和n获取结果中的较小值作为基础相似指数p。
所述相似指数偏移量的获取过程为:
对用户m和n在交集v(m∩n)中每个维度值的播放量,取较小值作为分子,较大值作为分母,求各个维度值的比值k;
对每个维度比值k赋予权重w;
对所有的维度值的kw积求和后比所有的权重w之和,得到精确相似指数偏移量p`。
所述权重赋予过程为:用用户m和n在交集v(m∩n)中每个维度值的播放量比各自在交集中维度值播放量总和∑(v(m∩n)),然后对m和n算出来的两个值取开平方根,得到每个维度比值k的权重w。
一种用户电影播放行为相似度的获取系统,包括:
数据获取模块,用于获取并加载用户电影播放记录;
数据统计模块,用于将获取的数据进行统计,得出每个用户每个维度值的播放量,以及各个维度值播放量的总和∑;
相似度获取模块,根据数据统计模块统计的数据,确定基础相似指数和相似指数偏移量,将基础相似指数与相似指数偏移量相乘,得到的数值为相似指数,该相似指数为一个大于0小于1的数字,该数字越大则代表两个用户行为越接近,电影播放行为相似度越高。
所述数据获取模块获取的电影播放记录为电影有效播放记录,该电影有效播放记录为电影有效播放至少占电影时长的80%。
所述数据统计模块统计的维度包括导演、演员、编剧和类型四个维度。
所述相似度获取模块确定基础相似指数过程为:
对两个用户m、n的维度值取交集v(m∩n);
获取m和n两个用户各自交集v(m∩n)中的维度值总播放量∑(v(m∩n))占各自的所有维度值播放量总和∑的比例,取m和n获取结果中的较小值作为基础相似指数p。
所述相似度获取模块确定相似指数偏移量过程为:
对用户m和n在交集v(m∩n)中每个维度值的播放量,取较小值作为分子,较大值作为分母,求各个维度值的比值k;
用用户m和n在交集v(m∩n)中每个维度值的播放量比各自在交集中维度值播放量总和∑(v(m∩n)),然后对m和n算出来的两个值取开平方根,得到每个维度比值k的权重w;
对所有的维度值的kw积求和后比所有的权重w之和,得到精确相似指数偏移量p`。
本发明的一种用户电影播放行为相似度的获取方法及系统和现有技术相比,具有以下有益效果:
本发明的一种用户电影播放行为相似度的获取方法及系统,通过对用户历史电影播放记录中的导演、主演、编剧、类型等多个维度进行一系列统计和分析,并将用户与用户的播放记录数据通过一系列算法进行对比,最终得出用户电影喜好相似度;本发明可在一定程度上发掘用户视频播放行为数据中的价值,通过计算用户相似度,可为用户推荐兴趣相同的人,或者推荐兴趣相同的人在看的电影等;实用性更好,适用范围广泛,适用于用于广电、有线运营商等具备用户电影播放行为记录能力以及具备被播放电影信息的系统,具有很好的推广应用价值。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明方法的实现流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的方案,下面结合具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如附图1所示,一种用户电影播放行为相似度的获取方法,其获取过程为,
步骤一、首先加载用户电影播放记录;
步骤二、对加载的数据进行统计,得出每个用户每个维度值的播放量,以及各个维度值播放量的总和∑,这里的维度包括导演、演员、编剧和类型四个维度;
步骤三、确定基础相似指数,这里的基础相似指数是指用户之间相同维度播放占总播放量的比例;
步骤四、确定相似指数偏移量;
步骤五、将基础相似指数与相似指数偏移量相乘,得到的数值为相似指数,该相似指数为一个大于0小于1的数字,该数字越大则代表两个用户行为越接近,电影播放行为相似度越高。
所述步骤一中的电影播放记录是指电影有效播放记录,即电影有效播放至少占电影时长的80%。
所述步骤三中用户之间相同维度播放占总播放量的比例是指:
对两个用户m、n的维度值取交集v(m∩n);
获取m和n两个用户各自交集v(m∩n)中的维度值总播放量∑(v(m∩n))占各自的所有维度值播放量总和∑的比例,取m和n获取结果中的较小值作为基础相似指数p。
所述相似指数偏移量的获取过程为:
对用户m和n在交集v(m∩n)中每个维度值的播放量,取较小值作为分子,较大值作为分母,求各个维度值的比值k;
对每个维度比值k赋予权重w;
对所有的维度值的kw积求和后比所有的权重w之和,得到精确相似指数偏移量p`。
所述权重赋予过程为:用用户m和n在交集v(m∩n)中每个维度值的播放量比各自在交集中维度值播放量总和∑(v(m∩n)),然后对m和n算出来的两个值取开平方根,得到每个维度比值k的权重w。
本发明用于对每两个用户电影观看行为进行批量分析、计算用户数据相似度。
根据确定的维度,为方便说明这里假设只有导演(记为a)、主演(记为b)、编剧(记为c)、类型(记为d)四个维度统计用户的电影观看行为。
统计结果包括各个维度值的播放次数:导演为张艺谋的电影播放过3次、类型为科幻的电影播放过4次,这里将四个维度(如导演、主演)记为w,每个维度的值(如张艺谋、陈凯歌,称为维度值)记为t,每个维度值的播放次数(称为维度值播放量)记为n,则可简单表示为:l(w(t))=n,其中w、t、n都是代指符号,并非具体值,l()则代表该括号中维度值对应的播放量,为了方便书写后边我们直接省去l(),即将l(w(t))=n写作w(t)=n。如上边导演为张艺谋的电影播放过3次则可以记为a(张艺谋)=3,进一步抽象,将张艺谋记为z那么最终表示为a(z)=3,其中a、z、3皆为具体值。
统计结果还需要包括用户各个维度值播放量总和,这里记为∑。如某用户统计结果为a(a1)=1,b(b1)=1,c(c1)=1,d(d1)=1,那么:
∑=a(a1)+b(b1)+c(c1)+d(d1)=4。
对m和n两个用户的统计结果中的维度值取交集,交集记为v(m∩n),如m和n的统计结果分别为:
a(a1)=1、a(a2)=3、b(b1)=5、c(c1)=4、d(d1)=3、c(c2)=2、d(d2)=2;∑=20。
a(a1)=3、a(a2)=2、b(b1)=1、c(c1)=8、d(d1)=1、c(c3)=4、d(d3)=3;∑=22。
那么他们的维度值交集为:
a1、a2、b1、c1、d1,维度值交集的个数(称为维度值交集数)为5。
计算v(m∩n)中的维度值的总维度值播放量∑(v(m∩n)),在各自的∑所占的比重,记为p(m)和p(n),则算式为:(a(a1)+a(a2)+b(b1)+c(c1)+d(d1))/∑。
m和n两个用户,他们各自比重为:
p(m)=(1+3+5+4+3)/20=16/20。
p(n)=(3+2+1+8+1)/22=15/22。
取两者较小值,作为基础相似指数p,这里p=p(n)=15/22。
计算修正偏移量p`,来对基础相似指数p进行修正,算法描述如下:
分别对用户m和n在v(m∩n)中每个维度值播放量的比值k(播放量较小的作为分子,如权利9中的v(m∩n),其中一个维度值是a1,用户m对该维度的播放量a(a1)=1,用户n对该维度的播放量a(a1)=3,那么k=1/3)计算权重w,并以此计算出每个维度播放量比k与w乘积,对其求和,即可得到p`。
权重w计算方法如下:
如我们要计算a(a1)的k所占的权重w:
如果将维度值a1的k(a1)和w(a1)积记为k(a1),那么:
最后p`=(k(a1)+k(a2)+k(b1)+k(c1)+k(d1))/(w(a1)+w(a2)+w(b1)+w(c1)+w(d1))。
算出最终相似度r=p`*p。
一种用户电影播放行为相似度的获取系统,包括:
数据获取模块,用于获取并加载用户电影播放记录;
数据统计模块,用于将获取的数据进行统计,得出每个用户每个维度值的播放量,以及各个维度值播放量的总和∑;
相似度获取模块,根据数据统计模块统计的数据,确定基础相似指数和相似指数偏移量,将基础相似指数与相似指数偏移量相乘,得到的数值为相似指数,该相似指数为一个大于0小于1的数字,该数字越大则代表两个用户行为越接近,电影播放行为相似度越高。
所述数据获取模块获取的电影播放记录为电影有效播放记录,该电影有效播放记录为电影有效播放至少占电影时长的80%。
所述数据统计模块统计的维度包括导演、演员、编剧和类型四个维度。
所述相似度获取模块确定基础相似指数过程为:
对两个用户m、n的维度值取交集v(m∩n);
获取m和n两个用户各自交集v(m∩n)中的维度值总播放量∑(v(m∩n))占各自的所有维度值播放量总和∑的比例,取m和n获取结果中的较小值作为基础相似指数p。
所述相似度获取模块确定相似指数偏移量过程为:
对用户m和n在交集v(m∩n)中每个维度值的播放量,取较小值作为分子,较大值作为分母,求各个维度值的比值k;
用用户m和n在交集v(m∩n)中每个维度值的播放量比各自在交集中维度值播放量总和∑(v(m∩n)),然后对m和n算出来的两个值取开平方根,得到每个维度比值k的权重w;
对所有的维度值的kw积求和后比所有的权重w之和,得到精确相似指数偏移量p`。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。