一种社区内容智能排序估算方法与流程

文档序号:14990815发布日期:2018-07-20 22:11阅读:205来源:国知局

本发明涉及社区内容、帖子的排序方法,尤其涉及一种社区内容智能排序估算方法。



背景技术:

社区内容热度和时间结合排序是社区产品中很重要的技术,现有的智能排序基本都依赖于简单粗暴的设定发表时间参数或者人工介入。可大致分为两类:

一种是简单设置发表时间参数排序,设置发表时间范围,仅筛选此范围内热门的内容,此类方法采用参数较为单一,很容易错过较早发表,但近期比较受欢迎的内容,无法保证用户体验。

另一种方法是人工主观评价,利用人工主观评价来判定社区内容近期是否受欢迎,将人工认定的结果排序在前,此类方法的人工成本很高且耗时长,无法应用于全自动的方法。这类评价方式主观性较强,且无法量化。当需要比较的结果的数量较多时,比较难度增大,人工评价的耗时会大幅增长,评价的可靠性会相应降低。



技术实现要素:

本发明要解决的技术问题在于,针对现有技术的不足,提供一种能对排序结果给出量化评价,且评价速度快、可靠性高的社区内容智能排序估算方法。

为解决上述技术问题,本发明采用如下技术方案。

一种社区内容智能排序估算方法,其包括有如下步骤:步骤s1,计算社区内容的浏览分数:其中,c为全部社区内容中每篇社区内容被浏览过的平均人数,m为社区内容被每个人浏览过的平均次数,n为浏览过该篇社区内容的人数,xi是浏览过该篇社区内容的n个人中每个人的浏览次数,i=1,2…,n;步骤s2,计算社区内容的点赞分数:like_score=loge(like_uv+1);其中,like_uv为该篇社区内容的点赞人数;步骤s3,计算社区内容的评论分数:

comment_score=

(loge(comment_pv+1))a*(loge(comment_uv+1))β

其中,comment_pv是该社区内容被评论的次数,comment_uv是评论该社区内容的人数,0=<α<1,0=<β<1,并且α<β;

步骤s4,计算时间衰减值:其中,pt是社区内容发布时间距今的时间差,vt是社区内容最后被浏览的时间距今的时间差,it是社区内容最后互动时间距今的时间差,b为pt的惩罚因子,并且0<b≤1;步骤s5,根据浏览分数visit_score、点赞分数like_score、评论分数comment_score和时间衰减值t构建社区内容智能排序估算公式:

其中,w1、w2和w3分别是浏览分数visit_score、点赞分数like_score和评论分数comment_score的权重系数,c1和c2均为系数因子,c1取值0或1,c2≥0。

优选地,所述步骤s5中,w1、w2和w3的默认值分别为:w1=0.2,w2=0.4,w3=0.4。

优选地,所述步骤s4中,时间差pt、时间差vt和时间差it的单位均为秒。

优选地,所述步骤s5中,当c1=0且c2≠0时,score仅涉及时间衰减,当c1=1且c2=0时,score仅涉及浏览分数visit_score、点赞分数like_score和评论分数comment_score,不涉及时间衰减,当c1和c2都不等于0时,score既涉及浏览分数visit_score、点赞分数like_score和评论分数comment_score,也涉及时间衰减。

本发明公开的社区内容智能排序估算方法,其基于社区内容的被浏览的次数、被浏览的人数、被点赞的次数、被点赞的人数、被评论的次数、被评论的人数、社区内容发布时间、社区内容被浏览时间、社区内容被互动时间诸多变量设计而成。并根据浏览分数、点赞分数、评论分数和时间衰减合成社区内容智能排序估算公式。相比现有技术而言,本发明能够更加全面客观的对社区内容进行评价,评价过程全程无需人工干预,同时,本发明能对排序结果给出量化评价,速度快、可靠性高。由此可见,本发明可以用于对社区内容进行快速评价排序,从而起到筛选近期优质受欢迎社区内容的作用。

具体实施方式

下面结合实施例对本发明作更加详细的描述。

本发明公开了一种社区内容智能排序估算方法,其包括有如下步骤:

步骤s1,计算社区内容的浏览分数:

其中,c为全部社区内容中每篇社区内容被浏览过的平均人数,m为社区内容被每个人浏览过的平均次数,n为浏览过该篇社区内容的人数,xi是浏览过该篇社区内容的n个人中每个人的浏览次数,i=1,2…,n;

步骤s2,计算社区内容的点赞分数:

like_score=loge(like_uv+1);

其中,like_uv为该篇社区内容的点赞人数;

步骤s3,计算社区内容的评论分数:

comment_score=

(loge(comment_pv+1))a*(loge(comment_uv+1))β

其中,comment_pv是该社区内容被评论的次数,comment_uv是评论该社区内容的人数,0=<α<1,0=<β<1,并且α<β;

步骤s4,计算时间衰减值:

其中,pt是社区内容发布时间距今的时间差,vt是社区内容最后被浏览的时间距今的时间差,it是社区内容最后互动时间距今的时间差,b为pt的惩罚因子,并且0<b≤1;

步骤s5,根据浏览分数visit_score、点赞分数like_score、评论分数comment_score和时间衰减值t构建社区内容智能排序估算公式:

其中,w1、w2和w3分别是浏览分数visit_score、点赞分数like_score和评论分数comment_score的权重系数,c1和c2均为系数因子,c1取值0或1,c2≥0。

上述方法的步骤s5中,w1、w2和w3的默认值分别为:w1=0.2,w2=0.4,w3=0.4。当c1=0且c2≠0时,score仅涉及时间衰减,当c1=1且c2=0时,score仅涉及浏览分数visit_score、点赞分数like_score和评论分数comment_score,不涉及时间衰减,当c1和c2都不等于0时,score既涉及浏览分数visit_score、点赞分数like_score和评论分数comment_score,也涉及时间衰减。

关于时间单位,所述步骤s4中,时间差pt、时间差vt和时间差it的单位均为秒。

本发明公开的社区内容智能排序估算方法,其基于社区内容的被浏览的次数、被浏览的人数、被点赞的次数、被点赞的人数、被评论的次数、被评论的人数、社区内容发布时间、社区内容被浏览时间、社区内容被互动时间诸多变量设计而成。并根据浏览分数、点赞分数、评论分数和时间衰减合成社区内容智能排序估算公式。相比现有技术而言,本发明能够更加全面客观的对社区内容进行评价,评价过程全程无需人工干预,同时,本发明能对排序结果给出量化评价,速度快、可靠性高。由此可见,本发明可以用于对社区内容进行快速评价排序,从而起到筛选近期优质受欢迎社区内容的作用。

本发明在实际应用过程中,可参考如下实施例:

a、设计浏览分数的计算:

其中,c是每篇社区内容平均被多少人浏览过,m是社区内容被每个人平均浏览过多少次,n是浏览过该篇社区内容的人数,xi代表的是浏览过该篇社区内容的n个人里每个人浏览的次数,i=1,2…,n。该公式的设计借鉴了贝叶斯推断的思想,在不知道每个用户浏览社区内容次数的情况下,先估计一个值,这个值就是c*m,然后不断用新的信息修正,使得它越来越接近新的值。该公式主要是解决了给一些只有较少人浏览过的社区内容,以相对公平的排名的问题。假设,一篇只被2个人浏览过和一篇被200人浏览过的社区内容,如果按正常算平均的方式,被200人浏览过的社区内容肯定要比只被2个人浏览过的社区内容分数高,但只被2个人浏览过的社区内容很有可能只是它的曝光度比较低,很少人能发现到,所以才造成了浏览它的人数比较少,但社区内容的质量不一定低,在没有曝光度数据情况下,为了让被较少人浏览过的社区内容有相对公平一点的分数,就引入了c和m,c和m是在平均情况下,社区内容会被多少人浏览,平均每人浏览多少次,相当于给了一个默认的得分。

b、设计点赞分数的计算公式:

like_score=loge(like_uv+1);

其中,like_uv是点赞了社区内容的人数,e是自然数,约为2.71828;该公式的设计主要是基于这样一个考虑:对点赞人数取了对数,这样点赞人数的增加对得分增加的影响是越来越弱的,加1是为了避免对数的真数为0。

c、设计评论分数的计算公式:

comment_score=

(loge(comment_pv+1))a*(loge(comment_uv+1))β

其中,comment_pv是社区内容被评论的次数,comment_uv是评论了该社区内容的人数,e是自然数,约为2.71828,0=<α<1,0=<β<1,并且α<β。α<β是为了让comment_pv对comment_score的影响小于comment_uv对comment_score的影响。

d、设计时间衰减的计算公式:

其中,pt是社区内容的发布时间距今的时间差,单位为秒,vt是社区内容最后被浏览的时间距今的时间差,单位为秒,it是社区内容最后互动的时间距今的时间差,单位为秒,b为pt的惩罚因子,0<b≤1。该公式相当于对社区内容发布时间,最后被浏览时间,最后互动时间,三个时间距今的时间差做了几何平均,再作为e的指数,此处的e也是自然数,下同。之所以取几何平均而不取算术平均是基于这样一个考虑:三个时间都大,时间衰减才严重。比如一篇社区内容pt是1000s,vt,it都是1s,则几何平均是10s,但算术平均是(1000+1+1)/3=334s,取算术平均的话衰减会比较厉害,但是一篇社区内容发布时间比较久,最近被浏览或互动了,就不希望衰减的太厉害,所以取几何平均更合理,b其实是为了进一步弱化pt的影响,比如b取值0.5,如果pt=4年,pt取了b次方后,相当于pt=2年。

e、公式合成。对visit_score,like_score,comment_score会用sigmoid函数进行整合,将最终得分归一化到0到1之间,形式如下:

其中,w1、w2、w3分别是visit_score、like_score、comment_score的权重系数,默认规定w1=0.2,w2=0.4,w3=0.4,当然这些权重系数是可以通过训练取更合适的值的,这就涉及以后建立相关的模型了。w1*visit_score+w2*like_score+w3*comment_score后面加1,是为了防止e的指数是0的情况。

将visit_score,like_score,comment_score和时间衰减t合成到一起得到的社区内容智能排序估算公式为:

最终合成公式引入了两个系数因子c1,c2,其中c1只能取0或1,c2≥0,引入c1和c2是为了让公式更灵活。当c1等于0并且c2不等于0时,score就只考虑时间衰减,当c1等于1,c2等于0时,score就只考虑vist_score,like_score,comment_score,不考虑时间衰减,当c1和c2都不等于0时,score就既考虑vist_score,like_score,comment_score也考虑时间衰减。c2是时间衰减的重力因子,当c2越大,表示社区内容会随着时间下沉的越快。

本发明公开的社区内容智能排序估算方法,基于物理运动思想,将社区内容拟作一个质点,其热度作为向上的拉力,其发表时间作为向下的拉力,两个力共同作用决定了内容运动的方向和速度,最终根据所有内容的方向和速度进行排序。相比现有技术而言,本发明可以全自动评估社区中内容热度和时效性,能有效提升社区内容排序结果精度,并避免单个参数造成优质内容下沉、劣质内容排序在上的情况。精准的热门内容排序结果可以直接用于社区、资讯等应用,大幅度减少人工交互,提升用户体验。

以上所述只是本发明较佳的实施例,并不用于限制本发明,凡在本发明的技术范围内所做的修改、等同替换或者改进等,均应包含在本发明所保护的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1