多指标综合权重音、视频专辑排序方法

文档序号:6469385阅读:202来源:国知局
专利名称:多指标综合权重音、视频专辑排序方法
技术领域
本发明属于音、视频专辑数据处理领域,特别涉及一种音、视频专辑排序系统。
背景技术
随着互联网的发展,视频的影响力正在逐步增强,互联网上的视频数量也与日倶
增。为了便于查找和观看,一些视频网站提供了将多个相关视频制作成一个音、视频专辑的
形式的方法,用户只要找到这个音、视频专辑,就可以观看该音、视频专辑中的全部视频,而
不需要分别另外查找。但是随着音、视频专辑数量的增加,音、视频专辑名称和标签重复的
现象不可避免,因此当某个用户需要查找某个音、视频专辑时,结果中往往出现大量的同名
音、视频专辑,让用户无从选择。在传统的视频搜索引擎中,对音、视频专辑的排序仅仅根据
文本的相似性进行,将那些描述文本(如音、视频专辑标题,标签等)与查询文本相似的音、
视频专辑排在前面返回给用户。
这样的排序结果具有以下不足 1、一些用户为了提高自己制作音、视频专辑的搜索排名,可能会填充一些与该音、视频专辑无关的热门搜索词汇,影响音、视频专辑搜索的准确性和客观性;
2、影响用户搜索体验,降低对网站的满意度和忠诚度;
3、增加用户点击或搜索次数,加重服务器负担。 鉴于此, 一些音、视频专辑网站采用了一些其他排序方式,如按照播放次数排序,音、视频专辑的播放次数越多,排名越靠前。或者按照上传时间、音、视频专辑时长等要素进行排序。这些排序方式从本质上来说,都只采用了一个衡量指标,而忽略了音、视频专辑的其他丰富特性,导致最后搜索排序的结果不能满足用户的真正需求。 因此,目前的排序技术在音、视频专辑搜索的表现形式中过于单一,不能准确反映音、视频专辑的质量和受欢迎程度,难以满足用户的真正搜索需求。

发明内容
为了解决以上问题,本发明提供一种多指标综合权重音、视频专辑排序方法,通过分析音、视频专辑的多重内在指标和用户的反馈信息,构建了一套衡量音、视频专辑质量优劣的指标体系,利用该指标体系对每个音、视频专辑计算其得分,计算结果作为搜索引擎排序依据。 为实现上述目的,本发明采用如下技术方案
—种多指标综合权重音、视频专辑排序方法,包括
音、视频专辑数据库,用于保存音、视频专辑原始信息; 音、视频专辑分析处理步骤,用于对所述音、视频专辑数据库中的音、视频专辑原始信息进行分析和处理; 主观权重确定步骤,用于设定排序指标j并给出排序指标j的主观权重; 客观权重计算步骤,根据所述音、视频专辑分析处理步骤提供的数据,计算所述主观权重确定步骤所确定的排序指标j的客观权重; 优化决策步骤,用于计算每个排序指标j的综合权重Wj,其中,Sj^ Wj = 1, w' 2 0 ,<formula>formula see original document page 6</formula>
模型F(w)表示各指标排序得分的权重误差平方和,F(w)越小,反映出权重Wj越准
确,更能刻画各指标之间的关系,aj、bj, j = 1、2.....m分别为指标j的主观和客观权重;
0 < ii < 1为偏好系数; 指标排序得分计算步骤,用于计算每个音、视频专辑i对于指标j的排序得分Zi(j); 综合得分计算步骤,用于计算该音、视频专辑的加权得分值fi,其公式为
<formula>formula see original document page 6</formula> 本发明能真实客观反映音、视频专辑的内在特性,真正优秀和受用户欢迎的音、视频专辑将排名靠前,旨在解决现有音、视频专辑搜索引擎在排序技术上的不足,使最后排序得分更客观公正。其综合考虑了音、视频专辑多项特征以及用户对音、视频专辑的反馈,能够对音、视频专辑进行智能化的灵活排序,以最佳方式将搜索到的音、视频专辑结果返回给用户。 为了使本发明的目的、技术方法和优点更清晰明白,下面结合附图,对本发明进一步进行详细解释和说明。


图1为本发明多指标综合权重音、视频专辑排序方法流程图。
具体实施例方式
如图1所示,一种多指标综合权重音、视频专辑排序方法,其包括 音、视频专辑数据库,用于保存音、视频专辑原始信息,该音、视频专辑原始信息可
包括音、视频专辑的播放次数、标题、评论数、更新时间、上传人、评论数、订阅数等; 音、视频专辑分析处理步骤,用于对所述音、视频专辑数据库中的音、视频专辑原
始信息进行分析和处理,例如将音、视频专辑内容转化成其它处理步骤中需要的格式,同时
还可对稀疏数据和噪音数据进行处理;
0028] 主观权重确定步骤,用来确定多个排序指标j,并对这些排序指标j给出主观权重。该主观权重可通过随机调查用户需求,并征求音、视频专辑业内专家意见,确定多个排序指标j,并给出这些排序指标j主观权重。在本实施例中主要采用了文本匹配程度、日均播放次数、更新时间、原创贡献率、订阅数、评论数和均衡度等指标作为排序的评价指标j。其中文本匹配程度这一指标由搜索引擎负责度量,在搜索时与本系统计算的排序得分进行整合。可以理解,上述的几个排序指标j只是用来解释本说明,而不是构成本发明对排序指标j选择范围的限制。 客观权重计算步骤,根据所述音、视频专辑分析处理步骤提供的数据,计算所述主观权重确定步骤所确定的排序指标j的客观权重。其中所述客观权重可通过熵值法计算得到。熵(entropy)是系统状态不确定性(混沌态)的度量,可被用来度量排序指标j包含 信息量的大小。熵越大,说明该排序指标j包含的信息越多,该指标对于音、视频专辑的排 序效果就越大,即指标传输的决策信息也就越大,它的权重系数值也就越大。熵值法的优点 在于该方法最大程度地利用了评价方案的目标值或属性值来计算各指标的权重系数,因而 是较为客观的权重系数赋权方法。
熵值法计算公式如下 设各指标的客观权重为bj, j = 1、2.....m,则
m <formula>formula see original document page 7</formula>其中,hj = (lnn"ZlUPj(i)lnpj(0为每个指标j的熵;Pj(O = Zj(i)/SjliZj(i)用
来刻画所有音、视频专辑对于指标j的分布;Zj(i)为每个指标的标准化(规范化)得分;且
当p"i) = 0时,规定Pj(i)l即j(i) = O(i = 1、2.....n ;j = 1、2.....m)。 优化决策步骤,与所述客观权重计算步骤相连接,用于计算每个排序指标j的综 合权重Wj。根据客观权重和主观权重,建立数学模型,并计算其最优解,该最优解就是每个 排序指标j的综合权重Wj。如果仅仅根据主观权重进行音、视频专辑排序,不能真实准确反 映指标的重要程度,往往造成排序结果的不准确。因此为了兼顾主观权重的偏好,又充分利 用客观权重带来的客观信息,建立如下优化决策模型
设各项指标的综合权重为Wj,其中,Z^Wj = 1, Wj 2 0 , F(W) = EJUZS^WKwj -)Zi(j)]2 + (1 - H)[(W厂bj )Zj(i)]2) ( * ) 模型F(w)表示各指标排序得分的权重误差平方和,F(w)越小,反映出权重Wj越准
确,更能刻画各指标之间的关系。其中aj、bj, j = 1、2.....m分别为指标j的主观和客观
权重。0< < 1为偏好系数,反映分析者对主观权重和客观权重的偏好程度,这里取P =0. 5。 通过证明知,当综合权重Wi = iiai+(l-ii)bi, i = 1、2.....m时,模型F(w)得到
唯一最优解,即取得最小值。 指标排序得分计算步骤,用来计算每个音、视频专辑i对于指标j的排序得分 zjj)。本发明中采用的排序指标j有日平均播放次数、更新时间、原创贡献率、被订阅数、 被评论数、均衡度,其指标j分别记为1、2、3、4、5、6。下面就排序得分Zi(j)的具体计算方 法加以说明。
日平均播放次数得分Zi (1): — NORM(NP(i》
Zi(l) = MAX(NORM(NP(i)))i=1,2,3, . 其中,NP (i)为第i个音、视频专辑的日均播放数;MAX({x})(下同)用来计算集合 {x}的最大值; NORM(x) = l咖+ L()G20{—州 x ;咖, 为数学变换函数,对数据量过大的进行处理;L0G2 (x)是以2为底的对数变换。
更新时间得分Zi(2):<formula>formula see original document page 8</formula>
如果0 ^ days(i) S 3 如果4 S days(i) < 31
如果31 S days(i) < 91
如果91 S days(i) < 366
如果366 ^ days(i).
days(i)-356 其中days(i)为该专辑最后更新时间离现在的天数。该函数是单调递减的分段函 数,用来刻画随着最后更新天数的增加,音、视频专辑重要性逐渐降低这一现象。
专辑原创贡献率得分Zi (3):
NORM(NR(i"
Zi(3) = MAX(NORM(NR(i)))i=1,2,3,... 其中,NR(i)表示第i个音、视频专辑中的原创视频数目,TOTAL—NR(i)为专辑中的
视频总数;专辑中的原创节目越多,该专辑排序越靠前,该指标的设计原则是鼓励用户更多
的制作原创专辑。 被订阅数得分Zi(4):
— NORM(NS(i)) L0052」 A- MAX(N0RM(NS(i)))i=i23 其中,NS(i)表示第i个音、视频专辑被订阅的次数,其被订阅次数越多,说明越受
欢迎,其排名应该越靠前。 被评论次数得分Zi (5):
— NORM(NC(i))
Zi(5) = MAX(NORM(NC(i)))i=1,2,3,... 其中,NC(i)表示第i个音、视频专辑被评论次数,其被评论次数越多,说明该专辑
越热门,其排名应该越靠前。 均衡度得分Zi (6): 影响专辑均衡度的因素有播放次数NP(i)、评论数NC(i)、订阅数NS(j)、浏览数 NV(i),专辑的均衡度得分指的是各个音、视频专辑被播放、评论、订阅和被浏览次数之间的 均衡程度的度量,这四个数字越均衡,说明越能激发用户参与互动的积极性,排序得分越 高;反之应该在得分上受到惩罚。该度量指标的引入能够避免用户刻意的在某一项上的作 弊行为对节目公正性的影响。均衡度得分Zi(6)采用变异系数法来计算,分成以下几歩进 行 步骤(1):预处理(无量纲化处理) 通过统计采样计算各个指标的权重,然后初始化NP (i) , NC (i) , NS (i) , NV (i)。本 发明中使用的方法是抽样1000个音、视频专辑,分别计算其播放、评论、订阅、浏览的平均 数,并以此作为这四个指标的权重,然后针对每个音、视频专辑,用原始的播放、评论、订阅、 浏览数分别除以各指标的权重即得到初始化值NP(i) , NC(i) , NS(i) , NV(i)。
步骤(2):计算平均数
8

,、NP(i) + NC(i) + NS(i) + NV(i) X(i) =--
步骤(3):计算均方差
则=(NP(i)-X(i))2 + (NC(i)-X(i))2+(NS(i)-X(i))2 + (NV(i)-X(i))2
步骤(4):计算变异系数V(i)
步骤(5):相对法规范化处理,计算均衡度得分
最大变异系数-当前变异系数_ MAX(V(i))-V(i)
Zi(6)=
最大变异系数-最小变异系数 MAX(V(i))-MIN(V(i)) 综合得分计算步骤,利用所述指标排序得分计算步骤计算的每个音、视频专辑对 单个排序指标j的得分值和综合权重Wj,计算该音、视频专辑的加权得分值fi,其公式为fj = S卩iWj * Zi(j), i = l、 2、…、n。 应当说明的是,本发明中的步骤即可以内置于搜索引擎中,也可以独立于搜索引 擎外,供搜索引擎调用排序结果,本发明中所使用的客观权重计算方法及均衡度算法,并不 局限于所提及的几种,根据需要可以另行更换和调整。另外本发明中使用的综合权重方法 也不局限于以上提及的情形。以上所述的算法仅为本发明的较佳实施方法而已,并不用于 限制本发明,凡在本发明精神和原则范围之类所做的任何修改、等同替换和改进等,例如调 整其中的步骤顺序,均应包含在本发明的保护之内。
权利要求
一种多指标综合权重音、视频专辑排序方法,其特征在于包括以下步骤1)音、视频专辑分析处理步骤,用于对所述音、视频专辑数据库中的音、视频专辑原始信息进行分析和处理;2)主观权重确定步骤,用于设定排序指标j并给出排序指标j的主观权重;3)客观权重计算步骤,根据所述音、视频专辑分析处理步骤提供的数据,计算所述主观权重确定步骤所确定的排序指标j的客观权重;4)优化决策步骤,用于计算每个排序指标j的综合权重wj,其中, <mrow><mi>F</mi><mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo></mrow><mo>=</mo><msubsup> <mi>&Sigma;</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>n</mi></msubsup><msubsup> <mi>&Sigma;</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></msubsup><mo>{</mo><mi>&mu;</mi><mo>[</mo><mrow> <mo>(</mo> <msub><mi>w</mi><mi>j</mi> </msub> <mo>-</mo> <msub><mi>a</mi><mi>j</mi> </msub> <mo>)</mo></mrow><msub> <mi>z</mi> <mi>i</mi></msub><mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo></mrow><msup> <mo>]</mo> <mn>2</mn></msup><mo>+</mo><mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&mu;</mi> <mo>)</mo></mrow><mo>[</mo><mrow> <mo>(</mo> <msub><mi>w</mi><mi>j</mi> </msub> <mo>-</mo> <msub><mi>b</mi><mi>j</mi> </msub> <mo>)</mo></mrow><msub> <mi>z</mi> <mi>i</mi></msub><mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo></mrow><msup> <mo>]</mo> <mn>2</mn></msup><mo>}</mo> </mrow>模型F(w)表示各指标排序得分的权重误差平方和,F(w)越小,反映出权重wj越准确,更能刻画各指标之间的关系,aj、bj,j=1、2、…、m分别为指标j的主观和客观权重;0<μ<1为偏好系数;5)指标排序得分计算步骤,用于计算每个音、视频专辑i对于指标j的排序得分zi(j);6)综合得分计算步骤,用于计算该音、视频专辑的加权得分值fi,其公式为 <mrow><msub> <mi>f</mi> <mi>i</mi></msub><mo>=</mo><msubsup> <mi>&Sigma;</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></msubsup><msub> <mi>w</mi> <mi>j</mi></msub><mo>*</mo><msub> <mi>z</mi> <mi>i</mi></msub><mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo></mrow><mo>,</mo><mi>i</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>n</mi><mo>.</mo> </mrow>F2008102022014C0000011.tif
2. 根据权利要求1所述的多指标综合权重音、视频专辑排序方法,其特征在于所述步骤4)优化决策步骤中,所述y =0.5,综合权重^ = iiai+(l-ii)bi, i = 1、 2、…、m。
3. 根据权利要求1或2所述的多指标综合权重音、视频专辑排序方法,其特征在于 所述步骤3)客观权重计算步骤中采用熵值法计算,熵值法计算公式如下 设各排序指标j的客观权重为bj, j = 1、2、…、m,则mbj = (i-hj)/》i-hk)k=l其中,hj = (lnn)-^!UPj(i)lnpj(i)为每个指标j的熵;Pj(i) = Zj(i)/S[Uzj(i)用来刻画所有音、视频专辑对于指标j的分布;Zj(i)为每个指标的标准化(规范化)得分;且当 Pj(i) = 0时,规定Pj(i)l即j(i) = 0, i = 1、2、 ...、n;j = l、2、…、m。
4. 根据权利要求3所述的多指标综合权重音、视频专辑排序方法,其特征在于 所述步骤5)指标排序得分计算步骤为计算排序指标j :日平均播放次数、专辑更新时间、原创贡献率、被订阅数、被评论数、均衡度中的多个或全部排序指标。
5. 根据权利要求4所述的多指标综合权重音、视频专辑排序方法,其特征在于所述日平均播放次数得分Zi(l)的计算方法为— NORM(NP(i))—MAX(NORM(NP(i)))i=123其中,NP (i)为第i个音、视频专辑的日均播放数;MAX({x})(下同)用来计算集合{x} 的最大值;m加w 、 fX' X ^ 100NORM(X) = ll00 + LOG2(x-99) x〉100'为数学变换函数,对数据量过大的进行处理;L0G2(x)是以2为底的对数变换;所述专辑更新时间得分Zi(2)的计算方法为<formula>formula see original document page 3</formula>如果0 ^ days(i) S 3 如果4 ^ days(i) < 31如果31 ^ days(i) < 91如果91 S days(i) < 366如果366 S days(i).days(i)-356其中days(i)为该专辑最后更新时间离现在的天数。
6. 根据权利要求4或5所述的多指标综合权重音、视频专辑排序方法,其特征在于所 述原创贡献率得分Zi(3)的计算方法为<formula>formula see original document page 3</formula>其中,NR(i)表示第i个音、视频专辑中的原创视频数目,TOTAL—NR(i)为专辑中的视频 总数;所述被订阅数得分Zi(4)的计算方法为<formula>formula see original document page 3</formula>其中,NS(i)表示第i个音、视频专辑被订阅次数; 所述被评论数得分Zi(5)的计算方法为<formula>formula see original document page 3</formula>其中,NC(i)表示第i个音、视频专辑被评论次数。
7. 根据权利要求6所述的多指标综合权重音、视频专辑排序方法,其特征在于 所述均衡度得分Zi(6)的计算方法为音、视频专辑播放次数NP(i)、评论数NC(i)、订阅数NS(i)、浏览数NV(i)之间的均衡程度的度量。
8. 根据权利要求7所述的多指标综合权重音、视频专辑排序方法,其特征在于 所述均衡度得分Zi(6)的计算包括以下歩骤步骤(1):通过统计采样计算各个指标的权重,然后用原始的挖数、评论数、收藏数、评 分数分别除以各指标的权重即得到初始化值NP(i) , NC(i) , NS(i) , NV(i); 步骤(2):计算平均数<formula>formula see original document page 3</formula>步骤(3):计算均方差<formula>formula see original document page 3</formula>步骤(4):计算变异系数V(i)<formula>formula see original document page 3</formula>步骤(5):相对法规范化处理,计算均衡度得分z.(6)=最大变异系数-当前变异系数— MAX(V(i))-V(i)最大变异系数-最小变异系数 MAX(V(i))-MIN(V(i))
全文摘要
一种多指标综合权重音、视频专辑排序方法,包括音、视频专辑数据库,音、视频专辑分析处理步骤,主观权重确定步骤,客观权重计算步骤,根据所述音、视频专辑分析处理步骤提供的数据,计算所述主观权重确定步骤所确定的排序指标的客观权重;优化决策步骤,用于计算每个排序指标的综合权重,指标排序得分计算步骤,用于计算每个音、视频专辑对于指标的排序得分;综合得分计算步骤,用于计算该音、视频专辑的加权得分值,本发明综合考虑了音、视频专辑多项特征以及用户对音、视频专辑的反馈,能够对音、视频专辑进行智能化的灵活排序,以最佳方式将搜索到的音、视频专辑结果返回给用户。
文档编号G06F17/30GK101739418SQ20081020220
公开日2010年6月16日 申请日期2008年11月4日 优先权日2008年11月4日
发明者杨杰, 谭明 申请人:未序网络科技(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1