网络内容质量评价方法和装置的制造方法

文档序号:8528254阅读:423来源:国知局
网络内容质量评价方法和装置的制造方法
【技术领域】
[0001 ] 本发明涉及网络内容,尤其涉及网络内容质量评价方法和装置。
【背景技术】
[0002]随着网络及其相关技术的发展,现今人们花在线上活动上的时间越来越多。例如,人们会在线阅读书籍(例如,连载的小说),在线收听音乐和网络电台,在线选择自己喜欢的APP进行下载等。
[0003]由于上述网络内容(例如,书籍、音乐和网络电台、APP等)的大量存在,如何对这些内容进行更为合理的筛选成为课题。例如,可以使用搜索引擎进行关键字搜索,根据排行榜和分类列表进行选择等。
[0004]现有搜索引擎对搜索结果的排序通常主要根据相关性和热门度进行。在例如单纯对信息进行搜索的情况下,这种搜索方式效果良好。但是对于某些种类的搜索(例如,书籍,尤其是连载的网络小说),由于一本小说可能被大量不同网站转载,即使同一本小说在不同网站也会有不同的标题,更有不同质量的问题,所以依据上述两个特征对小说搜索结果排序时可能抓取到大量低质重复的书。
[0005]根据本申请人另一待决申请“一种基于simhash和章节匹配的同本识别”所公开的方法,可以做到识别出“同本”,但并不能判断出这些“同本”的书籍哪本质量更好,哪本更适合在排序中优先展示。
[0006]另外,对于能够根据某些参数对其质量本身进行评价的网络内容,诸如音乐、网络电台和APP等,同样存在对其质量进行评价以方便用户选择的需要。
[0007]因此,我们需要一种网络内容质量评价方法及装置。

【发明内容】

[0008]本发明所要解决的一个技术问题是提供一种网络内容质量评价方法和装置,其能够对网络内容本身的质量做出评价,由此方便人们对网络内容进行选择。
[0009]根据本发明的一个方面,公开了一种网络内容质量评价方法,包括:获取网络内容的内容质量特征,所述内容质量特征包括目录特征、来源质量特征、元信息特征以及主体质量特征中的至少一项特征;计算所述至少一项特征中每一项的特征分值;以及根据所述特征分值计算所述网络内容的质量分。
[0010]由此,就能够根据网络内容的诸如目录特征、来源、元信息和主体质量的至少一个方面来具体实现对网络内容本身质量的评价,从而为基于质量的网络内容推选提供基础。
[0011]优选地,网络内容是由如下各项中的任一项:书籍、音乐、APP、网络电台。
[0012]对于书籍(例如,连载的网络小说)而言,就可以根据该书籍本身的目录特征、书籍来源、书籍元信息及其正文质量(即,书籍的主体质量)等来评价书籍本身的质量。
[0013]对于音乐而言,可以对其诸如音轨或光盘编号的目录特征、源自诸如QQ音乐或是百度音乐的来源特征、诸如专辑、歌手、歌曲名的元信息特征、以及歌曲星级评价等的主体质量特征中的至少一项来具体评价音乐质量。
[0014]对于APP和网络电台而言,也可以针对其具体的目录、来源、元信息和主体质量的至少一项来具体评价其质量。
[0015]优选地,内容质量特征包括目录特征、来源质量特征、元信息特征以及主体质量特征中的至少两项特征。并且本发明所公开的网络内容质量评价方法还包括:为所述至少两项特征中的每一项分配特征权重,其中,通过对所述至少两项特征的特征分值进行加权求和来计算所述网络内容的质量分。
[0016]这样,就能够根据网络内容的诸如目录特征、来源、元信息和主体质量的至少两个方面,并在考虑这些方面的不同的重要性的情况下具体实现对网络内容本身质量的评价,从而使得质量评价更为全面、灵活和准确。
[0017]优选地,目录特征包括以下特征中的一项或多项:更新及时率;空章率;无用章率;章节长度;为所述网络内容的主站分配的主站权威分;以及该主站的实际章节率。
[0018]这样,就能够根据更细化的参数来评价目录特征,从而进一步提高内容质量评价的全面性和准确性。
[0019]优选地,更新分=Time_gap~[l/(Time_gap+l)],其中 Time_gap = 1_(当前时间-最后更新时间)/30天且位于区间[0,I]内,当最后更新时间超过30天时,Time_gap为O ;并且/或者
[0020]空章率=空章节数/章节总数;并且/或者
[0021]无用章率=无用章节数/章节总数;并且/或者
[0022]章节长度=章节数/1000,其中章节数是I到1000之间的整数,当章节数大于1000时,章节长度取值为I ;并且/或者
[0023]主站权威分取值为:
[0024]如果主站权威分值高于一定阈值或者转载量多于一定数量的站点,则直接使用主站自身的权威分,否则根据转载量增加主站自身的权威分得到最终的主站权威分;并且/或者
[0025]实际章节率=主站章节数/平均章节数,其中平均章节数是所述网络内容所有来源的平均章节数,但当主站章节数不小于平均章节数时,实际章节率为I。
[0026]这样,就能够更为方便准确的计算更新分、空章率、无用章率、章节长度、主站权威分和实际章节率,从而为实现质量分的准确快速计算提供了进一步的基础。
[0027]优选地,如下求取所述目录特征分:更新分、空章率、无用章率和章节长度相加,其中每个特征都乘以主站权威分及实际章节率,且目录特征分值的取值范围为[0,I]。
[0028]这样,就能够更为方便准确地计算目录特征分,从而为实现质量分的准确快速计算提供了再进一步的基础。
[0029]优选地,质量分的计算可以包括以下取值的一项或多项:
[0030]来源特征分=Ave_host_score* (l+Host_factor),且所述来源特征分的取值范围为[0,I],其中小说所有来源站的平均权重Ave_host_score = (Σ host_score) /host_num,host_num是来源站数且host_score是来源站各自的权重,而来源数权重Host_factor =host_num/30,其中host_num是I到30之间的整数,当host_num大于30时,来源数权重取值为I ;并且/或者
[0031]元信息特征分=一级目录分+ 二级目录分+图片信息分+标签分+简介分,其中一级目录分、二级目录分、图片信息分、标签分和简介分各自在一级目录、二级目录、图片信息、标签和简介存在时取值为0.2,否则为O ;并且/或者
[0032]主体质量分=所有章节的总得分/章节数,且主体质量分的取值范围为[0,I]。
[0033]这样,就在方便准确地计算目录特征之外,进一步实现了对来源特征分、元信息特征分和正文质量分的方便准确的计算,从而为实现质量分的准确快速计算提供了又进一步的基础。
[0034]优选地,如下求取所述网络内容的质量分:以6:1:3:5的比例加权相加目录特征分、元信息特征分、来源特征分和正文质量特征分得到最终的质量分。
[0035]这样,就进一步优化了最终质量分的计算过程,从而为参考质量分进行选择提供了基础。
[0036]根据本发明的另一个方面,公开了一种对多个网络内容进行排序的方法,包括:使用根据上述任一方法或优选方法来为所述多个网络内容中每一个评定质量分;以及以所述质量分作为排序依据之一对所述多个网络内容进行排序。
[0037]由此,就能够根据网络内容本身的质量分来对多个网络内容进行排序,从而提高排序的准确性,方便用户对网络内容的选择。
[0038]优选地,对多个网络进行排序包括:响应于用户的网络内容查询请求而对搜索得到的多个网络内容进行排序;或者以网络内容分类列表来排序多个网络内容;或者以排行榜单来排序多个网络内容。
[0039]这样,用户就能够通过关键字搜索、分类列表和排行榜来得到考虑了网络内容本身质量的排序,从而具体化了用户选择网络内容的途径。
[0040]根据本发明的再一个方面,提供了一种网络内容质量评价装置,包括:用于获取网络内容的内容质量特征的特征获取单元,所述内容质量特征包括目录特征、来源质量特征、元信息特征以及主体质量特征中的至少一项特征;用于计算所述至少一项特征中每一项的特征分值的特征分计算单元;以及用于根据所述特征分值计算所述网络内容的质量分的质量分计算单元。
[0041]优选地,所述内容质量特征包括目录特征、来源质量特征、元信息特征以及正文质量特征中的至少两项特征,该装置还包括用于为所述至少两项特征中的每一项分配特征权重的权重分配单元,其中,所述质量分计算单元通过对所述至少两项特征的特征分值进行加权求和来计算所述网络内容的质量分。
[0042]由此,就为实现网络内容质量分的计算提供了装置支持。
[0043]根据本发明的再一个方面,提供了一种对多个网络内容进行排序的系统,包括:如上所述的网络内容质量评价装置,所述装置为所述多个网络内容中每一个评定质量分;以及排序装置,用于以所述质量分作为排序依据之一对所述多个网络内容进行排序。
[0044]优选地,所述排序装置包括:搜索排序单元,用于响应于用户的网络内容查询请求而对搜索得到的多
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1