网络小说章节列表评估方法及装置的制造方法_3

文档序号:9547295阅读:来源:国知局
小说章节列表评估方法中,能够通过网络蜘蛛基于同一主体抓取多个网站的数据,从而获取该主体的章节列表页。其中,所述主体可以是小说的标题或其中的部分关键文本特征。因此在步骤S11之前,还包括步骤:基于同一主体从多个站点获取该主体对应的章节列表页。
[0105]具体的,在本发明的一个实施例中,搜索引擎可以接收到带有该主体的关键字的搜索请求,对小说网站域名下的网页进行结构分析,若网页中包括有多个平行的章节列表标签,即可判定该网页为小说章节列表页;其中所述多个平行的章节列表标签的指向链接href (Hypertext Reference,超文本引用)存在高度类似关系,及其对应的章节列表目录相同但是具体的文件名不同。例如,假定所述多个平行的章节列表标签的href属性包含的目录均为5_5288,而href属性包含的文件名各不同,即由970871至970980。
[0106]进一步的,所述小说章节列表页包括的多个平行的章节列表标签包含有章节文本特征向量,其包括有表征章节的关键字和/或章节数,搜索引擎可以基于上述关键字和/或章节数去评估出章节列表页。例如,所述章节列表标签包括有关键字“章”,也可以包括“卷”、“节”、“章节”等等;且还包括表征章节数的关键字“一”、“二”、“一十八”等;当然所述章节数也能够以数字的形式保存“ 1 ”、“2”、“ 18”等等。
[0107]进一步的,在从多个站点获取了同一主体对应的章节列表页后,需要执行步骤S11:确定该同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点。本实施例可以是通过提取该同一主体的多个章节列表页中的章节列表名称中的文本特征向量,其中所述文本特征向量可以是章节列表名称中的多个关键字,基于一定相似度判断算法判断所述多个关键字之间的相似度;或者是通过提取该同一主体的多个章节列表页名称所对应的页码中的数值特征向量,其中所述数值特征向量可以是表征页码的数值;本实施例中,可以结合文本特征向量及其对应的数值特征向量来共同计算任意两个章节列表页之间的相似度,也可以单独采用其中一种特征向量来计算章节列表页之间的相似度。
[0108]具体的,请参照附图2,在本发明的一个实施例中,所述步骤S11中具体还包括步骤:
[0109]Sill,依据所述章节列表页所对应站点的权威值,确定权威值最高的章节列表页为参照章节列表页;
[0110]S112,提取每一章节列表页的文字特征向量;
[0111]S113,计算每一章节列表页与所述参照章节列表页具有相同文字特征向量的总数;
[0112]S114,当该总数大于预设阈值时,将所述章节列表页与所述参照章节列表页归类为同一集合。
[0113]在评判多个章节列表页之间的相似度时,首先获取一个参照章节列表页,本发明的一个实施例中,可以通过获取不同站点的权威值,确定权威值最高的章节列表页为所述的参照章节列表页,其中站点的权威值是由大量用户通过对该站点的评分得到;然后基于一定算法提取每一章节列表页的文字特征向量,再计算每一章节列表页与所述参照章节列表页具有相同文字特征向量的总数;当该总数大于预存储的阈值时,将所述章节列表页与所述参照章节列表页归类为同一集合,重复上述方法,将其他没在该集合内的章节列表页归类为另一或多个集合。
[0114]进一步的,请参见附图1,本发明所述方法,还包括步骤S12:获取同一集合内每个站点的权威值,将权威值的和值最大的集合作为第一集合,其中权威值根据多个用户对该站点的评分确定。
[0115]前述步骤S11中,依据章节列表页之间的相似度将多个章节列表页归类为不同的集合,在该步骤S12中,计算同一集合内每个章节列表页所在站点的权威值的和值,其中站点的权威值根据多个用户对该站点的评分确定,获取其中权威值的和值最大的集合作为第
——隹A
口 ο
[0116]进一步的,请参见附图1,本发明所述方法,还包括步骤S13:获取第一集合内每个章节列表页的至少一个特征量值。需要说明的是,其中所述至少一个特征量值可以是表征章节列表页完整性、或正确性、或实新性的特征量值;下文通过不同的实施例分别介绍获取特征量值的实施方式。
[0117]1、具体的,请参见附图3,在本发明的一个实施例中,所述获取第一集合内每个章节列表页的至少一个特征量值的步骤中还包括有:
[0118]S131,提取第一集合内每一章节列表页的文字特征向量;
[0119]S132,计算所述第一集合中每两个章节列表页具有相同文字特征向量的数量的第一平均值;
[0120]S133,计算某一章节列表页与多个其他章节列表页的相同文字特征向量的数量的第二平均值;
[0121]S134,依据所述第二平均值与所述第一平均值的差值大小,基于预设的完整性规则设定表征该章节列表页完整性的第一特征量值,其中该差值大小与第一特征量值相对应。
[0122]具体的,首先提取第一集合内每一章节列表页的文字特征向量;再计算每两个章节列表页具有相同文字特征向量的数量,对得到的多个数量值求平均得到第一平均值;计算某一个章节列表页与多个其他章节列表页的相同文字特征向量的数量,并求平均得到第二平均数;再计算所述第一平均值与第二平均值的差值大小,再基于预设的完整性规则设定表征该章节列表页完整性的第一特征量值;如果该差值越大,则表明该章节列表页不完整的概率越大,对应的第一特征量值则越小,其中差值大小与第一特征量值预先相关联存储。例如,若差值为15时,对应的第一特征量值为60 ;差值为5时,对应的第一特征量值为80 ;当然,该实施例仅是示例性的,并不能构成对本发明的限制。
[0123]进一步的,本发明所述方法还包括步骤:依据所述第二平均值与所述第一平均值的差值大小,基于预设的正确性规则设定表征该章节列表页正确性的第二特征量值,其中该差值大小与第二特征量值相对应。即在得到第二平均值与第二平均值的差值大小后,基于预设的表征正确性的规则设定表征章节列表页正确性的第二特征量,同理如果差值越大,则表明该章节列表页不正确的概率越大,对应的第二特征量值则越小,其中差值大小也与第二特征量值预先相关联存储。例如,若差值为15时,对应的第二特征量值为65 ;差值为5时,对应的第一特征量值为85 ;当然,该实施例仅是示例性的,并不能构成对本发明的限制。
[0124]2、请参见附图4,在本发明的另一个实施例中,所述获取第一集合内每个章节列表页的至少一个特征量值的步骤中还包括有:
[0125]S135,获取该第一集合内每个章节列表页对应于相同页码的章节列表中的文字特征向量,其中该页码所对应的数值大于预设的页码阈值;
[0126]S136,获取某一个章节列表页与多个其他章节列表页具有相同文字特征向量的总数;
[0127]S137,根据所述总数与预设的表征实新性的第二阈值的大小关系,判断该章节列表页是否为虚假章节列表页。
[0128]该实施例主要是用于评判章节列表页的实新性。通过获取大于预设的页码阈值的页码所对应的章节列表页的文字特征向量,计算某一章节列表页与多个其他章节列表页具有相同文字特征向量的总数。即获得章节列表页末尾的几个章节列表页对应的文字特征向量,并计算某一章节列表页与多个其他具有相同页码的章节列表页所具有的相同文字特征向量的总数,当所述总数大于等于所述预设的第二阈值时,确定该章节列表页为有效的章节列表页,但是当总数小于所述预设的第二阈值时,表明该章节列表页极可能是错误产生或杜撰的章节列表页,确定所述章节列表页为虚假章节列表页,并过滤该虚假的章节列表页。同理,该实施例中也可以根据所述总数大于所述预设的第二阈值的大小程度,来确定表征其实新性的特征量值,即所述总数与第二阈值的差值越大,表征其准确率越高,越不可能是杜撰或错误的章节列表页,其对应的表征实新性的特征量值越大;反正,对应的表征实新性的特征量值越大。
[0129]进一步的,请参见附图1,本发明所述方法还包括步骤S14:根据预设规则计算每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。
[0130]具体的,在本发明的一个实施例中,请参见附图5,所述根据预设规则计算每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页的步骤中,还包括步骤:
[0131]S151,根据预设规则对同一章节列表页的至少一个特征量值进行加权处理,得到该章节列表页的综合权值;
[0132]S152,比较每个章节列表页对应的综合权值的大小;
[0133]S153,获取其中综合权值最大的章节列表页。
[0134]具体的,根据预设的对应于每个特定特征量值的权值,对该权值所对应的特征量值进行加权处理,所得结果为该章节列表页的综合权值,其中特定特征量值表征章节列表页完整性和/或正确性。例如,在本发明的一个示例性实施例中,根据前述步骤中得到了某一个章节列表页表征完整性的第一特征量值为80,表征正确性的第二特征量值为90,然后预设的对应于第一特征量值的权值为0.5,对应于第二特征量值的权值为0.7,最后经过加权0.5*80+0.7*90 = 10.30,该结果即为所述某一个章节列表页的综合权值。当然,不难理解,该实施例仅是示例性的,并不能构成对本发明的限制。
[0135]进一步,计算出每个章节列表页的综合权值后,比较每个章节列表页的综合权值的大小,获取其中综合权值最大的章节列表页。该综合权值最
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1