网络小说章节列表评估方法及装置的制造方法_4

文档序号:9547295阅读:来源:国知局
大的章节列表页即为目标章节列表页。不难理解,本发明中所述方法虽然以小说搜索引擎的数据处理环节作为应用场景,但是实际应用上并不限于此,还可以应用于其他需要获取最佳章节列表页的情况,为其他后续的处理做铺垫,提高用户的产品体检。
[0136]终上所述,本发明提供了一种网络小说章节列表评估方法,基于多个章节列表页之间的相似度,将不同站点的多个章节列表页归类为同一集合;再将同一集合内每个站点的权威值的和值最大的集合作为第一集合,再基于预设规则计算该第一集合内每个章节列表页的所述至少一个特征量值的综合权值,获取其中综合权值最大的章节列表页。即本方案能实现对多个站点的章节列表页的自动获取,通过比较相似度、站点的权威值及获取的特征量值多个参数的比较和综合分析,得到质量最高的章节列表页,从而解决了现有技术中通过人工配置模板进行章节列表页判断导致效率低的问题,本发明所述方案能灵活、快速的评估出最符合要求的章节列表页,评估结果准确、客观。
[0137]进一步,依据计算机软件的功能模块化思维,本发明还提供了一种网络小说章节列表评估方法的装置,请参阅图6。所述装置包括归类模块11、分集模块12、特征量获取模块13和目标获取模块14,利用上述各模块来搭建起整个装置的原理框架,从而实现模块化实施方案。以下具体揭示各模块实现的具体功能。
[0138]所述归类模块11,用于确定同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点。
[0139]需要说明的是,本发明所述的网络小说章节列表评估方法中,能够通过网络蜘蛛基于同一主体抓取多个网站的数据,从而获取该主体的章节列表页。其中,所述主体可以是小说的标题或其中的部分关键文本特征。因此本发明还包括有页面获取模块,用于基于同一主体从多个站点获取该主体对应的章节列表页。
[0140]具体的,在本发明的一个实施例中,所述页面获取模块可以接收到带有该主体的关键字的搜索请求,对小说网站域名下的网页进行结构分析,若网页中包括有多个平行的章节列表标签,即可判定该网页为小说章节列表页;其中所述多个平行的章节列表标签的指向链接href (Hypertext Reference,超文本引用)存在高度类似关系,及其对应的章节列表目录相同但是具体的文件名不同。例如,假定所述多个平行的章节列表标签的href属性包含的目录均为5_5288,而href属性包含的文件名各不同,即由970871至970980。
[0141]进一步的,所述小说章节列表页包括的多个平行的章节列表标签包含有章节文本特征向量,其包括有表征章节的关键字和/或章节数,所述页面获取模块可以基于上述关键字和/或章节数去评估出章节列表页。例如,所述章节列表标签包括有关键字“章”,也可以包括“卷”、“节”、“章节”等等;且还包括表征章节数的关键字“一”、“二”、“一十八”等;当然所述章节数也能够以数字的形式保存“ 1 ”、“2”、“ 18”等等。
[0142]进一步的,在所述页面获取模块从多个站点获取了同一主体对应的章节列表页后,需要所述归类模块11确定该同一主体的多个章节列表页之间的相似度,将相似度高于预设阈值的多个章节列表页归类为同一集合,每个章节列表页对应于一个站点。本实施例所述归类模块11可以是通过提取该同一主体的多个章节列表页中的章节列表名称中的文本特征向量,其中所述文本特征向量可以是章节列表名称中的多个关键字,基于一定相似度判断算法判断所述多个关键字之间的相似度;或者所述归类模块11通过提取该同一主体的多个章节列表页名称所对应的页码中的数值特征向量,其中所述数值特征向量可以是表征页码的数值;本实施例中,所述归类模块11可以结合文本特征向量及其对应的数值特征向量来共同计算任意两个章节列表页之间的相似度,也可以单独采用其中一种特征向量来计算章节列表页之间的相似度。
[0143]具体的,请参照附图7,在本发明的一个实施例中,所述归类模块11中具体还包括有参照页确定单元111、第一提取单元112、第一计算单元113和第一归类单元114。
[0144]其中所述参照页确定单元111,用于依据所述章节列表页所对应站点的权威值,确定权威值最高的章节列表页为参照章节列表页;
[0145]所述第一提取单元112,用于提取每一章节列表页的文字特征向量;
[0146]所述第一计算单元113,用于计算每一章节列表页与所述参照章节列表页具有相同文字特征向量的总数;
[0147]所述第一归类单元114,用于当该总数大于预设阈值时,将所述章节列表页与所述参照章节列表页归类为同一集合。
[0148]在评判多个章节列表页之间的相似度时,首先通过所述参照页确定单元111获取一个参照章节列表页,本发明的一个实施例中,可以通过获取不同站点的权威值,确定权威值最高的章节列表页为所述的参照章节列表页,其中站点的权威值是由大量用户通过对该站点的评分得到;然后所述第一提取单元112基于一定算法提取每一章节列表页的文字特征向量,再通过所述第一计算单元113计算每一章节列表页与所述参照章节列表页具有相同文字特征向量的总数;当该总数大于预存储的阈值时,所述第一归类单元114将所述章节列表页与所述参照章节列表页归类为同一集合,重复上述方法,将其他没在该集合内的章节列表页归类为另一或多个集合。
[0149]进一步的,请参见附图6,所述分集模块12,用于获取同一集合内每个站点的权威值,将权威值的和值最大的集合作为第一集合,其中权威值根据多个用户对该站点的评分确定。
[0150]前述归类模快11中,依据章节列表页之间的相似度将多个章节列表页归类为不同的集合,在该分集模块12中,计算同一集合内每个章节列表页所在站点的权威值的和值,其中站点的权威值根据多个用户对该站点的评分确定,获取其中权威值的和值最大的集合作为第一集合。
[0151]进一步的,请参见附图6,所述特征量获取模块13,用于获取第一集合内每个章节列表页的至少一个特征量值。需要说明的是,其中所述至少一个特征量值可以是表征章节列表页完整性、或正确性、或实新性的特征量值;下文通过不同的实施例分别介绍特征量获取模块13获取特征量值的实施方式。
[0152]1、具体的,请参见附图8,在本发明的一个实施例中,所述特征量获取模块13还包括有第二提取单元131、第一平均值计算单元132、第二平均值计算单元133和第一设定单元 134:
[0153]所述第二提取单元131,用于提取第一集合内每一章节列表页的文字特征向量;
[0154]所述第一平均值计算单元132,用于计算所述第一集合中每两个章节列表页具有相同文字特征向量的数量的第一平均值;
[0155]所述第二平均值计算单元133,用于计算某一章节列表页与多个其他章节列表页的相同文字特征向量的数量的第二平均值;
[0156]所述第一设定单元134,用于依据所述第二平均值与所述第一平均值的差值大小,基于预设的完整性规则设定表征该章节列表页完整性的第一特征量值,其中该差值大小与第一特征量值相对应。
[0157]具体的,首先所述第二提取单元131提取第一集合内每一章节列表页的文字特征向量;所述第一平均值计算单元132再计算每两个章节列表页具有相同文字特征向量的数量,对得到的多个数量值求平均得到第一平均值;所述第二平均值计算单元133计算某一个章节列表页与多个其他章节列表页的相同文字特征向量的数量,并求平均得到第二平均数;所述第一设定单元134再计算所述第一平均值与第二平均值的差值大小,再基于预设的完整性规则设定表征该章节列表页完整性的第一特征量值;如果该差值越大,则表明该章节列表页不完整的概率越大,对应的第一特征量值则越小,其中差值大小与第一特征量值预先相关联存储。例如,若差值为15时,对应的第一特征量值为60 ;差值为5时,对应的第一特征量值为80 ;当然,该实施例仅是示例性的,并不能构成对本发明的限制。
[0158]进一步的,本发明所述装置还包括有第二设定单元,所述第二设定单元用于依据所述第二平均值与所述第一平均值的差值大小,基于预设的正确性规则设定表征该章节列表页正确性的第二特征量值,其中该差值大小与第二特征量值相对应。即在所述第二设定单元得到第二平均值与第二平均值的差值大小后,基于预设的表征正确性的规则设定表征章节列表页正确性的第二特征量,同理如果差值越大,则表明该章节列表页不正确的概率越大,对应的第二特征量值则越小,其中差值大小也与第二特征量值预先相关联存储。例如,若差值为15时,对应的第二特征量值为65 ;差值为5时,对应的第一特征量值为85 ;当然,该实施例仅是示例性的,并不能构成对本发明的限制。
[0159]2、请参见附图9,在本发明的另一个实施例中,所述特征量获取模块13还包括有第一获取单元135、总数获取单元136和判断单元137。
[0160]所述第一获取单元135,用于获取该第一集合内每个章节列表页对应于相同页码的章节列表中的文字特征向量,其中该页码所对应的数值大于预设的页码阈值;
[0161]所述总数获取单元136,用于获取某一个章节列表页与多个其他章节列表页具有相同文字特征向量的总数;
[0162]所述判断单元137,用于根据所述总数与预设的表征实新性的第二阈值的大小关系,判断该章节列表页是否为虚假章节列表页。
[0163]该实施例主要是用于评判章节列表页的实新性。通过所述第一获取单元135获取大于预设的页码阈值的页码所对应的章节列表页的文
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1