网络小说新章节的获取方法及装置的制造方法

文档序号：9687591阅读：369来源：国知局

网络小说新章节的获取方法及装置的制造方法
【专利说明】
【技术领域】
[0001]本发明涉及计算机数据挖掘领域，特别涉及一种网络小说新章节的获取方法及装置。
【【背景技术】】
[0002]近年，随着网络小说的发展，出现了一大批专门从事网络小说连载的网站。而对于小说网站的访问以及内容搜索都是在进入小说网站后，再输入关键字进行站内的检索，检索出该网站中的有关关键字的小说内容。这种方式多是一些小说的追捧者或者网络小说爱好者使用；对于更多的一般用户而言，普遍还是通过搜索引擎(比如百度、谷歌等)进行搜索。
[0003]现有的搜索方式中，由于很难预测到某本小说最新章节的更新时间，搜索引擎需要不断的抓取章节列表页来获取新章节，效率不高;且搜索结果中含有大量包含虚假小说内容的阅读网站，这样使得用户的搜索需求没有完全满足，用户体验差;而且由于版权等原因，部分网络小说的原创站点的新章节不能直接查看，但是可以在副本站点中获取该新章节的内容，现有的采用单个站点搜索的方式不能将可直接查看的副本站点推荐给用户，使得用户体验差。
【
【发明内容】
】
[0004]本发明的目的旨在解决上述至少一个问题，提供了一种网络小说新章节的获取方法及装置。
[0005]为实现该目的，本发明采用如下技术方案:
[0006]本发明提供了一种网络小说新章节的获取方法，包括有步骤:
[0007]将同一主题名称的多个章节列表页进行合并，得到合并结果页；
[0008]判断每个章节列表页与合并结果页之间的相似度，确定其中相似度最大的章节列表页为第一正本，其他的章节列表页则均为对应的第一副本；
[0009]获取所述第一正本更新的第一惯常时间、第一副本更新的第二惯常时间，以及该第一惯常时间与第二惯常时间之间的惯常时间差值；
[0010]响应于获取章节列表页的外部请求，利用所述第一惯常时间、第二惯常时间及惯常时间差值所表征的时间规律数据，查询所述第一正本及第一副本，以获取并反馈所述的章节列表页。
[0011]进一步的，在所述将同一主题名称的多个章节列表页进行合并，得到合并结果页的步骤之前，还包括步骤:
[0012]检测并获取章节列表页，确定每个章节列表页的主题名称，每个章节列表页对应于一个站点；
[0013]聚类有相同主题名称的章节列表页；
[0014]建立所述主题名称与所述章节列表页所在的多个站点信息之间的关联性。
[0015]进一步的，在所述响应于获取章节列表页的外部请求，利用所述第一惯常时间、第二惯常时间及惯常时间差值所表征的时间规律数据，查询所述第一正本及第一副本，以获取并反馈所述的章节列表页的步骤之前，还包括步骤:
[0016]接收获取章节列表页的外部请求。
[0017]具体的，所述响应于获取章节列表页的外部请求，利用所述第一惯常时间、第二惯常时间及惯常时间差值所表征的时间规律数据，查询所述第一正本及第一副本，以获取并反馈所述的章节列表页的步骤中，还包括步骤:
[0018]响应于获取章节列表页的外部请求，依据所述第一惯常时间，按照一定的时间间隔查询第一正本；
[0019]判断所述第一正本所对应的章节列表页是否已更新；
[0020]当所述第一正本已更新，则依据所述惯常时间差值按照一定时间间隔查询第一副本；
[0021 ]获取并反馈已更新的第一副本所对应的站点信息。
[0022]具体的，所述判断所述第一正本所对应的章节列表页是否已更新的步骤中，还包括:
[0023]通过分析所述第一正本所对应的章节列表页中最新创立或修改的章节信息，以判断该第一正本是否已更新。
[0024]进一步的，所述判断所述第一正本所对应的章节列表页是否已更新的步骤之后，还包括步骤:
[0025]当所述第一正本没有更新，则执行所述依据所述第一惯常时间，按照一定的时间间隔查询第一正本的步骤。
[0026]具体的，所述响应于获取章节列表页的外部请求，利用所述第一惯常时间、第二惯常时间及惯常时间差值所表征的时间规律数据，查询所述第一正本及第一副本，以获取并反馈所述的章节列表页的步骤中，还包括步骤:
[0027]依据所述第二惯常时间，按照一定的时间间隔查询第一副本；
[0028]判断所述第一副本所对应的章节列表页是否均已更新；
[0029]当所述第一副本均已更新，则依据所述惯常时间差值按照一定时间间隔查询第一正本，以判断所述第一正本是否已更新。
[0030]具体的，所述判断所述第一副本所对应的章节列表页是否均已更新的步骤中，还包括:
[0031]通过分析所述第一副本所对应的所有章节列表页中最新创立或修改的章节信息，以判断第一副本是否均已更新。
[0032]进一步的，所述判断所述第一副本所对应的章节列表页是否均已更新的步骤之后，还包括步骤:
[0033]当所述第一副本没有更新，则执行所述依据所述第二惯常时间，按照一定的时间间隔查询第一副本的步骤。
[0034]进一步的，所述将同一主题名称的多个章节列表页进行合并，得到合并结果页的步骤之前，还包括步骤:
[0035]依据某一章节列表页与其他章节列表页之间的相似度，判断该章节列表页是否为虚假章节列表页；
[0036]当判断得到所述章节列表页为虚假章节列表页，过滤该章节列表页。
[0037]具体的，所述依据某一章节列表页与其他章节列表页之间的相似度，判断该章节列表页是否为虚假章节列表页的步骤中，还包括步骤:
[0038]获取每一个章节列表页的文字特征向量；
[0039]判断某一章节列表页与其他章节列表页之间具有相同文字特征向量的平均数；
[0040]当所述平均数大于或等于预设的相似度阈值时，确定该章节列表页为有效章节列表页；
[0041]当所述平均数小于预设的相似度阈值时，确定该章节列表页为虚假章节列表页。
[0042]本发明还提供了一种网络小说新章节的获取装置，其包括有:
[0043]合并模块，用于将同一主题名称的多个章节列表页进行合并，得到合并结果页；
[0044]正副本确定模块，用于判断每个章节列表页与合并结果页之间的相似度，确定其中相似度最大的章节列表页为第一正本，其他的章节列表页则均为对应的第一副本；
[0045]时间获取模块，用于获取所述第一正本更新的第一惯常时间、第一副本更新的第二惯常时间，以及该第一惯常时间与第二惯常时间之间的惯常时间差值；
[0046]反馈模块，用于响应于获取章节列表页的外部请求，利用所述第一惯常时间、第二惯常时间及惯常时间差值所表征的时间规律数据，查询所述第一正本及第一副本，以获取并反馈所述的章节列表页。
[0047]进一步的，所述获取装置还包括有聚类模块，
[0048]所述聚类模块，用于在合并模块将同一主题名称的多个章节列表页进行合并之前，检测并获取章节列表页，确定每个章节列表页的主题名称，每个章节列表页对应于一个站点;及
[0049]聚类有相同主题名称的章节列表页;及
[0050]建立所述主题名称与所述章节列表页所在的多个站点信息之间的关联性。
[0051 ]进一步的，所述获取装置还包括有接收模块，
[0052]所述接收模块，用于接收获取章节列表页的外部请求。
[0053]具体的，所述反馈模块还包括有:
[0054]正本查询单元，用于响应于获取章节列表页的外部请求，依据所述第一惯常时间，按照一定的时间间隔查询第一正本；
[0055]正本判断单元，用于判断所述第一正本所对应的章节列表页是否已更新；
[0056]副本调度单元，用于当所述第一正本已更新，则依据所述惯常时间差值按照一定时间间隔查询第一副本；
[0057]副本反馈单元，用于获取并反馈已更新的第一副本所对应的站点信息。
[0058]具体的，所述正本判断单元，还用于通过分析所述第一正本所对应的章节列表页中最新创立或修改的章节信息，以判断该第一正本是否已更新。
[0059]具体的，所述副本调度单元，还用于当所述第一正本没有更新，则调用正本查询单元执行所述依据所述第一惯常时间，按照一定的时间间隔查询第一正本的步骤。
[0060]具体的，所述反馈模块还包括有:
[0061]副本查询单元，用于依据所述第二惯常时间，按照一定的时间间隔查询第一副本；
[0062]副本判断单元，用于判断所述第一副本所对应的章节列表页是否均已更新；
[0063]正本调度单元，用于当所述第一副本均已更新，则依据所述惯常时间差值按照一定时间间隔查询第一正本，以判断所述第一正本是否已更新。
[0064]具体的，所述副本判断单元通过分析所述第一副本所对应的所有章节列

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邝景胜;
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。