一种从单页面中提取小说名称的方法和装置的制造方法

文档序号：8258799阅读：385来源：国知局

一种从单页面中提取小说名称的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机数据挖掘领域，具体涉及一种从单页面中提取小说名称的方法和装置。
【背景技术】
[0002] 随着互联网的快速发展，网页已成为一个巨大的、共享的信息资源。目前，网页数据大都是以HTML的形式出现，然而HTML缺乏对数据本身的描述，只是通过标签告诉浏览器如何显示它所描述的信息，没有清晰的语义信息。因此，HTML描述的网页页面只适合人类浏览，应用程序无法直接解析并使用网页上的信息。
[0003] 为了增强网页信息的可用性，出现了网页信息抽取技术，它通过某种方式包装现有网页信息源，将网页上的信息以结构化的形式提取出来，为应用程序使用网页中的数据提供了可能。网页信息抽取技术以一定方式增加了语义信息，为网页查询提供了准确的方法，使得网页信息的再利用成为可能。
[0004] 对于提取网页结构化数据，当前一般采用"模板抽取"，即针对不同的站点配置不同的模板进行抽取。例如，对于垂直类的资源，如新闻网页、小说网页、视频网页等网页，要准确提取新闻、小说、视频标题，一般情况下是针对不同的站配置不同的模板，例如起点小说站网页上的class属性名为"title"的div标签下的H1标签对应的文字节点即为小说名。使用诸如类似上面介绍的方法来提取小说名、小说作者、小说章节信息等结构化数据。
[0005] 但是，通常互联网中的小说站点非常多，采用模板抽取小说结构化数据的方法，首先需要一个站点一个站点地看网页源码以及配置模板，要花费非常多的时间，其次如果网站源码改变的话，之前配置的模板失效，需要人工维护模板。

【发明内容】

[0006] 鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种从单页面中提取小说名称的方法和装置。
[0007] 依据本发明的一个方面，提供了一种从单页面中提取小说名称的方法，该方法包括：
[0008] 从小说网站的单页面中的一项或多项特定数据段中分别提取各个字符串；统计各字符串的次数，根据统计次数提取小说名称。
[0009] 可选地，所述从小说网站的单页面中的一项或多项特定数据段中分别提取各个字符串包括：
[0010] 根据分隔符对各特定数据段中包含的文本进行切分，得到切分后的多个字符串；
[0011] 对于各个字符串，判断其中是否包含小说特征字符，如果是，则将该字符串注明包含潜在小说名的标记，并将该字符串中的小说特征字符去除。
[0012] 可选地，所述统计各字符串的次数，根据统计次数提取小说名称包括：
[0013] 统计各字符串的出现次数以及被注明包含潜在小说名的标记的次数；
[0014]基于出现次数最多的字符串以及被注明包含潜在小说名的标记次数最多的字符串确定小说名称。
[0015] 可选地，所述小说特征字符至少包括如下中的一种或多种：
[0016] 最新章节、无弹窗、全文阅读、免费阅读、TXT下载。
[0017] 可选地，所述小说网站的单页面中的一项或多项特定数据段为以下中的一种或多种：该页面的title标签、该页面的hi标签、该页面上的说明页面位置的块以及该页面上作者节点的前一节点。
[0018] 可选地，该方法进一步包括：
[0019] 从小说网站抓取属于同一章节的多个页面，对于各个页面都按照上述方法提取小说名称；
[0020] 综合从所述多个页面分别提取出的小说名称，确定最终的小说名称。
[0021] 依据本发明的另一个方面，提供了一种从单页面中提取小说名称的装置，该装置包括：
[0022] 字符串提取器，适于从小说网站的单页面中的一项或多项特定数据段中分别提取各个字符串；
[0023] 统计分析器，适于统计各字符串的次数，根据统计次数提取小说名称。
[0024] 可选地，所述字符串提取器，适于根据分隔符对各特定数据段中包含的文本进行切分，得到切分后的多个字符串；以及适于对于各个字符串，判断其中是否包含小说特征字符，如果是，则将该字符串注明包含潜在小说名的标记，并将该字符串中的小说特征字符去除。
[0025] 可选地，所述统计分析器，适于统计各字符串的出现次数以及被注明包含潜在小说名的标记的次数，基于出现次数最多的字符串以及被注明包含潜在小说名的标记次数最多的字符串确定小说名称。
[0026] 可选地，所述字符串提取器判断字符串中是否包含小说特征字符，是判断字符串中是否包含如下中的一种或多种：最新章节、无弹窗、全文阅读、免费阅读、TXT下载。
[0027] 可选地，所述字符串提取器适于从小说网站的单页面中的如下一项或多项特定数据段中分别提取多个字符串：该页面的title标签、该页面的hi标签、该页面上的说明页面位置的块以及该页面上作者节点的前一节点。
[0028] 可选地，该装置进一步包括：抓取器，适于从小说网站抓取属于同一章节的多个页面；
[0029] 由所述字符串提取器和所述统计分析器从抓取的各个页面提取小说名称；
[0030] 该装置进一步包括：综合分析器，适于综合从所述多个页面分别提取出的小说名称，确定最终的小说名称。
[0031]有上述可知，本发明提供的技术方案通过字符串提取器和统计分析器的相互配合，对小说网站的单页面中的特定数据段中字符串的统计，依据统计结果提取出单页面对应的小说名称。该方案基于页面中的特定数据段进行处理，在网站页面源码改变的情况下不会受到影响，无需人力跟进和维护网站页面的变化情况，简化了单页面中提取小说名称的操作流程，提高提取效率。
[0032] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的【具体实施方式】。
【附图说明】
[0033] 通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
[0034] 图1示出了根据本发明一个实施例的一种从单页面中提取小说名称的方法的流程图；
[0035] 图2示出了根据本发明一个实施例的一种从单页面中提取小说名称的装置的示意图；
[0036] 图3示出了根据本发明另一个实施例的一种从单页面中提取小说名称的装置的示意图；
[0037] 图4A示出了根据本发明一个实施例的小说网站的单页面的示意图；
[0038] 图4B示出了本发明一个实施例中图4A所示页面的title标签的代码段的截图示意图；
[0039] 图4C示出了本发明一个实施例中图4A所示页面的hi标签的代码段的截图示意图；
[0040] 图4D示出了根据本发明另一个实施例的小说网站的单页面的示意图。
【具体实施方式】
[0041] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑燕琴;
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司;
我是此专利的发明人

上一篇：死链规则挖掘方法和装置以及搜索方法和装置的制造方法
上一篇：浏览网页的方法以及移动终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。