一种从单页面中提取小说名称的方法和装置的制造方法

文档序号:8258799阅读:385来源:国知局
一种从单页面中提取小说名称的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机数据挖掘领域,具体涉及一种从单页面中提取小说名称的方法 和装置。
【背景技术】
[0002] 随着互联网的快速发展,网页已成为一个巨大的、共享的信息资源。目前,网页数 据大都是以HTML的形式出现,然而HTML缺乏对数据本身的描述,只是通过标签告诉浏览器 如何显示它所描述的信息,没有清晰的语义信息。因此,HTML描述的网页页面只适合人类 浏览,应用程序无法直接解析并使用网页上的信息。
[0003] 为了增强网页信息的可用性,出现了网页信息抽取技术,它通过某种方式包装现 有网页信息源,将网页上的信息以结构化的形式提取出来,为应用程序使用网页中的数据 提供了可能。网页信息抽取技术以一定方式增加了语义信息,为网页查询提供了准确的方 法,使得网页信息的再利用成为可能。
[0004] 对于提取网页结构化数据,当前一般采用"模板抽取",即针对不同的站点配置不 同的模板进行抽取。例如,对于垂直类的资源,如新闻网页、小说网页、视频网页等网页,要 准确提取新闻、小说、视频标题,一般情况下是针对不同的站配置不同的模板,例如起点小 说站网页上的class属性名为"title"的div标签下的H1标签对应的文字节点即为小说 名。使用诸如类似上面介绍的方法来提取小说名、小说作者、小说章节信息等结构化数据。
[0005] 但是,通常互联网中的小说站点非常多,采用模板抽取小说结构化数据的方法,首 先需要一个站点一个站点地看网页源码以及配置模板,要花费非常多的时间,其次如果网 站源码改变的话,之前配置的模板失效,需要人工维护模板。

【发明内容】

[0006] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的一种从单页面中提取小说名称的方法和装置。
[0007] 依据本发明的一个方面,提供了一种从单页面中提取小说名称的方法,该方法包 括:
[0008] 从小说网站的单页面中的一项或多项特定数据段中分别提取各个字符串;统计各 字符串的次数,根据统计次数提取小说名称。
[0009] 可选地,所述从小说网站的单页面中的一项或多项特定数据段中分别提取各个字 符串包括:
[0010] 根据分隔符对各特定数据段中包含的文本进行切分,得到切分后的多个字符串;
[0011] 对于各个字符串,判断其中是否包含小说特征字符,如果是,则将该字符串注明包 含潜在小说名的标记,并将该字符串中的小说特征字符去除。
[0012] 可选地,所述统计各字符串的次数,根据统计次数提取小说名称包括:
[0013] 统计各字符串的出现次数以及被注明包含潜在小说名的标记的次数;
[0014]基于出现次数最多的字符串以及被注明包含潜在小说名的标记次数最多的字符 串确定小说名称。
[0015] 可选地,所述小说特征字符至少包括如下中的一种或多种:
[0016] 最新章节、无弹窗、全文阅读、免费阅读、TXT下载。
[0017] 可选地,所述小说网站的单页面中的一项或多项特定数据段为以下中的一种或多 种:该页面的title标签、该页面的hi标签、该页面上的说明页面位置的块以及该页面上作 者节点的前一节点。
[0018] 可选地,该方法进一步包括:
[0019] 从小说网站抓取属于同一章节的多个页面,对于各个页面都按照上述方法提取小 说名称;
[0020] 综合从所述多个页面分别提取出的小说名称,确定最终的小说名称。
[0021] 依据本发明的另一个方面,提供了一种从单页面中提取小说名称的装置,该装置 包括:
[0022] 字符串提取器,适于从小说网站的单页面中的一项或多项特定数据段中分别提取 各个字符串;
[0023] 统计分析器,适于统计各字符串的次数,根据统计次数提取小说名称。
[0024] 可选地,所述字符串提取器,适于根据分隔符对各特定数据段中包含的文本进行 切分,得到切分后的多个字符串;以及适于对于各个字符串,判断其中是否包含小说特征字 符,如果是,则将该字符串注明包含潜在小说名的标记,并将该字符串中的小说特征字符去 除。
[0025] 可选地,所述统计分析器,适于统计各字符串的出现次数以及被注明包含潜在小 说名的标记的次数,基于出现次数最多的字符串以及被注明包含潜在小说名的标记次数最 多的字符串确定小说名称。
[0026] 可选地,所述字符串提取器判断字符串中是否包含小说特征字符,是判断字符串 中是否包含如下中的一种或多种:最新章节、无弹窗、全文阅读、免费阅读、TXT下载。
[0027] 可选地,所述字符串提取器适于从小说网站的单页面中的如下一项或多项特定数 据段中分别提取多个字符串:该页面的title标签、该页面的hi标签、该页面上的说明页面 位置的块以及该页面上作者节点的前一节点。
[0028] 可选地,该装置进一步包括:抓取器,适于从小说网站抓取属于同一章节的多个页 面;
[0029] 由所述字符串提取器和所述统计分析器从抓取的各个页面提取小说名称;
[0030] 该装置进一步包括:综合分析器,适于综合从所述多个页面分别提取出的小说名 称,确定最终的小说名称。
[0031]有上述可知,本发明提供的技术方案通过字符串提取器和统计分析器的相互配 合,对小说网站的单页面中的特定数据段中字符串的统计,依据统计结果提取出单页面对 应的小说名称。该方案基于页面中的特定数据段进行处理,在网站页面源码改变的情况下 不会受到影响,无需人力跟进和维护网站页面的变化情况,简化了单页面中提取小说名称 的操作流程,提高提取效率。
[0032] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0033] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0034] 图1示出了根据本发明一个实施例的一种从单页面中提取小说名称的方法的流 程图;
[0035] 图2示出了根据本发明一个实施例的一种从单页面中提取小说名称的装置的示 意图;
[0036] 图3示出了根据本发明另一个实施例的一种从单页面中提取小说名称的装置的 示意图;
[0037] 图4A示出了根据本发明一个实施例的小说网站的单页面的示意图;
[0038] 图4B示出了本发明一个实施例中图4A所示页面的title标签的代码段的截图示 意图;
[0039] 图4C示出了本发明一个实施例中图4A所示页面的hi标签的代码段的截图示意 图;
[0040] 图4D示出了根据本发明另一个实施例的小说网站的单页面的示意图。
【具体实施方式】
[0041] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1