一种从单页面中提取小说名称的方法和装置的制造方法_2

文档序号:8258799阅读:来源:国知局
[0042] 图1示出了根据本发明一个实施例的一种从单页面中提取小说名称的方法的流 程图。如图1所示,该方法包括:
[0043] 步骤S110,从小说网站的单页面中的一项或多项特定数据段中分别提取各个字符 串。
[0044] 步骤S120,统计各字符串的次数,根据统计次数提取小说名称。
[0045] 可见,图1所示的方法通过对小说网站的单页面中的特定数据段中字符串的统 计,提取出单页面对应的小说名称。该方法基于页面中的特定数据段进行处理,在网站页面 源码改变的情况下不会受到影响,无需人力跟进和维护网站页面的变化情况,简化了单页 面中提取小说名称的操作流程,提高提取效率。
[0046] 在本发明的一个实施例中,图1所示方法的步骤S110,从小说网站的单页面中的 一项或多项特定数据段中分别提取各个字符串包括:
[0047] 步骤S111,根据分隔符对各特定数据段中包含的文本进行切分,得到切分后的多 个字符串。
[0048] 步骤S112,对于各个字符串,判断其中是否包含小说特征字符,如果是,则将该字 符串注明包含潜在小说名的标记,并将该字符串中的小说特征字符去除。
[0049] 本步骤中,小说特征字符至少包括如下中的一种或多种:最新章节、无弹窗、全文 阅读、免费阅读、TXT下载。
[0050] 以及,图1所示方法的步骤S120,统计各字符串的次数,根据统计次数提取小说名 称包括:
[0051] 步骤S121,统计各字符串的出现次数以及被注明包含潜在小说名的标记的次数;
[0052] 步骤S122,基于出现次数最多的字符串以及被注明包含潜在小说名的标记次数最 多的字符串确定小说名称。
[0053] 在本发明的一个实施例中,图1所示方法的步骤S110中,小说网站的单页面中的 一项或多项特定数据段为以下中的一种或多种:该页面的title标签、该页面的hi标签、该 页面上的说明页面位置的块以及该页面上作者节点的前一节点。
[0054] 图4A示出了根据本发明一个实施例的小说网站的单页面的示意图,如图4A所示, 该页面URL地址为:http://www. 45zw.com/41/41132/,页面标题为:"无根仙路最新章节_ 无根仙路无弹窗_小说5200_四五中文",当前位置为:"首页〉都市小说〉无根仙路TXT下 载〉无根仙路",页面上的显示的小说名称为:"无根仙路",在显示的小说名称后显示作者 为:"月光爱宝盒"。图4B示出了本发明一个实施例中图4A所示页面的title标签的代码 段示的截图意图。如图4B所示,图4A所示页面的title标签为"无根仙路最新章节_无根 仙路无弹窗_小说5200_四五中文"。图4C示出了本发明一个实施例中图4A所示页面的 hi标签的代码段的截图示意图。如图4C所示,图4A所示页面的hi标签为"无根仙路"。
[0055] 分别从图4A所示页面的title标签、图4A所示页面hi标签、图4A所示页面上 的说明页面位置的块以及图4A所示页面上作者节点的前一节点这四项数据段中提取字符 串,提取结果如表1所不:
[0056] 表 1
[0057]
【主权项】
1. 一种从单页面中提取小说名称的方法,其中,该方法包括: 从小说网站的单页面中的一项或多项特定数据段中分别提取各个字符串; 统计各字符串的次数,根据统计次数提取小说名称。
2. 如权利要求1所述的方法,其中,所述从小说网站的单页面中的一项或多项特定数 据段中分别提取各个字符串包括: 根据分隔符对各特定数据段中包含的文本进行切分,得到切分后的多个字符串; 对于各个字符串,判断其中是否包含小说特征字符,如果是,则将该字符串注明包含潜 在小说名的标记,并将该字符串中的小说特征字符去除。
3. 如权利要求1-2任一项所述的方法,其中,所述统计各字符串的次数,根据统计次数 提取小说名称包括: 统计各字符串的出现次数W及被注明包含潜在小说名的标记的次数; 基于出现次数最多的字符串W及被注明包含潜在小说名的标记次数最多的字符串确 定小说名称。
4. 如权利要求1-3任一项所述的方法,其中,所述小说特征字符至少包括如下中的一 种或多种: 最新章节、无弹窗、全文阅读、免费阅读、TXT下载。
5. 如权利要求1-4任一项所述的方法,其中,所述小说网站的单页面中的一项或多项 特定数据段为W下中的一种或多种;该页面的title标签、该页面的hi标签、该页面上的说 明页面位置的块W及该页面上作者节点的前一节点。
6. 如权利要求1-5中任一项所述的方法,其中,该方法进一步包括: 从小说网站抓取属于同一章节的多个页面,对于各个页面都按照上述方法提取小说名 称; 综合从所述多个页面分别提取出的小说名称,确定最终的小说名称。
7. -种从单页面中提取小说名称的装置,其中,该装置包括: 字符串提取器,适于从小说网站的单页面中的一项或多项特定数据段中分别提取各个 字符串; 统计分析器,适于统计各字符串的次数,根据统计次数提取小说名称。
8. 如权利要求7所述的装置,其中, 所述字符串提取器,适于根据分隔符对各特定数据段中包含的文本进行切分,得到切 分后的多个字符串;W及适于对于各个字符串,判断其中是否包含小说特征字符,如果是, 则将该字符串注明包含潜在小说名的标记,并将该字符串中的小说特征字符去除。
9. 如权利要求7-8任一项所述的装置,其中, 所述统计分析器,适于统计各字符串的出现次数W及被注明包含潜在小说名的标记的 次数,基于出现次数最多的字符串W及被注明包含潜在小说名的标记次数最多的字符串确 定小说名称。
10. 如权利要求7-9任一项所述的装置,其中, 所述字符串提取器判断字符串中是否包含小说特征字符,是判断字符串中是否包含如 下中的一种或多种;最新章节、无弹窗、全文阅读、免费阅读、TXT下载。
11. 如权利要求7-10任一项所述的装置,其中, 所述字符串提取器适于从小说网站的单页面中的如下一项或多项特定数据段中分别 提取多个字符串:该页面的title标签、该页面的hi标签、该页面上的说明页面位置的块W 及该页面上作者节点的前一节点。
12.如权利要求7-11中任一项所述的装置,其中, 该装置进一步包括;抓取器,适于从小说网站抓取属于同一章节的多个页面; 由所述字符串提取器和所述统计分析器从抓取的各个页面提取小说名称; 该装置进一步包括;综合分析器,适于综合从所述多个页面分别提取出的小说名称,确 定最终的小说名称。
【专利摘要】本发明公开了一种从单页面中提取小说名称的方法和装置,该方法包括:从小说网站的单页面中的一项或多项特定数据段中分别提取各个字符串;统计各字符串的次数,根据统计次数提取小说名称。本发明提供的技术方案通过字符串提取器和统计分析器的相互配合,对小说网站的单页面中的数据段中字符串的统计,依据统计结果提取出单页面对应的小说名称。该方案基于页面中的数据段进行处理,在网站页面源码改变的情况下不会受到影响,无需人力跟进和维护网站页面的变化情况,简化了单页面中提取小说名称的操作流程,提高提取效率。
【IPC分类】G06F17-30
【公开号】CN104572927
【申请号】CN201410836486
【发明人】郑燕琴
【申请人】北京奇虎科技有限公司, 奇智软件(北京)有限公司
【公开日】2015年4月29日
【申请日】2014年12月29日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1