网络小说介绍页的提取方法及装置制造方法

文档序号:6489837阅读:189来源:国知局
网络小说介绍页的提取方法及装置制造方法
【专利摘要】本发明公开一种网络小说介绍页的提取方法及装置,其方法包括:对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块;基于识别出的二级导航块以及小说介绍信息块从小说介绍页中提取小说介绍性字段。本发明将复杂的网络小说介绍页进行结构化,提取其中核心的介绍性字段,从而精简网络小说介绍页的内容,为小说描述及用户浏览提供了便利,尤其实现了网络小说在移动终端上的有效浏览。
【专利说明】网络小说介绍页的提取方法及装置
【技术领域】
[0001]本发明涉及移动互联网【技术领域】,尤其涉及一种网络小说介绍页的提取方法及装置。
【背景技术】
[0002]目前,随着互联网的发展,网络小说的Wffff页面呈井喷式增长;而随着移动互联网的快速发展,使用手机上网阅读小说的用户也越来越多。但是,由于WWW页面主要用于PC端浏览,其页面复杂且包含较多无关信息,无法直接展示于手机侧。因此如何将WWW网页结构化,并为移动阅读用户提供优质清爽的阅读体验是目前急需解决的一大难题。
[0003]此外,为了方便用户阅读,各小说网站设置有相应的小说介绍页,提供给用户进行选择阅读,小说介绍页是一种描述网络小说主要信息的页面。如:http://www.qidian.com/Book/2342810, aspx。
[0004]由于小说介绍页面比较复杂,且各网页风格不一,因此目前主要采用类似XPATH的模板技术进行网站适配,并提取相应字段。
[0005]但是,这种模板技术的缺陷在于一次只能适配一个网站,想要覆盖所有小说网站,则人工成本太高;另外一般较大网站都会经常更新,而网站更新会导致模板技术失效,由此增加了人工维护成本。

【发明内容】

[0006]本发明的主要目的在于提供一种网络小说介绍页的提取方法及装置,旨在精简网络小说介绍页的内容,实现网络小说在移动终端上的有效浏览,降低成本。
[0007]为了达到上述目的,本发明提出一种网络小说介绍页的提取方法,包括:
[0008]对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块;
[0009]基于识别出的所述二级导航块以及小说介绍信息块从所述小说介绍页中提取小说介绍性字段。
[0010]本发明还提出一种网络小说介绍页的提取装置,包括:
[0011]识别模块,用于对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块;
[0012]提取模块,用于基于识别出的所述二级导航块以及小说介绍信息块从所述小说介绍页中提取小说介绍性字段。
[0013]本发明提出的一种网络小说介绍页的提取方法及装置,将复杂的网络小说介绍页进行结构化,提取其中核心的介绍性字段,从而精简网络小说介绍页的内容,为小说描述及用户浏览提供了便利,尤其实现了网络小说在移动终端上的有效浏览。
【专利附图】

【附图说明】[0014]图1是本发明网络小说介绍页的提取方法较佳实施例的流程示意图;
[0015]图2是本发明网络小说介绍页的提取方法较佳实施例中一种网络小说介绍页分块后的效果不意图。
[0016]图3是图2中的小说介绍页根据提取的介绍性字段重新排版后效果示意图;
[0017]图4是本发明网络小说介绍页的提取装置第一实施例的结构示意图;
[0018]图5是本发明网络小说介绍页的提取装置第二实施例的结构示意图。
[0019]本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
【具体实施方式】
[0020]以下将结合附图及实施例,对实现发明目的的技术方案作详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0021]本发明实施例的主要解决技术方案是:对小说介绍页进行网页分块,将复杂的网络小说介绍页进行结构化,提取其中核心的介绍性字段,为小说描述及用户浏览提供便利。
[0022]如图1所示,本发明较佳实施例提出的一种网络小说介绍页的提取方法,包括:
[0023]步骤S101,对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块;
[0024]为了实现对网络小说介绍页的智能提取,首先对小说介绍页进行网页分块,网页分块技术在现有技术中已有成熟方案,在此不再赘述。
[0025]通过网页分块技术识别出小说介绍页中的二级导航块以及小说介绍信息块,以便根据识别出的小说介绍页中的二级导航块以及小说介绍信息块提取小说介绍页中的核心介绍性字段。
[0026]如图2所示,图2是本实施例中一种网络小说介绍页分块后的效果示意图。
[0027]图2中每一个线条框表示一个独立的块,针对每个独立块,需要识别其中的二级导航块和小说介绍信息块。其中:
[0028]二级导航块,单独成行,且含有诸如”〉”、”> ”、〃 一 〃、”您的位置”等导航性符号。图2中框A即为二级导航块。
[0029]小说介绍信息块,包含一些小说的介绍性信息,比如类别、字数、更新时间等。识别此小说介绍信息块主要利用其中的两种特征:一种是小说介绍信息块的面积和位置特征,介绍信息块属于小说介绍页的核心内容块,因此一般具有较大面积,且位于页面的焦点区域;另一种是小说介绍信息块中的介绍性关键词。图2中框B即为小说介绍信息块。
[0030]步骤S102,基于识别出的所述二级导航块以及小说介绍信息块从所述小说介绍页中提取小说介绍性字段。
[0031]根据获取到的小说介绍页中二级导航块以及小说介绍信息块的面积、位置特征以及介绍性关键词,从所述小说介绍页中提取小说介绍性字段。
[0032]其中,提取的小说介绍性字段主要包括:小说名称、小说作者、小说类别、更新时间、小说字数、小说书号、小说封面图片、小说出版社以及小说目录URL等,这些小说介绍性字段基本覆盖了所有小说网页的常用字段。
[0033]下面分别描述各字段及识别方法:
[0034]小说名称:字体最大,一般出现在二级导航块及页面标题里。[0035]小说作者:一般出现在小说名称后的有限范围内,且有“作者:XXX”或“文/XXX”等模式。
[0036]小说类别:事先收集一个小说类别表,包含诸如武侠、言情、玄幻等20多种类别,然后在二级导航块及小说介绍信息块中查找。
[0037]更新时间:来自于小说介绍信息块,一般有“更新时间”、“最后更新”等相关字眼。
[0038]小说字数:来自于小说介绍信息块,一般有“字数”、“小说长度”等相关字眼。
[0039]小说书号:来自于二级导航块或小说介绍信息块,一般有“书号”等相关字眼。
[0040]小说封面图片:主要利用利用其位置信息进行提取,小说封面图片通常位于页面上半部分;小说封面图片高度大于宽度,且宽高在一定范围之内;对于小说封面图片的属性,该图片的描述文字一般含有小说名及“封面”/ “图片”这样的字眼。
[0041]小说出版社,来自于小说介绍信息块,一般有“出版社”等相关字眼。
[0042]小说目录URL,一般有“点击阅读”、“章节列表”等链接文字字眼。
[0043]从小说介绍页中提取出小说介绍性字段后,即可简化小说介绍页的描述,同时还可以根据提取的小说介绍性字段重新排版小说介绍页并显示。
[0044]如图3所示,图3是利用本实施例方案对图2所示的小说介绍页进行介绍性字段提取,以从中获得的部分字段重新排版出来的效果示意图。
[0045]本实施例通过上述方案,将复杂的小说介绍页进行了结构化,提取了核心的介绍字段,为小说描述及用户浏览提供了便利,尤其可以实现网络小说在移动终端上的有效浏览,避免了现有技术中小说介绍页无法直接展示于手机侧的弊端,并且极大降低人工维护成本。
[0046]如图4所示,本发明第一实施例提出一种网络小说介绍页的提取装置,包括:识别模块201以及提取模块202,其中:
[0047]识别模块201,用于对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块;
[0048]提取模块202,用于基于识别出的所述二级导航块以及小说介绍信息块从所述小说介绍页中提取小说介绍性字段。
[0049]为了实现对网络小说介绍页的智能提取,首先通过识别模块201对小说介绍页进行网页分块,网页分块技术在现有技术中已有成熟方案,在此不再赘述。
[0050]通过网页分块技术识别出小说介绍页中的二级导航块以及小说介绍信息块,以便识别模块201根据识别出的小说介绍页中的二级导航块以及小说介绍信息块提取小说介绍页中的核心介绍性字段。
[0051]如图2所示,图2是本实施例中一种网络小说介绍页分块后的效果示意图。
[0052]图2中每一个线条框表示一个独立的块,针对每个独立块,需要识别其中的二级导航块和小说介绍信息块。其中:
[0053]二级导航块,单独成行,且含有诸如”〉”、”> ”、〃 一 〃、”您的位置”等导航性符号。图2中框A即为二级导航块。
[0054]小说介绍信息块,包含一些小说的介绍性信息,比如类别、字数、更新时间等。识别此小说介绍信息块主要利用其中的两种特征:一种是小说介绍信息块的面积和位置特征,介绍信息块属于小说介绍页的核心内容块,因此一般具有较大面积,且位于页面的焦点区域;另一种是小说介绍信息块中的介绍性关键词。图2中框B即为小说介绍信息块。
[0055]提取模块202根据获取到的小说介绍页中二级导航块以及小说介绍信息块的面积、位置特征以及介绍性关键词,从所述小说介绍页中提取小说介绍性字段。
[0056]其中,提取模块202提取的小说介绍性字段主要包括:小说名称、小说作者、小说类别、更新时间、小说字数、小说书号、小说封面图片、小说出版社以及小说目录URL等,这些小说介绍性字段基本覆盖了所有小说网页的常用字段。
[0057]下面分别描述各字段及识别方法:
[0058]小说名称:字体最大,一般出现在二级导航块及页面标题里。
[0059]小说作者:一般出现在小说名称后的有限范围内,且有“作者:XXX”或“文/XXX”等模式。
[0060]小说类别:事先收集一个小说类别表,包含诸如武侠、言情、玄幻等20多种类别,然后在二级导航块及小说介绍信息块中查找。
[0061]更新时间:来自于小说介绍信息块,一般有“更新时间”、“最后更新”等相关字眼。
[0062]小说字数:来自于小说介绍信息块,一般有“字数”、“小说长度”等相关字眼。
[0063]小说书号:来自于二级导航块或小说介绍信息块,一般有“书号”等相关字眼。
[0064]小说封面图片:主要利用利用其位置信息进行提取,小说封面图片通常位于页面上半部分;小说封面图片高度大于宽度,且宽高在一定范围之内;对于小说封面图片的属性,该图片的描述文字一般含有小说名及“封面”/ “图片”这样的字眼。
[0065]小说出版社,来自于小说介绍信息块,一般有“出版社”等相关字眼。
[0066]小说目录URL,一般有“点击阅读”、“章节列表”等链接文字字眼。
[0067]从小说介绍页中提取出小说介绍性字段后,即可简化小说介绍页的描述,同时还可以根据提取的小说介绍性字段重新排版小说介绍页并显示,实现了网络小说在移动终端上的有效浏览,避免了现有技术中小说介绍页无法直接展示于手机侧的弊端,并且极大降低了人工维护成本。
[0068]如图5所示,本发明第二实施例提出一种网络小说介绍页的提取装置,在上述实施例的基础上,还包括:
[0069]排版显示模块203,用于根据提取的所述小说介绍性字段重新排版所述小说介绍
页并显示。
[0070]本实施例与上述实施例的区别在于,本实施例还可以根据提取的小说介绍性字段重新排版小说介绍页并显示。
[0071]如图3所示,图3是利用本实施例方案对图2所示的小说介绍页进行介绍性字段提取,并以从中获得的部分字段重新排版出来的效果示意图。
[0072]本实施例通过上述方案,将复杂的小说介绍页进行了结构化,提取了核心的介绍字段,为小说描述及用户浏览提供了便利,尤其可以实现网络小说在移动终端上的有效浏览,避免了现有技术中小说介绍页无法直接展示于手机侧的弊端,并且极大降低人工维护成本。
[0073]需要说明的是,本发明技术方案不限于网络小说介绍页的提取,对于类似于网络小说的其他网络文本也适用本发明技术方案。
[0074]以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其他相关的【技术领域】,均同理包括在本发明的专利保护范围内。
【权利要求】
1.一种网络小说介绍页的提取方法,其特征在于,包括: 对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块; 基于识别出的所述二级导航块以及小说介绍信息块从所述小说介绍页中提取小说介绍性字段。
2.根据权利要求1所述的方法,其特征在于,还包括: 根据提取的所述小说介绍性字段重新排版所述小说介绍页并显示。
3.根据权利要求1所述的方法,其特征在于,所述二级导航块至少包括导航性符号信肩、O
4.根据权利要求1所述的方法,其特征在于,所述基于识别出的所述二级导航块以及小说介绍信息块从所述小说介绍页中提取小说介绍性字段的步骤包括: 基于识别出的所述二级导航块以及所述小说介绍信息块的面积、位置特征以及介绍性关键词,从所述小说介绍页中提取小说介绍性字段。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述小说介绍性字段至少包括:小说名称、小说作者、小说类别、小说封面图片、小说目录URL。
6.一种网络小说介绍页的提取装置,其特征在于,包括: 识别模块,用于对小说介绍页进行网页分块,根据网页分块结果识别出二级导航块以及小说介绍信息块; 提取模块,用于基于识别出的所述二级导航块以及小说介绍信息块从所述小说介绍页中提取小说介绍性字段。
7.根据权利要求6所述的装置,其特征在于,还包括: 排版显示模块,用于根据提取的所述小说介绍性字段重新排版所述小说介绍页并显/Jn ο
8.根据权利要求6所述的装置,其特征在于,所述二级导航块至少包括导航性符号信肩、O
9.根据权利要求6所述的装置,其特征在于,所述提取模块还用于基于识别出的所述二级导航块以及所述小说介绍信息块的面积、位置特征以及介绍性关键词,从所述小说介绍页中提取小说介绍性字段。
10.根据权利要求6-9中任一项所述的装置,其特征在于,所述小说介绍性字段至少包括:小说名称、小说作者、小说类别、小说封面图片、小说目录URL。
【文档编号】G06F17/30GK103729370SQ201210389911
【公开日】2014年4月16日 申请日期:2012年10月15日 优先权日:2012年10月15日
【发明者】蔡兵, 朱章厚, 徐羽 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1