基于宽度优先搜索策略获取图书信息的方法

文档序号:8282302阅读:208来源:国知局
基于宽度优先搜索策略获取图书信息的方法
【技术领域】
[0001]本发明涉及一种基于宽度优先搜索策略获取图书信息的方法。
【背景技术】
[0002]随着电子信息行业的发展电子书逐渐代替传统的纸质书。电子书是指将文字、图片、声音、影像等讯息内容数字化的出版物以及植入或下载数字化文字、图片、声音、影像等讯息内容的集存储介质和显示终端于一体的手持阅读器。代表人们所阅读的数字化出版物,从而区别于以纸张为载体的传统出版物,通过数码方式记录在以光、电、磁为介质的设备中,借助于特定的设备来读取、复制、传输。因其具有方便性,可搜寻内容,改变字体大小及字型,还可随身携带。容量大,随时可网络下载,不受地域限制,省去大量时间。因而被人们广泛接受。目前很多电子书都是章节性更新,因为版权意识加强,很多书籍都只在一些特定网站上进行更新,这就为手机推送图书服务带来了很大困难。
[0003]宽度优先搜索策略,在宽度优先搜索中,先搜索完一个Web页面中所有的超级链接,然后再继续搜索下一层,直到底层为止。例如,一个HTML文件中有三个超链,选择其中之一并处理相应的HTML文件,然后不再选择第二个HTML文件中的任何超链,而是返回并选择第二个超链,处理相应的HTML文件,再返回,选择第三个超链并处理相应的HTML文件。一旦一层上的所有超链都己被选择过,就可以开始在刚才处理过的HML文件中搜索其余的超链。这就保证了对浅层的首先处理。当遇到一个无穷尽的深层分支时,不会导致陷进WWW中的深层文档中出现出不来的情况发生。宽度优先搜索策略还有一个优点,即它能在两个HTML文件之间找到最短路径。宽度优先搜索策略通常是实现爬虫的最佳策略,因为它容易实现,而且具备大多数期望的功能。但是如果要遍历一个指定的站点或者深层嵌套的HTML文件集,用宽度优先搜索策略则需要花费比较长的时间才能到达深层的HTML文件。综合考虑以上几种策略和国内信息导航系统搜索信息的特点,国内一般采用以宽度优先搜索策略为主、线性搜索策略为辅的搜索策略。对于某些不被引用的或很少被引用的HTML文件,宽度优先搜索策略可能会遗漏这些孤立的信息源,可以用线性搜索策略作为它的补充。为解决上述问题提供了技术支持。

【发明内容】

[0004]本发明针对以上问题的提出,而研制基于宽度优先搜索策略获取图书信息的方法。本发明采用的技术方案如下:
[0005]一种基于宽度优先搜索策略获取图书信息的方法,其特征在于包括如下步骤:
[0006]I)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;
[0007]2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;
[0008]3)图书网站校验通过后,图书信息收索服务器通过宽度优先搜索策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载,下载的更新图书信息经过防火墙和数据过滤器后存入图书信息收索服务器本地存储器中;
[0009]4)图书信息收索服务器对存储如本地存储器的图书信息进行编译,然后发送到图书源数据库中。
[0010]步骤3)中:所述图书下载方式为通过宽度优先搜索策略边搜索边下载。
[0011]由于采用了上述技术方案,本发明提供的方法具有:使用方便、处理速度、技术实现容易等特点。另外,该方法基于计算机系统的实现,只需将该方法编译成相应的程序即可实现对现有计算机的升级,因此其成本非常低廉适于广泛推广。
【附图说明】
[0012]图1为本发明所述系统的结构框图;
[0013]图2为本发明的实现流程图。
【具体实施方式】
[0014]如图1和图2所示一种基于宽度优先搜索策略获取图书信息的方法,其特征在于包括如下步骤:
[0015]I)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;
[0016]2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;
[0017]3)图书网站校验通过后,图书信息收索服务器通过宽度优先搜索策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载,下载的更新图书信息经过防火墙和数据过滤器后存入图书信息收索服务器本地存储器中;
[0018]4)图书信息收索服务器对存储如本地存储器的图书信息进行编译,然后发送到图书源数据库中。
[0019]步骤3)中:所述图书下载方式为通过宽度优先搜索策略边搜索边下载。
[0020]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
【主权项】
1.一种基于宽度优先搜索策略获取图书信息的方法,其特征在于包括如下步骤: 1)图书信息收索服务器通过有线或无线的方式连接到各图书网站上; 2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验; 3)图书网站校验通过后,图书信息收索服务器通过宽度优先搜索策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载,下载的更新图书信息经过防火墙和数据过滤器后存入图书信息收索服务器本地存储器中; 4)图书信息收索服务器对存储如本地存储器的图书信息进行编译,然后发送到图书源数据库中。
2.根据权利要求1所述的一种基于宽度优先搜索策略获取图书信息的方法,其特征在于步骤3)中: 所述图书下载方式为通过宽度优先搜索策略边搜索边下载。
【专利摘要】本发明公开了一种基于宽度优先搜索策略获取图书信息的方法,其特征在于包括如下步骤:1)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;2)图书信息收索服务器中存储有对应网站的数字许可证书;3)图书网站校验通过后,图书信息收索服务器通过宽度优先搜索策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载,下载的更新图书信息经过防火墙和数据过滤器后存入图书信息收索服务器本地存储器中;4)图书信息收索服务器对存储如本地存储器的图书信息进行编译,然后发送到图书源数据库中。本发明提供的方法具有:使用方便、处理速度、技术实现容易等特点。
【IPC分类】G06F17-30
【公开号】CN104598481
【申请号】CN201310533957
【发明人】张宇
【申请人】大连易维立方技术有限公司
【公开日】2015年5月6日
【申请日】2013年10月31日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1