网络信息抓取方法

文档序号:6600599阅读:1061来源:国知局
专利名称:网络信息抓取方法
网络信息抓取方法
技术领域
本发明涉及搜索引擎领域,特别涉及搜索引擎的网页抓取技术。背景技术
随着网络通讯技术的迅猛发展,互联网已经成为一个巨大的蕴藏潜在价值知识的分布式信息空间,网络信息中蕴涵着许多有用的、潜在的、但不容易被发现的知识和模式, 人们迫切地需要发现并掌握能够获得这些知识和模式的方法和工具。互联网上的信息存在于一张张的网页中,网页之间依靠超链接相互联系,形成错综复杂的信息网。早期的互联网时代,人们查找信息非常不方便,导致了搜索引擎的出现。 搜索引擎在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。搜索引擎的原理简单来说分为三段信息抓取、信息处理和查询服务。其中信息抓取就是通过网络爬虫从一个或若干个初始网页的网络地址开始,获得初始网页上的网络信息,通过不断从当前网页上抽取新的网络地址放入队列来获得更多的网页及网页上的网络信息,直到满足系统的一定停止条件为止。信息处理就是在获得网络信息后将其存储在搜索引擎的数据库内,然后对网络信息进行一定的处理以利于检索。最后查询服务按照用户的需要将这些处理过后的网络信息进行反馈。但是现有技术中搜索引擎所处理的最小对象是一个网页。请参考图1,其示出了现有搜索引擎描绘互联网的结构模型100。所述现有搜索引擎描绘互联网的结构模型100为网页图模型。所述网页图100由若干网页节点及超链接边组成。搜索引擎在信息抓取过程中将每个网页保存成一个网页节点,如图中所示的节点102 ;然后将各个网页节点通过超链接作为关系连接起来,如图中所示的边104 ;将整个互联网储存成一个网页图结构。应当注意到,在一个网页内并不是所有的信息都是用户希望得到的信息。请参考图2,其示出了现有技术中的一个包含结构化信息块的网页200,所述网页200包括三个部分网站分类导航信息块202、广告及其他信息块204和所述网页200的主题部分206。对于绝大多数用户来说,其希望搜索到的只是与关键字有关的主题部分206的信息,而对于网站分类导航信息块202和广告及其他信息204并不关心。类似所述网页200的主题部分206这样的网络信息,我们称之为结构化信息块。结构化信息块是指信息经过分析后可分解为多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理的网页信息。比如在一个有关笔记本的页面内,其结构化信息块包含了笔记
本“品牌、型号、CPU、内存、硬盘、显示屏.......”的信息;在一个有关房产信息的页面,其
结构化信息块包含了房产的“类型、地域、地址、房型、面积、装修情况、租金、联系人、联系电
话.......”的信息。可以认识到,网络上类似的信息是海量的,也是用户希望能直接获得
的信息。如果搜索引擎在信息抓取过程中采用图1所示的网页图结构来描绘互联网,显然会造成查询结果含有大量无用信息,造成查准率的下降。而且通过超链接作为关系来存储各个网页节点之间的关系也不具有逻辑性,由于搜索引擎都是将网页地址作为搜索结果来呈现给用户,而用户点击相关结果时很可能超链接的下个网站就是一个无用的广告网站,与用户的目标期望有较大出入,浪费用户的时间。因此,有必要提出一种新的技术方案来解决上述缺点。

发明内容本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。本发明的一个目的在于提供一种网络信息抓取方法,搜索引擎可以通过所述网络信息抓取方法抓取互联网中的结构化信息。为了达到本发明的目的,根据本发明的一个方面,本发明提供一种网络信息抓取方法,所述方法包括将一初始网址作为当前网址,从所述当前网址上抓取网页,分析抓取到的网页并提取其内的结构化信息,将所述结构化信息存储为当前物件节点;将抓取到的网页内的一链接地址作为当前网址,继续从当前网址上抓取网页,分析抓取到的网页并提取其的结构化信息,将所述结构化信息存储为当前物件节点,定义并存储所述当前物件节点和已有物件节点的关系,重复本操作以完成网络信息的抓取。进一步地,所述初始网址为一个或多个。进一步地,所述分析抓取到的网页并提取其内的结构化信息是指提取抓取到的网页内的结构化信息块或将抓取到的网页内的半结构化信息块和非结构化信息块转换为结构化信息块,每一个结构化信息块作为一个物件节点。进一步地,抓取到的一个网页内可能提取到一个或多个结构化信息块,每一个结构化信息块作为一个物件节点。进一步地,所述定义并存储所述当前物件节点和已有物件节点的关系是指通过当前物件节点和已有物件节点内数据的逻辑或者语义关系来定义当前物件节点和已有物件节点的关系并存储。进一步地,所述定义并存储所述当前物件节点和已有物件节点的关系是指每提取一个当前物件节点都要与已有物件节点定义关系并存储。进一步地,如果抓取到的网页内无法提取到结构化信息,则将所述抓取到的网页作为一个伪物件节点。进一步地,通过所述网络信息抓取方法抓取到的网络信息是一个物件图。进一步地,通过所述网络信息抓取方法还包括去除获得的物件图中的伪物件节
点ο与现有技术相比,本发明通过物件图来描绘互联网,搜索引擎所处理的最小单位是一个物件节点即一个结构化信息块,可以使用户得到直接的有用信息,去除掉了广告信息和无用信息;同时每个物件节点之间的关系是通过逻辑或者语义关系来定义的,每个物件节点之间的关系具有一定的逻辑或者语义关系,可以使查询结果具有较好的查准率。

结合参考附图及接下来的详细描述,本发明将更容易理解,其中同样的附图标记对应同样的结构部件,其中
图1为现有搜索引擎描绘互联网的结构模型;图2为现有技术中的一个包含结构化信息块的网页;图3为本发明中物件图在一个实施例中的结构示意图;图4为用本发明中所述的物件图来描绘互联网的示意图;和图5为本发明网络信息抓取方法在一个实施例中的方法流程图。
具体实施方式本发明的详细描述主要通过程序、步骤、逻辑块、过程或其他象征性的描述来直接或间接地模拟本发明技术方案的运作。为透彻的理解本发明,在接下来的描述中陈述了很多特定细节。而在没有这些特定细节时,本发明则可能仍可实现。所属领域内的技术人员使用此处的这些描述和陈述向所属领域内的其他技术人员有效的介绍他们的工作本质。换句话说,为避免混淆本发明的目的,由于熟知的方法、程序、成分和电路已经很容易理解,因此它们并未被详细描述。此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。此外,表示一个或多个实施例的方法、流程图或功能框图中的模块顺序并非固定的指代任何特定顺序,也不构成对本发明的限制。本发明中的网络信息抓取方法可以利用计算机结合相关程序实现成为一个信息抓取模块,位于整个搜索引擎系统的信息抓取位置。在网络信息抓取时将结构化信息块作为最小处理单位,将互联网描绘成一个物件图而不是网页图。为了突出重点,下面仅讲述与本发明有关的网络信息抓取技术,对于搜索引擎系统的其他方面,本文不再累述。请参考图3,其示出了本发明中的物件图在一个实施例中的结构示意图。物件图 300同样包括图模型的两大基本要素节点和边。我们定义物件图由若干物件节点(如图所示节点304和节点310)及连接两个物件节点的关系边(如图所示边306)所构成。其中物件节点代表互联网中的一个网页内的结构化信息块。如图中所示网页302内的一个结构化信息块304即是一个物件节点;图2中的网页200的主题部分206即是一个物件节点。 在一个实施例里,物件节点可以代表商品的结构化信息,其可以包括商品名称、商品价格、 商品信息和商品产地等信息。在另外一个实施例中,物件节点可以代表公司的结构化信息, 其可以包括公司名称、公司规模、公司注册日期和公司法人等信息。总之对于不同的主题, 物件节点可能表示不同的信息。而连接两个物件节点的关系边则是表示两个物件节点的关系,通常是两个物件节点所代表的结构化信息的逻辑或者语义关系等。在一个实施例中,假如两个物件节点A和B描述的主题都是学术论文,其结构化信息可能包括论文作者、论文出版社、论文出版时间和论文摘要等,那么这两个物件节点的关系可能是物件节点A引用了物件节点B、物件节点A与物件节点B为同一作者、物件节点A与物件节点B为同一出版社、 物件节点A与物件节点B为同一主题等等。请参考图4,其示出了用本发明所述的物件图来描绘互联网的示意图。互联网400 包括很多互相关联的物件图。在一个实施例中,物件图402是一个主题是关于学术论文的物件节点及相关关系边的集合;在另外一个实施例中,物件图404是代表一个学校所有人员的信息集合,其中物件节点代表所有学生、教师及员工的个人信息,其中的关系边可能是班级、年龄等逻辑关系;在再一个实施例中,物件图406是代表一个博客网站的所有博文, 其中物件节点代表博客的正文、作者、时间等信息,其中关系边可能是作者共同的爱好、同一发表时间等。每个物件图都可能是一个在主题上或者语义上独立的集合,但是互相都有关系连接,比如物件图404中的学生或者教师可能是物件图402的学术论文的作者,物件图 406中博客的主人就是物件图404的员工等等。总之,通过物件图来描绘互联网时希望每个物件节点包含一个逻辑上或者语义上的独立的结构化信息块,每个物件节点之间的关系是一种逻辑上或者语义上的关系。显然,当通过物件图来描绘互联网时相当于搜索引擎预先对网络上的信息进行了筛选、过滤。当用户搜索时可以直接反馈给予用户最重要的或者最期望获得的信息。请参考图5,其示出了本发明网络信息抓取方法500的方法流程图。所述方法500 包括如下步骤。步骤502,将一初始网址作为当前网址,从所述当前网址上抓取网页,分析抓取到的网页并提取其内的结构化信息,将所述结构化信息存储为当前物件节点。搜索引擎可以从一个或者多个初始网址开始抓取网页,在抓取到一个网页后,就要提取网页中的结构化信息出来作为物件节点。在一个实施例中,在从网页上提取结构化信息之前,可以定义结构化信息模板。同样的,如上所述,对于不同的数据主题,所述结构化信息模板的定义可以完全不同,比如,对于商品信息这样的主题来说,所述结构化信息可以包括商品名称、商品简介、商品价格、商品信息和商品产地等信息栏位,再比如,对于公司信息这样的主题来说,所述结构化信息可以包括公司名称、公司规模、公司注册日期和公司法人等信息栏位。利用定义的结构化信息模板在网页内进行遍历搜索,如果所述网页内的一部分数据能够与所述结构化信息模板匹配,那这部分数据就可以作为所述网页内的结构化信息进行提取。在另外一个实施例中,采用基于视觉的网络结构化信息提取技术来提取网络上的结构化信息块或将半结构化信息块和非结构化信息块转化为结构化信息块,即把一个完整页面分割为多个语义块,提取其中的一个语义块作为网页的结构化信息块。在再一个实施例中,结合多种网络结构化信息块提取技术来综合处理网页以获得更多的结构化信息块作为物件节点。在一个实施例中,如果当前网页提取到一个结构化信息,就将其作为当前的一个物件节点;如果当前网页提取到两个结构化信息,也将其作为当前的两个物件节点,并定义当前两个物件节点的关系;如果当前网页没有提取到结构化信息块,就先存储为一个伪物件节点。假如图3所示网页302是一个商品导购页面,其可以提取出商品的结构化信息304, 那么就形成一个物件节点304 ;假如网页308是一个商品的用户使用评价页面,那么其无法提取出结构化信息,那么先建立一个伪物件节点310 ;假如图3所示网页312就包括两个结构化信息块314和316,这时就形成了两个物件节点。步骤504,将抓取到的网页内的一链接地址作为当前网址,继续从当前网址上抓取网页,分析抓取到的网页并提取其的结构化信息,将所述结构化信息存储为当前物件节点, 定义并存储所述当前物件节点和已有物件节点的关系,重复本操作以完成网络信息的抓取。在处理完一个页面后就按照这个页面内的链接地址继续抓取下一个页面,并同样进行结构化信息的提取。特别地,要将这个页面内所有的链接地址都要依次按照一定策略进行类似处理,比如,可以采用了 I^ageRank的算法的策略进行处理。如果提取到一个结构化信息块时,就将其作为一个物件节点;如果当前网页没有提取到结构化信息块时,就先作为一个伪物件节点。在一个实施例中,每提取到一个新的物件节点都要和已有的物件节点来定义关系,所述关系通过每个物件节点内的结构化信息的有关数据或者属性标签判断是否含有相同数据或同类型数据,数据之间是否具有引用和继承关系等来确定。比如,在一个实施例中,两个代表同一品牌食品的物件节点,由于两个物件节点的结构化信息里包括相同的品牌数据,则将两个物件节点的关系定义为同一品牌。循环上述504步骤,就可以将整个互联网上的网页都处理一次,这时就可以得到一张物件图,我们还可以后续将所述物件图中的伪物件节点去除,然后优化物件图中的物件节点之间的关系来获得更为精确的物件图。在一个具体的实施例中,我们用所述的网络数据抓取方法利用计算机结合相关程序实现成为一个信息抓取模块,位于一个手机搜索引擎的信息抓取位置,为用户提供美食、 住行、商品等生活信息的检索,用户在输入关键字“无锡咖啡馆”后,就会在手机客户端直接获得有关无锡咖啡馆的相关信息,而没有其他广告信息或者无用信息。不仅节省了用户的时间而且充分利用了手机上较小的显示屏幕显示出了更多有用信息。本发明中的网络数据抓取方法的一个特点、优点或好处在于不是直接抓取整个网页,而是对网页的数据进行分析提取,仅抓取其中的部分有用信息,这样可以使存储的数据量也会大大降低,同时可以保证后续的搜索更有针对性,搜索结果也更为准确。通过设定不同的主题,可以对互联网上的数据进行有针对性地抓取,既保证了数据的全面性,也保证了数据的针对性。上述说明已经充分揭露了本发明的具体实施方式
。需要指出的是,熟悉该领域的技术人员对本发明的具体实施方式
所做的任何改动均不脱离本发明的权利要求书的范围。 相应地,本发明的权利要求的范围也并不仅仅局限于所述具体实施方式

权利要求
1.一种网络信息抓取方法,其特征在于,其包括将一初始网址作为当前网址,从所述当前网址上抓取网页,分析抓取到的网页并提取其内的结构化信息,将所述结构化信息存储为当前物件节点;将抓取到的网页内的一链接地址作为当前网址,继续从当前网址上抓取网页,分析抓取到的网页并提取其的结构化信息,将所述结构化信息存储为当前物件节点,定义并存储所述当前物件节点和已有物件节点的关系,重复本操作以完成网络信息的抓取。
2.根据权利要求1所述的网络信息抓取方法,其特征在于所述初始网址为一个或多个。
3.根据权利要求1所述的网络信息抓取方法,其特征在于所述分析抓取到的网页并提取其内的结构化信息是指提取抓取到的网页内的结构化信息块或将抓取到的网页内的半结构化信息块和非结构化信息块转换为结构化信息块,每一个结构化信息块作为一个物件节点。
4.根据权利要求1所述的网络信息抓取方法,其特征在于抓取到的一个网页内可能提取到一个或多个结构化信息块,每一个结构化信息块作为一个物件节点。
5.根据权利要求1所述的网络信息抓取方法,其特征在于所述定义并存储所述当前物件节点和已有物件节点的关系是指通过当前物件节点和已有物件节点内数据的逻辑或者语义关系来定义当前物件节点和已有物件节点的关系并存储。
6.根据权利要求1所述的网络信息抓取方法,其特征在于所述定义并存储所述当前物件节点和已有物件节点的关系是指每提取一个当前物件节点都要与已有物件节点定义关系并存储。
7.根据权利要求1所述的网络信息抓取方法,其特征在于如果抓取到的网页内无法提取到结构化信息,则将所述抓取到的网页作为一个伪物件节点。
8.根据权利要求7所述的网络信息抓取方法,其特征在于通过所述网络信息抓取方法抓取到的网络信息是一个物件图。
9.根据权利要求8所述的网络信息抓取方法,其特征在于通过所述网络信息抓取方法还包括去除获得的物件图中的伪物件节点。
全文摘要
本发明揭露了一种网络信息抓取方法,所述方法包括将一初始网址作为当前网址,从所述当前网址上抓取网页,分析抓取到的网页并提取其内的结构化信息,将所述结构化信息存储为当前物件节点;将抓取到的网页内的一链接地址作为当前网址,继续从当前网址上抓取网页,分析抓取到的网页并提取其的结构化信息,将所述结构化信息存储为当前物件节点,定义并存储所述当前物件节点和已有物件节点的关系,重复本操作以完成网络信息的抓取。
文档编号G06F17/30GK102214179SQ20101014413
公开日2011年10月12日 申请日期2010年4月12日 优先权日2010年4月12日
发明者梁久祯, 白玉昭, 胡丽娟 申请人:无锡科利德斯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1