网页信息处理方法及装置的制造方法_2

文档序号:9865505阅读:来源:国知局
施例示出的另一种网页信息处理装置框图。
[0081]图8是根据一示例性实施例示出的一种终端的框图。
[0082]图9是根据一示例性实施例示出的一种服务器的框图。
【具体实施方式】
[0083]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0084]图1是根据一示例性实施例示出的一种网页信息处理方法的流程图,如图1所示,该网页信息处理方法可以用于计算机或服务器中,包括以下步骤。
[0085]在步骤SlOl中,检测待检测网页的网页内容中是否包含有图片信息。
[0086]在网页爬虫系统对网页进行抓取和分析时,通常会建立一个预设地址库,用于存储从网页上得到的链接地址,进而当对某一个网页上的文本内容分析完成后,还会继续对预设地址库中、与该网页上的链接地址所对应的网页进行进一步抓取,从而可以使得网页爬虫系统抓取到更多、更完整的网页地址和内容,提高爬虫抓取的深度。
[0087]在本公开实施例提供,如图2所示,该步骤SlOl可以包括以下步骤:
[0088]在步骤SlOll中,从预设地址库获取待检测网页的链接地址。
[0089]对于网页爬虫系统而言,所有需要检测的网页的链接地址,都存储在该预设地址库中。在对预设地址库中的链接地址对应的网页进行抓取个分析时,可以逐一将预设地址库中的链接地址对应的网页作为待检测网页,也可以根据链接地址之间的关系,有选择地将预设地址库中的某一链接地址对应的网页作为待检测网页。
[0090]在步骤S1012中,利用所述链接地址,获取所述待检测网页所有的网页内容。
[0091]图3为本公开实施例提供的一种场景示意图。图中包括:终端1、本地服务器2和多个网络服务器3,其中,终端I可以为计算机,网页爬虫系统可以运行在终端I或本地服务器2上,终端I和本地服务器2可以通过互联网与任意一个网络服务器3之间进行数据交互。
[0092]下面以网页爬虫系统运行在本地服务器2上为例,相应地预设地址库可以存在本地服务器2上。当本地服务器2上的网页爬虫系统需要对网页A进行抓取和分析时,首先根据网页A的链接地址从一个或多个网络服务器3中将网页A的网页内容下载到本地服务器2中。
[0093]在步骤S1013中,判断所述网页内容中是否包含有图片链接地址。
[0094]检测图片信息的方式有很多,在该步骤中,采用判断是否有图片链接地址的方式来进行判断,图片链接具有其特定的格式,例如:
[0095]http: //ecma.bdimg.com/1 ego-mat/ 616c40b6bb30ff5541e7f790140706ce_259_194.jpg,或者,http://www.baidu.com/img/bdlog0.png,
[0096]其中,最后的“.jpg”或“.png”就可以确定该网页内容中有图片链接地址。
[0097]当然,在本公开其它实施例中,还可以通过对网页内容源代码中的样式进行分析,判断源代码中是否有占有面积较大的元素,同样可以判断网页内容中是否包含有图片信息。另外,通过源代码的方式判断有图片信息后,还需要进一步确定图片信息对应的链接地址。所以,上述采用链接地址以及源代码中元素等方式还可以结合起来,一起来检测网页内容中是否包含有图片信息。
[0098]当所述网页内容中包含有图片链接地址时,在步骤S1014中,确定所述网页内容中包含有图片信息。否则,结束。
[0099]当所述网页内容中包含有图片信息时,在步骤S102中,获取与所述图片信息对应的图片。否则,结束流程。
[0100]参见上述步骤S1013中的描述,当确定网页内容中有图片信息时,在该步骤中,可以先获取与图片信息对应的链接地址,进而本地服务器2可以通过图片信息对应的链接地址,从一个或多个网络服务器3中下载与图片信息对应的图片。
[0101]在步骤S103中,对所述图片进行识别,得到所述图片内包含的内容信息。
[0102]在本公开实施例中,图片可以为二维码图片,也可以为其它带有信息的图片,例如:条形码等。在识别时,可以根据不同的图片选择不同的识别方式,对于二维码图片,可以采用二维码识别程序,对于其它图片,也可以采用相应的识别程序。在具体应用中,可以预先根据可能遇到的图片种类,集中设置与不同图片种类对应的识别程序。
[0103]识别到的图片内包含的内容信息,可能是文字,也可能是链接地址。例如:当图片为包含某人名字或某些宣传信息的二维码图片,相应地,内容信息为人名或宣传信息,当图片为包含有软件下载地址的二维码图片,相应地,内容信息为软件下载地址。
[0104]在一个【具体实施方式】中,该步骤可以包括以下步骤:
[0105]01)、调用与所述预设识别方式对应的识别程序;
[0106]识别程序可以为二维码识别程序,也可以为其它图像识别程序。
[0107]02)、利用所述识别程序对所述图片进行识别,得到所述图片内包含的内容信息。
[0108]在步骤S104中,判断所述内容信息是否为链接地址。
[0109]当所述内容信息不为链接地址时,在步骤S105中,将所述内容信息作为所述待检测网页的文本内容进行存储。
[0110]由于图片内包含的内容信息不为链接地址,所以对图片的抓取和分析就可以直接结束,并且将获取到的内容信息作为待检测网页的文本内容直接存储。如图4所示,图中网页的左侧和右侧包含有两个图片,对于左侧图片,识别到的内容信息应为“中新網”、“chinanews.com”和“梳理天下新闻”。这样对于左侧图片中识别的“中新網”、“chinanews.com”和“梳理天下新闻”,可以直接作为网页的文本内容进行存储。
[0111]当所述内容信息为链接地址时,在步骤S106中,将与所述内容信息对应的链接地址存储到预设地址库中。
[0112]当所述内容信息为链接地址时,说明网页爬虫系统还可以继续对该链接地址对应的网页进行抓取和分析,所以可以直接将内容信息对应的链接地址存储到预设地址库中,以便于后续可以对该链接地址对应的网页进行抓取和分析。
[0113]以图4中右侧图片为例,识别到的内容信息应为“中新網”、“中国新闻网新闻客户端”,以及与二维码图片对应的下载地址,那么与该二维码图片对应的下载地址就可以存储到预设地址库中,以便下次可以对该下载地址对应的下载网页进行抓取和分析。
[0114]本公开实施例提供的该网页信息处理方法,在对网页进行抓取和分析时,不再局限于网页中包含的字符内容,而是可以对网页中包含的图片中携带的信息进行分析,当网页内包含的图片中携带有链接地址时,可以提取该链接地址,以便后续可以对该链接地址对应的网页进行进一步的抓取和分析。
[0115]与相关技术相比,该方法不仅可以得到抓取和分析到网页内容中表面的字符内容,而且可以对网页内容中图片中携带的信息进行进一步的分析,所以在对网页进行抓取和分析时,可以获取到待检测网页更加全面和完整的网页信息,提高对网页进行抓取和分析的效果。
[0116]在图1所述实施例中,无论什么图片都会进行识别,这种对于网页中的图片全部是二维码图片的网页,不会有什么影响,但在实际应用中,如图4的网页,链接地址通常隐藏设置在二维码图片中,而不会单独设置在一个图片中以明文形式存在,并且,在网页中通常会存在大量的新闻图片,那么在利用图1所示实施例提供的方法对网页进行抓取和分析时,会出现大量对新闻图片进行识别的无用工作,导致网页爬虫系统的工作效率降低。
[0117]为此,如图5所示,在本公开实施例中,该网页信息处理方法可以包括以下步骤。
[0118]在步骤S201中,检测待检测网页的网页内容中是否包含有图片信息。
[0119]当所述网页内容中包含有图片信息时,在步骤S202中,获取与所述图片信息对应的图片。否则,结束流程。
[0120]在步骤S203中,判断所述图片是否为预设图片类型。
[0121]在本公开实施例中,预设图片类型可以包括:二维码图片。在具体判断时,一种方式中,该步骤S203可以包括以下步骤:
[0122]11)、判断所述图片内是否包含有预设图片特征。
[0123]可以利用识别程序对图片进行识别,例如:二维码识别程序,提取图片中的识别特征,然后再将识别特征与预设特征库进行比较,当识别特征位于预设特征库中时,就可以确定图片内是否包含有预设图片特征。
[0124]12)、当所述图片内包含有预设图片特征时,确定所述图片为预设图片类型。
[0125]另一种方式中,该步骤S203可以包括以下步骤:
[0126]21)、判断所述图片的名称中是否包含预设字符特征。
[0127]22)、当所述图片的名称中包含有预设字符特征时,确定所述图片为预设图片类型。
[0128]在一种场景中,可以将网页中不同类型的图片进行不同的编号或命名,例如:针对二维码图片,单独采用一套新的的编号或命名,这样,就可以通过图片的名称中是否包含预设字符特征,来确定图片是否为预设图片类型。
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1