本发明涉及一种针对图片格式的网络爬虫提取URL并索引及映射的框架
背景技术:
网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和Web文档检索的方法遍历因特网信息空间。
目前网络爬虫只爬取文本,不能爬取音乐、图片和视频等多媒体文件,原因主要是多媒体数据量巨大;如何下载传输多媒体文件;如何索引多媒体文件;进而对处理过的多媒体文件进行检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
因特网上有数千种不同的数据类型,HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签(常见图片格式:image/jpeg,image/gif)。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。
UDP是OSI参考模型中一种无连接的传输层协议,它主要用于不要求分组顺序到达的传输中,分组传输顺序的检查与排序由应用层完成,提供面向事务的简单不可靠信息传送服务。网络图片可通过UDP进行下载,因为UDP具有TCP所望尘莫及的速度优势。
基于关键帧的网络视频格式文件摘要提取,计算量非常大,实时要求很难实现。而针对网络视频缩略图进行检索,是基于现有技术,一种可行的路径。
本发明提供了一种针对图片格式的网络爬虫提取URL并索引及映射的框架,可在适当增加数据量的前提下,通过METAFILE的关键词对URL进行索引,并与相关直方图建立映射,利用关键词对图片格式文件进行检索,再对检索结果进行直方图的精准检索,构建网络图片格式文件的搜索引擎。
技术实现要素:
本发明的目的在于提供一种针对图片格式的网络爬虫提取URL并索引及映射的框架。本发明包括以下特征:
发明技术方案
1.一种针对图片格式的网络爬虫提取URL并索引及映射的框架,其具体步骤如下:
1)网络爬虫从遍历参数和起始URL开始;
2)使用URL库中的第一个URL从网络上下载网页;
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;
4)如果网页没有被拒绝,则将它保存到网页库中;
5)并传递给链接提取;
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;
7)同时提取直方图,传递给直方图库;
8)将没有被拒绝的URL进行索引,递给URL库;并与相关直方图建立映射;
9)URL库然后将一个未被访问的URL传递给网页提取。
2.基于权利要求1的框架,构建网络图片格式文件搜索引擎。
附图说明
图1是针对图片格式的网络爬虫框架图。
具体实施方式
这种针对图片格式的网络爬虫提取URL并索引及映射的框架,包括如下步骤:
1)网络爬虫从遍历参数和起始URL开始;
2)使用URL库中的第一个URL从网络上下载网页;
3)将其传递给重复网页检查,重复核查的准确性取决于具体的遍历参数;
4)如果网页没有被拒绝,则将它保存到网页库中;
5)并传递给链接提取;
6)链接提取从网页的METAFILE中提取链接,传递给URL检查;如果之前访问过,或不符合遍历参数表中列出的标准,则拒绝下载;
7)同时提取直方图,传递给直方图库;
8)将没有被拒绝的URL进行索引,递给URL库;并与相关直方图建立映射;
9)URL库然后将一个未被访问的URL传递给网页提取;
10)构建网络图片格式文件的搜索引擎。