一种基于直方图的网络图片格式文件提取及映射方法

文档序号:9304544阅读:186来源:国知局
一种基于直方图的网络图片格式文件提取及映射方法
【技术领域】
[0001]本发明涉及一种基于直方图的网络图片格式文件提取及映射方法
【背景技术】
[0002]目前网络爬虫只爬取文本,不能爬取音乐、图片和视频等多媒体文件,原因主要是多媒体数据量巨大;如何下载传输多媒体文件;如何索引多媒体文件;进而对处理过的多媒体文件进行检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
[0003]网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和Web文档检索的方法遍历因特网信息空间。
[0004]因特网上有数千种不同的数据类型,HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签(常见图片格式:image/jpeg, image/gif)。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关鐘显,可针对元素的关键词进行索引。
[0005]UDP是OSI参考模型中一种无连接的传输层协议,它主要用于不要求分组顺序到达的传输中,分组传输顺序的检查与排序由应用层完成,提供面向事务的简单不可靠信息传送服务。网络图片可通过UDP进行下载,因为UDP具有TCP所望尘莫及的速度优势。
[0006]本发明提供了一种基于直方图的网络图片格式文件提取及映射方法,可在适当增加数据量的前提下,通过URL确定网络图片格式文件的地址,利用UDP协议缓存下载网络图片格式文件,提取网络图片格式文件的直方图,建立与URL的映射,然后存储到服务器集成数据中心,以便对网络图片格式文件进行精准检索。

【发明内容】

[0007]本发明的目的在于提供一种基于直方图的网络图片格式文件提取及映射方法。本发明包括以下特征:
[0008]发明技术方案
[0009]一种基于直方图的网络图片格式文件提取及映射方法,其具体步骤如下:
[0010]I)通过URL确定网络图片格式文件的地址;
[0011]2)利用UDP协议缓存下载网络图片格式文件;
[0012]3)提取网络图片格式文件的颜色和灰阶直方图,并建立与URL的映射;
[0013]4)然后存储到服务器集成数据中心;
[0014]5)以便对网络图片格式文件,进行关键词基础上的精准检索。
【附图说明】
[0015]图1是基于直方图的网络图片格式文件提取及映射流程图。
【具体实施方式】
[0016]这种基于直方图的网络图片格式文件提取及映射方法,包括如下步骤:
[0017]I)通过URL确定网络图片格式文件的地址;
[0018]2)利用UDP协议缓存下载网络图片格式文件;
[0019]3)提取网络图片格式文件的颜色和灰阶直方图,并建立与URL的映射;
[0020]4)然后存储到服务器集成数据中心;
[0021]5)以便对网络图片格式文件,进行关键词基础上的精准检索。
【主权项】
1.一种基于直方图的网络图片格式文件提取及映射方法,其具体步骤如下:1)通过URL确定网络图片格式文件的地址;2)利用UDP协议缓存下载网络图片格式文件;3)提取网络图片格式文件的颜色和灰阶直方图,并建立与URL的映射;4)然后存储到服务器集成数据中心;5)以便对网络图片格式文件,进行关键词基础上的精准检索。
【专利摘要】本发明公开了一种基于直方图的网络图片格式文件提取及映射方法,其具体步骤如下:1)通过URL确定网络图片格式文件的地址;2)利用UDP协议缓存下载网络图片格式文件;3)提取网络图片格式文件的颜色和灰阶直方图,并建立与URL的映射;4)然后存储到服务器集成数据中心;5)以便对网络图片格式文件,进行关键词基础上的精准检索。
【IPC分类】G06F17/30
【公开号】CN105022738
【申请号】CN201410160165
【发明人】张军, 宋惟忠
【申请人】上海京知信息科技有限公司
【公开日】2015年11月4日
【申请日】2014年4月21日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1