一种针对网络图片格式文件的链接方法

文档序号:9288400阅读:618来源:国知局
一种针对网络图片格式文件的链接方法
【技术领域】
[0001 ] 本发明涉及一种针对网络图片格式文件的链接方法
【背景技术】
[0002]网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和Web文档检索的方法遍历因特网信息空间。
[0003]因特网上有数千种不同的数据类型,HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签(常见图片格式:image/jpeg, image/gif)。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,比如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。
[0004]目前网络爬虫只爬取文本,不能爬取音乐、图片和视频等多媒体文件,原因主要是多媒体数据量太大;如何爬取多媒体文件;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。
[0005]本发明提供了一种针对网络图片格式文件的链接方法,通过METAFILE的关键词对包含图片格式文件的网页进行查询,初始化每个相关网页的中心度和权威度,重复投票过程,报告排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。

【发明内容】

[0006]本发明的目的在于提供一种针对网络图片格式文件的链接方法。本发明包括以下特征:
[0007]发明技术方案
[0008]一种针对网络图片格式文件的链接方法,其具体步骤如下:
[0009]I)通过METAFILE的关键词对包含图片格式文件的网页进行查询,找出n4与该查询最为相关的包含图片格式文件的网页集合,其中η是预先设定的参数;
[0010]2)向网页集合中添加所有与匹配网页存在着链接关系的包含图片格式文件的网页;
[0011 ] 3)移除所有的站内链接;
[0012]4)基于被相关网页链接的入链数,为每个网页赋予一个权威权重以及基于链向权威网页的来源网页,赋予一个中心权重;
[0013]5)统计每个网页链接的入链数之和,计算出每个网页的权威权重;
[0014]6)统计每个网页的出链网页的权威度之和,计算出每个网页的中心权重;
[0015]7)将所有包含图片格式文件的网页的中心度除以最高中心度以将其标准化,将所有包含图片格式文件的网页的权威度除以最高权威度以将其标准化;
[0016]8)重复第5)步到第7)步20次;
[0017]9)返回一张排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。
【附图说明】
[0018]附图1是网络图片格式文件链接流程图
【具体实施方式】
[0019]这种针对网络图片格式文件的链接方法,包括如下步骤:
[0020]I)通过METAFILE的关键词对包含图片格式文件的网页进行查询,找出η个与该查询最为相关的包含图片格式文件的网页集合,其中η是预先设定的参数;
[0021 ] 2)向网页集合中添加所有与匹配网页存在着链接关系的包含图片格式文件的网页;
[0022]3)移除所有的站内链接;
[0023]4)基于被相关网页链接的入链数,为每个网页赋予一个权威权重以及基于链向权威网页的来源网页,赋予一个中心权重;
[0024]5)统计每个网页链接的入链数之和,计算出每个网页的权威权重;
[0025]6)统计每个网页的出链网页的权威度之和,计算出每个网页的中心权重;
[0026]7)将所有包含图片格式文件的网页的中心度除以最高中心度以将其标准化,将所有包含图片格式文件的网页的权威度除以最高权威度以将其标准化;
[0027]8)重复第5)步到第7)步20次;
[0028]9)返回一张排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。
【主权项】
1.一种针对网络图片格式文件的链接方法,其具体步骤如下: 1)通过METAFILE的关键词对包含图片格式文件的网页进行查询,找出η个与该查询最为相关的包含图片格式文件的网页集合,其中η是预先设定的参数; 2)向网页集合中添加所有与匹配网页存在着链接关系的包含图片格式文件的网页; 3)移除所有的站内链接; 4)基于被相关网页链接的入链数,为每个网页赋予一个权威权重以及基于链向权威网页的来源网页,赋予一个中心权重; 5)统计每个网页链接的入链数之和,计算出每个网页的权威权重; 6)统计每个网页的出链网页的权威度之和,计算出每个网页的中心权重; 7)将所有包含图片格式文件的网页的中心度除以最高中心度以将其标准化,将所有包含图片格式文件的网页的权威度除以最高权威度以将其标准化; 8)重复第5)步到第7)步20次; 9)返回一张排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。
【专利摘要】本发明公开了一种针对网络图片格式文件的链接方法,其具体步骤如下:通过METAFILE的关键词对包含图片格式文件的网页进行查询,初始化每个相关网页的中心度和权威度,重复投票过程,报告排好序的包含图片格式文件的网页列表,即指向网络图片格式文件地址的URL库,并且URL与网络图片格式文件的直方图建立映射以便精准检索。
【IPC分类】G06F17/30
【公开号】CN105005566
【申请号】CN201410160126
【发明人】张军, 宋惟忠
【申请人】上海京知信息科技有限公司
【公开日】2015年10月28日
【申请日】2014年4月21日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1