一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架的制作方法

文档序号：9261372阅读：218来源：国知局

一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架的制作方法
【技术领域】
[0001]本发明涉及一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架
【背景技术】
[0002]网络爬虫，也称网络蜘蛛、网络机器人，是一个自动提取网页的程序，它从因特网上下载网页，是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议，根据超级链接和Web文档检索的方法遍历因特网信息空间。
[0003]因特网上有数千种不同的数据类型，HTTP给每种要通过Web传输的对象都打上了名为MIME类型的数据格式标签(常见视频格式:video/MP4V-ES, video/mpeg, video/quicktime, video/vnd.mpegurl, video/x-msvideo)。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息，如针对搜索引擎和更新频度的描述和关键词，可针对元素的关键词进行索引。
[0004]目前网络爬虫只爬取文本，不能爬取音乐、图片和视频等多媒体文件，原因主要是多媒体数据量太大；如何索引多媒体文件；进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件，特别是社交网站和多媒体分享的兴起，需要对多媒体文件进行精准检索。
[0005]本发明提供了一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架，可在适当增加数据量的前提下，通过METAFILE的关键词对URL进行索引，并与相关关键帧建立映射，利用关键词对视频格式文件进行检索，再对检索结果进行关键帧的精准检索。

【发明内容】

[0006]本发明的目的在于提供一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架。本发明包括以下特征:
[0007]发明技术方案
[0008]一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架，其具体步骤如下:
[0009]I)网络爬虫从遍历参数和起始URL开始；
[0010]2)使用URL库中的第一个URL从网络上下载网页；
[0011]3)将其传递给重复网页检查，重复核查的准确性取决于具体的遍历参数；
[0012]4)如果网页没有被拒绝，则将它保存到网页库中；
[0013]5)并传递给链接提取；
[0014]6)链接提取从网页的METAFILE中提取链接，传递给URL检查；如果之前访问过，或不符合遍历参数表中列出的标准，则拒绝下载；
[0015]7)同时提取关键帧，传递给关键帧库；
[0016]8)将没有被拒绝的URL进行索引，递给URL库；并与相关关键帧建立映射；
[0017]9) URL库然后将一个未被访问的URL传递给网页提取。
【附图说明】
[0018]图1是针对视频格式的网络爬虫框架图。
【具体实施方式】
[0019]这种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架，包括如下步骤:
[0020]I)网络爬虫从遍历参数和起始URL开始；
[0021]2)使用URL库中的第一个URL从网络上下载网页；
[0022]3)将其传递给重复网页检查，重复核查的准确性取决于具体的遍历参数；
[0023]4)如果网页没有被拒绝，则将它保存到网页库中；
[0024]5)并传递给链接提取；
[0025]6)链接提取从网页的METAFILE中提取链接，传递给URL检查；如果之前访问过，或不符合遍历参数表中列出的标准，则拒绝下载；
[0026]7)同时提取关键帧，传递给关键帧库；
[0027]8)将没有被拒绝的URL进行索引，递给URL库；并与相关关键帧建立映射；
[0028]9) URL库然后将一个未被访问的URL传递给网页提取。
【主权项】
1.针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架，其具体步骤如下: 1)网络爬虫从遍历参数和起始URL开始； 2)使用URL库中的第一个URL从网络上下载网页； 3)将其传递给重复网页检查，重复核查的准确性取决于具体的遍历参数； 4)如果网页没有被拒绝，则将它保存到网页库中； 5)并传递给链接提取； 6)链接提取从网页的METAFILE中提取链接，传递给URL检查；如果之前访问过，或不符合遍历参数表中列出的标准，则拒绝下载； 7)同时提取关键帧，传递给关键帧库； 8)将没有被拒绝的URL进行索引，递给URL库；并与相关关键帧建立映射； 9)URL库然后将一个未被访问的URL传递给网页提取。
【专利摘要】本发明公开一种针对视频格式的网络爬虫提取URL并索引及与关键帧映射的框架，其具体步骤如下：网络爬虫从遍历参数和起始URL开始；使用URL库中的第一个URL从网络上下载网页；将其传递给重复网页检查，重复核查的准确性取决于具体的遍历参数；如果网页没有被拒绝，则将它保存到网页库中；并传递给链接提取；链接提取从网页的METAFILE中提取链接，传递给URL检查；如果之前访问过，或不符合遍历参数表中列出的标准，则拒绝下载；同时提取关键帧，传递给关键帧库；将没有被拒绝的URL进行索引，递给URL库；并与相关关键帧建立映射；URL库然后将一个未被访问的URL传递给网页提取。
【IPC分类】G06F17/30
【公开号】CN104978338
【申请号】CN201410138059
【发明人】宋惟忠
【申请人】宋惟忠
【公开日】2015年10月14日
【申请日】2014年4月8日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋惟忠;
技术所有人：宋惟忠;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。