可预览视频搜索引擎的爬虫系统的构建方法

文档序号:6468305阅读:170来源:国知局
专利名称:可预览视频搜索引擎的爬虫系统的构建方法
技术领域
本发明涉及网络凄史据采集系统的构建方法,尤其涉及 一 种可预 览一见频4叟索引擎的爬虫系统的构建方法。
背景技术
随着信息时代的到来和影像视频技术的发展,影像视频由于有 着无可比拟的优势和强烈的视觉冲击力而吸引着越来越多的人们 欣赏。但是由于视频的数据量巨大和普遍网络带宽的限制,人们很 难方使j也在本4几)現看一见频。正是由于这个主要原因,广i或网上全分纟分建立起许多^L频网站,实行视频数据的在线播放来使得人们方便快 捷的实时欣赏视频。但是随着视频网站视频数据量的激增,人们4艮 难简单快捷地在广域网上找到所希望的视频,因此视频的搜索引擎 就孕育而生。虽然视频搜索引擎能够带来极大地便利,但是视频不 像文本信息那样易于识别,而且在线视频为了播放的流畅性也需要 下载緩沖视频数据,加之^L频数据量大,占用较多的带宽,且用户 带宽和流量都是有限的,因此,用户希望在打开一见频网页之前可以 进行预判断,是否此视频是所要找的,是否值得去观看。若不是所 需的,就不必去浪费时间和带宽去7见看#见频。因此一见频4叟索引擎的 可预览性受到热切关注。由于视频网站都包含视频的摘要图片和视频名称,通过摘要图 片和视频名称就能够集中的反映视频的视觉主要内容,用户可以通 过摘要图片和名称对视频进行预览和判断。因此^L频的预览性数据的采集在构建可预览性视频搜索引擎的过程中是重中之重。目前,还没有一种系统的行之有效的^L频预览性数据的采集系统构建方 法。本发明通过引入超链接映射列表技术和基于该映射列表的查找 技术来有效地采集视频的预览性数据。发明内容针对现有技术存在的问题,本发明的目的是提供一种可预览视 频搜索引擎的爬虫系统的构建方法。为达到上述目的,本发明的方法包括下列步骤(1 )超链接映射成列表;(2) 检测列表状态;(3) 摘要图片处理;(4) 一见频处理;(5) 纟见频标题处理。 上述方法中,步骤(3)进一步包括(31 )在超链接映射列表中,查找摘要图片;(32)下载存储摘要图片。 上述方法中,步骤(4)进一步包括(41 )在超链接映射列表中,查找视频;(42)下载存储斗见频; 上述方法中,步骤(5)进一步包括(51)下载^L频I番;故页面;(52 )提取存^(诸一见频标题。本发明的有益步文果在于,通过应用本发明所描述的方法,可以为可预览浮见频4叟索引擎的爬虫系统4是供通用的设计方法;可以为可 预览视频搜索引擎提供预览型数据集,简化可预览视频搜索引擎的 其他部分的设计和开发,大幅度地降低可预览视频搜索引擎爬虫系 统和可预览^L频4叟索引擎的开发成本。结合附图,本发明的其他特点和优点可以从下面通过举例来对 本发明的原理进行解释的优选实施方式的说明中变得更清楚。附图i兌明

图1是才艮据本发明的一个实施方式的方法的流程图。
具体实施方式
下面将结合附图对本发明的具体实施方式
进行详细描述。图1是根据本发明的一个实施方式的方法的流程图。该流程开 始于步骤101,需要指出的是以下所提及的视频网站仅仅是举例, 具体的视频网站不构成对本发明的限制。然后在步骤102中,分析 一见频网页的所有超链4妄,并且将所有超链4妄4安照在网页源代/马中乂人 上到下从左到右的顺序逐一才是取出来,最终将其映射成为 一个列 表。需要说明的是起始网页应当是包含^L频超链4妄丰富的web网 页,如#见频的播0改页面等,这^U又是最优举例,起始碎见频网页的不 同不构成对本发明的限制。超链接映射成列表, 一种实施方式是从视频网页的构建结构进 4亍分析抽耳又成表。下面通过举例来进一步i兌明。<a href="http:〃www.tudou.com/programs/view/c74iyYGuDIc/" title="多米i若骨"牟#斤i己录"target="new" class="inner"〉<imgsrc="http:〃iO 1 .img.tudou.com/data/imgs/i/023/746/281 /m 10.jpg" alt=" 多米诺骨牌新记录"width="120" height="90" class="pack—cliplmg"/></a>以上为一个^L频网页的一,史包含一见频超^^接的源代i码。其中包含两 个超链接,分別为http:〃www.tudou.com/programs/view/c74iyYGuDIc/ http:〃i01 .img.tudou.com/data/imgs/i/023/746/281/m 10.jpg 第一个为指向视频播放页面的超链接地址,第二个为该4见频所对应 的摘要图片超链接地址。视频网站构建结构的特点是指向视频播放 页面的超链接与视频所对应的摘要图片超链接是紧挨着的,而且都 以html标记语言来标记,由如上代码片,殳可以看出,两个超链4妄之 间没有任何其他超链接,并且指向一见频纟番;故页面的超链4妄以href= 标记, 一见频所对应的摘要图片超《连4妄以img src-标记。因此,对于 一个包含一见频的网页,可以通过正则表达式匹配href-和img src= 标记来查找网页中所有的超链接,比如上例将 href^"http:〃www.tudou.com/programs/view/c74iyYGuDIc/"和img src="http:〃iO 1 .img.tudou.com/data/imgs/i/023/746/281/m 10.jpg"查4戈 出来,然后将所有的超链接按照查找的顺序列出,即生成超链接映 射列表,最后将当前网页的超链接映射列表放入原来的超链接映射 列表末尾。 一个映射表的存储实施方式是通过文本形式,直接将当 前映射列表写入原来的超链接映射列表末尾。需要指出的是文本形 式仅仅是举例,还有关系型数据库等存储形式,具体的存储形式不 构成对本发明的限制。以上是超链接映射成列表的实施例,其他 不同的实施例子不构成对本发明的限制。步骤102之后,流程进入步骤103 。在步骤103,分析检测超链接映射列表状态。 一个^r测超链接从标记处累加一位,看是否是空的。若是空的,则说明映射列表全部处理完了;若不是空的,则"i兌明映射列表没有处理完。以上是分 析检测超链接映射列表状态的一个实施方式,其他不同的实施方式 不构成对本发明的限制。若没处理完,则流程进入步骤104;若全部处理完,则流程进 入步骤110。在步骤104,对步骤102中生成的超链接映射列表进行摘要图 片超链接查找。 一个查找摘要图片的具体实施方式
是通过字符串匹 配,如步骤102中的代码片段的例子,在超链接映射列表中匹配字 才寻串img src=,其后面的内容http:〃i01.img.tudou.com/data/imgs/i/023/746/281/ml0.jpg才尤是4离要图 片的超链接。以上是查找摘要图片的一个实施方式,其他不同的实 施方式不构成7于本发明的限制。步骤104之后,流程进入步骤105。在步骤105,下载存储在步骤104中被查找到的摘要图片。一 个实施例是运用关联性数据库系统存储下载的摘要图片,这样便于 数据的管理。以上是下载存^f诸摘要图片的一个实施方式,其他不同 的实施方式不构成对本发明的限制。步骤105之后,流程进入步骤106。在步骤106,对步骤105下载存储的摘要图片所对应的视频的 超链接在步骤102生成的超链接映射列表中进行查找。 一个查找对 应视频的具体实施方式
是首先通过字符串匹配定位摘要图片的超 链接,然后在此摘要图片超链接的位置向前匹配一个超链接即可。 以上具体实施方式
基于这才羊的原理在^L频网站的构建中,视频的 超链接和所对应的摘要图片的超链接在一起前后相连,中间无任何其他超链接,且视频超链接在图片超链接的前面。如步骤102中的 代码片段的例子,在超链接映射列表中,两个超链接是紧紧挨着的。 由步骤104可知道摘要图片的超链接,在超链接映射列表匹配定位 img src="http:〃i01 .img.tudou.com/data/imgs/i/023/746/281/ml0.jpg", 4姿着向前匹配标i己hre,,就;得到与其对应的^见频的超链4妄 http:〃www.tudou.com/programs/view/c74iyYGuDIc/。
以上是查找对 应祸J贞的一个实施方式,其他不同的实施方式不构成对本发明的限 制。步骤106之后,流程进入步骤107。在步骤107,下载存储在步骤106中4皮查找到的一见频。 一个实 施例是首先通过转址才支术,得到真实的^L频;也址,然后运用关耳关性 凄t据库系统存储下载的一见频,可以将其插入到在步骤105中存储的 摘要图片数据之后,这样便可以得到两者的关联数据集。以上是下 载存储视频的一个实施方式,其他不同的实施方式不构成对本发明 的限制。步骤107之后,流程进入步骤108。在步骤108,下载^L频播放页面,即对步骤106中被查找的一见 频超链接进行下载处理。 一个下载^L频播;故页面的具体实施方式
是 通过向超链接所对应的主机发送数据请求。如步骤102中的例子, 向www.tudou.com主机发送programs/view/c74iyYGuDIc数据请求 而下载翁:4居。以上是下载碎见频插o改页面的一个实施方式,其4也不同 的实施方式不构成7于本发明的限制。步骤108之后,流程进入步骤109。在步骤109,提取存储该视频的标题,即对步骤108中被下载 ;规频播放页面进行查找标题标记〈title〉。 一个提取存4诸该^L频的标题的具体实施方式
是通过字符串查找在该播放页面中匹配〈title〉。 如步骤102中的例子,在如下^L频播^文页面中 http:〃www.tudou.com/programs/view/c74iyYGuDIc/查找〈title〉,可得 到〈title〉荷兰多米诺骨牌新记录々title、中间的部分就是该-现频的 标题,提取中间部分,然后运用关耳关性凝:据库系统存储^见频标题, 可以将其插入到在步骤105中存储的摘要图片数据之前,这样便可 以得到三者的关联数据集。以上是提取存储该视频的标题的 一个实 施方式,其4也不同的实施方式不构成只于本发明的限制。步骤109之后,将步骤108中下载的视频播放页面进行步骤102 处理。在步-豫IIO,系统结束。以上结合附图描述了本发明的具体实施方式
,各种举例说明不 对发明的实质内容构成限制,本发明不限于上面提供的实施细节, 可以在不脱离本发明特征的情况下以另外的实施例实现。所属技术 领域的普通技术人员在阅读了说明书后可以对以前所述的具体实 施方式估文修改或变形,而不背离发明的实质和范围。
权利要求
1.一种可预览视频搜索引擎的爬虫系统的构建方法,其特征在于包括下列步骤(1)超链接映射成列表;(2)检测列表状态;(3)摘要图片处理;(4)视频处理;(5)视频标题处理。
2. 根据权利要求1所述的可预览视频搜索引擎的爬虫系统的构 建方法,其特;^正在于步骤(3)进一步包4舌(31 )在超链接映射列表中,查找摘要图片;(32)下载存储摘要图片。
3. 根据权利要求1所述的可预览视频搜索引擎的爬虫系统的构 建方法,其特征在于步骤(4)进一步包括(41 )在超《连4妄映射列表中,查找;f见频;(42)下载存储4见频。
4. 根据权利要求1所述的可预览视频搜索引擎的爬虫系统的构 建方法,其特4正在于步骤(5)进一步包括(51)下载^L频插-;故页面;(52 )提取存储浮见频标题。
全文摘要
本发明公开了一种可预览视频搜索引擎的爬虫系统的构建方法,该方法包括下列步骤(1)超链接映射成列表;(2)检测列表状态;(3)摘要图片处理;(4)视频处理;(5)视频标题处理。通过应用本发明所描述的方法,可以为可预览视频搜索引擎的爬虫系统提供通用的设计方法;可以为可预览视频搜索引擎提供预览型数据集,简化可预览视频搜索引擎的其他部分的设计和开发,大幅度地降低可预览视频搜索引擎爬虫系统和可预览视频搜索引擎的开发成本。
文档编号G06F17/30GK101404026SQ20081018082
公开日2009年4月8日 申请日期2008年11月25日 优先权日2008年11月25日
发明者溥 杨, 军 郭, 光 陈 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1