一种视频内容及内容源爬取方法

文档序号:7995798阅读:211来源:国知局
一种视频内容及内容源爬取方法
【专利摘要】本发明公开了一种视频内容及内容源爬取方法,该方法的基本原理为:首先给每类视频内容设定初始爬取周期,定时从内容源爬取内容并缓存,然后根据内容热度和内容更新率动态调整其爬取周期,当内容的热度增高或更新率增高时,将缩短其爬取周期;相反,当热度降低或更新率降低时,将增大其爬取周期;所述的“每类视频内容”的分类依据为内容元数据,包括但不限于:内容主题、内容名称、内容标签等。通过实施本发明,提高了内容爬取流量的有效性,并提高了内容请求的命中率。本发明的技术方案从多个内容源(如互联网视频网站)有效地爬取内容,缓存在本地,并为本地用户提供视频服务,在不提高爬取流量的情况下,提高内容的请求命中率。
【专利说明】一种视频内容及内容源爬取方法
【技术领域】
[0001]本发明涉及互联网领域,特别涉及到互联网内容爬取或缓存替换方法,具体涉及一种视频内容及内容源爬取方法。
【背景技术】
[0002]随着互联网中多媒体服务业务的日益增长,多媒体内容从中心内容管理系统到边缘内容交付系统的合理、高效、快速部署成为当前内容运营的一大挑战。
[0003]为了提高多媒体内容快速发布及响应,现有的方法是采用CDN或P2P技术。CDN将内容部署到靠近用户的服务节点,在用户请求内容时,使用缓存及重定向等技术为用户提供高效服务。P2P是将客户端已经存在的内容能向其他客户端提供服务。但这两种技术都受限于节点数或用户数的数量,在少量节点数或用户数情况下,两种技术基本起不到加速作用。
[0004]而中国第CN200810104585号专利公开了一种用于互联网络上的数字媒体内容进行发布的方法,虽该方法提供了可靠且高效的内容发布方法,其重点解决可靠性,公开的内容发布方法并没有考虑用户端的请求,与本专利公开的方法完全不同。中国第CN200810048703号专利公开了一种媒体发布网络中的发布内容控制方法,该方法重点解决发布过程中的数字知识产权的保护。

【发明内容】

[0005]本发明要的目的在于,为克服上述问题本发明提供了 一种视频内容及内容源爬取方法。
[0006]为实现上述目的,本发明提供了一种视频内容爬取方法,所述方法包含:
[0007]步骤101)为每类视频内容设定初始爬取周期,按设定的爬取周期从内容源爬取内容并缓存;
[0008]步骤102)根据每类视频内容的内容热度和内容源的内容更新率动态调整其爬取周期,并依据更新后的爬取周期对内容源进行内容爬取和缓存;
[0009]其中,所述动态调整爬取周期的原则为:当某类视频内容的本地热度增高或内容源更新率增高时,就缩短该类视频内容的爬取周期;而当某类视频内容的本地热度降低或内容源更新率降低时,则增大该类视频内容的爬取周期。
[0010]上述步骤101)之前还包含如下步骤:
[0011]并行从各个内容源上爬取元信息,基于元信息并根据视频的内容主题、内容名称或内容标签将视频内容对视频进行分类。
[0012]上述步骤102)进一步包含如下子步骤:
[0013]步骤102-1)在当前设定的爬取周期内,统计所有类视频内容的本地访问请求次数,当在某段设定时间内某类视频内容的访问请求次数高于第一设定阈值时,缩短该类视频内容当前设定的爬取周期;当在某段设定时间段内对某类视频内容的访问请求次数小于第二设定阈值时,增大为该类视频内容设定的爬取周期;
[0014]步骤102-2)在一定的周期内,统计所有类视频内容的内容源更新率,当更新率高于第三设定阈值时,缩短爬取周期;当更新率低于第四设定阈值时,增大爬取周期。
[0015]上述缩短或增大的爬取周期的增量值AT为:
[0016]Δ T = - α Δ Accessed-β Δ Updated+ Y
[0017]其中,AAccessed表示统计得到的上个爬取周期内此类内容访问率,AUpdated表示统计得到的上个周期内容源更新率,α、β和Y为调整倍率因子。
[0018]上述述调整倍率因子的取值结合实际的业务确定。
[0019]基于调整更新周期的策略,本发明还提供了一种并行内容源爬取方法,所述方法包含:
[0020]步骤201)设定各内容源的初始爬取周期;
[0021]步骤202)按初始设定周期进行内容源的元数据爬取;
[0022]步骤203 )计算内容源的内容更新率;
[0023]步骤204)依据更新率调整设定的爬取周期,S卩:当内容源更新率增高时,缩短其爬取周期;当内容源更新率降低时,增大其爬取周期。
[0024]上述更新率的获取方式为:将新爬取的元数据与本地已缓存的元数据进行比较,得出周期内容源的内容更新数,对周期进行归一,得出更新率。
[0025]本发明的有益效果在于:
[0026]1.根据内容被用户点播的热度以及内容源端更新速度动态调整节目的更新周期,合理保证缓存节点内容与内容源的内容一致性,提高本地内容的请求命中率;
[0027]2.减少不必要的爬取流量,提高了内容爬取流量的有效性,即本发明在不提高爬取流量的情况下,提高内容的请求命中率。
[0028]总之,本发明的技术方案从多个内容源(如互联网视频网站)有效地爬取内容,缓存在本地,并为本地用户提供视频服务,在不提高爬取流量的情况下,提高内容的请求命中率。
【专利附图】

【附图说明】
[0029]下面结合附图对本发明做进一步详细的说明。
[0030]图1是本发明提供的多个内容源的视频内容按类爬取方法工作示意图;
[0031]图2是本发明提供的按内容源爬取方法工作流程图;
[0032]图3是本发明提供的按内容分类爬取方法工作流程图。
【具体实施方式】
[0033]下面结合附图及具体实施例对本发明作进一步的描述。
[0034]本发明提出一种视频内容爬取方法,其基本原理为:首先给每类视频内容设定初始爬取周期,定时从内容源爬取内容并缓存,然后根据内容热度和内容更新率动态调整爬取周期,当热度增高或更新率增高时,将缩短爬取周期;相反,当热度降低或更新率降低时,将增大爬取周期。所述的“每类视频内容”的分类依据为内容元数据,包括但不限于:内容主题、内容名称、内容标签等;且,元数据从内容源爬取并缓存。[0035]基于上述基本原理本发明的技术方案描述为:
[0036]I)给每类视频内容预设定初始爬取周期,按爬取周期从内容源爬取内容并缓存;
[0037]2)在一定的周期内,统计所有类的本地访问请求次数,请求次数较高的,将缩短爬取周期,请求次数较低的,将增大爬取周期;
[0038]3)在一定的周期内,统计所有类的内容源更新率,更新率较高的,将缩短爬取周期,更新率较低的,将增大爬取周期。
[0039]图1所示一种视频内容爬取方法工作示意图,在示意图中:
[0040]1)给每个内容源独立设定初始爬取周期1'_5此丨,?=1,2...η,η为内容源数目;
[0041]2)给每类内容独立设定初始爬取周期T_TYPEi,k,1=1,2吣11,η为内容源数目;让=1,2夂111,m为内容分类数目。
[0042]其中,本地缓存节点首先要查询内容源上的内容是否有更新,有更新则将新的内容缓存到本地
[0043]图2是按内容源爬取方法工作流程图,工作流程:
[0044]201)初始化,进入 202);
[0045]202)给每个内容源预设定初始爬取周期,进入203);
[0046]203)根据爬取周期定时从每个内容源爬取内容,进入204);当爬取的内容有新内容类型(如新的主题)时,开启按内容类型爬取流程,见图3描述;
[0047]204)新爬取的元数据与本地已缓存的元数据进行比较,得出周期内容源的内容更新数,对周期进行归一,得出更新率,进入205);
[0048]205)根据更新率,重新设置每个内容源的爬取周期,具体为:更新率较高的,将缩短爬取周期,更新率较低的,将增大爬取周期,进入203 )。
[0049]图3是按内容分类爬取方法工作流程图,工作流程:
[0050]301)给此类内容,预设定爬取周期,进入303);
[0051]302)根据爬取周期从每个内容源爬取此类内容,进入303);
[0052]303)新爬取的元数据与本地已缓存的元数据进行比较,得出周期内每个内容源的此类内容元数据更新数,对周期进行归一,得出更新率,并统计周期内本地内容被访问的次数,对周期进行归一,得出此类内容在本地热度,进入304 );
[0053]304)根据更新率和热度,重新设置此类内容的爬取周期,进入302)。
[0054]假设存在多个要爬取的视频内容源:内容源1、2、3...,然后分别要去各个内容源上爬取内容源上的元信息,基于元信息对视频进行分类,启动按类爬取任务。对各个内容源的爬取是并行方式进行的,另外按源爬取和按类爬取任务是独立的。按源爬取的任务是要爬取内容源上的内容元信息并将视频分类,按类爬取根据视频的分类进行相应类型视频的爬取。
[0055]下面给出一类内容从一个内容源爬取周期的调整方法的具体实施,本实施完全不需要改变用于多类内容从多个内容源爬取周期的调整。
[0056]I)算法定义如下:
[0057]TO:初始设置的爬取周期,也可以为缺省周期;
[0058]Tmin:爬取周期最小值;
[0059]Tmax:爬取周期最大值;[0060]Tpre:上次爬取周期;
[0061]Tnext:下次爬取周期;
[0062]Δ T:调整时长(或称为增量值),小于O表式缩短爬取周期,大于O表式增大爬取周期。
[0063]其中,Tnext= Tpre + Δ T, Tmin<Tpre+ Δ T<Tmax ;Tmin 和 Tmax 的参考取值为:对于一类内容,可取参考值Tmin=20min,Tmax=7day=7*24*60min,具体取值应参照实际业务的需要以及内容类别。
[0064]上述Tmin以及Tmax分别表示爬取周期的下限和上限,为爬取周期设置下限是防止内容过热或内容源更新过快时造成系统爬取任务的频繁执行,给系统带来巨大的负载;设置上限可以有效管理内容的生命周期,当内容不再热门同时内容源更新不多的情况下,可对该类内容实行下线操作。
[0065]上述内容结合公式进一步解释为:
[0066]当前时刻的爬取周期Tnext很小且小于Tmin时(即,Tpre+ Δ T〈Tmin),可认为内容过热或内容源更新过快,则维持爬取周期为Tmin不变,继续按Tmin的间隔进行内容爬取,避免造成系统过载,以保证服务系统的健壮性和可靠性;当前时刻的爬取周期Tnext的值很大且超过Tmax时(即,Tpre+Δ T>Tmax),可认为该类内容已过期或失效,即可对该类内容实行下线操作。
[0067]AAccessed:上个爬取周期内此类内容访问率;
[0068]AUpdated:上个周期内容源更新率;
[0069]定义:AT=-α Δ Accessed-β Λ Updated+Y,其中 α,β 和 Y 为调整倍率因子。
[0070]以下给出一种α,β和Y的建议性取值方法:
[0071]1.可取
【权利要求】
1.一种视频内容爬取方法,所述方法包含: 步骤101)为每类视频内容设定初始爬取周期,按设定的爬取周期从内容源爬取内容并缓存; 步骤102)根据每类视频内容的内容热度和内容源的内容更新率动态调整其爬取周期,并依据更新后的爬取周期对内容源进行内容爬取和缓存; 其中,所述动态调整爬取周期的原则为:当某类视频内容的本地热度增高或内容源更新率增高时,就缩短该类视频内容的爬取周期;而当某类视频内容的本地热度降低或内容源更新率降低时,则增大该类视频内容的爬取周期。
2.根据权利要求1所述的视频内容爬取方法,其特征在于,所述步骤101)之前还包含如下步骤: 并行从各个内容源上爬取元信息,基于元信息并根据视频的内容主题、内容名称或内容标签将视频内容对视频进行分类。
3.根据权利要求1所述的视频内容爬取方法,其特征在于,所述步骤102)进一步包含如下子步骤: 步骤102-1)在当前设定的爬取周期内,统计所有类视频内容的本地访问请求次数,当在某段设定时间内某类视频内容的访问请求次数高于第一设定阈值时,缩短该类视频内容当前设定的爬取周期;当在某段设定时间段内对某类视频内容的访问请求次数小于第二设定阈值时,增大为该类视 频内容设定的爬取周期; 步骤102-2)在一定的周期内,统计所有类视频内容的内容源更新率,当更新率高于第三设定阈值时,缩短爬取周期;当更新率低于第四设定阈值时,增大爬取周期。
4.根据权利要求1或3所述的视频内容爬取方法,其特征在于,缩短或增大的爬取周期的增量值AT为:
Δ T = - α Δ Accessed- β Δ Updated+ Y 其中,AAccessed表示统计得到的上个爬取周期内此类内容访问率,AUpdated表示统计得到的上个周期内容源更新率,α、β和Y为调整倍率因子。
5.根据权利要求4所述的视频内容爬取方法,其特征在于,所述调整倍率因子的取值结合实际的业务确定。
6.一种并行内容源爬取方法,所述方法包含: 步骤201)设定各内容源的初始爬取周期; 步骤202)按初始设定周期进行内容源的元数据爬取; 步骤203)计算内容源的内容更新率; 步骤204)依据更新率调整设定的爬取周期,即:当内容源更新率增高时,缩短其爬取周期;当内容源更新率降低时,增大其爬取周期。
7.根据权利要求6所述的内容源数据爬取方法,其特征在于,所述更新率的获取方式为:将新爬取的元数据与本地已缓存的元数据进行比较,得出周期内容源的内容更新数,对周期进行归一,得出更新率。
【文档编号】H04N21/432GK103945278SQ201310022725
【公开日】2014年7月23日 申请日期:2013年1月21日 优先权日:2013年1月21日
【发明者】徐开诚, 脱立恒, 刘学, 靳巾, 江佳伟 申请人:中国科学院声学研究所, 上海尚恩华科网络科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1