一种获取网络音视频节目地址的方法

文档序号:7695763阅读:139来源:国知局
专利名称:一种获取网络音视频节目地址的方法
技术领域
本发明涉及网络通信技术领域,更具体地,本发明涉及一种获取网络音视 频节目地址的方法。
背景技术
获取网络音视频节目地址是随着近年来网络音视频节目的增长,尤其是FLV 格式的视频的增长而发展起来的。网络音视频节目的地址发现面临的困难主要 是,包含音视频节目的页面复杂的脚本难以处理,以及FLV视频的地址难以从 页面分析获得。用户在观看视频的过程中,没法下载,在线观看又要面对不断 的缓沖,而对这些视频文件的分析处理也需要下载文件。因而,高效的音视频 文件地址分析具有重要的现实意义。目前存在一些类似功能的专门针对FLV视频的地址分析软件,但这些软件 处理站点数量有限,不够灵活,另外基本属于客户端应用,不适应大规模的处 理。目前的获取音视频地址的方法, 一般还局限在通过后缀名来判定,对目前 的视频节目中包含复杂脚本和FLV格式视频的网络地址无法有效获取。发明内容为克服现有网络音视频节目地址获取中无法处理具有复杂脚本和FLV格式 视频的网络地址的缺陷,本发明提出 一种获取网络音视频节目地址的方法。根据本发明的一个方面,提出了一种获取网络音视频节目地址的方法,包括步骤10)、使用浏览器打开包含音视频节目的多个网页,音视频播放器开步骤20)、所述音视频播放器向远程视频服务器请求所述网页,所述音视 频播放器根据页面传递的参数得到需要请求的视频源的网络地址,从远程读取 数据源进行播放;步骤30)、获取并分析所述音视频播放器和远程视频服务器的交互信息, 获得所述网络音视频节目地址。其中,步骤10)中,当所述音视频播;故器不能自动播放时,所述步骤还包括步骤IIO)、过滤不包含视频节目内容的网页;步骤120)、识别所述音视频播放器,确定控制按钮的位置,通过对所述位 置的配置,实现对所述音视频播放器的自动播放控制。 其中,步骤110)还包括通过识别页面是否包含Object或者Embed标签,将不包含所述标签内容的 页面过滤;通过对页面中包含的Object/Embed元素的尺寸和位置信息的识别,将不包 含视频节目的页面过滤。其中,步骤120)还包括通过对页面中包含的Object/Embed元素的尺寸和位置信息的识別,将音视 频播放器与其它类的Object/Embed元素相区分;通过对特定的播放器的尺寸结构和控制按钮分布进行确定,对按钮分布的 固定相对位置的配置,实现针对特定网站音视频播放器的自动点击播放。其中,步骤20)还包括音视频播放器向远程视频服务器请求所述网页,所述浏览器显示请求结果, 并将需要的包括音视频播放器的其它页面元素再次向服务器进行请求,当请求 的音视频播放器已经就绪,音视频播放器根据页面传递的参数得到请求的视频 源的网络地址,从远程读取数据源并进行播》文。为每个网站建立特征决策树,特征决策树的每一个节点对应一个网站,所 述每个节点的子节点为网站的特征信息; 分析音视频播放器的请求信息;根据分析的请求信息,通过匹配所建立的特征决策树,将分析出的音视频 URL与包含该音一见频的页面地址对应。其中,所述网站的特征信息分别为音视频播放器类型、网站音视频文件类 型、网站音^L频文件地址结构和音视频文件地址字符串特征。其中,所述请求信息中包括表示音视频播放器类型的HTTP协议头部 User-Agent、表示音视频播放器的地址的HTTP头部Referer、表示请求文件类 型的HTTP协议头部Content-Type、表示返回文件大小的Content-Length和文 件URL特征。本发明充分利用用户对浏览音视频页面的访问特性与同时音视频地址类的 HTTP网络特征,实现了对网络音视频的较通用的判定,解决了新网站判定和网 站改版对判定带来的困难;利用浏览器控制与网络地址监听相结合的方式来发 现网络音视频地址,并应用浏览器判定页面是否包含音视频播放器和控制播放 器的播放,解决音视频网页脚本复杂以及FLV难以从页面获取地址的问题,同 时,解决这类需要用户点击才能播放的这类网页的自动化地址发现问题;并且 利用特征决策树,使并行化的判定得以进行,提高了判定的效率;本发明所述 的方法实现筒单而且适用性好,实际运行的时间和内存消耗都纟艮低。


图1是根据本发明的获取音视频节目网络地址总体流程图; 图2是获取音视频节目网络地址的方法的具体应用流程图。
具体实施方式
下面结合附图和具体实施例对本发明提供的一种获取网络音视频节目地址 的方法进行详细描述。目前网络音视频节目地址发现存在两大问题, 一个是复杂脚本的问题,通过 对大量的音视频网站的统计观察分析中发现,网站提供音视频节目的网页包含复杂的Javascript脚本,而且脚本内容也各不相同,需要的音视频信息(诸如 网络地址)都隐藏在脚本执行的结果中,难以获取。另一个是FLV格式数据的 问题,由于浏览器通常支持插件,大部分视频网站使用FLV格式的视频,而这 类视频节目在当前视频节目中占据90%以上的数量,并在浏览器客户端使用 FLASH播放器播放,这些视频地址无法从页面内容中获得,这些FLASH插件内部 信息也无法从浏览器获得。通过本发明所述的方法,对本机数据包的监听分析发现,无论何种音视频播 放模式,本机与远程通信的数据包是无法隐藏的,通过对数据包的分析以及用 浏览器内核模仿用户浏览音视频网页的行为,可以获取音视频地址信息。图1是根据本发明的获取音视频节目网络地址总体流程图,在根据本发明 的一个实施例中, 一种获取网络音视频节目地址的方法是利用浏览器控制与网 络监听,通过用户访问观看网络节目的操作特征、网络通信特征来形成一种全 自动化的批量视频网络地址发现服务。如图1所示,用户浏览网络视频节目时,首先使用浏览器打开包含视频节 目的网页,或者打开包含视频节目的多个链接,然后等待嵌入网页的视频播放 器緩沖并开始节目的播放;此时如果某些视频播放器要求用户点击开始按钮才 能播放,用户需要在播放按钮相应位置单击鼠标再等待播放。用户在浏览网页时,假设网页是一个包含视频节目的网页,其网页内容中 应该存在嵌入播放器,而播放视频节目的播放器通常嵌入在Object或者Embed 标签之内,通过识别页面是否包含这两个标签可以将一部分不包含视频节目的 网页过滤掉,从而避免无意义的分析。此外,视频节目的播放器通常具有一定 的长宽的视觉尺寸,而且一般在网页中占据较为居中明显的位置。通过对页面中包含的Object/Embed元素的尺寸和位置信息的识别,可以将一部分不包含视 频节目的网页过滤掉,从而避免无意义的分析;并且可以将播放器与其他广告 类的Object/Embed元素相区分,从而实现自动化的对播放器的操作。假设某个网站是一个专业提供视频服务的网站,具有自主产权的数据源和 整套服务系统,网站提供视频服务一般会使用固定一个或几个特定的播放器, 对于这些特定的播放器,播放器的尺寸结构完全相同,控制按钮也分布在固定 的相对位置,通过对固定相对位置的配置,可以实现针对特定网站的点击播放 的交互操作,控制鼠标实现对播放按^E的自动操作。视频节目被点击播放后,播放器向远程服务器请求该视频节目,浏览器将 结果显示,并将需要的包括播放器的其它页面元素再次向各个远程服务器进行 请求,获取并显示,当请求的播放器已经就绪,播放器根据页面传递的参数得 到需要请求的视频源的网络地址,开始从远程读取数据源并进行播放。这些通 信信息均通过本地网卡发送或者接受,通过对这些信息的截获与分析可以获得 播放过程中使用的真实的视频节目数据源地址。假设某个网站是一个专业提供视频服务的网站具有自主产权的数据源和整 套服务系统,网站在提供视频服务的具有如下相似性(l)播放器相似性,网站 一般选用固定一个或几个播放器;(2)网站音视频文件类型的相似性,网站提 供视频服务的文件类型一般固定;(3)网站音视频文件地址结构的相似性,一 般提供视频的数据源来自特定的几个域名或者IP地址;(4 )视频文件地址字 符串特征相似性,该地址的目录结构具有相似性。基于以上相似性,从网络HTTP协议层,该视频类地址的请求具有区别于其 它的特征,且具有相似性(1) HTTP协议头部User-Agent,对播放器来说, 这个是播放器的类别说明,不同公司出品的播放器不同,这个可以用于区分视 频请求与非视频请求,也可以用于区分不同播放器的请求;(2) HTTP头部的 Referer,由于^f吏用播i丈器来源基本固定,视频地址请求的Referer指明请求的 来源也就是播放器的地址,可以用于区分视频与非视频请求,对不同站点来说,由于这个位置内容基本不同,因此可以用于区分不同站点的请求;(3) HTTP协 议头部Content-Type,这个域用来表示请求文件类型,可以用以区分;(4) Content-Length,这个域表示返回文件大小,根据音视频文件通常大小大于其 它类文件的特征,可以用以识别;(5)文件URL特征,通常独立的视频服务的 地址来自固定的几个IP或者域名,而且,在URL的目录结构上也通常相近,比 如每级目录的长度,全部目录级别,URL包含固定字符串等。
由于根据网卡数据流分析出来的URL的完全独立,将分析出的音视频URL 与包含该音视频的页面的URL对应困难,通常只能串行的分析音^L频地址,通 过为每个网站根据上述的几个特征建立特征决策树,从而做到多个网站的并行 地址发现。由于不同网站的特征可以相互区分,从而做到单网站串行、多网站 并行的地址发现,提高发现效率。
图2示出本发明的方法的一个具体实现过程,如图所示
步骤Sl,输入待判定多个网站的多个URL的一个集合用于学习,由程序监 听并获得分析过程中监听获得的URL以及对应的请求与应答信息,同时保存当 时输入的URL的网站;
步骤S2,将这些监听获得的URL传给播放器程序,测试URL类型,通过检 查调用播放器的输出判断是否可以播放,确定URL是音视频类URL或者非音视 频类URL;
步骤S3,将这些URL根据上述的特征建立特征决策树,将音视频类URL对 应(正常的决策树建立从根开始,逐条加入特征,最后到叶子节点,这一条 从根到叶子节点的路径,对应一个网站的所有特征)到各个不同的叶子节点, 同时记录对应网站,将其它类型对应到 一个非音^L频类URL叶子节点;
步骤S4,输入待分析的URL列表,控制浏览器多个窗口并行打开多个不同的 网站的待分析页面的ML,记录URL、网站与窗口对应并转向S5,同时对网卡执 行监听与分析转向Sll;
步骤S5,控制浏览器打开页面,在完成页面的加载后,开始执行对页面嵌入的Object与Embed元素进行查找,如果发现没有Object与Embed元素也就 没有播放器,转向S6,否则继续查找该元素的位置与尺寸,如果所有尺寸与位 置均不符合播;改器特征(如视频播放器尺寸太小,位置处于广告位置)转向S6, 否则,检查播放器是否需要点击交互,如果需要,转向S7; 步骤S6,标记该页面URL分析失败,转向S8;
步骤S7,检查该播放器的尺寸,根据预先配置的播放开始按钮相对播放器 的尺寸(基本上每个网站都仅使用自己一个播放器,而需要点击才能播放的网 站数量很少,预存信息不多),以及播放器相对浏览器窗口的尺寸,计算播放 按扭的绝对位置,控制鼠标在该位置触发双击;
步骤S8,浏览器以定时器的方式,定期检查多个页面URL的结果分析状态, 如果页面URL分析状态已经改变,转向S9,否则转向S10;
步骤S9,;险查该页面URL对应的浏览器窗口,控制该浏览器窗口加载相同 网站的下一个待分析页面URL,如果已经无输入数据,该窗口结束,如果所有窗 口都结束,应用结束,否则转向S8;
步骤SIO,如果页面URL的检查时间已经超时,标记该URL分析状态为超时, 转向S8;
步骤Sll,循环从网卡读取数据包,并进行协议分析,将监听到的URL以及 对应的HTTP的请求与应答信息关联,转向S12;
步骤S12,从监听到的URL分解出特征,并与特征决策树的特征进行匹配, 匹配的结果,获得该URL是否是一个音视频URL,如果是,4全查该URL对应的网 站,找到对应的待分析页面URL,即音视频网络地址,然后转向S8进行下一次 执行,如果不是,丟弃。
中音视频类地址的网络通信特性,从而得到了一种识别方式使用范围广,并行 能力好的网络音视频地址发现方法,在大规模的数据应用背景下也具有较高的 发现效率。最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技 术方法进行限制,本发明在应用上可以延伸为其他的修改、变化、应用和实施 例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和 教导范围内。
权利要求
1、一种获取网络音视频节目地址的方法,包括步骤10)、使用浏览器打开包含音视频节目的多个网页,音视频播放器开始播放节目;步骤20)、所述音视频播放器向远程视频服务器请求所述网页,所述音视频播放器根据页面传递的参数得到需要请求的视频源的网络地址,从远程读取数据源进行播放;步骤30)、获取并分析所述音视频播放器和远程视频服务器的交互信息,获得所述网络音视频节目地址。
2、 权利要求l的方法,其中,步骤IO)中,当所述音视频播放器不能自动 播放时,所述步骤还包括步骤IIO)、过滤不包含视频节目内容的网页;步骤120)、识别所述音视频播放器,确定控制按钮的位置,通过对所述位 置的配置,实现对所述音视频播放器的自动播放控制。
3、 权利要求2的方法,其中,步骤110)还包括通过识别页面是否包含Object或者Embed标签,将不包含所述标签内容的 页面过滤;通过对页面中包含的Object/Embed元素的尺寸和位置信息的识别,将不包 含视频节目的页面过滤。
4、 权利要求2的方法,其中,步骤120)还包括通过对页面中包含的Object/Embed元素的尺寸和位置信息的识别,将音视 频播放器与其它类的Object/Embed元素相区分;通过对特定的播放器的尺寸结构和控制按钮分布进行确定,对按钮分布的 固定相对位置的配置,实现针对特定网站音视频播放器的自动点击播放。
5、 权利要求l的方法,其中,步骤20)还包括音视频播放器向远程视频服务器请求所述网页,所述浏览器显示请求结果, 并将需要的包括音视频播放器的其它页面元素再次向服务器进行请求,当请求 的音视频播放器已经就绪,音视频播放器根据页面传递的参数得到请求的视频 源的网络地址,从远程读取数据源并进行播放。
6、 权利要求l的方法,其中,步骤30)还包括为每个网站建立特征决策树,特征决策树的每一个节点对应一个网站,所 述每个节点的子节点为网站的特征信息; 分析音视频播放器的请求信息;根据分析的请求信息,通过匹配所建立的特征决策树,将分析出的音视频 URL与包含该音视频的页面地址对应。
7、 权利要求6的方法,其中,所述网站的特征信息分别为音视频播放器类 型、网站音视频文件类型、网站音视频文件地址结构和音视频文件地址字符串 特征。
8、 权利要求6的方法,其中,所述请求信息中包括表示音视频播放器类型 的HTTP协议头部User-Agent、表示音视频播放器的地址的HTTP头部Referer、 表示请求文件类型的HTTP协议头部Content-Type、 表示返回文件大小的 Con tent-Length和文件亂特征。
全文摘要
本发明涉及网络通信技术领域,提出一种获取网络音视频节目地址的方法,包括使用浏览器打开包含音视频节目的多个网页,播放器准备开始播放节目;所述播放器向远程视频服务器请求所述网页,播放器根据页面传递的参数得到需要请求的视频源的网络地址,从远程读取数据源进行播放;获取并分析播放器和远程视频服务器的交互信息,获得所述网络音视频节目地址。利用浏览器控制与网络地址监听相结合的方式来发现网络音视频地址,并应用浏览器判定页面是否包含音视频播放器和控制播放器的播放,解决音视频网页脚本复杂以及FLV难以从页面获取地址的问题。
文档编号H04N7/173GK101635826SQ20081011693
公开日2010年1月27日 申请日期2008年7月21日 优先权日2008年7月21日
发明者刚 张, 斌 张, 程学旗 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1