一种基于视觉特征及流还原的网络音视频地址解析方法与流程

文档序号:12379312阅读:165来源:国知局
一种基于视觉特征及流还原的网络音视频地址解析方法与流程
本发明涉及互联网音视频数据自动采集领域,涉及一种基于视觉特征及流还原的网络音视频地址解析方法。
背景技术
:随着Internet技术的发展,在线播放已经成为网络音视频传播的主要手段,其中又以基于web浏览器的在线播放为主。虽然在线播放极大地方便了用户观看音视频节目,但很多场景下用户依然希望下载并存储音视频节目到本地存储,以便在无网络连接的环境下进行离线播放;同时,反盗版、网络音视频数据分析等自动化系统也需要对在线播放音视频进行批量下载。作为音视频下载的前提,必须先获得音视频节目的下载地址。然而,播放器web插件、javascript、动态地址等技术阻碍了用户直接从网页内容中获取音视频节目的下载地址,进而进行节目下载,需要用新的技术来解析下载地址。目前,web页面在线播放音视频节目的获取主要包括直接从浏览器缓存获取音视频数据和先获取音视频节目地址再根据地址进行下载两种方式。前者的前提是网站数据支持用户本地缓存同时要将整个音视频节目播放完成,由于适用范围小又费时,这种方法一般用于个人小规模下载。后者的是在获取到音视频节目的地址的前提下进行音视频下载,目前比较主流的音视频采集工具一般采用这种方法。虽然采用这种方式的工具(如迅雷嗅探、硕鼠等)均能在一定程度上实现音视频节目的下载,但都具有一定的局限性。比如,迅雷嗅探只能在IE浏览器中嗅探页面中flv格式的音视频节目;硕鼠只能处理少数知名的网站,提供音视频节目地址。这类工具普遍只支持特定网站或少数著名网站,同时工具的下载安装比较繁琐。当前,音视频节目的传播大致可以分为使用HTTP、RTMP、FTP等标准传输协议,使用F4M等分片传输协议、使用特殊传输协议等几种方式。网页中的音视频节目一般通过Flash播放器、HTML5播放器、私有播放器或插件进行播放。通过播放器进行播放的网页,有些在网页加载后自动播放音视频节目,有些则需要点击播放器或一些网页元素后进行播放。针对目前的在线音视频播放现状,能够针对大多数的网站,在无须用户手动干预的情况下,进行各种格式音视频节目的批量自动化地址解析,为后续音视频节目的批量下载提供支持是本发明重点解决的问题。技术实现要素:针对现有技术中存在的技术问题,本发明的目的在于提供一种基于视觉特征和流还原技术的音视频节目地址解析方法。根据在线播放网页的不同类型,提出的方法综合运用基于网页内容规则的节目地址解析、基于点击规则的网页模拟点击、基于视觉特征的网页模拟点击、网络流量捕获和分析,干扰音视频数据排除等技术解析音视频节目地址,大幅提高了地址解析的成功率。同时,运用网页自动加载、chrome浏览器扩展程序技术、点击规则自动提取技术和批量音视频地址自动解析控制技术,在不需要人工干预或少量人工关于的情况下,实现批量、自动的地址解析,大幅提高地址解析的效率。能解析的地址包括http协议地址、https协议地址、rtmp协议地址、rtmpt协议地址和f4m描述文件。本发明主要包含以下几个方面的内容:1、基于网页内容规则的音视频节目地址解析技术对于页面中直接包含音视频节目地址或通过页面中不同位置的信息可以拼接出音视频节目地址的在线播放页面,通过下载网页内容,利用页面内容解析规则对网页内容进行解析,获得音视频节目的地址。解析规则分为通用解析规则和特定网站的解析规则。通用解析规则根据多数网页中节目地址的出现规律设置,适合多数网页。特定网站的解析规则为具体网站的网页设置,一条规则只适用于一个特定网站的播放页面。2、基于网页模拟点击和网络数据流分析的音视频节目地址解析技术多数音视频播放网页的节目地址由播放插件在播放时动态生成,无法通过页面内容解析获得。对于此类播放网页,通过网页模拟点击技术让网页自动播放音视频节目,然后利用数据流分析技术捕获播放过程中浏览器产生的网络数据流,从数据流中析取音视频节目的地址。主要的技术方法分为以下几点:(1)基于Chrome浏览器扩展程序的网页分析和控制技术根据Chrome浏览器的扩展程序开发接口,开发适用于Chrome浏览器的网页模拟点击扩展程序。扩展程序通过设置chrome.downloads.onCreated、chrome.downloads.onChanged、chrome.webRequest.onBeforeRequest、chrome.webRequest.onBeforeSendHeaders、chrome.webRequest.onHeadersReceived、chrome.webRequest.onResponseStarted、chrome.webNavigation.onBeforeNavigate、chrome.webNavigation.onCommitted、chrome.webNavigation.onCreatedNavigationTarget、chrome.runtime.onMessage等消息监听事件对网页内容和行为进行分析,通过网页内容的DOM解析,对网页元素的视觉分布和元素类型进行分析,进而识别视频播放元素,通过对视频播放元素注入控制指令或执行脚本来操控视频的播放,从而实现模拟点击功能。(2)脚本注入方式的模拟点击技术该技术通过开发Chome浏览器网页模拟点击扩展程序自动向播放器所在网页元素注入控制指令或执行脚本,模拟用户的页面点击行为,使得播放器开始播放视频节目。具体地,对于HTML5页面中的HTML5播放器通过注入Javascript脚本执行play()函数完成点击播放;对于Flash播放器,首先根据Flash播放器支持的所有自动播放参数形式,通过注入控制指令修改和添加自动播放参数,促使播放器加载后直接播放音视频节目,实现点击播放;如果自动播放失败,则通过事先建立的Flash播放器播放函数库(该函数库通过反编译和分析大量swf文件获取),通过注入Javascript脚本逐一调用,成功则实现了点击播放。(3)基于视觉特征的模拟点击技术该技术通过开发Chome浏览器网页模拟点击扩展程序分析在线播放网页中网页元素的视觉分布和元素类型识别播放网页中的音视频播放元素,计算所需点击元素的坐标偏移,采用系统调用的方式调用xdotool工具,实现鼠标移动对播放器的点击播放。(4)基于点击规则的模拟点击技术无法通过脚本注入方式的模拟点击和基于视觉特征的模拟点击进行点击播放的在线播放页面,多是因为对播放元素进行了可以伪装和隐藏,或者存在干扰元素阻碍鼠标对播放元素进行直接点击。对于此类播放网页,首先通过人工辅助的方式对样例页面进行点击,由开发的Chome浏览器辅助点击和规则自动生成扩展程序记录用户点击的网页元素的次序、位置和点击方式,生成该类网页的点击规则指导Chome浏览器网页模拟点击扩展程序对类似网页进行模拟点击,实现点击播放效果。(5)网络数据流捕获与分析技术经由Chome浏览器网页模拟点击扩展程序的点击播放,播放器会向音视频服务器发送节目内容获取请求,请求中会指定音视频节目的地址。网络数据流捕获与分析技术基于libpcap和libnids库开发捕包分析程序,捕获播放浏览器所在主机的全部网络流量,对其中的http、rtmp、rtmpt流量进行分析,提取流量中出现的所有音视频节目地址作为在线播放页面的备选节目地址,后续通过干扰音视频节目排除技术筛选出真实的节目地址。3、人工辅助点击和点击规则自动生成技术为对部分无法通过脚本注入方式的模拟点击和基于视觉特征的模拟点击进行点击播放的页面进行播放,开发Chrome浏览器辅助点击和规则自动生成扩展程序,记录人工点击样例网页的网页元素、点击次序和点击位置,自动生成点击规则,作为网页模拟点击扩展程序进行类似网页的自动模拟点击的规则。4、干扰音视频节目排除技术在线播放网页中除了主题音视频节目外,还有很多的相关音视频节目,以及主题音视频播放之前的广告等干扰音视频节目。本发明通过结合播放窗口在网页中的显示位置、播放顺序、播放时长等信息,对音视频节目是干扰音视频节目的概率进行加权计算,结合与已有干扰节目地址的正则匹配,区分网页中的主题和干扰音视频节目,提高音视频节目地址解析的准确率。5、基于解析状态自动机的音视频节目地址自动解析控制技术上述解析技术在不同的软件中实现,根据网页类型的不同需要组合运用才能完成节目地址的正确解析。本发明提出基于解析状态自动机的音视频节目地址自动解析控制技术,根据解析的不同状态综合运用上述技术实现批量音视频在线播放网页中节目地址的高速自动化解析。与现有技术相比,本发明的积极效果为:本发明公开了一种适用于国内外大部分音视频播放网页中音视频节目地址解析的方法。该方法能有效地对大多数采用flash等通用播放器的音视频播放页面中的音视频节目地址进行分析和提取。与其他的节目地址提取方法相比,具有以下优点:(1)其他地址提取方法只适用于特定网站,而本方法适用于绝大多数采用flash等通用播放器的音视频播放网站;(2)对绝大多数播放网页能自动提取节目地址无须人工干预,对少数网站进行有限个样例网页的人工辅助点击后能对该网站的类似网页实现自动提取;(3)采用基于状态的解析控制,能对批量播放网页进行并发解析,极大提高解析速度和效率;(4)使用干扰音视频节目地址排除技术,对解析出来的节目地址进行干扰排除,区分主题和干扰音视频节目,极大地提高了音视频节目地址解析的准确率。附图说明图1为本发明的软件架构示意图;图2为解析状态自动机状态转移图;图3为基于网页内容规则的地址解析流程图;图4为模拟点击流程图;图5为网络数据流分析程序流程图。具体实施方式下面,结合具体的实施方式对本发明进行详细说明。1、解析方法的软件架构如附图1所示本发明的软件架构由5个软件程序和一个规则库共6部分组成。其中:“基于状态的自动解析控制”程序(以下简称控制程序)是整个解析方法的总控,它通过内置的解析状态自动机对每个在线播放页面的地址解析过程进行控制,根据解析的不同状态将播放页面发送给其他程序进行解析并处理结果;同时它根据干扰音视频规则和干扰音视频节目概率计算排除干扰音视频节目的地址,筛选出主题音视频节目地址。“基于网页内容规则的地址解析”程序接收来自控制程序的待解析播放页面URL,下载页面内容并根据网页内容规则对音视频节目地址进行解析,将解析获得的结果返回给控制程序。“网页模拟点击”程序接收来自控制程序的待解析播放页面URL和点击类型,调用Chrome浏览器自动加载模块在Chrome浏览器中打开播放页面,Chrome浏览器中的网页模拟点击扩展程序根据点击类型进行相应的模拟点击,播放音视频节目。“网络数据流分析”程序部署在“网页模拟点击”程序所在主机,它捕获Chrome浏览器打开播放页面和播放音视频节目过程中产生的所有网络流量,从中析取音视频节目地址,并根据页面调用关系获得节目地址从属的在线播放网页URL,将分析结果回传给控制程序。“人工辅助点击”程序接收来自控制程序的系统无法解析的播放页面URL,调用Chrome浏览器自动加载模块在Chrome浏览器中打开播放页面,交由人工进行音视频节目的点击播放,人工点击过程中Chrome浏览器中的辅助点击与规则自动生成扩展程序记录所有点击元素、点击次序、点击位置和元素执行方法,自动生成点击规则存入规则库。“规则库”为关系数据库,其中存储三类规则:网页内容规则、点击规则和干扰音视频规则。其中网页内容规则用于指导“基于网页内容规则的地址解析”程序进行地址解析;点击规则用于指导“网页模拟点击”程序进行页面模拟点击;干扰音视频规则指导控制程序排除干扰音视频节目地址。2、基于状态的音视频节目地址自动解析控制控制程序根据内置的解析状态自动机对任务列表中各在线播放页面的解析过程进行控制,通过基于状态的控制实现多页面的并发解析。控制单个播放页面解析过程的解析状态自动机的状态转移图如附图2所示,具体控制过程描述如下:1)待解析的在线播放页面URL加入任务列表时将状态设置为“初始状态”;2)任务的解析状态为“初始状态”,则控制程序将该任务的页面URL发送给基于网页内容规则的地址解析程序,修改任务状态为“基于网页内容规则的地址解析中”。3)任务的解析状态为“基于网页内容规则的地址解析中”,则控制程序等待基于网页内容规则的地址解析程序返回解析结果。若返回结果中含节目地址,修改任务状态为“解 析成功”,解析完成,返回的节目地址即为该任务的音视频节目地址;否则,修改任务状态为“基于网页内容规则的地址解析完成”。4)任务的解析状态为“基于网页内容规则的地址解析完成”,则控制程序发送播放页面URL给网页模拟点击程序(设置点击类型为点击规则模拟点击),修改任务状态为“点击规则模拟点击”。5)任务的解析状态为“点击规则模拟点击”,则控制程序等待模拟点击程序返回点击信息,同时等待网络数据流分析程序返回分析结果。若模拟点击程序返回信息显示没有匹配的点击规则,则修改任务为“点击规则模拟点击完成”。否则,如果90秒内网络数据流分析程序没有返回信息或根据返回的信息排除干扰音视频节目后没有发现有效的节目地址,则修改任务状态为“解析失败”,任务解析完成,没有发现节目地址;否则,修改任务状态为“解析成功”,任务解析完成,发现的有效节目地址即为该任务的音视频节目地址。6)任务的解析状态为“点击规则模拟点击完成”,则控制程序发送播放页面URL给网页模拟点击程序(设置点击类型为脚本注入模拟点击),修改任务状态为“脚本注入模拟点击中”。7)任务的解析状态为“脚本注入模拟点击中”,则控制程序等待模拟点击程序返回点击信息,同时等待网络数据流分析程序返回分析结果。若90秒内两程序没有返回信息,或者根据返回的信息排除干扰音视频节目后没有发现有效的节目地址,则修改任务状态为“脚本注入模拟点击完成”;否则,修改任务状态为“解析成功”,任务解析完成,发现的有效节目地址即为该任务的音视频节目地址。8)任务的解析状态为“脚本注入模拟点击完成”,则控制程序发送播放页面URL给网页模拟点击程序(设置点击类型为视觉特征模拟点击),修改任务状态为“视觉特征模拟点击中”。9)任务的解析状态为“视觉模拟点击中”,则控制程序等待模拟点击程序返回点击信息,同时等待网络数据流分析程序返回分析结果。若90秒内两程序没有返回信息,或者根据返回的信息排除干扰音视频节目后没有发现有效的节目地址,则修改任务状态为“视觉特征模拟点击完成”;否则,修改任务状态为“解析成功”,任务解析完成,发现的有效节目地址即为该任务的音视频节目地址。10)任务的解析状态为“视觉特征模拟点击完成”,则控制程序发送播放页面URL给人工辅助点击程序,修改任务状态为“人工辅助点击”。11)任务的解析状态为“人工辅助点击”,则控制程序等待人工辅助点击程序返回生成的规则。若生成规则失败,则修改任务状态为“解析失败”,解析完成,该任务没有解析到 节目地址;否则,将点击规则存入规则库,修改任务的状态为“基于网页内容规则的地址解析完成”。3、基于网页内容规则的音视频节目地址解析“基于网页内容规则的地址解析”程序,接收来自控制程序的待解析播放页面URL,下载页面内容并根据网页内容规则对音视频节目地址进行解析,将解析获得的结果返回给控制程序。网页内容规则分为通用规则和特定网站的规则两类。通用规则由网页内容应满足正则表达式,网页内容抽取描述和节目地址生成表达式组成;特定网站的规则由网页URL应满足正则表达式,抽取描述和节目地址生成表达式组成。程序工作过程如附图3所示,具体描述如下:1)程序初始化。打开异步UDP监听端口,等待控制程序下发解析任务(待解析网页URL)。2)从规则库中读取网页内容规则。3)若规则库中出现新增的网页内容规则,则读取新增的规则。4)从UDP监听端口读取解析任务URL,执行5);否则等待1秒,跳转到3)。5)利用libcurl库下载URL所在网页内容,下载成功则执行6);否则发送该URL所在网页无法打开错误给控制程序,跳转到3)。6)在网页内容规则中查找任务URL满足的特定网站规则。若查找成功,根据规则的抽取描述和节目地址生成表达式从网页内容生成节目地址,发送给控制程序,跳转到3);否则执行7);7)用通用规则匹配网页内容,找到匹配的规则,则根据规则的抽取描述和节目地址生成表达式从网页内容生成节目地址,发送给控制程序;否则发送解析失败给控制程序。跳转到3)。4、网页模拟点击多数音视频播放网页的节目地址由播放插件在播放时动态生成,无法通过页面内容解析获得。对于此类播放网页,通过网页模拟点击程序让网页自动播放音视频节目,然后利用网络数据流分析捕获播放过程中浏览器产生的网络数据流,从数据流中析取音视频节目的地址。本发明根据Chrome浏览器的扩展程序开发接口,开发适用于Chrome浏览器的网页模拟点击扩展程序,扩展程序在浏览器打开播放网页后自动实施模拟点击动作。如附图4所示,模拟点击程序的工作过程具体描述如下:1)用命令行打开Chrome浏览器,加载网页模拟点击扩展程序。2)从控制程序接收点击任务(在线播放网页URL及点击类型)。3)如果没有接收到点击任务,等待1秒,跳转到2);否则执行4)。4)在URL尾部增加点击类型参数,用命令行在Chrome浏览器的一个tab页中打开。5)网页模拟点击扩展程序通过chrome.webRequest.onBeforeRequest.addListener(function(info){})监听事件,在页面加载之前,提取URL尾部的点击类型参数,并加载原始URL网页。6)如果打开URL页面失败,则发送网页打开失败信息给控制程序,跳转到2);否则执行7)。7)通过chrome.webRequest.onBeforeRequest.addListener(function(info){})依据干扰音视频规则过滤掉已知特征的干扰资源。8)网页模拟点击扩展程序根据点击类型对打开的网页进行模拟点击。9)发送被点击网页元素的信息给控制程序10)关闭页面,跳转到2)。本发明在Chrome浏览器网页模拟点击扩展程序中实现了三种模拟点击技术:脚本注入方式的模拟点击技术,基于视觉特征的模拟点击技术,基于点击规则的模拟点击技术。具体实现方法描述如下:(1)脚本注入方式的模拟点击技术当网页模拟点击扩展程序发现当前页面的点击模式为脚本注入模拟点击时,通过chrome.tabs.sendMessage(tabId,{},function(response){}),向页面所在标签页中注入脚本进行交互,告知注入脚本进行页面模拟点击。注入脚本通过DOM元素获取页面中的播放器控件、播放(下载)超链接。对于播放(下载)超链接通过Javascript脚本简单执行click()函数完成点击;对于HTML5页面中的HTML5播放器通过注入Javascript脚本执行play()函数完成点击播放;对于Flash播放器,首先根据事先建立的自动播放参数库,通过注入控制指令修改和添加自动播放参数,促使播放器加载后直接播放音视频节目,实现点击播放;如果自动播放失败,则通过事先建立的Flash播放器播放函数库,通过注入Javascript脚本逐一调用,成功则实现了点击播放。(2)基于视觉特征的模拟点击技术当网页模拟点击扩展程序发现当前页面的点击模式为视觉特征模拟点击时,通过chrome.tabs.sendMessage(tabId,{},function(response){}),向页面所在标签页中注入脚本进行交互,告知注入脚本进行页面模拟点击。注入脚本通过DOM分析网页元素的视觉分布和元素类型,识别音视频播放元素,计算出所需点击元素的偏移坐标,通过ajax向鼠标点击 web服务发送请求,web服务调用xdotool工具,根据偏移坐标将鼠标移动到相关元素上进行点击,实现鼠标移动和播放器的点击播放。点击过程中通过chrome.windows.update(windowId,{},function(win){})和chrome.tabs.update(tabId,{},function(tab){})实现Chrome窗口和标签页的切换,并且通过JQuery的deferred对象,将异步变为同步,实现边切换别点击的效果。(3)基于点击规则的模拟点击技术无法通过脚本注入方式的模拟点击和基于视觉特征的模拟点击进行点击播放的在线播放页面,多是因为对播放元素进行了可以伪装和隐藏,或者存在干扰元素阻碍鼠标对播放元素进行直接点击。对于此类播放网页,首先通过人工辅助的方式对样例页面进行点击,由开发的Chome浏览器辅助点击和规则自动生成扩展程序记录用户点击的网页元素的次序、位置和点击方式,生成该类网页的点击规则。当网页模拟点击扩展程序发现当前页面的点击模式为点击规则模拟点击时,网页模拟点击扩展程序根据网页URL查找匹配的点击规则。如果找到点击规则,则根据点击规则中的点击元素,点击次序,点击位置,通过ajax向鼠标点击web服务发送请求,web服务调用xdotool工具,依次将鼠标移动到相关元素上进行点击,实现鼠标移动和播放器的点击播放。点击过程中通过chrome.windows.update(windowId,{},function(win){})和chrome.tabs.update(tabId,{},function(tab){})实现Chrome窗口和标签页的切换,并且通过JQuery的deferred对象,将异步变为同步,实现边切换别点击的效果。5、网络数据流分析经由Chome浏览器网页模拟点击扩展程序的点击播放,播放器会向音视频服务器发送节目内容获取请求,请求中会指定音视频节目的地址,通过捕获和分析Chrome浏览器产生的网络流量可以获取这些音视频节目的地址。网络数据流分析程序基于libpcap和libnids库开发捕包分析程序,捕获播放浏览器所在主机的全部网络流量,对其中的http、rtmp、rtmpt流量进行分析,提取音视频节目地址及节目所在播放网页url地址。通过干扰音视频排除,可以获取指定播放网页中有效音视频节目的地址。网络数据流分析程序基于libpcap和libnids库开发,通过libpcap库捕获网络流量中的TCP流量,利用libnids库对捕获的TCP流量实施协议还原,并对还原后的应用层流量进行应用协议分析,提取http、rtmp、rtmpt协议中的音视频节目地址或f4m信息文件,并关联节目所在播放页面URL后传输节目地址和播放页面URL给控制程序。如附图5所示,网络数据流分析程序的处理过程如下:1)初始化libnids,注册tcp处理函数。2)启动libnids,进行tcp协议还原。3)Libnids还原出网络数据,tcp处理函数被回调;4)如果连接状态为“连接建立”,执行5);如果连接状态为“连接数据”,执行6);其他状态,跳转到7)。5)初始化连接数据存储,跳转到3);6)存储连接数据,如果连接存储的总数据量大于10K,跳转到7);否则,跳转到3);7)判断连接类型。如果连接为http连接,跳转到9);否则,执行8);8)如果连接为rtmp连接,执行10);否则,释放连接数据,跳转到3)。9)如果连接为rtmpt连接,执行10);否则执行11);10)根据rtmp协议析取rtmp请求中的节目地址等各字段信息。根据pageURL信息关联播放页面URL,发送节目地址和播放页面URL给控制程序。释放连接数据,转到3);11)判断连接传输的数据类型。如果为音视频节目数据或f4m信息文件,提取节目地址或文件地址,根据Reference关联播放页面URL后发送给控制程序;否则,根据Reference信息记录当前连接和Reference连接间的关联关系。释放连接数据,跳转到3)。6、人工辅助点击和点击规则自动生成为对部分无法通过脚本注入方式的模拟点击和基于视觉特征的模拟点击进行点击播放的页面进行播放,开发Chrome浏览器辅助点击和规则自动生成扩展程序,记录人工点击样例网页的网页元素、点击次序和点击位置,自动生成点击规则,作为网页模拟点击扩展程序进行类似网页的自动模拟点击的规则。人工辅助模拟点击插件主要流程:1)人工打开chrome浏览器加载辅助点击和规则自动生成扩展程序。2)人工打开模拟点击管理页面。3)人工从管理页面中点选需点击页面,浏览器加载点选的播放页面,扩展程序向播放页面和页面中的各iframe页中分别注入点击事件记录脚本。4)用户点击页面相关元素,注入的记录脚本分别记录不同页面中用户点击的次序和相关元素。5)用户关闭播放页面,根据点击后的播放效果在管理页面中确认或取消点击行为。6)对于用户确认的点击行为,扩展程序对用户点击的元素进行自动提取特征值,保证可以通过某一个或多个属性特征,唯一标识用户点击的元素,并依据点击次序和间隔时间,生成点击规则,记录到规则库。7)重复3)-6)依次进行其他页面的点击行为,直到不再进行点击。7、干扰音视频数据排除音视频播放中的掺杂着各种干扰音视频数据,主要包括:漂浮在页面上自动播放的音视频广告,多播放窗口列表产生的干扰资源,论坛等类型网站的背景音乐和真实片源播放前插播的广告等。最大限度的识别和排除这些资源,能有效提高音视频节目地址识别的准确性。本发明通过结合网页视觉特征、播放顺序、文件大小,播放时长等信息,对音视频节目是干扰音视频节目的概率进行加权计算,结合与已有干扰节目地址的正则匹配,区分网页中的主题和干扰音视频节目,提高音视频节目地址解析的准确率。对于页面浮动广告和播放窗口列表由于其位置和组合的特殊性,本发明根据基于视觉特征页面解析所分割的结构块位置等信息,过滤掉处在边缘结构块中的广告播放器。对于背景音乐干扰资源,本发明一方面采用通过元素标签查找过滤的方式,对embed标签加载的音视频资源进行过滤;另一方面对在主结构块边缘附近采用Flash播放器或HTML5播放器进行过滤。对于真实片源播放前产生的广告和页面加载立即播放的各种音视频数据难以去除。这些广告干扰往往具有以下特点:在真实音视频播放之前播放,文件较小,播放时长较短,清晰度(码率)低,资源链接中往往存在明显特征(如:ad或者advert等关键字),并且服务器域名可能为网站的静态资源服务器,请求的音视频请求信息中无Cookie信息,这些均可以作为判定一个资源是否为广告干扰资源的特征。本发明为了更加准确的排除广告干扰资源而不误删真实资源,采用权值评分的方式排除干扰音视频资源。对于一个特定的播放页面,干扰音视频节目地址排除的实施步骤如下:1)获取基于网页内容规则的地址解析和基于模拟点击的地址解析过程中解析获得的所有音视频节目地址、网页中的视觉位置、播放顺序、节目大小、播放时长等信息。2)将音视频节目地址与规则库中干扰音视频规则进行正则匹配。如果匹配成功,判定该节目地址为干扰节目地址。否则,转向步骤3)。3)根据网页中所有音视频节目的视觉位置,提取主题音视频节目的网页元素,排除出现在边角的音视频地址和成组出现在播放窗口列表中的音视频地址。4)根据音视频节目所在标签,识别背景音乐地址,进行排除。5)对节目进行权值评分。权值评分的特征属性分为:音视频节目产生时间、音视频节目文件大小、音视频节目播放长度、音视频节目码率、音视频节目链接特征、音视频服务器域名类型和Cookie属性值。本发明对于上述特征值给予不同权衡分值,权值设定如表1所示。6)如果计算获得节目权值大于15,则判定为干扰节目地址,转到步骤8),否则,转到步骤7)。7)将该节目地址标记为主题音视频节目地址。8)判定该节目地址为干扰节目地址的概率大,将该节目地址标记为疑似干扰节目地址。表1权值评分规则表特征名称特征值最小分值特征值最大评分资源产生时间后1先5资源文件长度大2小4资源播放时长长1短4资源文件码率高2低4资源链接是否含特征值未含有1含有3域名与任务服务域名一致一致1不一致2链接请求是否有Cookie值有1没有3当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1