一种视频下载服务网站的识别、评估方法及系统的制作方法

文档序号:6603257阅读:158来源:国知局
专利名称:一种视频下载服务网站的识别、评估方法及系统的制作方法
技术领域
本发明涉及网络通信领域,尤其涉及一种视频下载服务网站的识别、评估方法及 系统。
背景技术
目前,随着多媒体技术的发展,越来越多的网站开始提供视频下载服务,由于多媒 体具有携带海量信息、版权特征明显、健康度对社会影响广泛等特点,如何自动识别出网络 中提供视频下载服务的网站、跟踪该网站更新的内容,并对相应网站的健康度进行评估,对 于保护多媒体版权和构建健康网络等都有着重要意义。在现有的网络信息处理领域中,已有较为成熟的信息抽取和内容主题识别技术, 所述的信息抽取技术主要包括自适应的网页元数据抽取方法,结合加权树匹配与抽取模 式的聚合;模板生成网页的数据自动抽取方法,利用检测出的模板自动地从实例网页中抽 取数据;以及基于样本的互联网结构化数据抽取方法,用于实现快速自动抽取互联网结构 化数据。所述的内容主题识别技术主要是基于统计的方法、基于知识的方法或结合两者混 合的方法。具体来说,基于统计的方法主要是利用特征项的频率、位置特征的共现信息等, 其中没有利用额外的知识库,例如机器可读词典等;基于知识的方法主要依赖于句法/语 义分析器,采用的知识库包括脚步机器可读词典等,其中没有利用任何语料库统计技术;而 两者结合的方法可以综合表现出两者的优势。但在现有技术方案中,信息抽取技术和内容主题识别技术是相互独立工作的,现 有技术中也缺乏一个有效专用的对视频下载服务网站进行识别和评估的方法。

发明内容
本发明实施例提供了一种视频下载服务网站的识别、评估方法及系统,能够准确 的识别出提供视频下载服务的网站,跟踪其最近更新的视频信息,并对该网站的健康性、合 法性进行有效的评估,从而能够构建更为健康、安全的网络体系。本发明实施例提供了一种视频下载服务网站的识别、评估方法,所述方法包括获取需要处理的目标网站首页的统一资源定位符URL列表,并调用网页采集模块 在规则数据库所制定的采集规则的指导下,根据所获取的URL列表来采集所述目标网站的 网页;通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供 视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;若识别该网站为视频下载服务网站且为初次访问,则利用所述视频信息数据库中 的视频信息对所述网站进行相关度分析,完成对该网站的评估;利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相关信息,并将其 存储到所述视频信息数据库中,同时更新所述规则数据库。
本发明还提供了一种视频下载服务网站的识别、评估系统,所述系统包括网页采集模块,用于获取需要处理的目标网站首页的统一资源定位符URL列表, 并根据所获取的URL列表来采集所述目标网站的网页;识别模块,用于通过关联分析和深度URL探测来分析所采集到的目标网站网页, 识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信 息数据库中;评估模块,用于在所述识别模块识别该网站为视频下载服务网站且为初次访问, 利用所述视频信息数据库中的视频信息对所述网站进行关键词匹配,完成对该网站的评 估;信息抽取模块,用于利用预先制定的信息抽取规则来抽取所述目标网站网页视频 的相关信息,并将其存储到所述视频信息数据库中。由上述所提供的技术方案可以看出,首先获取需要处理的目标网站首页的统一资 源定位符URL列表,并调用网页采集模块根据所获取的URL列表来采集所述目标网站的网 页;通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频 下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;若识别 该网站为视频下载服务网站且为初次访问,则利用所述视频信息数据库中的视频信息对所 述网站进行相关度分析,完成对该网站的评估;利用预先制定的信息抽取规则来抽取所述 目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中。通过以上技术方案, 就能够准确的识别出提供视频下载服务的网站,跟踪其最近更新的视频信息,并对该网站 的健康性、合法性进行有效的评估,从而能够构建更为健康、安全的网络体系。


图1为本发明实施例所提供视频下载服务网站的识别、评估方法的流程示意图;图2为本发明实施例所提供视频下载服务网站的识别、评估系统的结构示意图。
具体实施例方式本发明实施例提供了一种视频下载服务网站的识别、评估方法及系统,能够准确 的识别出提供视频下载服务的网站,跟踪其最近更新的视频信息,并对该网站的健康性、合 法性进行有效的评估,从而能够构建更为健康、安全的网络体系。为更好的描述本发明实施方式,现结合附图对本发明的具体实施例进行说明,如 图1所示为本发明实施例所提供视频下载服务网站的识别、评估方法的流程示意图,图中 包括步骤11 获取需要处理的目标网站首页的URL列表,即首页地址列表。在该步骤中,首先获取需要处理的目标网站首页URL列表文件。在具体实现过程 中,还可以进一步初始化系统各模块的阈值和视频信息数据库中的视频标题、评估关键词 数据库等。步骤12 调用网页采集模块,根据规则数据库中的采集规则采集所述目标网站的 网页。在该步骤中,在获取到需要处理的目标网站首页URL列表文件之后,就可以调用网页采集模块在规则数据库所制定的采集规则的指导下,根据所获取的URL列表来采集所 述目标网站的网页。在具体实现过程中,所述规则数据库所制定的采集规则具体为视频服务页面的 URL特征,用于协助所述网页采集模块维护相应的URL列表。所述网页采集模块根据所获取的URL列表来采集所述目标网站网页的具体过程 如下所示,当然本领域技术人员还能够根据下述方案提出其他修改或变化,这些修改或变 化均应包含在本发明的包含范围之内首先,访问目标网站首页,设定当前首页的深度值为0,其本身为父URL节点。然后,获取所述首页中指向站内(即同域名)的所有网页地址,为方便说明,记其 中任一网页地址为URk,下标表示深度值为1,标记为所述首页的子URL节点,并存入队列 中。若预先制定的视频服务版块的定位规则非空,则将所述定位规则所对应的视频服 务版块的URL集合加入到队列的尾部,并设置其深度值为0,且其本身为父URL节点;这里, 所述预先制定的视频服务版块的定位规则包括一系列URL集合,用来定位当前网站的视频 服务版块;其中,每个版块包括多个视频服务子页面,用于协助所述网页采集模块维护相应 的URL列表。记当前访问的深度为i,网页地址为URL”若预先制定的网页采集规则非空,则根 据所述网页采集规则调整所述URL列表,将当前访问网页中包含所述URL特征的所有网页 地址(即由深度为i+1的网页地址URLi+1组成)优先加入到队列尾部,否则将所有的URLi+1 按获取顺序加入到队列尾部。再依次从队列首部取出深度值为i的网页地址URLp下载相应的页面,获取该页面 中指向站内的所有网页地址URLi+1 (深度值为i+1),构建由对应页面及其父节点与子节点 组成的链表〈URL^,URLp URLi+1>。若有m个(m < = i)为视频服务页面,且非首页子节点,则标记父节点URL"(深 度值为i_l的网页地址)的视频权系数为m,即〈URLg,m>,表示网页地址为URL"的网页 中包含m个视频服务页面URL。循环访问直至到达预先指定的深度阈值,并存储所有视频权系数m大于预先指定 阈值的URL列表到所述视频服务版块定位规则中。步骤13 识别是否为提供视频下载服务的网站。在该步骤中,具体可以通过关联分析和深度URL探测来分析所采集到的目标网站 网页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的 视频信息数据库中。举例来说,识别是否为提供视频下载服务的网站的具体过程如下所示,当然本领 域技术人员还能够根据下述方案提出其他修改或变化,这些修改或变化均应包含在本发明 的包含范围之内首先,利用关联分析器,输入在评估关键词数据库中所设定的健康类关键词,进行 所述目标网站网页与视频下载服务主题关联度的分析处理,若满足预先制定的阈值条件, 则继续进行后继的处理。然后通过调用深度URL探测器,识别视频下载地址的URL并对其进行深度URL探测,若探测得到所述目标网站网页存在与视频下载相关的关键字段,则标记所述目标网站 网页为提供视频下载服务的页面。再将解析获取的下载文件名(不含扩展名)作为视频标题存储至预先建立的视频 信息数据库中,并更新所述视频最近发现的时间。另外,在利用关联分析器的过程中,若关联分析器输入为视频信息数据库的评估 关键词数据库中的健康类关键词,则其功能为统计分析目标页面所含信息与视频主题的关 联度,识别出可能提供视频服务的页面;若输入视频信息数据库的评估关键词数据库中的 不良类关键词,则其功能为统计分析目标页面所含信息与不良信息的关联度,识别出可能 提供不良视频下载服务的页面,具体来说包括1)调用输入的所述评估关键词数据库,根据关键词出现频度Fp赋予关键词&不 同权值 2)用关键词分别匹配目标页面,若目标页面出现关键词Kj,则记录% ;3)统计页面包含的所有关键词所对应的权值和,即E Wp若在指定阈值范围内Vmin <Effj< V_,其中Vmin、V_分别为根据经验预先指定的最小最大常数阈值,则判定该页面 分析成功,否则结束。另外,深度URL探测器用于对URL进行深度探测,甄别出真实下载地址,探测视频 相关信息如视频标题、视频格式等,具体可包含以下步骤a)获取分析对象,包括页面内所有URL,视频摘要信息的XML文档元素路径xpath 内URL对应子页面内的所有URL ;b)若存在 URL 包含“thunder//”、“flashget//”、“ed2k//”、"be://”等等类似 关键字段,则判定URL为一类下载地址,调用相应下载工具解析该URL (或者利用base64编 解码将其转换成其他类下载地址后解析)来获取视频标题等信息,若探测成功,则结束;否 则执行c ;c)若存在 URL 包含“down”、"tid”、“aid”、“attachment”、“ torrent”等等类似关 键字段,则判定URL为二类下载地址,将其存储至队列中,顺序取出并发起连接请求,解析 HTTP响应消息的报头域,获取Content-Disposition中的filename键值,若发现键值包含 “.torrent"则读取URL对应torrent种子文件,则执行d ;否则尝试队列所有成员,若仍未 发现,则执行e;d)解析种子文件内容,利用视频常见扩展名如“.rmvb”、avi ”、“. mkv”、“. wmv”
等等定位下载文件名,截取英文冒号“”和扩展名之间部分,获取视频标题等信息,探测成 功,则结束;e)若存在URL包含“hash”,且域名指向站外,则判定URL为三类下载地址,调用IE 浏览器的COM(通信对象模型)接口打开网站并定位种子下载的提交表单,定位提交按钮并 模拟点击,读取torrent种子文件,返回上一步; f)若存在 URL 包含".avi,,、“ mkv,,、“ rmvb,,、“ ftp //,,等等类似关键字段,则判
定URL为四类下载地址,截取最后一个位置分隔符“/”之后部分(不含分隔符与扩展名), 获取视频标题等信息,探测成功,则结束; g)若仍未获取视频标题信息,则获取页面标题TITLE,若包含目标站点名称,则除 去站点名部分;若包含空格符,则由空格符将TITLE截成多段,从左至右合并分段直至字符串长超过TITLE长一半,将此合并部分作为视频标题。通过上述的过程,就可以甄别出真实下载地址,探测视频相关信息如视频标题、视 频格式等视频信息。另外,在本发明实施例中,一类下载地址为关联P2P下载软件如迅雷、快车等的下 载地址,可由P2P软件解析并完成下载任务;二类下载地址为种子下载地址,地址对应为位 于目标网站后台服务器上的种子文件;三类下载地址也为种子下载地址,区别所述二类下 载地址的是地址对应为第三方网站服务器上的种子文件;四类下载地址为视频文件下载地 址,地址对应为位于目标网站或者第三方网站后台服务器上的视频文件。步骤14 若识别该网站为视频下载服务网站且为初次访问,则对目标网站进行评 估。在该步骤中,具体可以先判断评估触发器是否触发,若触发则认为该网站为视频 下载服务网站,然后再进入后续处理;否则若在网页采集模块到达指定深度或者URL数时 仍未触发,则认为该网站不提供视频下载服务,则结束对该网站的后续处理过程。若认为该网站为视频下载服务网站,则再进一步判断目标网站是否为初次访问, 若为初次访问,则进入后续处理,对目标网站进行评估。在具体实现过程中,可以利用所述视频信息数据库中的视频信息对所述网站进行 相关度分析,完成对该网站的评估,具体过程包括利用关联分析器,输入在评估关键词数据库中所设定的不良类关键词,识别出提 供不良视频下载服务的页面;利用随机相关匹配模块,检测所述目标网站所提供下载的视 频与所述视频信息数据库中历史站点视频的相关度,并返回相匹配的视频标题数;利用综 合判定模块,根据所述关联分析器和所述随机相关匹配模块所返回的结果来综合判定所述 目标网站的性质,完成对该网站的评估。举例来说,本发明实施例中的随机相关匹配模块,用来统计目标网站提供下载的 视频与已有数据库中的健康/不良类视频匹配数量,为了提高匹配速度和效率,匹配时仅 考虑与所述新站点视频标题的所述视频最近发现时间相差不超过时间阈值T (如一周或者 一个月)的所述历史站点视频标题,具体包含以下执行步骤 a)初始化健康视频标题匹配数AM = 0,不良视频标题匹配数BM = 0 ;b)随机抽取N条(如10至100条)所述新站点视频标题,调用开源的字符串相关 度分析算法,c)分别依次将其与所述历史站点视频标题(健康类)进行相关度判断,若二者相 关则该条匹配成功,AM++ ;d)分别依次将其与所述历史站点视频标题(不良类)进行相关度判断,若二者相 关则该条匹配成功,BM++ ;e)返回 AM 值,BM 值。本发明实施例中的综合判定模块,根据关联分析器和随机相关匹配模块返回的结 果来对网站进行评估,具体包含以下步骤a)首先若触发器触发,则判断该网站为提供视频下载服务网站,则定义等级为0 ;b)等级为0时,对于输入为不良类评估关键词数据库的关联分析器,取各页面所 有关键词所对应的权值和的最大值,即W = Max { E Wj,若W大于指定阈值,则判断该网站为可能提供不良视频下载服务网站,则定义等级升为1 ;c)等级大于等于0时,若随机相关匹配模块返回的AM值大于指定阈值,则判断该 网站为提供不良视频下载服务网站,则定义等级升为2 ;d)等级大于等于0时,若随机相关匹配模块返回的BM值大于指定阈值,则判断该 网站为提供不良视频下载服务网站,则定义等级升为3 ;e)重新标记该站点为历史站点,新站点视频信息数据库将对应重标记为所述历史 站点视频信息数据库,若等级为0,则标记为健康类,若等级为2或3,则标记为不良类。步骤15 抽取所述目标网站中视频的相关信息,更新视频信息数据库和规则数据库。在该步骤中,所述预先制定的信息抽取规则为视频信息所在的XML文档元素路径 xpath,用于指导视频信息的抽取。在具体实现过程中,用于信息抽取的信息抽取模块可以包括xpath生成器、抽取 器和校验器,具体可以包含下列处理过程首先,若所述目标网站对应的信息抽取规则为空,则调用XML文档元素路径xpath 生成器,生成视频摘要信息所在xpath,同时添加该xpath到预先制定的信息抽取规则,更 新所述规则数据库;然后调用抽取器,按所述预先制定的信息抽取规则对所述目标网站的页面进行视 频摘要信息抽取。再调用校验器,校验所述抽取器所抽取的信息,若校验通过,则保存抽取的视频摘 要信息和下载地址至所述视频信息数据库;否则,继续进行视频摘要信息抽取。本发明实 施例中的校验器可用于校验所述抽取器抽取的视频摘要信息,若抽取信息过短(小于50字 节)或者与视频主题的关联度不在指定阈值范围内,则校验不通过,否则称其为通过校验。另外,若所有预先制定的信息抽取规则访问完毕时仍无信息通过校验,则调用所 述xpath生成器获取视频摘要信息所在xpath,并抽取相应的视频摘要信息,再利用所述校 验器进行校验,若校验不通过则放弃抽取过程并结束;否则添加该xpath至所述预先制定 的信息抽取规则中,更新所述规则数据库。下面以一个具体的例子来详细描述xpath生成器是如何生成视频摘要信息所在 xpath的,本领域技术人员应理解以下所述仅仅是示意性的例子,并不限制本发明的范围利用开源程序D0M4J将页面源文件转换成D0M,清洗页面除去如字体等仅用于显 示的无关节点,调用健康类评估关键词数据库,为叙述方便设数据库为四个词“译名、片名、 年代、导演”;然后分别得到如“译名、片名、年代、导演”关键词对应的xpath,统计分析所有 xpath,取路径最大公共部分的父节点,如下/HTML[1]/B0DY[1]/DIV[3]/DIV[3]/F0RM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/ DIV[3]/DIV[3]/FONT[1]/text ()[26]/HTML[1]/B0DY[1]/DIV[3]/DIV[3]/F0RM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/ DIV[3]/DIV[3]/FONT[1]/text () [30]/HTML[1]/B0DY[1]/DIV[3]/DIV[3]/F0RM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/ DIV[3]/DIV[3]/FONT[1]/text () [32]/HTML[1]/B0DY[1]/DIV[3]/DIV[3]/F0RM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/DIV[3]/DIV[3]/FONT[3]/text ()[30]其中最大公共部分获取方法为将/ /中视为一个节点,统计各路径相同位置节 点出现频率,若节点出现频率大于关键词数量一半以上,则取出,否则无节点满足条件在该 处停止。故取出公共部分直到F0NT[1],再取父节点DIV[3],则得到路径/HTML[1]/B0DY[1]/DIV[3]/DIV[3]/F0RM[1]/DIV[1]/TABLE[1]/TR[1]/TD[2]/ DIV[3]/DIV[3]该路径下所有text节点内容即为所需信息,即成功生成视频摘要信息所在 xpatho这样,通过以上技术方案的实施,就可以准确的识别出提供视频下载服务的网站, 跟踪其最近更新的视频信息,并对该网站的健康性、合法性进行有效的评估,从而能够构建 更为健康、安全的网络体系。本发明实施例还提供了一种视频下载服务网站的识别、评估系统,如图2所示为 本发明实施例所提供系统的结构示意图,所述系统包括网页采集模块201,用于获取需要处理的目标网站首页的URL列表,并根据所获取 的URL列表来采集所述目标网站的网页;识别模块202,用于通过关联分析和深度URL探测来分析所采集到的目标网站网 页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视 频信息数据库中;评估模块203,用于在所述识别模块202识别该网站为视频下载服务网站且为初 次访问,利用所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网 站的评估;信息抽取模块204,用于利用预先制定的信息抽取规则来抽取所述目标网站网页 视频的相关信息,并将其存储到所述视频信息数据库中。所述系统还可包括系统调度模块205,用于调度系统的运行,协调所述系统各个模块的操作;规则数据库206,用于指导所述网页采集模块201、所述信息抽取模块204和所述 识别模块202的运作;视频信息数据库207,用于存储利用所述信息抽取模块204所获取到的视频相关 信息,实现内容跟踪,并指导所述评估模块203完成对网站的评估。另外,所述视频信息数据库207中还可包括新站点视频信息数据库2071,用来描述初次访问的新站点,具体包括视频摘要信 息、视频标题、视频最近发现时间和视频服务页面URL ;历史站点视频信息数据库2072,分为健康和不良两种类型,用来描述历史访问站 点,具体包括视频摘要信息、视频标题、视频最近发现时间、视频服务页面URL ;评估关键词数据库2073,分为健康和不良两种类型,用来辅助识别视频下载服务 网站,以及评估目标网站的健康度;其中,所述评估关键词数据库的初始化可采用手工生 成,或由所述历史站点视频信息数据库来生成与更新。值得注意的是,上述系统实施例中,所包括的各个模块只是按照功能逻辑进行划 分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能模块的具体
11名称也只是为了便于相互区分,并不用于限制本发明的保护范围。综上所述,本发明具体实施例可以准确的识别出提供视频下载服务的网站,跟踪 其最近更新的视频信息,并对该网站的健康性、合法性进行有效的评估,从而能够构建更为 健康、安全的网络体系。以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范 围为准。
权利要求
一种视频下载服务网站的识别、评估方法,其特征在于,所述方法包括获取需要处理的目标网站首页的统一资源定位符URL列表,并调用网页采集模块在规则数据库所制定的采集规则的指导下,根据所获取的URL列表来采集所述目标网站的网页;通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;若识别该网站为视频下载服务网站且为初次访问,则利用所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网站的评估;利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中,同时更新所述规则数据库。
2.如权利要求1所述的方法,其特征在于,所述调用网页采集模块在规则数据库所制 定的采集规则的指导下,根据所获取的URL列表来采集所述目标网站的网页,具体过程为访问目标网站首页,设定当前首页的深度值为0,其父URL节点为本身; 获取所述首页中指向站内的所有URL1,标记为所述首页的子URL节点,深度值为1,并 存入队列中;若预先制定的视频服务版块的定位规则非空,则将所述定位规则所对应的视频服务版 块的URL集合加入到队列的尾部,并设置其深度值为0,且其本身为父URL节点;若预先制定的网页采集规则非空,则根据所述网页采集规则调整所述URL列表,将包 含所述URL特征的URLi+1优先加入到队列尾部,否则将所有的URLi+1按获取顺序加入到队列 尾部,其中,所述URL特征为URL字符串中去除数字与哈希HASH码后的剩余部分;依次从队列首部取出URLi,设定其深度值为i,并下载相应的页面,获取该页面中指向 站内的所有URLi+1,标记深度值为i+Ι,构建由对应页面及其父节点与子节点组成的链表 <URLi_1, URLi, URLi+1> ;若有m个(m<= i)为视频服务页面,且为非首页子节点,则标记父节点URL"的视频 权系数为m,即〈肌…!!!〉;循环访问直至到达预先指定的深度阈值,并存储所有视频权系数m大于预先指定阈值 的URL列表到所述视频服务版块定位规则中。
3.如权利要求1所述的方法,其特征在于,所述通过关联分析和深度URL探测来分析所 采集到的目标网站网页,识别是否为提供视频下载服务的网站,具体包括利用关联分析器,输入在评估关键词数据库中所设定的健康类关键词,进行所述目标 网站网页与视频下载服务主题关联度的分析处理,若满足预先制定的阈值条件,则继续进 行后继的处理;通过调用深度URL探测器,识别视频下载地址的URL并对其进行深度URL探测,若探测 得到所述目标网站网页存在与视频下载相关的关键字段,则标记所述目标网站网页为提供 视频下载服务的页面。
4.如权利要求1所述的方法,其特征在于,所述利用所述视频信息数据库中的视频信 息对所述网站进行相关度分析,完成对该网站的评估,具体包括利用关联分析器,输入在评估关键词数据库中所设定的不良类关键词,识别出提供不 良视频下载服务的页面;利用随机相关匹配模块,检测所述目标网站所提供下载的视频与所述视频信息数据库 中历史站点视频的相关度,并返回相匹配的视频标题数;利用综合判定模块,根据所述关联分析器和所述随机相关匹配模块所返回的结果来综 合判定所述目标网站的性质,完成对该网站的评估。
5.如权利要求4所述的方法,其特征在于,所述根据所述关联分析器和所述随机相 关匹配模块所返回的结果来综合判定所述目标网站的性质,完成对该网站的评估,具体包 括若判断该网站为提供视频下载服务的网站,则定义等级为O ;当等级为O时,输入在评估关键词数据库中所设定的不良类关键词,若识别出该网站 为提供不良视频下载服务的网站,则定义等级升为1 ;当等级大于等于O时,若所述随机相关匹配模块返回的健康视频标题数大于预先指定 的阈值,则进一步判断该网站为提供不良视频下载服务的网站,定义等级升为2 ;并且当所 述随机相关匹配模块返回的不良视频标题数大于预先指定的另一阈值,则进一步判断该网 站为提供不良视频下载服务网站,定义等级升为3。
6.如权利要求1所述的方法,其特征在于,所述利用预先制定的信息抽取规则来抽取 所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中,同时更新所述 规则数据库,具体包括若所述目标网站对应的信息抽取规则为空,则调用XML文档元素路径xpath生成器,生 成视频摘要信息所在xpath,同时添加该xpath到预先制定的信息抽取规则,更新所述规则 数据库;调用抽取器,按所述预先制定的信息抽取规则对所述目标网站的页面进行视频摘要信 息抽取;调用校验器,校验所述抽取器所抽取的信息,若校验通过,则保存抽取的视频摘要信息 和下载地址至所述视频信息数据库;否则,继续进行视频摘要信息抽取;若所有预先制定的信息抽取规则访问完毕时仍无信息通过校验,则调用所述xpath生 成器获取视频摘要信息所在xpath,并抽取相应的视频摘要信息,再利用所述校验器进行校 验,若校验不通过则放弃抽取过程并结束;否则添加该xpath至所述预先制定的信息抽取 规则中,更新所述规则数据库。
7.如权利要求2所述的方法,其特征在于,所述网页采集模块中包括的网页采集规则,具体为视频服务页面的URL特征,用于协 助所述网页采集模块维护相应的URL列表;所述预先制定的信息抽取规则为视频信息所在的XML文档元素路径xpath,用于指导 视频信息的抽取;所述预先制定的视频服务版块的定位规则包括一系列URL集合,用来定位当前网站的 视频服务版块;其中,每个版块包括多个视频服务子页面,用于协助所述网页采集模块维护 相应的URL列表。
8.一种视频下载服务网站的识别、评估系统,其特征在于,所述系统包括网页采集模块,用于获取需要处理的目标网站首页的统一资源定位符URL列表,并根 据所获取的URL列表来采集所述目标网站的网页;识别模块,用于通过关联分析和深度URL探测来分析所采集到的目标网站网页,识别 是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数 据库中;评估模块,用于在所述识别模块识别该网站为视频下载服务网站且为初次访问,利用 所述视频信息数据库中的视频信息对所述网站进行相关度分析,完成对该网站的评估;信息抽取模块,用于利用预先制定的信息抽取规则来抽取所述目标网站网页视频的相 关信息,并将其存储到所述视频信息数据库中。
9.如权利要求8所述的系统,其特征在于,所述系统还包括 系统调度模块,用于调度系统的运行,协调所述系统各个模块的操作;规则数据库,包括网页采集规则,信息抽取规则和视频服务板块定位规则,用于指导所 述网页采集模块、所述信息抽取模块和所述识别模块的运作;视频信息数据库,用于存储利用所述信息抽取模块所获取到的视频相关信息,实现内 容跟踪,并指导所述评估模块完成对网站的评估。
10.如权利要求9所述的系统,其特征在于,所述视频信息数据库中包括新站点视频信息数据库,用来描述初次访问的新站点,具体包括视频摘要信息、视频标 题、视频最近发现时间和视频服务页面URL ;历史站点视频信息数据库,分为健康和不良两种类型,用来描述历史访问站点,具体包 括视频摘要信息、视频标题、视频最近发现时间、视频服务页面URL ;评估关键词数据库,分为健康和不良两种类型,用来辅助识别视频下载服务网站,以及 评估目标网站的健康度;其中,所述评估关键词数据库的初始化可采用手工生成,或由所述 历史站点视频信息数据库来生成与更新。
全文摘要
本发明实施例提供了一种视频下载服务网站的识别、评估方法及系统,首先获取需要处理的目标网站首页的URL列表,并调用网页采集模块在规则数据库所制定的采集规则的指导下,根据所获取的URL列表来采集所述目标网站的网页;然后识别是否为提供视频下载服务的网站,同时将识别出的视频信息更新到预先建立的视频信息数据库中;若识别该网站为视频下载服务网站且为初次访问,则对该网站的评估;然后再抽取所述目标网站网页视频的相关信息,并将其存储到所述视频信息数据库中,用来反馈指导网站识别和评估,同时更新规则数据库。这样就能够准确的识别出提供视频下载服务的网站,跟踪其最近更新的视频信息,并对该网站的健康性、合法性进行有效的评估,从而能够构建更为健康、安全的网络体系。
文档编号G06Q30/00GK101853300SQ20101018679
公开日2010年10月6日 申请日期2010年5月26日 优先权日2010年5月26日
发明者刘锐, 易荣峰, 朱明 申请人:中国科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1