一种甄别音视频网站的方法及系统的制作方法_2

文档序号:9870150阅读:来源:国知局
结果为命中的网站标题、关键字、描述信息;
[0045]S24、判断该加权平均值是否达到配置的第一阈值,若是,则执行步骤S25,标记所述域名信息中对应的网站为疑似音视频网站。
[0046]S3、接收地域系统2请求,同步项目所属地域的域名信息给所述地域系统2 ;
[0047]如图5所示,为图2中所述步骤S3的域名信息推送的流程图,在实施例中,此步骤主要是中心系统向各地域系统提供域名服务,步骤S3进一步包括以下步骤:
[0048]S31、地域系统2通过域名同步模块21的REST接口方式向中心系统I发送注册项目信息的请求,注册项目信息包括项目所属地域;
[0049]S32、中心系统I通过中心服务模块14接收所述注册项目信息,并存入中心数据库12中;
[0050]S33、地域系统2向中心系统I发送同步域名信息的请求;
[0051]S34、中心系统I的中心处理模块13根据所述同步域名信息的请求的参数和中心数据库12中的所述项目所属地域,在域名库11中进行检索,其中,当所述项目所属地域为空时,获取所有的域名信息;
[0052]S35、中心系统I的中心处理模块13检索到所述域名信息,并以JSON(JavaScriptObject Notat1n)数据的形式返回至地域系统I,其中,所述域名信息对应于所述项目所属地域。
[0053]可以理解,上述步骤SI至S3的中心系统I向地域系统2提供了一种中心服务的模式。
[0054]S4、地域系统2将接收到的疑似音视频网站放到爬虫采集,根据爬虫采集情况,判断域名是否为音视频网站。
[0055]如图6所示,是图2中的步骤S4的流程图,在本实施例中,所述S4步骤具体包括以下步骤:
[0056]S41、接收从中心系统I发送过来的所述域名信息;
[0057]S42、判断所述域名信息中的AVSP(信息网络传播视听节目许可证)是否为空,若不为空,则可确定该网站属于音视频网站;
[0058]S43、若AVSP为空,判断是否是疑似音视频网站;
[0059]S44、若是疑似音视频网站,则把该网站添加爬虫种子表中,本地域系统的爬虫根据添加的种子,按照层级方式进行采集,其中采集4层;
[0060]在此步骤中,目的是采集网页中的音视频特征资源,如音视频文件后缀(mp4、flv、wmv等)和播放器标签(player等);
[0061]S45、地域处理模块22的AC自动机将音视频源码中的关键字(如各大电影、电视剧名称,流行歌曲名称等),以二叉树的形式加载到缓存,并根据该音视频关键字,AC自动机对音视频特征资源进行比对命中;
[0062]S46、将包含命中的音视频特征的网页存入数据库23中,其中该网页为所述域名信息对应的网站的网页;
[0063]S47、统计该网站的包含命中的音视频特征网页数量,其中,该网站为所述域名信息对应的网站;
[0064]S48、判断音视频特征网页总量是否达到配置的第二阀值,若未到达第二阈值,则删除数据库23中网页对应的网站,若达到或超过第二阀值,则步骤S49将该疑似视频网站标记为音视频网站。
[0065]本发明中,中心系统通过爬虫,AC自动机来采集域名信息、发现和甄别疑似音视频网站,并通过中心服务的模式为各地域提供服务,各地域系统通过爬虫,AC自动机发现和甄别音视频网站,大大提高了音视频网站的甄别效率,以及资源的利用率。从而自动、快速甄别音视频网站,及提供了高效、便捷的域名信息统一维护方法。
[0066]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
【主权项】
1.一种甄别音视频网站的方法,基于中心系统(I)和多个与所述中心系统通信的地域系统(2),其特征在于:该方法包括以下步骤: 51、中心系统(I)通过爬虫采集域名信息; 52、对所述域名信息通过AC自动机进行初步筛选,对疑似音视频网站的域名进行标记形成经标记的域名信息; 53、接收地域系统(2)请求,同步项目所属地域的域名信息给所述地域系统(2); 54、所述地域系统(2)将接收到的疑似音视频网站放到爬虫采集,根据爬虫采集情况,判断域名是否为音视频网站。2.根据权利要求1所述的一种甄别音视频网站的方法,其特征在于,在所述步骤SI中,通过爬虫采集所述域名信息,并将所述域名信息存入在域名库中。3.根据权利要求1所述的一种甄别音视频网站的方法,其特征在于,在所述步骤S2中,通过AC自动机对所述域名信息中的网站标题、关键字、描述信息进行比对命中,并进行统计,根据加权值算法,计算出命中的关键字的加权平均值,判断该加权平均值是否达到配置的第一阈值,若是,则标记所述域名信息中对应的网站为疑似音视频网站。4.根据权利要求1所述的一种甄别音视频网站的方法,其特征在于,在所述步骤S3中,包括以下步骤: 所述地域系统通过REST接口方式发送注册项目信息的请求和同步域名信息的请求,其中,所述注册项目信息包括项目所属地域; 根据所述同步域名信息的请求的参数和所述项目所属地域,在域名库中进行检索,并向所述地域系统返回所述项目所属地域的所述域名信息。5.根据权利要求1所述的一种甄别音视频网站的方法,其特征在于,所述步骤S4包括以下步骤: 5401、根据所述域名信息,所述地域系统的爬虫采集网页中的音视频特征资源; 5402、根据音视频源码中的关键字,所述地域系统的AC自动机对音视频特征资源进行比对命中; 5403、将包含命中的音视频特征的网页存入数据库中,并统计该网页的数量,其中,该网页为所述域名信息对应的网站的网页; 5404、判断包含命中的音视频特征网页的总量是否达到配置的第二阀值,若达到或超过第二阀值,则将该网页对应的网站标记为音视频网站。6.一种甄别音视频网站的系统,包括多个地域系统,其特征在于,该系统还包括中心系统,该中心系统包括域名库、中心数据库、中心处理模块及中心服务模块,所述中心系统用于采集中心域名信息,对所述域名信息进行初步筛选,标记出疑似音视频网站,向地域系统提供中心域名信息服务。7.根据权利要求6所述的一种甄别音视频网站的系统,其特征在于,所述中心处理模块通过爬虫采集所述域名信息,并存入所述域名库中。8.根据权利要求6所述的一种甄别音视频网站的系统,其特征在于,根据音视频关键字,所述中心处理模块通过AC自动机对所述域名信息中的网站标题、关键字、描述信息进行比对命中;所述中心数据库保存命中的网站标题、关键字、描述信息,并进行统计,根据加权值算法,计算出命中的关键字的加权平均值,判断该加权平均值是否达到配置的第一阈值,若是,则标记所述域名信息中对应的网站为疑似音视频网站。9.根据权利要求6所述的一种甄别音视频网站的系统,其特征在于,所述地域系统包括域名同步模块,用于发送注册项目信息的请求和同步域名信息的请求,其中,所述注册项目信息包括项目所属地域;所述中心处理模块还用于根据所述同步域名信息的请求的参数和所述项目所属地域,在所述域名库中进行检索,并向所述地域系统返回所述项目所属地域的所述域名信息。10.根据权利要求6所述的一种甄别音视频网站的系统,其特征在于,所述地域系统还包括地域处理模块及数据库,其中,所述地域处理模块用于根据所述域名信息,通过爬虫采集网页中的音视频特征资源,以及根据音视频源码中的关键字,通过AC自动机对音视频特征资源进行比对命中;所述数据库保存包含命中的音视频特征的网页,并统计该网页的数量,进而判断该网页的总量是否达到配置的第二阀值,若达到或超过第二阀值,则将该网页对应的网站标记为音视频网站。
【专利摘要】本发明提供了一种甄别音视频网站的方法,基于中心系统和多个与所述中心系统通信的地域系统,该方法包括以下步骤:S1、中心系统通过爬虫采集域名信息;S2、对所述域名信息通过AC自动机对疑似音视频网站的域名进行标记;S3、接收地域系统请求,同步项目所属地域的域名信息给所述地域系统;S4、所述地域系统将接收到的疑似音视频网站放到爬虫采集,根据爬虫的采集情况,判断域名是否为音视频网站。本发明还提供了对应的甄别音视频网站的系统。本发明能自动、快速甄别音视频网站,及提供了高效、便捷的域名信息统一维护方法。
【IPC分类】H04L29/06
【公开号】CN105635038
【申请号】CN201410584314
【发明人】张东升, 王艳玲, 彭威, 唐秋艳, 李波, 景晓军, 沈智杰, 唐新民
【申请人】任子行网络技术股份有限公司
【公开日】2016年6月1日
【申请日】2014年10月27日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1