一种甄别音视频网站的方法及系统的制作方法

文档序号:9870150阅读:178来源:国知局
一种甄别音视频网站的方法及系统的制作方法
【技术领域】
[0001]本发明涉及计算机互联网领域,更具体地说,涉及一种甄别音视频网站的方法及
目.ο
【背景技术】
[0002]随着互联网技术的快速发展,音视频内容的传播也随之越来越广泛。然而侵权、盗版、涉黄随处可见,为了限制这些不合法信息的传播,需要对大量视频网站进行监控。如何自动获取视音频网站,如何甄别出音视频网站,是现今监控音视频网站需要解决的难点之一,目前多数情况下只能通过人工判断来甄别出音视频网站,但是该方法费时且费力。
[0003]根据《第34次中国互联网络发展状况统计报告》,中国域名数增长到1915万。而且,为了监控音视频网站(包括获取和甄别),获取及维护这些域名信息,需要一定的网络硬件资源,若每个本地建设系统都部署相应的网络硬件资源,则硬件成本及维护成本较高。
[0004]现阶段没有一种方便有效的方法去判断一个网站是否为视频网站,有鉴于此,为了监控日益发展的音视频网站,寻找一种快速、高效的视音频发现方法刻不容缓。

【发明内容】

[0005]本发明要解决的技术问题在于,针对现有技术中自动获取及甄别出视音频网站的不足,提供一种发现音视频网站的方法及装置。
[0006]本发明解决上述问题的技术方案是提供了一种发现音视频网站的方法,基于中心系统和多个与所述中心系统通信的地域系统,其特征在于:该方法包括以下步骤:
[0007]S1、中心系统通过爬虫采集域名信息;
[0008]S2、对所述域名信息通过AC自动机进行初步筛选,对疑似音视频网站的域名进行标记形成经标记的域名信息;
[0009]S3、接收地域系统请求,同步项目所属地域的域名信息给所述地域系统;
[0010]S4、所述地域系统将接收到的疑似音视频网站放到爬虫采集,根据爬虫采集情况,判断域名是否为音视频网站。
[0011]在本发明甄别音视频网站的方法中,在所述步骤SI中,通过爬虫采集所述域名信息,并将所述域名信息存入在域名库中。
[0012]在本发明甄别音视频网站的方法中,在所述步骤S2中,通过AC自动机对所述域名信息中的网站标题、关键字、描述信息进行比对命中,并进行统计,根据加权值算法,计算出命中的关键字的加权平均值,判断该加权平均值是否达到配置的第一阈值,若是,则标记所述域名信息中对应的网站为疑似音视频网站。
[0013]在本发明甄别音视频网站的方法中,在所述步骤S3中,包括以下步骤:
[0014]所述地域系统通过REST接口方式发送注册项目信息的请求和同步域名信息的请求,其中,所述注册项目信息包括项目所属地域;
[0015]根据所述同步域名信息的请求的参数和所述项目所属地域,在域名库中进行检索,并向所述地域系统返回所述项目所属地域的所述域名信息。
[0016]在本发明甄别音视频网站的方法中,所述步骤S4包括以下步骤:
[0017]S401、根据所述域名信息,所述地域系统的爬虫采集网页中的音视频特征资源;
[0018]S402、根据音视频源码中的关键字,所述地域系统的AC自动机对音视频特征资源进行比对命中;
[0019]S403、将包含命中的音视频特征的网页存入数据库中,并统计该网页的数量,其中,该网页为所述域名信息对应的网站的网页;
[0020]S404、判断包含命中的音视频特征网页的总量是否达到配置的第二阀值,若达到或超过第二阀值,则将该网页对应的网站标记为音视频网站。
[0021]本发明还提供了一种甄别音视频网站的系统,包括多个地域系统,其特征在于,该系统还包括中心系统,该中心系统包括域名库、中心数据库、中心处理模块及中心服务模块,所述中心系统用于采集中心域名信息,对所述域名信息进行初步筛选,标记出疑似音视频网站,向地域系统提供中心域名信息服务。
[0022]在本发明甄别音视频网站的系统中,所述中心处理模块通过爬虫采集所述域名信息,并存入所述域名库中。
[0023]在本发明甄别音视频网站的系统中,根据音视频关键字,所述中心处理模块通过AC自动机对所述域名信息中的网站标题、关键字、描述信息进行比对命中;所述中心数据库保存命中的网站标题、关键字、描述信息,并进行统计,根据加权值算法,计算出命中的关键字的加权平均值,判断该加权平均值是否达到配置的第一阈值,若是,则标记所述域名信息中对应的网站为疑似音视频网站。
[0024]在本发明甄别音视频网站的系统中,所述地域系统包括域名同步模块,用于发送注册项目信息的请求和同步域名信息的请求,其中,所述注册项目信息包括项目所属地域;所述中心处理模块还用于根据所述同步域名信息的请求的参数和所述项目所属地域,在所述域名库中进行检索,并向所述地域系统返回所述项目所属地域的所述域名信息。
[0025]在本发明甄别音视频网站的系统中,所述地域系统还包括地域处理模块及数据库,其中,所述地域处理模块用于根据所述域名信息,通过爬虫采集网页中的音视频特征资源,以及根据音视频源码中的关键字,通过AC自动机对音视频特征资源进行比对命中;所述数据库保存包含命中的音视频特征的网页,并统计该网页的数量,进而判断该网页的总量是否达到配置的第二阀值,若达到或超过第二阀值,则将该网页对应的网站标记为音视频网站。
[0026]本发明的有益效果有:本发明结合爬虫,AC自动机来发现和甄别音视频网站,并通过中心服务的模式为各地域提供服务,大大提高了音视频网站的甄别效率,以及资源的利用率。从而自动、快速甄别音视频网站,及提供了高效、便捷的域名信息统一维护方法。
【附图说明】
[0027]图1是本发明实施例的发现音视频网站的系统。
[0028]图2是本发明实施例的发现音视频网站的方法流程图。
[0029]图3是图2中的步骤SI的流程图。
[0030]图4是图2中的步骤S2的流程图。
[0031]图5是图2中的步骤S3的域名信息推送的流程图。
[0032]图6是图2中的步骤S4的流程图。
【具体实施方式】
[0033]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0034]如图1所示,为本发明实施例的发现音视频网站的系统。该系统包括中心系统I和多个地域系统2,其中,中心系统I包括域名库11、中心数据库12、中心处理模块13及中心服务模块14,域名库11、中心数据库12及中心服务模块14均与中心处理模块13进行连接;地域系统2包括域名同步模块21、地域处理模块22及数据库23,域名同步模块21及数据库23均与地域处理模块22连接。
[0035]如图2所示,为本发明实施例的发现音视频网站的方法流程图。该方法包括以下步骤:
[0036]S1、中心系统I采集中心域名信息;
[0037]在此步骤中,可通过多种渠道获取域名信息,如工信部、IDC(Internet DataCenter,互联网数据中心)、通管局(全称为通信管理局)、ALEXA排名(网站的世界排名)、站长之家等。所述域名信息包括域名、域名对应的网站标题、关键字、描述信息、IP地址、IP所属地域、ISP (服务提供商)、AVSP (视频许可证)、ICP(Internet Content Provider,网络内容服务商)备案、ICP所属地域等。
[0038]如图3所示,是图2中的步骤SI的流程图。在本实施例中,步骤SI的具体实现过程包括以下步骤:
[0039]在步骤Sll中,中心处理模块13使用爬虫采集域名信息;在步骤S12中判断该域名信息是否已获取,若是,则在步骤S13中,在域名库中更新所述域名信息,否则在步骤S14将域名信息存入域名库中。
[0040]S2、中心系统I对所述域名信息进行初步筛选,对疑似音视频网站的域名进行标记形成经标记的域名信息;
[0041]如图4所示,是图2中的步骤S2的流程图,在本实施例中,步骤S2对疑似音视频网站的域名进行标记,有利于各个地域系统对域名信息进行分析,步骤S2进一步包括:
[0042]S21、中心处理模块13通过AC自动机获取所述域名信息;
[0043]S22、AC自动机将从中心数据库12中读取音视频关键字以二叉树的形式加载到缓存,并根据音视频关键字,AC自动机对所述域名信息中的网站标题、关键字、描述信息进行比对命中;
[0044]S23、记录命中结果,存入中心数据库12中,中心数据库12统计命中结果,并根据命中的关键字权重和关键字命中次数,进行加权平均,计算出加权平均值;其中,命中
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1