Url过滤系统及过滤url的方法

文档序号:7663650阅读:263来源:国知局
专利名称:Url过滤系统及过滤url的方法
技术领域
本发明通信领域,尤其涉及一种URL (Uniform/Universal Resource Locator,统一资源定位符)过滤系统及过滤URL的方法。
背景技术
URL,也被称为网页地址,是Internet上标准的资源的地址,用于完整地描述Internet上网页和其他资源的地址的一种标识方法。Internet上的每一个网页都具有一个唯一的URL地址名称标识,通常称之为URL地址,这种地址可以是本地磁盘,也可以是局域网上的某一台计算机,更多的是Internet上的站点。简单地说,URL就是Web地址,俗称“网址”。随着网络的普及,互联网上的信息为人们的生活工作提供了越来越多的便利,接 触到网络的青少年的数量也越来越多,但网上的信息良莠不齐,特别是还存在为数不少的宣扬色情、暴力、迷信等不良事物的网站,为了给青少年呈现一个健康向上的网站,需要对其访问的URL进行过滤,从而屏蔽掉一些不健康的以及非法的网站,从而保证青少年的健康成长。目前已有URL过滤方法主要有三种第一,使用hash表存放URL信息;该方法适用于域名不同的URL查找,当域名相同时,查找起来耗时较长;第二,使用字符串匹配算法;该方法适用于关键字查找,但是查找速度比较慢;第三使用正则匹配算法;该方法适用于不确定的URL查找,其查找速度也比较慢。现有方法查找速度会随着URL名单中的URL记录增加而显著下降,不能满足现在高吞吐网络中的URL管理。

发明内容
本发明的目的在于提供一种URL过滤系统及过滤URL的方法,以解决改善现有技术查找URL速度慢的问题。本发明提供了一种过滤URL的方法,包括以下步骤根据用户自定义的URL名单,生成URL过滤系统可识别的URL规则文件,并将上述URL规则文件加载到内存中;当上述系统收到报文时,扫描并判断上述报文是否是HTTP (Hyper Text TransferProtocol,超文本传输协议)报文,若是,贝U扫描其中的URL信息,与内存中的URL规则文件中的URL信息进行匹配;根据匹配结果放行或者过滤上述HTTP报文。进一步地,上述将URL规则文件加载到内存中步骤之后还包括判断上述用户自定义的URL名单是否有变化,若是,则根据变化后的用户自定义的URL名单,重新生成系统可识别的URL规则文件,并将新生成的URL规则文件加载到内存中;加载完成后,上述系统使用内存中新的URL规则文件进行URL信息匹配,同时删除内存中旧的URL规则文件。进一步地,上述系统判断出收到的报文不是HTTP报文时,直接放行上述报文。进一步地,上述用户自定义的URL名单是黑名单或者白名单。进一步地,上述根据匹配结果放行或者过滤上述HTTP报文步骤具体包括当上述用户自定义的URL名单为黑名单时,若收到的HTTP报文的URL信息与内存中的URL规则文件中的URL信息匹配成功,则过滤上述HTTP报文;若收到的HTTP报文的URL信息与内存中的URL规则文件中的URL信息匹配失败,则放行上述HTTP报文;当上述用户自定义的URL名单为白名单时,若收到的HTTP报文的URL信息与内存 中的URL规则文件中的URL信息匹配成功,则放行上述HTTP报文;若收到的HTTP报文的URL信息与内存中的URL规则文件中的URL信息匹配失败,则过滤上述HTTP报文。本发明还提供了一种URL过滤系统,包括识别单元以及内存单元,还包括规则单元、扫描单元以及匹配单元,所说识别单元,用于识别收到的报文是否是HTTP报文,并将识别结果发送给上述扫描单元;上述规则单元,用于根据用户自定义的URL名单,生成系统可识别的URL规则文件,并将上述URL规则文件加载到上述内存单元;上述扫描单元,用于扫描收到的报文,并发送给上述报文识别单元,或者扫描HTTP报文中的URL信息,并将上述URL信息发送给上述匹配单元;以及根据上述识别单元返回的识别结果以及上述匹配单元返回的匹配结果,放行/过滤收到的报文;上述匹配单元,用于用收到的URL信息与上述内存单元中的URL规则文件中的URL信息进行匹配,并将匹配结果发送给上述扫描单元。进一步地,上述规则单元,还用于判断用户自定义的URL名单是否有变化,并在上述用户自定义的URL有变化时,根据变化后的用户自定义的URL名单,重新生成系统可识别的URL规则文件,将新生成的URL规则文件加载到上述内存单元中,并在加载成功后通知上述匹配单元使用新的URL规则文件进行URL信息匹配。进一步地,上述匹配单元,还用于在收到上述规则单元的通知后,使用新的URL规则文件进行URL信息匹配,并删除上述内存单元中旧的URL规则文件。本发明进一步提供了一种网关,上述网关包括上述URL过滤系统。本发明将用户自定义的URL名单转换成URL系统硬件可识别的URL规则文件并加载到内存中,当收到报文时,系统可以迅速的把HTTP报文与内存中的URL规则文件进行匹配,并给出匹配结果,扫描匹配速度可以达到至少2Gbps,且不需要区分URL的类型,省去了现有方法中复杂而繁琐的URL分类及查找,加快了 URL处理速度;本发明支持大数据量的URL过滤,适用于ISG (Integrated Service Gateway,综合业务网关)、WAP网关、WEB网关等网络设备中。


此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图I是本发明过滤URL的方法流程图;图2是本发明URL过滤系统的原理框图;图3是本发明的网关的原理框图。
具体实施例方式为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。如图I所示,是本发明过滤URL的方法流程图,本实施例假设用户自定义的URL名 单为黑名单,具体包括以下步骤步骤SOOl :根据用户自定义的黑名单,生成URL过滤系统可识别的URL规则文件;步骤S002 :将上述URL规则文件加载到内存中;步骤S003 :系统收到报文;步骤S004 :扫描上述报文;步骤S005 :判断上述报文是否是HTTP报文,若是,则执行步骤S006,否则,执行步骤 SOlO ;步骤S006 :扫描其中的URL信息;步骤S007 :与内存中的URL规则文件中的URL信息进行匹配;步骤S008 :判断是否匹配成功,若是,则执行步骤S009 ;否则,执行步骤SOlO ;步骤S009 :过滤上述报文;步骤SOlO :放行上述报文。本步骤的报文包括HTTP报文和非HTTP报文。在其他实施例中,当用户自定义的URL名单为白名单时,若收到的HTTP报文的URL信息与内存中的URL规则文件中的URL信息匹配成功,则放行上述HTTP报文;若收到的HTTP报文的URL信息与内存中的URL规则文件中的URL信息匹配失败,则过滤上述HTTP报文。本发明中,系统处理报文的同时,还判断上述用户自定义的URL名单是否有变化,若是,则根据变化后的用户自定义的URL名单,重新生成系统可识别的URL规则文件,并将新生成的URL规则文件加载到内存中,加载完成后,使用新的URL规则文件进行URL信息匹配,同时删除旧的URL规则文件,这使得本发明在不中断扫描匹配业务的情况下,实现URL规则文件的实时更新。在具体的实施例中,可以预留两块内存A和B,若旧的URL规则文件存放在内存A中,那么用户自定义的URL名单变化后,新生成的URL规则文件就加载到内存B中,加载完成后,系统使用内存B中的URL规则文件进行URL信息匹配,与此同时,删除内存A中的URL规则文件,当用户自定义的URL名单再次变化后,新生成的URL规则文件则被加载到内存A中,依次类推。也就是说,系统同时执行两个任务,一个是处理收到的报文,一个是检测用户自定义的URL名单是否有变化。本发明基于硬件的过滤方法,与基于软件的现有方法相比,提高了处理HTTP报文的速度。
如图2所示,是本发明URL过滤系统的原理框图,包括扫描单元01、识别单元02、规则单元03、匹配单元04、内存单元05 ;扫描单元01,用于扫描收到的报文,并发送给报文识别单元02,或者扫描HTTP报文中的URL信息,并将上述URL信息发送给匹配单元04 ;以及根据识别单元02返回的识别结果以及匹配单元04返回的匹配结果,放行/过滤收到的报文;识别单元02,用于识别收到的报文是否是HTTP报文,并将识别结果发送给扫描单元01 ;规则单元03,用于根据用户自定义的URL名单,生成系统可识别的URL规则文件,并将上述URL规则文件加载到内存单元05 ;以及用于判断用户自定义的URL名单是否有变化,并在上述用户自定义的URL有变化时,根据变化后的用户自定义的URL名单,重新生成系统可识别的URL规则文件,将新生成的URL规则文件加载到内存单元05中,并在加载完成后,通知匹配单元使用新的URL规则文件进行URL信息匹配; 匹配单元04,用于用收到的URL信息与内存单元05中的URL规则文件中的URL信息进行匹配,并将匹配结果发送给扫描单元01,或者在收到规则单元03的通知时,使用内存单元05中新加载的URL规则文件进行URL信息匹配,并删除内存单元05中旧的URL规则文件。如图3所示,是本发明的网关原理框图,包括图2所示的URL过滤系统,URL过滤系统包括扫描单元01、识别单元02、规则单元03、匹配单元04、内存单元05,各单元功能参见上述对图2的描述,此处不再复述。上述说明示出并描述了本发明的优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
权利要求
1.一种过滤统ー资源定位符URL的方法,其特征在于,包括以下步骤 根据用户自定义的URL名单,生成URL过滤系统可识别的URL规则文件,并将所述URL规则文件加载到内存中; 当所述系统收到报文吋,扫描并判断所述报文是否是超文本传输协议HTTP报文,若是,贝丨J 扫描其中的URL信息,与内存中的URL规则文件中的URL信息进行匹配; 根据匹配结果放行或者过滤所述HTTP报文。
2.根据权利要求I所述的方法,其特征在于,所述将URL规则文件加载到内存中步骤之后还包括 判断所述用户自定义的URL名单是否有变化,若是,则根据变化后的用户自定义的URL 名单,重新生成系统可识别的URL规则文件,并将新生成的URL规则文件加载到内存中; 加载完成后,所述系统使用内存中新的URL规则文件进行URL信息匹配,同时删除内存中旧的URL规则文件。
3.根据权利要求I所述的方法,其特征在于,所述系统判断出收到的报文不是HTTP报文时,直接放行所述报文。
4.根据权利要求2所述的方法,其特征在于,所述用户自定义的URL名单是黑名单或者白名单。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据匹配结果放行或者过滤所述HTTP报文步骤具体包括 当所述用户自定义的URL名单为黑名单时,若收到的HTTP报文的URL信息与内存中的URL规则文件中的URL信息匹配成功,则过滤所述HTTP报文;若收到的HTTP报文的URL信息与内存中的URL规则文件中的URL信息匹配失败,则放行所述HTTP报文; 当所述用户自定义的URL名单为白名单时,若收到的HTTP报文的URL信息与内存中的URL规则文件中的URL信息匹配成功,则放行所述HTTP报文;若收到的HTTP报文的URL信息与内存中的URL规则文件中的URL信息匹配失败,则过滤所述HTTP报文。
6.ー种URL过滤系统,包括识别单元以及内存单元,其特征在于,所述系统还包括规则単元、扫描单元以及匹配単元, 所说识别単元,用于识别收到的报文是否是HTTP报文,并将识别结果发送给所述扫描单元; 所述规则単元,用于根据用户自定义的URL名単,生成系统可识别的URL规则文件,并将所述URL规则文件加载到所述内存単元; 所述扫描単元,用于扫描收到的报文,并发送给所述报文识别单元,或者扫描HTTP报文中的URL信息,并将所述URL信息发送给所述匹配単元;以及根据所述识别单元返回的识别结果以及所述匹配単元返回的匹配结果,放行/过滤收到的报文; 所述匹配単元,用于用收到的URL信息与所述内存単元中的URL规则文件中的URL信息进行匹配,并将匹配结果发送给所述扫描单元。
7.根据权利要求6所述的系统,其特征在干, 所述规则単元,还用于判断用户自定义的URL名单是否有变化,并在所述用户自定义的URL有变化时,根据变化后的用户自定义的URL名単,重新生成系统可识别的URL规则文件,将新生成的URL规则文件加载到所述内存単元中,并在加载成功后通知所述匹配単元使用新的URL规则文件进行URL信息匹配。
8.根据权利要求7所述的系统,其特征在干, 所述匹配単元,还用于在收到所述规则単元的通知后,使用新的URL规则文件进行URL信息匹配,并删除所述内存単元中旧的URL规则文件。
9.一种网关,其特征在于,包括权利要求6-8任一项所述的URL过滤系统。
全文摘要
本发明涉及一种URL过滤系统及过滤URL的方法,上述系统包括识别单元、内存单元、规则单元、扫描单元以及匹配单元;上述方法包括根据用户自定义的URL名单,生成系统可识别的URL规则文件,并将上述URL规则文件加载到内存中,当上述系统收到报文时,扫描并判断上述报文是否是HTTP报文,若是,则扫描其中的URL信息,与内存中的URL规则文件中的URL信息进行匹配,根据匹配结果放行或者过滤上述HTTP报文。本发明不需要区分URL的类型,加快了URL处理速度。
文档编号H04L29/08GK102780681SQ20111012137
公开日2012年11月14日 申请日期2011年5月11日 优先权日2011年5月11日
发明者卢勤元, 李冰, 沈蓓洁, 王永光 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1