一种可视化http数据监管方法及装置的制作方法

文档序号:7859309阅读:197来源:国知局
专利名称:一种可视化http数据监管方法及装置的制作方法
技术领域
本发明涉及网络监管,特别涉及一种可视化的HTTP数据监管的方法及装置,属于信息安全领域。
背景技术
目前,基于网络的各种技术发展迅速,互联网也逐渐成为人们工作生活的必需品,企业办公、信息交流以及文化娱乐等活动越来越依赖于网络。超文本传输协议(HTTP)作为应用最广泛的网路协议,更是承载着互联网上绝大部分的信息和活动。安全合理的对HTTP活动进行监督与管理,既可以规范企业内部用户互联网访问,又可以监督异常信息的违法传播,同时还能杜绝病毒木马等恶意程序通过非法网站传播扩散;因此,无论是对企业管理者还是其他信息监管部门来说,都是提高网络活动效率、降低网络运营成本、保障网络安全与合法使用的行之有效的手段。 现有的HTTP数据监管产品,向管理用户提供用户行为日志浏览、关键词匹配以及统计分析等各类功能,在一定程度上满足了对符合已知规则数据信息的发现处理以及后监管要求。但受技术水平所限,监管系统自动逻辑在语义分析、多媒体信息识别等方面能力不足,无法有效地对不具备固定特征的数据信息进行自动发现与处理,此时,用户经验以及监控产品辅助人工监管功能则显得尤为重要。经过系统分析提取的文字类摘要以及日志形式的数据展示方式对上述情况中表现不尽人意,无法提供快速、直观的内容展示效果。因此,现有技术仍有待于完善和发展。

发明内容
本发明的目的在于克服现有技术中存在的不足,提供了一种快速、直观的可视化HTTP数据监管方法和装置。本发明能够提供用户HTTP活动页面缩略图功能,结合常规HTTP数据监管功能,提高监管效率并降低监管用户应用门槛。为了解决上述技术问题,本发明采用了如下技术方案一种可视化HTTP数据监管方法,包含以下处理步骤a)接收监听数据,对接入的持续监听数据进行协议识别和过滤,仅保留HTTP协议数据作为原始的页面数据,并形成链路信息;b)对页面数据和链路信息定义内存数据结构,以用户请求页面为单位生成管理ID,对用户访问单一页面形成的多个资源文件进行识别,并定义唯一序号与之关联,通过用户IP和页面URL散列并索引页面数据,将页面和关联结果缓存到数据库中;c)对页面数据进行解析,若页面资源不完整或能及时缓存,则返回步骤a);若页面资源完整或缓存超时,则通过仿浏览器技术在内存中绘制出页面内容,并以缩略片形式形成文件,再将缩略片内容以二进制形式保存到数据库中;d)基于关联结果,根据监管规则对页面数据分类处理;具体表现为i)当页面数据判定为重点规则中标页面数据时,对其进行常规管理,并实现可视化;ii)当页面数据判定为未中标页面数据时,对其进行压缩存储,在存储有效期截止后自行删除。所述监管规则包括IP地址规则、URL规则、内容关键词规则和复合规则等;所述重点规则是指能够直接发现和确认被监管线路中恶意行为、有害信息以及用户资料违法传播行为的各类监管规则,重点规则中标的数据通常不需要用户进行确认;所述中标页面数据是指符合相关监管规则的页面数据;e)根据分类处理结果重新组织监管数据,提供多画面、顺序、随机、特定用户、特定网站、关键词相关等数据组织形式。步骤a)中所述的HTTP协议数据包括用户HTTP请求数据、返回页面数据,以及引用资源数据。步骤d)对页面数据的分类处理还包括 iii)当页面数据判定为推荐及泛控规则中标页面数据时,对其进行分析统计,并临时存储,等待进一步的研判;若研判结果为重点规则中标页面数据时,返回步骤i);若研判结果为未中标页面数据时,进行步骤ii);所述推荐及泛控规则是指各类监管规则中对可能存在恶意行为、有害信息以及用户资料违法传播行为数据的特征定义;相对于重点规则的精确定位而言,推荐和泛控规则更为宽松,从而中标的页面数据更多,更容易发现刻意修改、隐藏和变体的行为和信息,但同时也会混杂很多无效数据在其中,因此需要用户进行研判。研判的难度和效率与被监管行为的发现能力是以往监管装置中难以平衡的矛盾,本发明提供的可视化技术有效地改善了这一点,同时也为中标数据处理和分析提供了更快速便捷的手段。本发明还提供了一种HTTP数据实时监管装置,包含协议解析模块、用户活动页面管理模块、内容分析和业务处理模块、页面缩略图描绘模块、数据业务管理模块、实时监控管理模块、显示及操作控制模块,其中协议解析模块接收HTTP监听数据,完成协议解析与还原过程,形成HTTP原始数据(页面)和链路信息;用户活动页面管理模块对HTTP原始数据(页面)和链路信息进行管理维护;内容分析和业务处理模块对HTTP原始数据(页面)和链路信息进行常规分析处理,并对HTTP原始数据进行缓存;页面缩略图描绘模块根据HTTP原始数据(页面)生成缩略图,并将缩略图以二进制形式存储到数据库中;数据业务管理模块提供常规数据监管及相关业务功能;实时监控管理模块提供可视化监管及相关业务功能;显示及操作控制模块提供统一的HTTP数据监管界面和操作控制。与现有技术相比,本发明持续接收HTTP监听数据,完成协议解析与还原过程,形成HTTP原始数据(页面)和链路信息,对其进行常规内容分析和业务处理,将内容和结果保存到数据库中;同时对旁路监听数据的分析生成监听线路上用户访问行为的实时缩略图,通过建立页面数据和缩略图数据的关联关系,进行数据筛选、分类和条件推荐,细化分类处理不同规则中标的数据,在有限的显示空间和时间内将有效信息集中展现,提高系统综合监管能力并降低监管用户的应用门槛。本发明的实时可视化监管不同于对页面文件的简单展示,突破文字、内容和图片单独分析、单独管理、单独显示的限制,以多画面方式实时将完整页面内容直观的显示在监管系统中,使装置用户准确掌握被监管线路上的访问页面全貌,更有效的辅助用户数据监管工作。是传统监管系统日志-页面数据管理模式的有效扩展。


图I是本发明的处理流程示意图;图2是本发明的结构示意图。
具体实施方法下面结合附图对本发明的具体实施方式
进行详细说明。本发明提供一种可视化HTTP数据监管方法,可以按如图I所示的步骤进行。本发明持续接收HTTP监听数据,完成协议解析与还原过程,形成HTTP原始数据(页面)和链路信息,即步骤SI、S2。在步骤SI中,装置持续接收用户线路HTTP监听数据。在本例中,装置对接入的监听数据进行协议识别和过滤,仅保留HTTP协议数据进行接下来的处理,可以提高数据处理效率,提供更具业务针对性的监管处理能力。在步骤S2中,对用户HTTP请求、返回页面数据以及引用资源数据进行协议解析,生成HTTP原始数据(页面)和链路信息。然后进行步骤S3,根据用户特征对HTTP原始数据进行缓存和管理维护,以用户请求页面为单位生成管理ID,建立页面数据和用户IP之间的关联关系,对用户访问单一页面形成的多个资源文件进行识别,并定义唯一序号与之关联。在本例中,需要管理维护HTTP原始数据(页面)及链路信息,包括以下处理i.定义包含HTTP原始页面和链路信息的内存数据结构;ii以活动用户IP和页面URL生成数据块特征进行数据散列;iii.将HTTP资源文件根据用户特征和引用关系关联到页面数据块中;iv.为新缓存的页面数据分配内存空间,并设定超时时间;V.为经过内容分析和业务处理模块的页面数据增加标识;vi.采用独立线程定期检查并清理已处理完成或超时的页面数据。步骤S4是个选择过程当需进行缓存的页面资源不完整或缓存空间足够,不会出现超时情况时,返回步骤Si ;当需进行缓存的页面资源已接收完整,或缓存空间不够,导致出现缓存超时情况时,进行步骤S5。在步骤S4中,将已缓存完整和未完整但缓存超时的页面数据块交由后续模块处理。在步骤S5中,根据HTTP原始数据和链路信息整合页面资源,通过仿浏览器技术在内存中对HTTP原始数据(页面)进行页面缩略图描述,生成缩略图内容。所述缩略图通过唯一序号即管理ID与HTTP原始数据(页面)、链路信息的常规处理结果进行关联存储,使实时页面监管与传统业务监管功能相结合,提供全新可视化综合监管功能;并对经过缩略图描绘的页面数据增加标识,将缩略片内容以二进制形式保存到数据库中;根据系统既定规则和用户设置的条件对HTTP原始数据(页面)和链路信息进行内容分析和规则匹配,并依据匹配结果将页面数据分类处理和存储。可根据用户需要对图片压缩以降低装置存储要求,同时对未缓存完整的页面中缺少的资源进行空白处理。步骤S3-S5的内容分析及业务处理过程与缩略图描绘过程采用独立线程异步处理。在步骤S6中,完成HTTP页面内容以及链路信息的分析处理,并根据系统预设和用户设置的监管规则进行识别与匹配,将数据分类为重点规则中标页面数据、推荐及泛控规则中标页面数据以及未中标页面数据。所述中标页面数据是指符合相关监管规则的页面数据。在本例中,分析处理包括页面字符集识别、文本信息提取、关键词过滤、用户特征识别、垃圾信息识别等常规数据监管功能,监管规则包括IP地址、URL规则、内容关键词规则和复合规则。当判定页面数据为重点规则中标页面数据时,进行步骤S7-1,对重点规则中标页面数据完成内容分析、中标规则统计,并进行数据复制和冗余存储,以保证重点业务数据的完整与安全性。
接着进行步骤S7-2,向用户提供HTTP中标数据的列表浏览、查询、统计和其他常规管理功能,同时结合缩略图预览和多图浏览等可视化功能,提高用户使用效率。当判定页面数据为推荐及泛控规则中标页面数据时,进行步骤S8-1,对推荐和泛控规则中标的页面数据完成内容分析,中标规则统计,并进行临时数据存储,等待用户完成进一步研判,确定该页面数据是否有价值。步骤S8-2是向用户提供被监控线路HTTP页面数据的实时缩略图监控功能,用户可根据全真显示的实时页面缩略图内容进行快速识别和研判。所述HTTP监听数据格式包括来源于网络接口的镜像数据格式或2进制文件形式的通用数据包格式;其中,优选网络接口镜像数据格式。本例中,所述缩略图监控功能包括 i.多画面数据实时监控;ii顺序数据实时监控;iii.随机数据实时监控iv.特定用户实时监控;V.特定网站实时监控;vi.关键词相关数据实时监控。在步骤S8-3中,根据用户研判结果,将确认有价值的页面数据归为重点规则中标页面数据,转向步骤S7-1处理,将未经确认以及超时未研判的页面数据归为未中标数据,转向步骤S9-1进行后续处理。当判定页面数据为未中标页面数据时,进行步骤S9-1,对未中标的页面数据,装置进行一定时间的压缩存储。在本例中,存储时间一般为1-3个月,过期后装置自行删除。此外,根据用户需要,本发明还提供对海量数据的随机画面监管,作为整体监管手段的补充,提高装置可用性,即步骤S9-2。本发明还提供一种可视化HTTP数据监管装置,如图2所示,包含协议解析模块、用户活动页面管理模块、内容分析和业务处理模块、页面缩略图描绘模块、数据业务管理模块、实时监控管理模块、显示及操作控制模块、页面数据存储库和缩略图存储库,相互之间通过内部接口和共享内存交互。其中协议解析模块接收用户线路HTTP监听数据,完成协议解析与还原过程,形成HTTP原始数据(页面)和链路信息;用户活动页面管理模块对协议解析模块输出的HTTP原始数据(页面)和链路信息进行管理维护,对用户访问单一页面形成的多个资源文件进行识别,并定义唯一序号与之关联,通过内部接口将完整页面数据交由内容分析和业务处理模块完成后续处理;内容分析和业务处理模块对HTTP原始数据(页面)和链路信息进行常规分析处理,并根据用户特征对HTTP原始数据进行缓存;页面缩略图描绘模块根据HTTP原始数据(页面)生成缩略图,并将缩略图以二进制形式存储到数据库中;数据业务管理模块提供常规数据监管及相关业务功能;实时监控管理模块提供可视化监管及相关业务功能,根据内容分析和业务处理结果对实时缩略图数据进行重新整理和描述,提供业务定制的实时监控功能,对多画面数据、 顺序数据、随机数据、特定用户、特定网站和关键词相关数据进行实时监控;显示及操作控制模块提供统一的HTTP数据监管界面和操作控制。页面数据存储库和缩略图存储库分别用来存储HTTP原始数据(页面)和生成的页面缩略图数据。在本实施例中,装置通过引入页面缩略图描绘技术,使传统HTTP数据监管产品突破文字、内容和图片单独分析、单独管理、单独显示的限制,以多画面方式实时将完整页面内容直观的显示在监管系统中,使装置用户准确掌握被监管线路上的访问页面全貌,更有效的辅助用户数据监管工作。同时,本装置结合监管系统固有的内容管理和分析功能,建立页面数据和缩略图数据的关联关系,通过数据筛选、分类和条件推荐,细化分类处理不同规则中标的数据,在有限的显示空间和时间内将有效信息集中展现,提高系统综合监管能力。应当理解的是,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,可以做出各种可能的等同或替换,而所有这些改变或替换都应属于本发明的保护范围。
权利要求
1.一种可视化HTTP数据监管方法,包含以下处理步骤 a)接收监听数据,并对其进行协议识别和过滤,仅保留HTTP协议数据作为原始的页面数据,并形成链路信息; b)对页面数据和链路信息定义内存数据结构,以用户请求页面为单位生成管理ID,对用户访问单一页面形成的多个资源文件进行识别,并定义唯一序号与之关联,将页面和关联结果缓存到数据库中; c)对页面数据进行解析,若页面资源不完整或能及时缓存,则返回步骤a);若页面资源完整或缓存超时,则在内存中绘制出页面内容,并以缩略图形式保存到数据库中; d)基于关联结果,根据监管规则对页面数据分类处理;所述监管规则包括IP地址规则、URL规则、内容关键词规则和复合规则; e)根据分类处理结果重新组织监管数据,并提供相关的数据组织形式。
2.如权利要求I所述的方法,其特征在于,所述缩略图以图片形式形成文件,并以二进制形式保存到数据库中。
3.如权利要求I所述的方法,其特征在于,步骤a)中所述的HTTP协议数据包括用户HTTP请求数据、返回页面数据,以及引用资源数据。
4.如权利要求I所述的方法,其特征在于,步骤d)包括 i)当页面数据判定为重点规则中标页面数据时,对其进行常规管理,并实现可视化; )当页面数据判定为未中标页面数据时,对其进行压缩存储,在存储有效期截止后自行删除; 所述重点规则是指能够直接发现和确认被监管线路中恶意行为、有害信息以及用户资料违法传播行为的监管规则; 所述中标页面数据是指符合相关监管规则的页面数据。
5.如权利要求I所述的方法,其特征在于,步骤d)对页面数据的分类处理还包括 iii)当页面数据判定为推荐及泛控规则中标页面数据时,对其进行分析统计,并临时存储,等待进一步的研判;若研判结果为重点规则中标页面数据时,返回步骤i);若研判结果为未中标页面数据时,进行步骤ii);所述推荐及泛控规则是指各类监管规则中对可能存在恶意行为、有害信息以及用户资料违法传播行为数据的特征定义。
6.如权利要求I所述的方法,其特征在于,步骤e)中所述的数据组织形式包括多画面数据、顺序数据、随机数据、特定用户数据、特定网数据站,以及关键词相关数据。
7.—种HTTP数据实时监管装置,包含协议解析模块、用户活动页面管理模块、内容分析和业务处理模块、页面缩略图描绘模块、数据业务管理模块、实时监控管理模块、显示及操作控制模块,其中 协议解析模块接收HTTP监听数据,完成协议解析与还原过程,形成原始的页面数据和链路信息; 用户活动页面管理模块对页面数据和链路信息进行管理维护; 内容分析和业务处理模块对页面数据和链路信息进行常规分析处理,并对页面数据进行缓存; 页面缩略图描绘模块根据页面数据生成缩略图,并将缩略图以二进制形式存储到数据库中;数据业务管理模块提供常规数据监管及相关业务功能; 实时监控管理模块提供可视化监管及相关业务功能; 显示及操作控制模块提供统一的HTTP数据监管界面和操作控制。
8.如权7所述的HTTP数据实时监管装置,其特征在于,所述分析处理包括页面字符集识别、文本信息提取、关键词过滤、用户特征识别、垃圾信息识别。
全文摘要
本发明提供了一种可视化HTTP数据监管方法及装置,持续接收HTTP监听数据,完成协议解析与还原过程,形成HTTP原始数据(页面)和链路信息,对其进行常规内容分析和业务处理,将内容和结果保存到数据库中;同时对旁路监听数据的分析生成监听线路上用户访问行为的实时缩略图,通过建立页面数据和缩略图数据的关联关系,进行数据筛选、分类和条件推荐,细化分类处理不同规则中标的数据,以多画面方式实时将完整页面内容直观的显示在监管系统中,在有限的显示空间和时间内将有效信息集中展现,使装置用户准确掌握被监管线路上的访问页面全貌,提高系统综合监管能力并降低监管用户的应用门槛。
文档编号H04L29/08GK102833111SQ201210316779
公开日2012年12月19日 申请日期2012年8月30日 优先权日2012年8月30日
发明者廉喆, 翁越龙, 傅强, 马轶 申请人:北京锐安科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1