报文信息提取方法及装置的制造方法

文档序号:10626673阅读:546来源:国知局
报文信息提取方法及装置的制造方法
【专利摘要】本发明提供一种报文信息提取方法及装置,该方法包括:获取服务器响应于客户端发送的请求报文,向客户端返回的响应报文;过滤掉响应报文中不包括目标信息的响应报文;从未过滤掉的响应报文中提取所述目标信息。本发明中报文信息提取装置通过只针对响应报文进行分析,并在对响应报文进行分析之前,过滤掉不包括目标信息的响应报文,可以提高报文分析速度,从而提高管理员获取网络监控信息的速度。
【专利说明】
报文信息提取方法及装置
技术领域
[0001]本发明涉及通信技术领域,特别涉及一种报文信息提取方法及装置。
【背景技术】
[0002]随着产业技术的发展,技术研发机构越来越注重其自主知识产权的保护。为了保证机构自主研发的技术不轻易外泄,需要对互联网进行监控,以便管理员及时了解机构用户通过客户端所访问的服务器上的互联网内容。
[0003]然而,现有技术中,通常对客户端与服务器之间的所有交互报文进行分析,因此分析速度较慢,从而导致管理员获取网络监控信息的速度较慢。

【发明内容】

[0004]有鉴于此,本发明提供一种报文信息提取方法及装置,以解决网络监控信息获取速度较慢的问题。
[0005]根据本发明实施例的第一方面,本发明提供一种报文信息提取方法,所述方法包括:
[0006]获取服务器响应于客户端发送的请求报文,向所述客户端返回的响应报文;
[0007]过滤掉所述响应报文中不包括目标信息的响应报文;
[0008]从未过滤掉的响应报文中提取所述目标信息。
[0009]根据本发明实施例的第二方面,本发明提供一种报文信息提取装置,所述装置包括:
[0010]获取单元,用于获取服务器响应于客户端发送的请求报文,向所述客户端返回的响应报文;
[0011]过滤单元,用于过滤掉所述响应报文中不包括目标信息的响应报文;
[0012]提取单元,用于从未过滤掉的响应报文中提取所述目标信息。
[0013]综上所述,由于采用了上述技术方案,本发明的有益效果是:
[0014]本发明实施例中,报文信息提取装置通过只针对响应报文进行分析,并在对响应报文进行分析之前,过滤掉不包括目标信息的响应报文,可以提高报文分析速度,从而提高管理员获取网络监控信息的速度。
【附图说明】
[0015]图1是应用本发明实施例实现报文信息提取的应用场景示意图;
[0016]图2是本发明报文信息提取方法的一个实施例流程图;
[0017]图3是本发明报文信息提取方法的另一个实施例框图;
[0018]图4是本发明报文信息提取装置所在设备的一种硬件结构图;
[0019]图5是本发明报文信息提取装置的一个实施例框图。
【具体实施方式】
[0020]为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中技术方案作进一步详细的说明。
[0021]参见图1,为应用本发明实施例实现报文信息提取的应用场景示意图。图1中,客户端可以为电脑、手机和iPad等,报文信息提取装置可以为路由器和交换机等。用户可以通过客户端请求访问服务器中提供的资源,报文信息提取装置用于获取客户端向服务器发送的请求报文以及服务器向客户端返回的响应报文。
[0022]在本发明实施例中,报文信息提取装置首先获取服务器响应于客户端发送的请求报文,向客户端返回的响应报文;然后过滤掉这些响应报文中不包括目标信息的响应报文,并从未过滤掉的响应报文中提取目标信息,由此可见,在本发明实施例中报文信息提取装置通过只针对响应报文进行分析,并在对响应报文进行分析之前,过滤掉不包括目标信息的响应报文,可以提高报文分析速度,从而提高管理员获取网络监控信息的速度。
[0023]参见图2,为本发明报文信息提取方法的一个实施例的流程图,包括:
[0024]步骤201、获取服务器响应于客户端发送的请求报文,向客户端返回的响应报文。
[0025]在本发明的优选实施例中,当用户通过客户端请求访问服务器中的资源时,客户端向服务器发送请求报文,服务器在接收到请求报文后,向客户端返回响应报文。经研究发现,只有当服务器向客户端返回的响应报文中包括纯文本内容时,报文信息提取装置才能根据响应报文中的纯文本内容,获得管理员实现网络监控所需要的信息。由于服务器向客户端返回的响应报文中是否包括纯文本内容由响应报文的类型来决定(例如html类型的响应报文中可能包括纯文本内容,JavaScript类型的响应报文中肯定不包括纯文本内容),并且根据服务器响应机制的不同,针对同一种类型的响应报文,服务器可以将网页响应报文中的内容以纯文本形式返回,也可以将网页响应报文中的内容以非纯文本形式返回,因此根据网页响应报文的类型,只能确定该响应报文中可能包括纯文本内容,不能确定该响应报文中一定包括纯文本内容。另外,客户端向服务器发送的请求报文中通常包括用于表示其对应响应报文的类型的标识符。
[0026]综上所述,在本实施例中报文信息提取装置可以首先获取客户端发送的请求报文,然后根据该请求报文中用于表示服务器响应于该请求报文,向客户端返回的响应报文的类型的标识符,判断服务器响应于该请求报文,向客户端返回的响应报文中是否可能包括纯文本内容。当服务器响应于该请求报文,向客户端返回的响应报文中可能包括纯文本内容时,报文信息提取装置可以获取服务器响应于该请求报文,向客户端返回的响应报文。本实施例中报文信息提取装置只有在请求报文中标识符显示其对应响应报文中可能包括纯文本内容时,才获取与该请求报文对应的响应报文,由此本实施例通过只针对可能包括纯文本内容的响应报文进行分析,可以提高分析速度,从而提高管理员获取网络监控信息的速度。
[0027]例如,当用户基于HTTP (HyperText Transfer Protocol,超文本传输协议)协议通过客户端访问服务器上的网页时,报文信息提取装置可以首先获取客户端发送的HTTP请求报文。由于HTTP请求报文包括起始行、报文头部和报文主体三部分,其中,起始行中URL(Uniform Resoure Locator:统一资源定位器)的后缀标识符可以用于表示服务器响应于该HTTP请求报文,向客户端返回的响应报文的类型,因此报文信息提取装置可以在获取客户端发送的HTTP请求报文后,查找到该HTTP请求报文中起始行的URL,并判断该URL的后缀标识符是否为html (HyperText Mark-up Language,超文本标记语言)。当该HTTP请求报文中起始行的URL的后缀标识符为html时,表示服务器响应于该请求报文,向客户端返回的响应报文中可能包括纯文本内容,此时报文信息提取装置可以获取服务器响应于该HTTP请求报文,向客户端返回的HTTP响应报文。
[0028]需要注意的是:当该报文信息提取装置为路由器或交换机时,由于客户端与服务器进行报文交互采用会话流的形式,因此报文信息提取装置可以很容易地区分出各个请求报文与各个响应报文之间的对应关系,从而可以准确地获取可能包括纯文本内容的响应报文。当该报文信息提取装置并非路由器或交换机时,报文信息提取装置可以在获取客户端发送的请求报文以及服务器发送的响应报文的同时,获取客户端的IPdnternetProtocol,网络协议)地址以及服务器的IP地址,从而根据客户端和服务器的IP地址来确定各个请求报文与各个响应报文之间的对应关系,进而准确地获取可能包括纯文本内容的响应报文。
[0029]步骤202、过滤掉响应报文中不包括目标信息的响应报文。
[0030]在本发明的优选实施例中,由于服务器向客户端返回的网页响应报文中包括用于表示响应报文中的内容是否为纯文本的标识符,因此报文提取装置可以根据响应报文中用于表示该响应报文中内容是否为纯文本的标识符,判断响应报文中的内容是否为纯文本。本实施例中报文信息提取装置在提取目标信息时,只针对肯定包括纯文本内容的响应报文提取目标信息,由此可以提高管理员获取网络监控信息的速度。需要注意的是:本实施例中响应报文中的内容可以是指响应报文的部分内容或者全部内容。
[0031]例如,当用户基于HTTP协议通过客户端访问服务器上的网页时,由于HTTP响应报文的报文头中的内容类型Content-Type字段可以用于表示该HTTP响应报文中内容是否为纯文本,因此报文信息提取装置可以首先判断HTTP响应报文的报文头中的Content-Type字段是否为text/html。当HTTP响应报文的报文头中的Content-Type字段为text/html时,表示该HTTP响应报文中内容为纯文本且该HTTP响应中包括管理员实现网络监控所需要的目标信息,此时报文信息提取装置可以保留该HTTP响应报文;当HTTP响应报文的报文头中的Content-Type字段不为text/html时,表示该HTTP响应报文中内容为非纯文本且该HTTP响应中不包括管理员实现网络监控所需要的目标信息,此时报文信息提取装置可以过滤掉该HTTP响应报文。在本例子中,该HTTP响应报文的内容是指HTTP响应报文的报文主体中包括的内容。
[0032]步骤203、从未过滤掉的响应报文中提取目标信息。
[0033]在本发明的优选实施例中,由于服务器向客户端返回的网页响应报文中包括的网页标题最能反映用户正在访问的互联网内容,因此报文信息提取装置可以从未过滤掉的响应报文中提取网页标题,从而实现网络监控。
[0034]例如,当用户基于HTTP协议通过客户端访问服务器上的网页时,由于HTTP报文中通常采用title来标记网页的标题,因此报文信息提示装置可以首先查找HTTP响应报文的主体中的标识符〈title…/title〉,然后读取title与/title之间的内容,从而获取该HTTP响应报文中的网页标题。
[0035]由上述实施例可见,本发明实施例中报文信息提取装置只针对响应报文进行分析,并在对响应报文进行分析之前,过滤掉不包括目标信息的响应报文,由此可以提高报文分析速度,从而提高管理员获取网络监控信息的速度。
[0036]参见图3,为本发明报文信息提取方法的另一个实施例的流程图,该实施例以报文信息提取装置为交换机或者路由器为例,来详细描述本发明实施例中的报文信息提取过程:
[0037]步骤301、获取客户端向服务器发送的HTTP请求报文。
[0038]步骤302、判断该HTTP请求报文中URL的后缀标识符是否为html,若是,执行步骤303,否则,执行步骤307。
[0039]步骤303、获取服务器响应于该HTTP请求报文,向客户端返回的HTTP响应报文,执行步骤304。
[0040]步骤304、判断该HTTP响应报文的报文头中Content-Type字段是否为text/html,若是,则执行步骤305,否则,执行步骤306。
[0041]步骤305、从该HTTP响应报文中提取网页标题,执行步骤306。
[0042]步骤306、将该HTTP响应报文转发给客户端。
[0043]步骤307、将该HTTP请求报文转发给服务器。
[0044]与前述报文信息提取方法实施例相对应,本发明还提供了报文信息提取装置的实施例。
[0045]本发明报文信息提取装置实施例可以通过软件实现,也可以通过硬件或软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明报文信息提取装置所在设备的一种硬件结构图,除了图4所示的处理器、网络接口、内存以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等;从硬件结构上来讲该设备还可能是分布式的设备,可能包括多个接口卡,以便在硬件层面进行报文处理的扩展。
[0046]参见图5,为本发明报文信息提取装置的一个实施例框图,该装置包括:
[0047]获取单元510,用于获取服务器响应于客户端发送的请求报文,向所述客户端返回的响应报文;
[0048]过滤单元520,用于过滤掉所述响应报文中不包括目标信息的响应报文;
[0049]提取单元530,用于从未过滤掉的响应报文中提取所述目标信息。
[0050]在一个可选的实现方式中,
[0051]所述获取单元510,还用于在获取服务器响应于客户端发送的请求报文,向所述客户端返回的响应报文之前,获取所述客户端发送的请求报文;
[0052]所述装置还可以包括:判断单元540,用于根据所述请求报文中用于表示所述服务器响应于所述请求报文,向所述客户端返回的响应报文的类型的标识符,判断所述服务器响应于所述请求报文,向所述客户端返回的响应报文中是否可能包括纯文本内容;
[0053]所述获取单元550,具体用于当所述服务器响应于所述请求报文,向所述客户端返回的响应报文中可能包括纯文本内容时,获取所述服务器响应于所述请求报文,向所述客户端返回的响应报文。
[0054]在另一个可选的实现方式中,
[0055]所述判断单元540,具体用于判断所述请求报文中URL的后缀标识符是否表示所述服务器响应于所述请求报文,向所述客户端返回的响应报文中可能包括纯文本内容;
[0056]所述获取单元510,具体用于若所述请求报文中URL的后缀标识符表示所述服务器响应于所述请求报文,向所述客户端返回的响应报文中可能包括纯文本内容,获取所述服务器响应于所述请求报文,向所述客户端返回的响应报文。
[0057]在另一个可选的实现方式中,
[0058]所述过滤单元520,具体用于根据所述响应报文中用于表示所述响应报文中内容是否为纯文本的标识符,判断所述响应报文中的内容是否为纯文本;若是,则表示所述响应报文中包括所述目标信息,不过滤掉所述响应报文;否则表示所述响应报文中不包括所述目标信息,过滤掉所述响应报文。
[0059]在另一个可选的实现方式中,
[0060]所述过滤单元520,具体用于判断所述响应报文的报文头中的Content-Type字段是否表示所述响应报文中内容为纯文本。
[0061]上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0062]对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0063]由上述实施例可见,本发明实施例中报文信息提取装置只针对响应报文进行分析,并在对响应报文进行分析之前,过滤掉不包括目标信息的响应报文,由此可以提高报文分析速度,从而提高管理员获取网络监控信息的速度。
[0064]本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
[0065]应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
【主权项】
1.一种报文信息提取方法,其特征在于,所述方法包括: 获取服务器响应于客户端发送的请求报文,向所述客户端返回的响应报文; 过滤掉所述响应报文中不包括目标信息的响应报文; 从未过滤掉的响应报文中提取所述目标信息。2.根据权利要求1所述的方法,其特征在于,在获取服务器响应于客户端发送的请求报文,向所述客户端返回的响应报文之前,所述方法还包括: 获取所述客户端发送的请求报文; 根据所述请求报文中用于表示所述服务器响应于所述请求报文,向所述客户端返回的响应报文的类型的标识符,判断所述服务器响应于所述请求报文,向所述客户端返回的响应报文中是否可能包括纯文本内容; 所述获取服务器响应于客户端发送的请求报文,向所述客户端返回的响应报文包括:当所述服务器响应于所述请求报文,向所述客户端返回的响应报文中可能包括纯文本内容时,获取所述服务器响应于所述请求报文,向所述客户端返回的响应报文。3.根据权利要求2所述的方法,其特征在于,所述根据所述请求报文中用于表示所述服务器响应于所述请求报文,向所述客户端返回的响应报文的类型的标识符,判断所述服务器响应于所述请求报文,向所述客户端返回的响应报文中是否可能包括纯文本内容包括: 判断所述请求报文中统一资源定位符URL的后缀标识符是否表示所述服务器响应于所述请求报文,向所述客户端返回的响应报文中可能包括纯文本内容; 所述当所述服务器响应于所述请求报文,向所述客户端返回的响应报文中包括纯文本内容时,获取所述服务器响应于所述请求报文,向所述客户端返回的响应报文包括: 若所述请求报文中URL的后缀标识符表示所述服务器响应于所述请求报文,向所述客户端返回的响应报文中可能包括纯文本内容,获取所述服务器响应于所述请求报文,向所述客户端返回的响应报文。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述过滤掉所述响应报文中不包括目标信息的响应报文包括: 根据所述响应报文中用于表示所述响应报文中内容是否为纯文本的标识符,判断所述响应报文中的内容是否为纯文本; 若是,则表示所述响应报文中包括所述目标信息,不过滤掉所述响应报文;否则表示所述响应报文中不包括所述目标信息,过滤掉所述响应报文。5.根据权利要求4所述的方法,其特征在于,所述根据所述响应报文中用于表示所述响应报文中内容是否为纯文本的标识符,判断所述响应报文中的内容是否为纯文本包括: 判断所述响应报文的报文头中的内容类型Content-Type字段是否表示所述响应报文中内容为纯文本。6.一种报文信息提取装置,其特征在于,所述装置包括: 获取单元,用于获取服务器响应于客户端发送的请求报文,向所述客户端返回的响应报文; 过滤单元,用于过滤掉所述响应报文中不包括目标信息的响应报文; 提取单元,用于从未过滤掉的响应报文中提取所述目标信息。7.根据权利要求6所述的装置,其特征在于, 所述获取单元,还用于在获取服务器响应于客户端发送的请求报文,向所述客户端返回的响应报文之前,获取所述客户端发送的请求报文; 所述装置还包括:判断单元,用于根据所述请求报文中用于表示所述服务器响应于所述请求报文,向所述客户端返回的响应报文的类型的标识符,判断所述服务器响应于所述请求报文,向所述客户端返回的响应报文中是否可能包括纯文本内容; 所述获取单元,具体用于当所述服务器响应于所述请求报文,向所述客户端返回的响应报文中可能包括纯文本内容时,获取所述服务器响应于所述请求报文,向所述客户端返回的响应报文。8.根据权利要求7所述的装置,其特征在于, 所述判断单元,具体用于判断所述请求报文中URL的后缀标识符是否表示所述服务器响应于所述请求报文,向所述客户端返回的响应报文中可能包括纯文本内容; 所述获取单元,具体用于若所述请求报文中URL的后缀标识符表示所述服务器响应于所述请求报文,向所述客户端返回的响应报文中可能包括纯文本内容,获取所述服务器响应于所述请求报文,向所述客户端返回的响应报文。9.根据权利要求6至8中任一项所述的装置,其特征在于, 所述过滤单元,具体用于根据所述响应报文中用于表示所述响应报文中内容是否为纯文本的标识符,判断所述响应报文中的内容是否为纯文本;若是,则表示所述响应报文中包括所述目标信息,不过滤掉所述响应报文;否则表示所述响应报文中不包括所述目标信息,过滤掉所述响应报文。10.根据权利要求9所述的装置,其特征在于, 所述过滤单元,具体用于判断所述响应报文的报文头中的Content-Type字段是否表示所述响应报文中内容为纯文本。
【文档编号】H04L12/26GK105991369SQ201510130058
【公开日】2016年10月5日
【申请日】2015年3月23日
【发明人】王奇
【申请人】杭州迪普科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1