信息处理方法及装置与流程

文档序号:13743056阅读:118来源:国知局
技术领域本发明涉及信息处理技术领域,更具体地说,涉及一种信息处理方法及装置。

背景技术:
在WEB应用防护或数据库审计及防护等领域中,需要对业务操作的特征进行识别,基于所识别出的业务操作特征对业务操作进行防护或审计。目前较常用的是通过正则匹配法识别业务操作特征,而由于正则匹配法的设置复杂性较大,难以写出能完整定义业务操作的正则表达式,因此,应用正则匹配法识别的业务操作特征的准确性较低。因此,如何提高业务操作特征识别的准确性成为亟待解决的问题。

技术实现要素:
本发明的目的是提供一种信息处理方法及装置,以提高业务操作特征识别的准确性。为实现上述目的,本发明提供了如下技术方案:一种信息处理方法,包括:抓取镜像网络数据包;基于网络通信协议解析所述镜像网络数据包,获取所述镜像网络数据包传输的数据内容;基于所述数据内容中数据的类型对所述数据内容进行模板化处理,得到所述数据内容的业务操作特征;将所述业务操作特征与预定义的业务操作特征模板进行匹配,确定所述业务操作特征的业务定义。上述方法,优选的,所述数据内容中数据的类型包括形参和实参;所述基于所述数据内容中数据的类型对所述数据内容进行模板化处理,得到所述数据内容的业务操作特征包括:对所述数据内容逐个字符进行类型识别;若识别出第一字符为形参,则保持所述第一字符不变;若识别出所述第一字符为实参,如果所述第一字符对应的形参在预置的非模板化形参列表中,则保持所述第一字符不变,否则,用于预置符号替代所述第一字符。上述方法,优选的,所述对所述数据内容逐个字符进行类型识别包括:基于扩展的巴科斯范式规则对所述数据内容逐个字符进行类型识别。上述方法,优选的,所述基于扩展的巴科斯范式规则对所述数据内容逐个字符进行类型识别包括:基于与所述扩展的巴科斯范式规则对应的语法图对所述数据内容逐个字符进行类型识别。上述方法,优选的,所述将所述业务操作特征与预定义的业务操作特征模板进行匹配包括:计算所述业务操作特征的摘要信息;将所述摘要信息与预定义的业务操作特征模板的摘要信息进行匹配。一种信息处理装置,包括:抓取模块,用于抓取镜像网络数据包;解析模块,用于基于网络通信协议解析所述镜像网络数据包,获取所述镜像网络数据包传输的数据内容;模板化模块,用于基于所述数据内容中数据的类型对所述数据内容进行模板化处理,得到所述数据内容的业务操作特征;匹配模块,用于将所述业务操作特征与预定义的业务操作特征模板进行匹配,确定所述业务操作特征的业务定义。上述装置,优选的,所述数据内容中数据的类型包括形参和实参;所述模板化模块包括:识别单元,用于对所述数据内容逐个字符进行类型识别;处理单元,用于若识别出第一字符为形参,则保持所述第一字符不变;若识别出所述第一字符为实参,如果所述第一字符对应的形参在预置的非模板化形参列表中,则保持所述第一字符不变,否则,用于预置符号替代所述第一字符。上述装置,优选的,所述识别单元包括:识别子单元,用于基于扩展的巴科斯范式规则对所述数据内容逐个字符进行类型识别。上述装置,优选的,所述识别子单元具体用于,基于与所述扩展的巴科斯范式规则对应的语法图对所述数据内容逐个字符进行类型识别。上述装置,优选的,所述匹配模块包括:计算单元,用于计算所述业务操作特征的摘要信息;匹配单元,用于将所述摘要信息与预定义的业务操作特征模板的摘要信息进行匹配。通过以上方案可知,本申请提供的一种信息处理方法及装置,抓取镜像网络数据包;基于网络通信协议对镜像网络数据包进行解析,获取数据内容;基于数据内容中数据的类型对数据内容进行模板化处理,得到业务操作特征;将业务操作特征与预定义的业务操作特征模板进行匹配,确定业务操作特征的业务定义。可见,本发明实施例提供的信息处理方法及装置,基于实际数据内容中的数据类型对数据内容模板化,考虑了实际环境,从而提高业务操作特征识别的准确性。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的信息处理方法的一种实现流程图;图2为本申请实施例提供的与pplication/x-www-form-urlencoded类型的POST参数对应的用于识别字符类型的符合EBNF规则的语法图;图3为本申请实施例提供的与multipart/form-data类型的POST参数对应的用于识别字符类型的符合EBNF规则的语法图;图4为本申请实施例提供的与text/xml类型的POST参数对应的用于识别字符类型的符合EBNF规则的语法图;图5为本申请实施例提供的与application/json类型的POST参数对应的用于识别字符类型的符合EBNF规则的语法图;图6为本申请实施例提供的信息处理装置的一种结构示意图;图7为本申请实施例提供的模板化模块的一种结构示意图;图8为本申请实施例提供的匹配模块的一种结构示意图。说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。请参阅图1,图1为本申请实施例提供的信息处理方法的一种实现流程图,可以包括:步骤S11:抓取镜像网络数据包;本发明实施例中,为了不影响网络数据的正常传输,抓取的是网络数据包的镜像数据。步骤S12:基于网络通信协议解析镜像网络数据包,获取镜像网络数据包传输的数据内容;基于网络传输数据所使用的通信协议解析抓取到的镜像网络数据包。例如,若网络传输数据所使用的通信协议为HTTP协议,则基于HTTP协议解析镜像网络数据包。步骤S13:基于数据内容中数据的类型对数据内容进行模板化处理,得到数据内容的业务操作特征;本发明实施例中,基于数据类型将实际传输的数据内容进行模板化,模板化结果即为数据内容的业务操作特征。步骤S14:将业务操作特征与预定义的业务操作特征模板进行匹配,确定业务操作特征的业务定义。其中,预定义的业务操作特征模板是指:预先基于测试数据包提取业务操作特征,然后对该提取的业务操作特征进行业务定义,即该业务操作特征是什么业务的操作特征。例如,假设对基于某测试数据包提取的业务操作特征的业务定义是充值,则说明该基于某测试数据包提取的业务操作特征是充值业务的操作特征。本发明实施例提供的数据处理方法,抓取镜像网络数据包;基于网络通信协议对镜像网络数据包进行解析,获取数据内容;基于数据内容中数据的类型对数据内容进行模板化处理,得到业务操作特征;将业务操作特征与预定义的业务操作特征模板进行匹配,确定业务操作特征的业务定义。可见,本发明实施例提供的信息处理方法,基于实际数据内容中的数据类型对数据内容模板化,考虑了实际环境,从而提高业务操作特征识别的准确性。目前的开发场景,无论是何种数据类型的提交,都可以将数据内容抽象为形参和实参两个部分,用户提交的数据部分一定在实参中,而服务器接卸数据可能存在于形参中,也可能存在于实参中。基于此,本发明实施例中,数据内容中数据的类型包括形参和实参;相应的,基于数据内容中数据的类型对数据内容进行模板化处理,得到数据内容的业务操作特征的一种实现方式可以为:对数据内容逐个字符进行类型识别。根据数据内容的类型(即数据内容是在以何种方式与服务器交互的过程中承载的数据)可以从数据内容中提取部分或全部内容进行逐字符类型识别处理。例如,HTTP协议规定了客户端与服务器交互的不同方法,最基本的方法有4中,分别是GET,POST,PUT,DELETE。其中,使用最多的就是GET方法和POST方法。发明人在实现本发明的过程中发现,只有GET方法和POST方法与业务操作相关。GET方法中承载的与服务器交互的数据记为GET参数,POST方法中承载的与服务器交互的数据记为POST参数。GET参数在统一资源标识符(UniformResourceIdentifier,URI)中体现,而POST参数在实体(即entity-body)中体现。若数据内容是在与服务器以GET方法交互过程中承载的数据,则提取数据内容中第一个“?”之后的数据进行逐字符类型识别处理即可。而若数据内容是在服务器以POST方法交互过程中承载的数据,则将数据内容全部进行逐字符类型识别处理。对于数据内容中的任意一个字符(为方便叙述,记为第一字符),若识别出第一字符为形参,则保持第一字符不变。也就是说,数据内容中属于形参的字符不做任何处理。若识别出第一字符为实参,如果第一字符对应的形参在预置的非模板化形参列表中,则保持第一字符不变,否则,用预置符号替代第一字符。本发明实施例中,预置非模板化形列表,即,该列表中记录的形参对应的实参不需要模板化。对于数据内容中属于实参的字符,需要判断该字符对应的形参是否在非模板化形参列表中,若该属于实参的字符对应的形参在非模板化形参列表中,则不对该属于实参的字符做任何处理,若该属于实参的字符对应的形参不在非模板化形参列表中,则说明该属于实参的字符需要模板化,模板化的具体实现方式为:用预置的符号(如,?)替代该属于实参的字符。可选的,可以基于扩展的巴科斯范式(EBNF)规则对数据内容逐个字符进行类型识别。优选的,可以基于与扩展的巴科斯范式规则对应的语法图对数据内容逐个字符进行类型识别。下面举例说明基于与扩展的巴科斯范式规则对应的语法图对数据内容逐个字符进行类型识别的一种具体实现过程。例如,POST方法提交的数据(即POST参数)最常见的类型有四种,分别为:(1)application/x-www-form-urlencoded,其数据格式为:key1=val1&key2=val2或者key1^val1&key2^val2等,其中还可以嵌套有json格式的数据。(2)multipart/form-data,其数据格式为:浏览器随机生成了一个分隔符boundary,用于分割不同的数据,其中的Content-Type里指明了数据是以multipart/form-data格式来编码,然后指明了本次请求用于分割数据的boundary的内容。一个示例:Content-Type:multipart/form-data;boundary=----WebKitFormBoundaryrGKCBY7qhFd3TrwA------WebKitFormBoundaryrGKCBY7qhFd3TrwAContent-Disposition:form-data;name=\key1\Val1------WebKitFormBoundaryrGKCBY7qhFd3TrwA。(3)text/xml,即可标记扩展语言,是一种用于标记电子文件使其具有结构性的标记语言,其格式可以描述为<tags>val</tags>。(4)application/json,包括对象、数组、字符串、数值,其格式可以采用正则定义描述。一个json格式的示例为:{“key1”:”val1”,”key2”:[val2,val21,val3]
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1