一种http协议信息提取方法及装置与流程

文档序号:26393047发布日期:2021-08-24 16:02阅读:82来源:国知局
一种http协议信息提取方法及装置与流程

本发明涉及一种http协议信息提取方法及装置,属于数据分析技术领域。



背景技术:

互联网的快速发展加快了大数据时代来临的脚步,尤其在数据量非常庞大的今天,数据协议种类快速增长,协议内容迅速更新,协议分析面临极大的挑战。面对当前大数据环境下种类纷繁复杂的http协议,目前采用的传统分析方法是针对每个网页链接,一个一个的分析,应用这样分析方法获取协议内容中有效信息时,效率低、速度慢。



技术实现要素:

本发明所要解决的技术问题是提供一种http协议信息提取方法,采用全新逻辑设计,应用提取规则的自动生成,能够有效提高http协议信息中有效信息的提取效率。

本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种http协议信息提取方法,用于针对http协议信息中的有效信息实现自动化提取,包括如下步骤:

步骤a.获取http协议信息,标注并训练命名实体识别模型,然后进入步骤b;

步骤b.获取一条http协议信息,获取其中的host、path、query、以及信息内容数据,并将query和信息内容数据处理为key-value格式数据,构成该http协议信息所对应的host、path、key-value,然后进入步骤c;

步骤c.获取该http协议信息所对应host与path的组合,构成参考对象,并判断是否存在该参考对象所对应的提取规则或过滤规则,是则进入步骤g;否则进入步骤d;

步骤d.判断是否存在该参考对象所对应的协议信息累计集合,是则将该http协议信息加入该协议信息累计集合中,并进入步骤e;否则创建该参考对象所对应的协议信息累计集合,并将该http协议信息加入该协议信息累计集合中,并返回步骤b;

步骤e.判断该参考对象所对应协议信息累计集合中http协议信息的数量是否达到预设累加数量阈值,是则进入步骤f;否则返回步骤b;

步骤f.针对该参考对象所对应的协议信息累计集合,应用命名实体识别模型,根据所获其中各http协议信息中预设各指定项目的数据内容,判断该http协议信息所对应key-value中有效key信息个数的总和是否不小于预设个数阈值,是则以该参考对象与该全部有效key信息,组合构成该参考对象所对应的提取规则,并返回步骤b;否则定义该参考对象对应过滤规则,并返回步骤b;

步骤g.若该参考对象对应提取规则,则根据该提取规则,提取该http协议信息所对应key-value中的有效value信息,实现http协议信息中有效信息的提取;若该参考对象对应过滤规则,则将该http协议信息丢弃。

作为本发明的一种优选技术方案,所述步骤a包括如下步骤:

步骤a1.获取预设数量的样本http协议信息,并分别针对各样本http协议信息,标注其中的预设各指定项目的数据内容,然后进入步骤a2;

步骤a2.根据各样本http协议信息、以及样本http协议信息中预设各指定项目的数据内容,针对预设指定神经网络进行训练,获得命名实体识别模型,然后进入步骤b。

作为本发明的一种优选技术方案:所述步骤a1中,分别针对各样本http协议信息,使用自然语言处理技术中的命名实体识别算法,标注其中的预设各指定项目的数据内容。

作为本发明的一种优选技术方案:所述步骤a2中的预设指定神经网络为由tensorflow平台搭建bilstm+crf的神经网络。

作为本发明的一种优选技术方案:所述预设各指定项目包括姓名、手机号、地址、公司名、学校名、imsi、imei、mac、银行卡、用户名、密码、昵称。

作为本发明的一种优选技术方案:所述步骤e中的预设累加数量阈值为20。

作为本发明的一种优选技术方案:所述步骤f中的预设个数阈值为2。

与上述相对应,本发明还要解决的技术问题是提供一种针对http协议信息提取方法的装置,基于所设计全新逻辑提取方法,充分调用所设计各模块之间的协同操作,能够有效提高http协议信息中有效信息的提取效率。

本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种针对http协议信息提取方法的装置,包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块;

其中,有效信息识别模块用于识别获取http协议信息中预设各指定项目的数据内容,即执行步骤a;

http协议信息预处理模块用于获取http协议信息中的host、path、query、以及信息内容数据,并将query和信息内容数据处理为key-value格式数据,构成该http协议信息所对应的host、path、key-value,即执行步骤b;

自动提取规则生成模块用于根据有效信息识别模块的处理结果,针对http协议信息预处理模块的处理结果进一步处理,获得相应提取规则或过滤规则,即执行步骤c至步骤f;

http协议信息自动提取模块用于根据提取规则或过滤规则,针对http协议信息预处理模块的处理结果进行有效信息的提取,即执行步骤g。

本发明所述一种http协议信息提取方法及装置,采用以上技术方案与现有技术相比,具有以下技术效果:

本发明所设计http协议信息提取方法及装置中,提取方法采用全新逻辑设计方法,根据所获http协议信息中数据的实际情形,应用http协议信息所对应的host、path、以及由query和信息内容数据所处理获得的key-value,自动化生成相应有效信息的提取规则,所获提取规则符合相应协议信息的客观实际情形,克服了现有技术的不足,并且所设计方法在应用中,逻辑清楚、运算执行速度快;本发明所设计针对提取方法的装置,包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块,应用中充分调用所设计各模块之间的协同操作,能够有效提高http协议信息中有效信息的提取效率。

附图说明

图1是本发明设计应用实施例中预设各指定项目数据内容的标注结果示意图;

图2是本发明设计中应用http协议信息预处理模块的处理示意图;

图3是本发明设计中自动提取规则生成模块的应用流程示意图;

图4是本发明设计中http协议信息自动提取模块的应用流程示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明设计了一种http协议信息提取方法及装置,实际应用当中,所设计装置具体包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块。

应用中,有效信息识别模块用于识别获取http协议信息中预设各指定项目的数据内容。

http协议信息预处理模块用于获取http协议信息中的host、path、query、以及信息内容数据,并将query和信息内容数据处理为key-value格式数据,构成该http协议信息所对应的host、path、key-value。

自动提取规则生成模块用于根据有效信息识别模块的处理结果,针对http协议信息预处理模块的处理结果进一步处理,获得相应提取规则或过滤规则。

http协议信息自动提取模块用于根据提取规则或过滤规则,针对http协议信息预处理模块的处理结果进行有效信息的提取。

基于上述所设计的四个模块,执行本发明所设计的http协议信息提取方法,针对http协议信息中的有效信息实现自动化提取,实际应用当中,具体执行如下步骤a至步骤g。

步骤a.获取http协议信息,标注并训练命名实体识别模型,然后进入步骤b。

实际应用当中,上述步骤a中,应用有效信息识别模块具体执行如下步骤a1至步骤a2。

步骤a1.获取预设数量的样本http协议信息,并分别针对各样本http协议信息,使用自然语言处理技术中的命名实体识别算法,标注其中的预设各指定项目的数据内容,如图1所示,然后进入步骤a2。

实际应用中,这里的预设各指定项目,具体设计包括姓名、手机号、地址、公司名、学校名、imsi、imei、mac、银行卡、用户名、密码、昵称等。

步骤a2.根据各样本http协议信息、以及样本http协议信息中预设各指定项目的数据内容,针对由tensorflow平台搭建bilstm+crf的神经网络进行训练,获得命名实体识别模型,然后进入步骤b。

步骤b.如图2所示,应用http协议信息预处理模块获取该http协议信息中的host、path、query、以及信息内容数据,并将query和信息内容数据处理为key-value格式数据,构成该http协议信息所对应的host、path、key-value,然后进入步骤c。

上述步骤b在实际应用中,对于其中key-value格式数据的处理获得,如图2所示,即针对http协议信息中的query、以及信息内容数据(cookie、post_content)处理为key-value格式数据。

如此基于上述步骤b的执行,即可构成http协议信息所对应的{host、path、key-value}三元组,后续基于http协议信息所对应的三元组,应用执行后续各步骤实际操作。

如图3所示,应用自动提取规则生成模块继续执行如下步骤c至步骤f。

步骤c.应用自动提取规则生成模块获取该http协议信息所对应host与path的组合,构成参考对象,并判断是否存在该参考对象所对应的提取规则或过滤规则,是则进入步骤g;否则进入步骤d。

步骤d.应用自动提取规则生成模块判断是否存在该参考对象所对应的协议信息累计集合,是则将该http协议信息加入该协议信息累计集合中,并进入步骤e;否则创建该参考对象所对应的协议信息累计集合,并将该http协议信息加入该协议信息累计集合中,并返回步骤b。

步骤e.应用自动提取规则生成模块判断该参考对象所对应协议信息累计集合中http协议信息的数量是否达到预设累加数量阈值,是则进入步骤f;否则返回步骤b。

实际应用中,针对预设累加数量阈值,具体设计为20,即上述步骤e中,针对相应参考对象所对应协议信息累计集合中http协议信息的数量,由应用自动提取规则判断其是否达到20,是则进入步骤f;否则返回步骤b。

步骤f.自动提取规则生成模块针对该参考对象所对应的协议信息累计集合,应用命名实体识别模型根据所获其中各http协议信息中预设各指定项目的数据内容,判断该各http协议信息所对应key-value中有效key信息个数的总和是否不小于预设个数阈值,是则以该参考对象与该全部有效key信息,组合构成该参考对象所对应的提取规则,并返回步骤b;否则定义该参考对象对应过滤规则,并返回步骤b。

实际应用中,针对预设个数阈值,具体设计为2,即上述步骤f中,针对相应各http协议信息所对应key-value中有效key信息个数的总和,由自动提取规则生成模块判断其是否不小于2,是则以该参考对象与该全部有效key信息,组合构成该参考对象所对应的提取规则,并返回步骤b;否则定义该参考对象对应过滤规则,并返回步骤b。

步骤g.如图4所示,http协议信息自动提取模块针对该参考对象,若该参考对象对应提取规则,则根据该提取规则,提取该http协议信息所对应key-value中的有效value信息,实现http协议信息中有效信息的提取;若该参考对象对应过滤规则,则将该http协议信息丢弃。

上述技术方案所设计http协议信息提取方法及装置中,提取方法采用全新逻辑设计方法,根据所获http协议信息中数据的实际情形,应用http协议信息所对应的host、path、以及由query和信息内容数据所处理获得的key-value,自动化生成相应有效信息的提取规则,所获提取规则符合相应协议信息的客观实际情形,克服了现有技术的不足,并且所设计方法在应用中,逻辑清楚、运算执行速度快;本发明所设计针对提取方法的装置,包括有效信息识别模块、http协议信息预处理模块、自动提取规则生成模块、http协议信息自动提取模块,应用中充分调用所设计各模块之间的协同操作,能够有效提高http协议信息中有效信息的提取效率。

上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1