输电系统用数据传输协议识别分析方法与流程

文档序号:17938414发布日期:2019-06-18 22:49阅读:287来源:国知局
输电系统用数据传输协议识别分析方法与流程

本发明涉及输电系统技术领域,特别是一种输电系统用数据传输协议识别分析方法。



背景技术:

互联网的高速发展,使数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,伴随而来的是人类可以分析和处理的海量数据。在中型以上的城市如北京、上海,每天在网络行为中产生的各类数据已经超过pb级。例如手机应用程序每天会有数tb的提交数据产生,这些数据中含有经纬度、手机串号、用户身份识别卡卡号、手机唯一识别码等信息,而这些信息在安全监管行业非常有用,因此海量提取这些信息成为一个重要且复杂的工作。

传统的全文提取方法主要有两种:一种是基于模板的提取方法,这种方法适用于特定网站的信息提取,但是对于多变的手机app以及不同网站产生的数据来说,显得无能为力;另一种是基于正则表达式提取全文内容,这种方法适用于离线的、数据量较小的全文提取,一旦面对海量的app提交数据,效率比较低。因此这两种方法在大数据量情况下,会耗费大量人力,而且效率低下,在大数据量情况下已经不能满足需要。

中国发明专利cn108063741a公开了一种传输协议转换方法,包括:接收客户端或视联网服务器发送的传输数据包;当所述传输数据包是由客户端发送时,将所述传输数据包转换成视联网数据包并发送至所述视联服务器;当所述传输数据包是由视联网服务器发送时,将所述传输数据包转换成以太网数据包并发送至所述客户端。



技术实现要素:

本发明需要解决的技术问题是提供一种可以高效提取数据信息的数据传输协议识别分析方法。

为解决上述技术问题,本发明的输电系统用数据传输协议识别分析方法;包括以下步骤,

步骤s101:将网络封包数据解析为会话数据;

步骤s102:判断会话数据的实体部分是否符合预设数据格式,若是则对会话数据进行数据格式标注;

步骤s103:对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串,并在命中预设特征串时获得预设特征串的命中位置;

步骤s104:根据会话数据的数据格式标注以及预设特征串的命中位置,确定会话数据的对应的提取函数,并根据提取函数对会话数据进行数据提取。

优选的,所述步骤s101中网络封包数据协议采用超文本传输协议,采用http协议栈解析为httppost会话数据;解析后的会话数据包括http头部和http实体部分。

优选的,所述步骤s101中采用http协议栈解析为httppost会话数据先建传输控制协议流,然后再按http会话解析。

优选的,所述步骤s103中预设特征串可以通过配置文件管理,预设特征串的数量大于或者等于1。

优选的,所述步骤s103中读取配置文件获得预设特征串后进行多模匹配算法状态树的生成。

优选的,所述步骤s104中通过对解析后的会话数据进行预设数据格式的判断,将不符合预设数据格式的无效数据滤除。

采用上述方法后,本发明通过对解析后的会话数据进行预设数据格式的判断,可以将不符合预设数据格式的无效数据滤除,因此缩短了数据提取时间,此外,通过对符合预设数据格式的会话数据进行多模匹配,进一步减少了提取数据过程中的查找匹配时间,提高了海量数据的全文数据提取效率。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明输电系统用数据传输协议识别分析方法。

具体实施方式

如图1所示,本发明输电系统用数据传输协议识别分析方法,包括以下步骤,

步骤s101:将网络封包数据解析为会话数据。本步骤可以对多种协议通信的数据进行提取,下面以超文本传输协议(hypertexttransferprotocol,http)数据为例进行详细说明。首先将从数据源获取的网络封包数据解析为文本格式的会话数据。对于http协议数据,采用http协议栈解析为httppost会话数据。解析后的会话数据包括http头部和http实体部分。按照http协议栈解析还原成httppost会话数据,需要先建传输控制协议(transmissioncontrolprotocol,tcp)流,然后再按http会话解析,例如利用开源软件snort实现此种功能。

步骤s102:判断会话数据的实体部分是否符合预设数据格式,若是则对会话数据进行数据格式标注。

将网络封包数据解析为会话数据后,对会话数据的实体部分进行识别,判断会话数据的实体部分是否符合预设数据格式。预设数据格式可根据需要个性化设置。一般情况下,根据需要选择预设数据格式,需要提取的数据一般仅包含在预设数据格式中,该操作,可以将不符合预设数据格式的会话数据滤除。因此可以避免对无效数据进行提取,节约了数据提取时间。当会话数据的实体部分符合预设数据格式时,对会话数据进行数据格式标注,以标识会话数据属于哪种预设数据格式。

步骤s103:对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串,并在命中预设特征串时获得预设特征串的命中位置。

其中预设特征串可以通过配置文件管理,预设特征串的数量大于或者等于1。预设特征串例如可以是“phonenumber”(电话号码)、“mac”(硬件地址)、和“mac”等。可选的,在对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串,并在命中预设特征串时获得预设特征串的命中位置之前,还包括:通过配置文件管理预设特征串。通过配置文件管理预设特征串,可以灵活的添加、删除,本研究中所用的多模匹配算法例如可以是ac算法,还可以使用其他开源算法。

通过读取配置文件获得预设特征串,再进行多模匹配算法状态树的生成,从而最终实现后续的多模匹配操作。

步骤s104:根据会话数据的数据格式标注以及预设特征串的命中位置,确定会话数据的对应的提取函数,并根据提取函数对会话数据进行数据提取。

通过对符合预设数据格式的会话数据进行多模匹配,减少了提取数据过程中的查找匹配时间,提高了海量数据的全文数据提取效率。

本发明输电系统提供的数据提取方法不但适用于特定网站、离线的数据提取,更适用于不指定网站、大流量的数据提取,单个处理线程每秒可以处理多达10000个有效http会话,达到了海量提取全文数据的目的。

虽然以上描述了本发明的具体实施方式,但是本领域熟练技术人员应当理解,这些仅是举例说明,可以对本实施方式作出多种变更或修改,而不背离本发明的原理和实质,本发明的保护范围仅由所附权利要求书限定。



技术特征:

技术总结
本发明涉及输电系统技术领域,特别是一种输电系统用数据传输协议识别分析方法,包括以下步骤,步骤S101:将网络封包数据解析为会话数据;步骤S102:判断会话数据的实体部分是否符合预设数据格式;步骤S103:对符合预设数据格式的会话数据进行多模匹配;步骤S104:根据会话数据的数据格式标注以及预设特征串的命中位置。采用上述方法后,本发明通过对解析后的会话数据进行预设数据格式的判断,可以将不符合预设数据格式的无效数据滤除,因此缩短了数据提取时间,此外,通过对符合预设数据格式的会话数据进行多模匹配,进一步减少了提取数据过程中的查找匹配时间,提高了海量数据的全文数据提取效率。

技术研发人员:李惠英
受保护的技术使用者:李惠英
技术研发日:2019.01.24
技术公布日:2019.06.18
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1