一种网络流量检索方法、装置、电子设备及存储介质与流程

文档序号:17861015发布日期:2019-06-11 22:52阅读:158来源:国知局
一种网络流量检索方法、装置、电子设备及存储介质与流程

本发明实施例涉及检索技术领域,具体涉及一种网络流量检索方法、装置、电子设备及存储介质。



背景技术:

目前网络流量检索的方法对应的研究主要集中在实时流量分类上。流量分类,就是将流量划分为多个优先级或多个服务类,如使用ip报文头的tos(typeofservice,服务类型)字段的前三位(即ip优先级)来标记报文,可以将报文最多分成23=8类;若使用dscp(differentiatedservicescodepoint,区分服务编码点,tos域的的前6位),则最多可分成64类。

对于流量的分类,关于ip报文的tos域等与mpls报文的exp域等仅是分类的一种情况,其实几乎可以对报文的任何信息段进行分类,比如也可以根据源ip地址、目的ip地址、源端口号、目的端口号、协议id等进行流量的分类。

现有的流量分类方法,应预先确定若干流量类别,并将标记的样本用于训练集合。流量分类模型在训练集上进行训练,然后用于对与训练集不相交的测试集进行分类。相比之下,流量检索不需要预定义的流量类和标记的训练集,它根据网络流量的集合对流量进行排序。

现有的网络流量检索方法存在流量检索结果不够精准的缺陷,如何解决现有的网络流量检索方法中存在的流量检索结果不够精准的问题,是待解决的问题。



技术实现要素:

为此,本发明实施例提供一种网络流量检索方法、装置、电子设备及存储介质,以解决现有技术中流量检索结果不够精准的问题。

为了实现上述目的,本发明实施例提供如下技术方案:

在本发明的实施方式的第一方面中,提供了一种网络流量检索方法,所述方法包括:对进行网络流量检索的统计特征进行特征提取,并对提取出的统计特征进行分析,得到两个以上的用于进行流量检索的统计特征;基于预设的相似度计算模型,对两个以上的用于进行网络流量检索的统计特征进行排序,得到相应的排序结果;根据所述排序结果,选择至少包含网络流量的排序在预设排序范围的检索结果作为返回的检索结果。

在本发明的另一实施例中,所述方法还包括:获取与所述统计特征关联的统计特征信息。

在本发明的又一实施例中,所统计特征信息至少包括以下一项:功能类型为包的特征信息、功能描述为单向传输的数据包数的特征信息、功能类型为字节的特征信息、功能描述为单向传输的字节数的特征信息、功能类型为包大小的特征信息、功能类型为数据包间时间的特征信息、流量统计特征对应的数量特征信息。

在本发明的再一实施例中,所述方法还包括:获取进行流量检索的ip数据包信息,其中,所述ip数据包信息至少包括以下一项:源ip信息、源端口信息、目标ip信息、目标端口信息、传输协议信息。

在本发明的实施方式的第二方面中,提供了一种网络流量检索装置,所述装置包括:统计特征提取模块,对进行网络流量检索的统计特征进行特征提取,并对提取出的统计特征进行分析,得到两个以上的用于进行流量检索的统计特征;排序模块,基于预设的相似度计算模型,对所述统计特征提取模块提取出的两个以上的用于进行网络流量检索的统计特征进行排序,得到相应的排序结果;检索结果返回模块,根据所述排序模块得到的所述排序结果,选择至少包含网络流量的排序在预设排序范围的检索结果作为返回的检索结果。

在本发明的另一实施例中,所述装置还包括获取模块,所述获取模块用于获取与所述统计特征提取模块提取到的所述统计特征关联的统计特征信息。

在本发明的又一实施例中,所统计特征信息至少包括以下一项:功能类型为包的特征信息、功能描述为单向传输的数据包数的特征信息、功能类型为字节的特征信息、功能描述为单向传输的字节数的特征信息、功能类型为包大小的特征信息、功能类型为数据包间时间的特征信息、流量统计特征对应的数量特征信息。

在本发明的再一实施例中,所述获取模块还用于获取进行流量检索的ip数据包信息,其中,所述获取模块获取到的所述ip数据包信息至少包括以下一项:源ip信息、源端口信息、目标ip信息、目标端口信息、传输协议信息。

本发明实施例具有如下优点:本发明实施例提供的一种网络流量检索方法、装置、电子设备及存储介质,能够做到:只有至少包含网络流量的排序在预设排序范围的检索结果才能作为返回的检索结果,因此,提供的流量检索方法返回的检索结果更加精准。

在本发明的实施方式的第三方面中,提供了一种电子设备,所述电子设备包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上所述的方法。

在本发明的实施方式的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明实施例具有如下优点:本发明实施例提供的一种网络流量检索方法、装置、电子设备及存储介质,能够做到:只有至少包含网络流量的排序在预设排序范围的检索结果才能作为返回的检索结果,因此,提供的流量检索方法返回的检索结果更加精准。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种网络流量检索方法的流程示意图;

图2为具体实际应用中的网络流量检索方法的流程示意图;

图3为具体实际应用中的排名靠前的单流查询fbtr的平均精度示意图;

图4为具体实际应用中的大查询对应的精度数据和小查询对应的精度数据的对比示意图;

图5为具体实际应用中的qbe与大查询的精度数据、distsum与大查询的精度数据、distmin与大查询的精度数据的对比示意图;

图6为具体实际应用中的qbe与小查询的精度数据、distsum与小查询的精度数据、distmin与小查询的精度数据的对比示意图;

图7为具体实际应用中的qbe、distsum、distmin在召回性能的数据对比示意图;

图8为具体实际应用中的distmin的精确度数据和distmin的召回率数据的示意图;

图9为本发明实施例2提供的一种网络流量检索装置的结构示意图;

图中:901-统计特征提取模块;902-排序模块;903-检索结果返回模块。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

根据本发明的实施例1,提供了一种网络流量检索方法,如图1所示,为本发明实施例1提供的一种网络流量检索方法的流程示意图。该方法至少包括以下步骤:

s101,对进行网络流量检索的统计特征进行特征提取,并对提取出的统计特征进行分析,得到两个以上的用于进行流量检索的统计特征;

s102,基于预设的相似度计算模型,对两个以上的用于进行网络流量检索的统计特征进行排序,得到相应的排序结果;

需要说明的是,步骤102中的预设的相似度的计算模型引入了欧式距离来测量相似度,因此,查询与集合中的第i个流量之间的距离可以通过如下公式:

从上述公式可知:小距离意味着高相似性。集合中的所有流量按照与用户查询的距离按升序排列。最后,排名最高的网络流量将作为检索结果返回。实验结果表明,欧氏距离适用于基于流量的检索。本步骤的预设的相似度计算模型是根据上述公式建立起来的相似度计算模型,在此不再赘述。

s103,根据排序结果,选择至少包含网络流量的排序在预设排序范围的检索结果作为返回的检索结果;这样,通过本发明实施例1提供的方案,能够做到:只有至少包含网络流量的排序在预设排序范围的检索结果才能作为返回的检索结果,因此,提供的流量检索方法返回的检索结果更加精准。

在一个可选的例子中,所述方法还包括:获取与统计特征关联的统计特征信息。

在一个可选的例子中,所统计特征信息至少包括以下一项:功能类型为包的特征信息、功能描述为单向传输的数据包数的特征信息、功能类型为字节的特征信息、功能描述为单向传输的字节数的特征信息、功能类型为包大小的特征信息、功能类型为数据包间时间的特征信息、流量统计特征对应的数量特征信息。

在实际应用中,表1给出了具体实例中的流量统计特征的各项数据,具体如下所述:

表1

除了上述表1罗列出的流量统计特征的各项数据之外,还可以包括流量统计特征的其他数据,在此不再一一赘述。

在一个可选的例子中,所述方法还包括:获取进行流量检索的ip数据包信息,其中,ip数据包信息至少包括以下一项:源ip信息、源端口信息、目标ip信息、目标端口信息、传输协议信息。

如图2所示,为具体实际应用中的流量检索方法的流程示意图。在实际应用中,fbtr使用qbe的查询方法。用户可以通过提供流量的示例来查询fbtr系统。

在具体实际应用中,本发明实施例1提供的网络流量检索方法采用的系统模型具体如下所述:

fbtr适用于网络流量。流程由一系列具有相同5元组的ip数据包组成:源ip,源端口,目标ip,目标端口,传输协议。预处理是流程构造,它根据5元组将ip数据包分组为流。在本发明提供的方案中,假设所有n个网络流都已构建并存储在交通集合中,

其中,f表示交通收集,fi表示f中的第i个流程。

如图2所示,在系统模型中,提取m个统计特征来表示交通流,因此第i个流可以表示为特征空间中的向量:

fi={fi,1,fi2,...,fi,m},其中,fi,j表示第j个特征的值,该特征是流量中的分组统计。在本发明实施例1提供的流量检索方法中,使用特征缩放将所有特征值带入范围[0,1],这可以确保特征向量中特征的相同重要性。

特征缩放可以表示为:

其中,是f中第j个特征的最小值,是f中第j个特征的最大值。

在具有qbe的fbtr的系统模型中,用户可以提供流量作为查询以启动流量检索。假设用户通过使用其他网络管理和分析工具手动捕获查询流。

可以从查询流中提取相同的m个统计特征。给定查询流,用户的查询q也由特征向量表示,

q={q1,q2,...,qm}

其中,qj表示第j个特征的值,该特征是查询流中的分组统计量。对于相似性搜索,在其特征向量上计算查询与集合中的任何流之间的相似性。在本发明提供的方案中,使用欧氏距离来测量相似度,因此查询与集合中的第i个流量之间的距离可以通过

小距离意味着高相似性。集合中的所有流量按照与用户查询的距离按升序排列。最后,排名最高的网络流量将作为检索结果返回。实验结果表明,欧氏距离适用于基于流量的检索。

如图3所示,为具体实际应用中的排名靠前的单流查询fbtr的平均精度示意图。如图3所示,前10名的精度接近0.9,前500名的精度仍然是0.6左右。通常情况是精确度从前10的0.9降低到前10,000的0.3,因为可能有一些相关的流量很难检索。实验数据显示,在实验数据集中有两种类型,其中有6个大类,每一个大类均包含超过40,000个流。其他11个类比较小,其中的每一个都小于7000个流。特别是,四个类非常小,分别是buddy、rsp、rtsp和yahooism,每个都少于500流。实验数据显示,两种类型的流量导致两种不同类型的查询,即大查询和小查询。根据假设,在实验数据集中,大型查询具有超过40,000个相关流,而小查询具有少于7,000个相关流。

如图4所示,为具体实际应用中的大查询对应的精度数据和小查询对应的精度数据的对比示意图。结果表明,大查询和小查询具有非常不同的性能。大查询的精度从前10名的0.95缓慢下降到前10,000名的0.78。小查询的精度发生了巨大变化。它从前10名的0.84快速降至前10,000名的0.07。例如,前1000个小查询的精度低于0.35。可以看出,小查询的性能严重影响qbe的平均性能。与大查询相比,快速查找小查询的相关流程要困难得多。

此外,通过distsum、distmin和distmax三种组合方法的精度的数据显示,结果表明distmax不能很好地工作。distsum和distmin表现出非常好的表现。distmin略好于distsum。例如,在前10名中,distsum和distmin的精度约为0.94。在前500名中,distsum和distmin的精度约为0.65。通过适当的组合方法,双流查询可以有效地提高流量检索性能。精度提高可达到5%至10%。

如图5所示,为具体实际应用中的qbe与大查询的精度数据、distsum与大查询的精度数据、distmin与大查询的精度数据的对比示意图;结果表明:distmin是最好的,比distsum略好。在前10名中,组合方法并不是很优越。随着收集到的流量的增加,组合方法的性能平稳地增加。在前10,000名中,distmin的精度比单流查询的精度约高8%。

如图6所示,为具体实际应用中的qbe与小查询的精度数据、distsum与小查询的精度数据、distmin与小查询的精度数据的对比示意图;结果表明:精确度从前10名的0.9左右迅速下降到前10,000名的大约0.1。distsum和distmin具有非常相似的性能,明显优于qbe。在前10名中,组合方法的精度高于qbe约8%。在前100名,前500名和前1000名中,精度差异并未发生显着变化。在前5000名中,distsum和distmin的精度略好于qbe。在前10,000名中,这三种方法的表现非常接近。

如图7所示,为具体实际应用中的qbe、distsum、distmin在召回性能的数据对比示意图;结果表明:这三种方法都具有较低的召回率,小于0.45,即使系统返回10,000个排名靠前的流量。distsum和distmin表现出比qbe更好的性能。在前10名中,组合方法没有表现出更好的性能。然而,随着收集到的流量的增加,组合方法相对于qbe的改善稳定上升。在前10,000名中,改进可以达到约10%,但distmin的召回率仅为0.4左右。如何检索足够相关的小查询流是fbtr的一大挑战。

如图8所示,为具体实际应用中的distmin的精确度数据和distmin的召回率数据的示意图;结果表明:精度下降非常快,但召回率增长缓慢。好的一点是前10名的精度还不错。这意味着fbtr系统可以快速返回排名靠前的流量中的少量相关流量。

综上所述,本发明实施例1提供的一种网络流量检索方法,具有以下有益效果:只有至少包含网络流量的排序在预设排序范围的检索结果才能作为返回的检索结果,因此,提供的流量检索方法返回的检索结果更加精准。

实施例2

根据本发明的实施例2,还提供了一种网络流量检索装置,如图9所示,为本发明实施例2提供的一种流量检索装置的结构示意图。

本发明实施例2提供的一种网络流量检索装置包括统计特征提取模块901、排序模块902和检索结果返回模块903。

具体而言,统计特征提取模块901,对进行网络流量检索的统计特征进行特征提取,并对提取出的统计特征进行分析,得到两个以上的用于进行流量检索的统计特征;

排序模块902,基于预设的相似度计算模型,对统计特征提取模块901提取出的两个以上的用于进行网络流量检索的统计特征进行排序,得到相应的排序结果;

检索结果返回模块903,根据排序模块902得到的排序结果,选择至少包含网络流量的排序在预设排序范围的检索结果作为返回的检索结果;这样,通过本发明实施例2提供的一种网络流量检索方法,能够做到:只有至少包含网络流量的排序在预设排序范围的检索结果才能作为返回的检索结果,因此,提供的流量检索方法返回的检索结果更加精准。

在一个可选的例子中,所述装置还包括获取模块(在图9中未示出),获取模块用于获取与统计特征提取模块901提取到的统计特征关联的统计特征信息。

在一个可选的例子中,所统计特征信息至少包括以下一项:功能类型为包的特征信息、功能描述为单向传输的数据包数的特征信息、功能类型为字节的特征信息、功能描述为单向传输的字节数的特征信息、功能类型为包大小的特征信息、功能类型为数据包间时间的特征信息、流量统计特征对应的数量特征信息。

在一个可选的例子中,获取模块还用于获取进行流量检索的ip数据包信息,其中,获取模块获取到的ip数据包信息至少包括以下一项:源ip信息、源端口信息、目标ip信息、目标端口信息、传输协议信息。

本发明实施例2提供的方案中的部分内容与本发明实施例1提供的方案中的部分内容相同或相似的部分,烦请参见针对本发明实施例1的相应部分的描述,在此不再赘述。

综上所述,本发明实施例2提供的一种网络流量检索方法,具有以下有益效果:能够做到:只有至少包含网络流量的排序在预设排序范围的检索结果才能作为返回的检索结果,因此,提供的流量检索方法返回的检索结果更加精准。

实施例3

根据本发明的实施例3,还提供了一种电子设备,所述电子设备包括:存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:对进行网络流量检索的统计特征进行特征提取,并对提取出的统计特征进行分析,得到两个以上的用于进行流量检索的统计特征;基于预设的相似度计算模型,对两个以上的用于进行网络流量检索的统计特征进行排序,得到相应的排序结果;根据排序结果,选择至少包含网络流量的排序在预设排序范围的检索结果作为返回的检索结果。

本发明实施例3提供的方案中的部分内容与本发明实施例1提供的方案中的部分内容相同或相似的部分,烦请参见针对本发明实施例1的相应部分的描述,在此不再赘述。

综上所述,本发明实施例3提供的一种电子设备,具有以下有益效果:能够做到:只有至少包含网络流量的排序在预设排序范围的检索结果才能作为返回的检索结果,因此,提供的流量检索方法返回的检索结果更加精准。

实施例4

根据本发明的实施例4,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法:对进行网络流量检索的统计特征进行特征提取,并对提取出的统计特征进行分析,得到两个以上的用于进行流量检索的统计特征;基于预设的相似度计算模型,对两个以上的用于进行网络流量检索的统计特征进行排序,得到相应的排序结果;根据排序结果,选择至少包含网络流量的排序在预设排序范围的检索结果作为返回的检索结果。

本发明实施例4提供的方案中的部分内容与本发明实施例1提供的方案中的部分内容相同或相似的部分,烦请参见针对本发明实施例1的相应部分的描述,在此不再赘述。

综上所述,本发明实施例4提供的一种计算机可读存储介质,具有以下有益效果:能够做到:只有至少包含网络流量的排序在预设排序范围的检索结果才能作为返回的检索结果,因此,提供的流量检索方法返回的检索结果更加精准。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1