一种网络异常流量检测模型构建方法及装置与流程

文档序号:32851040发布日期:2023-01-06 23:07阅读:35来源:国知局
一种网络异常流量检测模型构建方法及装置与流程

1.本发明涉及网络异常流量检测技术领域,具体涉及一种网络异常流量检测模型构建方法及装置。


背景技术:

2.随着信息技术的发展与普及,网络安全问题越来越受到专业技术人员的重视,其中网络异常流量检测就是该领域的一个重要分支。对于不同类型特征的网络流量或者攻击手段,将其准确分类能够预防和保护信息系统。分类算法一直是机器学习领域中的研究热点,逻辑回归算法是一种经典传统分类方法。由于逻辑回归算法的可解释性强,将多分类逻辑回归算法应用于网络异常流量检测是符合实际需求的,对于检测结果可提供一定的解释。但是在实际使用过程中依然存在如下问题:一方面,由于逻辑回归算法的寻优方式较为传统,在寻优可行解的过程中很容易陷入局部最优,容易欠拟合;另一方面,异常流量检测的数据集一般较大,单机方式需要运行相当长的时间,这一点不符合工业生产效率要求,最后,网络异常流量的数据特点就是绝大部分都为正常流量,不正常流量类型占极少数,存在数据不平衡的问题。


技术实现要素:

3.因此,本发明要解决的技术问题在于克服现有技术中传统的逻辑回归算法容易欠拟合、数据量大以及数据不平衡的缺陷,从而提供一种网络异常流量检测模型构建方法及装置。
4.为解决上述技术问题,本发明公开实施例至少提供一种网络异常流量检测模型构建方法及装置。
5.第一方面,本发明公开实施例提供了一种网络异常流量检测模型构建方法,包括:由模型最优解获取模块确定目标全局模型最优值;根据所述目标全局模型最优值确定所述网络异常流量检测模型;其中,所述模型最优解获取模块包括一个驱动节点和至少两个执行节点,所述由模型最优解获取模块确定目标全局模型最优值包括:由所述驱动节点根据杂交水稻优化算法产生随机初始种群,对每个初始种群个体进行编号并设定为广播变量,根据训练数据集产生第一弹性分布式数据集,并按照所述第一弹性分布式数据集为每个所述执行节点分配训练数据集;每个所述执行节点通过扁平化算子产生第二弹性分布式数据集,所述第二弹性分布式数据集以所述初始种群的编号为键、以被分配的训练数据集中每条数据记录为值,计算所述第二弹性分布式数据集中每条数据记录的中间结果值,使用分组聚合算子、利用所述中间结果值对所述第二弹性分布式数据集进行分组聚合计算,得到杂交水稻个体适度值;由所述驱动节根据所述杂交水稻个体适度值重新划分种群种系,并得到初始全局
模型最优值,判断当前是否满足预设终止条件;若未满足,则更新所述初始种群,直至得到初始全局模型最优值时满足所述预设终止条件,若满足,则将所述初始全局模型最优值作为所述目标全局模型最优值。
6.可选地,所述根据训练数据集产生第一弹性分布式数据集包括:获取所述训练数据集;从所述训练数据集中分别获取异常流量数据和正常流量数据,并记录每条所述异常流量数据和每条所述正常流量数据的行号;循环填充所述异常流量数据,使所述异常流量数据的数量和所述正常流量数据的数量相同;将每条所述正常流量数据和一条所述异常流量数据进行拼接,形成组合数据;基于所述组合数据产生第一分布式弹性数据集。
7.可选地,所述根据所述适应度值确定水稻个体种系,并得到初始全局模型最优值为:基于水稻个体种系,依据公式得到初始全局模型最优值。
8.可选地,所述由所述驱动节根据所述杂交水稻个体适度值重新划分种群种系,并得到初始全局模型最优值为:基于水稻个体种系,依据公式得到初始全局模型最优值,其中,m为输入数据的数量,k为类别的数量,为目标损失函数,为第i个类别对应的权重向量,为第i个类别对应的偏移标量,x为训练数据集中的数据记录,i为类别编号,为第j个数据记录由计算所得的类型,为第j个数据记录的真实数据类型,j为输入数据的序号,为第j个数据记录。
9.可选地,所述根据所述目标全局模型最优值确定所述网络异常流量检测模型为:将所述目标全局模型最优值代入公式得到所述网络异常流量检测模型,其中,为第i个类别对应的权重向量,为第i个类别对应的偏移标量,x为训练数据集中的数据记录,y为数据记录的类别,i为类别编号,为数据记录x属于j类别的计算概率。
10.可选地,所述计算所述第二弹性分布式数据集中每条数据记录的中间结果值为:由执行节点采用公式计算所述第二弹性分布式数据集中每条数据记录的中间结果值,其中k为类别的数量,为第i个类别对应的权重向量,为第i个类别对应的偏移标量,x为训练数据集中的数据记录,i为类别编号,为第j个数据记录由计算所得的类型,为第j个数据记录的真实数据类型,j为输入数据的序号,为第j个数据记录,对应一组w和b的中间结果值。
11.可选地,所述由所述驱动节根据所述杂交水稻个体适度值重新划分种群种系包
括:根据所述杂交水稻个体适度值将水稻分为保持系、不育系和恢复系;将所述保持系与所述不育系进行杂交产生新不育系个体;将所述恢复系自交产生新恢复系个体;对达到自交次数上限的恢复系个体在解空间内随机生成一基因组,将所述基因组加到参与重置的目标种群个体基因上,同时将所述目标种群个体的自交次数设置为0。
12.可选地,所述将所述保持系与所述不育系进行杂交产生新不育系个体包括:将所述保持系与所述不育系进行随机杂交,产生的新不育系个体的基因的每一维都由所述不育系和所述保持系中的随机个体以随机比例杂交得到;或者,将所述保持系与所述不育系进行对映杂交,产生的新不育系个体的基因的每一维都由不育系个体与相同编号的保持系个体以随机比例杂交得到。
13.第二方面,本发明公开实施例还提供一种网络异常流量检测模型构建装置,包括:模型最优解获取模块和模型确定模块,所述模型最优解获取模块包括一个驱动节点和至少两个执行节点;所述模型最优解获取模块,用于确定目标全局模型最优值;所述模型确定模块,用于根据所述目标全局模型最优值确定所述网络异常流量检测模型;其中,所述驱动节点,根据杂交水稻优化算法产生随机初始种群,对每个初始种群个体进行编号并设定为广播变量,根据训练数据集产生第一弹性分布式数据集,并按照所述第一弹性分布式数据集为每个所述执行节点分配训练数据集,接收每个所述执行节点发送的杂交水稻个体适度值,根据所述执行节点产生的杂交水稻个体适度值重新划分种群种系,并得到初始全局模型最优值,判断当前是否满足预设终止条件;若未满足,则更新所述初始种群,直至得到初始全局模型最优值时满足所述预设终止条件,若满足,则将所述初始全局模型最优值作为所述目标全局模型最优值;所述执行节点,通过扁平化算子产生第二弹性分布式数据集,所述第二弹性分布式数据集以所述初始种群的编号为键、以被分配的训练数据集中每条数据记录为值,计算所述第二弹性分布式数据集中每条数据记录的中间结果值,使用分组聚合算子、利用所述中间结果值对所述第二弹性分布式数据集进行分组聚合计算,得到杂交水稻个体适度值,向所述驱动节点发送所述杂交水稻个体适度值。
14.第三方面,本发明公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
15.第四方面,本发明公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
16.本发明的实施例提供的技术方案可以具有以下有益效果:由模型最优解获取模块确定目标全局模型最优值;根据目标全局模型最优值确定网络异常流量检测模型;其中,模型最优解获取模块包括一个驱动节点和至少两个执行节点,由驱动节点根据杂交水稻优化算法产生随机初始种群,对每个初始种群个体进行编号并设定为广播变量,根据训练数据集产生第一弹性分布式数据集,并按照第一弹性分布式
数据集为每个执行节点分配训练数据集;每个执行节点通过扁平化算子产生第二弹性分布式数据集,第二弹性分布式数据集以初始种群的编号为键、以被分配的训练数据集中每条数据记录为值,计算第二弹性分布式数据集中每条数据记录的中间结果值,使用分组聚合算子、利用中间结果值对第二弹性分布式数据集进行分组聚合计算,得到杂交水稻个体适度值;由驱动节点根据杂交水稻个体适度值重新划分种群种系,并得到初始全局模型最优值,若当前满足预设终止条件,则将初始全局模型最优值作为目标全局模型最优值,结合spark技术的杂交水稻优化算法分类方法,整体采用spark(专为大规模数据处理而设计的快速通用的计算引擎),有效缓解欠拟合的问题,通过分布式集群计算的方式,大幅提升数据集的分类求解过程。通过spark中rdd(弹性分布式数据集,resilient distributed datasets)循环重复不正常的流量数据进行数据平衡,消除数据不平衡对分类模型带来的影响。
17.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
18.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1示出了本发明公开实施例所提供的一种网络异常流量检测模型构建方法的流程图;图2示出了本发明公开实施例中杂交水稻水稻优化算法的流程示意图;图3示出了本发明公开实施例所提供的一种网络异常流量检测模型构建装置的结构示意图;图4示出了本发明公开实施例所提供的一种计算机设备的结构示意图。
具体实施方式
20.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
21.实施例1如图1所示,本发明公开实施例所提供的一种网络异常流量检测模型构建方法的流程图,该方法包括:s11:由模型最优解获取模块确定目标全局模型最优值。
22.s12:根据目标全局模型最优值确定网络异常流量检测模型。
23.其中,模型最优解获取模块包括一个驱动节点和至少两个执行节点,s11可以通过以下过程实现,图中未示出:s111:由驱动节点根据杂交水稻优化算法产生随机初始种群,对每个初始种群个
体进行编号并设定为广播变量,根据训练数据集产生第一弹性分布式数据集,并按照第一弹性分布式数据集为每个执行节点分配训练数据集;s112:每个执行节点通过扁平化算子产生第二弹性分布式数据集,第二弹性分布式数据集以初始种群的编号为键、以被分配的训练数据集中每条数据记录为值,计算第二弹性分布式数据集中每条数据记录的中间结果值,使用分组聚合算子、利用中间结果值对第二弹性分布式数据集进行分组聚合计算,得到杂交水稻个体适度值;s113:由驱动节点根据杂交水稻个体适度值重新划分种群种系,并得到初始全局模型最优值,判断当前是否满足预设终止条件;若未满足,则更新初始种群,直至得到初始全局模型最优值时满足预设终止条件,若满足,则将初始全局模型最优值作为目标全局模型最优值。
24.在一些可选实施例中,图中未示出,s111中,根据训练数据集产生第一弹性分布式数据集可以但不限于通过以下过程实现:s1111:获取训练数据集;s1112:从训练数据集中分别获取异常流量数据和正常流量数据,并记录每条异常流量数据和每条正常流量数据的行号;s1113:循环填充异常流量数据,使异常流量数据的数量和正常流量数据的数量相同;s1114:将每条正常流量数据和一条异常流量数据进行拼接,形成组合数据;s1115:基于组合数据产生第一分布式弹性数据集。
25.具体的,在一些可选实施例中,由驱动节点根据杂交水稻个体适度值重新划分种群种系,并得到初始全局模型最优值可以为:基于水稻个体种系,依据公式得到初始全局模型最优值,其中,m为输入数据的数量,k为类别的数量,为目标损失函数,为第i个类别对应的权重向量,为第i个类别对应的偏移标量,x为训练数据集中的数据记录,i为类别编号,为第j个数据记录由计算所得的类型,为第j个数据记录的真实数据类型,j为输入数据的序号,为第j个数据记录。
26.具体的,根据目标全局模型最优值确定网络异常流量检测模型可以为:将目标全局模型最优值代入公式得到所述网络异常流量检测模型,其中,为第i个类别对应的权重向量,为第i个类别对应的偏移标量,x为训练数据集中的数据记录,y为数据记录的类别,i为类别编号,为数据记录x属于j类别的计算概率。
27.在一些可选实施例中,计算第二弹性分布式数据集中每条数据记录的中间结果值可以为:由执行节点采用公式计算所述第二弹性分布
式数据集中每条数据记录的中间结果值,其中k为类别的数量,为第i个类别对应的权重向量,为第i个类别对应的偏移标量,x为训练数据集中的数据记录,i为类别编号,为第j个数据记录由计算所得的类型,为第j个数据记录的真实数据类型,j为输入数据的序号,为第j个数据记录,对应一组w和b的中间结果值。
28.在一些可选实施例中,图中未示出,s113中,由驱动节点根据杂交水稻个体适度值重新划分种群种系可以但不限于通过以下过程实现:s1131:根据杂交水稻个体适度值将水稻分为保持系、不育系和恢复系;s1132:将保持系与不育系进行杂交产生新不育系个体;s1133:将恢复系自交产生新恢复系个体;s1134:对达到自交次数上限的恢复系个体在解空间内随机生成一基因组,将基因组加到参与重置的目标种群个体基因上,同时将目标种群个体的自交次数设置为0。
29.在一些可选实施例中,针对网络异常流量检测问题,可以利用入侵检测数据集kddcup99数据集进行模型生成,其包含训练数据集和测试数据集。通过数据清洗可以得到特征包括41种连接属性和1个类别属性。本数据集有4大类异常流量记录,其余皆为正常类别,且4大类异常占比为1%左右。面对海量数据的处理时,引入分布式计算技术。通过spark读入数据,分为正常记录和异常记录,并记录行号。由于正常记录数量远大于异常记录,则循环填充异常记录,达到和正常记录同等数量。然后拼接成正常+异常形式的记录,存入hdfs(hadoop distributed file system,分布式文件系统)。通过spark将拼接后的新数据集rdd化,在driver端(驱动节点)根据杂交水稻优化算法产生随机初始种群r,并对每个个体进行编号,将其设定为广播变量,通过flapmap(编程语言中的一种函数)算子产生的新的kv(key value,键值)对类型的rdd,其中键为种群r的每个个体的编号,值为一条数据记录,而一条数据记录来自原rdd中正常+异常形式的记录的拆分,即原rdd中一行数据记录被分化成2*n条键值对记录,n为杂交水稻种群大小,在worker端(执行节点)通过公式分布式计算数据集的每个数据记录的中间结果值,代表一条数据记录对应一组w和b的中间结果值,其中m为输入数据的数量,k为种类数目。结合目标损失函数,利用spark的reducebykey算子对新rdd进行分组聚合计算,reducebykey用于对元素为kv对的rdd中key相同的元素的value进行binary_function的reduce操作,即得到种群中每个个体的适应度值。损失函数的目的就是寻找最优的一组w和b即代入公式得到分类模型,用于表示数据x的标签为第j个类别的概率。根据适应度值确立水稻个体种系,并得到初始全局模型最优值。判断当前是否达到迭代终止条件,如果否,则根据后续更新步骤进行r的更新,如果gbest得到更优的则更新该变量。r更新后,又重新分布式计算整个训练数据集来更新r。重复上述步骤,直到迭代次数达到或者适应度函数值变化量小于指定阈值。输出的结果
即为最后的多分类权重和偏移值,代入上述模型公式中,即可得到网络异常流量检测模型。
30.上述过程可以概括为如下步骤:步骤1:数据预处理:kddcup99入侵检测数据原始数据集存在的一些缺失,错位的数据,进行缺省填充、归一化等数据处理过程,处理结果存储于hdfs。
31.步骤2:创建数据输入源:通过spark外部存储创建方式产生分布式数据集rdd,分类数据集为正常记录和异常记录,保存行号。设正常记录的最大行号为n,异常记录的最大行号为a,显然n远大于a。通过循环追加异常记录使其总数量达到正常记录的数量n。至此,得到两个同等数量的正常记录和异常记录。
32.步骤3:模型训练初始化:设定杂交水稻优化算法参数值,并将其设定为广播变量,随机初始化杂交水稻优化算法初始种群(数量为3的整数倍),记为r。
33.步骤4:种群划分:对于每个并行化模块中,计算每个记录的对应适应度值,并根据所使用杂交水稻个体编号设定其key值,得到k-v键值对形式的元素。使用spark中的reducebykey算子将k-v键值对分组并用聚合算子计算得到杂交水稻种群中每个个体的适应度值,根据值将其划分为保持系、恢复系和不育系。
34.步骤5:更新种群:从上一步骤中得到种群划分结果,根据杂交水稻优化算法的更新方式进行种群更新。
35.步骤6:循环迭代:杂交水稻种群更新后,重复步骤4和步骤5,直到满足循环终止条件。
36.进一步的,上述过程中,结合图2,步骤5的杂交水稻优化算法可以概括如下:1、初始种群初始化:确定以下参数:

水稻种群数n;

最大育种次数maxiteration;

最大自交次数maxtime。每个水稻个体即为火电站和水电站组合发电流量的候选解。
37.2、适应度值计算:分别计算种群中各个个体的适应度值根据水稻的优劣将水稻进行排序,保持系、不育系、恢复系的数量分别为a、a、n-2a。
38.3、杂交过程:将保持系与不育系进行杂交产生新的不育系个体。
39.对于每一次育种,杂交过程进行的次数与不育系的个体数量相同。每一次杂交,将从不育系和保持系中各选取一个个体作为父本母本,选取方式可以随机选取也可以按一一对应的方式选取。杂交的方式是将父本与母本对应位置的基因按照随机权重相加进行重组而得到一个拥有新的基因的个体。计算新个体的适应度,并以贪心算法为准则将其与其父本母本中的不育系个体对比,将适应度较优的个体保留至下一代。
40.①
随机杂交新不育系个体,其中,表示该轮育种过程中第k次杂交产生的新个体的第j维基因,r1和r2为-1至1之间的随机数,表示不育系中的第a个个体,表示保持系中的第b个个体。产生的新个体的基因的每一维都由不育系和保持系中的随机个体以随机比例杂交得到。
41.②
对映杂交
新不育系个体(3),式中,表示不育系中的第a个个体,表示保持系中的第b个个体。产生的新个体的基因的每一维都由不育系的第k个个体育保持系中的第k个个体以随机比例杂交得到。
42.本发明实施例中适应度函数可以为,其中,c即代表一组聚类中心(一组特征向量),x代表输入的全部视频帧的特征向量,k代表类别(聚类数目)。
43.杂交后对新产生的个体进行贪心算法选择,若将取代保留至下一代,若则将保留至下一代。
44.4、自交过程:恢复系自交产生新的恢复系个体。
45.育种过程中,自交进行的次数与恢复系的个体数量相同。每一次自交,参与自交的恢复系个体各个位置上的基因都会向着当前最优解靠近一个随机量。计算新的个体的适应度并根据贪心算法与自交之前的恢复系个体相比,选择较优的保存到下一代。若保存到下一代的个体为自交之前的个体那么该个体的自交次数将加1。如果保存到下一代的个体为自交产生的新个体,若新个体优于当前最优个体,则将其自交次数设置为0,否则保持其自交次数不变。若某个恢复系个体的自交次数达到了限制次数maxtime,那么在下一轮育种过程中它将不参与自交过程,取而代之的是重置过程。
46.,式中表示该轮育种过程中第k次自交产生的新个体,表示恢复系中的第s个个体,表示当前所找到的最优个体,为恢复系中的第sr个个体,其中sr随机取值于。
47.同样自交后对新产生的个体进行贪心算法选择,若将取代保留至下一代其自交次数保持不变,若则将保留至下一代,其自交次数加1。若则将取代当前的最优个体的记录并将其自交次数设为0,。如果,则在下一代育种时,该个体不进行自交过程,而是进行重置过程。
48.5、重置过程。
49.重置过程实际上是自交过程的一个子过程,用来处理达到自交次数上限的恢复系个体。重置过程将在解空间内随机生成一组基因,并将这组基因加到参与重置的个体的基因上,同时其自交次数将被设置为0。
50.,式中表示该重置产生的新个体,表示达到自交次数上限的个体的第j维数值,表示第j维取值范围的下界,表示第j维取值范围的上界。
51.6、记录当前所得到的最优的个体的基因。
52.若未达到最大育种代数maxiteration或小于优化误差则跳转至步骤2,否则将当前最优个体的基因作为结果输出,输出的结果就是的最终结果。
53.7、导出训练结果:将杂交水稻优化算法训练的最终全局最优个体记录为最终结果,将其代入公式中,即可得到一个有效的具有可解释性的网络异常流量分类模型。
54.可以理解的是,本实施例提供的技术方案,有效缓解欠拟合的问题,结合spark技术的杂交水稻优化算法分类方法,通过分布式集群计算的方式,大幅提升数据集的分类求解过程。通过spark中rdd循环重复不正常的流量数据进行数据平衡,消除数据不平衡对分类模型带来的影响。
55.实施例2如图3所示,本发明实施例还提供一种网络异常流量检测模型构建装置,包括模型最优解获取模块31和模型确定模块32,模型最优解获取模块31包括一个驱动节点311和至少两个执行节点312;模型最优解获取模块31,用于确定目标全局模型最优值;模型确定模块32,用于根据目标全局模型最优值确定网络异常流量检测模型;其中,驱动节点311,根据杂交水稻优化算法产生随机初始种群,对每个初始种群个体进行编号并设定为广播变量,根据训练数据集产生第一弹性分布式数据集,并按照第一弹性分布式数据集为每个执行节点312分配训练数据集,接收每个执行节点312发送的杂交水稻个体适度值,根据执行节点312产生的杂交水稻个体适度值重新划分种群种系,并得到初始全局模型最优值,判断当前是否满足预设终止条件;若未满足,则更新初始种群,直至得到初始全局模型最优值时满足预设终止条件,若满足,则将初始全局模型最优值作为目标全局模型最优值;执行节点312,通过扁平化算子产生第二弹性分布式数据集,第二弹性分布式数据集以初始种群的编号为键、以被分配的训练数据集中每条数据记录为值,计算第二弹性分布式数据集中每条数据记录的中间结果值,使用分组聚合算子、利用中间结果值对第二弹性分布式数据集进行分组聚合计算,得到杂交水稻个体适度值,向驱动节点发送杂交水稻个体适度值。
56.在一些可选实施例中,图中未示出,驱动节点311包括:训练数据集获取子模块3111,用于获取训练数据集;数据提取子模块3112,用于从训练数据集中分别获取异常流量数据和正常流量数据,并记录每条异常流量数据和每条正常流量数据的行号;数据填充子模块3113,用于循环填充异常流量数据,使异常流量数据的数量和正常流量数据的数量相同;数据拼接子模块3114,用于将每条正常流量数据和一条异常流量数据进行拼接,形成组合数据;第一分布式弹性数据集生成子模块3115,用于基于组合数据产生第一分布式弹性数据集。
57.在一些可选实施例中,基于水稻个体种系,驱动节点311依据公式得到初始全局模型最优值,其中,m为输入数据的数量,k为类别的数量,为目标损失函数,为第i个类别对应的权重向量,为第i个类
别对应的偏移标量,x为训练数据集中的数据记录,i为类别编号,为第j个数据记录由计算所得的类型,为第j个数据记录的真实数据类型,j为输入数据的序号,为第j个数据记录。
58.在一些可选实施例中,驱动节点311将目标全局模型最优值代入公式得到所述网络异常流量检测模型,其中,为第i个类别对应的权重向量,为第i个类别对应的偏移标量,x为训练数据集中的数据记录,y为数据记录的类别,i为类别编号,为数据记录x属于j类别的计算概率。
59.在一些可选实施例中,由执行节点311采用公式计算所述第二弹性分布式数据集中每条数据记录的中间结果值,其中k为类别的数量,为第i个类别对应的权重向量,为第i个类别对应的偏移标量,x为训练数据集中的数据记录,i为类别编号,为第j个数据记录由计算所得的类型,为第j个数据记录的真实数据类型,j为输入数据的序号,为第j个数据记录,对应一组w和b的中间结果值。
60.在一些可选实施例中,图中未示出,驱动节点311还可以包括:种群划分子模块3116,用于根据适应度值将水稻分为保持系、不育系和恢复系;杂交子模块3117,用于将保持系与不育系进行杂交产生新不育系个体;自交子模块3118,用于将恢复系自交产生新恢复系个体;重置子模块3119,用于对达到自交次数上限的恢复系个体在解空间内随机生成一基因组,并将基因组加到参与重置的目标种群个体的基因上,同时将目标种群个体的自交次数设置为0。
61.在一些可选实施例中,图中未示出,杂交子模块3117可以包括:随机杂交单元,用于将保持系与不育系进行随机杂交,产生的新不育系个体的基因的每一维都由不育系和保持系中的随机个体以随机比例杂交得到;或者,对映杂交单元,用于将保持系与不育系进行对映杂交,产生的新不育系个体的基因的每一维都由不育系个体与相同编号的保持系个体以随机比例杂交得到。
62.在一些可选实施例中,杂交子模块322可以采用公式将所述保持系与所述不育系进行杂交产生新不育系,为本轮育种过程中第k次杂交产生的新个体的第j维基因,表示不育系中的第a个个体,表示保持系中的第b个个体,r1、r2为-1至1之间的随机数,若所述保持系与所述不育系进行随机杂交进行随机杂交,若所述保持系与所述不育系进行随机杂交进行对映杂交,则a=b=k。
63.可以理解的是,本实施例提供的技术方案,有效缓解欠拟合的问题,结合spark技术的杂交水稻优化算法分类方法,通过分布式集群计算的方式,大幅提升数据集的分类求
解过程。通过spark中rdd循环重复不正常的流量数据进行数据平衡,消除数据不平衡对分类模型带来的影响。
64.实施例3基于同一技术构思,本技术实施例还提供了一种计算机设备,包括存储器1和处理器2,如图4所示,所述存储器1存储有计算机程序,所述处理器2执行所述计算机程序时实现上述任一项所述的网络异常流量检测模型构建方法。
65.其中,存储器1至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器1在一些实施例中可以是网络异常流量检测模型构建系统的内部存储单元,例如硬盘。存储器1在另一些实施例中也可以是网络异常流量检测模型构建系统的外部存储设备,例如插接式硬盘,智能存储卡(smart media card, smc),安全数字(secure digital, sd)卡,闪存卡(flash card)等。进一步地,存储器1还可以既包括网络异常流量检测模型构建系统的内部存储单元也包括外部存储设备。存储器1不仅可以用于存储安装于网络异常流量检测模型构建系统的应用软件及各类数据,例如网络异常流量检测模型构建程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
66.处理器2在一些实施例中可以是一中央处理器(central processing unit, cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器1中存储的程序代码或处理数据,例如执行网络异常流量检测模型构建程序等。
67.可以理解的是,本实施例提供的技术方案,由模型最优解获取模块确定目标全局模型最优值;根据目标全局模型最优值确定网络异常流量检测模型;其中,模型最优解获取模块包括一个驱动节点和至少两个执行节点,由驱动节点根据杂交水稻优化算法产生随机初始种群,对每个初始种群个体进行编号并设定为广播变量,根据训练数据集产生第一弹性分布式数据集,并按照第一弹性分布式数据集为每个执行节点分配训练数据集;每个执行节点通过扁平化算子产生第二弹性分布式数据集,第二弹性分布式数据集以初始种群的编号为键、以被分配的训练数据集中每条数据记录为值,计算第二弹性分布式数据集中每条数据记录的中间结果值,使用分组聚合算子、利用中间结果值对第二弹性分布式数据集进行分组聚合计算,得到杂交水稻个体适度值;由驱动节点根据杂交水稻个体适度值重新划分种群种系,并得到初始全局模型最优值,若当前满足预设终止条件,则将初始全局模型最优值作为目标全局模型最优值,结合spark技术的杂交水稻优化算法分类方法,整体采用spark(专为大规模数据处理而设计的快速通用的计算引擎),有效缓解欠拟合的问题,通过分布式集群计算的方式,大幅提升数据集的分类求解过程。通过spark中rdd循环重复不正常的流量数据进行数据平衡,消除数据不平衡对分类模型带来的影响。
68.本发明公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的网络异常流量检测模型构建方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
69.本发明公开实施例所提供的网络异常流量检测模型构建方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的网络异常流量检测模型构建方法的步骤,具体可参见上述方法实施例,
在此不再赘述。
70.本发明公开实施例还提供一种计算机程序,该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
71.可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
72.需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
73.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
74.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
75.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
76.此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
77.上述提到的存储介质可以是只读存储器,磁盘或光盘等。
78.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
79.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1