一种网络拥塞控制方法、装置及设备与流程

文档序号:25742025发布日期:2021-07-06 18:52阅读:93来源:国知局
一种网络拥塞控制方法、装置及设备与流程

本申请涉及通信领域,特别涉及一种网络拥塞控制方法、装置及设备。



背景技术:

随着网络用户的规模急剧上升,随之而来出现了网络拥塞的问题。网络拥塞是由于在一定时间段内到达的数据包过多,网络设备如路由器等设备无法及时的处理这些数据包,从而堆积在缓冲区内,造成网络传输时延增加。时延的增加又反过来降低了网络处理数据包的能力,如此循环,造成网络传输效率急剧下降,引发网络拥塞,严重时造成死锁现象,导致网络瘫痪。



技术实现要素:

本申请公开了一种网络拥塞控制方法、装置及设备,以防止网络拥塞导致网络瘫痪。

根据本申请实施例的第一方面,提供一种网络拥塞控制方法,该方法应用于网络设备,包括:

确定与网络拥塞控制相关的至少一个目标特征类型;

在当前监测时段结束时,依据已获得的当前监测时段内各目标特征类型对应的目标特征参数确定待输入至已训练的网络拥塞控制模型的输入参数,将所述输入参数输入至所述网络拥塞控制模型得到下一个监测时段内的拥塞控制参数;

在所述下一个监测时段内按照所述拥塞控制参数进行数据包发送;所述拥塞控制参数用于防止网络拥塞,所述当前监测时段的结束时间为所述下一个监测时段的起始时间t1。

根据本申请实施例的第二方面,提供一种网络拥塞控制装置,该装置应用于网络设备,包括:

特征类型确定单元,用于确定与网络拥塞控制相关的至少一个目标特征类型;

拥塞控制参数确定单元,用于在当前监测时段结束时,依据已获得的当前监测时段内各目标特征类型对应的目标特征参数确定待输入至已训练的网络拥塞控制模型的输入参数,将所述输入参数输入至所述网络拥塞控制模型得到下一个监测时段内的拥塞控制参数;

数据包发送单元,用于在所述下一个监测时段内按照所述拥塞控制参数进行数据包发送;所述拥塞控制参数用于防止网络拥塞,所述当前监测时段的结束时间为所述下一个监测时段的起始时间t1。

根据本申请实施例的第三方面,提供一种电子设备,该电子设备包括:处理器和存储器;

所述存储器,用于存储机器可执行指令;

所述处理器,用于读取并执行所述存储器存储的机器可执行指令,以实现如上所述的网络拥塞控制方法。

本申请的实施例提供的技术方案可以包括以下有益效果:

由以上技术方案可知,本申请提供的方案构建了一个网络拥塞控制模型,在确定与网络拥塞控制相关的至少一个目标特征类型之后,在当前监测时段结束时,依据已获得的当前监测时段内各目标特征类型对应的目标特征参数确定待输入至已训练的网络拥塞控制模型的输入参数,将所述输入参数输入至所述网络拥塞控制模型得到所述下一个监测时段内的拥塞控制参数,使下一个监测时段内按照所述拥塞控制参数进行数据包发送。其中目标特征类型可以反应发送数据包的网络环境状态,因此本申请最终实现了每个监测时段都根据该时段内的网络环境状态对网络设备发送数据包进行调整,以防止发生网络拥塞。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。

图1是本申请实施例提供的实现网络拥塞控制的方法流程图;

图2是本申请实施例提供的确定与网络拥塞控制相关的目标特征类型的方法;

图3是本申请实施例提供的进行目标特征类型选择时用到的前向选择方法的原理图;

图4是本申请实施例提供的训练网络拥塞控制模型的方法流程图;

图5是本申请实施例提供的实现网络拥塞控制的装置示意图;

图6是本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。

参见图1,图1为本申请实施例提供的网络拥塞控制的方法流程图。作为一个实施例,图1所示的流程可以应用于网络设备,如路由器、交换机等设备。

如图1所示,该流程可以包括以下步骤:

步骤102,确定与网络拥塞控制相关的至少一个目标特征类型。

本申请实施例中,为了避免网络拥塞,构建了一个网络拥塞控制模型。其中训练该模型时所使用的特征参数就是从网络环境中实时获取的目标特征类型对应的参数。并且,由于训练网络拥塞控制模型时所使用的特征类型与网络拥塞控制不相关时,会导致模型收敛的时间变长,增加建模的困难。所以,本申请中首先需要确定与网络拥塞控制相关的目标特征类型。

在具体实现确定与网络拥塞控制相关的目标特征类型时,则可以通过计算特征类型与构建网络拥塞控制模型时所使用的奖励函数之间的相关性、和各特征类型之间的冗余性确定。具体确认过程可以参见图2所示方法流程中的相关描述,本申请实施例在此不做赘述。

步骤104,在当前监测时段结束时,依据已获得的当前监测时段内各目标特征类型对应的目标特征参数确定待输入至已训练的网络拥塞控制模型的输入参数,将所述输入参数输入至所述网络拥塞控制模型得到下一个监测时段内的拥塞控制参数。

本申请实施例中,在当前监测时段结束时,将根据当前监测时段内收发数据包的状态(比如数据包的延迟、丢包数等)统计并记录在当前监测时段内各目标特征类型对应的目标特征参数。这里所统计的目标特征参数可以反应当前监测时段的网络环境状态,比如当目标特征类型包括确认比率(即发送的数据包和接收到的对应的确认数据包的比率)时,若统计到当前监测时段内确认比率的数值大于阈值,则可以确定当前监测时段的网络环境出现了拥塞的征兆。进而在获取到当前监测时段内各目标特征类型对应的目标特征参数之后,可以将该目标特征参数确定为网络拥塞控制模型的输入参数。

需要说明的是,考虑到网络环境的变化一般是连续的以及拥塞控制参数对网络环境的影响也不一定是即时的。比如当上一个监测时段内网络中出现了大量流量进入时,该流量可能会导致下一个监测时段中的网络环境中出现数据包丢失和延迟的状况。再比如当拥塞控制参数为发送数据包的速率时,如果以太快的速度发送数据包可能会使接收端的缓冲区过载,也会导致数据包的丢失和延迟,该丢失和延迟不一定会及时出现在发送数据包时所在的监测时段,而可能会出现在未来的监测时段中。

因此,为了可以使网络拥塞控制模型根据网络环境的变化趋势做出更适当的反应,可以将当前监测时段内获得的目标特征参数、前面已记录的在当前监测时段之前的前k个监测时段内获得的各目标特征类型对应的特征参数、以及将前k个监测时段中通过网络拥塞控制模型输出的拥塞控制参数确定为当前监测时段输入网络拥塞控制模型的输入参数,其中前k个监测时段中输出的拥塞控制参数是指在各自的监测时段中在网络拥塞模型中输入自己对应的特征参数时所得到的拥塞控制参数,其中k大于1。比如考虑到网络环境中各种突变的影响时长,可以选取当前监测时段的前5个监测时段中对应的目标特征类型对应的特征参数,和其根据特征参数所得到的5组拥塞控制参数作为当前监测时段中网络拥塞控制模型的输入参数的一部分。

步骤106,在所述下一个监测时段内按照所述拥塞控制参数进行数据包发送;所述拥塞控制参数用于防止网络拥塞,所述当前监测时段的结束时间为所述下一个监测时段的起始时间t1。

本申请实施例中,在一个监测时段内按照相同拥塞控制参数进行数据包发送。

示例性的,拥塞控制参数可以为网络设备发送数据包的速率、和/或网络设备每次发送数据包时的数据量的参数等。比如当拥塞控制参数为数据包的速率参数时,则在当前监测时段结束时,可以通过将在步骤104确定的输入参数输入网络拥塞控制模型,以得到下一个监测时段内网络设备发送数据包的速率大小。

示例性的,当拥塞控制参数为速率时,本申请实施例中可以给定调整拥塞控制参数的动作空间:{0,/1.25,/1.05,*1.05,*1.5,*2},其中0表示保持该发送速率不变,/1.25表示上一次的发送速率除以1.25,*1.5表示上一次的发送速率乘以1.5,其它的数值含义类似。网络拥塞控制模型可以通过输出拥塞控制参数的动作空间中的参数实现对拥塞控制参数进行调整。

需要说明的是,本步骤104~106是本申请中依据已训练的网络拥塞控制模型调整网络设备发送数据包时用到的拥塞控制参数的过程。本申请实施例中,网络拥塞控制模型可以根据实时网络环境动态确定监测时段,以保证每次输入模型中的目标特征参数都可以反应网络环境状态的变化。

本申请实施例中,可以根据数据包在当前网络环境中的往返时间rtt(round-triptime)确定监测时段。其中rtt表示从发送端发送数据包开始,到接收到来自接收端的确认数据包总共经历的时间。

因此,示例性的,本申请实施例中在当前监测时段结束后,即在下一个监测时段开始的时间t1处,可以首先根据在时间t1处接收到的n个数据包中携带的ack(acknowledgecharacter,确认字符)值,确定该n个数据包的往返时间rtt,其中n大于等于1。

然后,在获得n个数据包的往返时间rtt之后,可以选取其中取值最小的往返时间作为目标往返时间t0,并依据目标往返时间t0确定所述下一个监测时段的结束时间,从而动态调整网络拥塞控制模型的监测时段。

可选的,确定所述下一个监测时段的结束时间可以通过计算所述下一个监测时段的起始时间t1与t2之和(其中t2为所述目标往返时间t0的l倍,l为大于1的数值),将所述下一个监测时段的起始时间t1与t2之和确定为所述下一个监测时段的结束时间。比如当l等于2时,若确定目标往返时间t0为20ms(毫秒),下一个监测时段的起始时间t1为9:00:00,则可以得到下一个监测时段的结束时间为9:00:20。其中l的取值可以根据实际业务情况确定,以保证所确定的监测时段内所确定的目标特征参数可以反应网络环境状态的变化。

至此,完成图1所示流程。

通过图1所示的流程可以看出,本实施例中构建了一个网络拥塞控制模型,在确定与网络拥塞控制相关的至少一个目标特征类型之后,在当前监测时段结束时,依据已获得的当前监测时段内各目标特征类型对应的目标特征参数确定待输入至已训练的网络拥塞控制模型的输入参数,将所述输入参数输入至所述网络拥塞控制模型得到所述下一个监测时段内的拥塞控制参数,使下一个监测时段内按照所述拥塞控制参数进行数据包发送。其中目标特征类型可以反应发送数据包的网络环境状态,因此本申请最终实现了每个监测时段都根据该时段内的网络环境状态对网络设备发送数据包进行调整,以防止发生网络拥塞。

以上举例只是为了便于理解,本申请实施例并不具体限定。

作为一个实施例,本申请中所提供的网络拥塞控制方法实际上可以分为两部分。第一部分是确定与网络拥塞控制相关的目标特征类型,第二部分是如何训练网络拥塞控制模型和使用网络拥塞控制模型调整拥塞控制参数,以防止网络拥塞。

第一部分的实现过程请参见图2,图2提供了一种确定与网络拥塞控制相关的目标特征类型的方法流程图,包括以下步骤:

步骤201,根据反映网络拥塞情况的所有样本特征类型对应的样本特征参数确定至少一个候选目标特征类型;所述至少一个候选目标特征类型中每两种不同的样本特征类型对应的所有样本特征参数输入至已设置的互信息公式后计算出的互信息小于已设置的阈值。

示例性的,可以通过计算每一样本特征类型所对应的样本特征参数与其他样本特征类型所对应的样本特征参数之间的互信息得到候选目标特征类型。若存在与该样本特征类型所对应的样本特征参数之间的互信息小于已设置的阈值的其他样本特征类型对应的样本特征参数,则将其他样本特征类型从样本特征类型中剔除,而将剩下的样本特征类型作为候选目标特征类型。

步骤202,从所述至少一个候选目标特征类型中确定与网络拥塞控制相关的至少一个目标特征类型;所述目标特征类型对应的样本特征参数与将样本特征参数输入奖励函数算法所得到的样本奖励参数经过指定运算所得到的数值,指示目标特征类型与奖励函数算法具有最大相关性。

作为图2所示方法的实施例,首先,为了确定目标特征类型,需要先收集反映网络拥塞情况的所有样本特征类型对应的样本特征参数。该样本特征参数对应多个不同的样本网络环境,在每一环境中一种样本特征类型对应一个样本特征参数,本实施例中将不同样本环境对应的样本特征参数分别输入已设置的奖励函数中就可以得到不同样本环境对应的样本奖励参数。样本特征类型可参照表1所示出的特征:

表1

以表1所示的23个样本特征类型为例,本实施例中可以从上述23个样本特征类型中选择出与网络拥塞控制相关性最大,且特征类型之间的冗余性最小的目标特征类型:

第一步,根据样本特征类型之间互信息大小剔除冗余的样本特征类型。假设给定两个样本特征类型对应的样本特征参数x、y(x、y为一维向量),定义样本特征参数x、y之间的互信息为:

通过上述给定的23个样本特征类型对应的样本特征参数,基于互信息公式可以计算出不同样本特征类型对应的样本特征参数之间的互信息大小。而如果两个样本特征类型对应的样本特征参数之间的互信息越小,则表明两个样本特征类型对应的样本特征参数之间的相关性越小,即冗余性越小。本实施例中可以通过设置一个互信息阈值为限定条件,计算23个样本特征类型中每一样本特征类型与其他22个样本特征类型之间的互信息大小,以剔除掉部分样本特征类型,并将剩余的样本特征类型作为候选目标特征类型。比如设置互信息阈值为0.5时,若计算出特征lrtt和特征rtt_min对应的样本特征参数之间的互信息大于0.5,则可以选择剔除特征lrtt或者特征rtt_min。

第二步,以指定运算为欧氏距离的运算为例,可以根据候选目标特征类型的特征集所包含的特征子集对应的样本参数与样本奖励参数之间的欧式距离(即步骤202中的指定运算可以为计算欧式距离)选取与网络拥塞控制具有最大相关性的目标特征类型,欧式距离越大,两者的相关性越小。给定某个候选目标特征类型对应的样本特征参数x和对应的样本奖励参数r,定义样本特征参数与样本奖励参数的欧式距离计算公式为:

其中s为样本特征参数x中的样本数。对于两种候选目标特征类型对应的样本特征参数x、y和对应的奖励值r,其欧式距离计算如下:

因此多个候选目标特征类型对应的样本特征参数与奖励值之间的欧式距离计算可类推。

为了能够选取与网络拥塞控制具有最大相关性的目标特征类型,在计算出每个候选样本特征类型对应的样本特征参数与奖励之间的欧氏距离,并根据欧氏距离值将特征按照降序进行排序后,可以采用前向选择选取最优的特征组合。图3为前向选择的原理图,通过遍历候选特征类型集中包含的所有特征子集,并计算出各特征子集对应的样本特征参数与样本奖励参数之间的欧氏距离,选择其中欧氏距离最大的样本特征参数对应的特征子集作为目标特征类型的集合,详细的选择方式可以参照相关技术,本申请不做限定。

可选的,本申请实施例中指定运算还可以是互信息的运算,可以通过计算候选目标特征类型的特征集所包含的特征子集对应的样本特征参数与样本奖励参数之间的互信息大小,选取其中与样本奖励参数之间的互信息最小的特征子集作为目标特征类型的集合。

示例性的,奖励函数算法可以根据网络设备上的业务需求预先设置,比如针对大型文件传输的过程,由于其要求的网络环境中高带宽,低丢包比较关键,因此本实施例可以设置奖励函数为reward=α*thoughoutput-β*loss,其中α和β为系数,throughput为网络吞吐量,loss为网络的丢包率。同时,根据该奖励函数,可以根据上述的目标特征类型的选择方法从以上23个样本特征类型中确定以下三个目标特征类型:

a)延迟梯度(latencygradient),延迟相对于时间的导数;

b)延迟比率(latencyratio),当前监测时段的平均延迟值与历史中监测时段的最小平均延迟的比率;

c)发送比率(sendratio),当前监测时段内发送的数据包和接受到的ack的比率。

这三个目标特征类型与奖励函数的相关性最高,同时也能够及时的反映出带宽,延迟和丢包率的变化。

需要说明的是,奖励函数的设置需要考虑到该奖励函数是否能适应不同的环境,以及训练网络拥塞控制模型时可以根据奖励函数算法所得到的奖励参数,能否调整所述网络拥塞控制模型的目标函数中用于使所述网络拥塞控制模型达到收敛条件的优化参数,以使训练好的模型可以适用于不同的网络环境并防止不同网络环境出现网络拥塞。

通过上面描述可以看出,本实施例可以通过计算样本特征类型之间的互信息,和候选样本特征类型对应的样本特征参数与奖励之间的欧氏距离或者互信息,获得一个与网络拥塞控制具有最大相关性,且各特征类型之间具有最小冗余性的目标特征类型的集合。

至此,完成图2所示实施例的描述。

本申请实施例第二部分的实现过程可参见图4,如图4所示,图4为训练网络拥塞控制模型的方法流程图,包括以下步骤:

步骤401,将当前监测时段内已获得的反应网络状态的状态参数输入已设置的奖励函数算法得到当前监测时段对应的奖励参数;所述状态参数为奖励函数算法所要求的参数;所述奖励参数用于调整所述网络拥塞控制模型的目标函数中用于使所述网络拥塞控制模型达到收敛条件的优化参数。

本申请实施例中,奖励函数算法可以根据网络设备上的业务需求预先设置,具体设置可以参照上述例子中针对大型文件传输的过程所设置的奖励函数算法。

以本申请实施例中针对大型文件传输的奖励函数算法为例:本步骤401中奖励函数算法所要求的参数为网络吞吐量throughput和网络的丢包率loss,则当前监测时段内已获得的反应网络状态的状态参数即当前监测时段内的网络吞吐量throughput和网络的丢包率loss。

需要说明的是,本申请实施例中为了得到一个稳定可以适应不同环境的网络拥塞控制模型,需要在构建网络拥塞控制模型时设置好目标函数,并在训练网络拥塞控制模型的过程中,不断调整目标函数中的优化参数,以使网络拥塞控制模型达到最优,即达到收敛条件得到一个稳定的模型。

步骤402,依据当前监测时段对应的奖励参数、以及截止当前监测时段已得到的前m个监测时段对应的奖励参数确定是否优化所述网络拥塞控制模型,如果是,依据当前监测时段对应的奖励参数优化所述网络拥塞控制模型。

在具体实现时,可以通过以下步骤确定是否优化网络控制拥塞模型,以避免模型训练的无限循环:

对当前监测时段对应的奖励参数、以及截止当前监测时段已得到的前m个监测时段对应的奖励参数进行加权平均运算,得到当前监测时段对应的加权平均结果;判断当前监测时段对应的加权平均结果p与上一监测时段对应的加权平均结果q是否相同,以及加权平均结果p是否大于等于前m个监测时段对应的加权平均结果中除所述加权平均结果q之外的任一监测时段对应的加权平均结果,如果是,则确定不优化所述网络拥塞控制模型,如果否,则确定优化所述网络拥塞控制模型,其中m大于1。

示例性的,可以根据以下公式计算每一监测时段的加权平均结果rt:

rt=e[∑tγt·rt],其中γ∈[0,1),参数γ可以根据训练网络拥塞控制模型的实际需求确定,rt为当前监测时段对应的奖励参数。

需要说明的是,本申请实施例中当网络拥塞控制模型达到收敛条件之后,其在监测时段中对应的加权平均结果将不再发生变化,并且该加权平均结果为所有监测时段对应的加权平均结果中的最大值。

可选的,本申请实施例中还可以通过设置网络拥塞控制模型训练的迭代次数确定是否对模型进一步优化,比如设置训练网络网络拥塞控制模型的最大迭代次数为100次时,则当网络拥塞控制模型的迭代次数达到101次时,将不再对网络拥塞控制模型进行优化。

示例性的,在本实施例中,训练网络拥塞控制模型还可以通过相关技术中的a3c算法(actor-criticalgorithm)实现,通过根据包含(128,128,128)三层的lstm(longshort-termmemory)长短期记忆网络网络设置多个进程,每个进程中训练在不同环境下的子网络拥塞控制模型,将该多个进程中在优化子网络拥塞控制模型时更新的优化参数输入至根据lstm网络构建的公共网络拥塞控制模型,以对公共网络拥塞控制模型进行训练,并将训练好的公共网络拥塞控制模型作为用于实现网络拥塞的网络拥塞控制模型。通过该方法可以加快模型的收敛速度,相关训练过程可以参见相关技术,本申请不再赘述。

需要说明的是,上述(128,128,128)三层的lstm网络是指该lstm网络的输入层、隐含层、输出层各包含128个神经元,lstm网络具体结构可参照相关技术,本申请不再赘述。

通过图4所示的方法,本实施例可以得到一个适用于多种不同环境的网络拥塞控制模型。需要说明的是,由于本申请实施例中是通过网络设备上获取的实时数据对网络拥塞控制模型进行训练,因此,在网络拥塞控制模型的训练过程中同样可以调整拥塞控制参数以防止网络拥塞。

以上对本申请实施例提供的方法进行了描述。下面对本申请实施例提供的装置进行描述:

参见图5,图5为本申请实施例提供的一种实现网络拥塞控制的装置示意图,该装置实施例应用于网络设备。该装置包括:

特征类型确定单元501,用于确定与网络拥塞控制相关的至少一个目标特征类型。

可选的,所述特征类型确定单元501确定与网络拥塞控制相关的至少一个目标特征类型包括:根据反映网络拥塞情况的所有样本特征类型对应的样本特征参数确定至少一个候选目标特征类型;所述至少一个候选目标特征类型中每两种不同的样本特征类型对应的所有样本特征参数输入至已设置的互信息公式后计算出的互信息小于已设置的阈值;从所述至少一个候选目标特征类型中确定与网络拥塞控制相关的至少一个目标特征类型;所述目标特征类型对应的样本特征参数与将样本特征参数输入奖励函数算法所得到的样本奖励参数经过指定运算所得到的数值,指示目标特征类型与奖励函数算法具有最大相关性。

拥塞控制参数确定单元502,用于在当前监测时段结束时,依据已获得的当前监测时段内各目标特征类型对应的目标特征参数确定待输入至已训练的网络拥塞控制模型的输入参数,将所述输入参数输入至所述网络拥塞控制模型得到下一个监测时段内的拥塞控制参数。

数据包发送单元503,用于在所述下一个监测时段内按照所述拥塞控制参数进行数据包发送;所述拥塞控制参数用于防止网络拥塞,所述当前监测时段的结束时间为所述下一个监测时段的起始时间t1。

可选的,该装置还包括:

监测时段确定单元,用于确定所述下一个监测时段内按照所述拥塞控制参数发送的前n个数据包的往返时间;n大于等于1;从所述前n个数据包的往返时间中选择取值最小的目标往返时间t0;依据所述目标往返时间t0确定所述下一个监测时段的结束时间。

可选的,上述依据所述目标往返时间确定所述下一个监测时段的结束时间包括:计算所述下一个监测时段的起始时间t1与t2之和,所述t2为所述目标往返时间t0的l倍,l大于1;将所述下一个监测时段的起始时间t1与t2之和确定为所述下一个监测时段的结束时间。

可选的,本申请中的拥塞控制模型还包括模型优化单元,用于将当前监测时段内已获得的反应网络状态的状态参数输入已设置的奖励函数算法得到当前监测时段对应的奖励参数;所述状态参数为奖励函数算法所要求的参数;所述奖励参数用于调整所述网络拥塞控制模型的目标函数中用于使所述网络拥塞控制模型达到收敛条件的优化参数;

依据当前监测时段对应的奖励参数、以及截止当前监测时段已得到的前m个监测时段对应的奖励参数确定是否优化所述网络拥塞控制模型,如果是,依据当前监测时段对应的奖励参数优化所述网络拥塞控制模型。

作为一个实施例,所述模型优化单元可以通过以下步骤决定是否优化模型:对当前监测时段对应的奖励参数、以及截止当前监测时段已得到的前m个监测时段对应的奖励参数进行加权平均运算,得到当前监测时段对应的加权平均结果;判断当前监测时段对应的加权平均结果p与上一监测时段对应的加权平均结果q是否相同,以及加权平均结果p是否大于等于前m个监测时段对应的加权平均结果中除所述加权平均结果q之外的任一监测时段对应的加权平均结果,如果是,则确定不优化所述网络拥塞控制模型,如果否,则确定优化所述网络拥塞控制模型。

可选的,所述拥塞控制参数确定单元502依据已获得的当前监测时段内各目标特征类型对应的目标特征参数确定待输入至已训练的网络拥塞控制模型的输入参数包括:将已获得的当前监测时段内各目标特征类型对应的目标特征参数确定为所述输入参数;或者,将所述目标特征参数、在当前监测时段之前的前k个监测时段内获得的各目标特征类型对应的特征参数、以及将前k个监测时段中任一监测时段内获得的特征参数输入至网络拥塞控制模型得到的拥塞控制参数确定为所述输入参数。

至此,完成图5所示装置实施例的结构图。

对应地,本申请实施例还提供了一种电子设备的硬件结构图,具体如图6所示,该电子设备可以为上述实施方法的设备。如图6所示,该硬件结构包括:处理器和存储器。

其中,所述存储器,用于存储机器可执行指令;

所述处理器,用于读取并执行所述存储器存储的机器可执行指令,以实现如上所示的所对应的网络拥塞控制的方法实施例。

作为一个实施例,存储器可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,存储器可以是:易失存储器、非易失性存储器或者类似的存储介质。具体地,存储器可以是ram(radomaccessmemory,随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。

至此,完成图6所示电子设备的描述。

以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1