一种基于注意力机制强化学习的边缘网络设备缓存方法

文档序号：26704207发布日期：2021-09-18 03:18阅读：118来源：国知局

1.本发明涉及边缘缓存与深度强化学习技术领域，特别是涉及一种基于注意力机制强化学习的边缘网络设备缓存方法。

背景技术：

2.随着网络技术的发展和需求的激增，数据、应用程序的速度和吞吐量正在导致流量的飞速增长，这项挑战也促进了网络架构和先进通信技术的紧迫革命。移动边缘缓存(mobile edgecomputing，mec)技术可以有效缓解移动网络运营商的流量压力，通过将内容存储在接近用户的基站或本地设备上，可以有效减少应用服务中的冗余数据传输延迟并提高服务质量。
3.在现实生活中，用户所处的场景多种多样。由于不同场景所提供的服务不同，因此各个基站缓存的内容存在很大差异。mec技术可以有效地应对不同类型的边缘节点通信的高容量需求，但是，将所有的内容都存储在异构边缘网络中是不切实际的。因此，构建适当的边缘缓存策略以充分利用网络架构似乎是必然趋势。传统的高速缓存替换策略，例如最近最少使用算法(lru)和先输入先输出算法(fifo)，都是基于静态规则，这类算法忽略了与整体的动态交互。随着人工智能的实质性突破，越来越多的研究人员利用动态自适应方法来设计边缘缓存方案，以期实现网络系统的整体意识，因此将缓存算法部署到位于互联网最末端的边缘系统非常重要。

技术实现要素：

4.针对传统缓存替换策略未考量动态交互的技术问题，本发明提出一种基于注意力机制强化学习的边缘网络设备缓存方法，通过在行动者
‑
评价者算法中引入注意力机制解决了多智能体边缘缓存问题。
5.一种基于注意力机制强化学习的边缘网络设备缓存方法，包括以下步骤：
6.s1，建立蜂窝网络模型，所述蜂窝网络模型包括用户设备、边缘网络设备和核心网络，每个边缘网络设备中均设有行动网络模块和评价网络模块，所述行动网络模块用于观察边缘网络设备的观测值，并根据观测值和缓存替换策略选取动作，所述评价网络模块利用注意力机制评估动作价值函数；
7.s2，边缘网络设备接收所在区域内的用户设备发出的请求；
8.s3，每个边缘网络设备获取其它边缘网络设备的观测值；
9.s4，每个边缘网络设备依据缓存替换策略和观测值选取动作；
10.s5，边缘网络设备发送动作和更新后的状态到邻接边缘网络设备；
11.s6，根据动作更新后的观测值和动作价值函数对行动网络模块和评价网络模块的参数进行更新；
12.s7，根据目标函数对缓存替换策略进行优化。
13.在步骤s4中，所述缓存替换策略为其中，a
i
表示第i个边缘网络设备的动
作值，o
i
表示第i个边缘网络设备的观测值，θ
i
表示第i个边缘网络设备的行动网络模块的参数。
14.在步骤s5中，所述动作是指缓存替换内容的编号，所述更新后的状态是指采取步骤s4的动作后边缘网络设备的缓存列表。
15.所述根据动作更新后的观测值和动作价值函数对行动网络模块和评价网络模块的参数进行更新，包括如下步骤：
16.s6.1，根据动作更新后的观测值和动作价值函数计算所有边缘网络设备的已采取动作的价值其中，o
1...e
表示所有边缘网络设备的观测值，a
1...e
表示所有边缘网络设备的动作值，ψ
i
表示第i个边缘网络设备的评价网络模块的参数；
17.s6.2，基于每个边缘网络设备的当前缓存替换策略计算边缘网络设备的第一预采取动作值其中，o'
i
表示边缘网络设备若采取第一预采取动作所对应的观测值，θ
i
表示第i个边缘网络设备的行动网络模块的参数；
18.s6.3，利用动作价值函数计算所有边缘网络设备的第一预采取动作的价值其中，o'
1...e
表示所有边缘网络设备若采取第一预动作对应的观测值，a'
1...e
表示所有边缘网络设备的第一预动作值；
19.s6.4，根据第一损失函数利用梯度下降更新评价网络模块；
20.s6.5，基于每个边缘网络设备的当前缓存替换策略重新计算每个边缘网络设备的第二预采取动作值其中，o”i
表示所有边缘网络设备若采取第二预动作对应的观测值；
21.s6.6，利用动作价值函数计算所有边缘网络设备的第二预采取动作的价值其中，o”1...e
表示所有边缘网络设备若采取第二预动作对应的观测值，a”1...e
表示所有边缘网络设备的第二预动作值，表示更新后的评价网络模块的参数；
22.s6.7，对行动网络模块的梯度进行更新以更新行动网络模块。
23.在步骤s6.1中，所述动作价值函数的计算公式为：
[0024][0025]
式中，o表示当前边缘网络设备与其邻接边缘网络设备的观测值，a表示当前边缘网络设备与其邻接边缘网络设备的动作值，σ
i
为多层感知器，e
i
表示嵌入向量，att
i
表示合作单元；
[0026]
所述合作单元att
i
的计算公式为：
[0027][0028]
式中，ζ
j
表示具有嵌入向量e
i
和嵌入向量e
j
输入的影响单元，υ
j
是通过嵌入向量e
j
线性变换得到。
[0029]
在步骤s6.4中，所述第一损失函数的计算公式为：
[0030][0031]
式中，y
i
表示第一预采取动作的价值，l(ψ
i
)表示第一损失函数，表示当前
边缘网络设备的已采取动作的价值；
[0032]
所述预采取动作的价值y
i
的计算公式为：
[0033][0034]
式中，r
i
表示当前已获得的行动奖励，γ表示折扣率，ρ表示平衡系数。
[0035]
在步骤s6.7中，所述对行动网络模块的梯度进行更新的公式为：
[0036][0037]
式中，表示缓存替换策略，表示优势函数，为整体损失函数。
[0038]
在步骤s7中，所述目标函数的公式为：
[0039]
maxg；
[0040]
目标函数的约束条件：
[0041][0042]
x
req(u)i
∈{0,1}；
[0043]
h(e
i
,e
j
)≥0；
[0044]
υ,μ,δ≥0；
[0045]
式中，g表示整个模型的奖励，υ、μ、δ均为参数，h(e
i
,e
j
)表示边缘网络设备e
i
与边缘网络设备e
j
之间的距离，且i,j∈{1,2,...,e}，若x
req(u)i
＝1代表用户u发出的请求已被缓存在边缘网络设备e
i
中，若x
req(u)i
＝0代表用户u发出的请求需要被邻接边缘网络设备或核心网络处理，n
i
表示边缘网络设备e
i
总缓存容量的最大值，表示设备e
i
中单个缓存内容的大小。
[0046]
所述整个模型的奖励g的计算公式为：
[0047][0048]
式中，e
i
表示第i个边缘网络设备，u
i
表示第i个边缘网络设备服务范围内的用户列表，若x
req(u)i
＝1代表用户u发出的请求已被缓存在边缘网络设备e
i
中，若x
req(u)i
＝0代表用户u发出的请求需要被邻接边缘网络设备或核心网络处理，表示边缘网络设备与核心网络之间的回程链路的传输消耗，e表示边缘网络设备的集合；
[0049]
其中，δ的计算公式为：
[0050][0051]
式中，表示边缘网络设备e
i
与边缘网络设备e
j
之间的设备传输消耗，x
req(u)j
表示用户u发出的请求已被缓存在其它边缘网络设备的概率，表示用户u向边缘网络设备发送请求req(u)时，请求req(u)未被当前边缘网络设备缓存，并决定替换缓存内容f时的
缓存替换消耗，|e|表示边缘网络设备的数量，代表除去边缘网络设备e
i
，用户u请求的内容在其他某个边缘网络设备中有缓存，代表在所有边缘网络设备中用户u所请求的内容均未被缓存。
[0052]
所述边缘网络设备与核心网络之间的回程链路的传输消耗的计算公式为：
[0053][0054]
式中，表示回程链路的单元传输消耗，ω
eh
表示请求内容未被边缘网络设备缓存的概率；
[0055]
所述边缘网络设备e
i
与边缘网络设备e
j
之间的设备传输消耗的计算公式为：
[0056][0057]
式中，ν表示参数，且ν为正常数，h(e
i
,e
j
)表示边缘网络设备e
i
与边缘网络设备e
j
之间的距离，且i,j∈{1,2,...,e}；
[0058]
所述替换缓存内容时的缓存替换消耗的计算公式为：
[0059][0060]
式中，δ表示参数，且δ为正常数，c
r
表示被替换缓存内容f的大小，c
c
表示新缓存内容的大小
[0061]
本发明的有益效果：
[0062]
本发明采用一种注意力机制来实现具有周边环境信息感知的边缘网络设备之间的自适应协作，充分利用边缘网络设备之间的通信以及邻接边缘网络设备产生的影响来优化多智能体之间的协同，以使内容请求过程的传输成本最小化；可以应用在同构网络与异构网络场景中，通过与其他主流算法，例如传统的行动者
‑
评价者算法、fifo算法、lru算法等，在命中率，流量卸载率和平均延迟三项指标方面进行对比，不仅验证了方案的可行性，也验证了其有效性，并且，它在异构和同构的场景下都能达到一样好的性能；可以显著优化边缘网络设备之间的传输，从而减少从云数据中心重复下载文件的次数，一方面，可以降低延迟，提升网络服务质量与用户体验质量，另一方面，还可以最大程度地利用边缘网络设备的存储功能，进一步降低主干网络压力。
附图说明
[0063]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0064]
图1为边缘缓存架构的示意图。
[0065]
图2为用户、边缘网络设备、核心网络之间损耗的示意图。
[0066]
图3为行动网络模块与评价网络模块的信号流向图。
[0067]
图4为引入注意力机制的行动评价算法的示意图。
[0068]
图5为在命中率方面本发明与其它算法的对比示意图。
[0069]
图6为在平均传输延时方面本发明与其它算法的对比示意图。
[0070]
图7为在流量卸载率方面本发明与其它算法的对比示意图。
[0071]
图8为在异构和同构的场景下本发明的缓存大小与命中率的变化示意图。
[0072]
图9为在异构和同构的场景下本发明的缓存大小与平均传输延时的变化示意图。
[0073]
图10为在异构和同构的场景下本发明的缓存大小与流量卸载率的变化示意图。
具体实施方式
[0074]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0075]
注意力机制(attention mechanism)是机器学习中的一种数据处理方法，广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中。该机制实际上就是想将人的感知方式、注意力的行为应用在机器上，让机器学会去感知数据中的重要和不重要的部分。应用时，根据具体任务目标，对关注的方向和加权模型进行调整，也就是在神经网络的隐藏层，增加注意力机制的加权，使不符合注意力模型的内容弱化或者遗忘。引入的目的是希望智能体在学习其他智能体策略的时候，能够有选择性的关注更有利于自己获取更大回报的信息进行学习，而不是无差别的完全学习其他智能体的所有信息。注意力机制本质上是让每个智能体能够查询到其他智能体的观测信息和动作信息，并将这些信息通过重要性的大小整合到自己的动作值函数估计中，它擅长于发现对象之间的潜在影响以及这些影响在不同角度下的不同比例。在实际应用中，一般是在原有模型基础上引入该机制，可以达到提高学习效率与信息准确度，简化模型的效果。
[0076]
深度强化学习(drl,deep reinforcement learning)是一种融合了强化学习与深度学习的技术。强化学习强调智能体与环境的交互进行学习，利用反馈的奖励来训练智能体，实现决策的优化；而深度学习强调通过多层感知机和非线性的激活函数，结合低层特征并将其转化为易于区分的高层输入，以发现数据的分布式特征表示。因此，所谓二者的结合体，深度强化学习使智能体能够从高维空间感知信息，并根据得到的信息训练模型、做出决策。它常被用于探索出一种通适用于解决复杂问题的资源分配策略。深度强化学习算法按照策略更新方式的不同，可以分为基于值的和基于策略的两类方法。基于值的方法通过估算每个状态
‑
动作对的值函数q(s,a)来寻找最佳策略，其中典型的算法就是deep q
‑
network(dqn)；而基于策略的方法则不同，这种算法不需要估算价值函数，而是直接用神经网络去拟合策略函数，通过训练去更新策略参数，直接生成最佳策略，这其中有代表性的则是策略梯度。
[0077]
异构场景中的缓存替换存在着一些挑战：(1)现实世界中不可预测的时间和空间因素限制了边缘服务器的效果。(2)异构边缘缓存具有挑战性，即适应性条件包括场景多样性和动态用户行为。当本地优化达到最佳时，从全局角度来看这是不公平的，需要一种机制来适应和利用这种不平衡的优化。(3)另一个问题是如何在异构边缘缓存架构中构建一个辅助调度程序，并综合考虑联合调优与上下文信息混合在一起的局部参数。
[0078]
传统多智能体行动者
‑
评价者模型中，任意节点单独训练的评价网络，以同等重要性将相邻智能体所存有的状态值和动作值作为输入。为实现边缘缓存设备的自适应协作，我们将注意力机制引入节点的评价网络。应用注意力机制的实质，是利用权重系数实现模型选择性的接收来自相邻节点的信息，让模型对重要信息重点关注并充分学习，从而在保证学习效率和策略稳定性的同时达到邻接节点信息的选择性感知。
[0079]
一种基于注意力机制强化学习的边缘网络设备缓存方法，包括如下步骤：
[0080]
s1，建立蜂窝网络模型，所述蜂窝网络模型包括用户设备、边缘网络设备和核心网络，每个边缘网络设备中均设有行动网络模块和评价网络模块，所述行动网络模块用于观察边缘网络设备的观测值，并根据观测值和缓存替换策略选取动作；所述评价网络模块利用注意力机制评估动作价值函数，并根据动作价值函数对边缘网络设备的缓存替换策略进行优化；
[0081]
在所述的蜂窝网络模型中，如图1所示，边缘网络设备通过回程链路与核心网络连接，且边缘网络设备通过蜂窝链路与所在服务区域内的用户设备连接；所述边缘网络设备之间通过单元协同链路连接，用户设备首先通过蜂窝链路向边缘网络设备发送请求，若请求的内容存在于边缘网络设备当前的缓存中，用户设备直接从边缘网络设备获取请求内容，若请求的内容没有存在在边缘网络设备当前的缓存中，用户设备通过单元协同链路从邻接边缘网络设备获取请求内容，若请求的内容也没有存在于邻接边缘网络设备的缓存中，则该请求会通过边缘网络设备发送给核心网络。
[0082]
边缘网络设备之间同时存在竞争与合作；每个边缘网络设备的用户具有不同的偏好和兴趣，同时，不同的地理区域可能具有不同的社交功能，提供异构服务，因此地理位置不同、社会分工不同的边缘网络设备对其它设备产生的影响也是不同的。如图3所示，对于当前边缘网络设备e1，边缘网络设备e2对其具有极高的影响，而边缘网络设备e
e
则对其具有微小的辅助，因此从其他边缘网络设备学习也可以帮助当前边缘网络设备建立自己的缓存策略。
[0083]
由e＝{e1,e2...,e
e
}表示边缘网络设备的集合，n＝{n1,n2...,n
e
}表示边缘网络设备的缓存容量的列表，n
e
表示第e个边缘网络设备e
e
的缓存容量。用户设备随机分布在每个边缘网络设备的覆盖范围内，所有边缘网络设备服务范围内的用户列表由u＝{u1,u2...,u
e
}表示，其中，u
e
表示边缘网络设备e
e
覆盖范围内的用户列表。边缘网络设备e
e
缓存的内容由c
e
＝{c1,c2…
,c
m
}表示，其中，c
m
代表缓存内容的编号。c＝{c1,c2…
,c
e
}表示所有边缘网络设备缓存内容的集合。核心网络的内容库中所存储的文件由f＝{f1,f2,...,f
m
}表示，即为所有可能被请求的内容，其中，f
m
表示内容库中所存储的第m个请求，且m≤m。
[0084]
边缘网络设备的状态定义为s＝{s1,s2…
,s
e
}，所述状态是指边缘网络设备当前的缓存列表，边缘网络设备的观测值包括边缘网络设备本地缓存状态也即缓存文件的序号列表、当前到达的请求以及相邻设备的观测值。边缘网络设备e
e
的所有动作值为a
e
，所有边缘网络设备的动作空间由ac＝{ac1,ac2…
,ac
e
}表示。
[0085]
s2，边缘网络设备通过蜂窝链路接收所在区域内的用户设备发出的请求；
[0086]
由r
t
＝{r1,r2…
,r
e
}表示所有用户设备在t时间片所发出的请求列表，其中，r
e
表示第e个边缘网络设备所接收的请求列表。
[0087]
s3，每个边缘网络设备通过单元协同链路获取其它边缘网络设备的观测值；
[0088]
o＝{o1,o2…
,o
e
}，其中，o
e
表示第e个边缘网络设备的观测值，o表示所有边缘网络设备的观测值的集合。
[0089]
s4，边缘网络设备依据缓存替换策略选取动作，所述缓存替换策略为其中，a
i
表示第i个边缘网络设备的一个动作值，o
i
表示第i个边缘网络设备的观测值，θ
i
表示第i个边缘网络设备的行动网络模块的参数；
[0090]
所述选取动作是指确定边缘网络设备上被替换缓存内容的编号，也即是当所有的边缘网络设备均未存储用户设备所请求的内容时，边缘网络设备从核心网络获取请求内容后，将边缘网络设备中对应编号上的缓存内容替换为从核心网络获取的请求内容。若无需进行替换，也即用户设备请求的内容存在于所述区域内的边缘网络设备上，用户设备可以直接从边缘网络设备获取请求内容，或者用户设备请求的内容未存在于所述区域内的边缘网络设备上，但存在于邻接边缘网络设备上，用户设备可以从邻接边缘网络设备获取请求内容，则缓存替换内容的编号采用负数表示。边缘网络设备自身决定是否进行缓存替换，可操作的对象包括所有当前已缓存的内容，每个边缘网络设备的行动网络模块基于本地的观测值选择动作。通过缓存替换策略可以得到当前参数下的行动网络模块采取各种动作的概率，依据此概率，当前边缘网络设备执行动作并将自身的状态和动作发送到邻接边缘网络设备。
[0091]
s5，每个边缘网络设备发送动作和更新后的状态到邻接边缘网络设备；
[0092]
所述状态是指采取步骤s4的动作后边缘网络设备的缓存列表，动作具体指缓存替换内容的编号，若不替换则可以用一个负数。
[0093]
s6，如图3所示，根据动作更新后的观测值和动作价值函数对行动网络模块和评价网络模块的参数进行更新，包括如下步骤：
[0094]
s6.1，如图4所示，根据动作更新后的观测值和动作价值函数计算所有边缘网络设备的已采取动作的价值其中，o
1...e
表示所有边缘网络设备的观测值，a
1...e
表示所有边缘网络设备的动作值，ψ
i
表示第i个边缘网络设备的评价网络模块的参数；
[0095]
利用动作价值函数可以计算各个边缘网络设备已采取动作的价值，所述动作价值函数的计算公式为：
[0096][0097]
式中，o表示当前边缘网络设备与其邻接边缘网络设备的观测值，a表示当前边缘网络设备与其邻接边缘网络设备的动作值，σ
i
为多层感知器，e
i
表示嵌入向量，嵌入向量e
i
是设备e
i
的观测值和动作值通过嵌入函数转化得到，且嵌入向量e
i
通过线性变换转换为q
i
、k
i
和υ
i
，att
i
表示合作单元；
[0098]
所述合作单元att
i
是通过注意力机制求得的加权总和，替代了其他设备产生的影响，其计算公式为：
[0099][0100]
式中，ζ
j
表示具有嵌入向量e
i
和嵌入向量e
j
输入的影响单元，用来衡量嵌入向量e
i
和嵌入向量e
j
的匹配程度即相似性，υ
j
是通过嵌入向量e
j
线性变换得到。
[0101]
所述影响单元ζ
j
的计算公式为：
[0102][0103]
式中，e
j
、e
l
均表示嵌入向量，嵌入向量e
j
通过线性变换转换为q
j
、k
j
和υ
j
，嵌入向量e
l
通过线性变换转换为q
l
、k
l
和υ
l
。
[0104]
s6.2，基于每个边缘网络设备的当前行动网络模块，也即当前的缓存替换策略，计算边缘网络设备的第一预采取动作值其中，o'
i
表示边缘网络设备若采取预动作所对应的观测值；
[0105]
s6.3，利用动作价值函数计算所有边缘网络设备的第一预采取动作的价值其中，o'
1...e
表示所有边缘网络设备若采取第一预动作对应的观测值，a'
1...e
表示所有边缘网络设备的第一预动作值；
[0106]
s6.4，根据第一损失函数利用梯度下降更新评价网络模块；
[0107]
所述第一损失函数的计算公式定义为：
[0108][0109]
式中，l(ψ
i
)表示第一损失函数，y
i
表示第一预采取动作的价值，表示当前边缘网络设备的已采取动作的价值；
[0110]
所述第一预采取动作的价值y
i
的计算公式为：
[0111][0112]
式中，r
i
表示当前已获得的行动奖励，γ表示折扣率，ρ表示平衡系数，表示第一预采取动作的价值，表示依据当前行动网络参数得出的预采取动作的动作值。
[0113]
所述行动奖励r
i
通过以下方式计算：因为请求核心网络造成的消耗很大，当从邻接边缘网络设备可以获取被请求的内容时，这种情况下的行动奖励被定义为请求核心网络的消耗与请求邻接边缘网络设备并进行缓存替换的消耗之差；当用户可以从当前边缘网络设备直接获取请求内容时，这种情况下的行动奖励被定义为核心网络请求所产生的消耗；当请求内容均未存在与当前边缘网络设备和邻接边缘网络设备需请求核心网络进行替换时，这种情况下不设行动奖励。
[0114]
s6.5，基于每个边缘网络设备的当前缓存替换策略重新计算每个边缘网络设备的第二预采取动作值其中，o”i
表示所有边缘网络设备若采取第二预动作对应的观测值；
[0115]
s6.6，利用动作价值函数计算所有边缘网络设备的第二预采取动作的价值其中，o”1...e
表示所有边缘网络设备若采取第二预动作对应的观测值，a”1...e
表示所有边缘网络设备的第二预动作值，表示更新后的评价网络模块的参数；
[0116]
s6.7，对行动网络模块的梯度进行更新以更新行动网络模块。
[0117]
根据更新后的动作价值函数对缓存替换策略的梯度进行更新，以对整体缓存替换
策略进行优化；
[0118]
行动网络模块的更新梯度计算方法为：
[0119][0120]
式中，表示优势函数，为整体损失函数，它基于反事实基线思想；
[0121]
反事实基线的思想基于coma算法，该思想主要是通过引入优势函数，来解决多智能体环境中“信用”分配问题，即如何分配奖励进而鼓励那些对整个多智能体任务更有帮助的单智能体，进而促进他们更好地学习优秀的策略。反事实基线的核心思想是，评价一个智能体的动作贡献时，可以把这个智能体的动作换成一个默认的动作，观察当前的动作跟默认的动作相比使得总体的得分增加还是减少，如果增加，说明智能体的当前动作比默认动作好，反之则说明智能体当前动作比默认动作差。而这个默认的动作就称为基线。
[0122]
该思想的核心的问题是默认动作如何选择。如果选择默认动作需要依靠一套额外的网络进行评估，这无疑增加了整个训练网络难度。而coma算法中提出了利用当前的策略，以及当前的行为值函数对当前智能体的策略求解边缘分布来计算这个基线。这种方式可以避免设计额外的默认动作和额外的模拟计算。
[0123]
优势函数是在加入注意力机制的评价网络中计算得出的，以获取与其他动作相比当前动作的优势，即为已采取动作相较其他动作的优势值，应用于个体策略的梯度更新。优势函数的定义如下：
[0124][0125]
式中，代表基线，意义是该状态下所有动作价值函数关于动作概率的平均值，表示采取动作的价值，两者之差体现出已采取动作的优势，与分别表示各种可能动作的概率和价值。
[0126]
s7，根据目标函数对缓存替换策略进行优化；
[0127]
所述目标函数的公式为：
[0128]
maxg；
[0129]
目标函数的约束条件：
[0130][0131]
x
req(u)i
∈{0,1}；
[0132]
h(e
i
,e
j
)≥0；
[0133]
υ,μ,δ≥0；
[0134]
式中，g表示整个模型的奖励，n
i
表示设备e
i
总缓存容量的最大值，表示边缘网络设备e
i
中单个缓存内容的大小，且z为正整数，υ、μ、δ均为参数，h(e
i
,e
j
)表示边缘网络设备e
i
与边缘网络设备e
j
之间的距离，且i,j∈{1,2,...,e}，若x
req(u)i
＝1代表用户u发出的请求已被缓存在边缘网络设备e
i
中，若x
req(u)i
＝0代表用户u发出的请求需要被邻接边缘网络设备或核心网络处理。
[0135]
所述整体系统的奖励被g的计算公式为：
[0136][0137]
式中，e
i
表示第i个边缘网络设备，u
i
表示第i个边缘网络设备服务范围内的用户列表，表示边缘网络设备与核心网络之间的回程链路的传输消耗；
[0138]
其中，δ被定义为：
[0139][0140]
式中，表示边缘网络设备e
i
与边缘网络设备e
j
之间的设备传输消耗，若x
req(u)j
＝1代表用户u请求的内容在当前边缘网络设备e
j
的缓存中，可直接返回给用户，若x
req(u)j
＝0代表用户u发出的请求需要被其他边缘网络设备或核心网络处理，表示用户u向边缘网络设备发送请求req(u)时，请求req(u)未被当前边缘网络设备缓存，并决定替换缓存内容f时的缓存替换消耗，|e|表示边缘网络设备的数量，代表除去边缘网络设备e
i
，用户u请求的内容在其他某个边缘网络设备中有缓存，代表在所有边缘网络设备中用户u所请求的内容均未被缓存。
[0141]
所述边缘网络设备与核心网络之间的回程链路的传输消耗的计算公式为：
[0142][0143]
式中，表示回程链路的单元传输消耗，ω
eh
表示请求内容未被边缘网络设备缓存的概率。
[0144]
所述请求内容未被边缘网络设备缓存的概率ω
eh
可以基于文件的流行度计算获取，文件的流行度分布遵循夫
‑
曼德布洛特(mzipf)模型，对比其它的分布模型，在缓存机制中，mzipf可以合理地估计内容的流行度。
[0145]
所述流行度ω
f
的计算公式为：
[0146]
ω
f
＝∑
f∈f
(r
f
+q)
α
/(r
i
+q)
α
；
[0147]
式中，α表示偏度因子，q表示平稳因子，r
i
为文件f
i
的流行量，r
f
表示网络中所有文件各自的流行量，也即文件被请求的次数。
[0148]
所述边缘网络设备e
i
与边缘网络设备e
j
之间的设备传输消耗的计算公式为：
[0149][0150]
式中，ν表示参数，且ν为正常数。
[0151]
所述替换缓存内容时的缓存替换消耗的计算公式为：
[0152][0153]
式中，δ表示参数，且δ为正常数，c
r
表示被替换缓存内容f的大小，c
c
表示新缓存内容的大小。
[0154]
利用传输消耗和缓存替换消耗来评估缓存策略的表现。如图2所示，如果被用户u请求的内容f已经缓存在边缘网络设备e
i
中，边缘网络设备会立即响应用户并发送数据包，其传输消耗由表示。但如果用户的请求不能被满足，那么请求将被发送至核心网络或其他边缘网络设备。如果邻接设备的缓存可以满足此请求，则在这种情况下总的传输消耗为传输消耗与设备传输消耗消耗之和。当边缘服务网络设备不能满足请求时，请求会被发送给核心网络，则在这种情况下总的传输消耗则为回程链路的传输消耗缓存替换消耗传输消耗之和。
[0155]
图5至图10为仿真实验的结果。其中，图5至图7分别展示了本专利涉及算法与其他算法在不同性能指标上的对比，图8至图10展示了本专利涉及算法在同构以及异构场景下的性能的对比。三种性能指标分别为命中率、平均传输延迟以及流量卸载率。命中率是命中次数和总请求数的比；平均传输延迟是根据核心网络与边缘网络设备之间，各个设备之间以及用户与设备之间的延迟计算的；流量卸载率是卸载流量与总流量之间的比。
[0156]
为了体现本专利阐述的naec算法(neighboring
‑
aware edge caching，邻接感知边缘缓存算法)的改进效果，我们选取了其他5种常见的缓存替换算法用于比较，分别为ac(actor
‑
critic，行动者
‑
评价者算法)、fifo(first input first output，先输入先输出算法)、lfu(least frequently used，最不经常使用算法)、lru(least recently used，最近最少使用算法)和lfuda(lfu with dynamic aging，引入时间因子的最不经常使用算法)。
[0157]
我们在缓存大小不同的多种情况下评估网络性能。图5、图6和图7的比较结果表明，本专利涉及算法对比其他算法，命中率和流量卸载率显著提高，平均传输延迟上显著降低。并且从比较结果看，随着缓存空间的增加，方法本身的效果也显著提高，尤其当缓存空间不足时，算法性能优势更加明显。图8、图9和图10的比较结果表明，面对异构场景，我们的方法可以表现出更加良好的适应性。
[0158]
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王晓飞;贾博森;赵益尉;李瑞斌;王晨阳
技术所有人：天津大学
我是此专利的发明人

上一篇：一种低能耗紧凑咖啡剥壳机的制作方法
上一篇：一种混合成纱机及混纺纱的生产方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。