协同边缘缓存方法及装置

文档序号：25870284发布日期：2021-07-13 16:32阅读：141来源：国知局

本发明涉及移动通信技术领域，尤其涉及一种协同边缘缓存方法及装置。

背景技术：

随着5g技术的发展和智能设备(如智能手机、智能手表等)的普及，每天都产生大量的蜂窝流量，特别是一些多媒体业务和应用，给移动网络带来了巨大的挑战。当前的基于云的处理模型的集中式性质对于满足严格的服务质量要求的大规模内容交付可能不可行，实际上，基于云的处理过程中的额外能耗和长传输延迟一直是当前网络中的严重瓶颈，这已引起了学术界和行业的广泛关注。

最近的研究发现，只有少数流行内容会被大多数用户多次请求，其余大部分内容很少被请求，这种模式促进了边缘缓存技术在无线接入技术中的实现。此外，边缘缓存已经被认为是一种有前途的技术，它可以使来自宏基站(macrocellbasestation，mbs)或云的缓存服务接近网络边缘(例如，在小基站(smallcellbasestation，sbs)和物联网(internetofthings，iot)设备中)，特别是，它还可以在未来的移动网络减少冗余流量和内容传输的能源消耗。边缘缓存使用网络边缘的sbs的缓存容量来缓存受欢迎的内容，相邻的sbs相互连通，可以相互协作以获得良好的性能。

因此，为了提高mbs下所有协同sbs的缓存利用率，减少回程流量的负载，在动态边缘网络中，现急需提供一种高效的边缘缓存方法。

技术实现要素：

本发明实施例提供一种协同边缘缓存方法及装置，用以解决现有技术中存在的缺陷。

本发明实施例提供一种协同边缘缓存方法，包括：

获取边缘缓存系统的覆盖范围内各用户终端在对应的边缘设备触发的内容请求；

以所述边缘缓存系统的系统能耗最小为优化目标，以所述边缘缓存系统中请求处理主体唯一、所述边缘缓存系统中各边缘设备的缓存容量限制以及所述用户终端允许的请求延迟限制为约束条件，基于所述内容请求，采用强化学习算法确定所述内容请求对应的最优协同边缘缓存策略；

基于所述最优协同边缘缓存策略，对所述内容请求对应的内容进行处理。

根据本发明一个实施例的协同边缘缓存方法，所述强化学习算法具体为q学习算法。

根据本发明一个实施例的协同边缘缓存方法，所述基于所述内容请求，采用强化学习算法确定所述内容请求对应的最优协同边缘缓存策略，具体包括：

基于所述内容请求，将所述优化目标以及所述约束条件表征的优化问题转换为马尔可夫决策过程，并采用q学习算法确定所述内容请求对应的最优协同边缘缓存策略。

根据本发明一个实施例的协同边缘缓存方法，所述基于所述内容请求，采用强化学习算法确定所述内容请求对应的最优协同边缘缓存策略，具体包括：

对于所述q学习算法中每一状态，基于∈-greedy策略，选择所述状态下的动作。

根据本发明一个实施例的协同边缘缓存方法，所述边缘缓存系统的系统能耗包括内容传输能耗、用户终端能耗和内容缓存替换能耗；

所述内容传输能耗用于表征请求内容通过不同链路传输的能耗；

所述用户终端能耗用于表征用户终端发送内容请求并接收请求内容的过程中产生的能耗；

所述内容缓存替换能耗用于表征边缘设备为缓存请求内容而替换现有缓存内容产生的能耗。

根据本发明一个实施例的协同边缘缓存方法，所述内容传输能耗包括请求内容通过所述边缘缓存系统中的中心设备、所述用户终端对应的本地边缘设备或者所述用户终端对应的协作边缘设备传输的能耗。

本发明实施例还提供一种协同边缘缓存装置，包括：

获取模块，用于获取边缘缓存系统的覆盖范围内各用户终端在对应的边缘设备触发的内容请求；

确定模块，用于以所述边缘缓存系统的系统能耗最小为优化目标，以所述边缘缓存系统中请求处理主体唯一、所述边缘缓存系统中各边缘设备的缓存容量限制以及所述用户终端允许的请求延迟限制为约束条件，基于所述内容请求，采用强化学习算法确定所述内容请求对应的最优协同边缘缓存策略；

缓存模块，用于基于所述最优协同边缘缓存策略，对所述内容请求对应的内容进行处理。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述协同边缘缓存方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述协同边缘缓存方法的步骤。

本发明实施例提供的协同边缘缓存方法及装置，首先获取边缘缓存系统的覆盖范围内各用户终端在对应的边缘设备触发的内容请求；然后以边缘缓存系统的系统能耗最小为优化目标，以边缘缓存系统中请求处理主体唯一、边缘缓存系统中各边缘设备的缓存容量限制以及用户终端允许的请求延迟限制为约束条件，基于内容请求，采用强化学习算法确定内容请求对应的最优协同边缘缓存策略；最后基于最优协同边缘缓存策略，对内容请求对应的内容进行处理。可以确定出最优协同边缘缓存策略，使得边缘缓存系统的系统能耗降至最低，减少了边缘缓存系统的应用成本，提高了mbs下所有协同sbs的缓存利用率，减少回程流量的负载。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种协同边缘缓存方法的流程示意图；

图2是本发明实施例提供的一种协同边缘缓存方法中边缘缓存系统的结构示意图；

图3是本发明实施例提供的一种协同边缘缓存方法的收敛性能示意图；

图4是本发明实施例提供的协同边缘缓存方法与三种基准方法当sbss的缓存容量不同时在系统能耗方面的性能比较示意图；

图5是本发明实施例提供的协同边缘缓存方法与三种基准方法当用户数量不同时，在系统能耗方面的性能比较示意图；

图6是本发明实施例提供的一种协同边缘缓存装置的结构示意图；

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，为了提高mbs下所有协同sbs的缓存利用率，减少回程流量的负载，在动态边缘网络中并没有一种高效的边缘缓存方法。为此，本发明实施例中提供了一种协同边缘缓存方法。

图1为本发明实施例中提供的一种协同边缘缓存方法的流程示意图，如图1所示，该方法包括：

s1，获取边缘缓存系统的覆盖范围内各用户终端在对应的边缘设备触发的内容请求；

s2，以所述边缘缓存系统的系统能耗最小为优化目标，以所述边缘缓存系统中请求处理主体唯一、所述边缘缓存系统中各边缘设备的缓存容量限制以及所述用户终端允许的请求延迟限制为约束条件，基于所述内容请求，采用强化学习算法确定所述内容请求对应的最优协同边缘缓存策略；

s3，基于所述最优协同边缘缓存策略，对所述内容请求对应的内容进行处理。

具体地，本发明实施例中提供的一种协同边缘缓存方法，其执行主体为服务器，可以是本地服务器，也可以是云端服务器，本地服务器可以是计算机、平板电脑以及智能手机等，本发明实施例中对此不作具体限定。

首先，执行步骤s1。获取边缘缓存系统的覆盖范围内各用户终端在对应的边缘设备触发的内容请求。边缘缓存系统可以包括中心设备以及至少一个边缘设备，中心设备可以是宏基站(macrocellbasestation，mbs)，边缘设备可以是小基站(smallcellbasestation，sbs)。中心设备与小基站之间可以通过有线光缆进行连接，各小基站sbs均可以通过无线链路为地理位置上分散的大量的用户终端提供内容服务，并且相邻的sbs可以通过有线光缆进行连接。边缘缓存系统中每个sbs部署一个具有有限缓存容量的边缘服务器用于缓存流行内容，然后每个sbs可以缓存各种内容以满足用户终端的内容服务需求。sbs可以包括本地sbs和协作sbs，本地sbs是指用户终端连接的sbs，协作sbs是指缓存有与本地sbs连接的用户终端请求的内容的sbs，用以分担本地sbs的缓存压力。

因此，当用户终端产生内容请求时，如果该用户终端连接的本地sbs已经缓存了其请求的内容，则本地sbs将直接通过无线链路将内容发送给用户终端。但是，每个用户终端在发送内容请求时只能连接到一个sbs。当本地sbs没有缓存用户终端请求的内容，协作sbs或mbs首先将请求的内容通过有线链路发送到本地sbs，然后从本地sbs通过无线链路将请求的内容发送给用户终端。

如图2所示，本发明实施例中边缘缓存系统可以是三层网络结构，包括用户层、小基站(sbs)和宏基站(mbs)，mbs可以通过有线链路与sbs通信。本发明实施例中考虑的场景包括n+1个基站，可用集合n＝{0,1,2,…,n}来表示，其中下标0表示的是mbs，集合{1,2,3,…,n}表示的是n个sbs，并且每个sbs都配备了一个具有有限缓存容量为c的缓存服务器。用户终端可用集合u＝{1,2,3,…,u}表示。边缘缓存系统中可以包括f个mbs覆盖范围内用户终端可以访问的内容，用集合f＝{1,2,3,…,f}来表示。进一步地，假设边缘缓存系统的运行时长用集合t＝{0,1,2,3,…,t,…,t}来表示，其中t表示有限的时间范围。

在不失一般性的前提下，假设每个用户终端产生的内容请求都服从zipf定律分布，而zipf定律用于衡量内容受欢迎程度。这里，用pf来表示内容f的流行度，可以表示为：

其中，rf为内容f的受欢迎程度，由高到低排列，τ和β分别为平台因子和偏态指标。

考虑到n个sbs的部署信息和无线信道条件，在t时刻，本地sbsi(i∈{1,2,3,…,n})和用户终端u之间的数据传输速率可以表示为：

其中，w表示数据传输带宽，σ²表示背景噪音功率，qi表示sbsi的传输功率，gi,u表示sbsi和用户终端u之间的信道增益，通常信道增益与sbsi和用户终端u之间的距离有关。

然后，在t时刻，内容f从本地sbsi发送给用户终端u所消耗的时间可以表示为：

其中，表示内容f的数据大小。考虑到用户的服务质量，假设每个用户终端u的请求延迟不超过其最大容忍延迟这是由用户终端自身的情况决定的。

然后，执行步骤s2。以边缘缓存系统的系统能耗最小为优化目标，以边缘缓存系统中请求处理主体唯一、边缘缓存系统中各边缘设备的缓存容量限制以及用户终端允许的请求延迟限制为约束条件，基于内容请求，采用强化学习算法确定内容请求对应的最优协同边缘缓存策略。

边缘缓存系统的系统能耗是指边缘缓存系统中用户终端从向本地sbs发送内容请求后至请求的内容返回值用户终端的整个过程中的传输能耗总和。边缘缓存系统中请求处理主体是指内容请求对应的内容的来源，可以是mbs、本地sbs或协作sbs。当请求处理主体是本地sbsi时，表示sbsi缓存有用户终端请求的内容f；当请求处理主体是协作sbsj时，表示协作sbsj缓存有用户终端请求的内容f；当请求处理主体是mbs时，表示在本地sbsi以及协作sbsj都没有缓存用户终端请求的内容f，此时，本地sbsi将内容请求转发给mbs进行处理，用户终端u可以直接通过本地sbsi从mbs下载请求的内容f。边缘缓存系统中各边缘设备的缓存容量限制是指各边缘设备能够缓存的最大内容量，用户终端允许的请求延迟限制用户终端能够容忍的最大请求延迟。

本发明实施例中，以优化目标和约束条件构造优化问题，并结合内容请求，通过强化学习算法求解优化问题，进而实现根据内容请求确定内容请求对应的最优协同边缘缓存策略。其中，最优协同边缘缓存策略是指寻找内容请求对应的内容的获取位置，以实现系统能耗最小的策略。其中，获取位置可以是mbs、协作sbs或本地sbs。强化学习算法可以考虑到时变的边缘缓存系统中实际的动态情况，最大程度地提高边缘缓存系统的长期回报。在没有任何先验信息的情况下，可以通过观测当前环境来选择动作以及获得一个未来回报的反馈值进行学习，从而找到一个最优协同边缘缓存策略。

最后执行步骤s3，根据最优协同边缘缓存策略，对内容请求对应的内容进行处理。即在将内容请求对应的内容获取后，一方面将获取的内容返回至用户终端完成用户的内容请求服务，另一方面将获取的内容进行处理，将获取的内容缓存至本地sbs或者协作sbs，当用户设备下次发出相同的内容请求时直接从本地sbs获取请求的内容，或者通过本地sbs从协同sbs获取请求的内容。或者，将获取的内容仅保留在msb，当用户设备下次发出相同的内容请求时直接通过本地sbs从msb下载请求的内容，并不需要事先对请求的内容进行缓存。

本发明实施例中提供的协同边缘缓存方法，首先获取边缘缓存系统的覆盖范围内各用户终端在对应的边缘设备触发的内容请求；然后以边缘缓存系统的系统能耗最小为优化目标，以边缘缓存系统中请求处理主体唯一、边缘缓存系统中各边缘设备的缓存容量限制以及用户终端允许的请求延迟限制为约束条件，基于内容请求，采用强化学习算法确定内容请求对应的最优协同边缘缓存策略；最后基于最优协同边缘缓存策略，对内容请求对应的内容进行处理。可以确定出最优协同边缘缓存策略，使得边缘缓存系统的系统能耗降至最低，减少了边缘缓存系统的应用成本，提高了mbs下所有协同sbs的缓存利用率，减少回程流量的负载。

在上述实施例的基础上，本发明实施例中提供的协同边缘缓存方法，所述边缘缓存系统的系统能耗包括内容传输能耗、用户终端能耗和内容缓存替换能耗；

所述内容传输能耗用于表征请求内容通过不同链路传输的能耗；

所述用户终端能耗用于表征用户终端发送内容请求并接收请求内容的过程中产生的能耗；

所述内容缓存替换能耗用于表征边缘设备为缓存请求内容而替换现有缓存内容产生的能耗。

具体地，本发明实施例中，边缘缓存系统的系统能耗可以包括内容传输能耗、用户终端能耗和内容缓存替换能耗。内容传输能耗用于表征请求内容通过不同链路传输的能耗；不同的请求处理主体对应有不同链路，用户终端能耗用于表征用户终端发送内容请求并接收请求内容的过程中产生的能耗。内容缓存替换能耗用于表征边缘设备为缓存请求内容而替换现有缓存内容产生的能耗。由于用户终端的内容请求未在本地sbsi上处理，则本地sbsi应决定是否缓存用户终端请求的内容f。如果需要缓存，由于sbss缓存的容量有限，可能会替换现有缓存中的某些内容。因此，当缓存容量不足时，哪些内容应被新的内容所替换，这将通过内容缓存替换能耗所表示。

当用户终端u请求内容f时，根据内容传输过程，边缘缓存系统在t时刻的系统能耗可以用公式表示为：

其中，表示当用户终端u请求内容f时，边缘缓存系统在t时刻的系统能耗，表示当用户终端u请求内容f时，边缘缓存系统在t时刻的内容传输能耗，表示当用户终端u请求内容f时，边缘缓存系统在t时刻的用户终端能耗，表示当用户终端u请求内容f时，边缘缓存系统在t时刻的内容缓存替换能耗，表示是否应将本地sbsi中的内容以及哪些内容替换为当前内容。

本发明实施例中，将系统能耗进行细化，考虑的更加全面，可以使得到的最优边缘缓存策略更精准的实现系统能耗最小的优化目标。

在上述实施例的基础上，本发明实施例中提供的协同边缘缓存方法，所述内容传输能耗包括请求内容通过所述边缘缓存系统中的中心设备、所述用户终端对应的本地边缘设备或者所述用户终端对应的协作边缘设备传输的能耗。

具体地，本发明实施例中，内容传输能耗可以通过如下公式表示：

其中，表示用户终端u请求内容f时，边缘缓存系统中在t时刻的系统能耗，表示t时刻内容f的请求处理主体为本地sbsi，表示t时刻内容f从本地sbsi发送给用户终端u的传输能耗；表示t时刻内容f的请求处理主体为协作sbsi，表示t时刻内容f从协作sbsi发送给用户终端u的传输能耗；表示t时刻内容f的请求处理主体为mbs，表示t时刻内容f从mbs发送给用户终端u的传输能耗。

本发明实施例中，在确定内容传输能耗时，考虑了请求内容通过所述边缘缓存系统中的中心设备、所述用户终端对应的本地边缘设备或者所述用户终端对应的协作边缘设备传输的能耗，可以使得能耗的确定更加合理化。

在上述实施例的基础上，本发明实施例中提供的协同边缘缓存方法，若在本地sbsi上处理内容请求，则在这种情况下，决策变量即内容f在t时刻缓存在本地sbsi中，可以通过无线网络直接发送给用户终端u。因此，可以得到在t时刻内容f从本地sbsi发送给用户终端u的传输能量消耗为：

其中，psbs表示的是sbs的传输功率。

在上述实施例的基础上，本发明实施例中提供的协同边缘缓存方法，若在协作sbs上处理内容请求，则在这种情况下，决策变量1并且i≠j,j≠0。即在t时刻，内容f缓存在协作sbsj中，而不是缓存在本地sbsi中。此时，内容f先通过有线链路发送到本地sbsi，然后通过无线链路发送给用户终端u。在这种情况下，协作sbsj的能量消耗为：在t时刻内容f由协作sbsj发送给用户终端u的传输能耗可得：

其中，p1表示在sbs和sbs之间的传输每个比特数据的能量消耗。

在上述实施例的基础上，本发明实施例中提供的协同边缘缓存方法，若在mbs处理内容请求，即当这意味着本地sbsi和协作sbsj都没有缓存用户终端请求的内容f。此时，本地sbsi将内容请求转发给mbs进行处理，用户终端u可以直接通过本地sbsi从mbs下载内容f。在这种情况下，mbs的能量消耗为：在t时刻，内容f由mbs发送给用户终端u的传输能耗可得：

其中，p2表示在sbs和mbs之间的传输每个比特数据的能量消耗。

在上述实施例的基础上，本发明实施例中提供的协同边缘缓存方法，在确定用户终端能耗时，由于内容请求消息数据大小非常小，因此可以忽略发送内容请求的能量消耗。当用户终端u收到请求的内容f时，内容f是通过无线链路发送给用户终端u，定义用户的接收功率为：

其中，λ表示路径损耗因子，是一个常数，dsbs→u表示本地sbsi与用户终端u之间的距离。

因此，用户终端u在t时刻接收内容f的能量消耗可表示为：

在上述实施例的基础上，本发明实施例中提供的协同边缘缓存方法，在确定内容缓存替换能耗时，当本地sbs或协作sbs中发生内容替换时，mbs通过有线链路将内容f发送给的相应sbs，对应的传输能耗可以表示为：

在上述实施例的基础上，本发明实施例中提供的协同边缘缓存方法，所述强化学习算法具体为q学习算法。

具体地，本发明实施例中，在确定最优协同边缘缓存策略时，优化问题可规划如下：

公式(6)中约束条件的含义如下：

c1是二进制缓存决策，表示内容f的请求处理主体；

c2是表示是本地sbsi是否发生了内容替换的决策变量；

c3确保用户终端的内容请求的请求处理主体唯一，即最终只能由本地sbsi、协作sbsj或mbs请求处理主体的一个进行处理；

c4是sbsi缓存容量限制，以确保sbsi上缓存内容的总数据大小不超过其缓存容量；

c5是每个用户允许的最大延迟。

由于边缘缓存系统中缓存替换动作是动态变化的，因此，边缘缓存系统需要实时收集网络状态信息，并根据网络的当前状态采取相应的内容放置策略。因此，本发明实施例中的优化问题是一个混合整数非线性规划(mixedintegernonlinearprogramming，minlp)问题，问题的可行集不是凸的，并且方法的复杂性总是随着问题值的增加而呈指数增长。为此，本发明实施例中通过q学习算法进行求解优化问题。

在利用q学习算法进行求解优化问题时，可以先将优化目标以及约束条件表征的优化问题转换为马尔可夫决策过程(markovdecisionprocess，mdp)，相关的状态空间，动作空间和奖励函数定义如下。

状态空间(s)：在每个时隙的开始，智能体可以获取每个用户终端的请求信息。因此，在t时刻，可用sbsi的当前状态可以定义为：前者其中表示在t时刻来自用户终端u的请求状态，而表示用户终端u发送了对内容f的请求，而则相反。后者表示sbsi中内容f的缓存状态，其中示sbsi已缓存内容f，则相反。

动作空间(a)：此系统中，在t时刻，动作元组包括两部分，表示为其中，如前面所提到的表示内容f请求的处理动作，后者表示sbsi中的内容f替换控制变量。

奖励函数：本发明实施例中的目标是最大程度地减少系统的总能耗。当本地sbs在时隙t处于状态st∈s下采取行动at∈a时，它将获得一个奖励值r(st,at)作为当前动作的反馈。为了获得最大的系统奖励并确保最小的系统能耗目标，使用负指数函数对奖励函数进行归一化。因此，将奖励函数定义为：

强化学习可以使智能体能够在特定环境中自动学习，并不断尝试采取理想的动作来获得最大的累积预期回报，而智能体的目标是找到最优策略在mdp中，定义一个状态值函数v^π(st)，也就是说，在任意初始状态条件下，在策略π下状态st中对奖励的长期期望都可以表示为:

其中，α∈(0,1]为折现因子，α越大，未来奖励的影响越大，对长期收益的关注度越高，而α越小，对即时收益的关注度越高。

从长远考虑，希望每个sbs都可以自适应地学习一种最佳策略，以使期望的平均回报rlong最大化：

用st+1表示在当前状态st下执行动作at后，智能体到达的下一个状态，根据bellman方程，不管初始状态和初始策略(第一策略)如何，当将第一策略形成的动作和状态视为初始条件时，其余策略都必须构成剩余问题最优策略,状态值函数如下：

综上所述，强化学习智能体的目标是学习一种最佳策略，以便它可以获得在当前状态下获得的奖励的最大累积折扣值。因此，可以将优化问题转换为用于寻求最佳状态值的函数，表示为：

因此可以通过最大化状态值函数来获得最佳控制策略：

本发明实施例中使用的强化学习算法是q学习，这是一种使用q表进行值迭代以逐步逼近最佳选择策略π^*的强化学习方法，它是一种典型的强化学习方法。q学习可以描述为一种在mdp中获得最佳策略的学习动作。具体而言，q学习的智能体需要计算在每个特定环境中进行的动作而获得的状态-动作对的q函数结果，并且在与环境的每次交互之后更新并维护q表中的q值。最后，通过在q表中选择每个状态对应的最大q值的动作来获得最佳策略。然后，等式(15)可以进一步抽象为：

根据公式(18)可以很容易地获得最优状态值函数，可以将其表示为：

因此，公式(18)可以重新表示为：

其中是学习率参数。

总的来说，本发明实施例中的工作原理就是：在t时刻，智能体执行的一个动作at，然后计算并更新q表(q表是二维表)中的值q(st,at)，q表中的q值可以视为智能体采取一系列行动后的长期累积奖励。首先，每个状态和动作对的q值是随机初始化的，为了使智能体具有探索功能，可以在每一状态st下以∈-greedy策略来选择动作at，其中∈是一个用来为强化学习提供探索的递减值，∈的范围在0到1之间。智能体以1-∈的概率选择q表中对应最大q值的动作，并以∈的概率在动作空间中随机选择一个动作，具体可表示如下：

当算法执行完一个动作at后，环境将给予智能体一个实时回报r(st,at)，当前状态st也将转变到下一状态st+1。在获得了这些信息以后，q表中状态-动作对st-at相应的q值也可以由公式(20)来进行更新。

现结合附图2说明本发明实施例中提供的协同边缘缓存方法。本发明实施例中考虑了在mbs的覆盖范围内部署了4个sbs，并且用户终端随机分布在mbs的服务区域内。mbs的传输功率为20w，sbss的传输功率为5w。信道功率增益gn,u设置为127+30log10(l)，其中l是用户与sbs之间的距离。边缘缓存系统中共有3000个内容，每个内容sf的内容大小均匀分布在[3，8]mbit的范围内，将每个sbs的缓存容量设置为c＝100m。内容流行度遵循参数β＝0.45的zipf分布。学习率参数设置为折扣系数α＝0.9。值得注意的是，在每个时隙t，内容请求都是动态的，所有请求处理必须在最大可容忍延迟内完成。

为了评估所提出的基于q学习算法的协同边缘缓存方法的性能，将基于q学习算法的协同边缘缓存方法与其他三种基准方法进行了比较。本发明实施例中给出了以下三种基准方法：用“fifo”表示当发生内容替换时，首先替换第一个缓存的内容；用“lfu”表示当发生内容替换时，首先替换最少使用的内容；用“lru”表示当发生内容替换时，首先替换最近最少使用的内容。

图3显示了所提出的基于q学习算法的协同边缘缓存方法的收敛性能。可以看出，随着智能体与系统环境不断交互，每个episode的总系统能耗降低了。此外，经过约600次训练学习后，整个系统的能耗逐渐保持在一个相对稳定的值，这表明提出的基于q学习算法的协同边缘缓存方法可以在没有任何先验知识的情况下成功学习有效的内容缓存策略。

图4显示了当sbss的缓存容量不同时，四种方法在系统总能耗方面的性能比较。可以看出，随着sbss缓存容量的增加，这四种方法的总系统能耗都降低了。这是因为sbss的缓存容量越小，缓存在sbss中的受欢迎内容就越少，这导致了频繁的缓存替换。通过比较这四种方法，我们发现所提出的基于q学习的方法具有最佳的性能，因为它消耗的能量最少。当sbss的缓存容量固定时，“lfu”方法的总系统能耗低于“lru”方法的总能耗，而“fifo”方法的总系统能耗最大。主要原因是在不同的缓存策略下，当用户请求内容时，在不同缓存位置的内容传递会产生不同的传输能耗。值得注意的是，当sbss的缓存容量为100m时，我们提出的基于q学习的方法分别比其他三种方法少消耗21％，14％和11％的能量。

图5显示了当用户数量不同时，这四种方法在系统总能耗方面的性能比较。可以看出，所有方法的总系统能耗随着用户的增加而增加。这是因为系统中存在更多的用户，用户请求更多的内容，这导致系统总能耗的增加。此外，随着用户数量的增加，尤其是当用户数量较大时，我们提出的q学习学习的方法的性能仍然是最佳的。主要原因是我们提出的基于q学习的方法可以充分利用sbss的可用缓存容量，以最大程度地降低系统总能耗。

综上所述，本发明实施例中提供的协同边缘缓存方法，考虑了具有三层结构的异构网络中的边缘缓存系统，并将总系统能耗优化问题表述为混合整数非线性规划(minlp)问题，将优化问题建模为马尔可夫决策过程(mdp)。然后，提出了一种基于q学习的方法来解决优化问题。最后，通过仿真结果表明，与其他现有方法相比，该基于q学习的解决方案具有优越的性能。

图6为本发明实施例中提供的一种协同边缘缓存装置的结构示意图，如图6所示，该装置包括：

获取模块61用于获取边缘缓存系统的覆盖范围内各用户终端在对应的边缘设备触发的内容请求；

确定模块62用于以所述边缘缓存系统的系统能耗最小为优化目标，以所述边缘缓存系统中请求处理主体唯一、所述边缘缓存系统中各边缘设备的缓存容量限制以及所述用户终端允许的请求延迟限制为约束条件，基于所述内容请求，采用强化学习算法确定所述内容请求对应的最优协同边缘缓存策略；

缓存模块63用于基于所述最优协同边缘缓存策略，对所述内容请求对应的内容进行处理。

在上述实施例的基础上，本发明实施例中提供的协同边缘缓存装置，所述确定模块，具体用于：

基于所述内容请求，将所述优化目标以及所述约束条件表征的优化问题转换为马尔可夫决策过程，并采用强化学习算法确定所述内容请求对应的最优协同边缘缓存策略。

具体地，本发明实施例中提供的协同边缘缓存装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(communicationsinterface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行上述各方法类实施例中提供的协同边缘缓存方法，该方法包括：获取边缘缓存系统的覆盖范围内各用户终端在对应的边缘设备触发的内容请求；以所述边缘缓存系统的系统能耗最小为优化目标，以所述边缘缓存系统中请求处理主体唯一、所述边缘缓存系统中各边缘设备的缓存容量限制以及所述用户终端允许的请求延迟限制为约束条件，基于所述内容请求，采用强化学习算法确定所述内容请求对应的最优协同边缘缓存策略；基于所述最优协同边缘缓存策略，对所述内容请求对应的内容进行处理。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的协同边缘缓存方法，该方法包括：获取边缘缓存系统的覆盖范围内各用户终端在对应的边缘设备触发的内容请求；以所述边缘缓存系统的系统能耗最小为优化目标，以所述边缘缓存系统中请求处理主体唯一、所述边缘缓存系统中各边缘设备的缓存容量限制以及所述用户终端允许的请求延迟限制为约束条件，基于所述内容请求，采用强化学习算法确定所述内容请求对应的最优协同边缘缓存策略；基于所述最优协同边缘缓存策略，对所述内容请求对应的内容进行处理。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法实施例提供的协同边缘缓存方法，该方法包括：获取边缘缓存系统的覆盖范围内各用户终端在对应的边缘设备触发的内容请求；以所述边缘缓存系统的系统能耗最小为优化目标，以所述边缘缓存系统中请求处理主体唯一、所述边缘缓存系统中各边缘设备的缓存容量限制以及所述用户终端允许的请求延迟限制为约束条件，基于所述内容请求，采用强化学习算法确定所述内容请求对应的最优协同边缘缓存策略；基于所述最优协同边缘缓存策略，对所述内容请求对应的内容进行处理。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周欢;郑汉同
技术所有人：三峡大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。