用于优化小区参数的策略的制作方法

文档序号：32002604发布日期：2022-11-02 11:51阅读：46来源：国知局

1.本公开涉及优化通信网络的相应小区中的一个或多个小区参数，并且具体地涉及训练供强化学习(rl)代理在优化一个或多个小区参数时使用的策略。

背景技术：

2.蜂窝网络是非常复杂的系统。每个小区都有自己的一组可配置参数。其中的一些参数只影响这些参数所应用的小区，因此找到最优值在某种程度上很简单。但是，还有另一组参数，其变化不仅会影响它们所应用的小区，还会影响所有相邻小区。为这种类型的参数找到最优值并不是那么简单，并且这是优化蜂窝网络时最具挑战性的任务之一。
3.这些参数的两个示例是远程电调倾角(ret)和长期演进(lte)参数“p0 nominal pusch”。ret定义了小区的天线倾角，并且可以远程执行ret的变化。通过修改ret，可以在所修改的小区中提高下行链路(dl)的信号与干扰噪声比(sinr)，但同时会恶化周围小区的sinr，反之亦然。lte参数“p0 nominal pusch”定义了小区在从用户设备(ue)到基站(bs)的上行链路(ul)通信中所期望的每个资源块(rb)的目标功率。增加小区中的“p0 nominal pusch”可能会增加所修改的小区的ul sinr，但同时可能会降低周围小区的ul sinr，反之亦然。
4.因此，在所修改的小区的性能与周围小区的性能之间存在明显的权衡。这种权衡不容易估计，因为它会因情况而异，使得难以解决优化问题。目标是通过在每个小区基础上修改参数来优化全局网络性能。在计算复杂性理论中，这类问题被认为是“np-hard”(非确定性多项式时间难题)。
5.解决此问题最常用的方法之一是基于专家定义的规则来创建控制系统。在victor buenestado、matias toril、salvador luna-ramirez、jose maria ruiz-aviles和adriano mendo所著的“self-tuning of remote electrical tilts based on call traces for coverage and capacity optimization in lte”(ieee transactions onvehicular technology，第66卷，第5期，第4315-4326页，2017年5月)中，描述了用于ret优化的基于模糊规则的解决方案。
6.随着人工智能(ai)和机器学习(ml)技术使用的增加，强化学习(rl)已成为解决此类问题的流行方法。rl是机器学习的一个领域，它关注软件代理应该如何在环境中采取行动以最大化奖励。rl与监督学习技术的不同之处在于不要求以标记输入/输出对形式的训练数据，并且不需要显式地纠正代理的次优动作。
7.在faris b.mismar、jinseok choi和brian l.evans所著的“a framework for automated cellular network tuning with reinforcement learning”(arxiv：1808.05140v5i，2019年7月)中，提出了用于整个网络的单个rl代理。在weisi guo、siyi wang、yue wu、jonathan rigelsford、xiaoli chu和tim o
′
farrell所著的“spectral-and energy-efficient antenna tilting in a hetnet using reinforcement learning”(ieee wireless communications and networking conference (wcnc)：mac，2013)和
techniques in enterprise lte femtocells”中被用作连续/离散转换器，后跟表格rl算法。现在有更有效的方法来处理连续状态，例如神经网络。一方面，离散状态的数量随着定义关键绩效指标(kpi)的变量数量呈指数增长；另一方面，有必要经历所有这些状态来训练系统。
14.在某些情况下，如在“online antenna tuning in heterogeneous celluar networks with deep reinforcement learning”中，代理的动作会生成要使用的最终参数值。然而，一般来说，rl技术以增量方式工作得更好，其中参数以小步长迭代地改变。“最终参数”方法风险更大，而增量提供的风险更小，并且还可以更好地防范rl代理无法考虑到的其他网络变化。

技术实现要素：

15.本公开的某些方面及其实施例可以提供针对上述挑战或其他挑战的解决方案。具体地，提供了用于训练策略的技术，该策略供强化学习(rl)代理在优化网络小区中的一个或多个小区参数时使用，其中，使用单分布式rl代理的多个实例(因此隐式使用相同的策略)或使用各自使用相同策略的多个rl代理来训练策略并优化小区参数。这种类型的优化被认为是复杂的网络优化问题，因为修改单个小区中的参数不仅会影响该特定小区的性能，还会影响周围小区的性能。
16.根据第一方面，提供了一种训练策略的计算机实现的方法，该策略供通信网络中的强化学习(rl)代理使用，其中，rl代理用于根据该策略优化通信网络的相应小区中的一个或多个小区参数，该方法包括：(i)为通信网络中的多个小区中的每一个小区部署相应的rl代理，该多个小区包括彼此相邻的小区，每个相应的rl代理具有策略的第一次迭代；(ii)根据策略的第一次迭代操作每个所部署的rl代理，以调整或维持相应小区中的一个或多个小区参数；(iii)接收与该多个小区中的每一个小区的操作相关的测量；以及(iv)基于所接收的与该多个小区中的每一个小区的操作相关的测量来确定策略的第二次迭代。
17.根据第二方面，提供了一种包括计算机可读介质的计算机程序产品，该计算机可读介质具有在其中实现的计算机可读代码，该计算机可读代码被配置为：在由合适的计算机或处理器执行时，使得计算机或处理器执行根据第一方面的方法。
18.根据第三方面，提供了一种用于训练策略的装置，该策略供通信网络中的强化学习(rl)代理使用，其中，rl代理用于根据该策略优化通信网络的相应小区中的一个或多个小区参数，该装置被配置为：(i)为通信网络中的多个小区中的每一个小区部署相应的rl代理，该多个小区包括彼此相邻的小区，每个相应的rl代理具有策略的第一次迭代；(ii)根据策略的第一次迭代操作每个所部署的rl代理，以调整或维持相应小区中的一个或多个小区参数；(iii)接收与该多个小区中的每一个小区的操作相关的测量；以及(iv)基于所接收的与该多个小区中的每一个小区的操作相关的测量来确定策略的第二次迭代。
19.根据第四方面，提供了一种用于训练策略的装置，该策略供通信网络中的强化学习(rl)代理使用，其中，rl代理用于根据该策略优化通信网络的相应小区中的一个或多个小区参数，该装置包括处理器和存储器，存储器包含可由处理器执行的指令，由此该装置用于：(i)为通信网络中的多个小区中的每一个小区部署相应的rl代理，该多个小区包括彼此相邻的小区，每个相应的rl代理具有策略的第一次迭代；(ii)根据策略的第一次迭代操作
每个所部署的rl代理，以调整或维持相应小区中的一个或多个小区参数；(iii)接收与该多个小区中的每一个小区的操作相关的测量；以及(iv)基于所接收的与该多个小区中的每一个小区的操作相关的测量来确定策略的第二次迭代。
附图说明
20.在此参考以下附图描述了各种实施例，其中：
21.图1是比较专家系统和rl代理系统随时间推移的性能的图；
22.图2示出了根据一些实施例的无线网络；
23.图3示出了根据一些实施例的虚拟化环境；
24.图4示出了在网络中部署rl代理的多个实例；
25.图5示出了示例性强化学习(rl)框架；
26.图6示出了用于rl代理的示例性深度神经网络；
27.图7是示出了根据一些实施例的用于rl代理策略的示例性训练过程的流程图；
28.图8示出了可以部署rl代理策略的网络环境；
29.图9示出了两张图，该两张图示出了在训练rl代理策略期间网络中的性能改善；以及
30.图10是示出了根据各种实施例的方法的流程图。
具体实施方式
31.现在将参考附图更全面地描述本文中设想的一些实施例。然而，其他实施例包括在本文所公开的主题的范围内，所公开的主题不应被解释为仅限于本文所阐述的示例；相反，这些实施例是通过示例的方式提供的，以向本领域技术人员传达主题的范围。
32.图2示出了根据一些实施例的无线网络的一部分，所公开的技术的各种实施例可以应用于该无线网络。
33.虽然本文描述的主题可以使用任何合适的组件在任何适合类型的系统中实现，但是本文公开的实施例是关于无线网络(诸如图2中所示的示例无线网络)描述的。为简单起见，图2的无线网络仅描绘了网络206、网络节点260和260b以及wd 210、210b和210c。实际上，无线网络还可以包括适合于支持无线设备之间或无线设备与另一个通信设备(例如陆线电话、服务提供商或任何其他网络节点或终端设备)之间的通信的任何附加元件。在所示组件中，以附加细节描绘网络节点260和无线设备(wd)210。无线网络可以向一个或多个无线设备提供通信和其他类型的服务，以便于无线设备访问和/或使用由无线网络提供或通过无线网络提供的服务。
34.无线网络可以包括任何类型的通信、电信、数据、蜂窝和/或无线电网络或其他类似类型的系统，和/或与任何类型的通信、电信、数据、蜂窝和/或无线电网络或其他类似类型的系统接口连接。在一些实施例中，无线网络可以被配置为根据特定标准或其他类型的预定义规则或过程来操作。因此，无线网络的具体实施例可以实现通信标准例如全球移动通信系统(gsm)、通用移动电信系统(umts)、长期演进(lte)和/或其他合适的2g、3g、4g或5g标准，无线局域网(wlan)标准例如ieee802.11标准，和/或任何其他适当的无线通信标准例如全球微波接入互操作性(wimax)、蓝牙、z-wave和/或zigbee标准。
35.网络206可以包括一个或多个回程网络、核心网、ip网络、公共交换电话网络(pstn)、分组数据网络、光网络、广域网(wan)、局域网(lan)、无线局域网(wlan)、有线网络、无线网络、城域网和其他网络，以实现设备之间的通信。
36.网络节点260和wd 210包括下面更详细描述的各种组件。这些组件一起工作以提供网络节点和/或无线设备功能，例如在无线网络中提供无线连接。在不同的实施例中，无线网络可以包括任何数量的有线或无线网络、网络节点、基站、控制器、无线设备、中继站和/或可以促进或参与数据和/或信号的通信(无论是经由有线连接还是经由无线连接)的任何其他组件或系统。
37.如本文所使用的，网络节点指的是能够、被配置、被布置和/或可操作以直接或间接地与无线设备和/或与无线网络中的其他网络节点或设备通信的设备，以实现和/或提供向无线设备的无线接入和/或执行无线网络中的其他功能(例如管理)。网络节点的示例包括但不限于接入点(ap)(例如，无线电接入点)、基站(bs)(例如，无线电基站、nodeb、演进nodeb(enb)和nr nodeb(gnbs))。基站可以基于它们提供的覆盖的量(或者换言之，基于它们的发射功率水平)来分类，于是它们还可以被称为毫微微基站、微微基站、微基站或宏基站。基站可以是中继节点或控制中继的中继宿主节点。网络节点还可以包括分布式无线电基站的一个或多个(或所有)部分，例如集中式数字单元和/或远程无线电单元(rru)(有时被称为远程无线电头端(rrh))。这种远程无线电单元可以与或可以不与天线集成为天线集成无线电。分布式无线电基站的部分也可以称为分布式天线系统(das)中的节点。网络节点的又一些示例包括多标准无线电(msr)设备(如msr bs)、网络控制器(如无线电网络控制器(rnc)或基站控制器(bsc))、基站收发机站(bts)、传输点、传输节点、多小区/多播协调实体(mce)、核心网络节点(例如，msc、mme)、o&m节点、oss节点、son节点、定位节点(例如，e-smlc)和/或mdt。作为另一示例，网络节点可以是虚拟网络节点，如下面更详细描述的。然而，更一般地，网络节点可以表示如下的任何合适的设备(或设备组)：该设备(或设备组)能够、被配置、被布置和/或可操作以实现和/或向无线设备提供对无线网络的接入，或向已接入无线网络的无线设备提供某种服务。
38.在图2中，网络节点260包括处理电路270、设备可读介质280、接口290、辅助设备284、电源286、电源电路287和天线262。尽管图2的示例性无线网络中示出的网络节点260可以表示包括所示硬件组件的组合的设备，但是其他实施例可以包括具有不同组件组合的网络节点。应当理解，网络节点包括执行本文公开的任务、特征、功能和方法所需的硬件和/或软件的任何适合组合。此外，虽然网络节点260的组件被描绘为位于较大框内或嵌套在多个框内的单个框，但实际上，网络节点可包括构成单个图示组件的多个不同物理组件(例如，设备可读介质280可以包括多个单独的硬盘驱动器以及多个ram模块)。
39.类似地，网络节点260可以由多个物理上分开的组件(例如，节点b组件和rnc组件、bts组件和bsc组件等)组成，其可以具有各自的相应组件。在网络节点260包括多个单独的组件(例如bts和bsc组件)的某些场景中，可以在若干网络节点之间共享一个或多个单独的组件。例如，单个rnc可以控制多个nodeb。在这种场景中，每个唯一的nodeb和rnc对在一些实例中可以被认为是单个单独的网络节点。在一些实施例中，网络节点260可以被配置为支持多种无线电接入技术(rat)。在这种实施例中，一些组件可以被复制(例如，用于不同rat的单独的设备可读介质280)，并且一些组件可被重用(例如，可以由rat共享相同的天线
262)。网络节点260还可以包括用于集成到网络节点260中的不同无线技术(例如gsm、wcdma、lte、nr、wifi或蓝牙无线技术)的多组各种所示组件。这些无线技术可以被集成到网络节点260内的相同或不同芯片或芯片组和其他组件中。
40.处理电路270被配置为执行本文描述为由网络节点提供的任何确定、计算或类似操作(例如某些获得操作)。由处理电路270执行的这些操作可以包括由处理电路270通过以下处理获得的信息：例如，将获得的信息转换为其他信息，将获得的信息或转换后的信息与存储在网络节点中的信息进行比较，和/或基于获得的信息或转换后的信息执行一个或多个操作，并且做出确定作为所述处理的结果。
41.处理器电路270可以包括下述中的一个或多个的组合：微处理器、控制器、微控制器、中央处理单元、数字信号处理器、专用集成电路、现场可编程门阵列、或者任何其它合适的计算设备、资源、或硬件、软件和/或编码逻辑的组合，其可操作为单独地或与其他网络节点260组件(诸如设备可读介质280)一起提供网络节点260功能。例如，处理电路270可以执行存储在设备可读介质280中或存储在处理电路270内的存储器中的指令。这样的功能可以包括提供本文讨论的各种无线特征、功能或益处中的任何一个。在一些实施例中，处理电路270可以包括片上系统(soc)。
42.在一些实施例中，处理电路270可以包括射频(rf)收发器电路272和基带处理电路274中的一个或多个电路。在一些实施例中，射频(rf)收发器电路272和基带处理电路274可以在单独的芯片(或芯片组)、板或单元(例如无线电单元和数字单元)上。在备选实施例中，rf收发器电路272和基带处理电路274的部分或全部可以在相同芯片或芯片组、板或单元组上。
43.在某些实施例中，本文描述为由网络节点、基站、enb或其他这样的网络设备提供的一些或所有功能可由处理电路270执行，处理电路270执行存储在设备可读介质280或处理电路270内的存储器上的指令。在备选实施例中，功能中的一些或全部可以例如以硬连线方式由处理电路270提供，而无需执行存储在单独的或分立的设备可读介质上的指令。在任何这些实施例中，无论是否执行存储在设备可读存储介质上的指令，处理电路270都可以被配置为执行所描述的功能。由这种功能提供的益处不仅限于处理电路270或不仅限于网络节点260的其他组件，而是作为整体由网络节点260和/或通常由终端用户和无线网络享有。
44.设备可读介质280可以包括任何形式的易失性或非易失性计算机可读存储器，包括但不限于永久存储设备、固态存储器、远程安装存储器、磁介质、光学介质、随机存取存储器(ram)、只读存储器(rom)、大容量存储介质(例如硬盘)、可移除存储介质(例如闪存驱动器、光盘(cd)或数字视频盘(dvd))和/或任何其他易失性存储器或非易失性、非暂时性设备可读和/或计算机可执行存储器件，其存储可由处理电路270使用的信息、数据和/或指令。设备可读介质280可以存储任何合适的指令、数据或信息，包括计算机程序、软件、包括逻辑、规则、代码、表等中的一个或多个的应用、和/或能够由处理电路270执行并由网络节点260使用的其他指令。设备可读介质280可以用于存储由处理电路270做出的任何计算和/或通过接口290接收的任何数据。在一些实施例中，可以认为处理电路270和设备可读介质280是集成的。
45.接口290用于网络节点260、网络206和/或wd 210之间的信令和/或数据的有线或无线通信。如图所示，接口290包括端口/端子294，用于例如通过有线连接向网络206发送数
据和从网络206接收数据。接口290还包括无线电前端电路292，其可以耦合到天线262，或者在某些实施例中是天线262的一部分。无线电前端电路292包括滤波器298和放大器296。无线电前端电路292可以与天线262和处理电路270连接。无线电前端电路可以被配置为调节在天线262与处理电路270之间通信的信号。无线电前端电路292可以接收数字数据，该数字数据将通过无线连接向外发送给其他网络节点或wd。无线电前端电路292可以使用滤波器298和/或放大器296的组合将数字数据转换为具有合适的信道和带宽参数的无线电信号。然后可以经由天线262发送无线电信号。类似地，当接收数据时，天线262可以收集无线电信号，然后由无线电前端电路292将其转换为数字数据。数字数据可以被传递给处理电路270。在其他实施例中，接口可包括不同组件和/或组件的不同组合。
46.在某些备选实施例中，网络节点260可以不包括单独的无线电前端电路292，作为替代，处理电路270可以包括无线电前端电路并且可以与天线262连接，而无需单独的无线电前端电路292。类似地，在一些实施例中，rf收发器电路272的全部或一些可以被认为是接口290的一部分。在其他实施例中，接口290可以包括一个或多个端口或端子294、无线电前端电路292和rf收发器电路272，作为无线电单元(未示出)的一部分，并且接口290可以与基带处理电路274通信，该基带处理电路274是数字单元(未示出)的一部分。
47.天线262可以包括一个或多个天线或天线阵列，被配置为发送和/或接收无线信号264。天线262可以耦合到无线电前端电路292，并且可以是能够无线地发送和接收数据和/或信号的任何类型的天线。在一些实施例中，天线262可以包括一个或多个全向、扇形或平板天线，其可操作用于发送/接收在例如2ghz和66ghz之间的无线电信号。全向天线可以用于在任何方向上发送/接收无线电信号，扇形天线可以用于向/从在特定区域内的设备发送/接收无线电信号，以及平板天线可以是用于以相对直线的方式发送/接收无线电信号的视线天线。在一些情况下，使用多于一个天线可以称为mimo。在某些实施例中，天线262可以与网络节点260分开，并且可以通过接口或端口与网络节点260连接。
48.天线262、接口290和/或处理电路270可以被配置为执行本文描述为由网络节点执行的任何接收操作和/或某些获得操作。可以从无线设备、另一网络节点和/或任何其他网络设备接收任何信息、数据和/或信号。类似地，天线262、接口290和/或处理电路270可以被配置为执行本文描述的由网络节点执行的任何发送操作。可以将任何信息、数据和/或信号发送给无线设备、另一网络节点和/或任何其他网络设备。
49.电源电路287可以包括电源管理电路或耦合到电源管理电路，并且被配置为向网络节点260的组件提供电力以执行本文描述的功能。电源电路287可以从电源286接收电力。电源286和/或电源电路287可以被配置为以适合于各个组件的形式(例如在每个相应组件所需的电压和电流水平处)向网络节点260的各种组件提供电力。电源286可以被包括在电源电路287和/或网络节点260中或在电源电路287和/或网络节点260外部。例如，网络节点260可以经由输入电路或诸如电缆的接口连接到外部电源(例如，电源插座)，由此外部电源向电源电路287供电。作为另一个示例，电源286可以包括电池或电池组形式的电源，其连接到或集成在电源电路287中。如果外部电源发生故障，电池可以提供备用电力。也可以使用其他类型的电源，例如光伏器件。
50.网络节点260的备选实施例可以包括超出图2中所示的组件的附加组件，所述附加组件可以负责提供网络节点的功能(包括本文描述的功能中的任一者和/或支持本文描述
的主题所需的任何功能)的某些方面。例如，网络节点260可以包括用户接口设备，以允许将信息输入到网络节点260中并允许从网络节点260输出信息。这可以允许用户针对网络节点260执行诊断、维持、修复和其他管理功能。
51.如本文所使用的，无线设备(wd)指的是能够、被配置为、被布置为和/或可操作以与网络节点和/或其他无线设备无线通信的设备。除非另有说明，否则术语wd在本文中可与用户设备(ue)互换使用。无线通信可以包括使用电磁波、无线电波、红外波和/或适用于通过空气传送信息的其他类型的信号来发送和/或接收无线信号。在一些实施例中，wd可以被配置为在没有直接人类交互的情况下发送和/或接收信息。例如，wd可以被设计为当由内部或外部事件触发时，或者响应于来自网络的请求，以预定的调度向网络发送信息。wd的示例包括但不限于智能电话、移动电话、蜂窝电话、ip语音(voip)电话、无线本地环路电话、台式计算机、个人数字助理(pda)、无线摄像头、游戏机或设备、音乐存储设备、回放设备、可穿戴终端设备、无线端点、移动台、平板计算机、便携式计算机、便携式嵌入式设备(lee)、便携式-安装设备(lme)、智能设备、无线客户端设备(cpe)、车载无线终端设备等。wd可以例如通过实现用于侧链路通信的3gpp标准来支持设备到设备(d2d)通信、车辆到车辆(v2v)通信，车辆到基础设施(v2i)通信，车辆到任何事物(v2x)通信，并且在这种情况下可以称为d2d通信设备。作为又一特定示例，在物联网(iot)场景中，wd可以表示执行监视和/或测量并将这种监测和/或测量的结果发送给另一wd和/或网络节点的机器或其他设备。在这种情况下，wd可以是机器到机器(m2m)设备，其在3gpp上下文中可以被称为机二器类型通信(mtc)设备。作为一个具体示例，wd可以是实现3gpp窄带物联网(nb-iot)标准的ue。这种机器或设备的具体示例是传感器、计量设备(例如功率计)、工业机器、或者家用或个人用具(例如冰箱、电视等)、个人可穿戴设备(例如手表、健身追踪器等)。在其他场景中，wd可以表示能够监视和/或报告其操作状态或与其操作相关联的其他功能的车辆或其他设备。如上所述的wd可以表示无线连接的端点，在这种情况下，该设备可以被称为无线终端。此外，如上所述的wd可以是移动的，在这种情况下，它也可以称为移动设备或移动终端。
52.如图所示，无线设备210包括天线211、接口214、处理电路220、设备可读介质230、用户接口设备232、辅助设备234、电源236和电源电路237。wd210可以包括用于wd 210支持的不同无线技术(例如gsm、wcdma、lte、nr、wifi、wimax或蓝牙无线技术，仅提及少数)的多组一个或多个所示组件。这些无线技术可以集成到与wd 210内的其他组件相同或不同的芯片或芯片组中。
53.天线211可以包括一个或多个天线或天线阵列，被配置为发送和/或接收无线信号，并且与接口214连接。在某些备选实施例中，天线211可以与wd 210分开并且可以通过接口或端口与wd210连接。天线211、接口214和/或处理电路220可以被配置为执行本文描述为由wd执行的任何接收或发送操作。可以从网络节点和/或另一个wd接收任何信息、数据和/或信号。在一些实施例中，无线电前端电路和/或天线211可以被认为是接口。
54.如图所示，接口214包括无线电前端电路212和天线211。无线电前端电路212包括一个或多个滤波器218和放大器216。无线电前端电路212与天线211和处理电路220连接，并且被配置为调节在天线211与处理电路220之间通信的信号。无线电前端电路212可以耦合到天线211或者是天线211的一部分。在一些实施例中，wd 210可以不包括单独的无线电前端电路212；相反，处理电路220可以包括无线电前端电路并且可以与天线211连接。类似地，
在一些实施例中，rf收发器电路222中的一些或全部可以被认为是接口214的一部分。无线电前端电路212可以接收数字数据，该数字数据将通过无线连接向外发送给其他网络节点或wd。无线电前端电路212可以使用滤波器218和/或放大器216的组合将数字数据转换为具有合适的信道和带宽参数的无线电信号。然后可以经由天线211发送无线电信号。类似地，当接收数据时，天线211可以收集无线电信号，然后由无线电前端电路212将其转换为数字数据。数字数据可以被传递给处理电路220。在其他实施例中，接口可包括不同组件和/或组件的不同组合。
55.处理器电路220可以包括下述中的一个或多个的组合：微处理器、控制器、微控制器、中央处理单元、数字信号处理器、专用集成电路、现场可编程门阵列、或者任何其它合适的计算设备、资源、或硬件、软件和/或编码逻辑的组合，其可操作为单独地或与其他wd210组件(例如设备可读介质230)相结合来提供wd210功能。这样的功能可以包括提供本文讨论的各种无线特征或益处中的任何一个。例如，处理电路220可以执行存储在设备可读介质230中或处理电路220内的存储器中的指令，以提供本文公开的功能。
56.如图所示，处理电路220包括rf收发机电路222、基带处理电路224和应用处理电路226中的一个或多个。在其他实施例中，处理电路可以包括不同的组件和/或组件的不同组合。在某些实施例中，wd210的处理电路220可以包括soc。在一些实施例中，rf收发器电路222、基带处理电路224和应用处理电路226可以在单独的芯片或芯片组上。在备选实施例中，基带处理电路224和应用处理电路226的一部分或全部可以组合成一个芯片或芯片组，并且rf收发器电路222可以在单独的芯片或芯片组上。在另外的备选实施例中，rf收发器电路222和基带处理电路224的一部分或全部可以在相同芯片或芯片组上，并且应用处理电路226可以在单独的芯片或芯片组上。在其他备选实施例中，rf收发器电路222、基带处理电路224和应用处理电路226的一部分或全部可以组合在相同芯片或芯片组中。在一些实施例中，rf收发器电路222可以是接口214的一部分。rf收发器电路222可以调节rf信号以用于处理电路220。
57.在某些实施例中，本文描述为由wd执行的一些或所有功能可以由执行存储在设备可读介质230上的指令的处理电路220提供，在某些实施例中，设备可读介质230可以是计算机可读存储介质。在备选实施例中，功能中的一些或全部可以例如以硬连线方式由处理电路220提供，而不执行存储在单独的或分立的设备可读存储介质上的指令。在那些特定实施例的任一实施例中，无论是否执行存储在设备可读存储介质上的指令，处理电路220都可以被配置为执行所描述的功能。由这种功能提供的益处不仅限于处理电路220或者不仅限于wd210的其他组件，而是作为整体由wd210和/或通常由终端用户和无线网络享有。
58.处理电路220可以被配置为执行本文描述为由wd执行的任何确定、计算或类似操作(例如，某些获得操作)。由处理电路220执行的这些操作可以包括由处理电路220通过以下处理获得的信息：例如，将获得的信息转换为其他信息，将获得的信息或转换后的信息与由wd 210存储的信息进行比较，和/或基于获得的信息或转换后的信息执行一个或多个操作，并且做出确定作为所述处理的结果。
59.设备可读介质230可操作以存储计算机程序、软件、包括逻辑、规则、代码、表等中的一个或多个的应用、和/或能够由处理电路220执行的其他指令。设备可读介质230可以包括计算机存储器(例如随机存取存储器(ram)或只读存储器(rom))、大容量存储介质(例如
硬盘)、可移除存储介质(例如紧凑盘(cd)或数字视频盘(dvd))、和/或存储可由处理电路220使用的信息、数据和/或指令的任何其他易失性或非易失性、非暂时性设备可读和/或计算机可执行存储器件。在一些实施例中，可以认为处理电路220和设备可读介质230是集成的。
60.用户接口设备232可以提供允许人类用户与wd 210交互的组件。这样的交互可以是多种形式，例如视觉、听觉、触觉等。用户接口设备232可以用于向用户生成输出并允许用户向wd210提供输入。交互的类型可以根据安装在wd 210中的用户接口设备232的类型而变化。例如，如果wd 210是智能电话，则交互可以经由触摸屏进行；如果wd 210是智能仪表，则交互可以通过提供用量的屏幕(例如，使用的加仑数)或提供可听警报的扬声器(例如，如果检测到烟雾)进行。用户接口设备232可以包括输入接口、设备和电路、以及输出接口、设备和电路。用户接口设备232被配置为允许将信息输入到wd 210中，并且与处理电路220连接以允许处理电路220处理输入信息。用户接口设备232可以包括例如麦克风、接近传感器或其他传感器、按键/按钮、触摸显示器、一个或多个相机、usb端口或其他输入电路。用户接口设备232还被配置为允许从wd 210输出信息，并允许处理电路220从wd 210输出信息。用户接口设备232可以包括例如扬声器、显示器、振动电路、usb端口、耳机接口或其他输出电路。通过使用用户接口设备232的一个或多个输入和输出接口、设备和电路，wd 210可以与终端用户和/或无线网络通信，并允许它们受益于本文描述的功能。
61.辅助设备234可操作以提供可能通常不由wd执行的更具体的功能。这可以包括用于为各种目的进行测量的专用传感器、用于例如有线通信等的附加类型的通信的接口。辅助设备234的组件的包括和类型可以根据实施例和/或场景而变化。
62.在一些实施例中，电源236可以是电池或电池组的形式。也可以使用其他类型的电源，例如外部电源(例如电源插座)、光伏器件或电池单元。wd 210还可以包括用于从电源236向wd 210的各个部分输送电力的电源电路237，wd 210需要来自电源236的电力以执行本文描述或指示的任何功能。在某些实施例中，电源电路237可以包括电源管理电路。电源电路237可以附加地或替代地可操作以从外部电源接收电力；在这种情况下，wd 210可以通过输入电路或例如电力电缆的接口与外部电源(例如电源插座)连接。在某些实施例中，电源电路237还可操作以将电力从外部电源输送到电源236。例如，这可以用于电源236的充电。电源电路237可以对来自电源236的电力执行任何格式化、转换或其他修改，以使电力适合于被供电的wd 210的各个组件。
63.图3是示出虚拟化环境300的示意性框图，其中可以虚拟化由一些实施例实现的功能。在本上下文中，虚拟化意味着创建可以包括虚拟化硬件平台、存储设备和网络资源的装置或设备的虚拟版本。如本文所使用的，虚拟化可以应用于节点(例如虚拟化核心网络节点、虚拟化节点、虚拟化基站或虚拟化无线电接入节点)或设备(例如ue，无线设备或任何其他类型的通信设备)或其组件，并且涉及一种实现，其中至少一部分功能被实现为一个或多个虚拟组件(例如通过一个或多个应用、组件、功能、在一个或多个网络中的一个或多个物理处理节点上执行的虚拟机或容器)。在一些实施例中，本文描述的rl代理和/或rl代理的控制节点可以在如图3所示的虚拟化环境中实现或由该虚拟化环境实现。
64.在一些实施例中，本文描述的一些或所有功能可以被实现为由在一个或多个硬件节点330托管的一个或多个虚拟环境300中实现的一个或多个虚拟机执行的虚拟组件。此
外，在虚拟节点不是无线电接入节点或不需要无线电连接的实施例(例如，核心网络节点)中，网络节点然后可以完全虚拟化。
65.这些功能可以由一个或多个应用320(可以替代地被称为软件实例、虚拟设备、网络功能、虚拟节点、虚拟网络功能等)来实现，其可操作以实现本文公开的一些实施例的一些特征、功能和/或益处。应用320在虚拟化环境300中运行，虚拟化环境300提供包括处理电路360和存储器390的硬件330。存储器390包括可由处理电路360执行的指令395，由此应用320可操作以提供本文公开的一个或多个特征、益处和/或功能。
66.虚拟化环境300包括通用或专用网络硬件设备330，该设备包括一组一个或多个处理器或处理电路360，其可以是商用现货(cots)处理器、专用集成电路(asic)或包括数字或模拟硬件组件或专用处理器的任何其他类型的处理电路。每个硬件设备可以包括存储器390-1，该存储器可以是用于临时存储指令395或由处理电路360执行的软件的非永久存储器。每个硬件设备可以包括一个或多个网络接口控制器(nic)370，也被称为网络接口卡，该控制器包括物理网络接口380。每个硬件设备还可以包括其中存储有可由处理电路360执行的软件395和/或指令的非暂时性、永久性机器可读存储介质390-2。软件395可以包括任何类型的软件，包括用于实例化一个或多个虚拟化层350(也被称为管理程序)的软件、用于执行虚拟机340的软件以及允许其执行与本文描述的一些实施例相关描述的功能、特征和/或益处的软件。
67.虚拟机340包括虚拟处理、虚拟存储器、虚拟联网或接口和虚拟存储、并且可以由对应的虚拟化层350或管理程序运行。虚拟设备320的实例的不同实施例可以在一个或多个虚拟机340上实现，并且可以以不同的方式实现。
68.在操作期间，处理电路360执行软件395以实例化管理程序或虚拟化层350，其有时可被称为虚拟机监控器(vmm)。虚拟化层350可以呈现虚拟操作平台，该平台看起来像虚拟机340的联网硬件。
69.如图3所示，硬件330可以是具有通用或特定组件的独立网络节点。硬件330可以包括天线3225并且可以通过虚拟化实现一些功能。备选地，硬件330可以是更大的硬件集群的一部分(例如在数据中心或客户住宅设备(cpe)中)，其中许多硬件节点一起工作并且通过管理和协调(mano)3100来管理，该管理和协调3100监督应用320的生命周期管理。
70.在一些上下文中，硬件的虚拟化被称为网络功能虚拟化(nfv)。nfv可以用于将众多网络设备类型统一到可以位于数据中心和客户驻地设备中的工业标准高容量服务器硬件、物理交换机和物理存储上。
71.在nfv的上下文中，虚拟机340可以是物理机器的软件实现，其运行程序如同它们在物理的非虚拟化机器上执行一样。每个虚拟机340以及硬件330中执行该虚拟机的部分(其可以是专用于该虚拟机的硬件和/或由该虚拟机与虚拟机340中的其它虚拟机共享的硬件)形成了单独的虚拟网元(vne)。
72.仍然在nfv的上下文中，虚拟网络功能(vnf)负责处理在硬件网络基础设施330顶部的一个或多个虚拟机340中运行并且对应于图3中的应用320的特定网络功能。
73.在一些实施例中，每个包括一个或多个发射机3220和一个或多个接收机3210的一个或多个无线电单元3200可以耦合到一个或多个天线3225。无线电单元3200可以通过一个或多个适合的网络接口直接与硬件节点330通信，并且可以与虚拟组件结合使用以向虚拟
节点提供无线电能力，例如无线电接入节点或基站。
74.在一些实施例中，可以使用控制系统3230来实现一些信令，控制系统3230可以替代地用于硬件节点330和无线电单元3200之间的通信。
75.如上所述，本公开的实施例提出了用于复杂网络优化问题的单分布式深度rl代理。复杂的网络优化问题包括以下问题：在单个小区中修改网络参数不仅会影响该特定小区的性能，还会影响周围小区的性能。在该方法中，同一rl代理以多个实例分布在网络中的小区中(或在某些情况下分布在每个小区中)，并且每个rl代理实例控制其所部署于的特定小区的小区参数。图4示出了在蜂窝网络402中部署rl代理的多个实例。蜂窝网络402由多个小区404组成，为了便于说明，这些小区404被示出为不重叠的六边形小区。每个小区将由基站(例如，enb或gnb)管理和提供，每个基站提供一个或多个小区404。实现单个rl代理406，其具有由rl代理406用来确定是否需要修改或调整小区参数以及需要如何修改或调整小区参数的策略。rl代理406的相应实例408被部署到每个小区404，因此每个小区包括具有该策略的rl代理406的相应实例408。收集与每个小区404中的小区参数变化相关的信息(包括与每个小区404的操作相关的测量)，并且该信息被用来更新策略。
76.因此，尽管每个小区404部署了rl代理406的一个独立实例，但每个代理406的策略完全相同，并且将根据来自所有rl代理实例408的反馈(测量等)进行对应更新。这是单分布式代理的概念，这意味着部署同一代理406的多个实例408。这使得训练阶段更容易，因为只需要训练单个唯一的策略。
77.应当理解，看待图4中的部署的备选方式是每个rl代理实例408是与其他rl代理406具有相同策略的相应rl代理406，该策略的每个代理的副本随着该策略的训练而更新。
78.由于代理406在小区404中采取的动作(例如，增加或减小小区参数的值)不仅影响该小区404，而且还影响周围(相邻)小区404，因此必须使小区404及其周围小区404可见，以便以正确的方式进行。因此，尽管rl代理406在图4中被示为逻辑地分布在所有小区404中，但从实现的角度来看，最好是在所有小区404报告其状态的集中点中实现所有实例408，该集中点是所有代理实例408都可以访问的。集中点可以在蜂窝网络402的核心网络(cn)部分中，或在蜂窝网络402之外。
79.每个rl代理406/408通过建议小的增量变化来引导小区参数朝向最优全局解决方案，同时根据从rl代理406的所有实例408接收的反馈来对应地更新该单个(共享)策略。
80.小区404的状态通常由连续变量(参数、kpi等)组成或限定，因此不能直接使用表格rl算法。在本文描述的技术中，深度神经网络可以由rl代理406使用，因为它们可以以固有的方式管理连续变量。
81.具有经过适当训练的策略的rl代理406在所实现的长期性能方面可以胜过专家定义的任何代理。为了避免具有其对应的网络退化(如图1所示)的初始策略训练阶段，可以在将策略和rl代理406在实际网络中放置在适当位置之前执行离线的代理初始化阶段。原则可以是部署在性能方面类似于专家训练的代理的代理406，然后允许对其进行训练以尽可能地提高性能。有几种方法可以实现离线的初始化阶段：使用网络模拟器、使用网络数据、以及使用专家系统。这样，迁移学习过程非常简单；当新的小区404被集成到网络402中时，可以使用相同的经过训练的代理406；并且，在全新网络安装的情况下，可以代之以使用离线初始化的代理。
82.本文所述的单分布式rl代理方法可以提供以下优点中的一个或多个。该方法利用了rl代理，因此原则上，它可以胜过基于专家定义的规则的任何代理。该方法在训练的初始阶段不会导致网络退化(因为初始化的rl代理没有部署到网络中)，取而代之的是有用于离线代理初始化的先前阶段。经过离线初始化的代理或经过在线训练的代理很容易迁移到不同的网络或迁移到新的集成小区。因为该方法只需要训练唯一的代理策略，因此降低了训练阶段的复杂性。此外，来自任何代理实例的反馈中的测量/发现立即可用，并被其余实例用于训练该唯一的策略。该方法执行小的增量小区参数变化，这有助于稳定性和收敛性，并能够更好地适应意外的网络变化。由于在各种实施例中使用了深度神经网络，该方法可以在不需要任何适应层的情况下处理连续状态。
83.如上所述，rl是机器学习的一个领域，它关注软件代理应该如何在环境中采取行动以最大化奖励。图5示出了示例性的rl框架，并且更多信息可以在以下文献中找到：“reinforcement learning：an introducti”，sutton、richard s.和andrew g.barto所著，麻省理工学院出版社，2018年。
84.基本强化学习可以被建模为马尔可夫决策过程，包括环境502(在这种情况下，小区404或更广泛的蜂窝网络402)、具有学习模块506的代理504、一组环境和代理状态s、以及代理的一组动作a。在动作a下从状态s转变到状态s
′
的概率由下式给出
85.p(s，a，s
′
)＝pr(s
t+1
＝s
′
|s
t
＝s，a
t
＝a)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
86.并且在以动作a从s转变到s’后的立即奖励由下式给出
87.r(s，a，s
′
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
88.rl代理504以离散时间步长与其环境502交互。在每个时间t处，代理504接收到通常包括奖励r
t
的观察值o
t
。然后，代理504从可用动作集合a中选择动作a
t
，随后将其应用于环境502。环境502移动到新状态s
t+1
，并且确定与转变(s
t
，a
t
，s
t+1
)相关联的奖励r
t+1
。rl代理504的目标是收集尽可能多的奖励。
89.代理对动作的选择被建模为被称作“策略”的映射，由下式给出：
90.π：a
×s→
[0，1]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0091]
π(a，s)＝pr(a
t
＝a|s
t
＝s)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0092]
策略图给出了在状态s中采取行动a的概率。给定状态s、动作a和策略π，在π下的(s，a)对的动作-值被定义为：
[0093]qπ
(s，a)＝e[r|s，a，π]
ꢀꢀꢀꢀꢀꢀꢀ
(5)
[0094]
其中随机变量r表示回报，并被定义为未来折扣奖励的总和
[0095][0096]
其中r
t
是第f步的奖励，并且[0，1]中的γ是折扣率。
[0097]
马尔可夫决策过程理论指出，如果π
*
是最优策略，则通过从(s，
·
)中选择在每个状态s处具有最高值的动作来执行最优动作(即采取最优动作)。这种最优策略的动作-值函数()称为最优动作-值函数，通常用q
*
表示。总之，仅最优动作-值函数的知识就足以知道如何进行最优动作。
[0098]
假设完全了解马尔可夫决策过程，计算最优动作-值函数的两种基本方法是值迭代和策略迭代。两种算法都计算收敛到q
*
的函数序列qk(k＝0、1、2...)。计算这些函数涉及
计算整个状态空间的期望值，这对于除了最小(有限)马尔可夫决策过程之外的所有马尔可夫决策过程都是不切实际的。在rl方法中，通过以下方式来逼近期望值：对样本进行平均，并使用函数逼近技术来处理在大型状态-动作空间上表示值函数的需要。最常用的强化学习方法之一是q-learning。
[0099]
如上所述，本公开的实施例提出了用于复杂网络优化问题的单分布式深度rl代理。复杂的网络优化问题包括以下问题：在单个小区中修改网络参数不仅会影响该特定小区的性能，而且会以不易预先预测的方式影响周围小区的性能。目标是通过修改个体小区参数来实现网络级别的性能目标。在该方法中，同一rl代理以多个实例分布在网络中的小区中(或在某些情况下分布在每个小区中)，并且每个rl代理实例控制其所部署于的特定小区的小区参数。小区参数的一些示例是上面定义的远程电调倾角(ret)和p0 nominal pusch、基站(enb或gnb)的传输功率、以及小区特定参考信号(csrs)增益(针对lte)的情况。
[0100]
为了配置小区参数使得网络优于由执行专家定义的规则的代理配置的网络，本文描述的技术的核心是具有如图5所示框架的rl代理504。rl代理504被部署为单分布式代理，这意味着代理定义是唯一的，即策略是相同的，但蜂窝网络中的每个感兴趣的小区都存在一个代理实例(应该注意，没有必要针对网络中的每个小区部署代理(尽管可以这样做))。这意味着在实际中，虽然有唯一的代理定义，但它是通过来自多个小区的反馈同时访问和训练的。如上所述，这在图4中进行了示出。每个代理实例将通过修改其所部署于的小区中的某个参数来优化该小区。通常，代理可以针对小区参数执行的可能操作是：什么都不做，即不修改小区参数并维持小区参数的当前值；以小的增量步长来增加参数值，即以增量增加小区参数的值；以及以小的增量步长来减小参数值，即以增量减小小区参数的值。
[0101]
在迭代中，小区参数只能通过小的增量步长进行修改，以促进代理学习过程收敛到优化配置。此外，由于代理定义是唯一的，因此只需训练单个策略，这有助于学习过程。此外，这种缓慢的“参数导向”过程可以更好地应对网络中不可控/意外的变化，例如由于大型活动(例如体育赛事或音乐会)，提供的业务临时发生剧烈变化。
[0102]
由于参数改变不仅影响参数改变的感兴趣小区，而且影响一个或多个相邻小区，环境502的状态应该由来自主小区(即感兴趣的小区)以及来自周围/相邻小区的特征/测量组成。通常，这些特征/测量将从小区参数和小区kpi中提取。
[0103]
通过这种方式，单个代理实例必须能够访问来自不同小区的特征/测量。
[0104]
rl过程中的“奖励”应该反映动作(参数变化)在环境(网络)中正在产生的性能改善(正值)或退化(负值)。奖励可以有两种选择。奖励可以是基于所修改的小区及其相邻的小区的性能改善/退化的本地奖励。或者，奖励可以是基于整个网络的性能改善/退化的全局奖励。
[0105]
训练rl代理504包括针对所有可能状态和动作来学习q(s，a)函数。在这种情况下，动作通常是三个(即维持、增加和减小)，但状态由n个连续特征组成，给出了无限数量的可能状态。q的表格函数可能不是该代理最合适的方法。尽管可以包括连续/离散转换器作为第一层，但使用深度神经网络更合适，因为它直接处理连续特征。
[0106]
图6示出了深度神经网络的示例性架构。给定由n个连续特征表示的状态s，神经网络的输出是针对3个可能动作的q值。当以这种方式表达时，问题被简化为回归问题。
[0107]
解决此回归问题的一种方法是q-learning，它包括生成元组(状态、动作、奖励、下
一个状态)＝(s，a，r，s’)并迭代地解决以下监督学习问题：
[0108]
q(s，a)＝r+γmaxa′
q(s
′
，a
′
)
ꢀꢀꢀꢀ
(7)
[0109]
可以以任何方式选择生成元组的操作，但非常常见的方法是使用所谓的“epsilon-greedy策略”，其中[0，1]范围内的超参数epsilon(ε)控制探索(随机地选择动作)和利用(选择最优动作，即argmaxaq(s，a))之间的平衡。
[0110]
q-learning是rl中众所周知的算法，但这里也可以使用其他可用的方法，例如state-action-reward-state-action(sarsa)、预期值(expected value)sarsa(ev-sarsa)、增强基线(reinforce baseline)和actor-critic。
[0111]
如所指出的，代理504作用于单个小区(即改变其参数值)，但是这种改变会影响更多小区的性能。因此，代理实例504观察到的奖励不仅取决于该代理504所采取的动作，而且还取决于其他代理504同时对不同小区的动作。这是在标准rl问题中不存在的待解决问题。
[0112]
在本公开中，该问题通过训练唯一的策略来解决，在每个训练步骤中，采用一批样本/测量；其中每个样本/测量是代理实例504与其小区交互的结果。使用这种方法，训练收敛到单个策略，该策略是网络中所有代理的最优通用策略。
[0113]
训练rl代理时出现的另一个问题是因为初始代理策略可能只是随机策略，因此在训练阶段开始时性能不佳。在本公开中，为了克服这个问题，在某些实施例中，包括代理预初始化阶段。这样，代理在网络中部署时的性能可以像任何专家系统一样。该离线预初始化有三个不同的选项。第一个选项是使用网络模拟器进行初始训练，其中网络退化不会生成任何真正的负面影响。第二个选项是使用监督学习并训练代理使其动作方式与专家系统相同或相似。第三个选项是从网络中获取数据，其中，小区参数为了某种目的已被极大修改。通过这种方式，使用离线rl方法(其中，用于探索环境的策略不必与学习中的策略(q-learning或ev-sarsa)相同)，可以训练实现最优策略的代理。
[0114]
图7是示出了根据一些实施例的用于rl代理策略的示例性训练过程的流程图。框702表示具有随机策略的rl代理的状态。该随机代理702进入预初始化阶段704，其中代理702被离线训练(即与实际网络分离)。预初始化704可以使用网络模拟器706(第一种方法)、网络数据708(第三种方法)和现有的专家系统710(第二种方法)中的任何一个方法。这会形成部署在网络中的经过预初始化的代理712。因此，经过预初始化的代理712的实例被部署在网络中的每个感兴趣的小区(或所有小区)中。然后使用网络来训练所部署的代理/实例(框714)，以产生具有优化策略的代理(最优代理716)。
[0115]
如果代理已经部署在网络中并且新小区被集成或添加到网络中，则创建已训练代理的新实例以管理新小区中的小区参数。因此，使用这些技术，迁移学习过程非常简单。
[0116]
图8示出了可以部署和训练示例性rl代理策略的网络环境，并且图9示出了两张图，该两张图示出了在训练rl代理策略期间网络中的性能改善。
[0117]
图8示出了网络802，该网络包括多个(在本例中为19个)基站804。每个基站804限定或控制一个或多个(定向)小区806(图8中每个基站804具有三个小区806)。在该示例中，仅网络802的中心的7个站点/基站804中的小区806(阴影小区)由rl代理的实例主动管理。外层的12个站点/基站804(非阴影小区)不由rl代理的实例主动管理。然而，为了训练和优化，测量整个(全局)网络的性能，因此考虑了19个站点的整个集合。
[0118]
如在图4中，小区804、806以均匀分布来安排，但应当理解，在实际中相邻单元之间
将存在重叠和/或间隙。
[0119]
在图8和图9的示例中，要由代理优化的小区参数为ret，蜂窝网络802由lte静态模拟器表示，rl方法为q-learning，奖励为全局奖励，并且策略是epsilon-greedy策略，其中epsilon在开始时关注随机性，最后关注贪心(最优)。
[0120]
训练阶段(图7中的步骤702至712)通过运行连续回合(episode)来执行，其中，回合是针对特定网络配置(即，根据小区部署等)执行的。回合开始于网络集群的初始化，所有小区中的随机ret值在[0，10]度范围内。在每个训练步骤中，每个代理实例为相应小区的可优化参数选择一个动作(无动作、小增加或小减小)，并且来自该小区和相邻小区的反馈/测量被用于神经网络的训练(在单个训练步骤中)。可以执行步骤，直到回合收敛并且每个代理为所有小区选择“无”动作。或者，可以执行步骤，直到达到最大步骤数。在任何一种情况下，此时的回合都被认为是完整的，并且从头创建新的回合(网络配置)，以便继续训练阶段。因此，回合可以被视为简化的网络优化活动。当从一个回合移动到下一个回合时，代理内的学习(即经过训练的策略)会被保留。
[0121]
对于环境和代理状态，获得的特征/测量可以如“self-tuning of remote electrical tilts based on call traces for coverage and capacity optimization in lte”中所述。特别是，测量可能与以下相关：当其他小区服务的用户报告来自小区x的信号水平接近于来自其服务小区的信号水平时，在小区x中发生的“小区过冲”；当以与服务小区的参考信号接收功率(rsrp)水平接近的rsrp水平接收到相邻小区时，且当服务小区的rsrp水平非常高时，发生的“无用的高水平小区重叠”；以及作为建议指标，旨在检测小区边缘处缺乏覆盖的情况的“不良覆盖”。
[0122]
除了前面的指标外，状态中还包括其他配置参数，如频率、站点间距离或天线高度。
[0123]
奖励基于整个网络802中被“良好”服务的业务量的改善(正值)或退化(负值)。如果rsrp高于阈值且dl sinr高于单独的阈值，则业务被视为“良好”。两个阈值都被视为超参数。同样，如果rsrp低于阈值或dl sinr低于单独的阈值，则业务被视为“不良”。
[0124]
训练结果可以在图9中观察到。执行了1500个训练步骤，其中运行了87个完整回合。上面的图示出了“良好”业务的百分比改善，并且底部的图示出了“不良”业务的百分比改善(与不良业务的减小相对应)。每个图中的单个点表示特定回合开始与结束之间的良好/不良业务的改善。值得注意的是，在前几个回合中因为代理是随机初始化的，代理/策略表现出非常糟糕的性能，甚至导致网络退化。在几个回合中，代理开始学习/接受训练，最后，在后面的回合中，代理非常接近最优策略。良好业务平均每个回合改善大约5％，并且不良业务平均每个回合改善大约20％。
[0125]
因此，提出了使用单个深度rl代理的多个分布式实例来解决蜂窝网络优化问题，其中修改小区中的参数不仅会影响该小区的性能，还会影响所有周围小区的性能。
[0126]
在每个训练步骤中，在小区中执行相同代理(相同策略)的实例，提供足够的反馈来创建一个批次，在该批次上，包含在代理中的深度神经网络将被迭代优化(在单步中)。这样，由于训练了唯一且通用的策略，因此促进了学习收敛。
[0127]
限定单个代理，但使用该代理的作用于不同小区的多个分布式实例(考虑这些小区及其周围小区的状态)，使得迁移学习(将代理应用于新小区)的过程相对简单。
[0128]
最后，在一些实施例中，可以使用代理的预初始化阶段，目的是避免在rl中典型的初始学习阶段，在该初始学习阶段中代理提供较差的性能，如果直接应用于实况网络，则会导致显著的网络退化。
[0129]
图10中的流程图示出了根据各种实施例的用于训练供通信网络中的rl代理使用的策略的方法。rl代理用于根据策略来优化通信网络的相应小区中的一个或多个小区参数。图10中所示的示例性方法和/或过程可以由作为通信网络的一部分或与通信网络相关联的rl代理或网络节点执行，诸如本文参考其他附图所描述的。尽管示例性方法和/或过程在图10中以特定顺序的框来说明，但是该顺序是示例性的，与框相对应的操作可以以不同的顺序执行，并且可以组合和/或划分为具有与图10所示不同的功能的框和/或操作。此外，图10中所示的示例性方法和/或过程可以与本文公开的其他示例性方法和/或过程互补，使得它们能够协同使用以提供上述问题的益处、优点和/或解决方面。
[0130]
示例性方法和/或过程可以包括框1001的操作，在该操作中为通信网络中的多个小区中的每一个小区部署相应的rl代理。该多个小区包括彼此相邻的小区。每个相应的rl代理都具有策略的第一次迭代。在一些实施例中，每个相应的rl代理是单个rl代理的相应实例。在备选实施例中，步骤1001包括为该多个小区中的每一个小区部署相应的单独的rl代理，每个单独的rl代理具有策略的该第一次迭代的相应副本。在一些实施例中，每个rl代理或rl代理实例可以部署在每个小区中(或在每个小区中的相应的基站中)，但是在优选实施例中，每个rl代理或rl代理实例被部署在网络中的集中节点中或部署在网络外部。
[0131]
示例性方法和/或过程可以包括框1003的操作，其中每个所部署的rl代理根据策略的第一次迭代操作，以调整或维持相应小区中的一个或多个小区参数。
[0132]
示例性方法和/或过程可以包括框1005的操作，其中接收与该多个小区中的每一个小区的操作相关的测量。
[0133]
示例性方法和/或过程可以包括框1007的操作，其中可以基于所接收的与该多个小区中的每一个小区的操作相关的测量来确定策略的第二次迭代。
[0134]
一些示例性实施例还可以包括使用策略的第二次迭代来重复步骤1003。也就是说，根据策略的第二次迭代来操作每个所部署的rl代理，以进一步调整或维持相应小区中的该一个或多个小区参数。
[0135]
在一些实施例中，该方法还可以包括重复步骤1005和1007以确定策略的第三次迭代。即，在进一步调整该一个或多个小区参数之后接收与该多个小区中的每一个小区的操作相关的测量，并且基于所接收的与该多个小区中的每一个小区的操作相关的测量来确定策略的第三次迭代。
[0136]
在一些实施例中，该方法通常还可以包括重复步骤1003、1005和1007以确定策略的进一步迭代。
[0137]
在一些实施例中，步骤1003、1005和1007被重复预定次数。在备选实施例中，重复步骤1003、1005和1007，直到在步骤1003发生时，每个所部署的rl代理都维持相应小区中的该一个或多个小区参数。在其他替代实施例中，重复步骤1003、1005和1007，直到在步骤1003发生时，预定数量或预定比例的所部署的rl代理维持相应小区中的该一个或多个小区参数。在其他替代实施例中，重复步骤1003、1005和1007，直到在步骤1003发生时，预定数量或预定比例的所部署的rl代理逆转对相应小区中的该一个或多个小区参数的调整。该最后
的替代方案涉及以下情况：特定rl代理在步骤1003的一次发生中增加小区参数，在步骤1003的下一次发生中将小区参数减小相同的量，并且然后在下一次发生中再次增加小区参数。实际上，rl代理正在围绕在实际中不可选择的“理想”值来回变化小区参数；并且当足够数量的rl代理处于这种“来回变化”状态时，可以停止策略的训练。
[0138]
在一些实施例中，策略的第二次(和进一步的)迭代是使用rl技术确定的。例如，策略的第二次(和进一步)迭代是使用深度神经网络确定的。
[0139]
在一些实施例中，步骤1007包括确定策略的第二次迭代以增加与相应小区和相邻于相应小区的一个或多个小区的性能相关的本地奖励。在替代实施例中，步骤1007包括确定策略的第二次迭代以增加与通信网络的性能相关的全局奖励。
[0140]
在一些实施例中，步骤1003包括以下之一：对于该一个或多个小区参数中的每一个小区参数，维持小区参数的值，增加小区参数的值，以及减小小区参数的值。
[0141]
在一些实施例中，该一个或多个小区参数与到小区中的无线设备的下行链路传输相关。在一些实施例中，该一个或多个小区参数包括用于小区的天线的天线倾角。
[0142]
在一些实施例中，该一个或多个小区参数与来自小区中的无线设备的上行链路传输相关。在一些实施例中，该一个或多个小区参数包括预期用于上行链路传输的目标功率水平。
[0143]
在一些实施例中，步骤1005包括接收与该多个小区中的上行链路传输相关的测量。在一些实施例中，步骤1005包括(或还包括)接收与该多个小区中的下行链路传输相关的测量。
[0144]
在一些实施例中，步骤1005包括接收与相邻于该多个小区中的任何小区的一个或多个其他小区的操作相关的测量。这些其他小区是(或是其中)未部署rl代理的小区。
[0145]
如所指出的，图10中所示的示例性方法和/或过程可以由作为通信网络的一部分或与通信网络相关联的rl代理或网络节点执行。本公开的实施例提供了一种网络节点或rl代理，其被配置为执行图10中的方法或本公开中呈现的方法的任何实施例。本公开的其他实施例提供包括处理器和存储器(例如图2中的处理电路270和设备可读介质280或者图3中的处理电路360和存储器390-1)的网络节点或rl代理，其中存储器包含可由处理器执行的指令，使得网络节点或rl代理用于执行图10中的方法或本公开中呈现的该方法的任何实施例。
[0146]
如本文所述，诸如rl代理或网络节点的设备或装置可以由半导体芯片、芯片组或包括这种芯片或芯片组的(硬件)模块来表示；然而，这不排除被硬件实现的设备或装置的功能被实现为软件模块(诸如计算机程序或计算机程序产品，包括用于在处理器上执行或运行的可执行软件代码部分)的可能性。此外，设备或装置的功能可以通过硬件和软件的任何组合来实现。设备或装置也可以被视为多个设备和/或装置的组合，无论它们在功能上相互协作还是相互独立。此外，只要保留了设备或装置的功能，就可以在整个系统中以分布式方式实现该设备和装置。这样的原理和类似的原理被认为是技术人员已知的。
[0147]
尽管本文使用术语“小区”，但是应该理解，(特别是对于5g nr而言)可以使用波束代替小区，并且因此，本文所述的概念同样适用于小区和波束两者。因此，此处使用的“小区”或“多个小区”应被理解为适当地指代小区或波束。
[0148]
以上仅说明本发明的原理。鉴于本文的教导，对所描述的实施例的各种修改和变
更对于本领域技术人员将是显而易见的。因此应当理解，本领域的技术人员将能够设计出许多系统、布置和过程，尽管在此没有明确地示出或描述，但它们体现了本公开的原理并且因此可以在本公开的范围内。如本领域普通技术人员应当理解的，各种示例性实施例可以彼此一起使用，也可以互换使用。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：阿德里亚诺
技术所有人：瑞典爱立信有限公司
我是此专利的发明人

上一篇：一种防撞梁的激光切割方法与流程
上一篇：一种LF精炼渣回收利用工艺及其应用

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。