示例和非限制性实施例总体上涉及通信,并且更具体地涉及用于son参数优化的强化学习。
背景技术:
1、已知在通信网络中实现无线电资源管理(rrm)。
技术实现思路
1、根据一个方面,一种方法包括从通信网络中的至少一个小区接收通信网络的至少一个网络性能指示符;基于至少一个网络性能指示符来确定网络中的至少一个小区的奖励;以及部分地基于所确定的奖励来确定是否应当修改网络中的至少一个小区的至少一个自组织网络参数以改变至少一个网络性能指示符或奖励的平均值。
2、根据一个方面,一种装置包括至少一个处理器;以及包括计算机程序代码的至少一个非暂态存储器;其中该至少一个存储器和计算机程序代码被配置为与该至少一个处理器一起引起该装置至少:从通信网络中的至少一个小区接收通信网络的至少一个网络性能指示符;基于至少一个网络性能指示符来确定网络中的至少一个小区的奖励;以及部分地基于所确定的奖励来确定是否应当修改网络中的至少一个小区的至少一个自组织网络参数以改变至少一个网络性能指示符或奖励的平均值。
3、根据一个方面,一种装置包括用于从通信网络中的至少一个小区接收通信网络的至少一个网络性能指示符的部件;用于基于至少一个网络性能指示符来确定网络中的至少一个小区的奖励的部件;以及用于部分地基于所确定的奖励来确定是否应当修改网络中的至少一个小区的至少一个自组织网络参数以改变至少一个网络性能指示符或奖励的平均值的部件。
4、根据一个方面,提供了一种由机器可读取的非暂态程序存储设备,该非暂态程序存储设备有形地体现由机器可执行的用于执行操作的指令程序,该操作包括:从通信网络中的至少一个小区接收通信网络的至少一个网络性能指示符;基于至少一个网络性能指示符来确定网络中的至少一个小区的奖励;以及部分地基于所确定的奖励来确定是否应当修改网络中的至少一个小区的至少一个自组织网络参数以改变至少一个网络性能指示符或奖励的平均值。
1.一种方法,包括:
2.根据权利要求1所述的方法,其中所述至少一个自组织网络参数与以下中的至少一项相关:
3.根据权利要求2所述的方法,其中所述至少一个天线是所述网络中的基站的至少一个天线。
4.根据权利要求1至3中任一项所述的方法,还包括:
5.根据权利要求1至4中任一项所述的方法,还包括:
6.根据权利要求5所述的方法,其中所述至少一个自组织网络参数是所述网络中的至少一个天线的倾斜。
7.根据权利要求5至6中任一项所述的方法,其中所述最佳物理资源块利用率通过估计所述至少一个小区的物理资源块利用率的多个离散量化水平的所述奖励而被确定。
8.根据权利要求1至7中任一项所述的方法,还包括:
9.根据权利要求8所述的方法,其中确定所述状态包括:
10.根据权利要求8至9中任一项所述的方法,还包括:
11.根据权利要求10所述的方法,其中所述至少一个自组织网络参数是所述网络中的至少一个天线的倾斜,并且所述一组可能值是一组可能天线倾斜。
12.根据权利要求8至11中任一项所述的方法,还包括:
13.根据权利要求12所述的方法,其中所述至少一个自组织网络参数是所述网络中的至少一个天线的倾斜,并且所述一组可能值是一组可能天线倾斜。
14.根据权利要求12至13中任一项所述的方法,还包括:
15.根据权利要求1至14中任一项所述的方法,其中所述奖励被计算为:针对所述至少一个小区而确定的所述奖励和针对与所述至少一个小区相邻的至少一个小区而确定的至少一个其他奖励的加权平均。
16.根据权利要求1至15中任一项所述的方法,其中所述奖励利用至少一个初始化值而被确定。
17.根据权利要求16所述的方法,还包括:
18.根据权利要求1至17中任一项所述的方法,还包括:
19.根据权利要求1至18中任一项所述的方法,还包括:
20.根据权利要求19所述的方法,还包括:
21.根据权利要求1至20中任一项所述的方法,还包括:
22.根据权利要求21所述的方法,还包括:
23.根据权利要求21至22中任一项所述的方法,其中所述平均奖励表是q表。
24.根据权利要求1至23中任一项所述的方法,在自组织网络节点、开放式无线电接入网节点、或无线电接入网节点内实现,所述无线电接入网节点是基站。
25.根据权利要求1至24中任一项所述的方法,其中是否修改所述至少一个自组织网络参数的所述确定基于领域定向探索、利用领域定向探索的强化学习、或利用领域定向探索的深度强化学习。
26.根据权利要求1至25中任一项所述的方法,其中是否修改所述网络中的所述至少一个小区内的所述至少一个自组织网络参数的所述确定针对所述网络内的多个小区被执行,并且所述奖励分别针对所述网络内的所述多个小区而被计算。
27.根据权利要求1至26中任一项所述的方法,其中所述网络的所述至少一个网络性能指示符在时间间隔期间被接收,并且所述奖励至少基于在所述时间间隔内对所述至少一个网络性能指示符求平均而被确定。
28.根据权利要求1至27中任一项所述的方法,其中所述至少一个自组织网络参数被修改,以调节所述至少一个小区与所述网络中的至少一个其他小区之间的负载。
29.根据权利要求1至28中任一项所述的方法,其中所述奖励使用至少一个阈值化网络性能指示符而被确定,所述至少一个阈值化网络性能指示符被配置为:当所述至少一个网络性能指示符属于定义范围时,向至少一个状态提供更大奖励,所述定义范围是可配置的。
30.根据权利要求29所述的方法,其中所述至少一个阈值化网络性能指示符是阈值化物理资源块利用率,并且所述至少一个网络性能指示符是物理资源块利用率。
31.根据权利要求1至30中任一项所述的方法,其中所述奖励被确定为:所述至少一个网络性能指示符和另一网络性能指示符的加权组合。
32.根据权利要求31所述的方法,其中所述至少一个网络性能指示符是所述网络的下载吞吐量,并且所述另一网络性能指示符是所述网络的物理资源块利用率。
33.根据权利要求10至32中任一项所述的方法,还包括:
34.根据权利要求12至33中任一项所述的方法,还包括:
35.根据权利要求1至34中任一项所述的方法,其中是否修改所述网络中的所述至少一个小区内的所述至少一个自组织网络参数的所述确定使用强化学习或q学习来执行。
36.一种装置,包括:
37.根据权利要求36所述的装置,其中所述至少一个自组织网络参数与以下中的至少一项相关:
38.根据权利要求37所述的装置,其中所述至少一个天线是所述网络中的基站的至少一个天线。
39.根据权利要求36至38中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
40.根据权利要求36至39中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
41.根据权利要求40所述的装置,其中所述至少一个自组织网络参数是所述网络中的至少一个天线的倾斜。
42.根据权利要求40至41中任一项所述的装置,其中所述最佳物理资源块利用率通过估计所述至少一个小区的物理资源块利用率的多个离散量化水平的所述奖励而被确定。
43.根据权利要求36至42中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
44.根据权利要求43所述的装置,其中确定所述状态包括:
45.根据权利要求43至44中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
46.根据权利要求45所述的装置,其中所述至少一个自组织网络参数是所述网络中的至少一个天线的倾斜,并且所述一组可能值是一组可能天线倾斜。
47.根据权利要求43至46中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
48.根据权利要求47所述的装置,其中所述至少一个自组织网络参数是所述网络中的至少一个天线的倾斜,并且所述一组可能值是一组可能天线倾斜。
49.根据权利要求47至48中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
50.根据权利要求36至49中任一项所述的装置,其中所述奖励被计算为:针对所述至少一个小区而确定的所述奖励和针对与所述至少一个小区相邻的至少一个小区而确定的至少一个其他奖励的加权平均。
51.根据权利要求36至50中任一项所述的装置,其中所述奖励利用至少一个初始化值而被确定。
52.根据权利要求51所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
53.根据权利要求36至52中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
54.根据权利要求36至53中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
55.根据权利要求54所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
56.根据权利要求36至55中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
57.根据权利要求56所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
58.根据权利要求56至57中任一项所述的装置,其中所述平均奖励表是q表。
59.根据权利要求36至58中任一项所述的装置,在自组织网络节点、开放式无线电接入网节点、或无线电接入网节点内实现,所述无线电接入网节点是基站。
60.根据权利要求36至59中任一项所述的装置,其中是否修改所述至少一个自组织网络参数的所述确定基于领域定向探索、利用领域定向探索的强化学习、或利用领域定向探索的深度强化学习。
61.根据权利要求36至60中任一项所述的装置,其中是否修改所述网络中的所述至少一个小区内的所述至少一个自组织网络参数的所述确定针对所述网络内的多个小区被执行,并且所述奖励分别针对所述网络内的所述多个小区而被计算。
62.根据权利要求36至61中任一项所述的装置,其中所述网络的所述至少一个网络性能指示符在时间间隔期间被接收,并且所述奖励至少基于在所述时间间隔内对所述至少一个网络性能指示符求平均而被确定。
63.根据权利要求36至62中任一项所述的装置,其中所述至少一个自组织网络参数被修改,以调节所述至少一个小区与所述网络中的至少一个其他小区之间的负载。
64.根据权利要求36至63中任一项所述的装置,其中所述奖励使用至少一个阈值化网络性能指示符而被确定,所述至少一个阈值化网络性能指示符被配置为:当所述至少一个网络性能指示符属于定义范围时,向至少一个状态提供更大奖励,所述定义范围是可配置的。
65.根据权利要求64所述的装置,其中所述至少一个阈值化网络性能指示符是阈值化物理资源块利用率,并且所述至少一个网络性能指示符是物理资源块利用率。
66.根据权利要求36至65中任一项所述的装置,其中所述奖励被确定为:所述至少一个网络性能指示符和另一网络性能指示符的加权组合。
67.根据权利要求66所述的装置,其中所述至少一个网络性能指示符是所述网络的下载吞吐量,并且所述另一网络性能指示符是所述网络的物理资源块利用率。
68.根据权利要求45至67中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
69.根据权利要求47至68中任一项所述的装置,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起引起所述装置至少:
70.根据权利要求36至69中任一项所述的装置,其中是否修改所述网络中的所述至少一个小区内的所述至少一个自组织网络参数的所述确定使用强化学习或q学习来执行。
71.一种装置,包括:
72.根据权利要求71所述的装置,其中所述至少一个自组织网络参数与以下中的至少一项相关:
73.根据权利要求72所述的装置,其中所述至少一个天线是所述网络中的基站的至少一个天线。
74.根据权利要求71至73中任一项所述的装置,还包括:
75.根据权利要求71至74中任一项所述的装置,还包括:
76.根据权利要求75所述的装置,其中所述至少一个自组织网络参数是所述网络中的至少一个天线的倾斜。
77.根据权利要求75至76中任一项所述的装置,其中所述最佳物理资源块利用率通过估计所述至少一个小区的物理资源块利用率的多个离散量化水平的所述奖励而被确定。
78.根据权利要求71至77中任一项所述的装置,还包括:
79.根据权利要求78所述的装置,其中确定所述状态包括:
80.根据权利要求78至79中任一项所述的装置,还包括:
81.根据权利要求80所述的装置,其中所述至少一个自组织网络参数是所述网络中的至少一个天线的倾斜,并且所述一组可能值是一组可能天线倾斜。
82.根据权利要求78至81中任一项所述的装置,还包括:
83.根据权利要求82所述的装置,其中所述至少一个自组织网络参数是所述网络中的至少一个天线的倾斜,并且所述一组可能值是一组可能天线倾斜。
84.根据权利要求82至83中任一项所述的装置,还包括:
85.根据权利要求71至84中任一项所述的装置,其中所述奖励被计算为:针对所述至少一个小区而确定的所述奖励和针对与所述至少一个小区相邻的至少一个小区而确定的至少一个其他奖励的加权平均。
86.根据权利要求71至85中任一项所述的装置,其中所述奖励利用至少一个初始化值而被确定。
87.根据权利要求86所述的装置,还包括:
88.根据权利要求71至87中任一项所述的装置,还包括:
89.根据权利要求71至88中任一项所述的装置,还包括:
90.根据权利要求89所述的装置,还包括:
91.根据权利要求71至90中任一项所述的装置,还包括:
92.根据权利要求91所述的装置,还包括:
93.根据权利要求91至92中任一项所述的装置,其中所述平均奖励表是q表。
94.根据权利要求71至93中任一项所述的装置,在自组织网络节点、开放式无线电接入网节点、或无线电接入网节点内实现,所述无线电接入网节点是基站。
95.根据权利要求71至94中任一项所述的装置,其中是否修改所述至少一个自组织网络参数的所述确定基于领域定向探索、利用领域定向探索的强化学习、或利用领域定向探索的深度强化学习。
96.根据权利要求71至95中任一项所述的装置,其中是否修改所述网络中的所述至少一个小区内的所述至少一个自组织网络参数的所述确定针对所述网络内的多个小区被执行,并且所述奖励分别针对所述网络内的所述多个小区而被计算。
97.根据权利要求71至96中任一项所述的装置,其中所述网络的所述至少一个网络性能指示符在时间间隔期间被接收,并且所述奖励至少基于在所述时间间隔内对所述至少一个网络性能指示符求平均而被确定。
98.根据权利要求71至97中任一项所述的装置,其中所述至少一个自组织网络参数被修改,以调节所述至少一个小区与所述网络中的至少一个其他小区之间的负载。
99.根据权利要求71至98中任一项所述的装置,其中所述奖励使用至少一个阈值化网络性能指示符而被确定,所述至少一个阈值化网络性能指示符被配置为:当所述至少一个网络性能指示符属于定义范围时,向至少一个状态提供更大奖励,所述定义范围是可配置的。
100.根据权利要求99所述的装置,其中所述至少一个阈值化网络性能指示符是阈值化物理资源块利用率,并且所述至少一个网络性能指示符是物理资源块利用率。
101.根据权利要求71至100中任一项所述的装置,其中所述奖励被确定为:所述至少一个网络性能指示符和另一网络性能指示符的加权组合。
102.根据权利要求101所述的装置,其中所述至少一个网络性能指示符是所述网络的下载吞吐量,并且所述另一网络性能指示符是所述网络的物理资源块利用率。
103.根据权利要求80至102中任一项所述的装置,还包括:
104.根据权利要求82至103中任一项所述的装置,还包括:
105.根据权利要求71至104中任一项所述的装置,其中是否修改所述网络中的所述至少一个小区内的所述至少一个自组织网络参数的所述确定使用强化学习或q学习来执行。
106.一种由机器可读取的非暂态程序存储设备,有形地体现由所述机器可执行的用于执行操作的指令的程序,所述操作包括:
107.根据权利要求106所述的非暂态程序存储设备,其中所述至少一个自组织网络参数与以下中的至少一项相关:
108.根据权利要求107所述的非暂态程序存储设备,其中所述至少一个天线是所述网络中的基站的至少一个天线。
109.根据权利要求106至108中任一项所述的非暂态程序存储设备,所述操作还包括:
110.根据权利要求106至109中任一项所述的非暂态程序存储设备,所述操作还包括:
111.根据权利要求110所述的非暂态程序存储设备,其中所述至少一个自组织网络参数是所述网络中的至少一个天线的倾斜。
112.根据权利要求110至111中任一项所述的非暂态程序存储设备,其中所述最佳物理资源块利用率通过估计所述至少一个小区的物理资源块利用率的多个离散量化水平的所述奖励而被确定。
113.根据权利要求106至112中任一项所述的非暂态程序存储设备,所述操作还包括:
114.根据权利要求113所述的非暂态程序存储设备,其中确定所述状态包括:
115.根据权利要求113至114中任一项所述的非暂态程序存储设备,所述操作还包括:
116.根据权利要求115所述的非暂态程序存储设备,其中所述至少一个自组织网络参数是所述网络中的至少一个天线的倾斜,并且所述一组可能值是一组可能天线倾斜。
117.根据权利要求113至116中任一项所述的非暂态程序存储设备,所述操作还包括:
118.根据权利要求117所述的非暂态程序存储设备,其中所述至少一个自组织网络参数是所述网络中的至少一个天线的倾斜,并且所述一组可能值是一组可能天线倾斜。
119.根据权利要求117至118中任一项所述的非暂态程序存储设备,所述操作还包括:
120.根据权利要求106至119中任一项所述的非暂态程序存储设备,其中所述奖励被计算为:针对所述至少一个小区而确定的所述奖励和针对与所述至少一个小区相邻的至少一个小区而确定的至少一个其他奖励的加权平均。
121.根据权利要求106至120中任一项所述的非暂态程序存储设备,其中所述奖励利用至少一个初始化值而被确定。
122.根据权利要求121所述的非暂态程序存储设备,所述操作还包括:
123.根据权利要求106至122中任一项所述的非暂态程序存储设备,所述操作还包括:
124.根据权利要求106至123中任一项所述的非暂态程序存储设备,所述操作还包括:
125.根据权利要求124所述的非暂态程序存储设备,所述操作还包括:
126.根据权利要求106至125中任一项所述的非暂态程序存储设备,所述操作还包括:
127.根据权利要求126所述的非暂态程序存储设备,所述操作还包括:
128.根据权利要求126至127中任一项所述的非暂态程序存储设备,其中所述平均奖励表是q表。
129.根据权利要求106至128中任一项所述的非暂态程序存储设备,在自组织网络节点、开放式无线电接入网节点、或无线电接入网节点内实现,所述无线电接入网节点是基站。
130.根据权利要求106至129中任一项所述的非暂态程序存储设备,其中是否修改所述至少一个自组织网络参数的所述确定基于领域定向探索、利用领域定向探索的强化学习、或利用领域定向探索的深度强化学习。
131.根据权利要求106至130中任一项所述的非暂态程序存储设备,其中是否修改所述网络中的所述至少一个小区内的所述至少一个自组织网络参数的所述确定针对所述网络内的多个小区被执行,并且所述奖励分别针对所述网络内的所述多个小区而被计算。
132.根据权利要求106至131中任一项所述的非暂态程序存储设备,其中所述网络的所述至少一个网络性能指示符在时间间隔期间被接收,并且所述奖励至少基于在所述时间间隔内对所述至少一个网络性能指示符求平均而被确定。
133.根据权利要求106至132中任一项所述的非暂态程序存储设备,其中所述至少一个自组织网络参数被修改,以调节所述至少一个小区与所述网络中的至少一个其他小区之间的负载。
134.根据权利要求106至133中任一项所述的非暂态程序存储设备,其中所述奖励使用至少一个阈值化网络性能指示符而被确定,所述至少一个阈值化网络性能指示符被配置为:当所述至少一个网络性能指示符属于定义范围时,向至少一个状态提供更大奖励,所述定义范围是可配置的。
135.根据权利要求134所述的非暂态程序存储设备,其中所述至少一个阈值化网络性能指示符是阈值化物理资源块利用率,并且所述至少一个网络性能指示符是物理资源块利用率。
136.根据权利要求106至135中任一项所述的非暂态程序存储设备,其中所述奖励被确定为:所述至少一个网络性能指示符和另一网络性能指示符的加权组合。
137.根据权利要求136所述的非暂态程序存储设备,其中所述至少一个网络性能指示符是所述网络的下载吞吐量,并且所述另一网络性能指示符是所述网络的物理资源块利用率。
138.根据权利要求115至137中任一项所述的非暂态程序存储设备,所述操作还包括:
139.根据权利要求117至138中任一项所述的非暂态程序存储设备,所述操作还包括:
140.根据权利要求106至139中任一项所述的非暂态程序存储设备,其中是否修改所述网络中的所述至少一个小区内的所述至少一个自组织网络参数的所述确定使用强化学习或q学习来执行。