本技术涉及通信,尤其涉及一种信息处理方法、装置、设备及可读存储介质。
背景技术:
1、现有的5g架构中引入和中央单元(central unit,cu)、du(distributed unit,分布式单元)以及一体化架构的基站。在现网部署中,由于频点越来越高,小区的覆盖范围越来越小,因此,超密集组网以及多频段立体组网是现在用的常用的方式。而这些带来的直接问题就是多连接的链路管路和网络切换的频繁,带来了大量的信令开销。
技术实现思路
1、本技术实施例提供一种信息处理方法、装置、设备及可读存储介质,以节约信令开销。
2、第一方面,本技术实施例提供了一种信息处理方法,应用于第一网络设备,包括:
3、接收终端上报的第一信息,其中,所述第一信息包括所述终端对至少一个小区的测量信息;
4、根据所述第一信息以及多智能体强化学习算法,确定所述终端对应的资源分配和链路选择策略。
5、其中,所述多智能体强化学习算法包括模型参数,所述模型参数是从中心数据设备获取的,所述中心数据设备对模型进行集中训练后得到所述模型参数。
6、其中,所述接收终端上报的第一信息,包括:
7、接收所述终端通过mac(medium access control,媒体接入控制)ce(controlelement,控制单元)上报的第一信息。
8、其中,所述mac ce包括:测量上报指示信息以及小区的信道信息;所述小区的信道信息包括小区标识以及以下一项或者多项:
9、小区的平均速率,吞吐量,信道质量。
10、其中,所述根据所述第一信息以及多智能体强化学习算法,确定所述终端对应的资源分配和链路选择策略,包括:
11、基于所述多智能体强化学习算法与所述终端对应的其他网络设备进行协商,确定为所述终端确定对应的资源分配和链路选择策略的网络设备;
12、当由所述第一网络设备确定所述终端对应的资源分配和链路选择策略时,利用所述多智能体强化学习算法对所述第一信息进行学习,确定所述终端对应的资源分配和链路选择策略。
13、其中,所述根据所述第一信息以及多智能体强化学习算法,确定所述终端对应的资源分配和链路选择策略,包括:
14、与所述终端对应的其他网络设备联合形成候选资源集;
15、利用所述多智能体强化学习算法对所述第一信息进行学习,基于所述候选资源集确定所述终端对应的资源分配和链路选择策略;其中,所述其他网络设备确定的所述终端对应的资源分配和链路选择策略与所述第一网络设备确定的所述终端对应的资源分配和链路选择策略一致。
16、其中,所述方法还包括以下一项或者多项:
17、当需要向其他小区转移负载时,利用所述多智能体强化学习算法确定第二网络设备,其中,所述第一网络设备向所述第二网络设备进行负载转移;
18、当需要接收其他小区转移的负载时,接收其他网络设备转移的负载,其中,所述第一网络设备利用所述多智能体强化学习算法确定需要接收其他网络设备转移的负载。
19、第二方面,本技术实施例提供了一种信息处理方法,应用于终端,包括:
20、上报第一信息,其中,所述第一信息包括所述终端对至少一个小区的测量信息;
21、基于网络设备的调度进行数据传输;
22、其中,所述网络设备根据所述第一信息以及多智能体强化学习算法,确定所述终端对应的资源分配和链路选择策略。
23、其中,所述多智能体强化学习算法包括模型参数,所述模型参数是从中心数据设备获取的,所述中心数据设备对模型进行集中训练后得到所述模型参数。
24、其中,所述上报第一信息包括:
25、通过mac ce上报所述第一信息。
26、其中,所述mac ce包括:测量上报指示信息以及小区的信道信息;所述小区的信道信息包括小区标识以及以下一项或者多项:
27、小区的平均速率,吞吐量,信道质量。
28、第三方面,本技术实施例提供了一种信息处理装置,应用于第一网络设备,包括:
29、第一接收模块,用于接收终端上报的第一信息,其中,所述第一信息包括所述终端对至少一个小区的测量信息;
30、第一处理模块,用于根据所述第一信息以及多智能体强化学习算法,确定所述终端对应的资源分配和链路选择策略。
31、其中,所述多智能体强化学习算法包括模型参数,所述模型参数是从中心数据设备获取的,所述中心数据设备对模型进行集中训练后得到所述模型参数。
32、其中,所述第一接收模块用于接收所述终端通过mac ce上报的第一信息。
33、其中,所述mac ce包括:测量上报指示信息以及小区的信道信息;所述小区的信道信息包括小区标识以及以下一项或者多项:
34、小区的平均速率,吞吐量,信道质量。
35、其中,所述第一处理模块包括:
36、第一确定子模块,用于基于所述多智能体强化学习算法与所述终端对应的其他网络设备进行协商,确定为所述终端确定对应的资源分配和链路选择策略的网络设备;
37、第一处理子模块,用于当由所述第一网络设备确定所述终端对应的资源分配和链路选择策略时,利用所述多智能体强化学习算法对所述第一信息进行学习,确定所述终端对应的资源分配和链路选择策略。
38、其中,所述第一处理模块包括:
39、第一处理子模块,用于与所述终端对应的其他网络设备联合形成候选资源集;
40、第二处理子模块,用于利用所述多智能体强化学习算法对所述第一信息进行学习,基于所述候选资源集确定所述终端对应的资源分配和链路选择策略;其中,所述其他网络设备确定的所述终端对应的资源分配和链路选择策略与所述第一网络设备确定的所述终端对应的资源分配和链路选择策略一致。
41、其中,所述装置还包括以下一个或者多个模块:
42、第一确定模块,用于当需要向其他小区转移负载时,利用所述多智能体强化学习算法确定第二网络设备,其中,所述第一网络设备向所述第二网络设备进行负载转移;
43、第二接收模块,用于当需要接收其他小区转移的负载时,接收其他网络设备转移的负载,其中,所述第一网络设备利用所述多智能体强化学习算法确定需要接收其他网络设备转移的负载。
44、第四方面,本技术实施例提供了一种信息处理装置,应用于终端,包括:
45、第一上报模块,用于上报第一信息,其中,所述第一信息包括所述终端对至少一个小区的测量信息;
46、第一处理模块,用于基于网络设备的调度进行数据传输;
47、其中,所述网络设备根据所述第一信息以及多智能体强化学习算法,确定所述终端对应的资源分配和链路选择策略。
48、其中,所述多智能体强化学习算法包括模型参数,所述模型参数是从中心数据设备获取的,所述中心数据设备对模型进行集中训练后得到所述模型参数。
49、其中,所述第一上报模块,用于通过mac ce上报所述第一信息;
50、其中,所述mac ce包括:测量上报指示信息以及小区的信道信息;所述小区的信道信息包括小区标识以及以下一项或者多项:
51、小区的平均速率,吞吐量,信道质量。
52、第五方面,本技术实施例提供了一种信息处理装置,应用于第一网络设备,包括:处理器和收发器;
53、所述收发器,用于接收终端上报的第一信息,其中,所述第一信息包括所述终端对至少一个小区的测量信息;
54、所述处理器,用于根据所述第一信息以及多智能体强化学习算法,确定所述终端对应的资源分配和链路选择策略。
55、其中,所述多智能体强化学习算法包括模型参数,所述模型参数是从中心数据设备获取的,所述中心数据设备对模型进行集中训练后得到所述模型参数。
56、其中,收发器用于,接收所述终端通过mac ce上报的第一信息。
57、其中,所述mac ce包括:测量上报指示信息以及小区的信道信息;所述小区的信道信息包括小区标识以及以下一项或者多项:
58、小区的平均速率,吞吐量,信道质量。
59、其中,所述处理器用于:
60、基于所述多智能体强化学习算法与所述终端对应的其他网络设备进行协商,确定为所述终端确定对应的资源分配和链路选择策略的网络设备;
61、当由所述第一网络设备确定所述终端对应的资源分配和链路选择策略时,利用所述多智能体强化学习算法对所述第一信息进行学习,确定所述终端对应的资源分配和链路选择策略。
62、其中,所述处理器用于:
63、与所述终端对应的其他网络设备联合形成候选资源集;
64、利用所述多智能体强化学习算法对所述第一信息进行学习,基于所述候选资源集确定所述终端对应的资源分配和链路选择策略;其中,所述其他网络设备确定的所述终端对应的资源分配和链路选择策略与所述第一网络设备确定的所述终端对应的资源分配和链路选择策略一致。
65、其中,所述处理器用于执行以下一项或者多项:
66、当需要向其他小区转移负载时,利用所述多智能体强化学习算法确定第二网络设备,其中,所述第一网络设备向所述第二网络设备进行负载转移;
67、当需要接收其他小区转移的负载时,接收其他网络设备转移的负载,其中,所述第一网络设备利用所述多智能体强化学习算法确定需要接收其他网络设备转移的负载。
68、第六方面,本技术实施例提供了一种信息处理装置,应用于终端,包括:处理器和收发器;
69、所述收发器,用于上报第一信息,其中,所述第一信息包括所述终端对至少一个小区的测量信息;
70、所述处理器,用于基于网络设备的调度进行数据传输;
71、其中,所述网络设备根据所述第一信息以及多智能体强化学习算法,确定所述终端对应的资源分配和链路选择策略。
72、其中,所述多智能体强化学习算法包括模型参数,所述模型参数是从中心数据设备获取的,所述中心数据设备对模型进行集中训练后得到所述模型参数。
73、其中,所述收发器用于通过mac ce上报所述第一信息;
74、其中,所述mac ce包括:测量上报指示信息以及小区的信道信息;所述小区的信道信息包括小区标识以及以下一项或者多项:
75、小区的平均速率,吞吐量,信道质量。
76、第七方面,本技术实施例还提供一种通信设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上所述的信息处理方法中的步骤。
77、第八方面,本技术实施例还提供一种可读存储介质,所述可读存储介质上存储程序,所述程序被处理器执行时实现如上所述的信息处理方法中的步骤。
78、在本技术实施例中,第一网络设备可基于终端上报的第一信息以及多智能体强化学习算法,确定所述终端对应的资源分配和链路选择策略。由于所述第一信息包括终端对至少一个小区的测量信息,因此,所述第一网络设备在确定所述终端对应的资源分配和链路选择策略时,可无需与其他网络设备进行交互即可确定其他小区的资源情况从而结合本小区的资源情况,从而根据多智能体强化学习算法确定所述终端对应的资源分配和链路选择策略。因此,利用本技术实施例的方案可减小网络设备之间的交互,从而节约了信令资源。