在通信网络中调度无线电资源的制作方法

文档序号:33197493发布日期:2023-02-04 14:28阅读:98来源:国知局
在通信网络中调度无线电资源的制作方法

1.本公开涉及通信网络中的方法、节点和系统。更具体地,但非排他地,本公开涉及在通信网络中调度资源。


背景技术:

2.诸如虚拟现实和沉浸式游戏之类的以用户为中心的应用在未来的无线网络中将得到越来越广泛的应用。此类服务的共同特征包括:a)用户和应用之间的高交互水平;以及b)与传统蜂窝应用相比,它们需要更多的网络资源。向这种密集型应用提供资源代表了对网络资源的一种挑战。本文实施例的目的是改进通信网络中的资源的提供,特别是对于涉及高度用户交互的资源密集型应用。


技术实现要素:

3.如上所述,诸如虚拟现实和沉浸式游戏之类的新的以用户为中心的应用将给通信网络带来越来越大的压力。现有的无线电资源算法基于信道和网络条件来分配无线电资源。例如,基站(bs)可以寻求根据bs的延迟需求和信道状态来向用户分配资源块(rb)和功率,而忽略用户的行为和状态。传统算法仍然依赖于设备级特征,并且不能知晓人类终端用户及其特征(例如,大脑限制或行为)。因此,传统算法可能因为将较多的资源分配给例如由于认知大脑限制而无法感知相关联的qos增益的人类用户而造成网络资源浪费。因此,当在无线和蜂窝系统上部署以用户为中心的应用时,可以通过使网络不仅意识到应用的服务质量(qos)需求,而且意识到人类用户对该qos的感知来对资源调度进行改进(参见a.kasgari、w.saad和m.debbah所著的题为“human-in-the-loop wireless communications:machine learning and brain-aware resource management”的论文)。
4.在y.yang、l.park、n.mandayam、i.seskar、a.glass和n.sinha所著的题为“prospect pricing in cognitive radio networks”的论文中,作者们通过比较视频质量的主观和客观测量进行了实验。对于所选择的每对分组丢失和延迟,他们客观地测量(使用每秒解码的视频帧)在用于显示视频的视频播放器处的相应的每秒解码的帧。心理物理学实验已经揭示,在所选择的参数中,每秒解码的视频帧是视频质量的最佳客观指标,而对发生的中断和卡顿数量的感觉是对整体视频质量的主观评级的最佳指标。人类受试者还被要求在感知视频时在四个等级的规模上主观地评估视频的质量,其中4是最高评级,1是最低评级。结果表明,客观概率与主观概率之间的关系显示出逆s型概率加权效应。
5.在本文的实施例中,提出了一种ai辅助的大脑感知资源管理过程,其中所提出的资源分配方法在考虑信道状态信息的同时考虑了人类行为和精神状态。
6.在第一方面,提供了一种在通信网络的节点中用于向用户设备(ue)调度无线电资源以便向ue的用户提供服务的计算机实现的方法。该方法包括:获取ue的用户的一个或多个生理参数;以及基于该一个或多个生理参数向ue调度资源,以便向ue提供具有用户感知的预定体验质量的服务。
7.物理参数可以与用户的警觉性互相关。因此,通过当在通信网络中调度资源时考虑用户的生理参数,可以以将人类行为和精神状态纳入考虑的方式(例如,在考虑诸如信道状态信息之类的网络参数的同时)来分配资源。此类信息可以以透明的方式来获取和使用,例如通过提醒用户使用生理参数或要求用户允许使用此类信息。因此,可以使用户意识到使用所公开的方法的效果以及该方法实际如何工作。
8.根据第二方面,提供了一种通信网络中的用于向用户设备(ue)调度无线电资源以便向ue的用户提供服务的节点。该节点包括:存储器,其包括表示指令集的指令数据;以及处理器,其被配置为与存储器通信并且执行指令集。该指令集当由处理器执行时使处理器获取ue的用户的一个或多个生理参数,并且基于该一个或多个生理参数向ue调度资源,以便向ue提供具有用户感知的预定体验质量的服务。
9.根据第三方面,提供了一种包括计算机可读介质的计算机程序产品,该计算机可读介质具有包含在其中的计算机可读代码,该计算机可读代码被配置为使得在由合适的计算机或处理器执行时使该计算机或处理器执行第一方面的方法。
附图说明
10.为了更好地理解并且更清楚地示出本文的实施例可以如何实施,现在将仅通过示例的方式参考附图,附图中:
11.图1示出了根据一些实施例的通信网络中的节点;
12.图2示出了根据一些实施例的通信网络的节点中的方法;以及
13.图3示出了根据一些实施例的通信网络的节点中的方法。
具体实施方式
14.在某些情形下,人脑可能无法感知以不同qos(例如,速率或延迟)传输的视频之间的任何差异。为了传递沉浸式的、以人为中心的服务,网络必须使无线资源的使用和优化适应于其人类用户的固有特征,例如他们的行为和大脑处理限制,从而更高效地利用可用的无线电资源。
15.如上所述,本文的实施例涉及基于终端用户的生理参数在通信网络中调度资源。例如,生理参数可以用作大脑的注意力和感知的指标。以这种方式,例如,与用户具有低认知处理并且因此不会感知到与任何附加资源相关联的增加的qos的情况相比,如果用户是警觉的并且具有高认知处理,则可以分配更多的资源。
16.本文的实施例涉及通信网络。通常,通信网络(或电信网络)可以包括以下中的任何一个或任何组合:有线链路(例如,asdl)或无线链路(例如,全球移动通信系统(gsm)、宽带码分多址(wcdma)、长期演进(lte)、wifi或蓝牙无线技术)。本领域技术人员将理解,这些仅是示例并且通信网络可以包括其他类型的链路。无线网络可以被配置为根据特定标准或其他类型的预定义规则或程序进行操作。因此,无线网络的特定实施例可以实现:诸如全球移动通信系统(gsm)、通用移动电信系统(umts)、长期演进(lte)和/或其他合适的2g、3g、4g或5g标准之类的通信标准;诸如ieee802.11标准之类的无线局域网(wlan)标准;和/或诸如全球微波接入互操作性(wimax)、蓝牙、z-wave和/或zigbee标准之类的任何其他适当的无线通信标准。
17.图1示出了根据本文的一些实施例的通信网络中的节点。通常,节点100可以包括通信网络中适于执行本文描述的功能的任何组件或网络功能(例如,任何硬件或软件模块)。
18.例如,在一些实施例中,节点可以包括能够、被配置为、被布置为和/或可操作为直接或间接地与ue(例如,无线设备)和/或与通信网络中的其他网络节点或设备进行通信以实现和/或向ue提供无线或有线接入和/或执行通信网络中的其他功能(例如,管理)的设备。节点的示例包括但不限于接入点(ap)(例如,无线电接入点)、基站(bs)(例如,无线电基站、节点b(nodeb)、演进nodeb(enb或enodeb)和nr nodeb(gnb或gnodeb))。节点的其他示例包括但不限于核心网络功能,例如第五代核心网络(5gc)中的核心网络功能(例如,接入和移动性管理功能(amf)、会话管理功能(smf)和网络切片选择功能(nssf))。
19.节点100可以被配置或操作为执行本文描述的方法和功能,例如下面描述的方法200或300。节点100可以包括处理器(例如,处理电路或逻辑)102。将理解,节点100可以包括运行不同软件和/或进程的一个或多个虚拟机。因此,节点100可以包括一个或多个服务器、交换机和/或存储设备,和/或可以包括运行软件和/或进程的云计算基础设施或被配置为以分布式方式执行的基础设施。
20.处理器102可以以本文描述的方式控制节点100的操作。处理器102可以包括被配置或编程为以本文描述的方式控制节点100的一个或多个处理器、处理单元、多核处理器或模块。在特定实施方式中,处理器102可以包括多个软件和/或硬件模块,每个软件和/或硬件模块被配置为执行或用于执行如本文所述的节点100的功能的单个或多个步骤。
21.节点100可以包括存储器104。在一些实施例中,节点100的存储器104可以被配置为存储可由节点100的处理器102执行以执行本文描述的功能的程序代码或指令。备选地或附加地,节点100的存储器104可以被配置为存储本文描述的任何请求、资源、信息、数据、信号等。节点100的处理器102可以被配置为控制节点100的存储器104以存储本文描述的任何请求、资源、信息、数据、信号等。
22.应该理解,节点100可以包括作为图1所示的组件的补充或备选的其他组件。例如,在一些实施例中,节点100可以包括通信接口。通信接口可以用于与通信网络中的其他节点(例如,其他物理或虚拟节点)通信。例如,通信接口可以被配置为向其他节点或网络功能发送和/或从其他节点或网络功能接收请求、资源、信息、数据、信号等。节点100的处理器102可以被配置为控制这样的通信接口以向其他节点或网络功能发送和/或从其他节点或网络功能接收请求、资源、信息、数据、信号等。
23.节点100用于向用户设备(ue)调度无线电资源以便向ue的用户提供服务。简言之,在一个实施例中,节点100可以被配置为获取ue的用户的一个或多个生理参数,并且基于该一个或多个生理参数来向ue调度资源,以便向ue提供具有用户感知的预定体验质量的服务。
24.图2示出了根据本文的一些实施例的节点中的向用户设备(ue)调度无线电以便向ue的用户提供服务的方法200。在第一步骤中,方法200包括获取202ue的用户的一个或多个生理参数。在第二步骤中,该方法包括基于该一个或多个生理参数向ue调度204资源,以便向ue提供具有用户感知的预定体验质量的服务。
25.如本文所述的大脑感知无线电资源管理方案可以导致增强的无线电资源利用。例
如,如下文更详细地描述的,在一些实施例中,在考虑相关应用的延迟要求的同时,与具有低延迟感知阈值的用户相比,可以向具有高延迟感知阈值的用户分配更多的资源块和/或更高的传输功率。具有高延迟感知阈值的用户可以对应于年老的用户、执行活动期间的用户、或处于疲劳精神状态的用户。这可能导致:i)对于运营商而言的较低成本和较高收入;ii)在保持用户的感知qos的同时实现网络中的功率节省;iii)最小化无线电资源的浪费,并且基于用户的实际大脑处理能力更精确地向用户提供服务;iv)能量效率。
26.回到图2,更详细地,方法200可以由如上所述的节点100执行。在一些实施例中,该方法的步骤202和204可以由节点100的处理器102的第一处理模块和第二处理模块来执行。
27.所述节点可以为用户设备调度无线电资源以便向用户设备提供服务。更详细地,ue可以包括能够、被配置为、被布置为和/或可操作为与网络节点和/或其他无线设备无线通信的设备。除非另有说明,术语“ue”在本文中可以与“无线设备(wd)”互换使用。无线通信可以涉及使用电磁波、无线电波、红外波和/或适于通过空气传送信息的其他类型的信号来发送和/或接收无线信号。ue的示例包括但不限于智能电话、移动电话、蜂窝电话、ip语音(voip)电话、无线本地环路电话、台式计算机、个人数字助理(pda)、无线摄像头、游戏控制台或设备、虚拟现实设备或虚拟现实控制台、音乐存储设备、回放设备、可穿戴终端设备、无线端点、移动台、平板计算机、膝上型计算机、嵌入膝上型计算机的设备(lee)、安装于膝上型计算机的设备(lme)、智能设备、无线客户驻地设备(cpe)、个人可穿戴设备(例如,手表、健身追踪器等)。
28.服务可以包括在用户设备上运行的任何应用。在一些实施例中,服务可能需要与用户(例如,实时)交互。例如,服务可以包括游戏应用、虚拟现实应用或任何其他以用户为中心的应用。在其他实施例中,服务可以包括视频流传输应用、音乐流传输应用、或向用户发送音频或可视内容的任何其他应用。
29.节点100可以向ue调度资源。节点100可以向ue提供所调度的资源(例如,节点可以调度其自己的资源),或者节点可以调度另一节点的资源以便另一节点向ue提供服务。
30.在步骤202中,方法200可以包括获取ue的用户(例如,已请求服务的ue的用户)的一个或多个生理参数。在这个意义上的生理参数可以例如包括以下参数中的任何一个或多个:心率、血压、用户正在经历的压力的度量、和/或用户的活动水平的度量。例如,可以基于所确定的活动类型(例如,行走、跳舞、静止、跑步、骑自行车等)来确定活动水平。生理参数还可以包括用户疲劳的度量。然而,本领域技术人员将理解,这些仅是示例并且在步骤202中也可以获取其他生理参数。
31.通常,获取ue的用户的一个或多个生理参数的步骤202可以包括从ue上的一个或多个传感器获取一个或多个生理参数。因此,ue可以包括可用于测量生理参数的一个或多个传感器,例如,ue可以包括以下传感器中的任何一个或多个:用于测量心率的传感器、用于测量血压的传感器、脉搏血氧计(spo2)传感器、皮肤电导率传感器、或用于测量生理参数的任何其他传感器。
32.在一些实施例中,ue或节点100可以被配置为与另一ue或设备交互以便获取生理测量。例如,ue或节点100可以与用户的健康追踪器或智能手表交互以便获得生理参数。
33.所述生理参数可以与用户的警觉性以及因此与他们在任何给定时间的大脑感知能力最紧密相关(例如,与其互相关)。因此,基于生理参数调度资源可以提供一种衡量人脑
的感知度并且相应地调度资源的越来越准确的方法。
34.在一些实施例中,获取步骤202还可以包括获取除了上述生理参数之外的其他以人为中心的参数。例如,用户的性别或年龄,或者一天中用户希望访问服务的时间。通常,可以进一步结合可与用户的认知速度互相关的任何参数。
35.注意,用户可能同意以这种方式获取或使用该信息。在一些实施例中,用户可以例如提供附加信息,例如年龄或性别等。
36.在步骤204中,该方法包括基于一个或多个生理参数向ue调度资源,以便向ue提供具有用户感知的预定体验质量的服务。
37.资源在这个意义上可以例如包括分配给提供服务的功率和/或物理资源块(prb)。
38.通常,步骤204可以包括:如果生理参数指示用户是警觉的或具有较高的感知速度(相比于生理参数指示用户疲劳或具有较低感知速度的情况),则调度更多的资源(例如,使用更多的资源提供服务)。
39.在一些实施例中,用户感知的预定体验质量基于用户是否感知到(或能够感知到)服务中的延迟。在这样的实施例中,向ue调度资源的步骤204可以包括根据一个或多个生理参数确定用户可感知到延迟的延迟感知阈值,以及基于延迟感知来向ue调度资源。
40.在该上下文中,延迟感知阈值包括用户能注意到的延迟量。用户越累或越疲劳,其延迟感知阈值将越大(或越高)。这样,它们将容忍较高的延迟,并且给予网络的用于满足该延迟的裕度越大,网络为了最小化能量消耗可以采取的功率分配或prb动作选择的范围因此就越大。
41.因此,在一些实施例中,基于延迟感知向ue调度资源的步骤可以包括:调度资源以便提供具有小于延迟感知阈值的延迟的服务。
42.可以以各种方式根据一个或多个生理参数确定延迟感知阈值,所述方式如使用查找表或生理参数和延迟感知阈值之间的映射。这种查找表或映射可以通过实验确定。
43.在一些实施例中,可以通过使用第一机器学习模型预测延迟感知阈值来根据一个或多个生理参数确定延迟感知阈值,该第一机器学习模型采用该一个或多个生理参数作为输入并且基于该一个或多个生理参数来输出对用户的延迟感知阈值的预测。
44.本领域技术人员将熟悉机器学习模型(例如,使用机器学习过程训练的模型)。但是简言之,机器学习可以用于为给定数据集找到预测函数;数据集通常是给定输入到输出之间的映射。预测函数(或映射函数)在训练阶段中生成,该训练阶段涉及向模型提供示例输入和相应的地面真值(例如,正确的)输出。然后,测试或验证阶段包括针对给定的、先前未见过的输入预测输出。机器学习的应用例如包括曲线拟合、面部识别和垃圾邮件过滤。
45.在本文中,第一机器学习模型可以包括监督学习模型,例如分类或回归模型。例如,在一些实施例中,机器学习模型可以包括神经网络模型、随机森林模型、或支持向量回归模型。虽然这些被提供为示例机器学习模型,但是将理解,本文的教导更一般地适用于可以被训练为采用一个或多个生理参数作为输入并且输出对用户的延迟感知阈值的预测的任何类型的模型。
46.作为示例,第一机器学习模型可以包括(深度)神经网络。本领域技术人员将熟悉神经网络,但是简言之,神经网络是可以被训练为针对给定输入数据预测期望输出的一种类型的机器学习模型。使用训练数据来训练神经网络,训练数据包括示例输入数据和所期
望的相应的“正确的”或地面真值结果。神经网络包括多个神经元层,每个神经元表示应用于输入数据的数学运算。神经网络中每个层的输出被馈送到下一层中以产生输出。对于提供给神经网络的每条训练数据,调整与神经元相关联的权重(例如,使用诸如反向传播和梯度下降之类的方法),直到找到产生对反映相应的地面真值的训练示例的预测的最优权重。
47.第一机器学习模型可以是使用包括训练示例的训练数据来训练的,其中每个训练示例包括:示例用户的一个或多个生理参数的一组示例值,以及在获取示例用户的一个或多个生理参数的示例值时该示例用户的地面真值延迟感知阈值。
48.延迟感知阈值可以是针对每个用户来确定的,例如通过要求用户指示他们在被提供有不同的资源水平时是否感知到服务中的延迟来确定的。换言之,地面真值延迟感知阈值可以基于由示例用户提供的对提供给示例用户的示例服务的体验质量的反馈。
49.在一些实施例中,提供了一种训练监督机器学习模型以基于用户的一个或多个生理参数来预测用户的延迟感知阈值的方法。该方法包括向机器学习模型提供训练数据,该训练数据包括训练示例,每个训练示例包括:i)示例用户的一个或多个生理参数,以及ii)示例用户各自的延迟感知阈值。
50.下面提供了使用第一机器学习模型预测用户的延迟感知阈值的详细实施例。
51.训练数据收集过程:为了训练第一机器学习模型,可以通过下述方式在不同的状态和大脑条件下从多个用户收集训练数据:要求用户在系统中的延迟和分组丢失增加时对视频的质量进行评级。对于质量评级,可以考虑诸如视频失真水平、延迟和比特率之类的度量。
52.如上所述,第一机器学习模型的输入特征可以包括生理参数,包括但不限于:
[0053]-心率
[0054]-活动水平:步数/秒
[0055]-压力水平
[0056]-活动类型:行走、跳舞、静止、跑步、骑自行车
……
[0057]-疲劳程度
[0058]
还可以提供其他以人为中心的参数作为输入,例如:
[0059]-性别
[0060]-年龄
[0061]-一天中的时间
[0062]
如上所述,该数据可以经由各种传感器(诸如ue上的传感器等)或用户的关联设备(智能手表/健身追踪器)来收集。请求用户向网络通知他们对感知信号质量的满意程度。
[0063]
训练程序:如上所述,可以使用监督机器学习技术来训练第一机器学习模型,以学习模型的上述输入特征与期望输出(其可以被定义为大脑的延迟感知阈值)之间的映射。可以考虑诸如随机森林和前馈神经网络之类的机器学习算法。损失函数可以被定义为所有训练示例的均方误差。以这种方式,可以基于所获取的用户生理参数使用第一机器学习模型来预测大脑的延迟感知阈值。
[0064]
返回到图2,一旦确定了用户的延迟感知阈值,方法200就可以包括调度资源以便提供具有小于延迟感知阈值的延迟的服务。以这种方式,可以向用户调度足够的资源,使得用户感知到高服务质量(例如,没有任何延迟),但不会向用户过度提供资源(用户由于其认
知状态不会意识到过度提供资源的益处)。
[0065]
通常,向ue调度资源的步骤可以包括:如果用户的延迟感知阈值较高(与用户的延迟感知阈值较低的情况相比),则使用较少的资源来提供服务。例如,该方法可以包括通过下述方式来使用较少的资源提供服务:以较低的功率发送与服务相关的分组,和/或向服务分配较少的资源块。例如,在用户的延迟感知阈值高(例如,用户疲劳或处于活动中)的情形下,节点100可以以较低的功率向用户发送服务和/或分配较少数量的资源块。这可以允许通过以这种方式在资源分配程序期间与考虑无线电参数一起考虑基于人的特征来改进功率节省、带宽分配和增加qos。它还可以允许释放资源并且使其可供其他应用使用。
[0066]
在一些实施例中,向用户设备调度资源以便提供服务的步骤204可以包括:使用第二机器学习模型的强化学习代理向用户设备调度资源。
[0067]
本领域技术人员将熟悉强化学习和强化学习代理,然而,简言之,强化学习是一种类型的机器学习过程,其中使用强化学习代理(例如,算法)在系统上执行动作以根据目标调整系统(其可以例如包括将系统朝向系统的最优或优选状态移动)。强化学习代理基于每个动作是遵照目标(例如,朝向优选状态)还是违背目标(例如,远离优选状态)改变系统来接收奖励。因此,强化学习代理以最大化接收到的奖励为目标调整系统中的参数。
[0068]
更正式地说,强化学习代理接收来自状态s下的环境的观察,并且选择使预期的未来奖励r最大化的动作。基于预期的未来奖励,可以计算每个状态的价值函数v,并且可以导出最大化长期价值函数的最优策略π。
[0069]
在本公开的上下文中,电信网络是状态s下的“环境”。“观察”包括生理参数、其他与人相关和/或与无线电相关的特征。由强化学习代理执行的每个“动作”包括无线电资源调度决策,该决策包括一组无线电资源分配参数。通常,本文中的强化学习代理在每次执行调整(例如,动作)时都接收奖励或信用分派形式的反馈。如上所述,本文中的强化学习代理的目标是最大化接收到的奖励。
[0070]
可用于第二机器学习模型的强化学习代理和强化学习方案的示例包括但不限于q学习模型、深度确定性策略梯度(ddpg)、深度q学习(dqn)、状态-动作-奖励-状态-动作(sarsa)。
[0071]
在一些实施例中,如果所调度的资源满足以下条件,则强化学习代理接收正奖励:
[0072]
延迟=《延迟感知阈值
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
[1]
[0073]
例如:如果延迟低于用户在他们的给定认知状态下可感知(或被预测为可感知)的阈值。
[0074]
如上所述,通常,延迟感知阈值越大,给予网络的用于满足该延迟的裕度越大,因此网络为了最小化能量消耗可以采取的功率分配或prb动作选择的范围就越大。
[0075]
在一些实施例中,如果所调度的资源使以下表达式最大化,则强化学习代理可以进一步接收正奖励:
[0076]
a*bitrate-b*energy
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
[2]
[0077]
其中,参数bitrate包括向用户提供服务的比特率,参数energy包括节点以该比特率向用户提供服务所需的能量的度量,a和b包括加权值。
[0078]
a和b可以包括可被采用来实现比特率和能量效率之间的折衷的多目标权重(0<a<1,0<b<1)。
[0079]
在一些实施例中,如果调度的资源满足以下条件,则强化学习代理可以进一步接收正奖励:
[0080]
延迟<=network_delay_threshold
ꢀꢀꢀ
[3]
[0081]
其中,参数network_delay_threshold包括与网络允许的延迟相关的参数。例如,network_delay_threshold可以是与相关应用要求或机器类型设备要求相关的参数。例如,作为network_delay_threshold的示例,对于5g nr中的超可靠低时延通信(urllc),要求在1ms内传输32字节的分组的成功概率为99.999%。以这种方式,相关应用的延迟要求仍然可以被考虑在内。
[0082]
约束[1]鼓励强化学习代理调度足够的资源以确保延迟小于延迟感知阈值,从而更高效地分配资源。如果延迟降低到显著低于延迟感知阈值,则人类用户将不能辨别差异(与延迟刚刚低于延迟感知阈值的情况相比)。该延迟感知阈值是基于生理参数通过人脑的能力来确定的。约束[2]和[3]保证延迟受相关应用的要求限制并且所提供的资源在最小化能量使用的同时最大化比特率。每个用户或机器类型设备可以具有qos要求不同的不同应用。该优化问题的变量可以是但不限于例如以下的参数:功率分配水平、资源块分配、和波束选择。
[0083]
方法200于是可以包括根据所确定的资源调度向ue分配资源。换言之,使用所调度的资源向ue提供服务。
[0084]
所提出的问题公式与传统rb分配问题之间的关键差异在于qos延迟要求,其中网络明确考虑了人脑的延迟需求。通过考虑人类的大脑的特征,网络可以避免在忽略携带ue的人类的大脑如何感知qos的情况下仅基于应用qos向ue分配较多功率造成的资源浪费。生理参数的使用可能是特别有益的,因为例如与其他以人为中心的参数相比,这些参数可以更紧密地与个体用户的感知能力和警觉性互相关。
[0085]
在其他实施例中,强化学习代理可以接收基于分组丢失的奖励,例如,如果分组丢失低于阈值(例如,相应服务所需的阈值),则接收正奖励。
[0086]
下面提供第二机器学习模型包括强化学习代理的详细实施例。
[0087]
模型初始化:在该实施例中,可以首先基于仅考虑无线电相关参数的传统的基于规则的算法来离线初始化强化学习代理的权重。例如,对于资源块分配,可以考虑轮询或比例公平算法。机器学习模型可以例如是随机森林、卷积神经网络或前馈神经网络。
[0088]
模型训练:然后训练模型以在考虑信道状态信息的同时考虑基于人的度量。对于训练阶段,考虑不同网络条件下的用户、用户活动水平和用户状态。所提出的强化学习技术的状态定义、动作状态和奖励函数总结如下:
[0089]
状态:对应于一组无线电特征和人类状态特征:
[0090]
生理参数可以是但不限于:
[0091]

心率
[0092]

活动水平:步数/秒
[0093]

压力水平
[0094]

活动类型:行走、跳舞、静止、跑步、骑自行车
……
[0095]

疲劳程度
[0096]
其他以人为中心的参数例如包括:
[0097]

性别
[0098]

年龄
[0099]

一天中的时间
[0100]

无线电相关特征:
[0101]

信道状态信息(csi)
[0102]

rsrp/rsrq/rssi
[0103]
例如,高心率可以反映用户的某种状态,例如压力水平和高活动性,这对于人脑如何感知其环境尤其是视频流应用是至关重要的。在这种情况下,人的大脑处于疲劳状态,因此其大脑的延迟感知为高,并且用户可能不能感知非常好的视频和好的视频之间的差异(因此,例如,运营商可以乘机分配较少的功率/带宽)。在由motyka、martin grund、norman forschack、esra al、arno villringer和michael gaebler所著的题为“interactions between cardiac activity and conscious somatosensory perception”的论文中,作者们研究了感知意识与心脏信号之间的联系。他们表明,身体的生理状态会影响我们如何感知世界。还要注意的是,压力水平、疲劳程度和活动类型也与心率有很强的互相关性(在压力或剧烈身体活动下的心率更高),这因此影响人们在不同条件下的感知意识和视频质量评估。
[0104]
在由milan mirkovic、petar vrgovic、dubravko culibrk、darko stefanovic和andras anderla所著的题为“evaluating the role of content in subjective video quality assessment”的论文中,作者们分析了对通常用于视频质量评估的一组视频与对专门选择的包括可能影响评估者在讨论感知视频质量时的判断的视频内容的一组视频的人类认知、情感和意向响应之间的差异。它们表明,认知精神活动大多被观察到是“理性的”或“客观的”平静心境。这些活动被认为负责处理人们经由注意力和记忆力从其感官系统获得的信息。此外,这篇论文中强调,因此,当讨论视频质量评估任务时,可以考虑与不同人群(按性别、按文化和按人口统计分)有关的影响对视频质量的主观感知的其他因素。
[0105]
因此,上述强调的人类相关特征对于无线网络中的资源分配问题具备重要性,其中运营商可以考虑体验质量或人们对服务的感知并且相应地调整无线电资源,从而得到能量高效的网络管理。
[0106]
动作:一组无线电资源分配参数。根据用户侧的相关应用,可以考虑调整以下无线电相关参数中的一个或多个。示例可以是但不限于:
[0107]

发射功率电平
[0108]

所分配的资源块的数量
[0109]

波束选择
[0110]-奖励:上文优化问题中定义的多目标加权函数,其考虑:
[0111]

速率
[0112]

时延
[0113]

能量效率
[0114]
可以基于以下方案来奖励强化学习代理:
[0115]
最小化-a*bitrate+b*energy
ꢀꢀꢀ
[a]
[0116]
受限于:延迟<=延迟感知阈值
ꢀꢀꢀꢀꢀꢀꢀ
[b]
[0117]
延迟<=机器类型设备要求
ꢀꢀꢀ
[c]
[0118]
(3)中的延迟感知阈值可以根据上面关于第一机器学习模型描述的监督学习方案的用户评级结果来推断。
[0119]
实际操作:在实践中,每当给定用户在网络中注册或通过使用用户的移动设备的传感器,节点100可以收集生理参数和/或其他人类相关数据。这可能例如受限于用户对以这种方式收集数据供使用的同意和/或本地个人数据使用法律。
[0120]
如果生理参数(和/或其他人类相关特征)不可用,那么可以仅基于无线电相关特征来分配无线电资源,如在传统无线网络中所进行的。例如,节点100可以恢复到传统调度程序。
[0121]
强化学习代理(例如,第二模型)可以基于可被馈送到网络的用户输入而被持续地在线训练(人在回路)。例如,网络可以关于用户相应的体验质量(例如评估用户感知的延迟的度量)向用户请求反馈。当随机地选择动作时,可以采用安全探索技术来保证终端用户的qos。本领域技术人员将熟悉在通信网络中使用强化学习代理的安全探索方法。例如,允许安全探索的网络条件研究包括以下论文:由t.mannuci、e.kampen、c.visser和q.cu所著,题为“safe exploration algorithms for reinforcement learning controllers”,ieee transactions on neural networks and learning systems,第29卷,第4期,2018年4月。
[0122]
现在转到图3,其示出了资源分配的实施例。在图3的实施例中,一种方法可以包括仅使用无线电参数离线初始化302强化学习程序。然后,可以观察304网络状态。如果网络条件允许安全探索,那么可以对当前状态采取随机动作(例如,“探索动作”)。该动作可以包括关于功率电平、波束选择、物理资源块(prb)分配等的探索动作。然后,在310中可以为该动作分配奖励。如果在框306中网络条件不允许安全探索,那么在框312中确定用户的生理参数是否可用。如果可用,那么该方法包括:在考虑无线电和人类相关特征两者的情况下,对当前状态采取已知具有最高奖励值的动作。该动作可以包括功率电平选择、波束选择、或prb分配,与在框308中的一样。如果在框312中没有生理参数可用,那么该方法可以包括在仅考虑无线电相关特征的情况下,对当前状态采取316具有最高奖励值的动作。同样,该动作可以包括选择功率电平、波束选择、和/或prb分配。在步骤314或316之后,该方法包括基于奖励函数分配310奖励。然后,该方法返回到步骤304,准备采取下一动作。
[0123]
以这种方式,可以设计用于第二机器学习模型的探索/开发策略,其在确定适当动作时考虑生理参数的可用性。这允许对在线模型更新的安全探索。
[0124]
在另一实施例中,提供了一种包括计算机可读介质的计算机程序产品,该计算机可读介质具有包含在其中的计算机可读代码,该计算机可读代码被配置为使得在由合适的计算机或处理器执行时,使该计算机或处理器执行本文描述的一个或多个方法。
[0125]
因此,将理解,本公开还适用于被适配为实践实施例的计算机程序,具体为载体上或载体中的计算机程序。该程序可以是源代码、目标代码、代码中间源和目标代码(例如,以部分编译的形式)的形式,或者是适于在根据本文描述的实施例的方法的实现中使用的任何其他形式。
[0126]
还将理解,这种程序可以具有许多不同的体系结构设计。例如,实现该方法或系统的功能的程序代码可以被细分为一个或多个子例程。在这些子例程之间分配功能的许多不同方式对于本领域技术人员而言将是显而易见的。子例程可以一起存储在一个可执行文件
中以形成自包含程序。这样的可执行文件可以包括计算机可执行指令,例如处理器指令和/或解释器指令(例如,java解释器指令)。备选地,一个或多个或所有子例程可以存储在至少一个外部库文件中,并且例如在运行时静态地或动态地与主程序链接。主程序包含对至少一个子例程的至少一个调用。子例程还可以包括对彼此的函数调用。
[0127]
计算机程序的载体可以是能够承载该程序的任何实体或设备。例如,载体可以包括数据存储器,例如rom(例如,cd rom或半导体rom)或磁记录介质(例如,硬盘)。此外,载体可以是诸如电信号或光信号之类的可传输载体,其可以经由电缆或光缆或通过无线电或其他方式来传送。当程序被包含在这样的信号中时,载体可以由这种缆线或其他设备或装置构成。备选地,载体可以是嵌入了程序的集成电路,该集成电路被适配为执行相关方法或在相关方法的执行中使用。
[0128]
通过研究附图、公开内容和所附权利要求,本领域技术人员在实践所要求保护的本发明时可以理解和实现所公开实施例的变型。在权利要求中,词语“包括”不排除其他元件或步骤,并且不定冠词“一”或“一个”不排除多个。单个处理器或其他单元可以实现权利要求中所述的若干项的功能。在相互不同的从属权利要求中叙述某些措施的单纯事实并不表示不能有利地使用这些措施的组合。计算机程序可以存储/分布在合适的介质上,例如与其他硬件一起提供或作为其他硬件的一部分提供的光学存储介质或固态介质,但是也可以以其他形式分布,例如经由因特网或其他有线或无线电信系统。权利要求中的任何附图标记不应被解释为限制范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1