基于机器学习的LTE网络的动态空白子帧分配方法与流程

文档序号：16248496发布日期：2018-12-11 23:48阅读：161来源：国知局

本发明涉及无线通信技术领域，尤其涉及一种基于机器学习的lte网络的动态空白子帧分配方法。

背景技术

随着m2m(machinetomachine，机器到机器)业务的快速发展，m2m与lte-a(lte-advanced)网络的融合是未来通信发展的必然趋势，同时也是第五代移动通信(5g)中的一个重要应用场景。但这也给基于lte(longtermevolution，长期演进)网络的m2m通信提出了一些新的挑战。由于m2m设备数量众多，而且授权频段的资源又十分紧张，因此采用lte-u(lteinunlicensedbands)技术将m2m通信卸载到非授权频段是一个十分优秀的解决方案。

m2m通信有这样几个特点：

m2m设备数量巨大，高出h2h(human-to-human，人到人)设备数量的几个数量级。有报告指出，在一个小区里活跃的h2h用户数量和m2m设备数量大概分别是50个和30000个，3gpp(3rdgenerationpartnershipproject,第三代合作伙伴计划)标准组织建议单小区应支持至少1000个mtc设备。

m2m设备发送的数据包是在大范围内变化的。比如常规测量设备发送的可能只是几比特的数据，而类似于监控探头这样的视频设备，数据量将达到mbps级别。

m2m设备的qos(qualityofservice,服务质量)的要求也不同。有的设备是时间容忍的，比如定期上报一些读数的智能电表、水表等设备；而有的是有严格时间约束的，比如监控和告警类型的设备。不同应用场景的设备其吞吐量和丢包率等要求也不同。

由于m2m通信的要求，一般是mtc(mtc(machinetypecommunications，机器类型通信)设备上报的数据量远远大于基站或者mtcg(machinetypecommunicationsgateway，机器类型通信网关)发送的控制信令的数据量，因此上行数据的调度和资源分配是主要矛盾，而这点刚好与蜂窝网络的通信特点相反。

目前m2m主要应用于基于lte系统的授权频段，但是随着移动智能设备的飞速发展、无线用户数量的急剧增长、高清晰多媒体业务的快速涌现等等，使得日益增长的无线需求与昂贵有限的授权频谱之间的矛盾日益凸显，为了缓解授权移动网络的压力，利用资源相对丰富的免授权频段来应对高数据量的挑战成为一种思路，各运营商已通过在非授权频谱上部署wi-fi等系统来减轻无线网络的负担，从而通过免授权频谱来分流无线业务。一方面，技术改善可以带来移动网络性能的提升，另一个方面，寻求更多的频谱资源也能提升移动通信性能。频谱资源之于无线通信，就如同石油之于地球一样，是决定无线带宽的根本，频段越宽，传输速率越快，系统吞吐量越大。然而，分配给运营商的频谱资源非常有限且高额，运营商绞尽脑汁地充分利用来之不易的频谱资源，但即便如此也很难满足日益增长的用户需求。在国内运营商中，中国移动的lte频谱资源合计130mhz，中国联通合计90mhz，中国电信合计100mhz，而wi-fi部署在免授权频谱资源，2.4ghz频段附近约90mhz可用，5ghz频段附近有900mhz之多。相对十分丰富且免费的免授权频谱足以驱使运营商、设备商去积极研发相关技术和设备。将lte部署到非授权频段，在非授权频段上采用lte空口协议完成通信，即免授权载波上的lte，简称lte-u(lteadvancedinunlicensedspectrums，lte在非授权频段)。采用lte-u技术，可以利用集中调度、干扰协调、自适应请求重传(harq)等技术，相比wi-fi等接入技术，lte-u系统具有更好的鲁棒性，可以获得更高的频谱效率，提供更大的覆盖范围以及更好的用户体验。

wi-fi系统的特点如下：

wi-fi系统部署在非授权频段。

wi-fi系统采用csma/ca(carriersensemultipleaccesswithcollisionavoidance，带冲突避免的载波侦听多路访问)的mac层协议。wi-fi用户在通信之前会对信道进行cca(clearchannelassessment，清除频道评估)检测，如果信道未被占用则进行通信，否则为避免发生碰撞用户需要执行退避过程。

同一时刻wi-fi系统只允许一个用户占用整个信道，且每个用户机会均等。

wi-fi系统网络节点可选择的互不交叠的信道数目有限，而且协议并未规范在信道数目受限情况下的信道分配机制。

wi-fi系统只能用于短距离通信。5ghz非授权频段的信道衰落非常大，而且协议规定非授权频段上的发射功率受限。

考虑到m2m和wi-fi各自的通信特点，目前基于lte系统m2m通信和wi-fi共存于非授权频段的主要有以下几种方式。

图1为现有技术中的一种duty-cycle技术方案示意图。duty-cycle类策略是lte基站根据系统设定的定时模式周期性打开或者关闭自身的数据发送(如图1所示)，在关闭的一段时间内，wi-fi可以检测到信道中没有lte正在传输的信号，因此会接入信道发送数据。duty-cycle策略最普遍的一个技术就是csat(carriersensingadaptivetransmission，载波侦听自适应传输)技术。csat技术就是通过周期性地检测信道状况来动态关闭或者打开部署在非授权频段的lte-u小基站，csat的一个周期持续大约为20ms～100ms。稍有不同的地方在于当基站关闭自身数据传输模块退让信道的时候，仍然会检测信道的状态，根据wi-fi对信道的使用情况(持续时间等情况)lte系统可以对下一个周期自身如何合理使用信道进行一个适应性的调度。

lbt(listen-before-talk，先听后说)在欧洲、日本等国家规范的非授权频段信道接入机制，主要基于dcf协议(distributedcoordinationfunction，分布式协作函数)，图2为现有技术中的一种lbt机制的工作流程示意图，主要包括：lte基站会周期性检测目标信道的空闲或者繁忙状态，检测时间一般为20us左右，被称为cca(clearchannelassessment，清除频道评估)检测时长，并根据ed能量检测算法设置检测信号的功率门限。一般情况下，相同系统的检测门限为82dbm；不同系统的检测门限为62dbm。按照检测规则如果信道空闲就会采用物理层dcf协议退避计数，如果信道繁忙退避技术就挂起，直到退避计数为0才可以发送数据。

图3为现有技术中的一种abs(almost-blanksubframes，几乎完全空白的子帧)机制帧的结构示意图，在lte-u技术提出之前，已经有很多关于lte和wi-fi共存技术的课题研究，其中一种基于abs的协作共存策略十分受到关注。其基本思想是设计一种全新的tddlte帧结构，将某些子帧设置为共存子帧(空白子帧)，这些共存子帧专门提供给wi-fi系统进行数据传输。如图3所示，其中d和u分别表示上行和下行传输数据的数据子帧，w为共存子帧即空白子帧，s为特殊子帧。基本的参数修改以及信息交互在周期性或者固定条件触发的协商期进行，然后在时域共存期间lte和wi-fi系统按照协商期分配的资源进行数据传输。abs策略的不足之处显而易见，一方面，对于非协作的abs，高频率的lte-u信道占用和释放将会使得wi-fi数据帧产生频繁的碰撞；而另一方面，协作式的abs策略在实际部署中又有很大的局限性。

现有的ducy-cycle机制和lbt机制有一定的局限性：duty-cycle提倡的是公平性，对资源的利用不充分；lbt采用的是竞争机制，又缺乏了一定的公平性。目前的abs机制中的配置固定数目的空白子帧方案与duty-cycle有着相同的缺点，

另外，目前关于abs在lte-u系统中应用的研究都是固定的配置一定数目的空白子帧，在空白子帧期间lte会处于静默(silenced)状态，wi-fi此时会复用这些时隙进行自身用户的数据传输。这样方案主要有两种不足之处：

第一，缺乏灵活性。由于配置固定的空白子帧个数导致wi-fi系统中的用户进行数据传输时可能会导致资源紧张或者资源过剩，而对于v2v通信来说，需要保证严格的可靠性以及时延要求，因此在车联网的场景下，充分利用系统资源显得尤为重要。

第二，lte每个子帧长度为1ms，这个时间间隙对于wi-fi的csma/ca来说时间是过长的，csma/ca的cca检测时间一般为9us。长时间的cca检测导致wifi把过多的时间集中在信道接入上，造成wi-fi用户接入概率变低、平均速率降低。为避免资源浪费，动态的空白子帧机制显得尤为关键。

技术实现要素：

本发明的实施例提供了一种基于机器学习的lte网络的动态空白子帧分配方法，以客服现有技术的缺点。

为了实现上述目的，本发明采取了如下技术方案。

一种基于机器学习的lte网络的动态空白子帧分配方法，包括：

按照业务需求类型对m2m设备进行分组，将业务需求类似的m2m设备分在同一个组，各个分组的组长m2m设备将组内的各个m2m设备的资源需求信息通过基站发送给服务器，各个小组所处范围内的wi-fi设备将自身的资源需求信息通过基站发送给到服务器；

服务器根据接收到的各个m2m设备和wi-fi设备的资源需求信息，通过机器学习算法训练得到空白子帧的动态分配模型，将所述空白子帧的动态分配模型发送给基站；

所述基站根据接收到的空白子帧的动态分配模型对m2m设备和wi-fi设备进行空白子帧分配。

进一步地，所述的按照业务需求类型对m2m设备进行分组，将业务需求类似的m2m设备分在同一个组，包括：

基站获取lte网络中的各个m2m设备的业务需求，该业务需求包括qos需求，基站将业务需求类似的m2m设备分在同一个组，每个组分配一个组id，根据组内各个m2m设备的剩余电量、信道条件因素来给每个组选定一个组长m2m设备，在各个分组的基础上，把位置相近的mtc设备再分为各个接入组。

进一步地，所述方法还包括：

新m2m设备寻找加入组的过程如下：

①新m2m设备将自己的位置信息广播给周围的组长。

②接收到广播的组长计算所述新m2m设备与自己的距离为dtemp，计算δd＝d-dtemp，d表示预先设定的距离阈值，若δd<0,则不做处理；若δd>0，则向新m2m设备发送允许接入信令、δd值及新m2m设备的本组id号；

③新m2m设备如果接收到来自周围多个组长的允许接入信令，则比较δd的大小，选择δd最大的组接入，并添加收到的组id；如果只接收到一个组长的允许接入信令，则选择接入并添加收到的组id；如果没有收到任何组长的允许接入信令，则向基站报告，基站自动为其添加一个组id，即新建一个组，将新m2m设备暂时定为组长。

进一步地，所述的各个分组的组长m2m设备将组内的各个m2m设备的资源需求信息通过基站发送给服务器，各个小组所处范围内的wi-fiap设备将自身的资源需求信息通过基站发送给到服务器，包括：

各个分组内的m2m设备将自己的资源需求信息发送给所在组的组长m2m设备，所述资源需求信息包括基本速率需求和时延需求变化趋势，组长m2m设备将接收到的各个m2m设备的资源需求信息发送给基站，所述基站将接收到的各个m2m设备的资源需求信息发送给服务器；

各个小组所处位置范围内的wi-fi设备将自己的效用函数信息发送给所在组的组长m2m设备，组长m2m设备将接收到的各个wi-fi设备的效用函数信息发送给基站，所述基站将接收到的各个wi-fi设备的效用函数信息发送给服务器。

进一步地，所述的服务器根据接收到的各个m2m设备和wi-fi设备的资源需求信息，通过机器学习算法训练得到空白子帧的动态分配模型，将所述空白子帧的动态分配模型发送给基站，包括：

设置lte网络中的智能体的动作集合为a＝{a1，a2，a3…am}，其中am为不同的动作，每个动作包含的参数为lte基站的子帧个数以及空白子帧的比例，其中代表一帧中的子帧个数，为空白子帧所占的比例，状态集合为s＝{s1，s2，s3…sn}，其中代表不同的状态，分别代表m2m设备的数据传输速率满意度rsd、时延满意度dsd、wi-fi设备基本的qos要求uwifi，针对每一个动作都有相应的状态与之映射，每一个动作都会使当前状态迁移到下一个状态；

设置lte网络中的智能体的奖赏函数r(s，a)：

r(s,a)＝(1-α)(βrsd+(1-β)dsd)+αuwifi

其中uwifi为wi-fi设备的效用函数，α为公平性因子，β为权重系数；

基于所述奖赏函数r(s，a)采用ε-greedy探索利用策略选择所述动作集合中的最优的动作，根据所述最优的动作映射得到所述状态集合中的对应状态，根据所述对应状态得到空白子帧的动态分配模型。

进一步地，所述的基于所述奖赏函数r(s，a)采用ε-greedy探索利用策略选择所述动作集合中的最优的动作，根据所述最优的动作映射得到所述状态集合中的对应状态，根据所述对应状态得到空白子帧的动态分配模型，包括：

将状态空间s按照一定的约定离散化，离散化后的状态空间s如下：

q(s,a)值的更新规则如下：

基于所述奖赏函数r(s,a)采用-greedy探索利用策略选择

所述动作集合中的最优的动作算法如下：

根据所述最大q(s,a)值对应的动作映射得到所述离散化后的状态空间s中的最优状态，根据所述最优状态得到空白子帧的动态分配模型。

进一步地，所述的方法还包括：

所述rsd的计算公式如下：

r0表示为了满足m2m设备通信的可靠性要求的最小传输速率，rv表示m2m设备通过一次行动策略选择从服务器预测计算获得的实际速率；

所述dsd的计算公式如下：

d0为m2m设备要求最低的时延要求，dv是m2m设备从服务器在训练过程中采取一次行动策略以后获得的平均时延；

uwifi为wi-fi设备得到的系统吞吐量与满足自身基本qos的系统吞吐量的比值。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例基于m2m设备海量的特点，将业务相同且距离很近的m2m设备进行分组，使得业务需求和qos要求类似的设备分在同一个小组，减少信令开销的同时，也使得上传给雾计算服务器的数据具有一致性，提高训练精度与速度。通过机器学习的方法，训练动态分配空白子帧的数学模型，周期性的调整空白子帧的帧结构，提升系统资源的利用率。让m2m通信更加智能化，合理化。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中的一种duty-cycle技术方案示意图；

图2为现有技术中的一种lbt基本原理；

图3为现有技术中的一种abs机制帧结构；

图4为本发明实施例提供的一种基于雾计算与虚拟化的网络架构示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

在m2m通信场景中，通信设备数量众多且在很多应用场景中，m2m设备的时延要求并不是很高，同时又考虑到授权频谱资源紧缺的问题，可以将对时延不敏感的m2m设备卸载到非授权频段进行数据传输。这样在提升系统整体性能的同时，缓解授权频谱资源的压力，也提高了非授权频谱的资源利用率。

本发明实施例采用机器学习的算法动态配置空白子帧结构来合理地分配系统资源，保证公平性的同时，提升系统整体性能。

本发明实施例提出将m2m设备上的相关计算任务卸载到附近的雾计算服务器上，降低m2m的能耗的同时，提高计算效率。

图4为本发明实施例提供的一种基于雾计算与虚拟化的网络架构示意图，在图4的架构中，采用了雾计算和虚拟化结合的分层网络部署方式。主要的工作流程为：

①：位于第二层的物理资源管理器将资源内的物理资源虚拟出多个服务器计算节点等资源，在服务器上采用雾计算。雾计算是一种系统结构，是指不是在本地做计算，而是把数据发送到远端的服务器进行计算。远端服务器比本地服务器有更高的计算性能。

②：基站按照业务需求类似对m2m设备进行分组，将业务需求类似的m2m设备分在同一个组。

③：分组后的m2m设备，通过组长m2m设备与服务器进行信息交互，m2m设备向服务器上报的信息包括要发送的数据的业务类型，数据传输速率满意度和时延满意度。同时wi-fi设备也把自身的基本的qos的要求等实时数据上报给服务器。

服务器接收到m2m设备和wi-fi设备上报的数据后进行机器学习，训练学习abs(almostblacksubframe，空白子帧)动态分配的模型。

④：服务器将训练好的空白子帧的动态分配模型返回给基站，基站根据接收到的空白子帧的动态分配模型对m2m设备和wi-fi设备进行子帧分配，实现信道共享。当网络拓扑发生重大变化后，重新触发服务器训练新的空白子帧的动态分配模型。重复上面的步骤。

在这个过程中，最重要的两个步骤就是设备和子帧的动态分配：

1)设备分组

小区中分布着大量的m2m设备，根据m2m设备的业务特征，基站会把业务需求类似的m2m设备分成一个组，每个组内的mtc成员设备具有类似的qos需求。在组的基础上，把位置相近的mtc设备再分为各个接入组(accessgroup)，每个组分配一个组id(groupid)。因为距离相近的设备其发射信号的时延可以认为是相同的，容易达到通信同步。将设备进行分组的目的是将qos相同的设备集合在一起，然后由组长代表整个组进行上行资源的请求，这样将尽可能避免由于单独m2m设备申请资源时发送sr(schedulingrequest，调度请求)信息造成pucch(physicaluplinkcontrolchannel,物理上行链路控制信道)信道的阻塞，同时也可以提高雾计算服务器训练的准确度。关于组长选取，一般会通过考虑组内m2m设备的剩余电量、信道条件等综合性因素来决定。另外，m2m设备寻找加入组的过程如下：

①m2m设备将自己的位置信息广播给周围的组长m2m设备。

②接收到广播的组长m2m设备计算此m2m设备与自己的距离为dtemp，计算δd＝d-dtemp，d表示预先设定的距离阈值，若δd<0,则表明新m2m设备与自己距离过远，不做处理；若δd>0，则表明新m2m设备与自己距离近，可以加入本组，并向新m2m设备发送允许接入信令、δd值及本组id号。

③新m2m设备如果接收到来自周围多个组长的允许接入信令，则比较δd的大小，选择δd最大的即距离自己最近的那个组接入，并添加收到的组id；如果只接收到一个组长的允许接入信令，则选择接入并添加收到的组id；如果没有收到任何组长的允许接入信令，则向基站报告，基站自动为其添加一个组id，即新建一个组，将新m2m设备暂时定为组长。

2)空白子帧动态分配

分组以后，同组的m2m设备具有类似的业务需要、速率需求以及时延需求。组长将组内m2m设备的基本速率需求和时延需求变化趋势通过基站上传到服务器，同时小组所处范围内的wi-fiap将自身的效用函数上传到服务器。然后，服务器通过机器学习算法训练空白子帧的动态分配模型，将训练好的空白子帧的动态分配模型返回给lte基站，最终，lte基站通过上述模型动态分配子帧个数以及空白子帧个数，并将分配结果信息传输给m2m设备进行资源复用。

上述服务器的q学习算法的如下：

假设lte基站、wi-fi设备、m2m设备以及雾计算服务器都是智能体，服务器中的计算节点根据lte和wi-fi的qos满意度来设置共存系统的帧结构。智能体的动作集合为a＝{a1，a2，a3...am}，其中am为不同的动作，每个动作包含的参数为lte基站的子帧个数以及空白子帧的比例。即其中代表一帧中的子帧个数，为空白子帧所占的比例。状态集合为s＝{s1，s2，s3...sn}，其中代表不同的状态，并且每个状态包含m2m设备的数据传输速率满意度(ratesatisfactiondegree，rsd)、m2m设备的时延满意度(delaysatisfactiondegree，dsd)、wi-fi设备基本的qos要求(uwifi)，即分别代表rsd、dsd和uwifi。针对每一个动作都有相应的状态与之映射，每一个动作都会使当前状态迁移到下一个状态。

上述rsd可以表示为m2m设备得到实际传输速率与自己期望的传输速率的比值，如果实际可以达到的传输速率超过自己的预期，那么满意度就会达到比较大的数值，相反就会很小，而m2m设备的预期传输速率主要是满足自身可靠性的要求，rsd可以表示为：

其中r0表示为了满足m2m设备通信的可靠性要求的最小传输速率，rv表示m2m设备通过一次行动策略选择从服务器预测计算获得的实际速率。

对于dsd，即m2m设备的时延满意度可以表示为m2m实际分配的传输时间与m2m设备的时延要求的比值，比值越大说明服务器分配的资源越能满足m2m的通信要求，相反比值越小m2m的时延就无法得到充分的满足。

其中d0为m2m设备要求最低的时延要求，这里的时延要求是指在一帧调度的时间的要求，并不表示整个m2m通信过程的时延要求。dv是m2m设备从服务器在训练过程中采取一次行动策略以后获得的平均时延。

uwifi为wi-fi设备的效用函数，可以描述为wi-fi设备得到系统吞吐量与满足自身基本qos的系统吞吐量的比值。值得注意的是，本发明主要解决的是系统资源的利用率问题，对于wi-fi设备，如果数据包传输的平均占用时长e[p]较小，则可以考虑分配较少的连续子帧用于wi-fi设备的数据传输以避免资源浪费。为了综合考虑wi-fi系统的性能要求可以将吞吐量建模为离散马尔科夫数学模型，可以得到wi-fi设备的实际可以达到系统吞吐量是关于wi-fi用户数、数据包平均长度等参数的函数：

其中，σ为一个时隙的间隔，为空白子帧所占用的时间比例。

ps：数据包成功传输概率；

ptr：数据发送概率；

e[p]：当数据成功传输时发送数据的平均长度；

tc：为发生碰撞的平均时间。

基于智能机器学习的资源调度还需要一个关键参数就是奖赏矩阵r(s，a)，由于动作集合的任意动作决定了基于lte系统的m2m设备和wi-fi的系统性能，所以每次选择动作都会对应相应的系统满意度，本发明的奖赏函数假设为系统满意度的一个映射函数r(s，a)，可以表示为：

r(s,a)＝(1-α)ul+αuwifi(4)

其中ul和uwifi分别为lte系统和wi-fi系统的效用函数，为了体现公平性，增加了公平性因子α，奖赏函数就可以理解为lte和wi-fi系统效用值的加权和。而lte系统的效用函数ul包括两方面，一方面是m2m设备的时延满意度，一方面是m2m设备的数据传输速率满意度，因此ul可以表示为：

ul＝βrsd+(1-β)dsd(5)

β为权重系数，那么基于智能机器学习的子帧分配算法的奖赏函数就可以表示为：

r(s,a)＝(1-α)(βrsd+(1-β)dsd)+αuwifi(6)

训练过程中智能体的状态空间s＝{s1，s2，s3…sn}由不同的行为策略映射生成，为了减少学习时间，可以将状态空间按照一定的约定离散化：

对于动作的选择，本发明采用ε-greedy探索利用策略选择最优的动作，即动作选择有一定的随机性，其中ε是一个小于1的很小的数值，智能体以1-ε的概率选择q(s,a)值最大时对应的行动策略，以小概率ε随机选择任意行动策略。这样选择的好处在于更具有实际意义，在实际的系统中智能体可能会因为自身原因导致每次的学习并不是选择最优q值进行策略选择。q(s,a)值的更新规则如下：

其中λ表示训练效率，λ的取值越大算法收敛需要的时间越长。相反，所需要的收敛时间就越短。γ表示折扣因子，表示当前的奖赏对未来收益影响的大小。在智能体每次选择一个策略以后会根据公式进行q(s,a)值的更新。基本的算法描述如下所示：

根据所述最大q(s,a)值对应的动作映射得到所述离散化后的状态空间s中的最优状态，根据所述最优状态得到空白子帧的动态分配模型。

综上所述，本发明实施例基于m2m设备海量的特点，首先将业务相同且距离很近的m2m设备进行分组，使得业务需求和qos要求类似的设备分在同一个小组，减少信令开销的同时，也使得上传给雾计算服务器的数据具有一致性，提高训练精度与速度。通过机器学习的方法，训练动态分配空白子帧的数学模型，周期性的调整空白子帧的帧结构，提升系统资源的利用率。让m2m通信更加智能化，合理化。将授权频段的m2m设备卸载到非授权频段不仅可以提升系统整体的性能，同时也可以提高非授权频段的频谱资源利用率，缓解授权频谱资源的压力。

本发明实施例采用雾计算结合虚拟化的网络架构，避免资源的浪费，提升系统资源利用率。由于雾计算服务器的计算能力远大于m2m设备，因此通过雾计算进行机器学习以及相关信息的处理在反馈给m2m设备，可以减低m2m设备的能耗。在这种模式下，m2m设备只需要发送自身的信息与接收相关信息，其他数据的处理全部由雾计算服务器代劳。符合绿色通信的理念。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐少毅;王宁
技术所有人：北京交通大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。