一种基于深度强化学习的无人机中继抗干扰方法

文档序号:26954668发布日期:2021-10-16 03:15阅读:279来源:国知局
一种基于深度强化学习的无人机中继抗干扰方法

1.本发明涉及无人机技术领域,尤其涉及一种基于深度强化学习的无人机中继抗干扰方法。


背景技术:

2.由于无线通信的广播性质,单架无人机与地面站之间的通信很容易受到地面敌意干扰机的干扰。除此之外,通常单架无人机执行任务时距离地面站较远,路径损耗会很大。在这两个主要因素的影响下,单架无人机与地面站之间的直通链路会受到更加严重的干扰,造成接收信号质量下降、信息误差或者丢失。
3.传统的无人机抗干扰方案大多是通过优化发射功率来提高抗干扰性能,但是,当源无人机距离地面站较远时,路径损耗非常大,仅仅通过优化源无人机的发射功率无法实现理想的抗干扰性能。同时,传统的无人机抗干扰方案需要知道具体的信道模型和干扰模型来优化发射功率,这极大的限制了方案在实际场景中的应用效果。


技术实现要素:

4.本发明要解决的技术问题,在于提供一种基于深度强化学习的无人机中继抗干扰方法,可在不知道具体干扰模型和信道模型的情况下,显著提高通信系统的抗干扰性能。
5.本发明是这样实现的,一种基于深度强化学习的无人机中继抗干扰方法,包括:
6.步骤1、搭建无人机协作通信网络,包括地面节点、源无人机、中继无人机、智能干扰机和固定干扰机,地面节点与源无人机之间通过中继无人机转发消息,干扰机对地面节点和中继无人机节点同时发射干扰信号,所述通信网络中的无人机节点集定义为u={u
n
},0≤n≤n,u0为源无人机节点,u
r
为中继无人机节点,1≤r≤n;
7.步骤2、将观察到的当前时隙的状态作为目标q神经网络的输入,经目标q神经网络分析后得到所有动作的q值,根据ε

greedy策略来选择当前时隙的动作,计算当前时隙下的误比特率、信号干扰噪声比、中断率和效益,观察下一个时隙的状态,将经验e存放到经验池中,从经验池中随机抽取若干个历史经验并采用随机梯度下降算法更新q神经网络参数θ,所述当前时隙的状态包括上一个时隙的发射功率、上一个时隙的误比特率和上一个时隙的信号干扰噪声比,所述动作包括当前时隙的发射功率和当前时隙的中继无人机,所述经验e包括当前时隙的状态、当前时隙的动作、当前时隙的效益和下一时隙的状态;
8.步骤3、依次对划分的时隙执行步骤2中的操作,并在每间隔固定时隙t更新一次目标q网络的参数令
9.进一步的,在第k个时隙,u0选择一个u
r
,并以p
(k)
的发射功率向u
r
发送消息,u
r
接收到消息之后,计算接收消息的信号干扰噪声比和误比特率并判断传输是否中断,若传输没有中断,u
r
再以固定的中继功率p
r
向地面节点中继消息,地面节点接收到消息之后,计算接收消息的信号干扰噪声比和误比特率并判断传输是否中断,若传输没有中
断那么整个通信过程的信号干扰噪声比和误比特率的获取方式如下:
[0010][0011][0012]
进一步的,所述“判断传输是否中断”的方式具体为:将信号干扰噪声比与阈值τ比较,若信号干扰噪声比大于所述阈值τ,则判为通信过程没有中断。
[0013]
进一步的,所述中断率的计算公式如下:
[0014][0015]
进一步的,用j1表示智能干扰机,j2表示固定干扰机,所述智能干扰机j1的干扰功率最大为j
max
,干扰功率被量化成y级,b为干扰功率集,智能干扰机采取动作之后的效益计算公式如下:
[0016][0017]
其中i等于0或1,c
j
表示智能干扰机能耗的权重,i{
·
}代表中断指示函数,如果此次传输中断(o=1)则为1,没中断(o=0)则为0,智能干扰机j1通过观察上一个时隙的信号干扰噪声比ρ
(k

1)
,选择干扰功率,目的是提高中断率和最大化效益,固定干扰机j2的干扰功率一直保持一个固定的值。由于干扰机全方位发射干扰信号,中继无人机u
r
和地面节点都会受到干扰,对于智能干扰机,需要通过强化学习来选择自己的干扰功率。
[0018]
进一步的,所述信号干扰噪声比的具体计算公式如下:
[0019][0020]
其中,ρ
m

n
表示m节点发送消息到n节点时,n节点接收消息的信号干扰噪声比,p表示m节点的发射功率,h
m

n
表示m节点到n节点路径损耗的db值的倍数,p
ji
表示干扰机的功率,其中,i取1或0,p
j1
表示智能干扰机j1的功率,p
j2
表示固定干扰机j2的功率,h
i

n
表示什么干扰机ji节点到n节点路径损耗的db值的倍数,σ2为背景噪声的功率;
[0021]
所述h
m

n
的计算公式如下:
[0022][0023]
其中l
m

n
(r)表示m节点到n节点的路径损耗,具体计算公式如下:
[0024][0025]
所述r为m、n两个节点之间的欧氏距离,0≤m≠n≤n,c为光速,f为通信频率,α
p
表示路径损耗指数,当m和n节点为源无人机节点和中继无人机节点时,α
p
=2.05,当m和n节点为中继无人机和地面节点时,α
p
=2.32。
[0026]
进一步的,所述误比特率的计算公式如下:
[0027]
[0028]
其中,ρ表示信号干扰噪声比。
[0029]
进一步的,所述效益的计算公式如下:
[0030]
u
(k)
=10

δb
(k)

c
u
p
(k)
[0031]
其中δ表示误比特率的权重,c
u
表示能耗的权重。
[0032]
进一步的,所述q神经网络参数θ的更新公式如下:
[0033][0034]
其中s,x,u,s

分别表示经验e中的状态、动作、效益和下一个状态,γ表示折扣因子,x’表示s’状态下的动作,表示在下一个状态s’时选择动作x’后对应的q值,α表示学习率。
[0035]
本发明的优点在于:采用深度强化学习算法同时优化源无人机的发射功率和中继无人机,能够有效降低通信系统的误比特率和中断率,提高抗干扰性能的同时,有效降低源无人机的能耗,且无需知道具体的信道模型和干扰模型,更加适合实际应用,便于推广。
附图说明
[0036]
下面参照附图结合实施例对本发明作进一步的说明。
[0037]
图1为本发明一种基于深度强化学习的无人机中继抗干扰方法的执行流程图。
[0038]
图2为本发明一实施例中通信网络系统模型示意图。
[0039]
图3为本发明一实施例中误比特率与采用传统的抗干扰方法的误比特率的比较示意图。
[0040]
图4为本发明一实施例中源无人机能耗与采用传统的抗干扰方法的源无人机能耗的比较示意图。
[0041]
图5为本发明一实施例中中断率与采用传统的抗干扰方法的中断率的比较示意图。
具体实施方式
[0042]
本发明提供的是一种基于深度强化学习的无人机中继抗干扰方案,所优化的抗干扰性能指标为接收消息的误比特率、通信系统的中断率以及源无人机的能耗,该方案为联合优化方案,具体为,第一,在地面站和源无人机之间设置多个中继无人机,通过中继转发消息来减少每一次传输的路径损耗,第二,通过应用深度强化学习算法dqn,源无人机可以获得最优的发射功率和中继无人机来提高抗干扰性能。最后,由仿真结果可知,本发明所提方案可以在不知道具体干扰模型和信道模型的情况下,显著提高通信系统的抗干扰性能。
[0043]
如图1所示,本发明的一种基于深度强化学习的无人机中继抗干扰方法,包括:
[0044]
步骤1、搭建无人机协作通信网络,包括地面节点、源无人机、中继无人机、智能干扰机和固定干扰机,地面节点与源无人机之间通过中继无人机转发消息,干扰机对地面节点和中继无人机节点同时发射干扰信号,所述通信网络中的无人机节点集定义为u={u
n
},0≤n≤n,u0为源无人机节点,u
r
为中继无人机节点,1≤r≤n,将源无人机飞行周期划分为若干个通讯时隙。在该通信网络中,无人机节点都悬停在不同的高度,干扰机位于地面,源无
人机节点与地面节点的直通链路因为干扰而受损,中继无人机节点可以帮助源无人机节点中继消息到地面节点,假设反馈信道不会被干扰,反馈信道用于将误比特率和信号干扰噪声比传输到源无人机节点u0;
[0045]
步骤2、将观察到的当前时隙的状态作为目标q神经网络的输入,经目标q神经网络分析后得到所有动作的q值,根据ε

greedy策略来选择当前时隙的动作,计算当前时隙下的误比特率、信号干扰噪声比、中断率和效益,观察下一个时隙的状态,将经验e存放到经验池中,从经验池中随机抽取若干个历史经验并采用随机梯度下降算法更新q神经网络参数θ,所述当前时隙的状态包括上一个时隙的发射功率、上一个时隙的误比特率和上一个时隙的信号干扰噪声比,所述动作包括当前时隙的发射功率和当前时隙的中继无人机,所述经验e包括当前时隙的状态、当前时隙的动作、当前时隙的效益和下一时隙的状态;本发明提出的是一种基于dqn的无人机中继抗干扰方案,dqn是一种将神经网络和q学习融合在一起的深度强化学习算法。当要用q学习解决的问题比较复杂时,状态空间或者动作集会比较大。如果每次都从很大的q表中检索状态,就会降低学习效率。这里将状态作为神经网络的输入,然后经过神经网络分析后得到所有动作的q值,这样就避免构建一张很大的q表来存储q值。
[0046]
步骤3、依次对划分的时隙执行步骤2中的操作,并在每间隔固定时隙t更新一次目标q网络的参数令比如在第k个时隙,系统状态定义为s
(k)
=[p
(k

1)
,b
(k

1)

(k

1)
],其包含上一个时隙的发射功率p
k
‑1、误比特率b
k
‑1、信号干扰噪声比ρ
k
‑1,u0选择动作为a为源节点的动作集合,包含可选发射功率p
k
和中继无人机u
r
。在u0发送消息后,接收消息的误比特率和信号干扰噪声比分别在u
r
和地面节点进行计算,然后通过反馈信道将结果发送到u0并计算该时隙的效益u
(k)
。下一个时隙,u0观察反馈结果确定新的状态,然后基于此状态继续选择新的动作。以此类推。
[0047]
较佳的,在第k个时隙,u0选择一个u
r
,并以p
(k)
的发射功率向u
r
发送消息,u
r
接收到消息之后,计算接收消息的信号干扰噪声比和误比特率并判断传输是否中断,若传输没有中断,u
r
再以固定的中继功率p
r
向地面节点中继消息,地面节点接收到消息之后,计算接收消息的信号干扰噪声比和误比特率并判断传输是否中断,若传输没有中断那么整个通信过程的信号干扰噪声比和误比特率的获取方式如下:
[0048][0049][0050]
其中,中继无人机节点的协作方式可以设定为解码转发(df),u0的发射功率p
(k)
最大为p
max
,发射功率被量化成m级,例如p
(k)
={mp
max
/m},1≤m≤m。
[0051]
较佳的,所述“判断传输是否中断”的方式具体为:将信号干扰噪声比与阈值τ比较,若信号干扰噪声比大于所述阈值τ,则判为通信过程没有中断。
[0052]
较佳的,所述中断率的计算公式如下:
[0053][0054]
较佳的,用j1表示智能干扰机,j2表示固定干扰机,所述智能干扰机j1的干扰功率
最大为j
max
,干扰功率被量化成y级,b为干扰功率集,智能干扰机采取动作之后的效益计算公式如下:
[0055][0056]
其中i等于0或1,c
j
表示智能干扰机能耗的权重,i{
·
}代表中断指示函数,如果此次传输中断(o=1)则为1,没中断(o=0)则为0,智能干扰机j1通过观察上一个时隙的信号干扰噪声比ρ
(k

1)
,选择干扰功率,目的是提高中断率和最大化效益,固定干扰机j2的干扰功率一直保持一个固定的值。由于干扰机全方位发射干扰信号,中继无人机u
r
和地面节点都会受到干扰,对于智能干扰机,需要通过强化学习来选择自己的干扰功率。
[0057]
较佳的,干扰机的干扰会影响通信网络中任意两个节点之间的通信质量。所述信号干扰噪声比的具体计算公式如下:
[0058][0059]
其中,ρ
m

n
表示m节点发送消息到n节点时,n节点接收消息的信号干扰噪声比,p表示m节点的发射功率,h
m

n
表示m节点到n节点路径损耗的db值的倍数,p
ji
表示干扰机的功率,其中,i取1或0,p
j1
表示智能干扰机j1的功率,p
j2
表示固定干扰机j2的功率,h
i

n
表示什么干扰机ji节点到n节点路径损耗的db值的倍数,σ2为背景噪声的功率;发送消息的编码调制方式可以采用qpsk;
[0060]
所述h
m

n
的计算公式如下:
[0061][0062]
其中l
m

n
(r)表示m节点到n节点的路径损耗(通过上面的公式将路径损耗l
m

n
(r)的db值转换成倍数h
m

n
),l
m

n
(r)具体计算公式如下:
[0063][0064]
所述r为m、n两个节点之间的欧氏距离,0≤m≠n≤n,c为光速,f为通信频率,α
p
表示路径损耗指数,由于u0到u
r
的通信信道为空对空信道,其路径损耗可以用自由空间的传播来描述,所以在空对空信道中路径损耗具有较低的衰落率。但是对于u
r
到地面节点的空对地信道来讲,由于地面节点附近的物体以及更严重的路径损耗,衰落在空对地信道中占主导地位,因此当m和n节点为源无人机节点和中继无人机节点时,α
p
=2.05,当m和n节点为中继无人机和地面节点时,α
p
=2.32。
[0065]
较佳的,所述误比特率的计算公式如下:
[0066][0067]
其中,ρ表示信号干扰噪声比。
[0068]
较佳的,所述效益的计算公式如下:
[0069]
u
(k)
=10

δb
(k)

c
u
p
(k)
[0070]
其中δ表示误比特率的权重,c
u
表示能耗的权重。
[0071]
较佳的,所述q神经网络参数θ的更新公式如下:
[0072][0073]
其中s,x,u,s

分别表示经验e中的状态、动作、效益和下一个状态,γ表示折扣因子,x’表示s’状态下的动作,表示在下一个状态s’时选择动作x’后对应的q值,α表示学习率。
[0074]
在每个时隙,u0都会将经验e
(k)
={s
(k)
,x
(k)
,u
(k)
,s
(k+1)
}存放到自己的经验池中,经验池定义为r={e
(i)
},1≤i≤k

1。q网络和目标q网络结构相同,初始时网络参数相同q网络的网络参数θ每个时隙都会更新,更新时,u0从经验池中随机抽取多个历史经验,采用随机梯度下降算法更新θ,损失函数为从而根据该损失函数得到上述θ的更新公式。目标q网络的网络参数每隔固定时隙t更新一次,更新时直接使目标q网络用来计算目标值,可以降低当前q值与目标q值之间的相关性。
[0075]
下面根据本发明的上述技术方案设定详细算法步骤流程如下:
[0076]
1:初始化:γ,p
(0)
,b
(0)

(0)
,p
j2
,ε,τ,c
u
,c
j
,δ,
[0077]
2:for k=1,2,3

do
[0078]
3:观察状态s
(k)
=[p
(k

1)
,b
(k

1)

(k

1)
]
[0079]
4:得到神经网络输出的q值,根据ε

greedy策略选择动作x
(k)
=[p
(k)
,u
r(k)
]
[0080]
5:分别计算ρ
(k)
,b
(k)
[0081]
6:计算中断率
[0082]
7:计算u
(k)
[0083]
8:观察下一个状态s
(k+1)
=[p
(k)
,b
(k)

(k)
]
[0084]
9:将经验e
(k)
={s
(k)
,x
(k)
,u
(k)
,s
(k+1)
}存放到经验池r中
[0085]
10:从经验池中随机抽取z个经验
[0086]
11:更新网络参数θ
[0087]
12:ifk等于t的整数倍then
[0088]
13:令
[0089]
14:end if
[0090]
15:令s
(k)
=s
(k+1)
,进行状态迭代
[0091]
16:end for
[0092]
为了对本发明做更详细的说明,下面结合一具体实施例进行说明:
[0093]
如图2所示,该实施例中采用一个三维坐标系表示通信网络,网络中设置有3个可选中继无人机节点u
r
(即包括u1,u2,u3),分别位于(10,30,30),(20,20,20),(30,10,10);1个源无人机节点u0坐标(40,40,40);1个地面节点g坐标(0,0,0);2个干扰机(固定干扰机j2(110,0,0)和智能干扰机j1(0,110,0)。根据国内通用的无人机标准,设置通信频率f为2.4ghz。源节点的发射功率p
(k)
范围在[30,100]mw,均匀量化为5级。考虑到中继节点与地面
节点和干扰机之间的距离关系,中继功率p
r
设置为60mw。固定干扰机的干扰功率设置为30mw,智能干扰机的干扰功率范围在[10,40]mw,均匀量化为4级。背景噪声功率σ2设置为

100dbm,阈值τ设置为10db。dqn算法中,学习率α=0.001,折扣因子γ=0.5,δ=3000,c
u
=100,c
j
=60。
[0094]
基于本发明的上述算法并采用了matlab中的最小二乘平滑滤波函数sgolayfilt对仿真结果进行滤波处理,减少了仿真结果中的误差,可使曲线看起来更加平滑。如图3所示,基于本发明的dqn的无人机中继抗干扰方案的误比特率相比于另外两个传统方案都有一定程度的优化。其中,基于q学习的无人机中继抗干扰方案的误比特率从初始时的7.2
×
10
‑4开始下降,最后在4500个时隙左右收敛到2.8
×
10
‑5。同时,基于dqn的无人机中继抗干扰方案的误比特率从相同的数值开始下降,最后在2000个时隙左右收敛到7.1
×
10
‑6。由此可知,发明所提算法收敛速度更快,学习效果更好。如图4所示,给出了源无人机能耗的变化图。基于dqn的无人机中继抗干扰方案无论是收敛速度还是最终结果都要优于其他两种方案。在基于q学习的无人机中继抗干扰方案中,能耗从初始时的65mj开始下降,最后在4500个时隙左右收敛到36.2mj。而在发明所提方案中,能耗也从相同的数值开始下降,仅仅经过2000个时隙就收敛到30.4mj,相比其他方案有更好的学习效果。如图5所示,基于dqn的无人机中继抗干扰方案可以有效降低通信系统的中断率,而且较其他两种传统方案来说下降程度更大。在基于q学习的无人机中继抗干扰方案中,中断率从0.24开始下降,最后在4500个时隙左右收敛到0.08。而在发明所提方案中,中断率也是从0.24开始下降,最后在2000个时隙左右收敛到0.005,相比于前者的结果大约降低了93.75%。
[0095]
本发明与传统的无人机功率优化抗干扰方案不同,在本发明所提出的联合优化方案中,源无人机既可以通过选择中继无人机来减少路径损耗,又可以根据中继无人机的位置来优化发射功率。该方案可以显著提高通信系统的抗干扰性能。同时,本发明在联合优化方案中应用深度强化学习算法,提出了基于dqn的无人机中继抗干扰方案。该方案无需知道具体的信道模型和干扰模型,通过不断地试错和总结经验,源无人机可以获得最优的通信策略。所以该方案更适合实际场景中应用,并具有一定的普适性。
[0096]
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1