一种卫星通信信道建模方法及装置

文档序号:37297816发布日期:2024-03-13 20:46阅读:12来源:国知局
一种卫星通信信道建模方法及装置

本发明涉及无线通信,尤其涉及一种卫星通信信道建模方法及装置。


背景技术:

1、信道建模在卫星通信系统设计中具有的重大作用。传统的信道建模方法在得到测量的卫星通信信道数据后,需要大量的时间和人力成本来拟合信道的数学模型。为了解决这个问题,有研究者使用神经网络直接作为信道模型。但是,使用神经网络直接作为信道模型的方法因为神经网络的不可解释性导致其难以揭示信道参数之间的数学关系和物理机理。


技术实现思路

1、本发明所要解决的技术问题在于,针对卫星通信系统信道建模需要大量的时间和人力成本以及使用神经网络直接作为信道模型的可解释性不足的问题,提供一种卫星通信信道建模方法及装置,基于transformer符号回归进行卫星通信信道建模,利用transformer神经网络作为符号回归的实现工具从信道测量数据中直接拟合出信道数学模型,在节省人力的同时避免了神经网络的不可解释性问题,可以揭示信道参数之间的数学关系和物理机理。

2、为了解决上述技术问题,本发明实施例第一方面公开了一种卫星通信信道建模方法,所述方法包括:

3、s1,获取卫星通信信道数据信息;

4、所述卫星通信信道数据信息包括接收端之间的距离、信号功率和信号频率;

5、s2,构建基于transformer的符号回归模型;

6、s3,对所述卫星通信信道数据信息进行处理,得到transformer符号回归系统参数;

7、s4,根据所述基于transformer的符号回归模型,对所述transformer符号回归系统参数和所述卫星通信信道数据信息进行处理,得到卫星通信信道数学表达模型,实现卫星通信信道建模。

8、作为一种可选的实施方式,本发明实施例第一方面中,所述构建基于transformer的符号回归模型,包括:

9、s21,构建神经网络结构和神经网络的数学表示模型;

10、s22,基于所述神经网络结构,建立符号回归系统的符号搜索空间;

11、s23,基于所述神经网络结构、所述神经网络的数学表示模型和所述符号搜索空间,建立环境、状态、动作和奖励函数,得到符号回归初始模型;

12、s24,利用近端策略优化方法,根据所述卫星通信信道数据信息,对所述符号回归初始模型进行训练,得到基于transformer的符号回归模型。

13、作为一种可选的实施方式,本发明实施例第一方面中,所述神经网络结构包括输入线性层、transformer神经网络的编码器和输出线性层;

14、所述符号搜索空间包括所述卫星通信信道数据信息和运算符号。

15、作为一种可选的实施方式,本发明实施例第一方面中,所述建立环境、状态、动作和奖励函数,包括:

16、s231,对所述神经网络的数学表示模型进行处理,得到环境;

17、所述环境为二叉树,所述二叉树由变量、系数、运算符号、单目运算符和双目运算符构成;所述变量和所述系数是度为0的节点,所述运算符号是度不为0的节点,所述单目运算符的度为1,所述双目运算符的度为2;

18、s232,所述二叉树的当前节点、前一节点、父节点和兄弟节点组成状态state;

19、所述状态state为:

20、{当前节点、前一节点、父节点、兄弟节点}

21、s233,选择符号空间中某一个符号作为动作action;

22、s234,建立奖励函数;

23、所述奖励函数为:

24、

25、其中,r为奖励值,σy为目标值的标准差,n为采样点数量,xi,yi为测量到的信道数据点和标签,i=1,2,…,n,f(·)为神经网络拟合的函数。

26、作为一种可选的实施方式,本发明实施例第一方面中,所述利用近端策略优化方法,根据所述卫星通信信道数据信息,对所述符号回归初始模型进行训练,得到基于transformer的符号回归模型,包括:

27、s241,基于所述神经网络结构,建立策略神经网络和评估神经网络;

28、s242,利用所述策略神经网络,对所述状态state进行处理,得到符号空间中元素的概率分布;

29、s243,根据所述概率分布,对所述动作action进行采样,得到动作采样值;

30、s244,对所述动作采样值中的当前状态和当前动作进行处理,得到下一个状态,并更新表达式{当前节点、前一节点、父节点、兄弟节点};

31、s245,对所述下一个状态进行处理,判断是否达到终止状态;如果达到终止状态,利用所述奖励函数,对所述卫星通信信道数据信息进行处理,得到奖励值;如果未达到终止状态,利用所述评估神经网络对所述当前状态和当前动作进行处理,得到奖励值;

32、s246,将表达式{当前状态,下一个状态,当前动作,奖励值}存储到经验池中;

33、s247,判断是否需要更新网络,如果是,对所述策略神经网络和评估神经网络进行更新,得到更新策略神经网络和更新评估神经网络;

34、s248,基于所述更新策略神经网络和所述更新评估神经网络,执行s242~s247;

35、s249,当奖励达到1,或达到预设的最大训练次数时,停止训练,得到基于transformer的符号回归模型。

36、作为一种可选的实施方式,本发明实施例第一方面中,所述对所述策略神经网络和评估神经网络进行更新,得到更新策略神经网络和更新评估神经网络,包括:

37、s2471,当训练次数达到预设的阈值时,对经验池中的表达式按照终止节点的奖励值排序,对排序前10%的表达式进行处理,得到评估网络损失;

38、所述评估网络损失为:

39、critic_loss=mse(fc(state)-critic_rewards)

40、其中,critic_loss为评估网络损失,fc(·)为评估神经网络,state为状态,next_state为下一状态,r为奖励值,critic_rewards=r+γ*fc(next_state),mse(·)为均方误差函数,γ为深度强化学习中的折扣系数;

41、s2472,对所述评估网络损失反向传播,得到更新评估神经网络;

42、s2473,对预设的策略网络损失函数反向传播,得到更新策略神经网络;

43、所述预设的策略网络损失函数为:

44、

45、其中,actor_loss为策略网络损失函数,e[]表设计求数学期望,min()表示求最小值,表示当前策略神经网络fa(·)在状态state下得到动作a的概率,表示前一个策略神经网络fa_old(·)在状态state下得到动作a的概率,a为优势函数,clip(·)为截断函数。

46、作为一种可选的实施方式,本发明实施例第一方面中,所述transformer符号回归系统参数,包括学习率、batch_size、折扣系数、迭代次数m和退出条件;

47、所述退出条件为迭代次数大于m或奖励达到1。

48、本发明实施例第二方面公开了一种卫星通信信道建模装置,所述装置包括:

49、数据获取模块,用于获取卫星通信信道数据信息;

50、所述卫星通信信道数据信息包括接收端之间的距离、信号功率和信号频率;

51、符号回归模型构建模块,用于构建基于transformer的符号回归模型;

52、符号回归系统参数获取模块,用于对所述卫星通信信道数据信息进行处理,得到transformer符号回归系统参数;

53、卫星通信信道建模模块,用于根据所述基于transformer的符号回归模型,对所述transformer符号回归系统参数进行处理,得到卫星通信信道数学表达模型,实现卫星通信信道建模。

54、作为一种可选的实施方式,本发明实施例第二方面中,所述构建基于transformer的符号回归模型,包括:

55、s21,构建神经网络结构和神经网络的数学表示模型;

56、s22,基于所述神经网络结构,建立符号回归系统的符号搜索空间;

57、s23,基于所述神经网络结构、所述神经网络的数学表示模型和所述符号搜索空间,建立环境、状态、动作和奖励函数,得到符号回归初始模型;

58、s24,利用近端策略优化方法,根据所述卫星通信信道数据信息,对所述符号回归初始模型进行训练,得到基于transformer的符号回归模型。

59、作为一种可选的实施方式,本发明实施例第二方面中,所述神经网络结构包括输入线性层、transformer神经网络的编码器和输出线性层;

60、所述符号搜索空间包括所述卫星通信信道数据信息和运算符号。

61、作为一种可选的实施方式,本发明实施例第二方面中,所述建立环境、状态、动作和奖励函数,包括:

62、s231,对所述神经网络的数学表示模型进行处理,得到环境;

63、所述环境为二叉树,所述二叉树由变量、系数、运算符号、单目运算符和双目运算符构成;所述变量和所述系数是度为0的节点,所述运算符号是度不为0的节点,所述单目运算符的度为1,所述双目运算符的度为2;

64、s232,所述二叉树的当前节点、前一节点、父节点和兄弟节点组成状态state;

65、所述状态state为:

66、{当前节点、前一节点、父节点、兄弟节点}

67、s233,选择符号空间中某一个符号作为动作action;

68、s234,建立奖励函数;

69、所述奖励函数为:

70、

71、其中,r为奖励值,σy为目标值的标准差,n为采样点数量,xi,yi为测量到的信道数据点和标签,i=1,2,…,n,f(·)为神经网络拟合的函数。

72、作为一种可选的实施方式,本发明实施例第一方面中,所述利用近端策略优化方法,根据所述卫星通信信道数据信息,对所述符号回归初始模型进行训练,得到基于transformer的符号回归模型,包括:

73、s241,基于所述神经网络结构,建立策略神经网络和评估神经网络;

74、s242,利用所述策略神经网络,对所述状态state进行处理,得到符号空间中元素的概率分布;

75、s243,根据所述概率分布,对所述动作action进行采样,得到动作采样值;

76、s244,对所述动作采样值中的当前状态和当前动作进行处理,得到下一个状态,并更新表达式{当前节点、前一节点、父节点、兄弟节点};

77、s245,对所述下一个状态进行处理,判断是否达到终止状态;如果达到终止状态,利用所述奖励函数,对所述卫星通信信道数据信息进行处理,得到奖励值;如果未达到终止状态,利用所述评估神经网络对所述当前状态和当前动作进行处理,得到奖励值;

78、s246,将表达式{当前状态,下一个状态,当前动作,奖励值}存储到经验池中;

79、s247,判断是否需要更新网络,如果是,对所述策略神经网络和评估神经网络进行更新,得到更新策略神经网络和更新评估神经网络;

80、s248,基于所述更新策略神经网络和所述更新评估神经网络,执行s242~s247;

81、s249,当奖励达到1,或达到预设的最大训练次数时,停止训练,得到基于transformer的符号回归模型。

82、作为一种可选的实施方式,本发明实施例第二方面中,所述对所述策略神经网络和评估神经网络进行更新,得到更新策略神经网络和更新评估神经网络,包括:

83、s2471,当训练次数达到预设的阈值时,对经验池中的表达式按照终止节点的奖励值排序,对排序前10%的表达式进行处理,得到评估网络损失;

84、所述评估网络损失为:

85、critic_loss=mse(fc(state)-critic_rewards)

86、其中,critic_loss为评估网络损失,fc(·)为评估神经网络,state为状态,next_state为下一状态,r为奖励值,critic_rewards=r+γ*fc(next_state),mse(·)为均方误差函数,γ为深度强化学习中的折扣系数;

87、s2472,对所述评估网络损失反向传播,得到更新评估神经网络;

88、s2473,对预设的策略网络损失函数反向传播,得到更新策略神经网络;

89、所述预设的策略网络损失函数为:

90、

91、其中,actor_loss为策略网络损失函数,e[]表设计求数学期望,min()表示求最小值,表示当前策略神经网络fa(·)在状态state下得到动作a的概率,表示前一个策略神经网络fa_old(·)在状态state下得到动作a的概率,a为优势函数,clip(·)为截断函数。

92、作为一种可选的实施方式,本发明实施例第一方面中,所述transformer符号回归系统参数,包括学习率、batch_size、折扣系数、迭代次数m和退出条件;

93、所述退出条件为迭代次数大于m或奖励达到1。

94、本发明第三方面公开了另一种卫星通信信道建模装置,所述装置包括:

95、存储有可执行程序代码的存储器;

96、与所述存储器耦合的处理器;

97、所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的卫星通信信道建模方法中的部分或全部步骤。

98、本发明第四方面公开了一种计算机可存储介质,所述计算机可存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明实施例第一方面公开的卫星通信信道建模方法中的部分或全部步骤。

99、与现有技术相比,本发明实施例具有以下有益效果:

100、本发明提出一种基于transformer符号回归的卫星通信信道建模方法,便于从大量测量得到的卫星通信信道数据中推理其数学表达模型,解决了传统信道建模方法费时费力的问题,并避免了直接使用神经网络作为信道模型导致的信道“黑盒”问题,有利于高效建立信道模型,并揭示信道参数之间的数学关系和物理机理,有助于促进无线通信系统的发展。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1