本发明涉及车联网联邦学习,具体涉及一种面向车联网联邦学习的车辆选择与资源优化方法和系统。
背景技术:
1、将联邦学习应用在车联网系统中会面临一系列的挑战。首先,由于车辆客户端资源的异构性,它们完成联邦学习任务所需的时间以及能耗是不同的,如果每次都选择选择性能表现较好的车辆客户端能加速训练过程,但是剥夺性能表现较差的客户端却可能会导致训练数据多样性不足,使数据出现偏向性,从而影响模型的最终效果。其次,完成联邦学习任务需要消耗车辆宝贵的能源资源,同时耗时也非常多,但是车联网环境以及新能源汽车对时延以及能耗有着严格的限制。因此,如何公平地选择车辆参与学习和优化资源分配是至关重要的。
技术实现思路
1、鉴于此,本发明提出了一种面向车联网联邦学习的车辆选择与资源优化方法和系统,综合考虑了车辆的计算能力,传输能力以及参与联邦学习任务的次数,动态地选择参与每轮联邦学习任务的车辆客户端并对参与车辆的资源进行优化,能同时提高车联网联邦学习的模型精度以及训练效率。
2、为达到上述目的,本发明提供如下技术方案:
3、一种面向车联网联邦学习的车辆选择与资源优化方法,针对车辆数量为n,并需要进行t轮学习的车联网联邦学习,包括以下步骤:
4、s1:按照训练轮次周期性地获取各个车辆必要的资源信息;
5、所述资源信息包括:车辆cpu最大计算频率可用带宽大小bt,n以及私有数据集的大小|dt,n|,其中下标t表示当前学习轮次,下标n表示对应系统中的车辆n;
6、s2:根据获取的每个车辆的资源信息选择参与联邦学习任务的车辆并对其进行联合资源优化,包括:
7、s21根据每个车辆汇报的cpu频率大小可用带宽大小bt,n以及私有数据集的大小|dt,n|,使用线性回归的方法对每个车辆单前的固有参数进行估计,所述固有参数包括,车辆单前的上行无线信道增益车辆当前计算每个样本所需的cpu周期ρt,n以及车辆当前的有效开关电容kn;
8、s22使用基于深度强化学习模型训练的决策模型a得到本地最优频率以及本地最优发射功率
9、决策模型a的输入为每个车辆的资源信息向量:
10、所述决策模型a训练中的激励为:
11、
12、其中,ψt,n(ft,n,gt,n)表示车辆n在本轮学习中的本地成本函数,有:
13、ψt,n(ft,n,gt,n)=λττt,n+λeet,n,
14、其中,λτ与λe是用于调节因本地训练所带来的时延τt,n与能耗et,n之间的重要性的权重参数;
15、所述决策模型a的输出为每个车辆的本地最优频率以及本地最优发射功率
16、s23计算并选择出使得漂移-成本函数c最小的|st|个车辆,称这些车辆的集合为st,有:
17、
18、
19、其中,表示所选车辆本地最优频率集合,表示所选车辆本地最优发射功率集合,δ为整个联邦学习轮次t内车辆n的参与次数最低阈值,表示参与联邦学习所有车辆的集合,qt,n为一每轮更新的虚拟标量,有:
20、qt+1,n=max(qt,n+δ-at,n,0),
21、at,n代表的是车辆客户端n是否参加了第t轮联邦学习,如果参加了,at,n=1,否则at,n=0,v是一个给定的,旨在平衡最小化系统成本函数和满足公平约束之间的权衡惩罚因子;
22、s24针对车辆集合st,使用另一基于深度强化学习模型训练的决策模型b,得到集合st内各车最终的最优频率以及上传模型的最优发射功率
23、决策模型b的输入为所选择车辆的资源信息向量:
24、所述决策模型b训练中的激励为:表示所选车辆车载cpu的频率集合,表示所选车辆的发射功率集合;
25、所述决策模型b的输出为每个被选择车辆的最优频率以及最优发射功率
26、s3向本轮所选车辆下发最优频率以及最优发射功率令所选车辆使用该频率和功率实施本地学习和模型上传;
27、s4:进入下一轮联邦学习后,重复步骤s2-步骤s4,直到完成t轮的联邦学习。
28、进一步的,时延τt,n按照以下方式估算:
29、
30、
31、
32、
33、其中,l为联邦学习中需要被训练的模型的大小。
34、进一步的,能耗et,n按照以下方式估算:
35、
36、
37、
38、进一步的,决策模型a/b的训练中,采用近端策略优化算法更新模型参数。
39、一种联邦学习系统,包括云端服务器,该服务器被配置为,按照前述方法步骤进行车辆选择与资源优化。
40、本发明的上述技术方案相比现有技术具有以下优点:
41、本发明通定义系统成本函数与公平性约束,并使用李雅普诺夫优化技术将时间耦合的离线优化问题转化为了一个易求解的在线优化问题,确保了每个车辆参与联邦学习任务的次数,从而保障了参与联邦学习车辆的多样性以及训练数据的多样性,并能显著地提高全局模型的精度,同时使用强化学习方法对参与训练的车辆集合进行了联合的资源优化,显著提高了训练效率。
1.一种面向车联网联邦学习的车辆选择与资源优化方法,针对车辆数量为n,并需要进行t轮学习的车联网联邦学习,其特征在于,包括以下步骤:
2.根据权利要求1中所述的方法,其特征在于,时延τt,n按照以下方式估算:
3.根据权利要求2中所述的方法,其特征在于,能耗et,n按照以下方式估算:
4.根据权利要求1中所述的方法,其特征在于,,决策模型a/b的训练中,采用近端策略优化算法更新模型参数。
5.一种联邦学习系统,包括云端服务器,该服务器被配置为,按照如权利要求1-4中任一所述的方法步骤进行车辆选择与资源优化。