基于在线联邦迁移学习的码率自适应策略高效训练方法

文档序号:35847790发布日期:2023-10-25 18:07阅读:42来源:国知局
基于在线联邦迁移学习的码率自适应策略高效训练方法

本发明涉及多媒体通信,具体涉及一种基于在线联邦迁移学习的码率自适应策略高效训练方法。


背景技术:

1、在互联网基础设施和应用不断发展的推动下,实时视频服务和应用正变得越来越普遍。从在线直播、视频会议,到社交聚会甚至新兴的云游戏场景、智能远程驾驶,实时视频无形地改变着我们的生活方式。根据市场报告预测,实时视频流量将占所有互联网视频流量的17%,到2025年将在全球产生高达2173亿美元的收入。

2、此外,目前的内容提供商主要使用码率自适应技术来传输实时视频,即根据用户当前视频的播放情况与网络状况,自动调整切换码率,以优化用户体验质量(quality ofexperience,qoe)。近年来,基于强化学习的码率自适应方法不断涌现,它们不依赖于预先人为设定的固定规则,应用深度强化学习训练智能体学习历史实时视频流经验来生成码率自适应策略,这使得它们能够更好地适应动态的实时网络场景。

3、现有的算法主要包括离线学习和在线学习两类工作。现有算法大多数局限于离线学习,即在仿真器中训练好模型后再部署到实际环境中使用,难免造成仿真和真实网络环境的差距,性能退化严重。不同于离线学习,在线学习提倡用动态的实时视频流进行训练,根据新的网络环境不断完善并预测模型,而不是使用预训练模型。onrl(huanhuan zhang,anfu zhou,jiamin lu,ruoxuan ma,yuhan hu,cong li,xinyu zhang,huadong ma,andxiaojiang chen.2020.onrl:improving mobile video telephony via onlinereinforcement learning.in proceedings of the 26th annual internationalconference on mobile computing and networking(mobicom'20).association forcomputing machinery,new york,ny,usa,article 29,1–14.)定制设计了一个在线强化学习框架,以弥合无线视频传输过程中仿真与真实环境的差距,针对不同网络在线学习最优自适应策略,进一步提升实时视频会话的qoe。

4、然而,现有在线学习算法相比于离线学习虽然更能适应动态网络变化,但其容易存在模型收敛时间过长的问题。一方面,没有先前经验的算法,依赖于试错探索,尤其是在训练的早期阶段,容易导致时间浪费。另一方面,算法获取用户的训练数据相对较慢,在每一次实际流化传输完成之前,算法都无法收集到对应的观察值,并且在这种情况下只有一个实际的学习代理可以用于实际视频流传输环境中的在线学习。另外,在做出决策之前等待在线模型完全训练完成是不切实际的,考虑到典型用户的实时视频会话一般不会超过一个小时且需要快速响应。


技术实现思路

1、针对以上现有技术中存在的缺陷,本发明的目的在于提供一种基于在线联邦迁移学习的码率自适应策略高效训练方法,期冀能够在一次用户的实时视频会话中进行并完成在线训练,在保证用户会话质量的同时,缩短在线学习模型的训练时间。

2、为达上述目的,本发明采用的技术方案如下:

3、基于在线联邦迁移学习的码率自适应策略高效训练方法,该方法包括如下步骤:

4、(1)每个用户客户端经过动态网络条件鉴别器鉴别用户经历的网络类型和交通方式;其中,所述用户客户端经历真实网络进行实时视频流化传输;

5、(2)根据所述动态网络条件鉴别器的鉴别结果将用户聚类成规定的组别,相同组的用户进行组内联邦学习;

6、(3)每一组的中心节点初始化加载一个预训练的通用离线模型;其中,所述离线模型作为中心节点的初始全局模型;

7、(4)每一组的中心节点将全局模型参数发送给组内所有用户;

8、(5)组内用户以全局模型为基础,根据本地网络状况在线迁移训练本地模型参数,定期向中心节点发送本地更新模型参数;

9、(6)中心节点聚合组内所有用户的模型参数,训练得到聚合全局模型;

10、(7)重复上述步骤(4)至(6),直至中心节点的聚合全局模型训练完毕。

11、相比现有技术,本发明的方法设计在线分组联邦迁移学习,通过网络类型和交通方式对用户进行聚类分组,将同组别的多个用户进行组内联邦学习,加快了同组别用户的在线学习训练数据获取,使得多个学习代理同时用于实际视频传输环境的在线学习,加快在线学习的效率;采用组内用户在线迁移学习,以预训练通用离线模型为基础进行迁移微调,形成“离线训练,在线微调”两级学习框架,冻结部分神经网络层,更新高层次具体特征提取层进行反向传播。在线迁移学习减少了离线预训练模型与用户在线模型之间由于仿真和实际环境差异引起的偏差,进一步适应真实的网络条件和视频内容特征,以优化码率自适应算法。离线预训练解决了样本稀缺性问题并节省训练时间,而在线微调重复使用预训练离线模型的知识,充分利用过去的经验来减轻早期的试错探索,加速新网络环境的训练过程,节约计算资源消耗并增强模型的泛化能力。



技术特征:

1.基于在线联邦迁移学习的码率自适应策略高效训练方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的基于在线联邦迁移学习的码率自适应策略高效训练方法,其特征在于,步骤(1)中,所述动态网络条件鉴别器通过对用户客户端经历的真实网络进行实时监测和鉴别,定期动态检测用户端的网络条件,用户客户端可以灵活地与对应组别的中心节点交互模型参数。

3.根据权利要求1所述的基于在线联邦迁移学习的码率自适应策略高效训练方法,其特征在于,步骤(1)中,所述用户经历的网络类型包括第三代移动通信网络、第四代移动通信网络、第五代移动通信网络或无线网络,直接从网络服务提供商中获取;所述用户经历的交通方式包括走路、自行车、小轿车、公交车、轮船、地铁或火车,通过用户端的全球定位系统、加速器和传感器判别。

4.根据权利要求1所述的基于在线联邦迁移学习的码率自适应策略高效训练方法,其特征在于,步骤(2)中,所述组内联邦学习为联邦式的多智能体异步并行训练,组内每个智能体使用局部观测和共享经验来更新自己的行动者和评论家网络,在更新全局模型参数时,中心节点通过平均组内用户各模型梯度,训练得到聚合全局模型,同时同步优化组内模型。

5.根据权利要求1所述的基于在线联邦迁移学习的码率自适应策略高效训练方法,其特征在于,步骤(3)中,所述预训练的通用离线模型是在模拟器中由大量的网络轨迹数据集训练得到的。

6.根据权利要求1所述的基于在线联邦迁移学习的码率自适应策略高效训练方法,其特征在于,步骤(5)中,所述在线迁移训练是冻结低层次共同特征层,更新高层次具体特征提取层进行反向传播,提高在线模型的训练速度。

7.根据权利要求1所述的基于在线联邦迁移学习的码率自适应策略高效训练方法,其特征在于,步骤(6)中,所述聚合全局模型参数是中心节点对接收到的各用户模型参数进行加权平均,权重为各用户计算量的比例,以保持每个用户的贡献度。


技术总结
本发明提供一种基于在线联邦迁移学习的码率自适应策略高效训练方法,步骤为:(1)用户客户端经过动态网络条件鉴别器鉴别网络类型和交通方式;(2)根据鉴别器的鉴别结果将用户聚类成规定的组别,组内用户进行联邦学习;(3)每一组的中心节点初始化加载预训练离线模型,作为初始全局模型;(4)中心节点将全局模型参数发送给组内所有用户;(5)组内用户以全局模型为基础,在线迁移训练本地模型参数,定期向中心节点发送本地更新模型参数;(6)中心节点聚合组内所有用户模型参数训练得到全局模型;(7)重复上述步骤,直至中心节点的聚合全局模型训练完毕。本发明在保证用户实时视频会话质量的同时,大大缩短在线学习模型的训练时间。

技术研发人员:陈浩,郑倩媛,马展
受保护的技术使用者:南京大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1