一种码率自适应选择方法及装置

文档序号:34233583发布日期:2023-05-24 17:41阅读:53来源:国知局
一种码率自适应选择方法及装置

本发明涉及人工智能,尤其涉及一种码率自适应选择方法及装置。


背景技术:

1、随着基于http(超文本传输协议)的视频流通信数据量的快速增长,用户对于下载视频的感知体验质量需求也日益上升,缓冲时间、平均播放比特率、比特率切换频率等指标已经成为衡量qoe(用户体验质量)的关键因素。在复杂的互联网视频传输生态系统中,部署在超文本传输协议服务器或客户端播放器中的比特率自适应(abr)算法对于优化用户体验至关重要。现有的基于强化学习的码率自适应方法不能根据状态空间的变化调整视频块的码率选择策略,使得任务目标之间相互冲突,如高码率的视频块与低网速之间的冲突,同时现有的码率自适应方法不能准确地反馈用户的需求,从而导致用户端出现视频播放中断、不清晰的问题,降低了用户体验。


技术实现思路

1、鉴于此,本发明实施例提供了一种码率自适应选择方法及装置。以解决现有技术的码率自适应方法不能根据状态空间的变化调整视频块的码率选择策略,同时不能反馈用户需求的问题。

2、本发明的一个方面提供了一种码率自适应选择方法,该方法包括以下步骤:

3、由视频提供方获取视频源,将所述视频源按照设定时长分割为连续的多个视频块,每个视频块按照多个码率压缩为对应的多个码率副本;在初始状态下,所述视频提供方根据视频请求方的请求发送第一个视频块的指定码率副本,并传输至缓存空间;

4、在传输过程中,将当前视频块传输过程中的网络状态、视频内容状态和播放器状态构建为状态空间;所述网络状态包括已传输各视频块在传输过程中的平均吞吐量;所述视频内容状态包括当前视频块及其前设定数量个视频块的下载时间集合、所述当前视频块所有码率副本的文件大小集合,以及上一个视频块的感知质量参数;所述播放器状态包括缓冲区中未播放的所有视频块的时长、所述当前视频块的码率以及所述视频源中剩余未传输视频块的数量;其中,已传输各视频块在传输过程中的平均吞吐量、当前视频块及其前设定数量个视频块的下载时间集合、所述当前视频块所有码率副本的文件大小集合为状态中的向量部分,其余为状态中的标量部分;

5、将下一个视频块能够选择的各码率副本构建为动作空间;

6、获取预设强化学习模型,所述预设强化学习模型包括一维卷积层、第一全连接层、第二全连接层以及softmax层;将状态中的向量部分输入所述一维卷积层得到第一特征向量,将状态中的标量部分输入至所述第一全连接层得到第二特征向量,将所述第一特征向量和所述第二特征向量结合并输入所述第二全连接层得到第三特征向量,将所述第三特征向量输入所述softmax层并输出传输下一视频块时选择的各码率副本的概率,选择下一视频块概率最大的码率副本传输至缓存区;

7、在强化学习过程中,根据当前视频块的码率计算视频质量描述评分,并结合播放中断时间和视频质量切换平滑度计算外部奖励;采用预设神经网络对上一视频块和当前视频块的状态空间分别提取特征值并计算差异作为内部奖励;根据外部奖励计算外部奖励折扣累计值,根据所述外部奖励和所述内部奖励计算内外奖励折扣累计值;以最大化所述外部奖励折扣累计值为优化方向,利用所述外部奖励折扣累计值和所述内外奖励折扣累计值构建梯度反向传播并对所述预设强化学习模型和所述预设神经网络进行参数更新。

8、在一些实施例中,根据当前视频块的码率计算视频质量描述评分,并结合播放中断时间和视频质量切换平滑度计算外部奖励中,所述外部奖励的计算式为:

9、

10、

11、

12、

13、sm=|qm-qm-1|;

14、其中,qm为视频质量描述评分,缓冲惩罚项tm表示第m个视频块的播放中断时间,缓冲惩罚项sm表示第m个视频块的视频质量切换平滑度,μm和λ为缓冲惩罚项权重系数;dm(xm)表示第m个视频块的数据量;cm表示下载第m个视频块时的平均吞吐量;c(t)表示时变吞吐量;bm表示缓冲区中所有视频块的内容时长;bm+1表示第m个视频块完全下载后缓冲区中所有视频块的内容时长;xm表示传输第m个视频块所选择的码率,xm∈{x1,x2,...,xq};m表示所述视频源被分为的视频块的总量;

15、所述视频质量描述评分采用视频质量描述模型vmaf计算得到,计算式为:

16、qm=vmaf(xm)。

17、在一些实施例中,所述方法还包括动态切换所述缓冲惩罚项权重系数μm,包括:

18、定义过去k个视频块的缓冲惩罚为:

19、

20、过去k个视频块的切换惩罚为:

21、

22、定义缓冲惩罚占比为:

23、

24、定义权重更新因子um为:

25、

26、其中,c为常数项;

27、定义视频内容离开所述缓冲区的速率为om,定义缓冲区占用率的变化率为δbm,δbm的计算式为:

28、

29、定义所述缓冲区应具备的最小视频量表示为bmin;

30、当bm<bmin时为低缓存状态,更新所述缓冲惩罚项权重系数μm如下:

31、μ’m=μm-um;

32、当δbm<0时为缓存消耗状态,更新所述缓冲惩罚项权重系数μm如下:

33、μ’m=μm+um。

34、在一些实施例中,根据外部奖励计算外部奖励折扣累计值,计算式为:

35、

36、其中,gex(st,at)表示外部奖励折扣累计值,γi表示第t+i个状态下的奖励折扣因子,表示第t+i个视频块对应的外部奖励,γl表示第t+l个状态下的奖励折扣因子,v(st+l)表示第t+l个状态对应的状态价值,v(st)表示第t个状态对应的状态价值。

37、在一些实施例中,根据所述外部奖励和所述内部奖励计算内外奖励折扣累计值,计算式为:

38、

39、其中,gex+in(st,at)表示内外奖励折扣累计值,γi表示第t+i个状态下的奖励折扣因子,表示第t+l个视频块对应的外部奖励,λ表示缓冲惩罚项权重系数,表示第i个视频块对应状态和动作的内部奖励,γl表示第t+l个状态下的奖励折扣因子,v(st+l)表示第t+l个状态对应的状态价值,v(st)表示第t个状态对应的状态价值。

40、在一些实施例中,以最大化所述外部奖励折扣累计值为优化方向,利用所述外部奖励折扣累计值和所述内外奖励折扣累计值构建梯度反向传播并对所述预设强化学习模型和所述预设神经网络进行参数更新,包括:

41、采用所述内外奖励折扣累计值构建梯度反向传播更新所述预设强化学习模型参数,参数更新计算式为:

42、

43、其中,θ表示所述预设强化学习模型更新前的参数,θ′表示所述预设强化学习模型更新后的参数,πθ表示所述预设强化学习模型的策略。

44、在一些实施例中,以最大化所述外部奖励折扣累计值为优化方向,利用所述外部奖励折扣累计值和所述内外奖励折扣累计值构建梯度反向传播并对所述预设强化学习模型和所述预设神经网络进行参数更新,包括:

45、根据所述外部奖励折扣累计值计算外部策略梯度,计算式为:

46、

47、计算策略参数梯度,计算式为:

48、

49、更新所述预设神经网络的参数,计算式为:

50、

51、其中,表示所述外部策略梯度,gex(st,at)表示所述外部奖励折扣累计值,表示所述策略参数梯度,gex+in(st,at)表示所述内外奖励折扣累计值,πθ表示所述预设强化学习模型的策略,πθ′表示所述预设强化学习模型更新后的策略,θ表示所述预设强化学习模型更新前的参数,θ′表示所述预设强化学习模型更新后的参数,η表示所述预设神经网络更新前的参数,η′表示所述预设神经网络更新后的参数,β表示步长参数,st表示所述状态空间,at表示选择概率最大的码率副本,α表示步长参数。

52、在一些实施例中,采用预设神经网络对上一视频块和当前视频块的状态空间分别提取特征值并计算差异作为内部奖励,包括:

53、采用预设神经网络对上一视频块和当前视频块的状态空间分别提取特征值并计算l2范数作为内部奖励。

54、另一方面,本发明还提供一种电子设备,包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法的步骤。

55、另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。

56、本发明的有益效果至少是:

57、本发明所述码率自适应选择方法及装置,获取当前视频块的网络状态、视频内容状态和播放器状态构建为状态空间,获取下一个视频块能够选择的各码率副本构建为动作空间,将状态空间中的向量部分和标量部分分别输入预设强化模型得到下一视频块能够选择的各码率副本的概率,并通过外部奖励折扣累计值和内外奖励折扣累计值构建梯度反向传播对预设强化学习模型进行参数更新,采用基于强化学习的码率自适应方法可以通过当前视频块状态空间的变化以及内外部奖励不断调整预设强化学习模型内部参数,改变视频块码率副本选择策略,以使得输出下一个视频块的码率副本能够获得更高的奖励,进而提高用户观看视频时的体验质量。

58、进一步地,采用视频质量评分取代视频质量客观映射作为外部奖励的组成部分,使得输出的视频块码率更符合用户实际需求,从而提高用户感知质量。

59、进一步地,根据缓冲区的状态动态切换视频块的惩罚权重,根据不同缓冲区状态采取不同的码率副本选择策略,减小视频块缓冲对于用户体验造成的负面影响。

60、进一步地,通过外部奖励折扣累计值和内外奖励折扣累计值构建梯度反向传播并对预设强化学习模型和预设神经网络不断进行参数更新,得到目标强化学习模型,从而使得其输出的视频块的码率副本符合用户需求,提高用户体验质量。

61、进一步地,本发明的码率自适应方法,能够在任务目标互相冲突的情况下优化预设强化学习模型内部参数梯度的更新,使得预设强化学习模型更好地根据状态空间对视频块的码率副本进行选择。

62、本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

63、本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1