一种视频业务中满足用户个性化体验的码率自适应方法与流程

文档序号：16202225发布日期：2018-12-08 06:43阅读：237来源：国知局

本发明属于流媒体视频技术领域，涉及用户体验优化，特别涉及一种视频业务中满足用户个性化体验的码率自适应方法。

背景技术

近年来，互联网中视频业务兴起，预计到2019年，在整个互联网流量中，视频流量占近八成。视频性能的问题变得越来越重要，因为视频的性能直接影响了用户的感受，进而影响了用户观看视频的时长，最终影响内容提供商的收益。用户期望视频可以更加清晰，视频播放过程中不会出现卡顿，而且视频流畅、时延低。但是这些性能指标之间是互相矛盾、彼此制约的。随着新场景和新的表现形式的出现，如直播场景、虚拟现实(vr)等，满足用户体验的要求变得更加具有挑战性。

描述和量化用户体验和用户对视频的需求的工具是用户体验质量(qoe)。码率自适应(abr)算法是提升用户qoe的常用方法，它通过为下一个要播放的视频块选择一个合适的码率来最大化用户体验。用户qoe一般包括如下几个元指标：码率、视频卡顿时长、码率切换、时延。观看视频时，不同用户和不同观看场景对于qoe的各个性能指标的需求是不同的。例如游戏直播的情况下，用户更希望有高清晰度的视频，而且不希望出现卡顿，但是对于时延的要求较低。如果是交互性强的场景，用户可能对于时延的要求更高，而对于清晰度的要求会低于时延。所以当面对不同的用户时，提供一个满足用户个性化体验需求的方法是有意义的。权衡不同性能指标以达到用户体验最大化成为学术界和工业界关注和研究的关键点。

技术实现要素：

针对上述视频业务中提升用户体验存在的本质难题以及希望满足用户个性化体验的问题，本发明提出了视频业务中满足用户个性化体验的码率自适应方法一个具有泛化能力的模型，以实现视频播放中个性化用户体验的目标。本发明是一个基于强化学习的码率自适应算法，能够根据网络环境，选择在该网络场景下最适合的码率，优化视频业务中各项性能指标，以满足用户的个性化体验需求。本算法性能优于之前的码率自适应算法，即在特定用户qoe目标的情况下提供最好的用户体验。同时，当用户或者播放内容改变时，算法可以快速且低开销的在用户偏好上进行泛化，最终提高视频播放过程中用户的观看体验，实现不同的优化目标下用户体验最大化。

为了实现上述目的，本发明采用的技术方案是：

一种视频业务中满足用户个性化体验的码率自适应方法视频业务中满足用户个性化体验的码率自适应方法，其特征在于，利用神经网络作为评价函数q(s,a,m,g)，评估每一个码率选择a对不同元性能指标m的影响，利用评估过程得到的对元性能指标的评估值，与优化目标权重值即给定用户偏好g显式相乘，选出最大值对应的码率，从而满足不同的用户体验需求，其中所述评价函数q(s,a,m,g)表示每个码率选择a在不同的网络状态s和给定用户偏好g的情况下，如何影响每个元性能指标m。

所述评估过程的输入由状态值s以及优化目标权重值g组成，其中状态值s描述了网络的状况以及缓冲区占用情况；优化目标权重值g表示不同的用户视频性能需求；

所述评估过程的输出是到视频播放结束时的qoe观测值的累积和，输出为q∞(s,a,m,g)，此式中用∞表示视频播放结束。

用元性能指标m与用户偏好g的线性组合来表示用户体验qoe，则

其中，n是播放的一个视频中的块的个数，rn是第n个块的码率，q(rn)是第n个视频块质量，tn是第n块的卡顿时间，|q(rn+1)-q(rn)|是视频播放时相邻两块的码率差，表示视频的平滑，dn是下载第n块的时延，α,β,γ,μ是优化目标g的四项。

所述评估过程的两部分输入为状态值s和优化目标权重值g，分别被两个神经网络处理，两个模块的输出连接作为下一个神经网络的输入，未来的qoe值基于连接起来的输入，神经网络同时输出各个动作对应的未来观测值，神经网络分为两个模块，一个是期望模块，预测的是未来qoe观测值的平均值，该部分值仅与状态值s有关，与动作无关；另一个是动作模块，预测的是在某一个状态下，采取不同的动作对应的qoe观测值。两部分输出相加作为整个神经网络的输出，即在某一个特定的状态下，采取不同的动作所对应的到视频播放结束时的不同qoe四项元性能指标值。

在线时，利用评估过程得到的对元性能指标的评估值，与优化目标权重值g显式相乘的计算式如下：

a＝argmaxg^tq∞(s,a,m,g)

根据上式可以选择在某一个特定目标下的最优码率，q值与优化目标g的乘积最大时，即得到最优目标值，对应的码率a即为此块所需选择的码率。

在训练神经网络模型时，利用的是随机产生的优化目标权重值g。与现有技术相比，本发明的有益效果是：

神经网络的输出维度增加。传统的强化学习算法的输出是一个标量奖励值，它表示采取一个动作之后获得的奖励，但是标量值的信息含量较小。输出维度的增加使得算法的可操作性增强。同时，可以通过设置不同的g值来满足不同用户个性化的qoe需求。

附图说明

图1为评估过程的模型，其中输入为状态、优化目标，输出为选取每一个码率对元性能指标的累计影响。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明是一种提高视频业务中用户体验的方法，其目标是利用一个具有泛化能力的模型，实现个性化的用户体验。用户qoe一般包括如下几个元指标：码率、视频卡顿时间、码率切换、时延。观看视频的不同用户对于视频性能指标的需求是不一样的。当存在不同的视频优化目标时，本发明可以快速低开销的做出性能优化。

本发明的设计思想如下：

(1)设计思想概述：在深度强化学习框架下设计。同时，通过显式地将用户偏好g引入，将普通的强化学习的评估过程和决策过程解耦。使用神经网络作为评价函数q(s,a,m,g)，它表示：每个码率选择在不同的网络状态和给定用户偏好g的情况下，对每个元性能指标m的影响，利用这个评价函数进行下一个块的码率选择。

(2)评估过程：利用通用价值估值函数的思想，目标是构造一个函数逼近器来预测未来的元性能指标值。

评估过程输入：输入由两部分组成，状态s，优化目标权重值g。其中状态值描述了网络的状态及缓冲区占用情况。g是优化目标对应的权重值，表示不同的用户对视频性能的不同偏好。

评估过程输出：输出的是视频播放结束时的qoe观测值。将传统的奖励值q(s，a)分成a个动作度量值q(s,a,m)，a表示可选码率数。可用元性能指标值m与用户偏好g的线性组合来表示用户体验qoe，即

简单表示即为：

qoe＝g^tq

因此，可以通过计算获得任何偏好g下的每一个动作的qoe。

评估过程模型描述：两部分输入为状态和优化目标，它们分别被两个神经网络处理，两个模块的输出连接作为下一层神经网络的输入。未来的qoe观测值基于连接起来的输入。神经网络同时输出各个动作对应的未来观测值。神经网络分为两个模块，一个是期望模块，预测的是未来qoe观测值的平均值，该部分值仅与状态值有关，与动作无关；另一个是动作模块，预测的是在某一个状态下，采取不同的动作对应的qoe观测值。两部分输出相加作为整个神经网络的输出，即在某一个特定的状态下，采取不同的动作所对应的到视频播放结束时的不同qoe四项元性能指标值。

(3)决策过程：在线时，该算法可以利用评估过程获得的视频播放结束时的元性能指标(清晰度、卡顿、平滑、时延)以及优化目标，

a＝argmaxg^tq∞(s,a,m,g)

根据上式选择在某一个特定目标下的最优码率。

综上所述，本发明提出了一种能够实现个性化用户体验的码率自适应算法。通过利用神经网络来构造一个函数逼近器，预测码率选择对后续视频播放性能指标的影响，从而满足不同的用户体验需求。该方案能够根据不同的播放内容、用户以及用户行为选择不同的码率，实现不同的优化目标下用户体验最大化，且当用户体验的优化目标改变时，可以快速低开销的实现在用户目标上的泛化，从而满足个性化用户体验的需求。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：崔勇;王莫为;左旭彤;杨啖
技术所有人：清华大学
我是此专利的发明人

上一篇：一种实用型防水声波电动牙刷的制作方法
上一篇：用于合成软海绵素B类似物的中间体和方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。