传输视频的方法和装置与流程

文档序号:11845246阅读:185来源:国知局
传输视频的方法和装置与流程
本发明一般地涉及通信系统,特别地,涉及基于人眼追踪技术的视频传输。
背景技术
:对人眼的研究可以追溯到很久以前,甚至早于镜子的发明。这一方向最重要的研究成果是发现视网膜的结构。视网膜覆盖在眼球的后部,连接晶状体和神经。在视网膜上有成百上千万的视觉感光细胞,这其中分为两种,杆状细胞和锥状细胞。锥状细胞比杆状细胞小,但对视觉来说更重要。大部分锥状细胞都位于黄斑区域,一个靠近盲点的地方。视网膜上一共有大约九千万个杆状细胞和四百五十万个锥状细胞。杆状细胞主要负责夜晚或弱光环境下的视觉且杆状细胞无法区分颜色。而锥状细胞负责光照条件较好的环境下的视觉。而在普通室内光线下,锥状和杆状细胞都有可能起左右。另外杆状细胞需要30秒左右才能适应光线强弱的变化,要远远慢于锥状细胞,因此在观看视频的时候,主要是锥状细胞起作用。视觉感光细胞在视网膜上的分布是不均匀的。比如说杆状细胞,密度最大的地方大约在距离视网膜中心20度的区域,并随着角度的增加而逐渐衰减。而锥状细胞基本都位于视网膜的中心,锥状细胞集中的地方叫做视觉小凹,大约只有1.5mm宽,这一点点区域正是人类视觉的核心区域,有趣的是,在视觉小凹上没有杆状细胞。杆状细胞和锥状细胞在视网膜上的分布如图1所示。人类的视觉就这样被囚禁在了这个只有1~2度的小小范围内,每次只能看清楚1~2度的事物,也就是说人类的视觉是很有限的。可为什么人们平时并不会注意到这一点呢?因为人的眼球总是在转动,人的大脑会将一段时间看到的东西合成在一起,形成一幅完整的画面。基于以上的发现,人们会很容易想到,在传输视频的时候,如果只传输人眼注视的区域,就会节省很大的资源。然而问题是,人眼移动的速度非常快,约为每秒钟400度。这就要求系统要在极短的时间内作出响应。例如,以目前的平板电脑来看,人眼从一端移动到另一段,只需要几十毫秒。因此人眼注视区域的识别,追踪和响应,必须要在几十毫秒内完成。这对现有的通信系统带来了很大的困难,大部分系统都无法保证如此低的时延。因此,可以把关注点放在下一代通信系统5G上。5G通信系统大约会在2020年部署,会提供更高的速率和更短的时延。这些重要的技术改进对应运基于人眼位置的视频传输至关重要,然而一些重要的技术难题仍然有待解决。技术实现要素:经过一代又一代科学家的不懈努力,人眼的视觉特性与图像传输之间的关系逐渐明朗。在论文“Robert-Inacio,F.;Scaramuzzino,R.;Stainer,Q.;Kussener-Combier,E.,Biologicallyinspiredimagesamplingforelectroniceye,BiomedicalCircuitsandSystemsConference(BioCAS),2010,pages:246-249”中,作者针对电子眼提出了一种图像采集方案。这一方案基于一种六边形结构进行采样,六边形的大小决定了画面的精细程度,六边形随着采样区域到视觉中心距离的增加而增大。在另一篇论文“LauraMuirIain,IainRichardson,StevenLeaper,GazeTrackingandItsApplicationtoVideoCodingforSignLanguage,PictureCodingSymposium2003,pages32-325”中,作者研究了画面中哪些元素更容易被人所注视。MohsenM.在他的文章“MohsenM.Farid,FatihKurugollu,FionnD.Murtaghk,Adaptivewaveleteye-gaze-basedvideocompression,Proc.SPIE4877,Opto-Ireland2002:OpticalMetrology,Imaging,andMachineVision,255(March17,2003)”提出了一种基于人眼焦点追踪的实时视频传输系统。在这一系统中,系统根据人眼焦点的位置对视频按照子块进行编码。但是这一系统是在实验室中在几台计算机之间实现了,没 有考虑到真实网络中的某些限制,而这些限制会导致时延的增加,以及时延的抖动,这些反而是实现人眼追踪视频传输系统的主要障碍。目前对人眼视觉方面的研究,主要的成果发表于论文“Robert-Inacio,F.;Scaramuzzino,R.;Stainer,Q.;Kussener-Combier,E.,Biologicallyinspiredimagesamplingforelectroniceye,BiomedicalCircuitsandSystemsConference(BioCAS),2010,pages:246-249”,不过这篇论文并没有考虑到人眼的转动,也没有考虑到时延方面的影响。在5G中应用基于人眼追踪的视频传输,一种可能的方案是,用户设备向基站反馈人眼焦点的位置信息,基站将此信息转发到核心网络,再上传到视频服务器;视频服务器根据人眼追踪的信息,对视频进行编码,然后将编码后的视频发到移动网络,进入基站后,由基站转发给用户设备。这样的方案最大的问题是时延。一般的网络架构如图2所示。基于这样的架构,本发明的发明人对总的时延进行分析,细分的项目总结于表1。从表1可以看出,基于这样的架构,系统的时延大约为106ms。如果使用频率更高的人眼追踪器,也许可以减少时延,但即便这样,总的时延仍然是难以接受的。因此需要对端到端的时延进行优化,尤其是网络内的时延。表1时延分析基于上述考量,本发明的发明目的在于提供基于人眼追踪的视频传输系统,该系统能够减少系统时延并且节省资源。根据本发明的一个方面,提供了一种在通信设备中用于传输视频的方法,所述方法包括以下步骤:从视频服务器接收编码后的视频帧;对接收到的视频帧进行解码;对解码后的视频帧进行缓存;从用户设备接收人眼追踪信息;基于所述人眼追踪信息,确定预测的人眼注视的第一区域;以第一质量对所述第一区域中的缓存的视频帧进行重编码,以及以第四质量对所述区域之外的缓存的视频帧进行重编码,其中所述第一质量优于所述第四质量;将重编码后的视频帧发送至所述用户设备。在一个例子中,所述方法还包括以下步骤:基于缓存的视频帧和所述人眼追踪信息,确定预测的人眼注视的第二区域;以及以第二质量对所述第二区域中的缓存的视频帧进行重编码,其中所述第一质量优于所述第二质量,所述第二质量优于所述第四质量。在一个例子中,所述方法还包括以下步骤:基于缓存的视频帧和所述人眼追踪信息,确定预测的人眼扫视区域;以及以第三质量对所述人眼扫视区域中的缓存的视频帧进行重编码,其中所述第一质量优于所述第三质量,所述第三质量优于所述第四质量。根据本发明的另一个方面,提供了一种在通信设备中用于传输视频的方法,所述方法包括以下步骤:-从视频服务器接收编码后的视频帧;-对接收到的视频帧进行解码;-对解码后的视频帧进行缓存;-从用户设备接收人眼追踪信息;-基于所述人眼追踪信息,确定人眼状态;-如果所述人眼状态为注视状态,则使用分辨率y对缓存的视频帧进行重编码;y=max(1-e-t/33.3a1(max(g(x),s))2+a2(max(g(x),s))+a3,y^),x=arg(g(x)≤x^+s)1-e-t/33.3a1(g(x)-x^)2+a2(g(x)-x^)+a3,x=arg(g(x)>x^+s)]]>其中t∈[t1,+∞),x表示所述用户设备的屏幕上的一点的位置,g(x)表示从所述点至焦点中心的距离,t1表示系统时延,y^=1-e-t1/33.3a1s2+a2s+a3,]]>s表示所述焦点的直径,从方程y^=1a1x^2+a2x^+a3]]>中获取,以及arg为用于根据输入公式计算适合的x的函数;-如果所述人眼状态为扫视状态,则使用分辨率y对缓存的视频帧进行重编码;y=max(1-e-t/33.3a1max(f(x),s)2+a2max(f(x),s)+a3,kiy~i)]]>其中Δx表示人眼追踪器的分辨率,v表示人眼运动速度,x表示所述用户设备的屏幕上的一点的位置,f(x)表示从所述点至估计的人眼运动轨迹的最小距离,y~i=1-e-t1/33.3a1(max(g(x),x^))2+a2max(g(x),x^)+a3,]]>g(x)表示从所述点至预测的注视区域i的中心的距离,ki≤1为用于控制所述预测的注视区域i的分辨率的参数;-将重编码后的视频帧发送至所述用户设备。本发明的各个方面将通过下文中的具体实施例的说明而更加清晰。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更加明显:图1示出了杆状细胞和锥状细胞在视网膜上的分布示意图;图2示出了基于人眼追踪的视频传输的一般的网络架构图;图3示出了一张相同可读性的图表;图4示出了视觉的分辨力的示意图;图5示出了根据本发明的一个实施例的基于人眼追踪的视频传输系统的示意图;图6示出了根据本发明的一个实施例的基于人眼追踪技术传输视频的方法流程图;以及图7示出了适于人眼的视频信息的示意图。在图中,相同或类似的附图标记表示相同或相对应的部件或特征。具体实施方式首先,对人的视觉系统描述如下。人类的视觉分辨能力主要和锥状细胞的密度有关,这一假设被大部分学术研究所采纳。当然,还有一些其它因素会影响人的视觉分辨力,比如神经节细胞的数量,因为多个视觉感光细胞会连接到一个神经节细胞上,并且越靠近视网膜边缘,一个神经节细胞连接的视觉感光细胞的数量就越多。鉴于问题的复杂性,人的视觉分辨率主要还是通过实验来测定。在论文“AnstisSM.Achartdemonstratingvariationsinacuitywithretinalposition(Letter).VisionRes.1974;14:589-592”中,作者给出了人眼视觉分辨能力门限的公式和一张相同可读性的图表。如图3所示,当人眼注视这张图表的中心,所有的字母尽管大小不同,但它们都有相同的可读性。这在另一方面证明了人眼中心区域的视觉要远远好于边缘。Anstis给出的视觉门限公式如下:y=0.046x-0.031(1)其中x代表视网膜的某一点到中心小凹的角度,单位是度。Anstis指出,公式中的负数项,可能是由实验误差造成的,因此这里使用通用的公式参数。考虑到信息量,人眼视觉的分辨率可以表示为门限的倒数而其中的变量是视网膜上某一点到中心小凹的角度的平方,即与面积成正比。公式如下:y~=1a1x2+a2x+a3---(2)]]>当人观察一段视频,或随便某些景物时,人眼的行为过程包括两种状态,扫视和注视,并且两者是交替进行的。注视的焦点从一处移到另一处后,人眼需要一段时间适应,同时也需要积攒足够的光线以便看清楚。这意味着,如果一段视频的画面不发生改变,人眼在移动到这一画面时,需要一段时间的预热,当人刚刚转动到某个新的焦点的刹那,是难以识别画面的,尽管预热的时间非常短,但这一过程却很重要。因此人眼观察事物主要受到两个因素的影响,时间和角度。在研究眼球震颤疾病的时候,人们发现,人的视觉能力与时间呈现某种指数关系。具体的论述发表于“MarioCesarelli,PaoloBifulco,LucianoLoffredo,MarcelloBracale,Relationshipbetweenvisualacuityandeyepositionvariabilityduringfoveationsincongenitalnystagmus,DocumentaOphthalmologica,July2000,Volume101,Issue1,pp59-72”。将这一结论和前面介绍的视觉与角度的关系相结合,最终可以得到一个新的视觉分辨力模型:y~=1-e-t/33.3a1x2+a2x+a3---(3)]]>这里t代表画面进入视觉小凹的时间,其中33.3是MarioCesarelli论文中定义的参数,单位是毫秒。如果设定a1=0.046,a2=a3=0,在0~100ms内考察距视网膜中心小凹2~15度的范围的视觉分辨力,可以基于公式(3)绘制出图4。视觉的分辨力随着时间的推移而增加,但几十毫秒以后增加的就不那么明显了。主导视觉分辨力的仍然是角度,在8度以外,视觉分辨力的衰减十分明显。人眼的转动可以用一个两步模型表示,包括注视和扫视过程。在扫视的时候,人的视觉分辨力非常低,因为人眼运动的速度可达每秒400度。因此注视的过程更加重要一些。对两状态的模型来说,马尔可夫过程是较好的建模方法。另外,扫视的过程较为模式化, 可以用三个阶段来概括:初始准备,快速转动和最终调整,其中第二步取决于目标点到当前注视位置的角度。综合以上,人眼扫视所需的时间可以表示为:D(r)=δ1+S(r)+δ2(4)其中r是屏幕的尺寸,δ1是准备过程的时延,δ2是最终调整所需的时间,而S(r)是第二步的时延。通常总的时延在20ms到200ms之间。建立这样的模型的意义是,人眼在扫视的时候分辨力较低,因此也较有可能节省视频传输所需的资源。注视过程的时间可以用一个对数正太或指数分布建模,详见“ArthurLugtigheid,Distributionsoffixationdurationsandvisualacquisitionrates,Lugtigheid,A.J.P.,2007”。持续时间与画面内容有关,不过通常在数百毫秒左右。这就意味着人眼1/3的时间都不是用来注视的,这就有可能节省30%的资源。基于以上描述的人的视觉系统以及新的视觉分辨力模型,将在下文中对本发明的各实施例进行详细描述。参照图5,基于人眼追踪的视频传输系统包括视频服务器101,3个通信设备102a,102b和102c,以及用户设备103。通信设备可以是例如基站或eNodeB等。用户设备可以是例如手机或平板电脑等。以下将以通信设备102a为主小区(Pcell),通信设备102b和102c分别为从小区(Scells)为例,对根据本发明的一个实施例的基于人眼追踪技术传输视频的方法进行描述。参照图6,在步骤S201中,Pcell102a从视频服务器101处接收编码后的视频帧。然后,在步骤S202中,Pcell102a对接收到的视频帧进行解码。例如,视频帧可以通过视频服务器101中的低解码复杂度的编码器进行编码,从而使得Pcell102a能够更容易地进行转码(也即,解码和再编码)。接着,在步骤S203中,Pcell102a对解码后的视频帧进行缓存。此外,在步骤S204中,Pcell102a从用户设备103处接收人眼追踪信息。人眼追踪信息可以包括例如人眼焦点位置信息和/或人眼移动方向信息。由于人眼运动较为模式化,包括注视和扫视过程, 因此当扫视运动刚开始时,可以对注视区域进行预测。扫视运动具有发射特性,而在发射区域中感兴趣的注视区域通常是可以预测的,例如通常为其中的运动物体,人物,色彩鲜明的目标物等。因此,基于缓存的视频帧和人眼追踪信息,在步骤S205中,Pcell102a确定至少一个预测的人眼注视区域。例如,Pcell102a可以确定两个预测的人眼注视区域,例如,预测的人眼注视的第一区域和预测的人眼注视的第二区域。对于两个预测的人眼注视区域,在步骤S206中,Pcell102a以第一质量对第一区域中的缓存的视频帧进行重编码,以第二质量对第二区域中的缓存的视频帧进行重编码,以及以第四质量对第一和第二区域之外的区域中的缓存的视频帧进行重编码。有利地,第一质量和第二质量要优于第四质量。第一质量可以等同于第二质量,或者如果第一区域更接近于人眼,那么第一质量也可以优于第二质量。此处的质量可以例如是分辨率。此外,Pcell102a还可以基于缓存的视频帧和人眼追踪信息,确定预测的人眼扫视区域。对于该人眼扫视区域,Pcell102a以第三质量对该人眼扫视区域中的缓存的视频帧进行重编码。有利地,第一质量和第二质量要优于第三质量,第三质量要优于第四质量。然后,在步骤S207中,Pcell102a将重编码后的视频帧发送至用户设备103。对于多小区传输的场景,例如COMP,Pcell102a会发送视频内容至Scells102b和102c。在一个例子中,Pcell102a可以将解码后的视频帧分别发送至Scells102b和102c。在另一个例子中,Pcell102a在接收到来自视频服务器101的编码后的视频帧后,可以直接将编码后的视频帧发送至Scells102b和102c。Pcell102a和Scells102b,102c可以使用视频控制协议来确保视频帧以相同的方式被重编码,从而使得其能够在用户设备103处进行组合。视频控制协议可以定义视频编码器和解码器的类型及其版本。视频控制协议还可以定义编码器参数,例如方程式(3)中的量化配置和参数。视频控制协议还可以包括用于待被重编码的视频帧的定时信息。此外,对于每次 传输,Pcell102a还将发送人眼追踪信息至Scells102b和120c。然后,每个小区基于该信息,能够进行相同的视频重编码。此外,对于复杂度,视频内容被分发给相关的小区并且解码和缓存一段时间以吸收延时变化,因此,基于人眼追踪的视频编码器仅需要执行编码过程,而不需要转码(解码后再编码)。由于解码后的视频内容将被缓存一段时间,例如1秒,因此这对于平滑解码和编码的计算需求是非常有用的。此外,可以使用一个缩短的帧结构来进行传输,该帧结构的颗粒度为一个时隙,也即0.5ms。这可以将一次传输加上一次重传的时延从16ms减少到8ms。假设视频重编码的时延可以减少到5ms并且基站之间信令的时延可以减少到2ms,那么系统的总时延将会是25ms。进一步地,可能的时延减少还可以包括缩短HARQ重传周期,减少重编码时延和人眼追踪处理时延。在另一个实施例中,在接收到来自用户设备103的人眼追踪信息后,Pcell102a基于该人眼追踪信息确定人眼状态。如果人眼状态为注视状态,则Pcell102a使用以下分辨率y对缓存的视频帧进行重编码;y=max(1-e-t/33.3a1(max(g(x),s))2+a2(max(g(x),s))+a3,y^),x=arg(g(x)≤x^+s)1-e-t/33.3a1(g(x)-x^)2+a2(g(x)-x^)+a3,x=arg(g(x)>x^+s)---(4)]]>其中t∈[t1,+∞),x表示用户设备103的屏幕上的一点的位置,g(x)表示从该点至焦点中心的距离,t1表示系统时延,s表示焦点的直径,从方程中获取,以及arg为用于根据输入公式计算适合的x的函数。如果人眼状态为扫视状态,则Pcell102a使用以下分辨率y对缓存的视频帧进行重编码:y=max(1-e-t/33.3a1max(f(x),s)2+a2max(f(x),s)+a3,kiy~i)---(5)]]>其中Δx表示人眼追踪器的分辨率,v表示人眼运动速度,x表示用户设备103的屏幕上的一点的位置,f(x)表示从该点至估计的人眼运动轨迹的最小距离,y~i=1-e-t1/33.3a1(max(g(x),x^))2+a2max(g(x),x^)+a3,]]>g(x)表示从该点至预测的注视区域i的中心的距离,ki≤1为用于控制预测的注视区域i的分辨率的参数。例如,对于预测的人眼注视的第一区域,k1可以设置为1。预测的第一区域是最接近先前焦点的区域。当人眼移过该预测的第一区域后,预测的第二区域被升级为第一区域,以此类推。接着,移过的预测的区域被删除。预测的人眼注视的区域可以是0个,1个或多个。然后,Pcell102a将重编码后的视频帧发送至用户设备103。端到端的时延取决于多种因素。因此,可以进行自适应时延补偿。首先设置系统时延的门限,并基于方程式(3)设置高分辨率区域的大小。如果系统时延超过设置的门限,系统将切换至非人眼追踪模式。此外,可以使用类似的缓慢启动传输来吸收时延变化。错误地估计系统时延可能会影响用户体验,因此可以设置目标,例如配置应当在99%情况下起作用,然后基于端到端的时延统计,基站能够具有最优的配置。下文中,基于提出的模型对增益的仿真进行描述。基于提出的模型,也即方程式(3),对不同终端的增益进行测试。假定最大的端到端时延为25ms,假定手机与人眼之间的距离为60cm,人眼运动的方式为扫视->注视->扫视…。每次测试时选取手机屏幕上的一个随机位置,并且人眼从当前位置至下一位置进行扫视运动。在新的位置,基于论文“AdrianStaub,AshleyBenatar,Individualdifferencesinfixationdurationdistributionsinreading,PsychonomicBulletin&Review,December2013,Volume20,Issue6,pp1304-1311”,注视被模型化为ex-Guassian过程。考虑端到端的时延以确保当人眼开始扫视运动时,观察者不会 注意到视频质量的变化。这需要扩大高分辨率的区域。效果如图7中所示。25ms端到端时延对应于大约12°,其表现为2阶梯形的分辨率分布图。仿真结果如下表2所示。从表中可以看出,对于不同类型的终端设备,本发明的实施例能够节省55.5%-80.6%的资源。更大的屏幕将具有更高的性能增益。表2仿真结果设备名称屏幕尺寸节省的资源Iphone6plus5.5’55.5%Ipadmini7’63.8%AmazonKindlefireHDx9.7’72.6%MicrosoftSurface312’80.6%在一个或多个示例性设计中,可以用硬件、软件、固件或它们的任意组合来实现本申请所述的功能。如果用软件来实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上,或者作为计算机可读介质上的一个或多个指令或代码来传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括有助于计算机程序从一个地方传递到另一个地方的任意介质。存储介质可以是通用或专用计算机可访问的任意可用介质。这种计算机可读介质可以包括,例如但不限于,RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁存储设备,或者可用于以通用或专用计算机或者通用或专用处理器可访问的指令或数据结构的形式来携带或存储希望的程序代码模块的任意其它介质。并且,任意连接也可以被称为是计算机可读介质。例如,如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或诸如红外线、无线电和微波之类的无线技术来从网站、服务器或其它远程源传输的,那么同轴电缆、光纤光缆、双绞线、DSL或诸如红外线、无线电和微波之类的无线技术也包括在介质的定义中。可以用通用处理器、数字信号处理器(DSP)、专用集成电路 (ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或者晶体管逻辑、分立硬件组件或用于执行本文所述的功能的任意组合来实现或执行结合本公开所描述的各种示例性的逻辑块、模块和电路。通用处理器可以是微处理器,或者,处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP内核的结合,或者任何其它此种结构。本领域普通技术人员还应当理解,结合本申请的实施例描述的各种示例性的逻辑块、模块、电路和算法步骤可以实现成电子硬件、计算机软件或二者的组合。为了清楚地表示硬件和软件之间的这种可互换性,上文对各种示例性的部件、块、模块、电路和步骤均围绕其功能进行了一般性描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和施加在整个系统上的设计约束条件。本领域技术人员可以针对每种特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本发明的保护范围。本公开的以上描述用于使本领域的任何普通技术人员能够实现或使用本发明。对于本领域普通技术人员来说,本公开的各种修改都是显而易见的,并且本文定义的一般性原理也可以在不脱离本发明的精神和保护范围的情况下应用于其它变形。因此,本发明并不限于本文所述的实例和设计,而是与本文公开的原理和新颖性特性的最广范围相一致。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1