基于机器学习的视频转码方法_4

文档序号：9551779阅读：来源：国知局

码中，将视频编码中的参数确定问题转化为分类问题。因而能够根据当前编码单元的大小选取相应的分类器，并将分类概率值与相应的自适应阈值进行比较，从而选取最佳编码参数进行编码。且自适应概率阈值针对不同视频场景自适应调整，因此，能够得到最优的转码速度和转码质量使得转码过程中功耗较小，在保证转码率失真性能的前提下有效降低转码的复杂度。
[0116] 以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0117] 以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。
【主权项】
1. 一种基于机器学习的视频转码方法，包括以下步骤：将视频编码过程中的参数选择建立为分类问题，再将其模型化为若干个不同层次的二进制分类器；从候选特征组合中选取代价值最大的特征集作为当前转码所用的最优特征集；训练转码阶段，依据从码流和原始编码过程中提取相应的特征矢量及最佳的编码参数，并对特征矢量和最佳的编码参数构成的数据集合进行学习，获得相应的若干个不同层次的分类器；预测转码阶段，根据当前编码单元的大小选择相应的分类器，再结合提取的特征矢量，得到分类标签值和分类概率值，将所述分类概率值与相应的自适应阈值进行比较，判断是否接受分类标签值，如果接受，则直接利用分类标签结果进行编码，否则采用原始率失真代价函数遍历各种编码参数。2. 根据权利要求1所述的基于机器学习的视频转码方法，其特征在于，所述原始编码过程中的参数选择问题模型化为若干个不同层次的二进制分类器的步骤包括： (1) 编码单元层次：当判断编码单元大小为64X64是否需要继续分割时，定义为分类器#0 ; 当判断编码单元大小为32X32是否需要继续分割时，定义为分类器#1 ; 当判断编码单元大小为16X16是否需要继续分割时，定义为分类器#2 ; (2) 预测单元层次：在编码单元大小为k时，ke{64X64, 32X32,16X16,8X8}，当遍历完预测单元模式集合，判断是否需要遍历剩余预测单元模式集合1时，定义k= 64X64时为分类器 #3;k= 32X32时为分类器#4;k= 16X16时为分类器#5;k= 8X8时为分类器#6 ; 预测单元模式集合Ak对应的预测单元模式为备选预测单元模式集合Ue{Merge/SKIP, 2NX2N，2NXN，NX2N，NXN，2NXnD，2NXnU，nLX2N，nRX2N}中的一个或多个模式，所述剩余预测单元模式集合Bk=U-Ak。3. 根据权利要求1所述的基于机器学习的视频转码方法，其特征在于，所述从候选特征组合中选取代价值最大的特征集作为当前转码中所用的最优特征集的步骤包括：获取所采用的Q个候选特征；计算从Q个候选特征选出K个特征的组合数C; 从Q个候选特征中选取K个特征得到C种组合的特征集；遍历所述C种组合的特征集，并计算每个组合特征集下的代价值；选取代价值最大的特征集组合作为当前转码中所用的最优特征集。4. 根据权利要求2所述的基于机器学习的视频转码方法，其特征在于，所述依据从码流和原始编码过程中提取相应的特征矢量及最佳的编码参数，并对特征矢量和最佳的编码参数构成的数据集合进行学习，获得相应的若干个不同层次的分类器的步骤还包括：提取当前编码单元和预测单元相应的特征矢量炉…乂1，iG {〇,L2, 3, 4, 5, 6}，其中，F1表示第i个分类器的特征矢量，η表示特征的数量；提取编码过程中的最佳编码参数，所述最佳编码参数为当前的编码单元或遍历完预测单元模式集合Ak是否继续向下一层分割或遍历剩余预测单元模式集合Bk作为真实值g1，如果当前的编码单元或遍历完预测单元模式集合Ak不向下一层分割或不需要遍历剩余预测单元模式集合Bk，则g1= -1 ;如果当前的编码单元或遍历完预测单元模式集合六1<向下一层分割或需要遍历剩余预测单元模式集合Bk，则g1= +1 ; 将提取的特征矢量及对应的最佳编码参数构成的集合Si= {F^g1}输入到机器学习训练器中，得到相应的编码单元层次的分类器Ι,ΜρΜρ和预测单元层次的分类器M3，M4，M5，M6。5.根据权利要求2所述的基于机器学习的视频转码方法，其特征在于，所述根据当前编码单元的大小选择相应的分类器，再结合提取的特征矢量，得到分类标签值和分类概率值，将所述分类概率值与相应的自适应阈值进行比较，判断是否接受分类标签值，如果接受，则直接利用分类标签结果进行编码，否则采用原始率失真代价函数遍历各种编码参数的步骤包括： (1) 编码初始化，深度D= 0,同时在D= 0时，k为64X64,D= 1时，k为32X32,D =2 时，k为 16X16,D= 3 时，k为 8X8 ; (2) 如果D>3时，则结束当前最大编码单元编码，否则根据深度D大小决定编码单元大小； (3) 若已有相应的编码信息，则更新概率阈值Θ#ΡΘD+3，否则设置初始的概率阈值0D 和 0D+3; (4) 根据编码单元的大小和编码单元的索引从对应位置码流和原始视频编码过程中提取相应的特征矢量#和FD+3; (5) 如果D= 3时，根据分类器和特征矢量FD+3计算分类值f(MD+3，FD+3)，如果 f(MD+3,FD+3) > = 0,则分类标签L= 1，同时计算分类概率值P(L= +11FD+3)，否则分类标签L =-1，同时计算分类概率值P(L= -11FD+3);如果P(L= +11FD+3) >ΘD+3，则预测单元层次遍历完预测单元模式集合4后继续遍历剩余预测单元模式集合Bk;如果P(L= -11FD+3) >ΘD+3，则预测单元层次遍历完预测单元模式集合Ak后结束当前编码单元编码；如果P(L= +1|FD+3)彡0D+3或者P(L= -1|FD+3)彡0D+3采用率失真优化方式遍历全部的备选预测单元模式集合U;之后按照编码单元的索引跳到第（5)步处理下一个D= 3的编码块，若没有D =3的编码块，则结束当前最大编码单元编码； (6) 如果D〈3时，根据分类器和特征矢量FD计算分类值f(MD，FD)，如果f(MD，FD) > = 0，则分类标签L= 1，同时计算分类概率值P(L= +11FD)，否则分类标签L= -1，同时计算分类概率值P(L= -1|FD); (7) 如果P(L= +11FD) >ΘD，则D=D+l，同时将当前编码单元向下一层分割为四个大小相等的编码单元并标注索引为〇、1、2、3,跳转到第（2)步依次按索引处理这四个编码单元； (8) 如果P(L= -11FD) >ΘD，则根据分类器和特征矢量FD+3计算分类值f(MD+3,FD+3)，如果f(MD+3,FD+3)> = 0,则分类标签L= 1，同时计算分类概率值P(L= +1|FD+3);否则分类标签L= -1，同时计算分类概率值P(L= -11FD+3)，如果P(L= +11FD+3) >ΘD+3，则预测单元层次遍历完预测单元模式集合继续遍历剩余预测单元集合Bk;如果P(L= -11FD+3) >ΘD+3，则预测单元层次遍历完预测单元模式集合Ak后结束当前编码单元编码；如果P(L= +1|#+3)彡0[1+3或者？仏=-1|? [)+3)彡0[1+3，则采用率失真优化方式遍历全部的备选预测单元集合U; (9) 如果P(L= +11FD)彡ΘD或者p(L= -11FD)彡ΘD，则按照原始的率失真优化方式遍历比较得到最佳的分割模式。6. 根据权利要求5所述的基于机器学习的视频转码方法，其特征在于，所述自适应概率阈值Θ[)用于控制转码速度及转码质量，通过统计转码过程中被拒绝接受分类标签值个数的百分比直方图和利用分类标签值预测最佳编码参数的准确率自适应计算概率阈值 0D;对于不同层次的分类器，编码单元层次初始化概率阈值ΘD的大小依次为〇.75、0. 80、 0. 85〇7. 根据权利要求1-6任意一项所述的基于机器学习的视频转码方法，其特征在于，还包括步骤：根据各个候选特征在分类过程中贡献度大小选取候选特征，其中，贡献度越大的候选特征优先选取。8. 根据权利要求1-6任意一项所述的基于机器学习的视频转码方法，其特征在于，提取的特征分别为①当前编码单元与前一帧对应位置块像素差值和；②H. 264/AVC码流中的对应于当前编码单元的编码块模式；③H. 264/AVC码流中的对应于当前编码单元的宏块分害_式；④H. 264/AVC码流中的非0的DCT系数的个数和；⑤DCT系数的平方和；⑥周围邻域块的编码分割模式；周围邻域块的编码标志包括⑦Skip模式标志、⑧Merge模式标志、⑨Ctxskip标志；当前编码信息和标志包括⑩编码块标志CBF、@Skip模式标志、(§) Merge模式标志、(g)率失真代价。
【专利摘要】本发明涉及一种基于机器学习的视频转码方法，将原始视频中编码单元的四叉树分割摸式模型化为若干个不同层次的二进制分类器，然后再选取最优特征集，最后再对特征矢量和最佳的编码参数构成的数据集合进行学习，即将机器学习的方法引入到视频转码中，将视频编码中的参数确定问题转化为分类问题。因而能够根据当前编码单元的大小选取相应的分类器，并将分类概率值与相应的自适应阈值进行比较，从而选取最佳编码参数进行编码。且自适应概率阈值针对不同视频场景自适应调整，因此，能够得到最优的转码速度和转码质量使得转码过程中功耗较小，在保证转码率失真性能的前提下有效降低转码的复杂度。
【IPC分类】H04N19/147, H04N19/103, H04N19/40, H04N19/96
【公开号】CN105306947
【申请号】CN201510708472
【发明人】朱林卫, 张云
【申请人】中国科学院深圳先进技术研究院
【公开日】2016年2月3日
【申请日】2015年10月27日

完整全部详细技术资料下载

当前第4页1 2 3 4