视频的失真类型的识别方法与识别装置与流程

文档序号：37275756发布日期：2024-03-12 21:09阅读：14来源：国知局

本申请涉及计算机视觉与人工智能等领域，尤其涉及一种视频的失真类型的识别方法与识别装置。

背景技术：

1、在自动驾驶领域或者视频监控领域，视频质量的好坏是非常重要的。但是，在现实条件下，通常会由于一些因素导致视频出现不同类型的失真，例如由于压缩导致的失真、低光照导致的失真、雨雪雾天气导致的失真、运动模糊导致的失真、相机畸变导致的失真、散焦模糊导致的失真等，这些失真可能会严重影响视频质量；识别出视频属于哪种类型的失真，然后再使用针对该类型的失真的处理算法对视频进行处理，对于提升视频质量是非常重要的。

2、但是目前没有参考技术可识别视频失真类型，如何识别视频的失真类型成为亟待解决的技术问题。

技术实现思路

1、本申请提供了一种视频的失真类型的识别方法与识别装置，可以实现识别出视频的失真类型。

2、第一方面，本申请提供一种训练用于识别视频失真类型的神经网络的方法，包括：获取第一训练数据，第一训练数据中包括第一视频和标签，第一视频包括k帧图像，k帧图像每帧图像包括m个图像通道，标签用于指示第一视频的失真类型，k和m均为正整数；使用第一训练数据对目标卷积神经网络模型进行训练，目标卷积神经网络模型包括k*m个输入通道，k*m个输入通道与k帧图像的k*m个图像通道一一对应，k*m个输入通道中每个输入通道用于输入对应图像通道的图像信息。

3、其中，本实施例中，k帧图像为第一视频中的k帧图像。具体地，该k帧图像有一种或多种固定的失真。

4、本实施例中，由于目标卷积神经网络模型包括k*m个输入通道，而该k*m个输入通道与k帧图像的k*m个图像通道一一对应，因此，可以实现将第一视频包括的k*m个图像通道的数据输入至目标卷积神经网络模型中，即可以认为能够实现将第一视频输入至目标卷积神经网络模型中，此外，由于第一视频的标签也是知道的，即失真类型也是知道的，因此可以通过包括第一视频和标签的第一训练数据对目标神经网络模型进行训练以调整目标卷积神经网络模型的参数，从而获得用于识别视频的失真类型的目标卷积神经网络模型。

5、结合第一方面，在一种可能的实现方式中，目标卷积神经网络模型还包括卷积层和第一输出层，所述卷积层用于对k*m个输入通道输入的图像信息进行特征提取以得到k帧图像的特征图，并向第一输出层输出k帧图像的特征图，第一输出层用于基于k帧图像的特征图输出第一视频的失真类型。

6、结合第一方面，在一种可能的实现方式中，标签还用于指示第一视频的失真等级；相应地，目标神经网络模型还包括第二输出层，卷积层还用于向第二输出层输出k帧图像的特征图，第二输出层用于基于k帧图像的特征图输出第一视频的失真等级，失真等级指示第一视频的失真严重程度。

7、本实施例中，由于标签中还指示了第一视频的失真等级，因此可以通过第一训练数据同时对包括第一分类层和第二分类层的目标神经网络模型进行训练，从而调整目标卷积神经网络模型的参数，以实现可以获得同时用于识别视频的失真类型以及视频的失真等级的目标卷积神经网络模型。

8、结合第一方面，在一种可能的实现方式中，卷积层包括但不限于如下网络结构中任意一种网络结构中的卷积层：“vgg16”或“resnet-50”。

9、该实现方式中，可以将在其他大数据集上已经训练好的vgg16、resnet-50中的卷积网络部分作为目标卷积神经网络中的卷积层。可以理解的是，由于在其他大数据集上已经训练好的vgg16、resnet-50中的卷积网络部分中的参数可能是一个比较好的参数，因此有助于提升目标神经网络模型训练时的收敛速度。

10、第二方面，本申请提供一种视频的失真类型的识别方法，包括：获取目标视频；使用目标卷积神经网络模型获取目标视频的失真类型，目标卷积神经网络模型为使用如第一方面或其中任一种可能的实现方式中所述的方法训练得到的卷积神经网络模型。

11、第三方面，本申请实施例提供一种训练神经网络的装置，包括：获取模块，用于获取第一训练数据，第一训练数据中包括第一视频和标签，第一视频包括k帧图像，k帧图像中每帧图像包括m个图像通道，标签用于指示第一视频的失真类型，k和m均为正整数；处理模块，用于使用第一训练数据对目标卷积神经网络模型进行训练，目标卷积神经网络模型包括k*m个输入通道，k*m个输入通道与k帧图像的k*m个图像通道一一对应，k*m个输入通道中每个输入通道用于输入对应图像通道的图像信息。

12、其中，目标卷积神经网络模型的具体结构设计一般是深度学习业界普遍采用的深度卷积网络模型，也可是其他类型的深度模型，如循环卷积网络、transformer网络等，本申请对此不做限制。

13、结合第三方面，在一种可能的实现方式中，目标卷积神经网络模型还包括卷积层和第一输出层，卷积层用于对k*m个输入通道输入的图像信息进行特征提取以得到k帧图像的特征图，并向第一输出层输出k帧图像的特征图，第一输出层用于基于k帧图像的特征图输出第一视频的失真类型。

14、结合第三方面，在一种可能的实现方式中，标签还用于指示第一视频的失真等级；相应地，目标神经网络模型还包括第二输出层，卷积层还用于向第二输出层输出k帧图像的特征图，第二输出层用于基于k帧图像的特征图输出第一视频的失真等级，失真等级指示第一视频的失真严重程度。

15、结合第三方面，在一种可能的实现方式中，所述卷积层包括但不限于如下网络结构中任意一种网络结构中的卷积层：“vgg16”或“resnet-50”。

16、第四方面，本申请提供一种视频的失真类型的识别装置，包括：获取模块，用于获取目标视频；处理模块，用于使用目标卷积神经网络模型基于所述目标视频获得失真类型，所述目标神经网络模型为使用如第一方面或其中任一种可能的实现方式中所述的方法训练得到的卷积神经网络模型。

17、第五方面，本申请提供一种自动驾驶系统，包括如第四方面所述的视频的失真类型的识别装置。

18、第六方面，本申请提供一种训练神经网络的装置，包括：存储器和处理器；所述存储器用于存储程序指令；所述处理器用于调用所述存储器中的程序指令执行如第一方面或其中任意一种可能的实现方式所述的方法。

19、第七方面，一种视频的失真类型的识别装置，包括：存储器和处理器；

20、所述存储器用于存储程序指令；所述处理器用于调用所述存储器中的程序指令执行如第二方面所述的方法。

21、第八方面，本申请提供一种计算机可读介质，所述计算机可读介质存储用于计算机执行的程序代码，该程序代码包括用于执行第一方面或第二方面或其中任意一种可能的实现方式所述的方法的指令。

22、第九方面，本申请提供一种计算机程序产品，所述计算机程序产品中包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得所述计算机实现如第一方面或第二方面或其中任意一种可能的实现方式所述的方法。

技术特征：

1.一种训练用于识别视频失真类型的神经网络的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标卷积神经网络模型还包括卷积层和第一输出层，所述卷积层用于对所述k*m个输入通道输入的图像信息进行特征提取以得到所述k帧图像的特征图，并向所述第一输出层输出所述k帧图像的特征图，所述第一输出层用于基于所述k帧图像的特征图输出所述第一视频的失真类型。

3.根据权利要求2所述的方法，其特征在于，所述标签还用于指示所述第一视频的失真等级；

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述卷积层包括如下网络结构中任意一种网络结构中的卷积层：“vgg16”或“resnet-50”。

5.一种视频的失真类型的识别方法，其特征在于，包括：

6.一种训练神经网络的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述目标卷积神经网络模型还包括卷积层和第一输出层，所述卷积层用于对所述k*m个输入通道输入的图像信息进行特征提取以得到所述k帧图像的特征图，并向所述第一输出层输出所述k帧图像的特征图，所述第一输出层用于基于所述k帧图像的特征图输出所述第一视频的失真类型。

8.根据权利要求6所述的装置，其特征在于，所述标签还用于指示所述第一视频的失真等级；

9.根据权利要求6至8中任一项所述的装置，其特征在于，所述卷积层包括如下网络结构中任意一种网络结构中的卷积层：“vgg16”或“resnet-50”。

10.一种视频的失真类型的识别装置，其特征在于，包括：

11.一种自动驾驶系统，其特征在于，包括如权利要求10所述的视频的失真类型的识别装置。

12.一种训练神经网络的装置，其特征在于，包括：存储器和处理器；

13.一种视频的失真类型的识别装置，其特征在于，包括：存储器和处理器；

14.一种计算机可读介质，其特征在于，所述计算机可读介质存储用于计算机执行的程序代码，该程序代码包括用于执行如权利要求1至4或权利要求5所述的方法的指令。

15.一种计算机程序产品，所述计算机程序产品中包括计算机程序代码，其特征在于，当所述计算机程序代码在计算机上运行时，使得所述计算机实现如权利要求1至4或权利要求5所述的方法。

技术总结
本申请提供一种视频的失真类型的识别方法与识别装置。本申请提供的视频的失真类型的识别方法中，首先通过第一训练数据训练目标神经网络模型，获得训练好的用于识别视频的失真类型的目标卷积神经网络模型，其中，第一训练数据包括第一视频和标签，该第一视频包括至少K帧图像，K帧图像中每帧图像包括M个图像通道，标签用于指示第一视频的失真类型，目标神经网络模型包括K*M个输入通道，该K*M个输入通道与K帧图像的K*M个图像通道一一对应，且每个输入通道用于输入对应图像通道的图像信息；之后，对于新的目标视频，就可以使用该训练好的用于识别视频的失真类型的目标卷积神经网络模型获得该新的目标视频的失真类型。

技术研发人员：张培科,林永兵,马莎
受保护的技术使用者：华为技术有限公司
技术研发日：
技术公布日：2024/3/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张培科,林永兵,马莎
技术所有人：华为技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。