本发明涉及视频处理,尤其涉及一种发现音视频播出内容中异态的人工智能识别的方法。
背景技术:
1、在相关技术中,通常使用简单的图像特征提取的方法在广播电视视频中发现异态,通常只能识别几种特定的简单场景,例如,黑屏或静帧,具体识别方法通常包括计算图像亮度,低于阈值即为黑屏,以及对相邻帧提取图形特征计算相似度,连读多帧相似即为静帧。因此,相关技术中的识别异态的方法能够识别的异态种类较少,场景较为单一,且缺少对视频内容的理解,导致误识别率较高。
2、公开于本技术背景技术部分的信息仅仅旨在加深对本技术的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
技术实现思路
1、本发明提供一种发现音视频播出内容中异态的人工智能识别的方法,能够解决相关技术识别的异态种类较少,场景单一,误识别率较高等技术问题。
2、根据本发明的第一方面,提供一种发现音视频播出内容中异态的人工智能识别的方法,包括:
3、将待处理视频进行解码,获得多个待处理视频帧;
4、对连续的第一预设数量个待处理视频帧进行特征提取处理,获得多个特征通道的时空特征图;
5、根据所述时空特征图,获得与所述时空特征图的多个分区对应的分区时空特征向量;
6、将多个分区对应的分区时空特征向量输入编码模型进行处理,获得综合时空特征信息;
7、将所述综合时空特征信息输入分类判别模型进行处理,获得异态类型识别结果。
8、根据本发明,对连续的第一预设数量个待处理视频帧进行特征提取处理,获得多个特征通道的时空特征图,包括:
9、通过多个3d卷积层级,对连续的第一预设数量个待处理视频帧进行逐层特征提取处理,获得每个3d卷积层级输出的第一3d特征图;
10、将每个3d卷积层级输出的第一3d特征图进行逐层级特征融合,获得多个特征通道的时空特征图。
11、根据本发明,将每个3d卷积层级输出的第一3d特征图进行逐层级特征融合,获得多个特征通道的时空特征图,包括:
12、将每个层级的第一3d特征图通过卷积核尺寸为1×1×1的3d卷积核进行处理,获得每个层级的第二预设数量个第二3d特征图;
13、根据每个层级的第二3d特征图的尺寸和层级数量,对每个层级的第二预设数量个第二3d特征图进行递推处理,获得多个特征通道的时空特征图,其中,时空特征图的特征通道的数量为第二预设数量。
14、根据本发明,根据每个层级的第二3d特征图的尺寸和层级数量,对每个层级的第二预设数量个第二3d特征图进行递推处理,获得多个特征通道的时空特征图,包括:
15、在l=l时,将第l个层级的第二3d特征图设置为第l个层级的第三3d特征图,其中,l为3d卷积层级的数量;
16、将第l个层级的第三3d特征图进行上采样,获得与第l-1个层级的第二3d特征图尺寸相同的第四3d特征图;
17、将特征通道相同的第l个层级的第四3d特征图和第l-1个层级的第二3d特征图进行融合,获得第l-1个层级的第三3d特征图;
18、在l≠l时,将第l个层级的第三3d特征图进行上采样,获得与第l-1个层级的第二3d特征图尺寸相同的第四3d特征图;
19、将特征通道相同的第l个层级的第四3d特征图和第l-1个层级的第二3d特征图进行融合,获得第l-1个层级的第三3d特征图;
20、在所述第三3d特征图的尺寸达到预设尺寸时,停止递推,并将多个特征通道的第三3d特征图确定为多个特征通道的时空特征图。
21、根据本发明,根据所述时空特征图,获得与所述时空特征图的多个分区对应的分区时空特征向量,包括:
22、将所述时空特征图沿时序方向、宽度方向和高度方向进行划分,获得多个分区特征图;
23、将分区特征图展平为分区特征向量;
24、根据分区特征图在所述时空特征图中的时序方向的序号、以及在宽度方向和高度方向的序号,确定与分区特征图对应的时空位置编码;
25、将所述时空位置编码与所述分区特征向量进行融合,获得分区时空特征向量。
26、根据本发明,将多个分区对应的分区时空特征向量输入编码模型进行处理,获得综合时空特征信息,包括:
27、在编码模型的每个层级中,使用多头注意力机制对输入特征向量进行处理,获得每个注意力头的输出特征信息,其中,在编码模型的第一个层级中,输入特征向量为所述分区时空特征向量;
28、对每个注意力头的输出特征信息进行拼接,获得拼接特征信息;
29、通过权重矩阵对拼接特征信息进行处理,获得输出特征向量,并将输出特征向量作为下一个层级的输入特征向量;
30、在经过编码模型的多个层级的处理后,将输出特征向量进行组合,获得综合时空特征信息。
31、根据本发明,将所述综合时空特征信息输入分类判别模型进行处理,获得异态类型识别结果,包括:
32、将所述综合时空特征信息输入分类判别模型的多层感知层级进行处理,获得异态类型特征向量;
33、将异态类型特征向量输入分类判别模型的激活层进行处理,获得异态类型识别结果。
34、根据本发明,将异态类型特征向量输入分类判别模型的激活层进行处理,获得异态类型识别结果,包括:
35、将异态类型特征向量输入分类判别模型的激活层进行处理,输出多种异态类型的概率数据;
36、将概率数据最大值对应的异态类型作为异态类型识别结果。
37、根据本发明的第二方面,提供一种发现音视频播出内容中异态的人工智能识别的系统,包括:
38、解码模块,用于将待处理视频进行解码,获得多个待处理视频帧;
39、特征提取模块,用于对连续的第一预设数量个待处理视频帧进行特征提取处理,获得多个特征通道的时空特征图;
40、分区模块,用于根据所述时空特征图,获得与所述时空特征图的多个分区对应的分区时空特征向量;
41、编码模块,用于将多个分区对应的分区时空特征向量输入编码模型进行处理,获得综合时空特征信息;
42、识别模块,用于将所述综合时空特征信息输入分类判别模型进行处理,获得异态类型识别结果。
43、根据本发明的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现所述发现音视频播出内容中异态的人工智能识别的方法。
44、通过采用上述技术方案,本发明可以取得以下技术效果:
45、根据本发明,可通过多个层级以及多个分区的特征提取处理,有效地捕捉视频中的局部信息和全局信息,有助于对视频内容进行准确理解,从而实现对视频的连续多帧的异态类型识别,并可适用于更多种场景和异态类型,提升识别准确性和适用性。进一步地,可通过多个3d卷积层级获得不同尺度的特征图,并通过特征金字塔的方式将不同尺度的特征图进行融合,使融合获得的时空特征图包含丰富的局部特征信息和全局特征信息,有利于对视频内容的理解,提升异态类型识别结果的准确性。并可将时空特征图进行分区,并得到适用于transformer模型的分区特征向量,并可根据分区特征向量的时间位置和空间位置进行编码,便于模型确定每个分区的位置,从而更准确地理解视频的内容,提升异态类型识别结果的准确性。还可通过多头注意力机制对多个通道的多个分区时空特征向量进行融合,得到综合了多个尺度以及局部和全局特征信息的综合时空特征信息,可获取不同输入特征向量之间的空间和时间依赖关系,从而更准确地理解视频内容,提升异态类型识别结果的准确性。进一步地,可通过分类模型对综合时空特征信息进行处理,以全面利用综合时空特征信息中包含的多个尺度的特征信息、局部和全局特征信息以及空间和时间依赖关系,获得异态类型识别结果,可提升异态类型识别结果的准确性,并提升分类的鲁棒性和泛化能力。
46、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本发明。根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将更清楚。