面审视频的场景分类方法、装置、电子设备及存储介质与流程

文档序号:31405781发布日期:2022-09-03 06:41阅读:64来源:国知局
面审视频的场景分类方法、装置、电子设备及存储介质与流程

1.本发明涉及人工智能技术领域,具体涉及一种面审视频的场景分类方法、装置、电子设备及存储介质。


背景技术:

2.场景分类在现实生活中越来越重要,比如在反欺诈、风险防控等领域,需要对面审视频进行场景分类,确保客户在安全的环境下进行面审视频。然而,面审视频的图像内容经常是客户对着摄像设备说一些话,人脸占据图片的比例比较大,能利用的场景信息相对而言比较少,现有技术无法根据这些场景信息进行有效的场景分类,导致面审视频的场景分类效率及准确率低。


技术实现要素:

3.鉴于以上内容,有必要提出一种面审视频的场景分类方法、装置、电子设备及存储介质,通过对视频帧序列集中的视频帧进行预处理后,采用预先训练好的场景分类模型进行场景分类,提高了场景分类的效率及准确率。
4.本发明的第一方面提供一种面审视频的场景分类方法,所述方法包括:
5.响应于接收到的场景分类请求,获取面审视频;
6.将所述面审视频转换为视频帧序列集,根据所述视频帧序列集判断所述面审视频是否满足场景分类环境;
7.当所述面审视频满足场景分类环境时,对所述视频帧序列集中的视频帧进行预处理,得到场景图像样本集;
8.将所述场景图像样本集输入至预先训练好的场景分类模型中,得到每张场景图像的分类结果;
9.根据所述场景样本集中的每张场景图像的分类结果,确定所述面审视频的场景分类结果。
10.可选地,所述对所述视频帧序列集中的视频帧进行预处理,得到场景图像样本集包括:
11.将所述视频帧序列集中的第一张视频帧确定为当前视频帧;
12.计算所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度;
13.当所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度大于或者等于预设的相似度阈值时,从所述视频帧序列集中删除所述当前视频帧的下一张视频帧,得到新的视频帧序列集,将所述新的视频帧序列集中的第一张视频帧确定为当前视频帧,重复计算所述新的视频帧序列集中的当前视频帧与所述当前视频帧的下一张视频帧之间的相似度,直至完成所述新的视频序列集中的第一张视频帧与最后一张视频帧之间的相似度的计算,得到场景图像样本集;
14.当所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度小于所述预
设的相似度阈值时,将所述当前视频帧的下一张视频帧确定为新的当前视频帧,重复计算所述新的当前视频帧与所述新的当前视频帧的下一张视频帧之间的相似度,直至完成所述视频序列集中的新的当前视频帧与最后一张视频帧之间的相似度的计算,得到场景图像样本集。
15.可选地,所述计算所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度包括:
16.计算所述当前视频帧的每个位置的像素与所述当前视频帧的下一张视频帧的对应位置的像素的差值,将所有位置的像素的差值求平均值,得到像素的目标均值;
17.计算所述像素的目标均值与所述当前视频帧的像素总数之商数,将计算得到的商数确定为所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度。
18.可选地,所述场景分类模型的训练过程包括:
19.获取多个场景及对应场景的第一视频集和第二视频集;
20.对所述第一视频集进行解码,得到第一样本图像集,及对所述第二视频集进行解码,得到第二样本图像集;
21.利用人脸检测算法抠除所述第一样本图像集中的每张样本图像的人脸图像,将抠除了人脸图像后的多张样本图像确定为第三样本图像集;
22.从所述第二样本图像集中划分出训练集和测试集;
23.将所述训练集输入预设神经网络中进行训练,得到预训练模型;
24.将所述测试集输入至所述预训练模型中进行测试,并计算测试通过率;
25.将所述测试通过率与预设的通过率阈值进行比对;
26.当所述测试通过率大于或者等于预设通过率阈值,确定所述预训练模型训练结束,基于所述第三样本图像集,采用预设的微调模型对所述预训练模型进行微调,得到场景分类模型。
27.可选地,所述根据所述场景样本集中的每张场景图像的分类结果,确定所述面审视频的场景分类结果包括:
28.从每张场景图像的分类结果中获取每张场景图像的最高置信度,并将所述最高置信度与预设的置信度阈值进行比对;
29.保留最高置信度大于或者等于所述预设的置信度阈值对应的多个场景图像,并将所述每张场景图像的最高置信度对应的类别确定为对应场景图像的目标场景类别;
30.根据目标场景类别对保留的多个场景图像进行归类,得到每个目标场景类别的目标场景样本集;
31.基于每个目标场景类别的目标场景样本集统计每个目标场景类别的总票数;
32.计算多个目标场景类别的多个总票数中最高总票数与第二高总票数之差与所述多个总票数之和的商数,得到目标场景类别结果;
33.将所述目标场景类别结果与预设的场景类别阈值进行对比;
34.当所述目标场景类别结果大于或者等于所述预设的场景类别阈值时,将总票数最高的场景类别确定为所述面审视频的场景分类结果。
35.可选地,所述根据所述视频帧序列集判断所述面审视频是否满足场景分类环境包括:
36.将所述视频帧序列集中的每张视频帧转换为hsv图像,得到hsv图像集;剔除所述hsv图像集中的每张hsv图像中的人脸区域像素,保留所述每张hsv图像的非人脸区域的像素,基于保留的所述每张hsv图像的非人脸区域的像素,计算所述每张hsv图像的目标亮度值;
37.将每张hsv图像的目标亮度值与预设的亮度阈值进行比较;
38.统计所述目标亮度值小于所述预设的亮度阈值的hsv图像的总数之和,得到第一总数;
39.基于所述hsv图像集的图像的第二总数获取目标总数阈值;
40.将所述第一总数与所述目标总数阈值进行比较;
41.当所述第一总数小于所述目标总数阈值时,确定所述面审视频满足场景分类环境。
42.可选地,所述方法还包括:
43.当所述面审视频不满足场景分类环境时,切换至人工场景分类审核系统。
44.本发明的第二方面提供一种面审视频的场景分类装置,所述装置包括:
45.获取模块,用于响应于接收到的场景分类请求,获取面审视频;
46.判断模块,用于将所述面审视频转换为视频帧序列集,根据所述视频帧序列集判断所述面审视频是否满足场景分类环境;
47.预处理模块,用于当所述面审视频满足场景分类环境时,对所述视频帧序列集中的视频帧进行预处理,得到场景图像样本集;
48.输入模块,用于将所述场景图像样本集输入至预先训练好的场景分类模型中,得到每张场景图像的分类结果;
49.确定模块,用于根据所述场景样本集中的每张场景图像的分类结果,确定所述面审视频的场景分类结果。
50.本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的面审视频的场景分类方法。
51.本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的面审视频的场景分类方法。
52.综上所述,本发明所述的面审视频的场景分类方法、装置、电子设备及存储介质,通过视频帧序列集判断所述面审视频是否满足场景分类环境,在面审视频满足场景分类环境时,对所述视频帧序列集中的视频帧进行预处理,删除相似的视频帧,合理的过滤掉大量的冗余视频帧,一方面减少了冗余信息,另一方面可以极大的提高场景分类模型的推算时间,缩短对视频场景判断的时间,提高了面审视频的场景分类效率。将所述场景图像样本集输入至预先训练好的场景分类模型中,得到每张场景图像的分类结果,在场景分类模型的训练过程中,从开源数据和面审数据两个方面进行了考量,避免了现有技术中采用面审数据训练场景分类模型时出现少量数据过拟合的现象,提高了训练得到的场景分类模型的准确率,进而提高了场景分类的准确率。根据所述场景样本集中的每张场景图像的分类结果,确定所述面审视频的场景分类结果,通过丢弃一些无法确认场景分类的场景图像,提高了场景分类的效率及准确率。
附图说明
53.图1是本发明实施例一提供的面审视频的场景分类方法的流程图。
54.图2是本发明实施例二提供的面审视频的场景分类装置的结构图。
55.图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
56.为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
57.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
58.实施例一
59.图1是本发明实施例一提供的面审视频的场景分类方法的流程图。
60.在本实施例中,所述面审视频的场景分类方法可以应用于电子设备中,对于需要进行面审视频的场景分类的电子设备,可以直接在电子设备上集成本发明的方法所提供的面审视频的场景分类的功能,或者以软件开发工具包(software development kit,sdk)的形式运行在电子设备中。
61.本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
62.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
63.如图1所示,所述面审视频的场景分类方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
64.s11,响应于接收到的场景分类请求,获取面审视频。
65.本实施例中,在反欺诈、风险防控等领域,需要对面审视频进行场景分类,通过客户端发起场景分类请求至服务端,具体地,所述客户端可以是智能手机、ipad或者其他现有的智能设备,在面审视频的场景分类过程中,接收所述客户端发送的场景分类请求,并响应于所述场景分类请求,获取面审视频。
66.s12,将所述面审视频转换为视频帧序列集,根据所述视频帧序列集判断所述面审视频是否满足场景分类环境。
67.本实施例中,场景分类环境是预先设置的,判断所述面审视频是否满足场景分类环境,即判断所述面审视频是否在很黑暗的环境,如果在很黑暗的环境下,很难判断出所述面审是否处于哪个场景,所述面审视频不满足场景分类环境。
68.本实施例中,在根据所述视频帧序列集判断所述面审视频是否满足场景分类环境
时,将视频帧序列集中的视频帧转换到hsv空间里,利用每个像素的亮度值判断明暗程度,亮度值越大,像素的亮度越高。
69.本实施例中,由于在面审视频时,若用户在黑暗环境下,会开启手机的手电筒,导致面审视频中用户的人脸图像比较亮,会拉高所述面审视频中每张视频帧的亮度值,若直接使用每张视频帧的所有像素的亮度值的均值,很难区分出处于黑暗环境的视频帧,故在根据所述视频帧序列集判断所述面审视频是否满足场景分类环境,需要剔除所述面审视频中每张视频帧的人脸区域的像素,根据每张视频帧的非人脸区域的像素的亮度值进行场景分类环境的判断,提高了场景分类环境判断的准确率,在后续进行面审视频的场景分类时,考虑了所述场景分类环境的判断结果,提高了面审视频的场景分类的准确率和效率。
70.在一个可选的实施例中,所述根据所述视频帧序列集判断所述面审视频是否满足场景分类环境包括:
71.将所述视频帧序列集中的每张视频帧转换为hsv图像,得到hsv图像集;剔除所述hsv图像集中的每张hsv图像中的人脸区域像素,保留所述每张hsv图像的非人脸区域的像素,基于保留的所述每张hsv图像的非人脸区域的像素,计算所述每张hsv图像的目标亮度值;
72.将每张hsv图像的目标亮度值与预设的亮度阈值进行比较;
73.统计所述目标亮度值小于所述预设的亮度阈值的hsv图像的总数之和,得到第一总数;
74.基于所述hsv图像集的图像的第二总数获取目标总数阈值;
75.将所述第一总数与所述目标总数阈值进行比较;
76.当所述第一总数小于所述目标总数阈值时,确定所述面审视频满足场景分类环境。
77.进一步地,所述将所述第一总数与所述目标总数阈值进行比较还包括:
78.当所述第一总数大于或者等于所述目标总数阈值时,确定所述面审视频不满足场景分类环境。
79.本实施例中,可以预先设置亮度阈值,将每张hsv图像的目标亮度值与预设的亮度阈值进行比较,当每张hsv图像的目标亮度值小于所述预设的亮度阈值,确定这张hsv图像处于黑暗环境,统计出所述hsv图像集处于黑暗环境的hsv图像的第一总数。
80.本实施例中,第二总数是指面审视频中的hsv图像集的图像总数之和,针对不同的第二总数设置不同的目标总数阈值。
81.示例性地,若面审视频中的hsv图像集的第二总数为100张,对应的目标总数阈值为60张,当处于黑暗环境的hsv图像的第一总数大于或者等于60张时,确定所述面审视频处于黑暗环境,即不满足场景分类环境。
82.进一步地,所述基于保留的所述每张hsv图像的非人脸区域的像素,计算所述每张hsv图像的目标亮度值包括:
83.获取保留的所述每张hsv图像中的非人脸区域的每个像素的亮度值,并对所述每张hsv图像的非人脸区域的多个亮度值求平均值,将所述平均值确定为对应hsv图像的非人脸区域的目标亮度值。
84.s13,当所述面审视频满足场景分类环境时,对所述视频帧序列集中的视频帧进行
预处理,得到场景图像样本集。
85.在一个可选的实施例中,所述对所述视频帧序列集中的视频帧进行预处理,得到场景图像样本集包括:
86.将所述视频帧序列集中的第一张视频帧确定为当前视频帧;
87.计算所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度;
88.当所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度大于或者等于预设的相似度阈值时,从所述视频帧序列集中删除所述当前视频帧的下一张视频帧,得到新的视频帧序列集,将所述新的视频帧序列集中的第一张视频帧确定为当前视频帧,重复计算所述新的视频帧序列集中的当前视频帧与所述当前视频帧的下一张视频帧之间的相似度,直至完成所述新的视频序列集中的第一张视频帧与最后一张视频帧之间的相似度的计算,得到场景图像样本集;
89.当所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度小于所述预设的相似度阈值时,将所述当前视频帧的下一张视频帧确定为新的当前视频帧,重复计算所述新的当前视频帧与所述新的当前视频帧的下一张视频帧之间的相似度,直至完成所述视频序列集中的新的当前视频帧与最后一张视频帧之间的相似度的计算,得到场景图像样本集。
90.进一步地,所述计算所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度包括:
91.计算所述当前视频帧的每个位置的像素与所述当前视频帧的下一张视频帧的对应位置的像素的差值,将所有位置的像素的差值求平均值,得到像素的目标均值;
92.计算所述像素的目标均值与所述当前视频帧的像素总数之商数,将计算得到的商数确定为所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度。
93.本实施例中,可以预先设置相似度阈值,将计算得到的所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度与所述预设的相似度阈值进行对比,当所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度小于所述预设的相似度阈值时,表示当前视频帧与所述当前视频帧的下一张视频帧相类似,从所述视频帧序列集中删除所述当前视频帧的下一张视频帧。
94.本实施例中,通过计算当前视频帧与所述当前视频帧的下一张视频帧之间的相似度,利用相邻视频帧的差异,删除相似的视频帧,合理的过滤掉大量的冗余视频帧,一方面减少了冗余信息,另一方面可以极大的提高场景分类模型的推算时间,缩短对视频场景判断的时间,提高了面审视频的场景分类效率。
95.s14,将所述场景图像样本集输入至预先训练好的场景分类模型中,得到每张场景图像的分类结果。
96.本实施例中,在确定所述面审视频中某一视频帧的场景类别时,预先训练好的场景分类模型会给出每张视频帧属于每类场景的置信度,以最高置信度对应的类别确定为该视频帧的类别,其中,所述场景类别可以包括室内、室外、车内、公共场所等。
97.具体地,所述场景分类模型的训练过程包括:
98.获取多个场景及对应场景的第一视频集和第二视频集;
99.对所述第一视频集进行解码,得到第一样本图像集,及对所述第二视频集进行解
码,得到第二样本图像集;
100.利用人脸检测算法抠除所述第一样本图像集中的每张样本图像的人脸图像,将抠除了人脸图像后的多张样本图像确定为第三样本图像集;
101.从所述第二样本图像集中划分出训练集和测试集;
102.将所述训练集输入预设神经网络中进行训练,得到预训练模型;
103.将所述测试集输入至所述预训练模型中进行测试,并计算测试通过率;
104.将所述测试通过率与预设的通过率阈值进行比对;
105.当所述测试通过率大于或者等于预设通过率阈值,确定所述预训练模型训练结束,基于所述第三样本图像集,采用预设的微调模型对所述预训练模型进行微调,得到场景分类模型。
106.本实施例中,预设的微调模型可以为fine tuning模型,采用fine tuning模型进行预训练模型的微调过程为现有技术,本实施例在此不做详述。
107.进一步地,所述将所述测试通过率与预设的通过率阈值进行比对还包括:
108.当所述测试通过率小于所述预设通过率阈值,增加训练集的数量,重新进行预训练场景分类模型的训练;
109.本实施例中,由于面审视频中面审数据比较敏感,在进行场景分类模型训练过程中,银行等机构很难提供每个场景很多训练数据,若采用很少的数据进行场景分类模型训练,容易出现数据过拟合。
110.本实施例中,所述第一视频集为多个场景的面审视频集,由于面审视频集中的视频帧中人脸图像占比较大,为了防止人脸图像影响后续的场景分类结果的影响,利用人脸检测算法将所述第一视频集中的所有图像中的人脸图像进行抠除,将抠除后的多张图像确地为第三样本图像集;所述第二视频集为place365提供的大量场景数据,具体地,所述place365提供的大量场景数据为开源数据。
111.本实施例中,在训练场景分类模型时,采用place365提供的大量场景数据,即第二视频集对应的第二样本图像集对分类模型进行预训练,得到预训练模型,通过面审数据,即第三样本图像集对所述预训练模型进行微调,得到场景分类模型,在场景分类模型训练过程中从开源数据和面审数据两个方面进行了考量,并基于面审数据对预训练模型进行微调得到场景分类模型,确保了训练得到的场景分类模型准确性,同时避免了现有技术中只采用面审数据训练场景分类模型时出现少量数据过拟合的现象,提高了训练得到的场景分类模型的准确率,进而提高了场景分类的准确率。
112.s15,根据所述场景样本集中的每张场景图像的分类结果,确定所述面审视频的场景分类结果。
113.本实施例中,在进行面审视频的场景分类结果确认时,考虑了每张场景图像的分类结果。
114.在一个可选的实施例中,所述根据所述场景样本集中的每张场景图像的分类结果,确定所述面审视频的场景分类结果包括:
115.从每张场景图像的分类结果中获取每张场景图像的最高置信度,并将所述最高置信度与预设的置信度阈值进行比对;
116.保留最高置信度大于或者等于所述预设的置信度阈值对应的多个场景图像,并将
所述每张场景图像的最高置信度对应的类别确定为对应场景图像的目标场景类别;
117.根据目标场景类别对保留的多个场景图像进行归类,得到每个目标场景类别的目标场景样本集;
118.基于每个目标场景类别的目标场景样本集统计每个目标场景类别的总票数;
119.计算多个目标场景类别的多个总票数中最高总票数与第二高总票数之差与所述多个总票数之和的商数,得到目标场景类别结果;
120.将所述目标场景类别结果与预设的场景类别阈值进行对比;
121.当所述目标场景类别结果大于或者等于所述预设的场景类别阈值时,将总票数最高的场景类别确定为所述面审视频的场景分类结果。
122.进一步地,所述将所述目标场景类别结果与预设的场景类别阈值进行对比还包括:
123.当所述目标场景类别结果小于所述预设的场景类别阈值时,切换至人工场景分类审核系统。
124.本实施例中,在对面审视频的每张场景图像的场景类别判断时,场景分类模型会给每张场景图像属于每类场景的具体置信度,并将最高置信度对应的类别确定为每张场景图像的目标场景类别。
125.本实施例中,若每张场景图像中存在多个场景,需要判断每张场景图像是属于具体哪个场景类别。
126.示例性地,预设的置信度阈值为0.4,针对一个三分类的场景,判断每张场景图像是属于车内、室内、室外场景的具体哪一个类别,例如:场景分类模型给出属于车内的置信度为0.82,属于室内的置信度为0.10,属于室外的置信度为0.08,最高置信度0.82大于预设的置信度阈值0.4,则确定对应的场景图像的目标场景类别为车内;场景分类模型给出属于车内的置信度为0.31,属于室内的置信度为0.36,属于室外的置信度为0.33,最高置信度0.36小于预设的置信度阈值0.4,表明该张场景图像中无法给出具有判别性的信息,场景分类模型无法准确的判断该张场景图像的场景类别,就丢弃这张场景图像。
127.本实施例中,若多个目标场景类别的目标场景样本集共100张场景图像,第一种场景分类结果:车内80张场景图像,室内得到10张场景图像,室外得到了10张场景图像;第二种场景分类结果:车内45张场景图像,室外40张场景图像,室内15张场景图像,针对第二种场景分类结果,车内45张场景图像,室外40张场景图像,室内15张场景图像这样场景分类结果场景分类模型无法确定所述面审视频到底属于哪个场景。
128.本实施例中,预设的场景类别阈值为0.4,通过计算最高总票数与第二高总票数之差除以总票数确定目标场景分类结果,根据目标场景分类结果与预设的场景类别阈值进行对比,根据对比结果确定面审视频的场景分类结果,例如,第一种场景分类结果对应的目标场景分类结果为:(80-10)/100=0.7,第二种场景分类结果对应的目标场景分类结果为:(45-40)/100=0.05,可见,0.7大于0.4,可以确定第一种场景分类结果对应的面审视频的场景分类结果为车内场景;而0.05小于0.4,表明所述面审视频的场景分类结果无法确定,切换至人工审核。
129.本实施例中,在根据所述场景样本集中的每张场景图像的分类结果,确定所述面审视频的场景分类结果,通过丢弃一些无法确认场景分类的场景图像,提高了场景分类的
效率及准确率。
130.s16,当所述面审视频不满足场景分类环境时,切换至人工场景分类审核系统。
131.本实施例中,当所述面审视频不满足场景分类环境时,确定所述面审视频属于黑暗的环境,在黑暗的环境中,面审视频的场景分类子系统很难从面审视频中判断出用户所处的环境,切换至人工场景分类审核系统进行人工审核,确保了面审视频的场景分类的准确率。
132.综上所述,本实施例所述的面审视频的场景分类方法,通过视频帧序列集判断所述面审视频是否满足场景分类环境,在面审视频满足场景分类环境时,对所述视频帧序列集中的视频帧进行预处理,删除相似的视频帧,合理的过滤掉大量的冗余视频帧,一方面减少了冗余信息,另一方面可以极大的提高场景分类模型的推算时间,缩短对视频场景判断的时间,提高了面审视频的场景分类效率。将所述场景图像样本集输入至预先训练好的场景分类模型中,得到每张场景图像的分类结果,在场景分类模型的训练过程中,从开源数据和面审数据两个方面进行了考量,避免了现有技术中采用面审数据训练场景分类模型时出现少量数据过拟合的现象,提高了训练得到的场景分类模型的准确率,进而提高了场景分类的准确率。根据所述场景样本集中的每张场景图像的分类结果,确定所述面审视频的场景分类结果,通过丢弃一些无法确认场景分类的场景图像,提高了场景分类的效率及准确率。
133.实施例二
134.图2是本发明实施例二提供的面审视频的场景分类装置的结构图。
135.在一些实施例中,所述面审视频的场景分类装置20可以包括多个由程序代码段所组成的功能模块。所述面审视频的场景分类装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)面审视频的场景分类的功能。
136.本实施例中,所述面审视频的场景分类装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、判断模块202、预处理模块203、输入模块204、确定模块205及切换模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
137.获取模块201,用于响应于接收到的场景分类请求,获取面审视频。
138.本实施例中,在反欺诈、风险防控等领域,需要对面审视频进行场景分类,通过客户端发起场景分类请求至服务端,具体地,所述客户端可以是智能手机、ipad或者其他现有的智能设备,所述服务端可以为面审视频的场景分类子系统,在面审视频的场景分类过程中,如所述客户端可以向面审视频的场景分类子系统发送场景分类请求,所述面审视频的场景分类子系统用于接收所述客户端发送的场景分类请求,并响应于所述场景分类请求,获取面审视频。
139.判断模块202,用于将所述面审视频转换为视频帧序列集,根据所述视频帧序列集判断所述面审视频是否满足场景分类环境。
140.本实施例中,场景分类环境是预先设置的,判断所述面审视频是否满足场景分类环境,即判断所述面审视频是否在很黑暗的环境,如果在很黑暗的环境下,很难判断出所述
面审是否处于哪个场景,所述面审视频不满足场景分类环境。
141.本实施例中,在根据所述视频帧序列集判断所述面审视频是否满足场景分类环境时,将视频帧序列集中的视频帧转换到hsv空间里,利用每个像素的亮度值判断明暗程度,亮度值越大,像素的亮度越高。
142.本实施例中,由于在面审视频时,若用户在黑暗环境下,会开启手机的手电筒,导致面审视频中用户的人脸图像比较亮,会拉高所述面审视频中每张视频帧的亮度值,若直接使用每张视频帧的所有像素的亮度值的均值,很难区分出处于黑暗环境的视频帧,故在根据所述视频帧序列集判断所述面审视频是否满足场景分类环境,需要剔除所述面审视频中每张视频帧的人脸区域的像素,根据每张视频帧的非人脸区域的像素的亮度值进行场景分类环境的判断,提高了场景分类环境判断的准确率,在后续进行面审视频的场景分类时,考虑了所述场景分类环境的判断结果,提高了面审视频的场景分类的准确率和效率。
143.在一个可选的实施例中,所述判断模块202根据所述视频帧序列集判断所述面审视频是否满足场景分类环境包括:
144.将所述视频帧序列集中的每张视频帧转换为hsv图像,得到hsv图像集;剔除所述hsv图像集中的每张hsv图像中的人脸区域像素,保留所述每张hsv图像的非人脸区域的像素,基于保留的所述每张hsv图像的非人脸区域的像素,计算所述每张hsv图像的目标亮度值;
145.将每张hsv图像的目标亮度值与预设的亮度阈值进行比较;
146.统计所述目标亮度值小于所述预设的亮度阈值的hsv图像的总数之和,得到第一总数;
147.基于所述hsv图像集的图像的第二总数获取目标总数阈值;
148.将所述第一总数与所述目标总数阈值进行比较;
149.当所述第一总数小于所述目标总数阈值时,确定所述面审视频满足场景分类环境。
150.进一步地,所述将所述第一总数与所述目标总数阈值进行比较还包括:
151.当所述第一总数大于或者等于所述目标总数阈值时,确定所述面审视频不满足场景分类环境。
152.本实施例中,可以预先设置亮度阈值,将每张hsv图像的目标亮度值与预设的亮度阈值进行比较,当每张hsv图像的目标亮度值小于所述预设的亮度阈值,确定这张hsv图像处于黑暗环境,统计出所述hsv图像集处于黑暗环境的hsv图像的第一总数。
153.本实施例中,第二总数是指面审视频中的hsv图像集的图像总数之和,针对不同的第二总数设置不同的目标总数阈值。
154.示例性地,若面审视频中的hsv图像集的第二总数为100张,对应的目标总数阈值为60张,当处于黑暗环境的hsv图像的第一总数大于或者等于60张时,确定所述面审视频处于黑暗环境,即不满足场景分类环境。
155.进一步地,所述基于保留的所述每张hsv图像的非人脸区域的像素,计算所述每张hsv图像的目标亮度值包括:
156.获取保留的所述每张hsv图像中的非人脸区域的每个像素的亮度值,并对所述每张hsv图像的非人脸区域的多个亮度值求平均值,将所述平均值确定为对应hsv图像的非人
脸区域的目标亮度值。
157.预处理模块203,用于当所述面审视频满足场景分类环境时,对所述视频帧序列集中的视频帧进行预处理,得到场景图像样本集。
158.在一个可选的实施例中,所述预处理模块203对所述视频帧序列集中的视频帧进行预处理,得到场景图像样本集包括:
159.将所述视频帧序列集中的第一张视频帧确定为当前视频帧;
160.计算所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度;
161.当所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度大于或者等于预设的相似度阈值时,从所述视频帧序列集中删除所述当前视频帧的下一张视频帧,得到新的视频帧序列集,将所述新的视频帧序列集中的第一张视频帧确定为当前视频帧,重复计算所述新的视频帧序列集中的当前视频帧与所述当前视频帧的下一张视频帧之间的相似度,直至完成所述新的视频序列集中的第一张视频帧与最后一张视频帧之间的相似度的计算,得到场景图像样本集;
162.当所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度小于所述预设的相似度阈值时,将所述当前视频帧的下一张视频帧确定为新的当前视频帧,重复计算所述新的当前视频帧与所述新的当前视频帧的下一张视频帧之间的相似度,直至完成所述视频序列集中的新的当前视频帧与最后一张视频帧之间的相似度的计算,得到场景图像样本集。
163.进一步地,所述计算所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度包括:
164.计算所述当前视频帧的每个位置的像素与所述当前视频帧的下一张视频帧的对应位置的像素的差值,将所有位置的像素的差值求平均值,得到像素的目标均值;
165.计算所述像素的目标均值与所述当前视频帧的像素总数之商数,将计算得到的商数确定为所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度。
166.本实施例中,可以预先设置相似度阈值,将计算得到的所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度与所述预设的相似度阈值进行对比,当所述当前视频帧与所述当前视频帧的下一张视频帧之间的相似度小于所述预设的相似度阈值时,表示当前视频帧与所述当前视频帧的下一张视频帧相类似,从所述视频帧序列集中删除所述当前视频帧的下一张视频帧。
167.本实施例中,通过计算当前视频帧与所述当前视频帧的下一张视频帧之间的相似度,利用相邻视频帧的差异,删除相似的视频帧,合理的过滤掉大量的冗余视频帧,一方面减少了冗余信息,另一方面可以极大的提高场景分类模型的推算时间,缩短对视频场景判断的时间,提高了面审视频的场景分类效率。
168.输入模块204,用于将所述场景图像样本集输入至预先训练好的场景分类模型中,得到每张场景图像的分类结果。
169.本实施例中,在确定所述面审视频中某一视频帧的场景类别时,预先训练好的场景分类模型会给出每张视频帧属于每类场景的置信度,以最高置信度对应的类别确定为该视频帧的类别,其中,所述场景类别可以包括室内、室外、车内、公共场所等。
170.具体地,所述场景分类模型的训练过程包括:
171.获取多个场景及对应场景的第一视频集和第二视频集;
172.对所述第一视频集进行解码,得到第一样本图像集,及对所述第二视频集进行解码,得到第二样本图像集;
173.利用人脸检测算法抠除所述第一样本图像集中的每张样本图像的人脸图像,将抠除了人脸图像后的多张样本图像确定为第三样本图像集;
174.从所述第二样本图像集中划分出训练集和测试集;
175.将所述训练集输入预设神经网络中进行训练,得到预训练模型;
176.将所述测试集输入至所述预训练模型中进行测试,并计算测试通过率;
177.将所述测试通过率与预设的通过率阈值进行比对;
178.当所述测试通过率大于或者等于预设通过率阈值,确定所述预训练模型训练结束,基于所述第三样本图像集,采用预设的微调模型对所述预训练模型进行微调,得到场景分类模型。
179.本实施例中,预设的微调模型可以为fine tuning模型,采用fine tuning模型进行预训练模型的微调过程为现有技术,本实施例在此不做详述。
180.进一步地,所述将所述测试通过率与预设的通过率阈值进行比对还包括:
181.当所述测试通过率小于所述预设通过率阈值,增加训练集的数量,重新进行预训练场景分类模型的训练;
182.本实施例中,由于面审视频中面审数据比较敏感,在进行场景分类模型训练过程中,银行等机构很难提供每个场景很多训练数据,若采用很少的数据进行场景分类模型训练,容易出现数据过拟合。
183.本实施例中,所述第一视频集为多个场景的面审视频集,由于面审视频集中的视频帧中人脸图像占比较大,为了防止人脸图像影响后续的场景分类结果的影响,利用人脸检测算法将所述第一视频集中的所有图像中的人脸图像进行抠除,将抠除后的多张图像确地为第三样本图像集;所述第二视频集为place365提供的大量场景数据,具体地,所述place365提供的大量场景数据为开源数据。
184.本实施例中,在训练场景分类模型时,采用place365提供的大量场景数据,即第二视频集对应的第二样本图像集对分类模型进行预训练,得到预训练模型,通过面审数据,即第三样本图像集对所述预训练模型进行微调,得到场景分类模型,在场景分类模型训练过程中从开源数据和面审数据两个方面进行了考量,并基于面审数据对预训练模型进行微调得到场景分类模型,确保了训练得到的场景分类模型准确性,同时避免了现有技术中只采用面审数据训练场景分类模型时出现少量数据过拟合的现象,提高了训练得到的场景分类模型的准确率,进而提高了场景分类的准确率。
185.确定模块205,用于根据所述场景样本集中的每张场景图像的分类结果,确定所述面审视频的场景分类结果。
186.本实施例中,在进行面审视频的场景分类结果确认时,考虑了每张场景图像的分类结果。
187.在一个可选的实施例中,所述确定模块205根据所述场景样本集中的每张场景图像的分类结果,确定所述面审视频的场景分类结果包括:
188.从每张场景图像的分类结果中获取每张场景图像的最高置信度,并将所述最高置
信度与预设的置信度阈值进行比对;
189.保留最高置信度大于或者等于所述预设的置信度阈值对应的多个场景图像,并将所述每张场景图像的最高置信度对应的类别确定为对应场景图像的目标场景类别;
190.根据目标场景类别对保留的多个场景图像进行归类,得到每个目标场景类别的目标场景样本集;
191.基于每个目标场景类别的目标场景样本集统计每个目标场景类别的总票数;
192.计算多个目标场景类别的多个总票数中最高总票数与第二高总票数之差与所述多个总票数之和的商数,得到目标场景类别结果;
193.将所述目标场景类别结果与预设的场景类别阈值进行对比;
194.当所述目标场景类别结果大于或者等于所述预设的场景类别阈值时,将总票数最高的场景类别确定为所述面审视频的场景分类结果。
195.进一步地,所述将所述目标场景类别结果与预设的场景类别阈值进行对比还包括:
196.当所述目标场景类别结果小于所述预设的场景类别阈值时,切换至人工场景分类审核系统。
197.本实施例中,在对面审视频的每张场景图像的场景类别判断时,场景分类模型会给每张场景图像属于每类场景的具体置信度,并将最高置信度对应的类别确定为每张场景图像的目标场景类别。
198.本实施例中,若每张场景图像中存在多个场景,需要判断每张场景图像是属于具体哪个场景类别。
199.示例性地,预设的置信度阈值为0.4,针对一个三分类的场景,判断每张场景图像是属于车内、室内、室外场景的具体哪一个类别,例如:场景分类模型给出属于车内的置信度为0.82,属于室内的置信度为0.10,属于室外的置信度为0.08,最高置信度0.82大于预设的置信度阈值0.4,则确定对应的场景图像的目标场景类别为车内;场景分类模型给出属于车内的置信度为0.31,属于室内的置信度为0.36,属于室外的置信度为0.33,最高置信度0.36小于预设的置信度阈值0.4,表明该张场景图像中无法给出具有判别性的信息,场景分类模型无法准确的判断该张场景图像的场景类别,就丢弃这张场景图像。
200.本实施例中,若多个目标场景类别的目标场景样本集共100张场景图像,第一种场景分类结果:车内80张场景图像,室内得到10张场景图像,室外得到了10张场景图像;第二种场景分类结果:车内45张场景图像,室外40张场景图像,室内15张场景图像,针对第二种场景分类结果,车内45张场景图像,室外40张场景图像,室内15张场景图像这样场景分类结果场景分类模型无法确定所述面审视频到底属于哪个场景。
201.本实施例中,预设的场景类别阈值为0.4,通过计算最高总票数与第二高总票数之差除以总票数确定目标场景分类结果,根据目标场景分类结果与预设的场景类别阈值进行对比,根据对比结果确定面审视频的场景分类结果,例如,第一种场景分类结果对应的目标场景分类结果为:(80-10)/100=0.7,第二种场景分类结果对应的目标场景分类结果为:(45-40)/100=0.05,可见,0.7大于0.4,可以确定第一种场景分类结果对应的面审视频的场景分类结果为车内场景;而0.05小于0.4,表明所述面审视频的场景分类结果无法确定,切换至人工审核。
programmable read-only memory,otprom)、电子擦除式可复写只读存储器(electrically-erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
212.在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(control unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
213.在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
214.尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
215.应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
216.上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
217.在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的面审视频的场景分类装置20)、程序代码等,例如,上述的各个模块。
218.所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到面审视频的场景分类的目的。
219.示例性的,所述程序代码可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器32执行,以完成本技术。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如,所述程序代码可以被分割成获取模块201、判断模块202、预处理模块203、输入模块204、确定模块205及切换模块206。
220.在本发明的一个实施例中,所述存储器31存储多个计算机可读指令,所述多个计算机可读指令被所述至少一个处理器32所执行以实现面审视频的场景分类的功能。
221.具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
222.在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
223.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
224.另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
225.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
226.最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1