本发明涉及图像识别,特别是涉及一种半监督视频目标分割方法及装置。
背景技术:
1、视频目标分割作为在计算机视觉中的一项基础任务,其在自动驾驶、行为识别及视频压缩等领域有着广阔的应用场景。根据提供的掩码程度不同,视频目标分割任务可分为半监督、无监督和交互式视频目标分割。其中半监督视频目标分割任务会在推理过程中提供视频第一帧的目标掩码,与无监督和交互式视频目标分割相比,半监督视频目标分割模型往往精度更高,推理速度更快,模型实现相对容易。
2、基于记忆网络的半监督视频目标分割方法利用基于深度学习在特征提取方面的优势提高了精度和分割速度。基于记忆网络的方法在分割过程中会维护一个记忆网络,该网络存储了所有历史帧的特征信息。在对当前帧进行分割时,会将记忆网络中的历史帧信息与当前帧进行相似度计算,然后通过自注意力机制的方式提取历史帧中的特征,最后与当前帧特征进行融合并通过上采样的方式得到目标掩码。
3、然而,基于记忆网络的方法高度依赖历史帧中的特征信息,随着视频长度的增加,记忆网络存储的历史帧信息会越来越多,导致分割速度越来越慢,并且记忆网络中存储了大量冗余的背景噪音,导致模型在长视频中的分割精度会下降。
技术实现思路
1、针对上述现有技术的缺陷,本发明提供了一种半监督视频目标分割方法,解决长视频分割精度和速度降低的问题。本发明的另一目的是提供一种半监督视频目标分割装置及相应的计算机存储介质。
2、本发明技术方案如下:一种半监督视频目标分割方法,包括以下步骤:
3、由编码器将当前帧编码为当前帧特征,再由解码器将经过局部匹配后的当前帧特征解码为目标掩码;
4、由编码器将历史帧编码为历史帧特征,然后基于历史目标掩码在历史帧特征中嵌入目标信息,再提取只包含目标区域的历史帧特征存入自适应记忆池,所述局部匹配是将所述自适应记忆池中的只包含目标区域的历史帧特征拼接后与当前帧特征匹配;
5、所述自适应记忆池基于自注意力机制挑选过时的历史帧特征并进行压缩以控制所述自适应记忆池中历史帧特征的数量范围;
6、其中,所述历史帧是位于当前帧时间线之前的视频帧,初始时视频第一帧为历史帧。
7、进一步地,所述基于历史目标掩码在历史帧特征中嵌入目标信息是将历史帧掩码转为onehot编码的形式后进行卷积操作得到与历史帧特征相同维度的嵌入向量,再融合所述嵌入向量与所述历史帧特征得到特征,,为历史帧特征,为嵌入向量。
8、进一步地,提取只包含目标区域的历史帧特征具体是:
9、针对第 i个历史帧的历史目标掩码中的任意一个位置(x,y),都有(x,y)∈[0,1,2...n],其中0代表背景,1~n分别表示视频中含有的n个目标;
10、获取包含每个目标区域的矩形框,()和()分别指是包含第 j个目标的矩形框的左上角坐标和右下角坐标,其中
11、,
12、w为特征的宽,h为特征的高,
13、生成注意力图,
14、,
15、通过注意力图对历史帧特征进行目标区域提取并将空间维度展平为一维得到只包含目标区域的历史帧特征。
16、进一步地,()和()由下式确定
17、,
18、为设定的扩张系数。
19、进一步地,所述自适应记忆池基于自注意力机制挑选过时的历史帧特征并进行压缩是在自适应记忆池中特征数量达到设定阈值时,将前 s can个候选特征压缩为 p个特征,候选特征包括候选键特征为和候选值特征为,c为特征通道数;
20、首先计算当前帧键特征与候选键特征的相似度:
21、,
22、其中,为当前帧的键特征,w为特征的宽,h为特征的高;
23、接着对中的第一个维度求和并得到;
24、然后利用top p操作挑选数值最大的 p个索引,根据索引提取键特征得到;
25、最后聚集压缩后的值特征:
26、。
27、进一步地,所述局部匹配时将所述自适应记忆池中的只包含目标区域的历史帧特征拼接后与当前帧特征匹配通过下式进行:
28、,
29、其中为当前帧的键特征,为拼接后的历史帧的键特征,为拼接后的历史帧的值特征,c为特征通道数,为局部匹配后的当前帧特征。
30、本发明还提供一种半监督视频目标分割装置,包括:
31、编码器模块,用于将当前帧编码为当前帧特征,将历史帧编码为历史帧特征;
32、解码器模块,用于将经过局部匹配后的当前帧特征解码为目标掩码;
33、身份识别模块,用于基于历史目标掩码在历史帧特征中嵌入目标信息;
34、局部提取模块,用于提取只包含目标区域的历史帧特征存入自适应记忆池;
35、局部匹配模块,用于将所述自适应记忆池中的只包含目标区域的历史帧特征拼接后与当前帧特征匹配;
36、以及特征压缩模块,用于对所述自适应记忆池基于自注意力机制挑选过时的历史帧特征并进行压缩以控制所述自适应记忆池中历史帧特征的数量范围;
37、其中,所述历史帧是位于当前帧时间线之前的视频帧,初始时视频第一帧为历史帧。
38、进一步地,身份识别模块包括编码卷积模块和融合模块,所述编码卷积模块将历史帧掩码转为onehot编码的形式后进行卷积操作得到与历史帧特征相同维度的嵌入向量,所述融合模块用于融合所述嵌入向量与所述历史帧特征得到特征,,为历史帧特征,为嵌入向量。
39、进一步地,局部提取模块包括矩形框提取模块、注意力模块以及特征生成模块,针对第 i个历史帧的历史目标掩码中的任意一个位置(x,y),都有(x,y)∈[0,1,2...n],其中0代表背景,1~n分别表示视频中含有的n个目标;
40、所述矩形框提取模块获取包含每个目标区域的矩形框,()和()分别指是包含第 j个目标的矩形框的左上角坐标和右下角坐标,其中
41、,
42、w为特征的宽,h为特征的高,
43、所述注意力模块生成注意力图,
44、,
45、所述特征生成模块通过注意力图对历史帧特征进行目标区域提取并将空间维度展平为一维得到只包含目标区域的历史帧特征。
46、进一步地,()和()由下式确定
47、,
48、为设定的扩张系数。
49、进一步地,所述特征压缩模块包括相似度计算模块、求和模块和特征提取聚合模块,在自适应记忆池中特征数量达到设定阈值时,将前 s can个候选特征压缩为 p个特征,候选特征包括候选键特征为和候选值特征为,c为特征通道数;
50、所述相似度计算模块计算当前帧键特征与候选键特征的相似度:
51、,
52、其中,为当前帧的键特征,w为特征的宽,h为特征的高;
53、所述求和模块对中的第一个维度求和并得到;
54、所述特征提取聚合模块利用top p操作挑选数值最大的 p个索引,根据索引提取键特征得到;
55、最后聚集压缩后的值特征:
56、。
57、进一步地,所述局部匹配模块将所述自适应记忆池中的只包含目标区域的历史帧特征拼接后与当前帧特征匹配通过下式进行:
58、,
59、其中为当前帧的键特征,为拼接后的历史帧的键特征,为拼接后的历史帧的值特征,c为特征通道数,为局部匹配后的当前帧特征。
60、与现有技术相比,本发明所提供的技术方案的优点在于:
61、本发明通过在分割过程中对记忆网络中的特征进行自适应提取及压缩,使其能够过滤背景噪音并减少存储的特征数量,从而达到提升模型在长视频中的分割精度与速度的效果。