基于多帧信息的实例匹配方法

文档序号:36657629发布日期:2024-01-06 23:46阅读:25来源:国知局
基于多帧信息的实例匹配方法

本发明涉及视频实例分割技术中实例匹配的方法,特别是涉及基于查询的视频实例分割技术中实例匹配的方法。


背景技术:

1、视频实例分割任务在2019年被提出,被定义为同时检测、分割和跟踪视频中的实例,将每个视频帧中的实例从背景和其他实例中精确地分离出来并在视频的不同帧内追踪关联相同实例。视频实例分割技术有着广泛的应用。当下自主驾驶技术正在飞速发展,视频实例分割技术可以帮助自动驾驶车辆更准确地识别前方的交通信号灯、行人、车辆等物体,从而更好地做出驾驶决策。在医疗图像处理领域,视频实例分割技术可以帮助医生更准确地检测和定位肿瘤等问题,提高诊断准确率和诊断效率。除此之外,视频实例分割技术还可以被广泛应用于电影特效制作、虚拟现实、智能监控等视频理解领域。研究视频实例分割技术对于提高计算机视觉技术的水平,推动多媒体信息处理与应用的发展具有重要意义。

2、视频实例分割技术大致分为两种模式:在线实例实例分割技术和离线型视频实例分割技术。相较于离线型视频实例分割技术,在线视频实例分割技术在处理长视频序列和连续视频序列任务上有着很大的优势,但是分割的准确性却远不如离线型视频实例分割网络,对此wu[1]等做了深入分析,证明了因不同实例存在外观相似性而导致的实例关联错误是在线视频实例分割网络与离线型视频实例分割网络在性能上具有较大差距的主要原因。

3、与视频实例分割任务一同被提出的mask-track r-cnn[2]视频实例分割技术将实例匹配问题视为分类问题,用n个数字表示已经存在的n个实例,用0表示未曾出现的实例。sipmask[3]方法改进了mask-track r-cnn中实例匹配的方法,从追踪特征图中提取出追踪矩阵进行实例匹配。compfeat[4]方法提出了同时考虑特征相似性和基于原始图特征相关的相似性得分模块,提高了实例匹配的准确性。时空gnn[5]网络的跟踪分支利用图像的边缘特征来关联现有的实例或初始化新的实例。随着transformer在计算机视觉领域的广泛应用,基于查询的方法逐渐应用到视频实例分割任务上。idol[1]网络和minvis[6]网络都是基于查询的视频实例分割网络。idol网络在实例匹配阶段使用时间加权softmax策略,将前t帧中的实例查询通过时间加权函数产生新的实例查询用于实例匹配,匹配时采用双向softmax相似性分数。minvis网络仅计算当前帧的实例查询与前一帧的实例查询cosine相似性分数,将其作为匈牙利算法[7]的代价矩阵即可完成实例匹配。

4、参考文献:

5、[1]wu j,liu q,jiang y,et al.in defense of online models for videoinstance segmentation[c]//computer vision–eccv 2022:17th european conference,tel aviv,israel,october 23–27,2022,proceedings,part xxviii.cham:springernature switzerland,2022:588-605.

6、[2]yang l,fan y,xu n.video instance segmentation[c]//proceedings ofthe eee/cvf international conference on computer vision.2019:5188-5197.

7、[3]cao j,anwer r m,cholakkal h,et al.sipmask:spatial informationpreservation for fast image and video instance segmentation[c]//computervision–eccv 2020:16th european conference,glasgow,uk,august 23–28,2020,proceedings,part xiv 16.springer international publishing,2020:1-18.

8、[4]fu y,yang l,liu d,et al.compfeat:comprehensive feature aggregationfor video instance segmentation[c]//proceedings of the aaai conference onartificial intelligence.2021,35(2):1361-1369.

9、[5]wang t,xu n,chen k,et al.end-to-end video instance segmentationvia spatial-temporal graph neural networks[c]//proceedings of the ieee/cvfinternational conference on computer vision.2021:10797-10806.

10、[6]huang d a,yu z,anandkumar a.minvis:a minimal video instancesegmentation framework without video-based training[j].arxiv preprint arxiv:2208.02245,2022.

11、[7]kuhn h w.the hungarian method for the assignment problem[j].navalresearch logistics(nrl),2005,52(1):7-21.


技术实现思路

1、本发明旨在解决现有的基于查询的在线视频实例分割方法中实例匹配错误的问题,提供一种基于多帧信息的实例匹配方法,技术方案如下:

2、一种基于多帧信息的实例匹配方法,包括下列步骤:

3、(1)对视频进行基于查询的实例分割,设当前帧实例查询为qt,将当前帧实例查询分别与在前帧进行匹配,设经过匹配后的前t帧的实例查询依次为qt-1,qt-2,qt-3,......,qt-t;

4、(2)计算实例查询cosine相似性分数,得到t个二维相似性分数矩阵si∈[-1,1]n×n,i=1,2,3......t,n是存储空间中存储的实例查询帧数,t≤n;

5、(3)对于上一步骤得到的t个二维相似性分数矩阵si,经过时间加权和topk两个不同分支的融合,将经过两种不同融合方法得到的相似性分数进行相加后经过softmax函数得到最终的相似性分数,方法如下:

6、在时间加权分支,对于t个二维相似性分数矩阵si,根据前t帧实例查询与当前帧实例查询的时域距离分配不同的权重系数相乘后相加融合为一个相似性分数矩阵stime,与当前帧时域距离越近分配的权重越大;

7、在topk分支,将t个二维相似性分数矩阵si转换为三维相似性矩阵s∈[-1,1]t×n×n,在第一个维度上进行降序排序后选择排列在最前面的k个二维矩阵得到矩阵s′∈[-1,1]k×n×n,然后在矩阵s′的第一个维度上将k个二维矩阵进行平均得到一个二维矩阵,此矩阵即为该分支最终的相似性分数矩阵stopk∈[-1,1]n×n;

8、将两个分支得到的相似性分数矩阵stime和stopk进行相加,在两个维度上分别经过softmax函数操作,得到两个相似性分数矩阵sd0和sd1,计算这两个矩阵的平均值,生成相似性分数矩阵so∈[0,1]n×n作为后续匈牙利算法中的代价矩阵,完成当前帧实例查询的匹配任务。

9、进一步的,步骤(3)中,设权重系数为ai,其计算公式如下:

10、

11、其中,i表示前t帧中的第i帧与当前帧的时域距离。

12、与其他实例查询匹配方案相比,本发明有如下优势:(a)能够充分利用多帧实例查询信息,对于某些实例在某些帧中消失后再次出现等特殊情况,本发明能够提高实例匹配的准确性和稳定性。(b)本发明提出了两种不同相似性矩阵融合方式,对于多帧信息进行不同的处理,得到了更为丰富的实例匹配信息,能够保证实例匹配的准确性和稳定性。(c)本发明所使用的相似性矩阵融合方法均为简单计算,在提高实例匹配准确性的同时没有占用过多的计算资源。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1