结合视觉大模型SAM的辅助标注方法与流程

文档序号:35402988发布日期:2023-09-09 18:41阅读:126来源:国知局
结合视觉大模型SAM的辅助标注方法与流程

本发明属于图像处理,具体涉及结合视觉大模型sam的辅助标注方法。


背景技术:

1、在现有技术中,针对传统浏览器网页页面只能展现图片,或者画布(canvas)只提供的基本的图形绘制,不便于操作图片进行图片编辑以及页面图片绘制工作,也无法和鼠标进行联动操作。尤其在深度学习领域,需要对图形进行坐标记录以及标注等。

2、如现有技术公开了名称为网页图像标注方法、装置、电子设备及存储介质(申请公布号:cn112346809a)的发明专利,由于可以实现操作事件与操作画布的联动,通过操作事件对操作画布中的多个目标对象进行图形标注之后,同时还可以实时记录目标对象的坐标信息,能够方便快捷的对操作画布中的图片进行操作。

3、然而,在现有标注的方案中,对于大批量、重复性高的图像数据,一般需要人工完成对所有数据的标注,人工标注时,需要用户手动拖拽拉框,存在以下技术问题:画出来的框是一个不适合ai学习的状态,需要反复微调修改大小至合适,需要花费较多的时间去反复与修正标注框,才能让ai更好地识别与学习,标注过程对于人工的依赖较大,且多为重复性工作,效率较低。


技术实现思路

1、本发明目的在于解决现有技术中存在的上述技术问题,提供结合视觉大模型sam的辅助标注方法,实现了高效的图像标注过程,降低了人工标注的工作量。

2、为了解决上述技术问题,本发明采用如下技术方案:

3、结合视觉大模型sam的辅助标注方法,其特征在于包括如下步骤:

4、步骤a、图片分割:用户打开图片标注工具,通过视觉大模型sam,将用户需要标注的图片分割成若干个图像嵌入掩码,并整合生成一个能在网页端展示的模型。

5、步骤b、根据鼠标坐标计算结果:解码模型,从而找到符合鼠标位置的目标块,并展示在网页上,用户通过鼠标悬浮,产生提示区域,通过用户点击提示区域,确立正确的目标块。

6、步骤c、标注框生成:根据用户点击正确的目标块,显示的目标块的坐标和长宽生成一个标注框来包裹这个目标块。

7、步骤d、确认标注框是否满足要求,若满足要求后,重复步骤b,直至图片全部标注完成。

8、进一步,视觉大模型包括编码器和解码器,对图片分割具体为:(1)采用编码器提取图像特征;(2)采用解码器将特征图恢复到原始图像大小,并生成分割结果。

9、进一步,视觉大模型使用了一种基于交叉熵的多任务损失函数,其中包括像素级别的分类损失和边界框级别的回归损失。分类损失用于衡量每个像素所属类别,回归损失则用于调整每个像素的边界框位置。

10、进一步,视觉大模型采用数据增强模块,数据增强模块包括随机旋转、缩放、裁剪、翻转,以及颜色空间变换和噪声添加。

11、进一步,视觉大模型使用预训练模型作为编码器的初始权重,用于加速模型训练和提高分割精度。

12、进一步,预训练模型使用了mae和vit进行预训练。

13、进一步,将视觉大模型切割图片处理成embedding模型文件,再利用onnx运行embedding模型文件,去处理该模型文件,根据鼠标坐标获取对应的mask,将mask解码转成图片文件,图片文件为目标块,然后覆盖在原图对应位置。

14、进一步,提示区域为一个覆盖标注目标的蓝色区域,通过鼠标滚轮切换蓝色区域的大小,进行调整,通过鼠标坐标寻找到符合的若干个目标块并组装成数组,让用户通过滚轮来切换数组展示的目标块。

15、本发明由于采用了上述技术方案,具有以下有益效果:

16、本发明将视觉大模型sam与传统的标注工具结合,视觉大模型sam将用户需要标注的图片分割成若干个目标块,再在网页上展示,实现了高效的图像标注过程,降低了人工标注的工作量。

17、本发明通过鼠标悬浮,显示目标块,再通过用户点击提示区域,确立正确的目标块,从鼠标两次以上的点击和位移减少到了一次点击,极大地减少了用户的操作量。



技术特征:

1.结合视觉大模型sam的辅助标注方法,其特征在于包括如下步骤:

2.根据权利要求1所述的结合视觉大模型sam的辅助标注方法,其特征在于:视觉大模型包括编码器和解码器,对图片分割具体为:

3.根据权利要求2所述的结合视觉大模型sam的辅助标注方法,其特征在于:视觉大模型使用了一种基于交叉熵的多任务损失函数,其中包括像素级别的分类损失和边界框级别的回归损失;

4.根据权利要求2所述的结合视觉大模型sam的辅助标注方法,其特征在于:视觉大模型采用数据增强模块,数据增强模块包括随机旋转、缩放、裁剪、翻转,以及颜色空间变换和噪声添加。

5.根据权利要求2所述的结合视觉大模型sam的辅助标注方法,其特征在于:视觉大模型使用预训练模型作为编码器的初始权重,用于加速模型训练和提高分割精度。

6.根据权利要求5所述的结合视觉大模型sam的辅助标注方法,其特征在于:预训练模型使用了mae和vit进行预训练。

7.根据权利要求1所述的结合视觉大模型sam的辅助标注方法,其特征在于:将视觉大模型切割图片处理成embedding模型文件,再利用onnx运行embedding模型文件,去处理该模型文件,根据鼠标坐标获取对应的mask,将mask解码转成图片文件,图片文件为目标块,然后覆盖在原图对应位置。

8.根据权利要求1所述的结合视觉大模型sam的辅助标注方法,其特征在于:提示区域为一个覆盖标注目标的蓝色区域,通过鼠标滚轮切换蓝色区域的大小,进行调整,通过鼠标坐标寻找到符合的若干个目标块并组装成数组,让用户通过滚轮来切换数组展示的目标块。


技术总结
本发明公开了结合视觉大模型SAM的辅助标注方法,包括如下步骤:步骤a、图片分割;步骤b、根据鼠标坐标计算结果;步骤c、标注框生成;步骤d、确认标注框是否满足要求,若满足要求后,重复步骤b,直至图片全部标注完成。本发明将视觉大模型SAM与传统的标注工具结合,视觉大模型SAM将用户需要标注的图片分割成若干个目标块,再在网页上展示,实现了高效的图像标注过程,降低了人工标注的工作量。而且,通过鼠标悬浮,显示目标块,再通过用户点击提示区域,确立正确的目标块,从鼠标两次以上的点击和位移减少到了一次点击,极大地减少了用户的操作量。

技术研发人员:栾博恒,吕宽,李雨雨,徐楚量
受保护的技术使用者:戈迪斯(杭州)智能技术有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1