结合视觉大模型SAM的辅助标注方法与流程

文档序号：35402988发布日期：2023-09-09 18:41阅读：126来源：国知局

本发明属于图像处理，具体涉及结合视觉大模型sam的辅助标注方法。

背景技术：

1、在现有技术中，针对传统浏览器网页页面只能展现图片，或者画布(canvas)只提供的基本的图形绘制，不便于操作图片进行图片编辑以及页面图片绘制工作，也无法和鼠标进行联动操作。尤其在深度学习领域，需要对图形进行坐标记录以及标注等。

2、如现有技术公开了名称为网页图像标注方法、装置、电子设备及存储介质(申请公布号：cn112346809a)的发明专利，由于可以实现操作事件与操作画布的联动，通过操作事件对操作画布中的多个目标对象进行图形标注之后，同时还可以实时记录目标对象的坐标信息，能够方便快捷的对操作画布中的图片进行操作。

3、然而，在现有标注的方案中，对于大批量、重复性高的图像数据，一般需要人工完成对所有数据的标注，人工标注时，需要用户手动拖拽拉框，存在以下技术问题：画出来的框是一个不适合ai学习的状态，需要反复微调修改大小至合适，需要花费较多的时间去反复与修正标注框，才能让ai更好地识别与学习，标注过程对于人工的依赖较大，且多为重复性工作，效率较低。

技术实现思路

1、本发明目的在于解决现有技术中存在的上述技术问题，提供结合视觉大模型sam的辅助标注方法，实现了高效的图像标注过程，降低了人工标注的工作量。

2、为了解决上述技术问题，本发明采用如下技术方案：

3、结合视觉大模型sam的辅助标注方法，其特征在于包括如下步骤：

4、步骤a、图片分割：用户打开图片标注工具，通过视觉大模型sam，将用户需要标注的图片分割成若干个图像嵌入掩码，并整合生成一个能在网页端展示的模型。

5、步骤b、根据鼠标坐标计算结果：解码模型，从而找到符合鼠标位置的目标块，并展示在网页上，用户通过鼠标悬浮，产生提示区域，通过用户点击提示区域，确立正确的目标块。

6、步骤c、标注框生成：根据用户点击正确的目标块，显示的目标块的坐标和长宽生成一个标注框来包裹这个目标块。

7、步骤d、确认标注框是否满足要求，若满足要求后，重复步骤b，直至图片全部标注完成。

8、进一步，视觉大模型包括编码器和解码器，对图片分割具体为：(1)采用编码器提取图像特征；(2)采用解码器将特征图恢复到原始图像大小，并生成分割结果。

9、进一步，视觉大模型使用了一种基于交叉熵的多任务损失函数，其中包括像素级别的分类损失和边界框级别的回归损失。分类损失用于衡量每个像素所属类别，回归损失则用于调整每个像素的边界框位置。

10、进一步，视觉大模型采用数据增强模块，数据增强模块包括随机旋转、缩放、裁剪、翻转，以及颜色空间变换和噪声添加。

11、进一步，视觉大模型使用预训练模型作为编码器的初始权重，用于加速模型训练和提高分割精度。

12、进一步，预训练模型使用了mae和vit进行预训练。

13、进一步，将视觉大模型切割图片处理成embedding模型文件，再利用onnx运行embedding模型文件，去处理该模型文件，根据鼠标坐标获取对应的mask，将mask解码转成图片文件，图片文件为目标块，然后覆盖在原图对应位置。

14、进一步，提示区域为一个覆盖标注目标的蓝色区域，通过鼠标滚轮切换蓝色区域的大小，进行调整，通过鼠标坐标寻找到符合的若干个目标块并组装成数组，让用户通过滚轮来切换数组展示的目标块。

15、本发明由于采用了上述技术方案，具有以下有益效果：

16、本发明将视觉大模型sam与传统的标注工具结合，视觉大模型sam将用户需要标注的图片分割成若干个目标块，再在网页上展示，实现了高效的图像标注过程，降低了人工标注的工作量。

17、本发明通过鼠标悬浮，显示目标块，再通过用户点击提示区域，确立正确的目标块，从鼠标两次以上的点击和位移减少到了一次点击，极大地减少了用户的操作量。

技术特征：

1.结合视觉大模型sam的辅助标注方法，其特征在于包括如下步骤：

2.根据权利要求1所述的结合视觉大模型sam的辅助标注方法，其特征在于：视觉大模型包括编码器和解码器，对图片分割具体为：

3.根据权利要求2所述的结合视觉大模型sam的辅助标注方法，其特征在于：视觉大模型使用了一种基于交叉熵的多任务损失函数，其中包括像素级别的分类损失和边界框级别的回归损失；

4.根据权利要求2所述的结合视觉大模型sam的辅助标注方法，其特征在于：视觉大模型采用数据增强模块，数据增强模块包括随机旋转、缩放、裁剪、翻转，以及颜色空间变换和噪声添加。

5.根据权利要求2所述的结合视觉大模型sam的辅助标注方法，其特征在于：视觉大模型使用预训练模型作为编码器的初始权重，用于加速模型训练和提高分割精度。

6.根据权利要求5所述的结合视觉大模型sam的辅助标注方法，其特征在于：预训练模型使用了mae和vit进行预训练。

7.根据权利要求1所述的结合视觉大模型sam的辅助标注方法，其特征在于：将视觉大模型切割图片处理成embedding模型文件，再利用onnx运行embedding模型文件，去处理该模型文件，根据鼠标坐标获取对应的mask，将mask解码转成图片文件，图片文件为目标块，然后覆盖在原图对应位置。

8.根据权利要求1所述的结合视觉大模型sam的辅助标注方法，其特征在于：提示区域为一个覆盖标注目标的蓝色区域，通过鼠标滚轮切换蓝色区域的大小，进行调整，通过鼠标坐标寻找到符合的若干个目标块并组装成数组，让用户通过滚轮来切换数组展示的目标块。

技术总结
本发明公开了结合视觉大模型SAM的辅助标注方法，包括如下步骤：步骤a、图片分割；步骤b、根据鼠标坐标计算结果；步骤c、标注框生成；步骤d、确认标注框是否满足要求，若满足要求后，重复步骤b，直至图片全部标注完成。本发明将视觉大模型SAM与传统的标注工具结合，视觉大模型SAM将用户需要标注的图片分割成若干个目标块，再在网页上展示，实现了高效的图像标注过程，降低了人工标注的工作量。而且，通过鼠标悬浮，显示目标块，再通过用户点击提示区域，确立正确的目标块，从鼠标两次以上的点击和位移减少到了一次点击，极大地减少了用户的操作量。

技术研发人员：栾博恒,吕宽,李雨雨,徐楚量
受保护的技术使用者：戈迪斯（杭州）智能技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：栾博恒吕宽李雨雨徐楚量
技术所有人：戈迪斯（杭州）智能技术有限公司
我是此专利的发明人

上一篇：一种带隔膜泵和换向阀的尿素喷射装置的制作方法
上一篇：一种镀制复合集流体防滑膜装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。