本技术涉及数据处理,尤其涉及一种非结构化数据的管理方法、系统、装置及存储介质。
背景技术:
1、非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片,html、各类报表、图像和音频/视频信息等等网络。
2、对于现在的无人驾驶、人脸识别、智慧安防等领域,常用大量图像来进行模型训练,而在进行训练之前,对图像进行数据清晰与数据标注是必须的,在现有针对图像的数据标注中,一般是通过人工的方式对图像进行标注,通过人工的方式在图像进行框选,如框选图像中的车辆、行人等,但是人工标注存在以下问题:1、消耗大量的人力成本,而且在大量标注后人会出现效率低下和标注错误的情况;2、需要标注大规模的数据集时十分耗费人力成本;3、标注完的数据还需要进行人工审核全部才能使用。
3、因此,亟需一种针对非结构化数据的管理方法,用于解决上述现有技术中存在的问题。
技术实现思路
1、为了解决上述技术问题,本技术提供了一种非结构化数据的管理方法、系统、装置及存储介质,使得非结构化数据处理中的图像标注效率得到提高。
2、下面对本技术中提供的技术方案进行描述:
3、本技术第一方面提供了一种非结构化数据的管理方法,包括:
4、基于人工标注的图像集获取已标注好的标注任务集合;
5、确定所述标注任务集合中每个任务的特征集;
6、基于所述特征集在待标注图像上建立与目标任务相关联的虚拟标注;
7、确定每一个目标任务中的特征与所述特征集的相似度;
8、设置预设阈值,将相似度大于或等于所述预设阈值对应的目标任务关联的虚拟标注实体映射到所述待标注图像上,将相似度小于所述预设阈值对应的第二任务关联的虚拟标注附加上可选择的审核浮窗;
9、将含有所述审核浮窗的待标注图像送由审核人员审核,并采集所述审核人员在所述审核框上的操作记录,所述操作记录包括在所述审核浮窗上的点选以及在所述待标注图像上的框选;
10、通过所述操作记录判断所述审核人员是否点击所述审核浮窗上的确定框,若是,则将所述第二任务关联的虚拟标注实体映射到所述待标注图像上,并将所述审核浮窗去除;
11、当所述审核人员点击所述审核浮窗上的否定框时,则取消所述第二任务及其关联的虚拟标注。
12、可选的,在所述采集所述审核人员在所述审核框上的操作记录之后,所述管理方法还包括:
13、采集所述审核人员在所述待标注图像上的框选操作,并将所述框选操作对应在所述待标注图像的位置确定为第三任务;
14、确定所述第三任务的特征集;
15、将所述第三任务的特征集用于进行与下一待标注图像的相似度的确定。
16、可选的,当所述审核人员点击所述审核浮窗上的否定框时:
17、确定所述否定框对应的目标审核浮窗,并获取所述目标审核浮窗对应的相似度的集合;
18、基于所述相似度的集合修改所述预设阈值。
19、可选的,所述获取所述目标审核浮窗对应的相似度的集合之后,所述管理方法还包括:
20、基于所述相似度的集合确定出现次数最多的目标相似度;
21、将所述目标相似度设置为相似度比较时的最低标准值;
22、当进行下一次相似度的比较时,将相似度小于所述最低标准值对应的第三任务关联的虚拟标注取消。
23、可选的,所述将相似度小于所述最低标准值对应的第三任务关联的虚拟标注取消包括:
24、在所述待标注图像上对应所述第三任务的位置附上提醒标签,所述提醒标签用于提醒所述审核人员进行标注。
25、可选的,在所述基于所述特征集在待标注图像上建立与目标任务相关联的虚拟标注之前,所述管理方法还包括:
26、获取待标注图像集,基于图像模糊度将所述待标注图像集划分为清晰图像与模糊图像;
27、基于所述特征集在所述清晰图像上建立与目标任务相关联的虚拟标注;
28、将所述模糊图像送往人工标注。
29、可选的,在所述基于图像模糊度将所述待标注图像集划分为清晰图像与模糊图像之后,在所述将所述模糊图像送往人工标注之前,所述管理方法还包括:
30、将所述模糊图像进行清晰化处理。
31、本技术第二方面提供了一种非结构化数据的管理系统,包括:
32、获取单元,用于基于人工标注的图像集获取已标注好的标注任务集合;
33、第一确定单元,用于确定所述标注任务集合中每个任务的特征集;
34、第一建立单元,用于基于所述特征集在待标注图像上建立与目标任务相关联的虚拟标注;
35、第二确定单元,用于确定每一个目标任务中的特征与所述特征集的相似度;
36、第一处理单元,用于设置预设阈值,将相似度大于或等于所述预设阈值对应的目标任务关联的虚拟标注实体映射到所述待标注图像上,将相似度小于所述预设阈值对应的第二任务关联的虚拟标注附加上可选择的审核浮窗;
37、第二处理单元,用于将含有所述审核浮窗的待标注图像送由审核人员审核,并采集所述审核人员在所述审核框上的操作记录,所述操作记录包括在所述审核浮窗上的点选以及在所述待标注图像上的框选;
38、判断单元,用于通过所述操作记录判断所述审核人员是否点击所述审核浮窗上的确定框,若是,则将所述第二任务关联的虚拟标注实体映射到所述待标注图像上,并将所述审核浮窗去除;
39、第一取消单元,用于当所述审核人员未点击所述审核浮窗上的确定框时,则取消所述第二任务及其关联的虚拟标注。
40、可选的,所述管理系统还包括:
41、采集单元,用于采集所述审核人员在所述待标注图像上的框选操作,并将所述框选操作对应在所述待标注图像的位置确定为第三任务;
42、第三确定单元,用于确定所述第三任务的特征集;
43、第三处理单元,用于将所述第三任务的特征集用于进行与下一待标注图像的相似度的确定。
44、可选的,所述管理系统还包括:
45、第四确定单元,用于确定所述否定框对应的目标审核浮窗,并获取所述目标审核浮窗对应的相似度的集合;
46、修改单元,用于基于所述相似度的集合修改所述预设阈值。
47、可选的,所述管理系统还包括:
48、第五确定单元,用于基于所述相似度的集合确定出现次数最多的目标相似度;
49、设置单元,用于将所述目标相似度设置为相似度比较时的最低标准值;
50、第二取消单元,用于当进行下一次相似度的比较时,将相似度小于所述最低标准值对应的第三任务关联的虚拟标注取消。
51、可选的,所述第二取消单元包括:
52、设置模块,用于在所述待标注图像上对应所述第三任务的位置附上提醒标签,所述提醒标签用于提醒所述审核人员进行标注。
53、可选的,所述管理系统还包括:
54、划分单元,用于获取待标注图像集,基于图像模糊度将所述待标注图像集划分为清晰图像与模糊图像;
55、第二建立单元,用于基于所述特征集在所述清晰图像上建立与目标任务相关联的虚拟标注;
56、发送单元,用于将所述模糊图像发送至人工审核处,从而通过人工对所述模糊图像进行标注。
57、可选的,所述管理系统还包括:
58、第四处理单元,用于将所述模糊图像进行清晰化处理。
59、本技术第三方面提供了一种非结构化数据的管理装置,所述装置包括:
60、处理器、存储器、输入输出单元以及总线;
61、所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
62、所述存储器保存有程序,所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的所述管理方法。
63、本技术第四方面提供了一种计算机可读的存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的所述管理方法。
64、从以上技术方案可以看出,本技术具有以下效果:
65、通过将人工标注好的图像集中获取已标注好的标注任务集合,并在该标注任务集合中确定每个任务的特征集,再基于该特征集在待标注图像上建立虚拟标注,虚拟标注与目标任务相关联,再确定每一个目标任务中的特征与特征集的相似度,设置预设阈值,将相似度大于或等于预设阈值对应的目标任务关联的虚拟标注实体映射到待标注图像上,然后将相似度小于预设阈值对应的第二任务关联的虚拟标注附加上可选择的审核浮窗,接着将含有审核浮窗的待标注图像送由审核人员审核,并采集审核人员子啊审核框上的操作记录,该操作记录包括审核人员的点选与框选,再接着通过该操作记录判断审核人员的点选结果,即当点选了确定框时,则将第二任务关联的虚拟标注实体映射到待标注图像上,并将该审核浮窗去除,而当点选了否定框时,则取消第二任务及其关联的虚拟标注,这样以来,能够自动进行图像上任务标注,减少人工标注的压力,提高效率;其次,通过相似度的对比,将相似度大于预设阈值、容易标注的任务自动标注,将相似度小于预设阈值的,经过人工审核后再标注,能够提高图像标注的准确度,进一步减少了人工标注的时间;另外,不需要人工进行全部标注任务的审核,进一步减少审核时间。