数据采样方法、装置及存储介质与流程

文档序号:31407215发布日期:2022-09-03 07:24阅读:65来源:国知局
数据采样方法、装置及存储介质与流程
数据采样方法、装置及存储介质
1.交叉引用
2.本技术基于并要求申请号为10202113665u申请日为2021年12月9日的新加坡专利申请的优先权,其公开内容通过引用全文结合于此。
技术领域
3.本公开实施例涉及数据采样技术领域,尤其涉及一种数据采样方法、装置及存储介质。


背景技术:

4.目标检测是智能视频分析系统的重要一环。在一些智能游戏场景的目标检测中,我们希望对与游戏相关的目标物体进行高准确率的检测。
5.传统的检测模型通过已标注的样品数据进行训练得到。但在一些游戏场景中,采集样品数据存在两个主要的问题:一,在样品数据的采集过程中,主要针对游戏区域中某个类别样品进行采集,每批次采集的数据中各个类别的数据有数量级的差距。二,每个场景下数据量不相同,如果按照随机采样的方法进行采样,容易导致数据量少的场景样品数据采集量少。进而使得模型对样品进行训练时,面对数据量少的场景或者类别的样品时,得不到充分的训练,进而对数据量少的场景或者类别的待测物品的检测性能较差。
6.公开内容
7.本公开实施例提供的一种数据采样方法、装置及存储介质,可以提高对数据量少的场景或者类别的待测物品的检测性能。
8.本公开的技术方案是这样实现的:
9.本公开实施例提供了一种数据采样方法,包括:
10.获取多个场景下各自对应的数据标注集合;
11.针对每个场景,基于所述数据标注集合中的不同图片对应的多个标注信息,统计所述数据标注集合对应的m个标注信息类别的数量,进而确定出所述数据标注集合的初始权重;其中,m为大于等于1的整数;
12.基于标注信息类别的数量与权重成负相关性,调整所述每个场景下的所述初始权重,得到所述每个场景的所述数据标注集合的采样权重;
13.基于所述采样权重,对所述每个场景的所述数据标注集合中的不同图片进行采样,得到样品图片;所述样品图片用于进行训练样本,作用于训练目标检测模型的过程中。
14.上述方案中,所述针对每个场景,基于所述数据标注集合中的不同图片对应的多个标注信息,统计所述数据标注集合对应的m个标注信息类别的数量,进而确定出所述数据标注集合的初始权重,包括:
15.针对每个场景,根据每个数据标注集合对应的所述多个标注信息,统计出所述每个数据标注集合对应的m个标注信息类别;
16.在所述不同图片中统计出,所述m个标注信息类别各自对应的m个数量信息;
17.确定所述m个数量信息中的最大数量信息,为所述每个数据标注集合对应的初始权重。
18.上述方案中,所述基于标注信息类别的数量与权重成负相关性,调整所述每个场景下的所述初始权重,得到所述每个场景的所述数据标注集合的采样权重,包括:
19.基于所述多个场景下各自对应的所述初始权重,计算所述每个数据标注集合对应的权重占比信息;
20.将权重占比信息的取负后做指数运算,得到所述每个数据标注集合对应的中间数值;
21.基于所述中间数值与第二常数成负相关处理,实现标注信息类别的数量与权重成负相关性,从而计算所述每个数据标注集合对应的所述采样权重;所述第二常数为大于等于1的正整数。
22.上述方案中,所述基于所述多个场景下各自对应的所述初始权重,计算所述每个数据标注集合对应的权重占比信息,包括:
23.将每个场景的初始权重与所述多个场景下对应的每个初始权重的和相比,得到所述每个场景的所述每个数据标注集合对应的所述权重占比信息。
24.上述方案中,所述基于所述中间数值与第二常数负相关处理,实现标注信息类别的数量与权重成负相关性,从而计算所述每个数据标注集合对应的所述采样权重,包括:
25.将所述中间数值与预设常数相加,得到次中间数值;
26.将所述第二常数与所述次中间数值相比取倒数,实现标注信息类别的数量与权重成负相关性,从而得到所述每个数据标注集合对应的所述采样权重。
27.上述方案中,所述基于所述采样权重,对所述每个场景的所述数据标注集合中的不同图片进行采样,得到样品图片,包括:
28.将每个场景对应的所述采样权重与所述多个场景下对应的每个采样权重之和相比,得到所述每个场景对应的所述每个数据标注集合对应的采样比例;
29.将所述采样比例与预设总样品图片的数量相乘,得到所述每个数据标注集合对应的样品图片的采样数量;
30.根据所述采样数量,在所述每个场景对应的所述每个数据标注集合中进行随机采样,得到所述样品图片。
31.上述方案中,所述m个标注信息类别各自对应的m个数量信息采用二维数组的形式构建;
32.所述确定所述m个数量信息中的最大数量信息,为所述每个数据标注集合对应的初始权重,包括:
33.确定m个二维数组对应的所述m个数量信息中的最大数量信息,为所述每个数据标注集合的初始权重。
34.上述方案中,所述m个二维数组中的每个二维数组包括:对应的所述每个数据标注集合的编号信息以及对应的标注信息类别的编号信息。
35.本公开实施例中还提供了一种数据采样装置,包括:
36.数据获取单元,用于获取多个场景下各自对应的数据标注集合;
37.权重确定单元,用于针对每个场景,基于所述数据标注集合中的不同图片对应的
多个标注信息,统计所述数据标注集合对应的m个标注信息类别的数量,进而确定出所述数据标注集合的初始权重;其中,m为大于等于1的整数;
38.权重调整单元,用于基于标注信息类别的数量与权重成负相关性,调整所述每个场景下的所述初始权重,得到所述每个场景的所述数据标注集合的采样权重;
39.采样单元,用于基于所述采样权重,对所述每个场景的所述数据标注集合中的不同图片进行采样,得到样品图片;所述样品图片用于进行训练样本,作用于训练目标检测模型的过程中。
40.本公开实施例还提供了一种数据采样装置,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的步骤。
41.本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
42.本公开实施例中,通过获取多个场景下各自对应的数据标注集合;针对每个场景,基于数据标注集合中的不同图片对应的多个标注信息,统计数据标注集合对应的m个标注信息类别的数量,进而确定出数据标注集合的初始权重;其中,m为大于等于1的整数;基于标注信息类别的数量与权重成负相关性,调整每个场景下的初始权重,得到每个场景的数据标注集合的采样权重;基于采样权重,对每个场景的数据标注集合中的不同图片进行采样,得到样品图片;样品图片用于进行训练样本,作用于训练目标检测模型的过程中。由于通过标注信息类别的数量计算得到对应的初始权重,再将每个场景对应的初始权重按照对应标注信息类别的数量成负相关性进行计算,得到了采样权重,该方案缩小了标注信息类别的数量不同的数据标注集合对应的采样权重之间的数值差距,进而通过对应的采样权重在数据标注集合中可以采集到数量相差较小的样品图片,使得通过该样品图片训练得到的目标检测模型提高了对数据量少的场景或者类别的待测物品的检测性能。
附图说明
43.图1为本公开实施例提供的数据采样方法的一个可选的流程示意图;
44.图2为本公开实施例提供的数据采样方法的一个可选的效果示意图;
45.图3为本公开实施例提供的数据采样方法的一个可选的效果示意图;
46.图4为本公开实施例提供的数据采样方法的一个可选的流程示意图;
47.图5为本公开实施例提供的数据采样方法的一个可选的流程示意图;
48.图6为本公开实施例提供的数据采样方法的一个可选的流程示意图;
49.图7为本公开实施例提供的数据采样方法的一个可选的流程示意图;
50.图8为本公开实施例提供的数据采样方法的一个可选的流程示意图;
51.图9为本公开实施例提供的数据采样装置的结构示意图;
52.图10为本公开实施例提供的数据采样装置的一种硬件实体示意图。
具体实施方式
53.为了使本公开的目的、技术方案和优点更加清楚,下面结合附图和实施例对本公开的技术方案进一步详细阐述,所描述的实施例不应视为对本公开的限制,本领域普通技
术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
54.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
55.如果公开文件中出现“第一/第二”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
56.除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的,不是旨在限制本公开。
57.图1为本公开实施例提供的数据采样方法的一个可选的流程示意图,将结合图1示出的步骤进行说明。
58.s101、获取多个场景下各自对应的数据标注集合。
59.本公开实施例中,服务器获取多个场景下各自对应的数据标注集合。
60.其中,多个场景中的每个场景可以包括:多个玩家玩游戏的场景。数据标注集合可以包括:对应场景下的多个图片,以及多个标注信息。其中,每个图片可以对应至少一个标注信息。标注信息标注的是图片中的待测物品的类别,也就是对应标注信息类别。多个标注信息的标注信息类别可以相同也可以不相同。多个玩家玩游戏的场景对应的数据标注集合可以包括:多个玩家玩游戏的场景对应的多个图片,以及多个标注信息。多个场景可以包括:不同玩家在不同场合玩游戏的场景。
61.示例性的,结合图2,为本公开实施例提供的数据采样方法的一个可选的效果示意图。图2中展示的场景可以为多个场景中的一个场景。图2中展示的场景可以为玩家a、玩家b和玩家c玩游戏的场景。其中的待测物品可以为游戏币。
62.示例性的,结合图3,为本公开实施例提供的数据采样方法的一个可选的效果示意图。图3为一个场景对应的数据标注集合中的一个图片。其中,该图片中的待测物品可以包括:玩家d的左手304、玩家d的右手302、玩家d的左肘关节303、玩家d的右肘关节301和游戏币305。该图片对应的标注信息可以为:手、肘关节和游戏币。待测物品玩家d的左手304和玩家d的右手302的标注信息可以为“手”。玩家d的左肘关节303和玩家d的右肘关节301的标注信息可以为“肘关节”。游戏币305的标注信息可以为“游戏币”。
63.s102、针对每个场景,基于数据标注集合中的不同图片对应的多个标注信息,统计数据标注集合对应的m个标注信息类别的数量,进而确定出数据标注集合的初始权重。
64.本公开实施例中,服务器针对每个场景,基于数据标注集合中的不同图片对应的多个标注信息,统计数据标注集合对应的m个标注信息类别的数量,进而确定出数据标注集合的初始权重。
65.本公开实施例中,每个数据标注集合中的不同图片对应了多个标注信息。多个标注信息的标注信息类别可以相同,也可以不相同。服务器根据多个标注信息的标注信息类别,统计出该数据标注集合对应的m个标注信息类别。服务器再根据每个标注信息类别对应
的标注信息的数量,确定出m个标注信息类别的数量。进而,服务器在m个标注信息类别的数量中确定出最大数量,为该数据标注集合对应的初始权重。
66.示例性的,一个数据标注集合包括:5张图片,以及8个标注信息。其中8个标注信息可以分别为:游戏币、游戏币、游戏币、手机、手机、水杯、游戏币和手机。服务器可以根据8个标注信息将8个标注信息分为3个标注信息类别:游戏币、手机和水杯。服务器统计出标注信息类别“游戏币”对应的标注信息的数量为4,服务器统计出标注信息类别“手机”对应的标注信息的数量为3,服务器统计出标注信息类别“水杯”对应的标注信息的数量为1。进而服务器可以确定出各个标注信息类别数量中的最大数量“4”为该数据标注集合的初始权重。
67.s103、基于标注信息类别的数量与权重成负相关性,调整每个场景下的初始权重,得到每个场景的数据标注集合的采样权重。
68.本公开实施例中,服务器基于标注信息类别的数量与权重成负相关性,调整每个场景下的初始权重,得到每个场景的数据标注集合的采样权重。
69.本公开实施例中,服务器对各个场景下的初始权重进行调整,将比较大的初始权重进行减小,得到该初始权重对应场景的采样权重。服务器将比较小的初始权重进行增大,得到该初始权重对应场景的采样权重,进而得到了每个场景的数据标注集合的采样权重。
70.本公开实施例中,服务器将每个场景的初始权重比上各个场景的初始权重之和。得到了每个场景对应的权重占比信息。服务器将每个场景对应的权重占比信息的取负后做指数运算,得到每个数据标注集合对应的中间数值。服务器基于每个场景的中间数值与第二常数成负相关处理,实现标注信息类别的数量与权重成负相关性,从而计算每个场景的数据标注集合对应的采样权重。
71.s104、基于采样权重,对每个场景的数据标注集合中的不同图片进行采样,得到样品图片。
72.本公开实施例中,服务器基于采样权重,对每个场景的数据标注集合中的不同图片进行采样,得到采样图片。其中,样品图片用于进行训练样本,作用于训练目标检测模型的过程中。
73.本公开实施例中,服务器将每个采样权重比上各个场景对应的采样权重之和,得到了每个场景对应的采样比例。服务器按照每个采样比例在对应场景的数据标注集合的不同图片中进行平均采样,得到了对应场景的采样图片。
74.示例性的,多个场景可以包括三个场景。三个场景的数据标注集合可以分别包括:100张图片、150张图片和200张图片。三个场景的数据标注集合分别对应的采样权重可以包括:3、4和5。服务器将每个场景的采样权重比上三个场景的采样权重之和,可以得到每个场景的采样比例。服务器通过计算可以得到三个场景的采样比例分别为:0.25、0.33和0.416。服务器三个场景的采样比例分别在三个场景的数据标注集合中进行平均采样,得到了三个场景分别对应的采样图片。
75.本公开实施例中,通过获取多个场景下各自对应的数据标注集合;针对每个场景,基于数据标注集合中的不同图片对应的多个标注信息,统计数据标注集合对应的m个标注信息类别的数量,进而确定出数据标注集合的初始权重;其中,m为大于等于1的整数;基于标注信息类别的数量与权重成负相关性,调整每个场景下的初始权重,得到每个场景的数据标注集合的采样权重;基于采样权重,对每个场景的数据标注集合中的不同图片进行采
样,得到样品图片;样品图片用于进行训练样本,作用于训练目标检测模型的过程中。由于通过标注信息类别的数量计算得到对应的初始权重,再将每个场景对应的初始权重按照对应标注信息类别的数量成负相关性进行计算,得到了采样权重,该方案缩小了标注信息类别的数量不同的数据标注集合对应的采样权重之间的数值差距,进而通过对应的采样权重在数据标注集合中可以采集到数量相差较小的样品图片,使得通过该样品图片训练得到的目标检测模型提高了对数据量少的场景或者类别的待测物品的检测性能。
76.在一些实施例中,参见图4,图4为本公开实施例提供的数据采样方法的一个可选的流程示意图,图1示出的s102可以通过s105至s107实现,将结合各步骤进行说明。
77.s105、针对每个场景,根据每个数据标注集合对应的多个标注信息,统计出每个数据标注集合对应的m个标注信息类别。
78.本公开实施例中,服务器针对每个场景,根据每个数据标注集合对应的多个标注信息,统计出每个数据标注集合对应的m个标注信息类别。
79.本公开实施例中,多个标注信息可以对应m个标注信息类别。m个标注信息类别的个数可以和多个标注信息的个数相同,也可以不同。m个标注信息类别的个数小于等于多个标注信息的个数。
80.s106、在不同图片中统计出,m个标注信息类别各自对应的m个数量信息。
81.本公开实施例中,服务器在不同图片中统计出,m个标注信息类别各自对应的m个数量信息。
82.本公开实施例中,每个场景的不同图片可以对应有多个标注信息。每个图片可以对应至少一个标注信息。服务器按照不同图片对应的多个标注信息的标注信息类别进行归类,确定出m个标注信息类别。服务器确定出每个标注信息类别对应的标注信息的数量,进而确定出每个标注信息类别对应的数量信息,进而确定出m个标注信息类别对应的m个数量信息。
83.s107、确定m个数量信息中的最大数量信息,为每个数据标注集合对应的初始权重。
84.本公开实施例中,服务器确定m个数量信息中的最大数量信息,为每个数据标注集合对应的初始权重。
85.本公开实施例中,m个标注信息类别各自对应的m个数量信息可以采用二维数组的形式构建。示例性的,m个数量信息中的一个数量信息可以用class_number[n][m]进行构建。该二维数组中包括:对应数据标注集合的编号信息n,以及对应的标注信息类别的编号信息m。服务器在m个二维数组中确定出指示的最大数量为该数据标注集合的初始权重。
[0086]
本公开实施例中,服务器通过统计出每个数据标注集合内的m个标注信息类别,再统计出m标注信息类别对应的m个数量信息,在m个数量信息中确定出最大的数量信息为该数据标注集合的初始权重。服务器通过最大的数量信息确定初始权重,可以考虑到对应数据标注集合内的图片的数量,使确定的初始权重更贴合对应数据标注集合内的图片的数量,使后续的采样数量更加贴合该数据标注集合内的图片数量。
[0087]
在一些实施例中,参见图5,图5为本公开实施例提供的数据采样方法的一个可选的流程示意图,图1示出的s103可以通过s108至s110实现,将结合各步骤进行说明。
[0088]
s108、基于多个场景下各自对应的初始权重,计算每个数据标注集合对应的权重
占比信息。
[0089]
本公开实施例中,服务器基于多个场景下各自对应的初始权重,计算每个数据标注集合对应的权重占比信息。
[0090]
本公开实施例中,服务器将每个数据标注集合对应的初始权重,比上多个场景的初始权重之和,得到了每个数据标注集合对应的权重占比信息。
[0091]
示例性的,服务器可以通过公式(1)计算得到每个数据标注集合对应的权重占比信息list
scale

[0092][0093]
其中,list
number[i]
为该数据标注集合的初始权重,list
number[i]
中的
number[i]
为该数据标注集合中的第i个标注信息类别的数量信息。n为多个数据标注集合的个数,为n个数据标注集合的初始权重之和。服务器将该数据标注集合的初始权重list
number[i]
,比上n个数据标注集合的初始权重之和可以得到该数据标注集合对应的权重占比信息list
scale

[0094]
s109、将权重占比信息的取负后做指数运算,得到每个数据标注集合对应的中间数值。
[0095]
本公开实施例中,服务器将将权重占比信息的取负后做指数运算,得到每个数据标注集合对应的中间数值。
[0096]
s110、基于中间数值与第二常数成负相关处理,实现标注信息类别的数量与权重成负相关性,从而计算每个数据标注集合对应的采样权重。
[0097]
本公开实施例中,服务器基于中间数值与第二常数成负相关处理,实现标注信息类别的数量与权重成负相关性,从而计算每个数据标注集合对应的采样权重。
[0098]
其中,第二常数可以为大于等于1的正整数。
[0099]
本公开实施例中,服务器还可以将第二常数比上该中间数值,得到了每个数据标注集合对应的采样权重。
[0100]
示例性的,服务器可以通过公式(2)计算得到采样权重list
weights

[0101][0102]
其中,e为常数,取值为2.718281828459。1为第二常数。服务器将权重占比信息list
scale
取负数之后得到一个数值。服务器计算以e为底该数值的指数,得到中间数值。服务器将该中间数值与1相加得到另一个数值,服务器再将1比上该另一个数值得到了采样权重list
weights

[0103]
本公开实施例中,服务器计算每个数据标注集合对应的权重占比信息。将权重占比信息的取负后做指数运算,得到每个数据标注集合对应的中间数值,再基于中间数值与第二常数成负相关处理,实现标注信息类别的数量与权重成负相关性,从而计算每个数据标注集合对应的采样权重。在这个过程中,服务器根据对应标注信息类别的数量与权重成负相关性,计算得到了最终的采样权重,缩小了不同数量图片的数据标注集合的权重之间
的大小差异,进而通过对应的采样权重在数据标注集合中可以采集到数量相差较小的样品图片,使得通过该样品图片训练得到的目标检测模型提高了对数据量少的场景或者类别的待测物品的检测性能。
[0104]
在一些实施例中,参见图6,图6为本公开实施例提供的数据采样方法的一个可选的流程示意图,图5示出的s108可以通过s111实现,将结合各步骤进行说明。
[0105]
s111、将每个场景的初始权重与多个场景下对应的每个初始权重的和相比,得到每个场景的每个数据标注集合对应的权重占比信息。
[0106]
本公开实施例中,服务器将每个场景的初始权重与多个场景下对应的每个初始权重的和相比,得到每个场景的每个数据标注集合对应的权重占比信息。
[0107]
本公开实施例中,服务器计算得到了每个场景的初始权重的权重占比信息,将,进而根据权重占比信息在预设总采样图片库中进行采样,采样效果更佳。
[0108]
在一些实施例中,参见图6,图6为本公开实施例提供的数据采样方法的一个可选的流程示意图,图5示出的s110可以通过s112至s113实现,将结合各步骤进行说明。
[0109]
s112、将中间数值与预设常数相加,得到次中间数值。
[0110]
本公开实施例中,服务器将中间数值与预设常数相加,得到次中间数值。
[0111]
其中,预设常数可以为任意常数。
[0112]
s113、将第二常数与次中间数值相比取倒数,实现标注信息类别的数量与权重成负相关性,从而得到每个数据标注集合对应的采样权重。
[0113]
本公开实施例中,服务器将第二常数与次中间数值相比取倒数,实现标注信息类别的数量与权重成负相关性,从而得到每个数据标注集合对应的采样权重。
[0114]
其中,第二常数可以与预设常数相同,也可以不同。
[0115]
本公开实施例中,服务器将第二常数比上每个数据标注集合对应的次中间数值,得到了每个数据标注集合对应的采样权重。
[0116]
本公开实施例中,服务器将第二常数与次中间数值相比取倒数,得到了最终的采样权重,利用了sigmod函数特性,保证了每个数据标注集合的采样权重都在一定范围内,使后续的采样效果更佳,差异更小。
[0117]
在一些实施例中,参见图7,图7为本公开实施例提供的数据采样方法的一个可选的流程示意图,图1示出的s104可以通过s114至s116实现,将结合各步骤进行说明。
[0118]
s114、将每个场景对应的采样权重与多个场景下对应的每个采样权重之和相比,得到每个场景对应的每个数据标注集合对应的采样比例。
[0119]
本公开实施例中,服务器将每个场景对应的采样权重与多个场景下对应的每个采样权重之和相比,得到每个场景对应的每个数据标注集合对应的采样比例。
[0120]
本公开实施例中,服务器计算出每个场景对应的采样权重在多个采样权重中的占比信息,也就是采样比例。
[0121]
s115、将采样比例与预设总样品图片的数量相乘,得到每个数据标注集合对应的样品图片的采样数量。
[0122]
本公开实施例中,服务器将采样比例与预设总样品图片的数量相乘,得到每个数据标注集合对应的样品图片的采样数量。
[0123]
示例性的,预设总样品图片的数量可以为200。一个数据标注集合对应的采样比例
为0.2。服务器将0.2与200相乘,得到采样数量40。服务器可以根据该采样数量40在对应的数据标注集合的不同图片中进行平均采样,采样出40张样品图片。
[0124]
s116、根据采样数量,在每个场景对应的每个数据标注集合中进行随机采样,得到样品图片。
[0125]
本公开实施例中,服务器根据采样数量,在每个场景对应的每个数据标注集合中进行随机采样,得到样品图片。
[0126]
示例性的,多个场景可以包括三个场景。三个场景的数据标注集合可以分别包括:100张图片、150张图片和200张图片。预设总样品图片的数量可以为1000。三个场景的数据标注集合分别对应的采样权重可以包括:3、4和5。服务器将每个场景的采样权重比上三个场景的采样权重之和,可以得到每个场景的采样比例。服务器通过计算可以得到三个场景的采样比例分别为:0.25、0.33和0.416。服务器三个场景的采样比例分别与预设总样品图片的数量相乘,得到了三个场景的三个数据标注集合对应的采样数量为:250、330和416。服务器按照该三个采样数量,在对应的数据标注集合的内的不同图片中进行平均采样,得到了三个数据标注集合分别对应的采样图片。
[0127]
本公开实施例中,服务器通过计算得到的采样数量,在对应的数据标注集合的不同图片中进行平均采样,缩小了具有不同标注信息类别数量,以及不同图片数量的数据标注集合的采样数量的差异。
[0128]
在一些实施例中,参见图8,图8为本公开实施例提供的数据采样方法的一个可选的流程示意图,图4示出的s107可以通过s101至s117实现,将结合各步骤进行说明。
[0129]
s117、确定m个二维数组对应的m个数量信息中的最大数量信息,为每个数据标注集合的初始权重。
[0130]
本公开实施例中,m个标注信息类别各自对应的m个数量信息可以采用二维数组的形式构建。服务器确定m个二维数组对应的m个数量信息中的最大数量信息,为每个数据标注集合的初始权重。
[0131]
示例性的,m个数量信息中的一个数量信息可以用class_number[n][m]进行构建。该二维数组中的n为对应数据标注集合的编号信息,m为对应的标注信息类别的编号信息。服务器在m个二维数组中确定出对应的最大数量为该数据标注集合的初始权重。每个二维数组都对应一个数量信息。服务器在m个二维数组中确定出二维数组对应的最大数量信息为初始权重。
[0132]
本公开实施例中,服务器通过二位数组构建出m个数量信息,方便服务器进行计算,加快了采样的计算效率。
[0133]
本公开实施例中,服务器获取用于训练的n个数据标注集合。数据为人工标注,标注信息为各个需要检测物品的类别和坐标。其中,每个数据标注集合中包括:多个图片,每个图片对应了至少一个标注信息。每个标注信息可以为对应的需要检测物品啊的类别和坐标。
[0134]
服务器计算每个数据标注集合中各个标注信息类别的数量,使用二维数组class_number[n][m],其中n为数据标注列表的编号信息,m为各个标注信息类别的编号信息。
[0135]
服务器计算在数据标注列表中,求标注信息类别对应的数量最大的值,作为该数据标注列表的初始权重。示例性的,服务器可以通过公式(3)确定出初始权重list
number
[i]。
[0136]
list
number
[i]=max(class_number[i][j]),0≤i《n,0≤j《m
ꢀꢀꢀꢀꢀ
(3)
[0137]
其中,list
number
[i]为第i个数据标注集合的初始权重,class_number[i][j]i为第i个数据标注集合中的第j个标注信息类别,n为数据标注集合的个数,m为对应数据标注集合内标注信息类别的个数。服务器在第i个数据标注集合对应的m个标注信息类别的数量信息中确定出最大的数量信息为该数据标注集合的初始权重list
number
[i]。
[0138]
服务器对各个数据标注集合的权重值之间的差值进行缩小,即缩小数据量大的数据列表的权重,增大数据量小的数据列表的权重。
[0139]
服务器可以通过公式(1)计算每个数据标注集合的权重在总权重中的中的比例,
[0140][0141]
其中,list
number[i]
为该数据标注集合的初始权重,list
number[i]
中的
number[i]
为该数据标注集合中的第i个标注信息类别的数量信息。n为多个数据标注集合的个数,为n个数据标注集合的初始权重之和。服务器将该数据标注集合的初始权重list
number[i]
,比上n个数据标注集合的初始权重之和可以得到该数据标注集合对应的权重占比信息list
scale

[0142]
服务器计算每个数据标注集合的采样权重,此处利用sigmod函数特性,使得每个list采样权重范围保持在[0.5,1]之间。
[0143]
服务器可以通过公式(2)计算得到采样权重list
weights

[0144][0145]
其中,e为常数,取值为2.718281828459。1为第二常数。服务器将权重占比信息list
scale
取负数之后得到一个数值。服务器计算以e为底该数值的指数,得到中间数值。服务器将该中间数值与1相加得到另一个数值,服务器再将1比上该另一个数值得到了采样权重list
weights

[0146]
服务器将获得的采样权重list
weights
赋值到每个数据标注集合中使用。赋值给对应的数据标注集合,然后平均采样。
[0147]
由于通过标注信息类别的数量计算得到对应的初始权重,再将每个场景对应的初始权重按照对应标注信息类别的数量成负相关性进行计算,得到了采样权重,该方案缩小了标注信息类别的数量不同的数据标注集合对应的采样权重之间的数值差距,进而通过对应的采样权重在数据标注集合中可以采集到数量相差较小的样品图片,使得通过该样品图片训练得到的目标检测模型提高了对数据量少的场景或者类别的待测物品的检测性能。
[0148]
请参阅图9,为本公开实施例提供的数据采样装置的结构示意图。
[0149]
在本公开实施例中,数据采样装置800,包括:数据获取单元803、权重确定单元804、权重调整单元805和采样单元806。
[0150]
数据获取单元803,用于获取多个场景下各自对应的数据标注集合;
[0151]
权重确定单元804,用于针对每个场景,基于所述数据标注集合中的不同图片对应的多个标注信息,统计所述数据标注集合对应的m个标注信息类别的数量,进而确定出所述
数据标注集合的初始权重;其中,m为大于等于1的整数;
[0152]
权重调整单元805,用于基于标注信息类别的数量与权重成负相关性,调整所述每个场景下的所述初始权重,得到所述每个场景的所述数据标注集合的采样权重;
[0153]
采样单元806,用于基于所述采样权重,对所述每个场景的所述数据标注集合中的不同图片进行采样,得到样品图片;所述样品图片用于进行训练样本,作用于训练目标检测模型的过程中。
[0154]
本公开实施例中,数据采样装置800中的权重确定单元804还用于针对每个场景,根据每个数据标注集合对应的所述多个标注信息,统计出所述每个数据标注集合对应的m个标注信息类别;在所述不同图片中统计出,所述m个标注信息类别各自对应的m个数量信息;确定所述m个数量信息中的最大数量信息,为所述每个数据标注集合对应的初始权重。
[0155]
本公开实施例中,数据采样装置800中的权重调整单元805还用于基于所述多个场景下各自对应的所述初始权重,计算所述每个数据标注集合对应的权重占比信息;将权重占比信息的取负后做指数运算,得到所述每个数据标注集合对应的中间数值;基于所述中间数值与第二常数成负相关处理,实现标注信息类别的数量与权重成负相关性,从而计算所述每个数据标注集合对应的所述采样权重;所述第二常数为大于等于1的正整数。
[0156]
本公开实施例中,数据采样装置800中的权重调整单元805还用于将每个场景的初始权重与所述多个场景下对应的每个初始权重的和相比,得到所述每个场景的所述每个数据标注集合对应的所述权重占比信息。
[0157]
本公开实施例中,数据采样装置800中的权重调整单元805还用于将所述中间数值与预设常数相加,得到次中间数值;将所述第二常数与所述次中间数值相比取倒数,实现标注信息类别的数量与权重成负相关性,从而得到所述每个数据标注集合对应的所述采样权重。
[0158]
本公开实施例中,数据采样装置800中的采样单元806还用于将每个场景对应的所述采样权重与所述多个场景下对应的每个采样权重之和相比,得到所述每个场景对应的所述每个数据标注集合对应的采样比例;将所述采样比例与预设总样品图片的数量相乘,得到所述每个数据标注集合对应的样品图片的采样数量;根据所述采样数量,在所述每个场景对应的所述每个数据标注集合中进行随机采样,得到所述样品图片。
[0159]
本公开实施例中,所述m个标注信息类别各自对应的m个数量信息采用二维数组的形式构建;
[0160]
数据采样装置800中的权重确定单元804还用于确定m个二维数组对应的所述m个数量信息中的最大数量信息,为所述每个数据标注集合的初始权重。
[0161]
本公开实施例中,所述m个二维数组中的每个二维数组包括:对应的所述每个数据标注集合的编号信息以及对应的标注信息类别的编号信息。
[0162]
本公开实施例中,通过数据采样单元803获取多个场景下各自对应的数据标注集合;通过权重确定单元804针对每个场景,基于数据标注集合中的不同图片对应的多个标注信息,统计数据标注集合对应的m个标注信息类别的数量,进而确定出数据标注集合的初始权重;其中,m为大于等于1的整数;通过权重调整单元805基于标注信息类别的数量与权重成负相关性,调整每个场景下的初始权重,得到每个场景的数据标注集合的采样权重;通过采样单元806基于采样权重,对每个场景的数据标注集合中的不同图片进行采样,得到样品
图片;样品图片用于进行训练样本,作用于训练目标检测模型的过程中。由于通过标注信息类别的数量计算得到对应的初始权重,再将每个场景对应的初始权重按照对应标注信息类别的数量成负相关性进行计算,得到了采样权重,该方案缩小了标注信息类别的数量不同的数据标注集合对应的采样权重之间的数值差距,进而通过对应的采样权重在数据标注集合中可以采集到数量相差较小的样品图片,使得通过该样品图片训练得到的目标检测模型提高了对数据量少的场景或者类别的待测物品的检测性能。
[0163]
需要说明的是,本公开实施例中,如果以软件功能模块的形式实现上述的数据采样方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台数据采样装置(可以是个人计算机等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本公开实施例不限制于任何特定的硬件和软件结合。
[0164]
对应地,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
[0165]
对应地,本公开实施例提供一种数据采样装置,包括存储器802和处理器801,所述存储器802存储有可在处理器801上运行的计算机程序,所述处理器801执行所述程序时实现上述方法中的步骤。
[0166]
这里需要指出的是:以上存储介质和装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本公开存储介质和装置实施例中未披露的技术细节,请参照本公开方法实施例的描述而理解。
[0167]
需要说明的是,图10为本公开实施例提供的数据采样装置的一种硬件实体示意图,如图10所示,该数据采样装置800的硬件实体包括:处理器801和存储器802,其中;
[0168]
处理器801通常控制数据采样装置800的总体操作。
[0169]
存储器802配置为存储由处理器801可执行的指令和应用,还可以缓存待处理器801以及数据采样装置800中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(flash)或随机访问存储器(random access memory,ram)实现。
[0170]
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本公开的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本公开的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
[0171]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有
的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0172]
在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
[0173]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0174]
另外,在本公开各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0175]
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储装置、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0176]
或者,本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器、或者网络装置等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储装置、rom、磁碟或者光盘等各种可以存储程序代码的介质。
[0177]
以上所述,仅为本公开的实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1