图像识别模型的训练方法、装置、电子设备和存储介质与流程

文档序号:27200693发布日期:2021-11-03 13:35阅读:140来源:国知局
图像识别模型的训练方法、装置、电子设备和存储介质与流程

1.本技术涉及人工智能领域,具体涉及计算机视觉和深度学习技术,具体可用于3d视觉防控场景下。


背景技术:

2.图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用。随着科学技术的发展,图像识别在人们生活的应用越来越广泛。
3.因此,如何提高图像识别的鲁棒性是亟待解决的问题。


技术实现要素:

4.本技术提供了一种图像识别模型的训练方法、装置、电子设备和存储介质。
5.根据本技术的一方面,提供了一种图像识别模型的训练方法,包括:
6.获取训练数据集,其中,所述训练数据集中包括第一图像集、第二图像集及所述第一图像集中每个第一图像对应的标注结果,其中,所述第二图像集中的每个第二图像为对应的第一图像经过第一变换后生成的;
7.将任一第一图像及对应的第二图像分别输入初始孪生网络中的第一编码器及第二编码器,以获取所述任一第一图像对应的第一特征图及所述对应的第二图像对应的第二特征图;
8.将所述第一特征图及所述第二特征图分别输入所述初始孪生网络中的第一解码器及第二解码器,以获取第一预测结果及第二预测结果;
9.根据所述第二特征图、所述第一特征图、所述第一预测结果、所述第二预测结果及所述任一第一图像对应的标注结果,对所述初始孪生网络进行修正,以获取第一图像识别网络及第二图像识别网络。
10.根据本技术的另一方面,提供了一种图像识别模型的训练装置,包括:
11.第一获取模块,用于获取训练数据集,其中,所述训练数据集中包括第一图像集、第二图像集及所述第一图像集中每个第一图像对应的标注结果,其中,所述第二图像集中的每个第二图像为对应的第一图像经过第一变换后生成的;
12.第二获取模块,用于将任一第一图像及对应的第二图像分别输入初始孪生网络中的第一编码器及第二编码器,以获取所述任一第一图像对应的第一特征图及所述对应的第二图像对应的第二特征图;
13.第三获取模块,用于将所述第一特征图及所述第二特征图分别输入所述初始孪生网络中的第一解码器及第二解码器,以获取第一预测结果及第二预测结果;
14.训练模块,用于根据所述第二特征图、所述第一特征图、所述第一预测结果、所述第二预测结果及所述任一第一图像对应的标注结果,对所述初始孪生网络进行修正,以获取第一图像识别网络及第二图像识别网络。
15.根据本技术的另一方面,提供了一种电子设备,包括:
16.至少一个处理器;以及
17.与所述至少一个处理器通信连接的存储器;其中,
18.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施例所述的方法。
19.根据本技术的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述实施例所述的方法。
20.根据本技术的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述实施例所述的方法。
21.应当理解,本部分所描述的内容并非旨在标识本技术的实施例的关键或重要特征,也不用于限制本技术的范围。本技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
22.附图用于更好地理解本方案,不构成对本技术的限定。其中:
23.图1为本技术实施例提供的一种图像识别模型的训练方法的流程示意图;
24.图2为本技术实施例提供的另一种图像识别模型的训练方法的流程示意图;
25.图3为本技术实施例提供的另一种图像识别模型的训练方法的流程示意图;
26.图4为本技术实施例提供的另一种图像识别模型的训练方法的流程示意图;
27.图5为本技术实施例提供的一种图像识别模型的训练示意图;
28.图6为本技术实施例提供的一种图像识别模型的训练装置的结构示意图;
29.图7是用来实现本技术实施例的图像识别模型的训练方法的电子设备的框图。
具体实施方式
30.以下结合附图对本技术的示范性实施例做出说明,其中包括本技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
31.下面参考附图描述本技术实施例的图像识别模型的训练方法、装置、电子设备和存储介质。
32.人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术领域也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术包括计算机视觉技术、语音识别技术、自然语言处理技术以及深度学习、大数据处理技术、知识图谱技术等几大方向。
33.计算机视觉是一门研究如何使机器“看”的科学,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
34.深度学习是机器学习领域中一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很
大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
35.图1为本技术实施例提供的一种图像识别模型的训练方法的流程示意图。
36.本技术实施例的图像识别模型的训练方法,可由本技术实施例的图像识别模型的训练装置执行,该装置可配置于电子设备中,以通过将图像和对应的变换后的图像分别输入孪生网络的两个编码器中,通过互相监督训练得到两个识别网络,提高了识别的精准性和鲁棒性。
37.如图1所示,该图像识别模型的训练方法,包括:
38.步骤101,获取训练数据集,其中,训练数据集中包括第一图像集、第二图像集及第一图像集中每个第一图像对应的标注结果。
39.本技术中,可以获取第一图像集和第一图像集中每个第一图像对应的标注结果。其中,每个第一图像可以是通过对一个物体进行拍摄得到,比如第一图像集中可包括苹果的图像、椅子的图像、车辆的图像等。这里第一图像对应的标注结果可以以下至少一项:物体所属的类型、物体的尺寸、物体的三维中心点、物体的朝向角、物体二维检测框的尺寸等。其中,尺寸可以是指物体的物理尺寸,比如物体的长度、宽度、高度等。
40.本技术中可以根据第一图像对应的不同标注结果,训练得到用于识别物体不同信息的识别网络。
41.在获取第一图像集后,可以对第一图像集中每个第一图像进行第一变换,生成每个第一图像对应的第二图像,所有第二图像构成第二图像集。也就是说,第二图像集中每个第二图像是由对应的第一图像经过第一变换得到。其中,对第一图像进行的第一变换包括但不限于仿射变换、对比度变换、色域空间调整等。
42.本技术中,可以根据第一图像集、第二图像集、第一图像集中每个第一图像对应的标注结果等,得到训练数集。
43.步骤102,将任一第一图像及对应的第二图像分别输入初始孪生网络中的第一编码器及第二编码器,以获取任一第一图像对应的第一特征图及对应的第二图像对应的第二特征图。
44.本技术中,训练所用的初始网络为初始孪生网络,初始孪生网络可以包括两个初始识别网络,两个初始识别网络可以共享权重,一个初始识别网络包括第一编码器和第一解码器,另一个初始识别网络包括第二编码器和第二解码器。
45.在获取训练数据集后,可将训练数据集中的任一第一图像输入初始孪生网络中的第一编码器,由第一编码器进行特征提取,以获取第一编码器输出的任一第一图像对应的第一特征图,并将该第一图像对应的第二图像输入初始孪生网络的第二编码器,由第二编码器进行特征提取,以获取第二编码器输出的第二图像对应的第二特征图。
46.比如,某图像a经过仿射变换后得到图像a',可将图a输入初始孪生网络的第一编码器,以获取图像a的第一特征图,将图像a'输入初始孪生网络的第二编码器,以获取图像a'的第二特征图。
47.步骤103,将第一特征图及第二特征图分别输入初始孪生网络中的第一解码器及第二解码器,以获取第一预测结果及第二预测结果。
48.在获取第一特征图和第二特征图中,可将第一特征图输入第一解码器进行解码,
以获取第一图像对应的第一预测结果,将第二特征图输入第二解码器进行解码,以获取第二图像对应的第二预测结果。
49.其中,第一预测结果可以包括第一图像中物体的二维检测框的尺寸、物体的类型、物体的尺寸、物体的三维中心点等,第二预测结果与第一预测结果包括的预测内容类型和数量相同。
50.步骤104,根据第二特征图、第一特征图、第一预测结果、第二预测结果及任一第一图像对应的标注结果,对始孪生网络进行修正,以获取第一图像识别网络及第二图像识别网络。
51.由于第一特征图和第二特征图分别输入两个编码器中,且第二图像是第一图像经过变换得到,那么第一特征图与第二特征图之间也具有关联关系,因此,可以根据第一特征图、第二特征图、第一预测结果、第二预测结果,对初始孪生网络进行修正,即对初始孪生网络的两个初始识别网络进行修正,得到第一图像识别网络和第二图像识别网络。
52.比如,可以根据第一特征图与第二特征图得到一个损失函数,根据第一预测结果与第一图像对应的标注结果得到对应的损失函数,根据第二预测结果与第一图像对应的标注结果得到损失函数,根据三个损失函数,对初始孪生网络的参数进行调整,并对参数调整后的孪生网络继续进行调整,直至孪生网络收敛,得到两个图像识别网络。
53.本技术中,在对初始孪生网络进行训练时,可以采用深度学习的方式进行训练,以获取第一图像识别网络和第二图像识别网络。
54.在训练完成后,可以将待识别图像输入至第一图像识别网络或第二图像识别网络,以获取待识别图像的识别结果。也就是说,可以使用孪生网络中的任一图像识别网络进行图像识别。
55.本技术实施例的图像识别模型的训练方法,可以基于第一图像不同的标注结果,训练得到用于识别物体不同信息的识别网络。比如,第一图像对应的标注结果包括物体所属的类型及物体二维检测框的尺寸,利用训练数据集可训练得到用于二维物体检测的识别网络;若第一图像对应的标注结果包括物体所属的类型、三维尺寸、物体二维检测框的尺寸、物体的三维中心点、物体的朝向角,那么利用训练数据集可训练得到用于三维物体检测的识别网络。
56.本技术的图像识别模型的训练方法可应用于3d视觉防控场景下,通过采集获取防控区域内的图像,可利用训练得到的图像识别网络,识别图像中各个物体的类型、尺寸、三维中心点等信息,基于识别得到各个物体的信息,采集相应的防控措施。
57.本技术实施例的图像识别模型的训练方法,也可应用智能交通领域,比如,采集车辆行驶周围的图像,利用图像识别网络,识别采集的图像中各个物体的类型、尺寸、朝向角等信息,利用这些信息辅助车辆行驶。
58.本技术实施例中,通过将第一图像及第一图像经过变换后得到的第二图像分别输入初始孪生网络的第一编码器和第二编码器,获取第一特征图和第二特征图,将第一特征图及第二特征图分别输入初始孪生网络中的第一解码器及第二解码器,得到第一预测结果和第二预测结果,基于第二特征图、第一特征图、第一预测结果、第二预测结果及任一第一图像对应的标注结果,训练得到第一图像识别网络和第二图像识别网络。由此,通过将图像和对应的变换后的图像分别输入孪生网络的两个编码器中,通过互相监督训练得到两个识
别网络,提高了识别的精准性和鲁棒性。
59.图2为本技术实施例提供的另一种图像识别模型的训练方法的流程示意图。
60.如图2所示,该图像识别模型的训练方法包括:
61.步骤201,获取训练数据集,其中,训练数据集中包括第一图像集、第二图像集及第一图像集中每个第一图像对应的标注结果。
62.步骤202,将任一第一图像及对应的第二图像分别输入初始孪生网络中的第一编码器及第二编码器,以获取任一第一图像对应的第一特征图及对应的第二图像对应的第二特征图。
63.步骤203,将第一特征图及第二特征图分别输入初始孪生网络中的第一解码器及第二解码器,以获取第一预测结果及第二预测结果。
64.本技术中,步骤201

步骤203与上述步骤101

步骤103类似,故在此不再赘述。
65.步骤204,将第二特征图进行第二变换,以获取第三特征图,其中,第二变换与第一变换互为逆变换。
66.由于第二图像是对应的第一图像经过第一变换后生成的,本技术中,可以对第二特征进行第二变换,得到第三特征图,其中,第二变换与第一变换互为逆变换,即第二变换为第一变换的逆变换。
67.步骤205,确定第三特征图与第一特征图间的第一差异。
68.由于第二图像是对应的第一图像经过第一变换后生成的,第三特征图是第二特征图经过第一变换的逆变换获取的,由此,第一特征图与第三特征图之间具有一定的相似性。
69.本技术中,可以确定第三特征图与第一特征图间的第一差异,以将第一差异作为修正初始孪生网络的依据。比如,获取第三特征图与第一特征图间差值的绝对值,将其作为损失函数。
70.步骤206,确定第一预测结果与任一第一图像对应的标注结果间的第二差异。
71.本技术中,若标注结果中包括第一图像中多个信息的标注结果,那么可以确定每个信息对应的预测结果与标注结果间的差异,并计算所有信息的差异之和,作为任一第一图像对应的第一预测结果与对应的标注结果间的第二差异。
72.比如,标注结果中包括物体二维检测框的尺寸、物体的尺寸、物体的朝向角和物体所属的类型,那么可以将预测的二维检测框的尺寸与标注结果中物体二维检测框的尺寸间的差异、预测的物体的尺寸与标注结果的尺寸间的差异、预测的物体的朝向角与标注结果中物体的朝向角间的差异、及预测的物体所属的类型与标注结果中物体所属类型间的差异进行融合,将融合结果作为第一预测结果与标注结果间的第二差异。
73.步骤207,确定第二预测结果与任一第一图像对应的标注结果间的第三差异。
74.本技术中,第三差异的确定方式与第二差异的确定方式类似,故在此不再赘述。
75.步骤208,基于第一差异、第二差异及第三差异,对初始孪生网络进行修正,以获取第一图像识别网络及第二图像识别网络。
76.本技术中,可以根据第一差异、第二差异及第三差异分别获取相应的损失函数,可以计算三个损失函数之和,将损失函数之和确定为最终的损失值,在损失值大于阈值的情况下,基于最终的损失值对初始孪生网络进行修正。由此,通过对第一差异、第二差异及第三差异进行融合,基于融合确定的最终损失值,对初始孪生网络进行修正,使得两个识别网
络的输出相似,从而得到两个图像识别网络。
77.或者,第一差异、第二差异及第三差异也可以对应不同的权重,可以计算第一差异对应的损失函数、第二差异对应的损失函数及第三差异对应的损失函数的加权和,根据加权和确定最终的损失值,在损失值大于阈值的情况下,基于最终的损失值对初始孪生网络进行修正。由此,可以满足训练的个性化需求。
78.本技术实施例中,在对初始孪生网络进行修正,以获取第一图像识别网络及第二图像识别网络时,可以通过对第二特征图进行第一变换的逆变换,得到第三特征图,基于第三特征图与第一特征图间的第一差异、第一预测结果与标注结果间的第二差异、第二预测结果与标注结果间的第三差异,对初始孪生网络进行修正,从而可以得到两个图像识别网络,并且两个图像识别网络的输出结果相似,进而可以利用任一图像识别网络进行图像识别,提高了图像识别精准性和鲁棒性。
79.为了进一步提高图像识别的精准性,在本技术的一个实施例中,可以对第一图像中各个像素点的坐标进行编码,得到位置向量,也将位置向量输入到孪生网络,得到特征图和预测结果。下面结合图3进行说明,图3为本技术实施例提供的另一种图像识别模型的训练方法的流程示意图。
80.如图3所示,该图像识别模型的训练方法包括:
81.步骤301,获取训练数据集,其中,训练数据集中包括第一图像集、第二图像集及第一图像集中每个第一图像对应的标注结果。
82.本技术中,步骤301与上述步骤101类似,故在此不再赘述。
83.步骤302,根据任一第一图像中每个第一像素点的第一坐标值,确定第一图像对应的第一位置向量。
84.本技术中,可以对任一第一图像中每个第一像素点在任一第一图像中的第一坐标值进行编码,得到每个第一像素点的位置向量,由此,可将像素点的位置信息映射为多维空间的一个点。其中,对第一坐标值进行编码时,可以采用正弦编码、余弦编码、泰勒展开式的方法、可学习参数的方法等。
85.本技术中,可以将第一图像中所有第一像素点的位置向量进行拼接,得到第一图像对应的第一位置向量。
86.步骤303,根据对应的第二图像中每个第二像素点的第二坐标值,确定第二图像对应的第二位置向量。
87.本技术中,确定第二图像对应的第二位置向量的方式,与确定第一图像对应的第一位置向量的方式类似,故在此不再赘述。
88.步骤304,将任一第一图像及第一位置向量输入第一编码器,以获取任一第一图像对应的第一特征图,将对应的第二图像及第二位置向量输入第二编码器,以获取第二图像对应的第二特征图。
89.本技术中,可将任一第一图像及第一图像对应的第一位置向量输入第一编码器,以获取任一第一图像对应的第一特征图,将对应的第二图像及第二图像对应的第二位置向量输入第二编码器,以获取第二图像对应的第二特征图。由此,在编码器的输入中增加了高维特征信息,可以提高孪生网络的识别精准性。
90.步骤305,将第一特征图及第二特征图分别输入初始孪生网络中的第一解码器及
第二解码器,以获取第一预测结果及第二预测结果。
91.步骤306,根据第二特征图、第一特征图、第一预测结果、第二预测结果及任一第一图像对应的标注结果,对始孪生网络进行修正,以获取第一图像识别网络及第二图像识别网络。
92.本技术中,步骤305

步骤306与上述步骤103

步骤104类似,故在此不再赘述。
93.本技术实施例中,在将任一第一图像及对应的第二图像分别输入初始孪生网络中的第一编码器及第二编码器时,通过根据任一第一图像中每个第一像素点的第一坐标值,确定第一图像对应的第一位置向量,根据对应的第二图像中每个第二像素点的第二坐标值,确定第二图像对应的第二位置向量,将第一位置向量与第一图像一同输入第一编码器,将第二位置向量与第二图像一同输入第二编码器。由此,通过对第一图像和对应第二图像中每个像素点的坐标值进行编码,得到高维特征信息,在第一编码器和第二编码器的输入中增加高维特征信息,提高了图像识别的精准性。
94.在本技术的一个实施例中,可以通过图4所示的方式,确定图像中物体的尺寸。图4为本技术实施例提供的另一种图像识别模型的训练方法的流程示意图。
95.如图4所示,上述获取第一预测结果及第二预测结果,可以包括:
96.步骤401,获取任一第一图像分别属于各类图像的第一概率,及属于各类图像时对应的第一尺寸偏差值。
97.本技术中,可以根据每个第一图像中物体所属类型,将训练数据集中的所属类型相同的第一图像作为同一类,从而可以得到训练数据集包含的图像类型。
98.本技术中,第一解码器可以对第一特征图进行解码,获取任一图像分别属于各类图像的第一概率,及属于各类图像时对应的第一尺寸偏差值。
99.比如,训练数据集中共包含10类图像,在获取预测结果时,可以获取该图像分别属于10类图像中每类图像的概率,及属于每类图像时对应的尺寸偏差值。
100.本技术中,若标注结果中物体的尺寸为物体的长度、宽度和高度,那么预测结果中尺寸偏差值包括长度的偏差值、宽度的偏差值和高度的偏差值。
101.步骤402,获取对应的第二图像分别属于各类图像的第二概率,及属于各类图像时对应的第二尺寸偏差值。
102.本技术中,获取第二概率与第二尺寸偏差值的方法,与上述获取第一概率与第一尺寸偏差值的方法类似,故在此不再赘述。
103.步骤403,根据各个第一概率,确定任一第一图像所属的第一目标类型。
104.本技术中,可以根据任一第一图像分别属于各类图像的第一概率,将值最大的第一概率对应的类型,作为任一第一图像所属的第一目标类型。
105.比如,训练数据集中的第一图像共有10个类型,某图像属于类型a的概率最大,那么可将类型a作为第一目标类型。
106.步骤404,根据任一第一图像属于第一目标类型时对应的第一尺寸偏差值及第一目标类型对应的第一参考尺寸,确定任一第一图像中物体的第一尺寸。
107.本技术中,可以预先确定每个类型对应的参考尺寸,那么可以获取第一目标类型对应的第一参考尺寸,并将第一图像属于第一目标类型时对应的第一尺寸偏差值与第一参考尺寸相加,得到第一图像中物体的第一尺寸。
108.本技术中,标注结果中可以包括每个第一图像中物体的尺寸和类型,在确定每个类型图像对应的参考尺寸时,可以根据每个第一图像中物体的类型,将物体的类型相同的第一图像作为同一类图像,从而可以确定每类图像对应的子图像集。可以理解的是,每个子图像集中各个第一图像中的物体类型相同。
109.也就是说,可以根据每个第一图像中物体的类型,将训练数据集划分为多个子图像集,每个子图像集中各个第一图像的物体类型相同。
110.在确定每类图像对应的子图像集后,可以计算每个子图像集中所有第一图像中物体的尺寸之和,将尺寸之和除以每个子图像集中第一图像的数量,得到每类图像对应的参考尺寸。
111.本技术中,可以通过根据标注结果中第一图像中物体的尺寸和类型,可将训练数据集划分为多个子图像集,基于同一类型的第一图像中物体的尺寸,确定同类型物体对应的参考尺寸,从而可以基于第一物体所属的类型对应的参考尺寸和解码器输出的该类型对应的尺寸偏差值,确定物体的尺寸。
112.步骤405,根据各个第二概率,确定对应的第二图像所属的第二目标类型。
113.步骤406,根据对应的第二图像属于第二目标类型时对应的第二尺寸偏差值及第二目标类型对应的第二参考尺寸,确定对应的第二图像中物体的第二尺寸。
114.本技术中,确定第二图像所属的第二目标类型及第二图像中物体的第二尺寸,与上述确定第一目标类型及第一尺寸类似,故在此不再赘述。
115.在确定第一图像中物体的第一尺寸和第二图像中第二尺寸后,可确定第一尺寸与标注结果中的物体的尺寸间的差异,及第二尺寸与标注结果中物体的尺寸间的差异。从而,可以基于尺寸差异对初始孪生网络进行训练。
116.本技术实施例中,在对物体的尺寸进行预测时,可以通过初始孪生网络,获取第一图像分别属于各类图像的第一概率,及属于各类图像时对应的第一尺寸偏差值,及第二图像分别属于各类图像的第二概率,及属于各类图像时对应的第二尺寸偏差值,根据各个第一概率,确定第一图像所属的第一目标类型,根据各个第二概率,确定第一图像所属的第二目标类型,并根据第一目标类型对应的参考尺寸和第一尺寸偏差值,确定物体的第一尺寸,根据第二目标类型对应的参考尺寸和第二尺寸偏差值,确定物体的第二尺寸。由此,可以通过初始孪生网络预测物体的尺寸偏差值,根据预测所属目标类型对应的尺寸偏差值和参考尺寸,确定物体的尺寸。
117.下面结合图5进一步说明本技术的图像识别模型的训练方法,图5为本技术实施例提供的一种图像识别模型的训练示意图。
118.图5中,初始孪生网络有两个分支,每个分支均包括编码器和解码器,其中,第一编码器与第二编码器共享权重。如图5所示,可对图像i中每个像素点的坐标值进行编码,以确定i对应的第一位置向量,可将图像i及第一位置向量输入初始孪生网络的第一编码器进行特征提取,获取第一特征图fm1,并对图像i进行变换f后得到图像,即将图像及图像对应的第二特征向量输入第二编码器进行特征提取,获取第二特征图fm2。即第一编码器和第二编码器的输入中加入高维特征信息。
119.图5中,可将第一特征图fm1输入第一解码器,获取第一预测结果,将第二特征图fm2输入第二解码器,获取第二预测结果。其中,第一预测结果和第二预测结果可包括物体二维
检测框尺寸、物体的类型、物体的尺寸、物体的朝向角、物体三维中心点。
120.之后,可以根据第一预测结果与图像i对应的标注结果,确定损失函数l
s1
,根据第二预测结果与图像i对应的标注结果,确定损失函数l
s2
。其中,l
s1
可以是根据物体二维检测框尺寸对应的损失函数l
2dbox
、物体的类型对应的损失函数l
cls
、物体的尺寸对应的损失函数l
lwh
、物体的朝向角对应的损失函数l
angle
、物体三维中心点对应的损失函数l
3dloc
等确定的,即l
s1
=l
2dbox
+l
cls
+l
lwh
+l
angle
+l
3dloc
。另外,损失函数l
s2
与l
s1
类似,不再赘述。
121.如图5所示,还可在fm2上应用变换f的逆变换f
‑1,得到第三特征图fm3,并根据fm1和fm3计算损失函数l
disturb
=|fm3‑
fm1|,以使fm3与fm1尽可能相似。
122.图5中,可以将l
s1
、l
s2
和l
disturb
之和,作为最终的损失函数l
all
=l
s1
+l
s2
+l
disturb
,若l
all
大于阈值,则根据l
all
对初始孪生网络进行修正,以获取第一图像识别网络和第二图像识别网络。在训练完成后,可以仅保留孪生网络的单个分支网络,可通过孪生网络中的一个分支网络对待识别图像进行三维检测,获取检测结果。
123.为了实现上述实施例,本技术实施例还提出一种图像识别模型的训练装置。图6为本技术实施例提供的一种图像识别模型的训练装置的结构示意图。
124.如图6所示,该图像识别模型的训练装置600包括:
125.第一获取模块610,用于获取训练数据集,其中,所述训练数据集中包括第一图像集、第二图像集及所述第一图像集中每个第一图像对应的标注结果,其中,所述第二图像集中的每个第二图像为对应的第一图像经过第一变换后生成的;
126.第二获取模块620,用于将任一第一图像及对应的第二图像分别输入初始孪生网络中的第一编码器及第二编码器,以获取所述任一第一图像对应的第一特征图及所述对应的第二图像对应的第二特征图;
127.第三获取模块630,用于将所述第一特征图及所述第二特征图分别输入所述初始孪生网络中的第一解码器及第二解码器,以获取第一预测结果及第二预测结果;
128.训练模块640,用于根据所述第二特征图、所述第一特征图、所述第一预测结果、所述第二预测结果及所述任一第一图像对应的标注结果,对所述初始孪生网络进行修正,以获取第一图像识别网络及第二图像识别网络。
129.在本技术实施例一种可能的实现方式中,所述训练模块640,包括:
130.变换单元,用于将所述第二特征图进行第二变换,以获取第三特征图,其中,所述第二变换与所述第一变换互为逆变换;
131.第一确定单元,用于确定所述第三特征图与所述第一特征图间的第一差异;
132.第二确定单元,用于确定所述第一预测结果与所述任一第一图像对应的标注结果间的第二差异;
133.第三确定单元,用于确定所述第二预测结果与所述任一第一图像对应的标注结果间的第三差异;
134.训练单元,用于基于所述第一差异、所述第二差异及所述第三差异,对所述初始孪生网络进行修正,以获取第一图像识别网络及第二图像识别网络。
135.在本技术实施例一种可能的实现方式中,所述训练单元,用于:
136.将所述第一差异、所述第二差异及所述第三差异进行融合,以确定损失值;
137.在所述损失值大于阈值的情况下,基于所述损失值对所述初始孪生网络进行修
正,以获取第一图像识别网络及第二图像识别网络。
138.在本技术实施例一种可能的实现方式中,所述第二获取模块620,用于:
139.根据所述任一第一图像中每个第一像素点的第一坐标值,确定所述第一图像对应的第一位置向量;
140.根据所述对应的第二图像中每个第二像素点的第二坐标值,确定所述第二图像对应的第二位置向量;
141.将所述任一第一图像及所述第一位置向量输入所述第一编码器,将所述对应的第二图像及所述第二位置向量输入所述第二编码器。
142.在本技术实施例一种可能的实现方式中,所述第三获取模块630,用于:
143.获取所述任一第一图像分别属于各类图像的第一概率,及属于各类图像时对应的第一尺寸偏差值;
144.获取所述对应的第二图像分别属于各类图像的第二概率,及属于各类图像时对应的第二尺寸偏差值;
145.根据各个所述第一概率,确定所述任一第一图像所属的第一目标类型;
146.根据所述任一第一图像属于所述第一目标类型时对应的第一尺寸偏差值及所述第一目标类型对应的第一参考尺寸,确定所述任一第一图像中物体的第一尺寸;
147.根据各个所述第二概率,确定所述对应的第二图像所属的第二目标类型;
148.根据所述对应的第二图像属于所述第二目标类型时对应的第二尺寸偏差值及所述第二目标类型对应的第二参考尺寸,确定所述对应的第二图像中物体的第二尺寸。
149.在本技术实施例一种可能的实现方式中,所述标注结果中包括每个第一图像中物体的尺寸及类型,该装置还可包括:
150.第一确定模块,用于根据所述每个第一图像中物体的类型,确定每类图像对应的子图像集,其中,每个子图集中的各个第一图像中的物体类型相同;
151.第二确定模块,用于根据每个子图像集中的各个第一图像中物体的尺寸,确定每类图像对应的参考尺寸。
152.在本技术实施例一种可能的实现方式中,所述标注结果中包括以下至少一项:物体二维检测框的尺寸,物体的尺寸,物体的三维中心点,物体的朝向角以及物体所属的类型。
153.需要说明的是,前述图像识别模型的训练方法实施例的解释说明,也适用于该实施例的图像识别模型的训练装置,故在此不再赘述。
154.本技术实施例中,通过将第一图像及第一图像经过变换后得到的第二图像分别输入初始孪生网络的第一编码器和第二编码器,获取第一特征图和第二特征图,将第一特征图及第二特征图分别输入初始孪生网络中的第一解码器及第二解码器,得到第一预测结果和第二预测结果,基于第二特征图、第一特征图、第一预测结果、第二预测结果及任一第一图像对应的标注结果,训练得到第一图像识别网络和第二图像识别网络。由此,通过将图像和对应的变换后的图像分别输入孪生网络的两个编码器中,通过互相监督训练得到两个识别网络,提高了识别的精准性和鲁棒性。
155.根据本技术的实施例,本技术还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
156.图7示出了可以用来实施本技术的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本技术的实现。
157.如图7所示,设备700包括计算单元701,其可以根据存储在rom(read

only memory,只读存储器)702中的计算机程序或者从存储单元708加载到ram(random access memory,随机访问/存取存储器)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。i/o(input/output,输入/输出)接口705也连接至总线704。
158.设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
159.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于cpu(central processing unit,中央处理单元)、gpu(graphic processing units,图形处理单元)、各种专用的ai(artificial intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、dsp(digital signal processor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如图像识别模型的训练方法。例如,在一些实施例中,图像识别模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文描述的图像识别模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像识别模型的训练方法。
160.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、fpga(fieldprogrammable gate array,现场可编程门阵列)、asic(application

specific integrated circuit,专用集成电路)、assp(application specific standard product,专用标准产品)、soc(system on chip,芯片上系统的系统)、cpld(complex programmable logic device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
161.用于实施本技术的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处
理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
162.在本技术的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、ram、rom、eprom(electrically programmable read

only

memory,可擦除可编程只读存储器)或快闪存储器、光纤、cd

rom(compact disc read

only memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
163.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(cathode

ray tube,阴极射线管)或者lcd(liquid crystal display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
164.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:lan(local area network,局域网)、wan(wide area network,广域网)、互联网和区块链网络。
165.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端

服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(virtual private server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
166.根据本技术的实施例,本技术还提供了一种计算机程序产品,当计算机程序产品中的指令处理器执行时,执行本技术上述实施例提出的图像识别模型的训练方法。
167.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本技术中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本技术公开的技术方案所期望的结果,本文在此不进行限制。
168.上述具体实施方式,并不构成对本技术保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本技术的精神和原则之内所作的修改、等同替换和改进等,均应包含在本技术保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1