本技术涉及深度学习,特别是涉及一种关键点定位模型训练方法、以及关键点定位方法。
背景技术:
1、在深度学习技术领域,可以利用训练好的关键点定位模型,对图像中指定对象的关键点进行定位,即得到各关键点在图像中的坐标。
2、然而,相关技术中,在训练关键点定位模型时,需要预先获取大量的包含指定对象的样本图像,并按照统一的标注方式对样本图像进行标注。相应的,训练得到的关键点定位模型在对包含指定对象的待检测图像进行检测时,也只能够按照对样本图像进行标注的标注方式,定位待检测图像中指定对象的关键点。
3、因此,如何根据用户的实际需求,对待检测图像中指定对象的关键点进行定位,成为亟待解决的问题。
技术实现思路
1、本技术实施例的目的在于提供一种关键点定位模型训练方法、以及关键点定位方法,以实现根据用户的实际需求对图像中指定的关键点进行定位。具体技术方案如下:
2、本技术实施例的第一方面,首先提供了一种关键点定位模型训练方法,所述方法包括:
3、获取包含指定对象的样本图像,以及所述样本图像的样本标签;其中,任一样本图像的样本标签包含:该样本图像中指定对象的各关键点的标注框的位置,以及该样本图像中各关键点的第一标识;
4、基于初始关键点定位模型对所述样本图像进行特征提取,得到第一样本特征图,以及对各第一标识进行特征提取,得到各第一文本特征;
5、基于各第一文本特征和所述第一样本特征图,利用所述初始关键点定位模型进行关键点的检测框的定位和分类,得到所述第一样本特征图中每一像素位置对应的第一检测框的检测结果;其中,任一第一检测框的检测结果包含:该第一检测框的位置、表示所述样本图像中该第一检测框处是否包含关键点的置信度,以及所述样本图像中该第一检测框处包含各关键点的预测概率;
6、基于各第一检测框的检测结果、各标注框的位置,以及各第一标识,计算用于表示各第一检测框的置信度与关键点标签之间差异的置信度损失值,用于表示各标注框与各第一检测框的位置之间差异的位置损失值,以及用于表示各预测概率与各真实概率之间差异的对齐损失值;
7、其中,所述关键点标签表示所述样本图像中各第一检测框处是否包含关键点;任一第一检测框对应的图像特征与任一第一文本特征之间的真实概率表示:所述样本图像中该第一检测框处是否包含该第一文本特征对应的关键点;基于所述置信度损失值、对齐损失值和位置损失值,对所述初始关键点定位模型的模型参数进行调整,直至达到预设收敛条件,得到目标关键点定位模型。
8、在一些实施例中,所述初始关键点定位模型包含文本编码器和位置编码器;
9、在所述基于初始关键点定位模型对各第一标识进行特征提取,得到各第一文本特征之前,所述方法还包括:获取用户在所述样本图像中点击的位置的第一位置信息;基于所述位置编码器对所述第一位置信息进行编码,得到位置特征;
10、所述基于初始关键点定位模型对各第一标识进行特征提取,得到各第一文本特征,包括:基于所述文本编码器对各第一标识进行文本特征提取,得到各第二文本特征;对各第二文本特征和所述位置特征进行融合,得到各第一文本特征。
11、在一些实施例中,每一关键点的第一标识为:用于描述该关键点在所述指定对象中的生理位置的文本;所述文本编码器包含预设的大语言模型中的文本特征提取网络。
12、在一些实施例中,所述初始关键点定位模型包含视觉编码器和注意力网络;
13、所述基于初始关键点定位模型对所述样本图像进行特征提取,得到第一样本特征图,包括:基于所述视觉编码器对所述样本图像进行图像特征提取,得到第二样本特征图;基于所述注意力网络对所述第二样本特征图进行处理,得到第一样本特征图。
14、在一些实施例中,所述注意力网络包含:用于在通道、空间和尺寸的维度上实现注意力机制的视觉特征注意力网络,以及用于在通道的维度上实现注意力机制的通道注意力网络;
15、所述基于所述注意力网络对所述第二样本特征图进行处理,得到第一样本特征图,包括:基于所述视觉特征注意力网络对所述第二样本特征图进行处理,得到第三样本特征图;基于所述通道注意力网络对所述第三样本特征图进行处理,得到第一样本特征图。
16、在一些实施例中,在基于各第一检测框的检测结果、各标注框的位置,以及各第一标识,计算用于表示各预测概率与各真实概率之间差异的对齐损失值之前,所述方法还包括:
17、针对每一第一检测框,基于该第一检测框的位置与各标注框的位置,确定所述样本图像中该第一检测框处是否包含关键点;若包含,则确定该第一检测框对应的图像特征与其所包含的关键点对应的第一文本特征之间的真实概率为1,且该第一检测框对应的图像特征与其他的第一文本特征之间的真实概率为0;若不包含,则确定该第一检测框对应的图像特征与所有的第一文本特征之间的真实概率均为0。
18、在一些实施例中,所述基于各第一检测框的检测结果、各标注框的位置,以及各第一标识,计算用于表示各标注框与各第一检测框的位置之间差异的位置损失值,包括:针对每一标注框,基于预设公式计算该标注框与每一指定的第一检测框之间的损失值;其中,任一指定的第一检测框的置信度表征:所述样本图像中该第一检测框处包含关键点;所述预设公式为:
19、
20、针对任一标注框与任一指定的第一检测框,l表示该标注框与该指定的第一检测框之间的损失值,iou表示该标注框与该第一检测框的交并比,o表示该标注框与该第一检测框之间的距离;基于各标注框与各指定的第一检测框之间的各损失值,得到用于表示各标注框与各第一检测框的位置之间差异的位置损失值。
21、在一些实施例中,在所述获取包含指定对象的样本图像,以及所述样本图像的样本标签之前,所述方法还包括:针对任一样本图像,获取该样本图像中指定对象的各关键点的坐标;针对任一关键点,基于该关键点的坐标,确定该样本图像中包含该关键点的指定大小的框,作为该关键点的标注框。
22、本技术实施例的第二方面,提供了一种关键点定位方法,所述方法包括:
23、获取包含指定对象的待检测图像和待定位关键点的第二标识;
24、将所述待检测图像和所述第二标识输入至训练好的关键点定位模型,得到多个第二检测框的检测结果;其中,任一第二检测框的检测结果包含:该第二检测框的位置、表示所述待检测图像中该第二检测框处是否包含关键点的置信度,以及所述待检测图像中该第二检测框处包含所述待定位关键点的预测概率;所述训练好的关键点定位模型为按照上述任一关键点定位模型训练方法进行训练得到的;
25、基于各第二检测框的检测结果,得到所述待检测图像中所述待定位关键点的坐标。
26、在一些实施例中,所述将所述待检测图像和所述第二标识输入至训练好的关键点定位模型,得到多个第二检测框的检测结果,包括:
27、将待检测图像、所述第二标识,以及用户在所述待检测图像中点击的位置的第二位置信息,输入至训练好的关键点定位模型,得到多个第二检测框的检测结果。
28、在一些实施例中,所述基于各第二检测框的检测结果,得到所述待检测图像中所述待定位关键点的坐标,包括:从各第二检测框中选择出第三检测框;其中,任一第三检测框的置信度表征:所述待检测图像中该第三检测框处包含关键点;基于各第三检测框的位置和各第三检测框处包含所述待定位关键点的预测概率,按照非极大值抑制算法对各第三检测框进行处理,得到第四检测框;基于第四检测框的位置,确定所述待检测图像中所述待定位关键点的坐标。
29、本技术实施例的第三方面,提供了一种关键点定位模型训练装置,所述装置包括:
30、样本获取模块,用于获取包含指定对象的样本图像,以及所述样本图像的样本标签;其中,任一样本图像的样本标签包含:该样本图像中指定对象的各关键点的标注框的位置,以及该样本图像中各关键点的第一标识;
31、特征提取模块,用于基于初始关键点定位模型对所述样本图像进行特征提取,得到第一样本特征图,以及对各第一标识进行特征提取,得到各第一文本特征;
32、第一检测结果获取模块,用于基于各第一文本特征和所述第一样本特征图,利用所述初始关键点定位模型进行关键点的检测框的定位和分类,得到所述第一样本特征图中每一像素位置对应的第一检测框的检测结果;其中,任一第一检测框的检测结果包含:该第一检测框的位置、表示所述样本图像中该第一检测框处是否包含关键点的置信度,以及所述样本图像中该第一检测框处包含各关键点的预测概率;
33、损失计算模块,用于基于各第一检测框的检测结果、各标注框的位置,以及各第一标识,计算用于表示各第一检测框的置信度与关键点标签之间差异的置信度损失值,用于表示各标注框与各第一检测框的位置之间差异的位置损失值,以及用于表示各预测概率与各真实概率之间差异的对齐损失值;其中,所述关键点标签表示所述样本图像中各第一检测框处是否包含关键点;任一第一检测框对应的图像特征与任一第一文本特征之间的真实概率表示:所述样本图像中该第一检测框处是否包含该第一文本特征对应的关键点;
34、参数调整模块,用于基于所述置信度损失值、对齐损失值和位置损失值,对所述初始关键点定位模型的模型参数进行调整,直至达到预设收敛条件,得到目标关键点定位模型。
35、在一些实施例中,所述初始关键点定位模型包含文本编码器和位置编码器;
36、所述装置还包括:位置信息获取模块,用于在所述基于初始关键点定位模型对各第一标识进行特征提取,得到各第一文本特征之前,获取用户在所述样本图像中点击的位置的第一位置信息;位置编码模块,用于基于所述位置编码器对所述第一位置信息进行编码,得到位置特征;所述特征提取模块,具体用于:基于所述文本编码器对各第一标识进行文本特征提取,得到各第二文本特征;对各第二文本特征和所述位置特征进行融合,得到各第一文本特征。
37、在一些实施例中,每一关键点的第一标识为:用于描述该关键点在所述指定对象中的生理位置的文本;所述文本编码器包含预设的大语言模型中的文本特征提取网络。
38、在一些实施例中,所述初始关键点定位模型包含视觉编码器和注意力网络;
39、所述特征提取模块,包含:视觉编码子模块,用于基于所述视觉编码器对所述样本图像进行图像特征提取,得到第二样本特征图;注意力子模块,用于基于所述注意力网络对所述第二样本特征图进行处理,得到第一样本特征图。
40、在一些实施例中,所述注意力网络包含:用于在通道、空间和尺寸的维度上实现注意力机制的视觉特征注意力网络,以及用于在通道的维度上实现注意力机制的通道注意力网络;
41、所述注意力子模块,具体用于:基于所述视觉特征注意力网络对所述第二样本特征图进行处理,得到第三样本特征图;基于所述通道注意力网络对所述第三样本特征图进行处理,得到第一样本特征图。
42、在一些实施例中,所述装置还包括:
43、第一判断模块,用于在基于各第一检测框的检测结果、各标注框的位置,以及各第一标识,计算用于表示各预测概率与各真实概率之间差异的对齐损失值之前,针对每一第一检测框,基于该第一检测框的位置与各标注框的位置,确定所述样本图像中该第一检测框处是否包含关键点;
44、第一设置模块,用于若包含,则确定该第一检测框对应的图像特征与其所包含的关键点对应的第一文本特征之间的真实概率为1,且该第一检测框对应的图像特征与其他的第一文本特征之间的真实概率为0;
45、第二设置模块,用于若不包含,则确定该第一检测框对应的图像特征与所有的第一文本特征之间的真实概率均为0。
46、在一些实施例中,所述损失计算模块,具体用于:针对每一标注框,基于预设公式计算该标注框与每一指定的第一检测框之间的损失值;其中,任一指定的第一检测框的置信度表征:所述样本图像中该第一检测框处包含关键点;所述预设公式为:
47、
48、针对任一标注框与任一指定的第一检测框,l表示该标注框与该指定的第一检测框之间的损失值,iou表示该标注框与该第一检测框的交并比,o表示该标注框与该第一检测框之间的距离;
49、基于各标注框与各指定的第一检测框之间的各损失值,得到用于表示各标注框与各第一检测框的位置之间差异的位置损失值。
50、在一些实施例中,所述装置还包括:
51、标注框确定模块,用于在所述获取包含指定对象的样本图像,以及所述样本图像的样本标签之前,针对任一样本图像,获取该样本图像中指定对象的各关键点的坐标;针对任一关键点,基于该关键点的坐标,确定该样本图像中包含该关键点的指定大小的框,作为该关键点的标注框。
52、本技术实施例的第四方面,提供了一种关键点定位装置,所述装置包括:
53、待定位数据获取模块,用于获取包含指定对象的待检测图像和待定位关键点的第二标识;
54、第二检测结果获取模块,用于将所述待检测图像和所述第二标识输入至训练好的关键点定位模型,得到多个第二检测框的检测结果;其中,任一第二检测框的检测结果包含:该第二检测框的位置、表示所述待检测图像中该第二检测框处是否包含关键点的置信度,以及所述待检测图像中该第二检测框处包含所述待定位关键点的预测概率;所述训练好的关键点定位模型为按照上述任一关键点定位模型训练方法进行训练得到的;
55、坐标定位模块,用于基于各第二检测框的检测结果,得到所述待检测图像中所述待定位关键点的坐标。
56、在一些实施例中,所述第二检测结果获取模块,具体用于:将待检测图像、所述第二标识,以及用户在所述待检测图像中点击的位置的第二位置信息,输入至训练好的关键点定位模型,得到多个第二检测框的检测结果。
57、在一些实施例中,所述坐标定位模块,具体用于:从各第二检测框中选择出第三检测框;其中,任一第三检测框的置信度表征:所述待检测图像中该第三检测框处包含关键点;基于各第三检测框的位置和各第三检测框处包含所述待定位关键点的预测概率,按照非极大值抑制算法对各第三检测框进行处理,得到第四检测框;基于第四检测框的位置,确定所述待检测图像中所述待定位关键点的坐标。
58、本技术实施例的第五方面,提供了一种电子设备,包括:
59、存储器,用于存放计算机程序;
60、处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的关键点定位模型训练方法,或,第二方面所述的关键点定位方法。
61、本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的关键点定位模型训练方法,或,第二方面所述的关键点定位方法。
62、本技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的关键点定位模型训练方法,或,第二方面所述的关键点定位方法。
63、本技术实施例有益效果:
64、本技术实施例提供了一种关键点定位模型训练方法,方法包括:获取包含指定对象的样本图像,以及样本图像的样本标签;其中,任一样本图像的样本标签包含:该样本图像中指定对象的各关键点的标注框的位置,以及该样本图像中各关键点的第一标识;基于初始关键点定位模型对样本图像进行特征提取,得到第一样本特征图,以及对各第一标识进行特征提取,得到各第一文本特征;基于各第一文本特征和第一样本特征图,利用初始关键点定位模型进行关键点的检测框的定位和分类,得到第一样本特征图中每一像素位置对应的第一检测框的检测结果;其中,任一第一检测框的检测结果包含:该第一检测框的位置、表示样本图像中该第一检测框处是否包含关键点的置信度,以及样本图像中该第一检测框处包含各关键点的预测概率;基于各第一检测框的检测结果、各标注框的位置,以及各第一标识,计算用于表示各第一检测框的置信度与关键点标签之间差异的置信度损失值,用于表示各标注框与各第一检测框的位置之间差异的位置损失值,以及用于表示各预测概率与各真实概率之间差异的对齐损失值;其中,关键点标签表示样本图像中各第一检测框处是否包含关键点;任一第一检测框对应的图像特征与任一第一文本特征之间的真实概率表示:样本图像中该第一检测框处是否包含该第一文本特征对应的关键点;基于置信度损失值、对齐损失值和位置损失值,对初始关键点定位模型的模型参数进行调整,直至达到预设收敛条件,得到目标关键点定位模型。
65、基于上述处理,由于第一检测框的置信度表示模型预测出的样本图像中该第一检测框处是否包含关键点的结果,关键点标签表示样本图像中该第一检测框处实际是否包含关键点,因此,基于置信度损失值对模型参数进行调整能够使得目标关键点定位模型在对图像进行关键点定位时,可以准确地确定各检测框中是否存在关键点。
66、由于位置损失值表示各标注框与各第一检测框的位置之间差异,因此,基于位置损失值对模型参数进行调整能够使得目标关键点定位模型在对待检测图像进行关键点定位时,可以保证包含关键点的检测框的位置的准确度。
67、由于对齐损失值表示各预测概率与各真实概率之间差异,且各预测概率为关键点定位模型根据各第一检测框对应的图像特征与各第一文本特征预测出的,各真实概率为根据各关键点的标注框和各第一标识确定的,因此,基于对齐损失值对模型参数进行调整能够使得目标关键点定位模型学习到各第一检测框对应的图像特征与各第一文本特征之间的关系。
68、因此,训练好的关键点定位模型能够基于提供的标识,在图像中定位出该标识表征的关键点所属的检测框,也就能够实现根据用户的实际需求对图像中指定的关键点进行定位。
69、当然,实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。