目标检测方法、目标检测模型的训练方法、装置和设备与流程

文档序号：33561581发布日期：2023-03-22 14:44阅读：45来源：国知局

1.本公开涉及人工智能领域，更具体地涉及一种目标检测方法、目标检测模型的训练方法、装置、设备、介质和程序产品。

背景技术：

2.目标检测是计算机视觉研究中的热点和难点。目标检测要解决的问题是找出图像(如照片或视频帧)中目标，包括位置和大小，可以用矩形框表示。目前目标检测的方法通过卷积网络可以提取出大部分的特征然后进行目标检测工作。然而通过卷积网络提取图像特征得到的目标检测结果不理想，因此如何提出一种改进的目标检测方法来提高目标检测的准确率是当前亟待解决的问题。

技术实现要素：

3.鉴于上述问题，本公开提供了一种通过提取待检测图像中像素间的关联关系结构特征，从而进一步提高准确率的目标检测方法、目标检测模型的训练方法、装置、设备、介质和程序产品。
4.本公开实施例的一个方面提供了一种目标检测方法，包括：将待检测图像分片，获得n个分片图像，其中每个分片图像包括所述待检测图像的部分区域，n大于或等于2；对所述n个分片图像提取特征，获得n个分片图像特征；将所述n个分片图像特征输入至n个transformer模型，其中每个transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系；根据所述n个transformer模型的输出获得所述待检测图像中的至少一个目标。
5.根据本公开的实施例，第一分片图像特征为所述n个分片图像特征中任一个，第一transformer模型为所述n个transformer模型中任一个，所述将所述n个分片图像特征输入至n个transformer模型包括：将所述第一分片图像特征和其余至少一个分片图像特征输入至所述第一transformer模型的编码器；利用所述第一transformer模型的编码器建立所述第一分片图像特征和其余至少一个分片图像特征之间的关联关系。
6.根据本公开的实施例，所述利用所述第一transformer模型的编码器建立所述第一分片图像特征和其余至少一个分片图像特征之间的关联关系包括：根据所述第一分片图像特征和第一权重得到第一向量；根据所述第一分片图像特征和其余至少一个分片图像特征，通过第二权重得到第二向量；根据所述第一分片图像特征和其余至少一个分片图像特征，通过第三权重得到第三向量；根据所述第一向量、第二向量和所述第三向量建立所述关联关系。
7.根据本公开的实施例，所述第一transformer模型的编码器与其余至少一个transformer模型的编码器之间的编码器权重相同或不同，所述编码器权重包括第一权重、第二权重和第三权重中至少一个。
8.根据本公开的实施例，所述通过第二权重得到第二向量，及通过第三权重得到第
三向量包括：对所述第一分片图像特征和其余至少一个分片图像特征进行拼接，得到第二分片图像特征；根据所述第二分片图像特征和所述第二权重得到所述第二向量；根据所述第二分片图像特征和所述第三权重得到所述第三向量。
9.根据本公开的实施例，所述根据所述n个transformer模型的输出获得所述待检测图像中的至少一个目标包括：将所述第一transformer模型的编码器输出输入至所述第一transformer模型的解码器，所述编码器输出包括所述第一分片图像特征和其余至少一个分片图像特征之间的关联关系；将所述第一transformer模型的解码器输出输入至分类检测模型，获得所述待检测图像中的至少一个目标。
10.根据本公开的实施例，在将所述n个分片图像特征输入至n个transformer模型之前，还包括：根据预设顺序设置所述n个分片图像与所述n个transformer模型之间的对应关系，其中，所述n个分片图像按照所述预设顺序对所述待检测图像进行分片获得。
11.本公开实施例的另一方面提供了一种目标检测模型的训练方法，包括：对训练样本图像分片，获得m个分片图像，其中每个分片图像包括所述训练样本图像的部分区域，m大于或等于2；对所述m个分片图像提取特征，获得m个分片图像特征；将所述m个分片图像特征输入至m个transformer模型，其中每个transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系；根据所述m个transformer模型的输出获得所述训练样本图像中的至少一个预测目标；根据所述至少一个预测目标与所述训练样本图像对应的目标标签之间的损失函数值，更新所述目标检测模型的参数。
12.本公开实施例的另一方面提供了一种目标检测装置，包括：第一分片模块，用于将待检测图像分片，获得n个分片图像，其中每个分片图像包括所述待检测图像的部分区域，n大于或等于2；第一提取模块，用于对所述n个分片图像提取特征，获得n个分片图像特征；第一输入模块，用于将所述n个分片图像特征输入至n个transformer模型，其中每个transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系；第一目标模块，用于根据所述n个transformer模型的输出获得所述待检测图像中的至少一个目标。
13.所述目标检测装置包括分别用于执行如上所述任意一项所述的方法的各个步骤的模块。
14.本公开实施例的另一方面提供了一种目标检测模型的训练装置，包括：第二分片模块，用于对训练样本图像分片，获得m个分片图像，其中每个分片图像包括所述训练样本图像的部分区域，m大于或等于2；第二提取模块，用于对所述m个分片图像提取特征，获得m个分片图像特征；第二输入模块，用于将所述m个分片图像特征输入至m个transformer模型，其中每个transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系；第二目标模块，用于根据所述m个transformer模型的输出获得所述训练样本图像中的至少一个预测目标；模型训练模块，用于根据所述至少一个预测目标与所述训练样本图像对应的目标标签之间的损失函数值，更新所述目标检测模型的参数。
15.本公开实施例的另一方面提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行如上所述的方法。
16.本公开实施例的另一方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如上所述的方法。
17.本公开实施例的另一方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述的方法。
18.上述一个或多个实施例具有如下有益效果：对待检测图像分片能够提高图片分辨率过大且小目标居多的情况时检测的准确率，针对n个分片图像提取n个分片图像特征并输入至n个transformer模型，能够对分片特征重复利用以增强分片图片的之间的特征依赖信息，通过每个transformer模型建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系，从而提取待检测图像中像素间的关联关系结构特征，更准确地检测出目标区域。
附图说明
19.通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：
20.图1示意性示出了根据本公开实施例的目标检测方法或目标检测模型的训练方法的应用场景图；
21.图2示意性示出了根据本公开实施例的目标检测方法的流程图；
22.图3示意性示出了根据本公开实施例的实现目标检测的整体架构图；
23.图4示意性示出了根据本公开实施例的编码器的部分结构图；
24.图5示意性示出了根据本公开实施例的处理分片图像特征的流程图；
25.图6示意性示出了根据本公开实施例的建立关联关系的流程图；
26.图7示意性示出了根据本公开实施例的获得待检测图像中的至少一个目标的流程图；
27.图8示意性示出了根据本公开实施例的目标检测模型的训练方法的流程图；
28.图9示意性示出了根据本公开实施例的目标检测装置的结构框图；
29.图10示意性示出了根据本公开实施例的目标检测模型的训练装置的结构框图；以及
30.图11示意性示出了根据本公开实施例的适于实现目标检测方法或目标检测模型的训练方法的电子设备的方框图。
具体实施方式
31.以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。
32.在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
33.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。
34.在使用类似于“a、b和c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
35.图1示意性示出了根据本公开实施例的目标检测方法或目标检测模型的训练方法的应用场景图。
36.如图1所示，根据该实施例的应用场景100可以包括摄像装置111、服务器120、第一用户131、第二用户132和网络140。网络140用以在摄像装置111和服务器120之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
37.摄像装置111可以实现监控功能，对其可拍摄区域(如图1中第一用户131、第二用户132所在区域)录制视频，并将视频通过网络140传输至服务器120。服务器120可以截取视频帧对第一用户131、第二用户132或其他目标进行目标识别。其他目标可以包括静态或动态的生物或非生物。在另一些实施例中，可以利用摄像装置111对待检测目标进行拍照，直接将包含待检测目标的照片发送至服务器120。
38.摄像装置111可以是摄像头或具有摄像功能的终端设备，终端设备上安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。举例而言，终端设备可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
39.服务器120可以是提供各种服务的服务器，例如对用户利用终端设备所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
40.尤其说明，在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供或应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。
41.应该理解，图1中的摄像装置、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
42.以下将基于图1描述的场景，通过图2～图8对本公开实施例的目标检测模型的训练方法和目标检测方法进行详细描述。
43.图2示意性示出了根据本公开实施例的目标检测方法的流程图。图3示意性示出了根据本公开实施例的实现目标检测的整体架构图。
44.如图2所示，该实施例的目标检测方法包括操作s210～操作s230。
45.在操作s210，将待检测图像分片，获得n个分片图像，其中每个分片图像包括待检测图像的部分区域，n大于或等于2。
46.待检测图像是从视频中截取的图像帧，也可以是对待检测目标拍照获得的照片。
可以对待检测图像进行切割实现分片，即将其切成多个部分，得到n个分片图像。具体地，可以是不均匀切割，例如先从待检测图像中识别出感兴趣区域，对多个感兴趣区域分别切割，其他区域也进行切割。还可以是均匀切割，例如对待检测图像进行分片时，分片规则是每个分片的图像的大小为256*256(仅为示例)，如果不足大小的部分可以通过0像素补充成256*256大小。
47.在操作s220，对n个分片图像提取特征，获得n个分片图像特征。
48.在一些实施例中，分片图像特征可以包括方向梯度直方图(histogram of oriented gradient，hog)特征、lbp(local binary pattern，局部二值模式)特征和haar-like特征等。
49.可以基于卷积神经网络提取图像的特征信息，参照图3，可以对每个分片图像对应部署一个特征提取网络。在另一些实施例中，可以部署一个特征提取网络，分别对每个分片图像提取特征。
50.在操作s230，将n个分片图像特征输入至n个transformer模型，其中每个transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系。
51.示例性地，transformer模型包括一种基于注意力的编码器-解码器架构。
52.参照图3，每个分片图像特征对应输入至一个transformer模型，另外，每个分片图像特征也会输入至其他transformer模型中。通过transformer的编码器和解码器对各个分片图像特征进行融合。关联关系包括对各个分片图像特征进行编码计算后得到的结果。
53.根据本公开的实施例，在将n个分片图像特征输入至n个transformer模型之前，还包括：根据预设顺序设置n个分片图像与n个transformer模型之间的对应关系，其中，n个分片图像按照预设顺序对待检测图像进行分片获得。
54.以分片规则是每个分片的图像的大小为256*256举例，可以对待检测图像以从左至右或从上到下的预设顺序切割。对于第一个分片图像，则对应第一个transformer模型，依次类推，如图3所示。
55.根据本公开的实施例，每个transformer模型可以根据对应输入的分片图像特征具有特定的参数，用于实现其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系，从而令各个transformer模型所建立的关联关系之间存在区别。
56.在操作s240，根据n个transformer模型的输出获得待检测图像中的至少一个目标。
57.相比于单纯的卷积神经网络提取图像特征后用于目标检测，可以考虑到待检测图像各像素之间的联系，得到用于目标检测的图像特征信息。示例性地，n个transformer模型的输出包括对待检测图像基于分片图像特征进一步建立关联关系的图像特征信息，能够提高检测准确性。
58.根据本公开的实施例，对待检测图像分片能够提高图片分辨率过大且小目标居多的情况时检测的准确率，针对n个分片图像提取n个分片图像特征，并对应地输入至n个transformer模型，可以对待检测图像的分片特征进行相互引用，对分片特征重复利用以增强分片图片的之间的特征依赖信息，通过每个transformer模型建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系，从而提取待检测图像中像素间的关
联关系结构特征，更准确地检测出目标区域。
59.图4示意性示出了根据本公开实施例的编码器的部分结构图。图5示意性示出了根据本公开实施例的处理分片图像特征的流程图。
60.如图5所示，在操作s230将n个分片图像特征输入至n个transformer模型包括操作s510～操作s520。第一分片图像特征为n个分片图像特征中任一个，第一transformer模型为n个transformer模型中任一个。
61.在操作s510，将第一分片图像特征和其余至少一个分片图像特征输入至第一transformer模型的编码器。
62.在操作s520，利用第一transformer模型的编码器建立第一分片图像特征和其余至少一个分片图像特征之间的关联关系。
63.参照图4，其示出了编码器(encoder)的注意力机制部分的结构图。在分片图像特征计算中用到矩阵q(query)，k(key)，v(value)，实际接收的输入是各个分片图像特征的表示矩阵xi或上一个编码器的输出，q、k、v通过将输入进行线性变换得到。尤其说明，每个transformer模型中可以包括一个或多个编码器。可以理解，编码器通过对多个分片图像特征进行矩阵运算，而非如卷积神经网络利用卷积核提取特征，所以能够提取出像素间的关联关系结构特征，从而进一步提高目标检测的准确率。
64.根据本公开的实施例，通过对编码器结构进行改进，可以对输入的各个分片图像特征进行处理获得关联关系。
65.可以理解，每个分片图像特征及其对应的transformer模型的数据交互过程可以参照第一分片图像特征和第一transformer模型执行，在此不做赘述。
66.图6示意性示出了根据本公开实施例的建立关联关系的流程图。
67.如图6所示，在操作s520利用第一transformer模型的编码器建立关联关系包括操作s610～操作s640。
68.在操作s610，根据第一分片图像特征和第一权重得到第一向量。
69.在操作s620，根据第一分片图像特征和其余至少一个分片图像特征，通过第二权重得到第二向量。
70.在操作s630，根据第一分片图像特征和其余至少一个分片图像特征，通过第三权重得到第三向量。
71.参照图3和图4，分片图片特征1、2、3分别输入到三个transformer模型中。记分片图片特征1为x1(大小为w*h)，分片图片特征2为x2(大小为w*h)，分片图片特征3为x3(大小为w*h)，假设三个不同的权值矩阵为wq，wk，wv，大小皆为h*b。
72.以第一个transformer模型为例，分片图像特征1的query向量为q1＝x1
·
wq，结果的大小为w*b，其中q1即为第一向量。另外，可以根据x1、x2和x3分别与wk和wv进行计算，得到key向量(第二向量)和value向量(第三向量)。
73.在一些实施例中，对第一分片图像特征和其余至少一个分片图像特征进行拼接，得到第二分片图像特征。根据第二分片图像特征和第二权重得到第二向量。根据第二分片图像特征和第三权重得到第三向量。
74.由于对图像进行切片，所以通过拼接实现输入多个分片图像特征同时进行编码，保证分片图片的之间的信息特征依赖。参照图4，concat函数用于对x1，x2，x3进行拼接，
scale用于利用权重缩放特征，transpose用于对图像特征图的形状进行转置，matmul用于对图像特征图做矩阵乘法。
75.举例而言，上述分片图像特征1的key向量k1＝concat(x1，x2，x3)
·
wk，结果的大小为3w*b。分片图像的特征1的value向量v1＝concat(x1，x2，x3)
·
wv，结果的大小为3w*b。
76.在操作s640，根据第一向量、第二向量和第三向量建立关联关系。
77.示例性地，在计算得到q、k、v向量后，经过如图4的结构可以计算输出包含上述关联关系的特征z1，如下所示。
[0078][0079]
其中softmax是一个激活函数，k1
t
是指对k1矩阵进行转置操作，是指对v1*k1
t
的结果做归一化的操作，最后矩阵的大小为w*b。
[0080]
在一些实施例中，第一transformer模型的编码器与其余至少一个transformer模型的编码器之间的编码器权重相同或不同，编码器权重包括第一权重、第二权重和第三权重中至少一个。
[0081]
参照图3，在三个transformer模型中的编码器相同的时候，第一权重、第二权重和第三权重皆相同。在三个transformer模型中的编码器不同的时候，若编码器权重包括第一权重、第二权重和第三权重中至少两个，则可以是部分不同或全部不同。例如分片图像特征1和2对应的编码器权重，可以是q向量不同，k，v向量相同，也可以是q、k、v向量皆不同。
[0082]
根据本公开的实施例，在n个分片图像与n个transformer模型之间具有对应关系(例如根据上述分片的预设顺序设置)的基础上，可以由于分片图像特征的不同，设置相同或不同的编码器权重，从而能够建立更有效的关联关系。
[0083]
图7示意性示出了根据本公开实施例的获得待检测图像中的至少一个目标的流程图。
[0084]
如图7所示，在操作s240根据n个transformer模型的输出获得待检测图像中的至少一个目标包括操作s710～操作s720。
[0085]
在操作s710，将第一transformer模型的编码器输出输入至第一transformer模型的解码器(decoder)，编码器输出包括第一分片图像特征和其余至少一个分片图像特征之间的关联关系。
[0086]
在操作s720，将第一transformer模型的解码器输出输入至分类检测模型，获得待检测图像中的至少一个目标。
[0087]
示例性地，分类检测模型可以包括faster r-cnn模型、ssd模型和yolo系列模型等，接收并处理多个解码器输出的特征并输入目标检测结果。
[0088]
在执行本公开实施例的目标检测方法之前，可以对目标检测模型进行训练，以将训练完成的目标检测模型用于如上图2～图7描述的目标检测方法的任一个实施例。下面通过图8展开描述。
[0089]
图8示意性示出了根据本公开实施例的目标检测模型的训练方法的流程图。
[0090]
如图8所示，该实施例的目标检测模型的训练方法包括操作s810～操作s850。
[0091]
在操作s810，对训练样本图像分片，获得m个分片图像，其中每个分片图像包括训
练样本图像的部分区域，m大于或等于2。
[0092]
示例性地，收集具有多种类型目标的训练样本图像，其中，每个训练样本包括单个训练样本图像和该图像中目标区域的标签。标签可以包括目标的种类和位置信息。n和m相同或不同。
[0093]
在操作s820，对m个分片图像提取特征，获得m个分片图像特征。
[0094]
在操作s830，将m个分片图像特征输入至m个transformer模型，其中每个transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系。
[0095]
在操作s840，根据m个transformer模型的输出获得训练样本图像中的至少一个预测目标。
[0096]
将m个transformer模型的输出作为分类检测模型的输入，得到一个或多个预测目标。预测目标可以包括预测目标框和预测类别，预测目标框由预测得到的目标区域位置信息确定。
[0097]
在操作s850，根据至少一个预测目标与训练样本图像对应的目标标签之间的损失函数值，更新目标检测模型的参数。
[0098]
参照图3和图4，在训练和使用过程中的目标检测模型的架构是相同的，区别在于使用时的目标检测模型具有经过训练过程确定的各个参数。损失函数可以包括类别损失部分和位置损失部分，可以包括交叉熵损失、平均绝对误差损失或均方误差损失等函数。可以将预测目标和目标标签的信息作为损失函数的输入，获得损失函数值，并利用反向传播算法更新模型参数，直至符合训练要求后结束。
[0099]
在一些实施例中，可以在训练时按照对分片图像的分片预设顺序，设置每个分片图像与每个transformer模型之间的对应关系。在训练过程中可以按照分片图像-特征提取网络-transformer模型之间的对应关系更新参数。另外，还会根据目标检测结果更新分类检测模型中的参数。使用过程中，在输入分类检测模型之前，对待检测图像进行分片、提取分片图像特征和建立像素间关联关系的处理，令分类检测模型可以输出更准确的预测结果。
[0100]
基于上述目标检测方法、目标检测模型的训练方法，本公开还提供了一种目标检测装置、目标检测模型的训练装置。以下将结合图8对该装置进行详细描述。
[0101]
图9示意性示出了根据本公开实施例的目标检测装置的结构框图。
[0102]
如图9所示，该实施例的目标检测装置900包括第一分片模块910、第一提取模块920、第一输入模块930、第一目标模块940。
[0103]
第一分片模块910可以执行操作s210，用于将待检测图像分片，获得n个分片图像，其中每个分片图像包括待检测图像的部分区域，n大于或等于2。
[0104]
第一提取模块920可以执行操作s220，用于对n个分片图像提取特征，获得n个分片图像特征。
[0105]
第一输入模块930可以执行操作s230，用于将n个分片图像特征输入至n个transformer模型，其中每个transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系。
[0106]
根据本公开的实施例，第一输入模块930可以执行操作s510～操作s520，操作s610
～操作s640，在此不做赘述。
[0107]
根据本公开的实施例，目标检测装置900还可以包括对应关系模块，用于在将n个分片图像特征输入至n个transformer模型之前，根据预设顺序设置n个分片图像与n个transformer模型之间的对应关系，其中，n个分片图像按照预设顺序对待检测图像进行分片获得。
[0108]
第一目标模块940可以执行操作s240，用于根据n个transformer模型的输出获得待检测图像中的至少一个目标。
[0109]
根据本公开的实施例，第一目标模块940可以执行操作s710～操作s720，在此不做赘述。
[0110]
目标检测装置900包括分别用于执行图2～图7所示的任意一些实施例的目标检测方法的各个步骤的模块。
[0111]
图10示意性示出了根据本公开实施例的目标检测模型的训练装置的结构框图。
[0112]
如图10所示，该实施例的目标检测模型的训练装置1000包括第二分片模块1010、第二提取模块1020、第二输入模块1030、第二目标模块1040和模型训练模块1050。
[0113]
第二分片模块1010可以执行操作s810，用于对训练样本图像分片，获得m个分片图像，其中每个分片图像包括训练样本图像的部分区域，m大于或等于2。
[0114]
第二提取模块1020可以执行操作s820，用于对m个分片图像提取特征，获得m个分片图像特征。
[0115]
第二输入模块1030可以执行操作s830，用于将m个分片图像特征输入至m个transformer模型，其中每个transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系。
[0116]
第二目标模块1040可以执行操作s840，用于根据m个transformer模型的输出获得训练样本图像中的至少一个预测目标。
[0117]
模型训练模块1050可以执行操作s850，用于根据至少一个预测目标与训练样本图像对应的目标标签之间的损失函数值，更新目标检测模型的参数。
[0118]
需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。
[0119]
根据本公开的实施例，目标检测装置900或目标检测模型的训练装置1000中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。
[0120]
根据本公开的实施例，目标检测装置900或目标检测模型的训练装置1000中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，目标检测装置900或目标检测模型的训练装置1000中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
[0121]
图11示意性示出了根据本公开实施例的适于实现目标检测方法或目标检测模型的训练方法的电子设备的方框图。
[0122]
如图11所示，根据本公开实施例的电子设备1100包括处理器1101，其可以根据存储在只读存储器(rom)1102中的程序或者从存储部分1108加载到随机访问存储器(ram)1103中的程序而执行各种适当的动作和处理。处理器1101例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(asic))等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0123]
在ram 1103中，存储有电子设备1100操作所需的各种程序和数据。处理器1101、rom 1102以及ram 1103通过总线1104彼此相连。处理器1101通过执行rom 1102和/或ram 1103中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除rom 1102和ram 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0124]
根据本公开的实施例，电子设备1100还可以包括输入/输出(i/o)接口1105，输入/输出(i/o)接口1105也连接至总线1104。电子设备1100还可以包括连接至i/o接口1105的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至i/o接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
[0125]
本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。
[0126]
根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的rom 1102和/或ram 1103和/或rom 1102和ram1103以外的一个或多个存储器。
[0127]
本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的方法。
[0128]
在该计算机程序被处理器1101执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0129]
在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储
介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1109被下载和安装，和/或从可拆卸介质1111被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
[0130]
在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0131]
根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java，c++，python，“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0132]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0133]
本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0134]
以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐月标王鹏培孙才婵叶泽锐
技术所有人：中国工商银行股份有限公司
我是此专利的发明人

上一篇：视频会议控制方法、装置及存储介质与流程
上一篇：吹风机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。