图像识别方法、装置、设备、介质及程序产品与流程

文档序号：25588445发布日期：2021-06-22 17:04阅读：115来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请实施例涉及计算机领域，具体涉及自然语言处理、计算机视觉、深度学习等人工智能领域，尤其涉及一种图像识别方法、装置、设备、介质及程序产品。

背景技术：

近些年，随着人工智能(artificialintelligence，ai)技术的飞速发展，极大地提升了人民生活的智能化。总的来说，ai要解决的是两类问题：分类和位置回归：既要对目标图像进行分类，也要对对象在目标图像中的位置坐标进行回归。

目前，通过一个卷积层实现对目标图像的分类和目标图像的位置回归。

技术实现要素：

本申请实施例提出了一种图像识别方法、装置、设备、介质及程序产品。

第一方面，本申请实施例提出了一种图像识别方法，包括：获取目标图像；将目标图像输入预先训练的目标检测模型的骨干网络层中，得到目标图像的图像特征；将图像特征输入目标检测模型的全连接网络层中，得到目标图像对应的图像类别；将图像特征输入目标检测模型的卷积网络层中，得到目标图像中的对象在其上的位置信息。

第二方面，本申请实施例提出了一种图像识别装置，包括：图像获取模块，被配置成获取目标图像；第一得到模块，被配置成将目标图像输入预先训练的目标检测模型的骨干网络层中，得到目标图像的图像特征；第二得到模块，被配置成将图像特征输入目标检测模型的全连接网络层中，得到目标图像对应的图像类别；第三得到模块，被配置成将图像特征输入目标检测模型的卷积网络层中，得到目标图像中的对象在其上的位置信息。

第三方面，本申请实施例提出了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面描述的方法。

第四方面，本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面描述的方法。

第五方面，本申请实施例提出了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面描述的方法。

本申请实施例提供的图像识别方法、装置、设备、介质及程序产品，首先获取目标图像；之后将目标图像输入预先训练的目标检测模型的骨干网络层中，得到目标图像的图像特征；然后将图像特征输入目标检测模型的全连接网络层中，得到目标图像对应的图像类别；最后将图像特征输入目标检测模型的卷积网络层中，得到目标图像中的对象在其上的位置信息。能够利用目标检测模型中的全连接网络层，得到目标图像的图像类别，以及利用目标检测模型中的卷积网络层，得到目标图像中对象在其上的位置信息，从而可以将分类和位置回归拆分成两个独立的个体，进而可以显著地提高图像识别的精度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的图像识别方法的一个实施例的流程图；

图3是根据本申请的yolo模型的示意图；

图4是根据本申请的图像识别方法的另一个实施例的流程图；

图5是根据本申请的图像识别方法的应用场景图；

图6是本申请的训练目标检测模型的一个实施例的流程图；

图7是根据本申请的图像识别装置的一个实施例的结构示意图；

图8是用来实现本申请实施例的图像识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的图像识别方法或图像识别装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送视频帧等。终端设备101、102、103上可以安装有各种客户端应用，例如新闻类应用、网页浏览器应用、搜索类应用、图像处理类应用等等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以提供各种服务。例如，服务器105可以对终端设备101、102、103上显示的视频进行分析和处理，并生成处理结果(例如在适当时刻插入弹幕的视频)。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的图像识别方法可以由终端设备101、102、103执行，也可以由服务器105执行。

还需要说明的是，终端设备101、102、103的本地可以存储有训练完成的目标检测模型。此时示例性系统架构100可以不存在网络104和服务器105。

还需要说明的是，服务器105的本地也可以存储有目标图像，服务器105还可以从终端设备101、102、103上获取目标图像，服务器105可以从本地获取目标图像。此时示例性系统架构100可以不存在终端设备101、102、103和网络104。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的图像识别方法的一个实施例的流程200。该图像识别方法包括以下步骤：

步骤201，获取目标图像。

在本实施例中，图像识别方法的执行主体(例如图1所示的服务器105)可以从本地或终端设备(例如图1所示的终端设备101、102、103)可以目标图像；或，图像识别方法的执行主体(例如图1所示的客户端101、102、103)从本地或通过拍摄装置，例如摄像头，获取目标图像。其中，目标图像可以包括文字、动画、图片等；目标图像可以为视频中的一帧或几帧图像，目标图像可以为单张图片。

步骤202，将目标图像输入预先训练的目标检测模型的骨干网络层中，得到目标图像的图像特征。

在本实施例中，上述执行主体可以将目标图像输入预先训练的目标检测图像的骨干网络层中，得到目标图像的图像特征。上述目标检测模型可以包括深度学习网络(deeplearningnetwork，dln)，例如，卷积神经网络(convolutionalneuralnetwork，cnn)。在这里，上述目标检测模型通常可以包括骨干网络层、全连接网络层和卷积网络层。上述骨干网络层可以用于从上述目标图像中提取图像特征；例如，vgg(visualgeometrygroup)、resnet(residualneuralnetwork)、特征金字塔网络(featurepyramidnetwork，fpn)等。

在这里，目标图像的图像特征可以包括：图像类别特征和位置信息特征。上述图像类别特征可以包括用于判定图像类别的所有特征，该图像类别特征可以用于确定目标图像的图像类别。上述位置信息特征可以包括用于包括判定对象在目标图像上的位置信息的所有特征，该位置信息特征可以用于确定对象在目标图像上的位置信息。

需要说明的是，图像特征包括图像类别特征和位置信息信息是一个示例，在本申请中图像特征不限于图像类别特征和位置信息特征，在此不再赘述。

在一个具体的示例中，骨干网络层可以为fpn层，可以利用fpn层将目标图像进行特征提取，得到目标图像的图像特征中的对象所属的类别特征和对象的位置信息特征。

步骤203，将图像特征输入目标检测模型的全连接网络层中，得到目标图像对应的图像类别。

在本实施例中，上述执行主体可以将目标图像的图像特征输入目标检测网络的全连接网络层中，得到目标图像对应的图像类别。上述全连接网络层可以用于确定目标图像的图像类别。

在这里，图像类别可以为确定目标图像中的对象所属的类别；例如，对象所属的类别为人物，那么目标图像的类别为人物；例如，对象所属的类别为女生，那么目标图像的类别为女生；例如，对象所属的类别为背景(例如，山、水、云、雾等)，那么目标图像的类别为背景。

在一个具体的示例中，上述执行主体可以将目标图像的图像特征中的图像类别特征输入目标检测网络的全连接网络层中，得到目标图像对应的图像类别。

在一个具体的示例中，图像类别可以为置信度，在置信度满足预设置信度阈值时，确定目标图像的具体类别。上述预设置信度阈值可以由类别识别精度进行设置或由人工设置。

步骤204，将图像特征输入目标检测模型的卷积网络层中，得到目标图像中的对象在其上的位置信息。

在本实施例中，上述执行主体可以将图像特征输入上述目标检测模型的卷积网络层中，得到目标图像中的对象在其上的位置信息。上述卷积网络层可以用于确定对象在目标图像中的位置信息。

在这里，位置信息可以为目标图像上的任意位置；例如，正中间。上述对象可以包括生物、文字、表情包、图标、图片(例如，背景等)等。

在一个具体的示例中，上述执行主体可以将目标图像的图像特征中的位置信息特征输入目标检测网络的卷积网络层中，得到目标图像中的对象在其上的位置信息。

在一个具体的示例中，对象在目标图像上的位置信息可以为对象所在的锚框的几何中心；例如，锚框的中点(规则的锚框)在目标图像上的坐标为对象在目标图像上的位置信息。

需要说明的是，步骤203与步骤204的执行顺序可以为：先执行步骤204，再执行步骤203；或，先执行步骤203，再执行步骤204；或，同时执行步骤203和步骤204。

本申请实施例提供的图像识别方法，首先获取目标图像；之后将目标图像输入预先训练的目标检测模型的骨干网络层中，得到目标图像的图像特征；然后将图像特征输入目标检测模型的全连接网络层中，得到目标图像对应的图像类别；最后将图像特征输入目标检测模型的卷积网络层中，得到目标图像中的对象在其上的位置信息。能够利用目标检测模型中的全连接网络层，得到目标图像的图像类别，以及利用目标检测模型中的卷积网络层，得到目标图像中对象在其上的位置信息，从而可以将分类和位置回归拆分成两个独立的个体，进而可以显著地提高图像识别的精度。

本申请实施例提供的图像识别方法，步骤203所述的全连接网络层可以包括：至少一个全连接层，其中，骨干网络层与至少一个全连接层中的第一个全连接层的一端连接，至少一个全连接层依次连接，至少一个全连接层中的最后一个全连接层的一端与卷积神经网络层连接。

需要说明的是，全连接层的数量可以根据图像识别精度和/或设备灵敏度确定。

在本实现方式中，可以通过至少一个全连接层实现对目标图像的分类。

在本实施例的一些可选的实现方式中，步骤204所述的卷积网络层可以包括：至少一个卷积网络层，其中，骨干网络层与至少一个卷积层中的第一个卷积层的一端，至少一个卷积层依次连接，至少一个卷积层中的最后一个卷积层的一端与全连接网络层连接。

在这里，目标识别模型可以包括：骨干网络层、至少一个全连接层和至少一个卷积层；或，骨干网络层、全连接网络层和至少一个卷积层；或，骨干网络层、至少一个全连接层和卷积网络层。

在一个具体的示例中，卷积网络层可以为：fcn(fullyconvolutionalnetworks，全卷积网络)层，该fcn层可以包括卷积层和池化层。

需要说明的是，卷积层可以为线性卷积层，且卷积层的数量可以根据图像识别精度和/或设备灵敏度确定。

在本实现方式中，可以通过至少一个卷积层实现对目标图像中对象的位置回归。

在本实施例的一些可选的实现方式中，目标检测模型可以为yolo(youonlylookonce)模型。

在本实现方式中，目标检测模型可以为yolov1模型、yolov2模型、yolov3模型、yolov4模型等。

在一个具体的示例中，在图3中，yolo模型可以包括输入层31、骨干网络层32、全连接层33和卷积层34；其中，输入层31可以用于输入目标图像；骨干(backbone)网络层32可以用于提取目标图像的特征，得到目标图像的图像特征；全连接层33可以用于得到目标图像对应的图像类别；卷积层34可以用于得到目标图像中的对象在其上的位置信息。其中，全连接层33的数量可以为两个。

在本实现方式中，由于yolo模型中的全连接层的输入参数一般是固定的；在对图像识别过程中，由于图像的尺寸并不是固定的，为了保证yolo模型识别图像的精度，需要进行以下处理，以使图像的尺寸信息与全连接层的输入参数一致：

可以预先将图像的尺寸信息进行预处理，以使预处理后的图像的尺寸信息与全连接层的输入参数一致；或调整全连接层的输入参数，以使调整后的参数与图像的尺寸信息一致。

在本实现方式中，可以通过yolo模型实现对目标图像的图像类别和对象在其上的位置信息的识别。

进一步参考图4，图4示出了根据本申请的图像识别方法的一个实施例的流程400。该图像识别方法包括以下步骤：

步骤401，获取目标图像。

步骤402，将目标图像输入预先训练的目标检测模型的骨干网络层中，得到目标图像的图像特征。

步骤403，将图像特征输入目标检测模型的全连接层中，得到目标图像对应的图像类别。

在本实施例中，上述执行主体可以将目标图像输入目标检测网络的全连接层中，得到目标图像对应的图像类别。上述全连接层可以用于确定目标图像的图像类别。

步骤404，将图像特征输入目标检测模型的卷积层中，得到目标图像中的对象在其上的位置信息。

在本实施例中，上述执行主体可以将图像特征输入上述目标检测模型的卷积层中，得到目标图像中的对象在其上的位置信息。上述卷积层可以用于确定对象在目标图像中的位置信息。

在这里，位置信息可以为目标图像上的任意位置；例如，正中间。上述对象可以包括生物、文字、表情包、图标、图片(例如，背景等)等。

在本实施例中，步骤401-402的具体操作已在图2所示的实施例中步骤201-202进行了详细的介绍，在此不再赘述。

从图4中可以看出，与图2对应的实施例相比，本实施例中的图像识别方法突出了对目标图像分类和确定对象在目标图像上的位置信息的步骤。由此，本实施例描述的方案可以将目标图像输入预先训练的目标检测模型的骨干网络层中，得到目标图像的图像特征；然后将图像特征输入目标检测模型的全连接层中，得到目标图像对应的图像类别；最后将图像特征输入目标检测模型的卷积层中，得到目标图像中的对象在其上的位置信息。能够利用目标检测模型中的全连接层，得到目标图像的类别，以及利用目标检测模型中的卷积层，得到目标图像中对象在其上的位置信息，从而可以将分类和位置回归拆分成两个独立的个体，进而可以显著地提高图像识别的精度。

为了便于理解，下面提供可以实现本申请实施例的图像识别方法的应用场景。以服务器(例如图1所示的服务器105)从终端设备(例如图1所示的终端设备101、102、103)获取目标图像为示例。在图5所示中，服务器502接收到终端设备501发送的目标图像503；之后，可以将目标图像503输入预先训练的目标检测模型的骨干网络层504中，得到目标图像的图像特征505；之后，可以将目标图像的图像特征505输入到上述目标检测模型的全连接网络层506中，得到目标图像的图像类别507；而后，将目标图像的图像特征505输入到上述目标检测模型的卷积网络层508中，得到目标图像中的对象在其上的位置信息509，其中，骨干网络层504分别与全连接网络层506和卷积网络层508连接。

进一步参考图6，图6是根据本申请的图像识别方法中训练目标检测模型的一个实施例的流程600。如图6所示，本实施例中，训练目标检测模型的训练步骤包括：

步骤601，获取训练样本集，其中，训练样本集中的训练样本包括样本图像和对应的样本信息标签。

在本实施例中，训练步骤的执行主体可以与图像识别方法的执行主体相同或者不同。如果相同，则训练步骤的执行主体可以在训练得到目标检测模型后将训练好的目标检测模型的模型结构信息和模型参数的参数值存储在本地。如果不同，则训练步骤的执行主体可以在训练得到目标检测模型后将训练好的目标检测模型的模型结构信息和模型参数的参数值发送给图像识别方法的执行主体。

在本实施例中，训练步骤的执行主体可以通过多种方式来获取训练样本集。例如，可以通过有线连接方式或无线连接方式，从数据库服务器中获取存储于其中的训练样本集。再例如，可以通过终端设备(例如图1所示的终端设备101、102、103)来收集训练样本集。上述训练样本集中的训练样本可以包括样本图像和对应的样本信息标签。上述样本图像可以为单张图片或视频中的一帧或几帧图像。上述样本信息标签可以用于标注样本图像，例如，样本信息标签可以包括样本位置信息标签和/或样本图像类别标签，其中，样本位置信息标签可以用于标注在样本图像中的对象在其上的位置信息，样本图像类别标签可以用于标注样本图像的图像类别。

步骤602，将样本图像作为目标检测模型的输入，将样本信息标签作为目标检测模型的输出，训练初始模型，得到目标检测模型。

本实施例中，上述执行主体在得到样本图像，以及样本信息标签后，可以利用样本图像和样本信息标签训练初始模型，得到目标检测模型。在训练时，执行主体可以将样本图像作为目标检测模型的输入，以及将所输入对应的样本信息标签，作为期望输出，得到目标检测模型。上述初始模型可以为现有技术或未来发展技术中的概率模型、分类模型或者其他分类器等，例如，初始模型可以包括以下任意一项：极端梯度提升树模型(xgboost)、逻辑斯蒂回归模型(lr)、深度神经网络模型(dnn)、梯度提升决策树模型(gradientboostingdecisiontree，gbdt)。

本申请实施例提供的方法，基于样本图像和样本信息标签进行训练，得到目标检测模型，从而实现对样本图像的图像类别和/或对象在其上的位置信息的准确识别。

在本实施例的一些可选的实现方式中，将样本图像作为目标检测模型的输入，将样本信息标签作为目标检测模型的输出，训练初始模型，得到目标检测模型，包括：针对训练样本集中的训练样本，并执行以下训练步骤：将训练样本的样本图像输入初始模型的骨干网络层中，得到样本图像的图像特征；将样本图像的图像特征输入目标检测模型的全连接网络层中，得到样本图像类别；将样本图像的图像特征输入目标检测模型的卷积网络层中，得到样本位置信息；基于样本图像类别和样本位置信息，生成样本图像的图像信息；基于样本图像的图像信息和样本信息标签，确定总损失函数值；响应于总损失函数值满足目标值，将初始模型作为目标检测模型；响应于总损失函数值不满足目标值，继续执行训练步骤。经过多次迭代，直至训练出目标检测模型为止。

在本实现方式中，训练步骤的执行主体可以将训练样本集中的训练样本输入到初始模型的骨干网络层中。通过对训练样本的样本图像进行特征提取，可以得到样本图像的图像特征。在这里，初始模型通常包括骨干网络层、全连接网络层和卷积网络层。初始模型的骨干网络层可以用于从样本图像中提取特征。初始模型的全连接网络层可以用于确定样本图像的图像类别。初始模型的卷积网络层可以用于确定样本图像中对象在其上的位置信息。

在这里，初始模型可以是基于机器学习技术而创建的现有的各种神经网络模型。该神经网络模型可以具有现有的各种神经网络结构(例如vggnet(visualgeometrygroupnetwork)、resnet(residualneuralnetwork)等)。

在本实现方式中，训练步骤的执行主体可以将样本图像的图像特征输入初始模型的全连接网络层中，得到样本图像类别。初始模型的全连接网络层可以用于将样本图像的图像特征输入初始模型的卷积网络层中，得到样本位置信息。

在本实施例中，损失函数通常是用来估量模型的预测值与真实值(如键值对标签)的不一致程度。一般情况下，损失函数值越小，模型的鲁棒性就越好。损失函数可以根据实际需求来设置。例如，上述损失函数可以包括交叉熵损失函数。

在本实现方式中，训练步骤的执行主体可以将总损失函数值与预设的目标值进行比较，根据比较结果确定初始模型是否训练完成，若总损失函数值满足预设的目标值，训练步骤的执行主体可以将上述初始模型确定为目标检测模型。上述目标值一般可以用于表示预测值与真实值之间的不一致程度。也就是说，当总损失函数值达到目标值时，可以认为预测值接近或近似真值。目标值可以根据实际需求来设置。

在本实现方式中，训练步骤的执行主体可以在总损失函数值不满足目标值，继续执行上述的训练步骤。

在本实现方式中，利用初始模型的骨干网络层，得到样本图像的图像特征；之后，基于初始模型的全连接网络层和卷积网络层，可以得到样本图像类别和样本位置信息；然后，基于样本图像类别和样本位置信息，可以生成样本图像的图像信息；然后，可以基于样本图像的图像信息和样本信息标签，确定总损失函数值；最后，可以基于总损失函数值和目标值，来实现对初始模型的训练，以得到目标检测模型，从而实现对目标图像中的图像信息包括的图像类别和位置信息的准确识别。

本申请的上述实施例提供的方法通过总损失函数值与目标值的比较结果确定初始模型是否训练完成，当总损失函数值达到目标值时，可以认为预测值接近或近似真值，此时，可以将初始模型确定为目标检测模型。通过这种方式所生成的模型的鲁棒性较高。

在本实施例的一些可选的实现方式中，样本信息标签可以包括：样本图像类别标签和/或样本位置信息标签。

在本实现方式中，样本图像类别标签可以用于标注样本图像的图像类别；样本位置信息标签可以用于标注在样本图像中对象在其上的位置信息。

在本实现方式中，可以通过样本图像类别标签和/或样本位置信息标签实现对图像的准确识别。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种图像识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的图像识别装置700可以包括：图像获取模块701、第一得到模块702、第二得到模块703和第三得到模块704。其中，图像获取模块701，被配置成获取目标图像；第一得到模块702，被配置成将目标图像输入预先训练的目标检测模型的骨干网络层中，得到目标图像的图像特征；第二得到模块703，被配置成将图像特征输入目标检测模型的全连接网络层中，得到目标图像对应的图像类别；第三得到模块704，被配置成将图像特征输入目标检测模型的卷积网络层中，得到目标图像中的对象在其上的位置信息。

在本实施例中，图像识别装置700中：图像获取模块701、第一得到模块702、第二得到模块703和第三得到模块704的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明，在此不再赘述。其中，第一得到模块、第二得到模块和第三得到模块可以是相同的模块，也可以是不同的模块。

在本实施例的一些可选的实现方式中，全连接网络包括至少一个全连接层。

在本实施例的一些可选的实现方式中，卷积网络包括至少一个卷积网络层。

在本实施例的一些可选的实现方式中，目标检测模型为：yolo模型。

在本实施例的一些可选的实现方式中，该图像识别装置还包括：样本获取模块(图中未示出)，被配置成获取训练样本集，其中，训练样本集中的训练样本包括样本图像和对应的样本信息标签；模型训练模块(图中未示出)，被配置成将样本图像作为目标检测模型的输入，将样本信息标签作为目标检测模型的输出，训练初始模型，得到目标检测模型。

在本实施例的一些可选的实现方式中，样本信息标签包括：样本图像类别标签和/或样本位置信息标签。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序，来执行各种适当的动作和处理。在ram803中，还可存储设备800操作所需的各种程序和数据。计算单元801、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。

设备800中的多个部件连接至i/o接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如图像识别方法。例如，在一些实施例中，图像识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram803并由计算单元801执行时，可以执行上文描述的图像识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

人工智能是研究计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语音处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王学占
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种骨折用单边复位支架的制作方法
上一篇：一种预防冠状病毒感染的益生酸奶及制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。