基于边缘计算的场景自适应目标识别人工智能方法及系统与流程

文档序号：21104091发布日期：2020-06-16 21:06阅读：257来源：国知局

本发明涉及边缘计算技术，具体而言涉及一种基于边缘计算的场景自适应目标识别人工智能方法及人工智能系统。

背景技术：

近年来，基于深度学习技术的目标识别算法层出不穷，并且广泛应用于人脸识别、行人重识别等领域。以人脸识别为例，从较老的facenet到较新的insightface等，基于公开数据集进行训练（如megaface）和测试（如lfw）的人脸识别算法性能在不断提高，早已超过人类的水平。然而，这些基于公开数据集进行训练和测试的人脸识别模型往往在实际使用过程中会存在着不同程度的精度下降。这通常是因为实际部署场景的光照条件、模糊程度、镜头角度等条件和公开的训练集相差较大而人脸识别的鲁棒性不足导致的。同理，行人重识别等其他目标识别应用也会面临同样的问题。为了提升实际场景下目标识别的精度，较常见的做法是静态地采集部署场景中的真实目标数据，标注后对模型进行调优训练，这种方法会导致诸多问题，如数据的采集和标注相对困难，需要较多的人力物力，而且收集公共场景的数据会涉及隐私安全的问题。

技术实现要素：

因此，本发明提供了一种基于边缘计算的自适应目标识别人工智能方法和人工智能系统，它能够自动地从摄像头实时采集的实际场景视频中提取目标和生成训练数据对模型进行微调，而不需要人为参与，我们称之为在线学习。

本发明提供的一种基于边缘计算的自适应目标识别人工智能方法，包括：

使用大规模的数据集对模型进行预训练；

获取视频中目标的追踪序列；

对所述追踪序列进行特征提取，得到数据特征；

根据所述数据特征，生成一系列微调训练用的三元组；

根据所生成的一系列三元组，对模型进行微调训练。

在一种可选方式中，所述追踪序列是指视频中同一个目标的所有视频帧中的外接框序列。

这里所描述的目标指视频中的运动物体，包括：例如人脸、行人或其身体的一部分。

根据所述数据特征，生成一系列微调训练用的三元组包括：

在追踪序列中选定一个目标作为锚点样本；

在与锚点样本同一个目标的追踪序列中找出数据特征中特征向量与锚点样本距离最远的目标，作为正样本；

在锚点样本所在的同一帧画面中找到数据特征中特征向量与锚点样本距离最近的目标，作为负样本；

所述锚点样本图片、正样本图片、负样本图片形成一组三元组。

本发明实施例还提供一种基于边缘计算的自适应目标识别人工智能系统，包括：云服务器；边缘服务器；边缘设备。其中：

所述云服务器，用于使用大规模的数据集进行模型的预训练，得到预训练好的模型通过网络传输给边缘服务器；所述边缘服务器，用于目标识别和在线的模型微调，边缘服务器是分布式的，每个边缘服务器负责一个或多个场景的目标识别和对预训练好的模型进行微调；所述边缘设备，用于实时目标检测和对齐以及目标追踪，并将采集的目标的数据传输到与之相连的边缘服务器上。

本发明实施例还提供了一种资源调度方法，用于所述边缘服务器层的目标识别和在线的模型微调功能的资源调度，以达到更低的网络延迟和更高的微调效率。

该系统可以适用于多种基于特征提取-比对原理的目标识别应用，而且通过优化设计的边缘计算技术，可以达到较低的识别延迟，数据在本地产生和使用的过程也可以较好地保护隐私。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的人工智能方法的流程图。

图2是根据本发明实施例的三元组生成方法示意图。

图3是根据本发明实施例的人工智能系统的架构示意图。

图4是根据本发明实施例的资源调度方法示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面参考附图描述本发明的具体实施例。

首先介绍一下目标识别原理：在目标识别算法中，神经网络学习一种映射的能力，可以将输入的目标（例如人脸、行人或其身体的一部分的截取图）映射成高维空间内的向量，通过比对输出的向量间的距离（欧式距离、角度距离等等，根据算法决定）来判断输入的目标是否属于同一个目标。以较常见的人脸识别为例，在训练的时候通常是在网络后面接一个基于softmax的损失函数，如常用的angular-softmax函数，将人脸识别训练视为一个大型的分类任务，在分类训练的过程中学习一种有效的映射。也有不基于分类，而直接基于尺度学习的损失函数，如triplet-loss函数，直接通过生成的三元对的训练让相同目标的人脸在欧式空间内的映射向量距离更近，而不同目标的人脸距离更远。与人脸识别的流程类似，其他的目标识别应用也可以基于“特征提取-比对”这一方式。实际使用过程中，事先建立一个数据库，存放需要进行比对的目标物体图片，并预先使用训练好的神经网络提取特征向量，当输入待查询目标时，提取特征向量并与数据库中的目标物体特征向量比对，计算距离。当数据库中存在某个目标物体的特征向量与带查询目标物体的特征向量距离小于一定的阈值时认为二者是同一个目标，并输出id（身份）信息，否则查询失败。

基于公开数据集进行训练和测试的人脸识别模型往往在实际使用过程中会存在着不同程度的精度下降。这通常是因为实际部署场景的光照条件、模糊程度、镜头角度等条件和公开的训练集相差较大，而人脸识别的鲁棒性不足导致的。同理，行人重识别等其他目标识别应用也会面临同样的问题。为了提升实际场景下目标识别的精度，较常见的做法是静态地采集部署场景中的目标的数据，标注后对模型进行调优训练，这种方法会导致诸多问题，如数据的采集和标注相对困难，需要较多的人力物力，而且收集公共场景的数据会涉及隐私安全的问题。所以，本发明实施例提出了基于边缘计算的自适应目标识别人工智能方法、人工智能系统及资源调度方法。

图1是根据本发明实施例的人工智能方法的流程图。如图1所示，该人工智能方法包括：步骤s101，使用大规模的数据集对模型进行预训练；步骤s102，获取视频中目标的追踪序列；步骤s103，对追踪序列进行特征提取，得到数据特征；步骤s104，根据数据特征，生成微调训练用的三元组；步骤s105，根据三元组，对模型进行微调训练。

本发明实施例的目标是在目标（例如人脸、人体或其身体的一部分）识别运行过程中自动地使用各自场景的目标物体的数据对模型进行模型微调。为了避免人为标注数据，本发明实施例提出了一种无监督的数据生成和训练的流程。在软件抽象层面上，本发明实施例把整套系统分为5个模块来实现。在与步骤s101对应的模块中，使用大规模公开数据集对模型进行预训练。在与步骤s102对应的模块中，从本地摄像头采集的视频序列中检测到的目标，并通过追踪算法生成不同目标物体的追踪序列。本发明实施例中，追踪序列可以理解为视频中同一个目标的所有视频帧中的外接框序列。在与步骤s103对应的模块中，将目标物体的追踪序列输入模型，抽取特征向量并识别出id信息。在与步骤s104对应的模块中，根据目标物体追踪序列提取的特征生成微调训练用的三元组，在与步骤s105对应的模块中，使用三元组进行模型微调训练。

图2是根据本发明实施例的三元组生成方法示意图。如图2所示，生成微调训练用的三元组的方法包括：步骤s201，在追踪序列中选定一个目标作为锚点样本；步骤s202，在与锚点样本同一个目标的追踪序列中找出数据特征中特征向量与锚点样本最远的目标，作为正样本；步骤s203，在锚点样本所在的同一帧画面中找到数据特征中特征向量与锚点样本最近的目标，作为负样本；所述锚点样本图片、正样本图片、负样本图片形成一组三元组。

类似facenet中使用标注的数据集生成三元组来进行模型训练，本发明实施例无监督地从实际场景视频中生成三元组来进行模型微调。所谓三元组，是指这样的一组三张的包含目标物体的图片：锚点样本是任意的目标物体图片，正样本和锚点样本属于同一个id，负样本和锚点样本属于不同的id，训练的时候使用triplet-loss来拉近锚点样本和正样本之间输出特征向量的距离，而增大锚点样本和负样本之间的特征向量距离。如图2所示，本发明实施例利用视频的时间和空间上的连续性，认为不同帧之间通过追踪得到的目标序列属于同一个id，而相同帧中不同位置的目标属于不同的id。通过这两个先验，本发明实施例可以从目标序列中生成许多的三元对。为了提高效率，在选定一个锚点样本后，本发明实施例在同一个序列中找出特征向量与之最远的目标，而在同一帧中找出特征向量距离最近的目标，形成三元对。

图3是根据本发明实施例的人工智能系统的架构示意图。如图3所示，基于边缘计算的自适应目标识别人工智能系统，包括云服务器s301、边缘服务器s302和边缘设备s303。云服务器s301用于使用大规模的数据集进行模型的预训练，预训练好的模型通过网络传输给边缘服务器；边缘服务器s302用于目标识别和在线的模型微调，边缘服务器是分布式的，每个边缘服务器负责一个或多个场景的目标识别和模型的在线微调；边缘设备s303用于实时目标检测和对齐以及目标追踪，并将采集的目标的数据传输到与之相连的边缘服务器上。边缘设备例如可以是智能摄像头。

为了高效地部署该无监督自适应目标识别流程，本发明实施例设计了三层的边缘计算系统。如图3所示，该系统分为三个部分，第一个部分负责使用大规模的公开数据集进行模型的预训练，部署在云端服务器上。第二部分负责目标识别和在线的模型微调，部署在为边缘服务器上。边缘服务器是分布式的，每个边缘服务器负责一个或多个场景的目标识别和模型的在线微调。预训练好的模型被通过网络发送到每个当地的边缘服务器，作为初始化的参数。在边缘服务器中，本发明实施例实现了相关调度算法来调度模型的前向和在线微调的资源占用，以在保证较低的前向延迟的同时提高微调训练的有效轮数。第三部分位于示意图的最底层，基于智能摄像头进行实时目标检测和对齐以及目标追踪任务，并将采集的目标的数据传输到与之相连的边缘服务器上。

图4是根据本发明实施例的资源调度方法示意图。如图4所示，该资源调度方法包括：步骤s401，获取目标识别任务；步骤s402，获取边缘服务器资源占用情况，包括目标识别任务和微调训练任务；步骤s403，判断边缘服务器是否繁忙；步骤s404，如果边缘服务器繁忙，则调小微调训练的批次（batch）；步骤s405，如果边缘服务器不繁忙，则调大微调训练的批次（batch）。该资源调度方法，用于所述边缘服务器的目标识别和在线的模型微调功能的资源调度，以达到更低的网络延迟和更高的微调效率。

考虑到在gpu服务器中，硬件资源是有限的，模型的微调会占用许多计算资源。本发明实施例需要首先保证较低的识别延迟，再寻求更高的微调效率。为了达到这个目的，本发明实施例设计了资源调度策略（contextaware），如图4所示，微调训练和目标识别前向运算属于两个不同的进程，占用同一个gpu硬件资源。由于实际场景中的目标数量通常随着时间变化而发生改变，当目标多的时候，边缘服务器调小微调训练的批次（batch），尽可能地将资源分配给目标识别计算，当目标少的时候，就可以调大微调训练的批次（batch），将资源尽可能分配给微调训练。通过动态的调度，在保证低识别延迟的同时增加微调训练效率。

本发明实施例通过gpu服务器和智能摄像头来验证系统的有效性。本发明实施例使用mobilenet、sphereface、resnet50三个常用的人脸识别网络进行验证，三个网络通过基于角度的的损失函数，使用pytorch深度学习框架在公开的大型数据集进行训练，并且在lfw数据集上达到很高的识别精度。系统的微调训练也是使用pytorch框架来实现。为了实验的可重复性考虑，本发明实施例使用实际采集的多个场景的视频代替实时场景视频作为输入，并且人工标注了一段视频作为测试集。实验证明在一段时间的无监督学习之后，人脸识别的准确率根据模型和场景的不同，有着明显的，不同程度的提升。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路（asic）、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom（erom）、软盘、cd-rom、光盘、硬盘、光纤介质、射频（rf）链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贾泽;周哲;吴肇瑜
技术所有人：北京潼荔科技有限公司
我是此专利的发明人

上一篇：一种用于码垛机的具有清除杂质的提取装置的制作方法
上一篇：一种通信处理方法、装置和计算设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。