数据标注方法及装置与流程

文档序号:26141526发布日期:2021-08-03 14:26阅读:232来源:国知局
数据标注方法及装置与流程

本发明涉及人工智能技术领域,尤其涉及数据标注方法及装置。



背景技术:

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

目前,人工智能算法训练需要大量的数据标注,传统的数据标注方法包含纯人工的标注方案以及基于监督学习算法+人工标注的半自动标注方案。纯人工的手工标注方案标注精度最高,但是存在人力成本高、效率低的劣势,人力成本高导致数据标注不具备大规模推广能力,效率低导致人工数据标注难以满足算法快速迭代的需求。基于监督学习算法+人工标注的半自动方案包括6个步骤,技术流程图如图1所示:

1、人工数据标注(算法模型冷启动):用人工标注的方式对原始数据进行标注,得到算法冷启动需要的训练数据集;

2、监督学习算法模型训练:基于标注好的训练数据集+神经网络算法模型进行模型训练,得到初版本的监督学习算法模型;

3、算法自动标注:基于训练好的算法模型对新的未标注的数据进行自动标注,生成自动标注结果;

4、人工校验&人工标注:基于人工校验的方式对于算法自动标注的数据进行校验,将错误标注的数据进行修正,对于算法无法自动标注的数据(算法未识别到的数据)进行人工补充标注;

5、全标签数据集:数据标注的最终结果;

6、模型迭代:基于全标签数据集重新训练算法模型,实现模型迭代。

该基于监督学习算法+人工标注的半自动方案在一些基础任务上可以做到一定程度的自动化标注,节省了部分人力成本并提高了效率,但是此类技术方案具有以下3个缺陷:

1)初版本算法模型成本高、效率低:监督学习算法的冷启动(初始神经网络模型)需要原始训练数据集,而原始训练数据集只能通过人工标注,这就需要大量的人工数据标注,冷启动成本高效率低;

2)算法模型迭代有效率低:监督学习算法能够自动标注的数据都是模型能够识别的简单场景数据,而模型迭代则需要模型无法正确识别的困难场景数据,对于算法改进需要的困难数据无法进行自动标注,因此自动标注出来的数据对于模型迭代作用很小甚至无作用;

3)算法模型泛化率差:算法模型是在训练集的数据分布中学习得到,绝大多数情况下没有场景泛化机制(例如域迁移机制),因此如果待标注数据特征分布不在训练数据集分布内,算法模型的识别效果会大幅降低,即监督学习算法对于训练数据覆盖不到的场景识别效果会大幅降低(例如场景的变化以及摄像头角度的大幅变化),场景泛化能力较差。



技术实现要素:

本发明实施例提供一种数据标注方法,用以现有技术中人工数据标注具有成本高、效率低的劣势,该方法包括:

利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱标签数据信息和伪标签数据信息;

对伪标签数据信息进行校验标注,获得修正后的弱标签数据信息;

对预设数量的弱标签数据信息进行标注,获得部分已标注数据;

基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;

对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;

对精品数据集进行数据补充,获得全标签数据集;

利用所述全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。

本发明实施例还提供一种数据标注装置,用以现有技术中人工数据标注具有成本高、效率低的劣势,该装置包括:

无监督冷启动标注模块,用于利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱标签数据信息和伪标签数据信息;

弱监督预标注模块,用于对伪标签数据信息进行校验标注,获得修正后的弱标签数据信息;对预设数量的弱标签数据信息进行标注,获得部分已标注数据,基于弱监督学习算法、弱标签数据信息和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;

半监督精标模块,用于对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;

校验和补充模块,用于对精品数据集进行数据补充,获得全标签数据集;

模型迭代模块,用于利用所述全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据标注方法。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述数据标注方法的步骤。

本发明实施例中,与现有技术中数据标注采用人工数据标注,导致成本高、效率低、场景泛化能力较差的技术方案相比,通过利用无监督学习算法进行冷启动,对修正后的弱标签数据信息进行初级分类,生成弱标签数据信息和伪标签数据信息;对伪标签数据信息进行校验标注,获得修正后的弱标签数据信息;对预设数量的弱标签数据信息进行标注,获得部分已标注数据,基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;对精品数据集进行数据补充,获得全标签数据集;利用所述全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法,可以大幅减少人工标注成本,并提高数据标注效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为基于监督学习算法+人工标注的数据标注技术流程图;

图2为本发明实施例中数据标注方法流程图;

图3为本发明实施例中基于无监督、弱监督和半监督的高效半自动数据标注方法流程图;

图4为本发明实施例中无监督冷启动标注步骤图;

图5为本发明实施例中无监督冷启动标注步骤的效果示意图;

图6为本发明实施例中弱监督预标注步骤的效果示意图;

图7为本发明实施例中半监督精标步骤图;

图8为本发明实施例中半监督精标步骤的效果示意图;

图9为本发明实施例中精品数据集补充步骤图;

图10为本发明实施例中数据标注装置结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

相关术语解释

无监督:基于无标注的原始训练数据解决模式识别中的各种问题。

弱监督:基于少数带标注的训练数据和大量弱标注数据解决模式识别中的各种问题。

半监督:基于少数带标注的训练数据和大量未标注数据解决模式识别中的各种问题。

无标签数据:没有进行标注的原始数据。

弱标签数据:带有简单标注信息的数据,标注信息例如简单的类别等。

伪标签数据:使用经过训练的模型来对无标签数据进行预测产生的标签。标签部分正确部分错误。

全标签数据:带有完整正确标注信息的数据。

基于上述的背景技术中提到的现状可以得出,目前人工智能行业内急需可靠的半自动数据标注技术来提高数据标注的效率,降低数据标注的成本。因此,基于目前的技术现状,本发明基于无监督(不标)、弱监督(少标)和半监督(精标)的技术思路提出了一种数据标注方法及装置。通过无监督学习、弱监督学习和半监督学习的有机结合大幅提高数据标注效率及精度,同时提升该技术方案相比已有方案的泛化能力。

本发明首先利用基于域迁移实现无监督学习算法,利用无监督学习算法对待标注数据进行冷启动标注,生成数据的弱标签及伪标签;接下来对伪标签进行修正并精细标注少量弱标签数据,基于弱监督学习算法对含有弱标签的数据进行预标注,生成部分真标签数据集及部分伪标签数据集;然后基于半监督精标技术选取数据中对模型训练效果提升最大的精品数据进行人工精标;最后用人工校验和人工标注的方法补充精品数据集的数量,形成全标签数据集。该全标签数据集可作为项目交付结果,同时也可以用于无监督学习、弱监督学习、半监督学习算法迭代,本发明具体步骤如图2和图3所示:

步骤201:利用无监督学习算法进行冷启动,对原始的无标签数据进行初级分类,生成弱标签数据信息和伪标签数据信息。

具体的,步骤201为无监督冷启动标注:此处改进主要解决冷启动成本高的缺陷。传统半自动标注算法冷启动需要大量人工标注:传统的半自动标注技术基于监督学习进行,冷启动所需要的所有数据均需人工标注。无监督学习的优势在于可以在不进行数据标注的前提下实现一定程度的识别功能。对于单一样本来说,虽然未标注的数据蕴含的信息比已标注的数据要少,但是大量无标注数据仍然可以提供大量有效的信息,用无监督学习做第一级预标注可以有效减少冷启动所需要的人力成本并加快标注效率。如图4所示,步骤201具体步骤如下:

步骤401:对原始的无标签数据进行特征提取,获得数据特征;

具体的,特征提取:利用自编码器实现特征提取,自编码器可以基于传统的机器学习或者深度学习算法实现。

步骤402:对所述数据特征进行数据白化,获得白化后的数据特征;

具体的,数据白化:数据白化操作主要用于去除数据的相关性,简化后续独立分量的提取过程,改善算法的收敛性,数据白化可以使用均值标准化或者主成分分析算法等公用算法进行。

步骤403:对所述白化后的数据特征进行分类,获得弱标签数据信息和伪标签数据信息。

具体的,特征分类:基于白化后的特征进行分类,将原始数据自动分成若干类别(包括弱标签和伪标签,分类正确的就是弱标签,错误的就是伪标签)。

步骤201完成了半自动标注的冷启动,通过无监督学习对原始数据进行了自动分类,产生了部分弱标签及伪标签信息。由于不需要进行大量人工数据标注,因此大幅减少冷启动的成本。本步骤效果图如图5所示。无监督学习无法进行精细的数据标注,但是可以进行弱标签(例如只计算出图片中是否存在人或者车,但不需给出人和车辆的位置)的标注,在该示例中,无监督学习可以给出图片中是否存在目标物的标签,目标物的类别包括但不限于车辆、行人等。

步骤202:对伪标签数据信息进行校验标注,获得修正后的弱标签数据信息。

步骤203:对预设数量的弱标签数据信息(包括步骤201中得到的弱标签数据信息和步骤202的得到的修正后的弱标签数据信息)进行标注,获得部分已标注数据。

步骤204:基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果。

具体的,步骤202至步骤204为弱监督预标注:此处改进仍是解决传统半自动标注技术人工标注量大的缺陷,本步骤对步骤201生成的伪标签信息进行人工确认,将伪标签转换为弱标签,然后基于弱监督学习算法+少量人工标注数据对其余弱标签数据进行预标注。具体步骤如下:

①对伪标签数据信息进行确认和转换,获得转换后的弱标签数据信息。即人工对步骤201种生成的伪标签类别赋值,获得真实的类别标签,并对部分伪标签数据进行校验,修正错误;

②在标签已知的基础上,人工标注小部分数据(弱标签数据信息);

③基于弱监督学习技术进行数据预标注。弱监督学习使用大量的弱标注数据,同时使用小部分已标注数据,来训练机器学习模型。它预期的结果是通过对大量弱标注数据的利用,得到的模型优于单纯只用已标注的少量数据训练的模型。弱标签数据的数据标注难度较小,效率较高。比如在目标检测任务中,通常需要标注目标的类别和坐标,弱标注数据则只需标注出图像中的目标类别,没有坐标信息即可。而步骤201中已经获得大量只有目标类别(弱标签),没有坐标信息的数据,步骤②中已经获得小部分已标注数据。因此在此步骤中可以基于步骤201和步骤②的结果,利用弱监督学习技术对其他数据进行预标注,生成预标注结果。

在步骤201的基础之上基于弱监督学习技术实现了具体任务数据的预标注功能,标注过程中虽然有人工参与,但是人工参与标注的都是弱标签信息,标注难度低而且标注数量少,整体上可以大幅降低人力成本并提高效率。本步骤效果图如图6所示,本步骤在无监督给出的弱标签(图像中是否存在人或者车)的基础上进行行人车辆的位置预测,其中有部分目标位置预测准确,部分目标位置预测不准确。

步骤205:对预标注结果进行半监督学习算法的样本筛选,获得精品数据集。

具体的,步骤205为半监督精标:本步骤主要解决传统半自动数据标注方法模型迭代有效率低的缺陷,传统半自动标注算法模型基于模型自动标注+人工校验的结果数据集进行迭代。一个现实情况是,数据集中的不同样本对模型迭代的帮助效果不同,不加筛选全部用于模型训练首先会大幅降低模型训练的效率,其次垃圾数据的过多也会导致模型训练效果不佳,更严重的是垃圾数据同样进行了标注,导致了人力成本的大量浪费。本步骤基于步骤204中的预标注结果进行了基于半监督学习的样本筛选功能,自动选取对模型迭代帮助较大的精品样本进行精标,以最小的人力成本代价获得最大的收益。具体步骤如图7所示:

步骤701:对预标注结果进行校验,若校验出存在标注偏差大的数据,则去除标注偏差大的数据中的相似数据,对剩余的标注偏差大的数据进行修正;若校验出存在标注偏差小或无偏差的数据,则保留;

具体的,①人工对步骤204的预标注结果进行校验,对于标注偏差比较大的数据,去除部分相似数据,修正其余数据(不用精确修正),对于标注偏差较小或者无偏差的数据予以保留,此处虽然进行人工干预,但是不用进行精确标注,因为人力成本可大幅降低。

步骤702:对校验后的预标注结果进行特征提取,获得特征提取结果;

具体的,②利用无监督数据构建多个中层特征提取器,特征提取器的参数由少量弱标注数据进行解析优化得到,然后基于特征提取器对①中的数据进行特征提取。

步骤703:对特征提取结果进行特征权重计算,获得特征提取结果的特征权重;

步骤704:对所述特征提取结果的特征权重进行排序,获得排序在预设数量之前的特征提取结果;

具体的,③基于单一样本自适应学习和特征重加权元学习等方法实现数据特征权重计算,选取权重较高(对模型训练帮助较大)的精品数据进行保存,删除权重较低的垃圾数据。

步骤705:由所述特征提取结果形成精品数据集。

本步骤效果图如图8所示,本步骤对上一步骤的样本进行了特征权重的计算,将对模型训练效果改善较大(权重较高)的样本进行了筛选。图8中的样本涵盖了丰富的样本多样性(场景多样性、光照多样性、拍照角度多样性、时间多样性等),是对模型训练有效的精品数据,验证了本方法中特征权重计算的准确性。

步骤206:对精品数据集进行数据补充,获得全标签数据集;

具体的,步骤206为人工校验&人工标注:由于算法无法完全理想化获取所有精品数据,因此需要人工对精品数据集进行补充。

如图9所示,该步骤206包括:

步骤901:确定精品数据集的分布特性;

步骤902:获取与精品数据集的分布特性存在差异的数据进行标注;

步骤903:将标注后的数据补入精品数据集,获得全标签数据集(数据标注的最终结果)。

具体的,本步骤引入了主动学习的思想,在步骤206精品数据集的基础上选取与精品数据集分布差异较大的数据进行补充。数据分布差异较大主要是数据的多样性分布,多样性包括场景多样性,目标姿态多样性,目标遮挡&截断多样性,数据质量多样性(不同分辨率、不同噪声强度等)等。此处补充的精品数据集需要进行全人工标注,虽然会带来一定人力成本,但是精品数据量级较少,因此成本效率可控。此步骤完成后,即获得最终的全标签数据集。

步骤207:利用所述全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。

具体的,在本发明中数据标注方法还包括:在对一个域的数据进行标注时,将其他域的信息迁移至该域中。

具体的,步骤207为全领域已标注数据集与预训练模型(模型迭代):本步骤主要解决传统半自动数据标注方法模型泛化能力差的缺陷,传统的半自动标注技术基于监督学习进行,绝大多数未加入域迁移模块,导致标注算法只能适用于特定场景,无法泛化或者迁移到其他场景。例如:监控视角的人体和手机拍摄的人体,虽然都是人体信息,但是由于场景不同以及相机拍摄角度、分辨率的不同,导致二者的特征差别较大,手机拍摄数据训练的人体模型泛化到监控视角人体场景下效果会大幅下降。为了解决这一缺陷,本发明在引入了域迁移模块,将已有其它域的信息迁移到目标域上,避免了每一个应用场景均需要冷启动的缺陷,提高了模型的泛化性。

本步骤基于步骤206的全标签数据集实现,该全标签数据集可以分别对于无监督、弱监督、半监督学习进行算法迭代,具体细节如下:

(1)无监督学习算法迭代:全标签数据集可用于无监督学习的领域自适应(域迁移)迭代需求,增强后续无监督标注的域迁移能力;

(2)弱监督学习算法迭代:全标签数据集中可以提取出部分标签迭代弱监督学习算法,并可以用全标签数据验证弱监督学习算法迭代效果;

(3)半监督学习算法迭代:将全标签数据集补充到半监督学习算法中进行模型迭代,提高原模型的鲁棒性。

本发明实施例中还提供了一种数据标注装置,如下面的实施例所述。由于该装置解决问题的原理与数据标注方法相似,因此该装置的实施可以参见数据标注方法的实施,重复之处不再赘述。

图10为本发明实施例中数据标注装置结构框图,如图10所示,该装置包括:

无监督冷启动标注模块02,用于利用无监督学习算法进行冷启动,对修正后的弱标签数据信息进行初级分类,生成弱标签数据信息和伪标签数据信息;

弱监督预标注模块04,用于对伪标签数据信息进行校验标注,获得修正后的弱标签数据信息;对预设数量的弱标签数据信息进行标注,获得部分已标注数据,基于弱监督学习算法和部分已标注数据,对剩余的弱标签数据信息进行预标注,生成预标注结果;

半监督精标模块06,用于对预标注结果进行半监督学习算法的样本筛选,获得精品数据集;

校验和补充模块08,用于对精品数据集进行数据补充,获得全标签数据集;

模型迭代模块10,用于利用所述全标签数据集对无监督学习算法、弱监督学习算法和半监督学习算法进行算法迭代,获得优化的无监督学习算法、弱监督学习算法和半监督学习算法。

在本发明实施例中,无监督冷启动标注模块02具体用于:

对原始的无标签数据进行特征提取,获得数据特征;

对所述数据特征进行数据白化,获得白化后的数据特征;

对所述白化后的数据特征进行分类,获得弱标签数据信息。

在本发明实施例中,半监督精标模块06具体用于:

对预标注结果进行校验,若校验出存在标注偏差大的数据,则去除标注偏差大的数据中的相似数据,对剩余的标注偏差大的数据进行修正;若校验出存在标注偏差小或无偏差的数据,则保留;

对校验后的预标注结果进行特征提取,获得特征提取结果;

对特征提取结果进行特征权重计算,获得特征提取结果的特征权重;

对所述特征提取结果的特征权重进行排序,获得排序在预设数量之前的特征提取结果;

由所述特征提取结果形成精品数据集。

在本发明实施例中,校验和补充模块08具体用于:

确定精品数据集的分布特性;

获取与精品数据集的分布特性存在差异的数据进行标注;

将标注后的数据补入精品数据集,获得全标签数据集。

在本发明实施例中,数据标注装置还包括:域迁移模块用于:

在对一个域的数据进行标注时,将其他域的信息迁移至该域中。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据标注方法。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述数据标注方法的步骤。

本发明基于无监督(不标)、弱监督(少标)和半监督(精标)的技术思路提出了一种新型高效的半自动数据标注技术方案。与现有方法相比,大幅提高了数据标注任务的效率,降低人力成本,具有良好的应用前景。与现有方法对比的优势如下:

大幅降低人工标注量,降低人力成本同时提高标注效率。本发明中人工参与标注部分有两个模块,一是对数据进行弱标签的标注,二是对少量精品数据进行全标签精标,弱标签的标注难度低,效率高,精标部分比较耗费人力,但是标注数量较少。因此整体来看这种标注方式比传统方案冷启动时需要全部人工精标大幅降低了人工的工作量,经过理论分析及实际项目测试,本发明可提升标注效率30%-40%,大幅优于传统方法;

提升了算法模型迭代有效率:本发明标注的精品数据均为对模型迭代影响较大的数据,影响较小甚至有负面影响的垃圾数据在数据标注环节被剔除,因此可以大幅提升算法模型迭代的有效率;

增强算法的泛化能力:本发明引入的域迁移机制,当标注某一个域的数据时,能够首先将其它域(开源数据或者历史积累的数据)的信息迁移到待标注的域中,大幅提高数据标注冷启动的效率和效果。同时被标注数据所在的域之后也可以被迁移到其他目标域中,逐步完善数据域的种类库。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1