用于标注数据的方法、装置、设备和介质与流程

文档序号:21985805发布日期:2020-08-25 19:23阅读:235来源:国知局
用于标注数据的方法、装置、设备和介质与流程

本公开的实施例涉及计算机技术领域,具体涉及用于标注数据的方法和装置。



背景技术:

数据标注,是对用以训练模型的人工智能学习数据进行加工的一种操作。通常,数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类。标记的基本形式有标注画框、3d画框、文本转录、图像打点、目标物体轮廓线等。

实践中,以分类模型为例,为提高分类模型的准确率(accuracy)、精确率(precision)、召回率(recall)、f值(f-measure)、auc(areaunderroccurve)、roc(receiveroperatingcharacteristic)等评价指标,在训练模型前,往往需要准备大量的标注数据。并且,为确保标注数据的可靠性,现有技术中,多采用人工标注的方式进行数据标注。



技术实现要素:

本公开提出了用于标注数据的方法和装置。

第一方面,本公开的实施例提供了一种用于标注数据的方法,该方法包括:获取待标注数据;将待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据,其中,分类模型用于表征输入数据和输出数据之间的对应关系,输出数据包括数值序列,数值序列中的各个数值表征输入数据属于预设类别集合中的各个类别的相对概率;根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,其中,目标数值为大于或等于预设阈值的数值。

在一些实施例中,根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,包括:将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第一预设数值,将更新后的数值序列作为待标注数据的标注数据,其中,第一预设数值为小于预设阈值的数值。

在一些实施例中,根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,包括:将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第二预设数值,将与待标注数据相对应的输出数据包括的数值序列中的目标数值更新为第三预设数值,将更新后的数值序列作为待标注数据的标注数据,其中,第二预设数值为小于预设阈值的数值,第三预设数值为大于或等于预设阈值的数值。

在一些实施例中,根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,包括:将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第四预设数值,将与待标注数据相对应的输出数据包括的数值序列中的目标数值更新为目标数值的预设倍数,将更新后的数值序列作为待标注数据的标注数据,其中,第四预设数值为小于预设阈值的数值。

在一些实施例中,分类模型包含多个二分类子模型;分类模型包含的二分类子模型用于确定输入数据属于预设类别集合中的各个类别的相对概率。

在一些实施例中,该方法还包括:将与待标注数据相对应的输出数据作为实际输出数据,将所生成的待标注数据的标注数据作为期望输出数据,计算预设损失函数的函数值;采用梯度下降法,根据函数值对分类模型进行调参。

在一些实施例中,该方法还包括:响应于不满足预先确定的训练结束条件,执行如下步骤:将新的待标注数据作为输入数据,输入至最近一次调参后得到的分类模型,得到与新的待标注数据相对应的新的输出数据;根据新的输出数据包括的数值序列中的目标数值,生成新的待标注数据的标注数据;将新的输出数据作为实际输出数据,将新的待标注数据的标注数据作为期望输出数据,计算预设损失函数的新的函数值;采用梯度下降法,根据新的函数值对最近一次调参后得到的分类模型进行再次调参。

在一些实施例中,该方法还包括:响应于满足训练结束条件,将最近一次调参后得到的分类模型确定为训练完成的分类模型。

在一些实施例中,输入数据表征语句,预设类别集合中的类别表征语句的情感标签;以及,该方法还包括:获取目标语句;将目标语句输入至训练完成的分类模型,得到与目标语句相对应的输出数据;确定与目标语句相对应的输出数据包括的数值序列中的最大的数值;将预设类别集合中与最大的数值相对应的类别,确定为目标语句的情感标签。

在一些实施例中,该方法还包括以下至少一项:根据目标语句的情感标签,生成目标语句的回复语句;播放与目标语句的情感标签相对应的音频;呈现与目标语句的情感标签相对应的图像;控制目标设备执行与目标语句的情感标签相对应的操作。

第二方面,本公开的实施例提供了一种用于标注数据的装置,该装置包括:第一获取单元,被配置成获取待标注数据;第一输入单元,被配置成将待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据,其中,分类模型用于表征输入数据和输出数据之间的对应关系,输出数据包括数值序列,数值序列中的各个数值表征输入数据属于预设类别集合中的各个类别的相对概率;第一生成单元,被配置成根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,其中,目标数值为大于或等于预设阈值的数值。

第三方面,本公开的实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得该一个或多个处理器实现如上述用于标注数据的方法中任一实施例的方法。

第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述用于标注数据的方法中任一实施例的方法。

本公开的实施例提供的用于标注数据的方法和装置,通过获取待标注数据,然后,将待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据,其中,分类模型用于表征输入数据和输出数据之间的对应关系,输出数据包括数值序列,数值序列中的各个数值表征输入数据属于预设类别集合中的各个类别的相对概率,最后,根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,其中,目标数值为大于或等于预设阈值的数值,从而丰富了数据标注的方式,可以对未标注的数据进行自动标注,从而增加了训练样本的数量。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:

图1是本公开的一个实施例可以应用于其中的示例性系统架构图;

图2是根据本公开的用于标注数据的方法的一个实施例的流程图;

图3是根据本公开的用于标注数据的方法的一个应用场景的示意图;

图4是根据本公开的用于标注数据的方法的又一个实施例的流程图;

图5是根据本公开的用于标注数据的装置的一个实施例的结构示意图;

图6是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本公开的实施例,而非对本公开的实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开的实施例相关的部分。

需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

还需要说明的是,本公开的实施例中描述的第一预设数值、第二预设数值、第三预设数值和第四预设数值中的第一、第二、第三、第四仅用作区分预设数值,并不构成对预设数值的特殊限定。上述第一预设数值、第二预设数值、第三预设数值和第四预设数值可以相等也可以不等。类似的,本公开的实施例中描述的第一数值、第二数值、第三数值和第四数值中的第一、第二、第三、第四仅用作区分数值,并不构成对数值的特殊限定。上述第一数值、第二数值、第三数值和第四数值可以相等也可以不等。

图1示出了可以应用本公开的实施例的用于标注数据的方法或用于标注数据的装置的实施例的示例性系统架构100。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送数据(例如待标注数据)等。终端设备101、102、103上可以安装有各种客户端应用,例如数据标注类软件、视频播放软件、新闻资讯类应用、图像处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有数据传输功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器,例如用于生成终端设备101、102、103发送的待标注数据的标注数据的后台服务器。可选的,后台服务器还可以将标注数据反馈给终端设备。作为示例,服务器105可以是云端服务器。

需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。

还需要说明的是,本公开的实施例所提供的用于标注数据的方法可以由服务器执行,也可以由终端设备执行,还可以由服务器和终端设备彼此配合执行。相应地,用于标注数据的装置包括的各个部分(例如各个单元、子单元、模块、子模块)可以全部设置于服务器中,也可以全部设置于终端设备中,还可以分别设置于服务器和终端设备中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。当用于标注数据的方法运行于其上的电子设备不需要与其他电子设备进行数据传输时,该系统架构可以仅包括用于标注数据的方法运行于其上的电子设备(例如服务器或终端设备)。

继续参考图2,示出了根据本公开的用于标注数据的方法的一个实施例的流程200。该用于标注数据的方法,包括以下步骤:

步骤201,获取待标注数据。

在本实施例中,用于标注数据的方法的执行主体(例如图1所示的服务器或终端设备)可以通过有线连接方式或者无线连接方式从其他电子设备或者本地,获取待标注数据。

其中,待标注数据可以是在执行该步骤201时,未标注过的数据。待标注数据可以是待对其进行标注的任何数据。例如,待标注数据可以表征待确定类别的语句,也可以表征待确定形状的图形,还可以表征待确定颜色的图像。

这里,步骤201待标注数据的数量可以是一个也可以是多个。例如,待标注数据的数量可以是5个。

可以理解,在训练模型前,往往需要准备大量的标注数据。

例如,如果要训练得到用于对语句进行情感分类的分类模型,则需要获得包括语句和语句的情感标签的训练样本。其中,训练样本包括的情感标签可以是人工标注的标注数据。在此情况下,在对语句进行标注之前,该语句可以是待标注数据。

再例如,如果要训练得到用于对图形进行形状分类的分类模型,则需要获得包括图形和图形的形状类别的训练样本。其中,训练样本包括的形状类别可以是人工标注的标注数据。在此情况下,在对图形进行标注之前,该图形可以是待标注数据。

再例如,如果要训练得到用于对图像进行颜色分类的分类模型,则需要获得包括图像和图像的颜色类别的训练样本。其中,训练样本包括的颜色类别可以是人工标注的标注数据。在此情况下,在对图像进行标注之前,该图像可以是待标注数据。

步骤202,将待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据。

在本实施例中,上述执行主体可以将步骤201获取到的待标注数据作为输入数据,输入至预先训练的分类模型,得到与该待标注数据相对应的输出数据。其中,分类模型用于表征输入数据和输出数据之间的对应关系,输出数据包括数值序列,数值序列中的各个数值表征输入数据属于预设类别集合中的各个类别的相对概率。

其中,上述分类模型可以采用机器学习算法训练得到。

例如,如果上述分类模型用于对语句进行情感分类。那么,该分类模型可以采用机器学习算法,基于包括语句和语句的情感标签的训练样本训练得到。

再例如,如果上述分类模型用于对图形进行形状分类。那么,该分类模型可以采用机器学习算法,基于包括图形和图形的形状类别的训练样本训练得到。

再例如,如果上述分类模型用于对图像进行颜色分类。那么,该分类模型可以采用机器学习算法,基于包括图像和图像的颜色类别的训练样本训练得到。

在这里,上述分类模型可以包括一个多分类模型,也可以包括多个二分类子模型。

步骤203,根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据。

在本实施例中,上述执行主体可以根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据。其中,目标数值为大于或等于预设阈值的数值。

在本实施例的一些可选的实现方式中,上述执行主体可以采用如下方式执行上述步骤203:

将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第二预设数值,将与待标注数据相对应的输出数据包括的数值序列中的目标数值更新为第三预设数值,将更新后的数值序列作为待标注数据的标注数据。其中,第二预设数值为小于预设阈值的数值,第三预设数值为大于或等于预设阈值的数值。

在这里,上述非目标数值可以是数值序列中,除目标数值之外的所有数值。

示例性的,如果与待标注数据相对应的输出数据包括的数值序列为“0.1,0.8,0.6,0.5,0.3,0.3,0.5”,预设阈值为0.5,第二预设数值可以是0,第三预设数值可以是1。那么,可以得到更新后的数值序列“0,1,1,1,0,0,1”。

在本实施例的一些可选的实现方式中,上述执行主体也可以采用如下方式执行上述步骤203:

将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第四预设数值,将与待标注数据相对应的输出数据包括的数值序列中的目标数值更新为目标数值的预设倍数,将更新后的数值序列作为待标注数据的标注数据,其中,第四预设数值为小于预设阈值的数值。

在这里,上述非目标数值可以是数值序列中,除目标数值之外的所有数值。

示例性的,如果与待标注数据相对应的输出数据包括的数值序列为“0.1,0.8,0.6,0.5,0.3,0.3,0.5”,预设阈值为0.5,第四预设数值可以是0,预设倍数可以是2。那么,可以得到更新后的数值序列“0,1.6,1.2,1,0,0,1”。

在本实施例的一些可选的实现方式中,上述执行主体也可以采用如下方式执行上述步骤203:

减小与待标注数据相对应的输出数据包括的数值序列中的非目标数值,增加与待标注数据相对应的输出数据包括的数值序列中的目标数值,获得新的数值序列,将新的新的数值序列作为待标注数据的标注数据。其中,上述非目标数值可以是数值序列中,除目标数值之外的所有数值。

在这里,上述执行主体可以采用各种方式减小与待标注数据相对应的输出数据包括的数值序列中的非目标数值。例如可以将各个非目标数值分别减去预先确定的第一数值(例如0.1);也可以采用各个非目标数值分别除以预先确定的第二数值(例如2)。类似的,上述执行主体也可以采用各种方式增加与待标注数据相对应的输出数据包括的数值序列中的目标数值。例如可以将各个目标数值分别加上预先确定的第三数值(例如0.1);也可以采用各个目标数值分别乘以预先确定的第四数值(例如2)。

继续参见图3,图3是根据本实施例的用于标注数据的方法的应用场景的一个示意图。

在图3的应用场景中,服务器301首先获取待标注数据303。示例性的,图示中,待标注数据303为“这是我们最后一次见面了,以后都不要再见了”。

然后,服务器301将待标注数据303作为输入数据,输入至预先训练的分类模型304,得到与待标注数据303相对应的输出数据305。其中,分类模型304用于表征输入数据和输出数据之间的对应关系。输出数据包括数值序列。数值序列中的各个数值表征输入数据属于预设类别集合中的各个类别的相对概率。

示例性的,图示中,输出数据305为“0.1,0.8,0.6,0.5,0.3,0.3,0.5”。输出数据305包括的数值序列中的各个数值表征输入数据(即待标注数据303)属于预设类别集合302中的各个类别的相对概率。如图所示,输出数据305“0.1,0.8,0.6,0.5,0.3,0.3,0.5”表征待标注数据303属于开心的相对概率为0.1,属于悲伤的相对概率为0.8,属于生气的相对概率为0.6,属于厌恶的相对概率为0.5,属于惊讶的相对概率为0.3,属于害怕的相对概率为0.3,属于中性的相对概率为0.5。

最后,服务器301根据与待标注数据303相对应的输出数据305包括的数值序列中的目标数值,生成了待标注数据303的标注数据306。其中,目标数值为大于或等于预设阈值(例如0.5)的数值。

本公开的上述实施例提供的方法,通过获取待标注数据,然后,将待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据,其中,分类模型用于表征输入数据和输出数据之间的对应关系,输出数据包括数值序列,数值序列中的各个数值表征输入数据属于预设类别集合中的各个类别的相对概率,最后,根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,其中,目标数值为大于或等于预设阈值的数值,丰富了数据标注的方式,可以对未标注的数据进行自动标注,从而增加了用于训练模型的训练样本的数量,节省了人力标注的成本。

在上述可选的实现方式中的一些应用场景中,分类模型包含多个二分类子模型。目标模型包含的二分类子模型用于确定输入数据表征的语句属于预设类别集合中的各个类别的相对概率。

例如,当目标语句为“这是我们最后一次见面了,以后都不要再见了”时,分类模型包括的多个二分类子模型确定出的各个相对概率可以是“0.10.80.60.50.30.30.5”。在此情况下,可以表征目标语句属于预设类别集合中的各个类别的相对概率分别是0.1、0.8、0.6、0.5、0.3、0.3、0.5。

在训练分类模型的过程中,可以通过计算多标签二分类交叉熵损失(multi-labelbinarycross-entropyloss),采用sgd,rmsprop,adagrad,adadelta,adam等优化器进行训练,从而得到分类模型。示例性的,分类模型可以是双向lstm(长短期记忆网络,longshort-termmemory)结构、双向transformer结构、dilated-cnn结构。

可以理解,当分类模型包括多个二分类子模型,该分类模型可以确定出输入数据表征的语句属于预设类别集合中的各个类别的相对概率,上述各个概率之和通常大于1,由此,可以提高所得到的各个概率之间的偏离程度,进而可以提高语句分类的准确度。

在本实施例的一些可选的实现方式中,上述执行主体还可以执行如下步骤:

首先,将与待标注数据相对应的输出数据作为实际输出数据,将所生成的待标注数据的标注数据作为期望输出数据,计算预设损失函数(例如多标签二分类交叉熵损失(multi-labelbinarycross-entropyloss))的函数值。

然后,采用梯度下降法,根据函数值对分类模型进行调参。

可以理解,上述可选的实现方式可以基于步骤203生成的标注数据来训练分类模型。可以在人工标注的标注数据数量较少的情况下,对未标注的数据进行自动标注,从而增加了用于训练模型的训练样本的数量,进而提高训练得到的分类模型的准确率、精确率、召回率、f值、auc、roc等评价指标。

在本实施例的一些可选的实现方式中,在不满足预先确定的训练结束条件的情况下,上述执行主体还可以执行如下步骤(包括步骤一至步骤四):

步骤一,将新的待标注数据作为输入数据,输入至最近一次调参后得到的分类模型,得到与新的待标注数据相对应的新的输出数据。

步骤二,根据新的输出数据包括的数值序列中的目标数值,生成新的待标注数据的标注数据。

在这里,上述执行主体可以采用与上述获得与待标注数据相对应的输出数据相类似的方式,来生成新的待标注数据的标注数据。在此不再赘述。

步骤三,将新的输出数据作为实际输出数据,将新的待标注数据的标注数据作为期望输出数据,计算预设损失函数的新的函数值。

步骤四,采用梯度下降法,根据新的函数值对最近一次调参后得到的分类模型进行再次调参。

在这里,上述训练结束条件的可以包括以下至少一项:训练次数超过预设次数,训练时长超过预设时长,基于实际输出数据和期望输出数据计算得到的损失函数的函数值小于预设阈值。

在本实施例的一些可选的实现方式中,在满足训练结束条件的情况下,上述执行主体可以将最近一次调参后得到的分类模型确定为训练完成的分类模型。

可以理解,在不满足预先确定的训练结束条件的情况下,上述可选的实现方式可以继续对未标注的数据进行自动标注,以便满足该训练结束条件,进而获得训练完成的分类模型。从而进一步增加用于训练模型的训练样本的数量,进一步提高训练得到的分类模型的准确率、精确率、召回率、f值、auc、roc等评价指标,实现了半监督的分类模型的训练。

在本实施例的一些可选的实现方式中,输入数据表征语句,预设类别集合中的类别表征语句的情感标签。基于此,上述执行主体还可以执行如下步骤:

首先,获取目标语句。

其中,目标语句可以是任意待对其进行分类的语句。语句(包括目标语句)可以包含词语序列。例如,目标语句可以是一个词语,也可以是由多个词语组成的句子。

作为示例,目标语句可以是用户发布在互联网上的语句;也可以是用户通过即时通信软件等工具发送的语句;还可以是提取自文本中的语句。此外,目标语句可以采用文字的形式表征;也可以采用音频等形式表征。

然后,将目标语句输入至上述训练完成的分类模型,得到与目标语句相对应的输出数据。

之后,确定与目标语句相对应的输出数据包括的数值序列中的最大的数值。

最后,将预设类别集合中与最大的数值相对应的类别,确定为目标语句的情感标签。

可以理解,上述可选的实现方式可以基于训练完成的分类模型,对目标语句进行情感标签分类,从而丰富了语句分类的方式。

在本实施例的一些可选的实现方式中,上述执行主体还可以执行以下至少一项:

第一项,根据目标语句的情感标签,生成目标语句的回复语句。例如,当目标语句的情感标签为“愤怒”时,可以生成蕴含“害怕”情感的、目标语句的回复语句。

可以理解,根据目标语句的情感标签,来生成目标语句的回复语句,丰富了生成回复语句的方式,有助于上述执行主体与用户之间进行蕴含情感的信息交互。

第二项,播放与目标语句的情感标签相对应的音频。这里,上述执行主体可以是具有音频播放功能的终端设备。其中,与目标语句的情感标签相对应的音频,与目标语句的语句类别之间的对应关系可以预先确定。例如,当目标语句的情感标签是“愤怒”时,上述执行主体可以播放蕴含“害怕”情感的、目标语句的音频。

可以理解,通过播放与目标语句的情感标签相对应的音频,有助于上述执行主体与用户之间进行蕴含情感的信息交互,丰富了上述执行主体与用户之间的交互方式。

第三项,呈现与目标语句的情感标签相对应的图像。

这里,上述执行主体可以是具有显示屏的终端设备。其中,与目标语句的情感标签相对应的图像,与目标语句的语句类别之间的对应关系可以预先确定。例如,当目标语句的情感标签是“愤怒”时,上述执行主体可以呈现表征“愤怒”情感的图像。

可以理解,通过呈现与目标语句的情感标签相对应的图像,可以丰富上述执行主体与用户之间的交互方式。

第四项,控制目标设备执行与目标语句的情感标签相对应的操作。其中,上述目标设备可以与上述执行主体通信连接。与目标语句的情感标签相对应的操作,与目标语句的情感标签之间的对应关系可以预先确定。例如,当目标语句的情感标签是“伤心”时,上述执行主体可以控制目标设备(例如机器人)执行讲笑话、表演相声、表演脱口秀等操作。

可以理解,通过控制目标设备执行与目标语句的情感标签相对应的操作,丰富了上述目标设备与用户之间的交互方式。

进一步参考图4,其示出了用于标注数据的方法的又一个实施例的流程400。该用于标注数据的方法的流程400,包括以下步骤:

步骤401,获取待标注数据。

在本实施例中,步骤401与图2对应实施例中的步骤201基本一致,这里不再赘述。

步骤402,将待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据。

在本实施例中,步骤402与图2对应实施例中的步骤202基本一致,这里不再赘述。

步骤403,将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第一预设数值,将更新后的数值序列作为待标注数据的标注数据。

在本实施例中,用于标注数据的方法的执行主体(例如图1所示的服务器或终端设备)可以将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第一预设数值,将更新后的数值序列作为待标注数据的标注数据。其中,目标数值为大于或等于预设阈值的数值。第一预设数值为小于预设阈值的数值。

在这里,上述非目标数值可以是数值序列中,除目标数值之外的所有数值。

示例性的,如果与待标注数据相对应的输出数据包括的数值序列为“0.1,0.8,0.6,0.5,0.3,0.3,0.5”,预设阈值为0.5,第一预设数值可以是0。那么,可以得到更新后的数值序列“0,0.8,0.6,0.5,0,0,0.5”。

需要说明的是,除上面所记载的内容外,本公开的实施例还可以包括与图2对应的实施例相同或类似的特征、效果,在此不再赘述。

从图4中可以看出,本实施例中的用于标注数据的方法的流程400突出了数值序列的更新方式,由此,本公开的实施例可以进一步丰富数据标注的方式,采用本公开的实施例获得的标注数据来训练分类模型,可以提高训练得到的分类模型的准确率、精确率、召回率、f值、auc、roc等评价指标。

进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种用于标注数据的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,除下面所记载的特征外,该装置实施例还可以包括与图2所示的方法实施例相同或相应的特征,以及产生与图2所示的方法实施例相同或相应的效果。该装置具体可以应用于各种电子设备中。

如图5所示,本实施例的用于标注数据的装置500包括:第一获取单元501、第一输入单元502和第一生成单元503。其中,第一获取单元501,被配置成获取待标注数据;第一输入单元502,被配置成将待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据,其中,分类模型用于表征输入数据和输出数据之间的对应关系,输出数据包括数值序列,数值序列中的各个数值表征输入数据属于预设类别集合中的各个类别的相对概率;第一生成单元503,被配置成根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,其中,目标数值为大于或等于预设阈值的数值。

在本实施例中,用于标注数据的装置500的第一获取单元501可以获取待标注数据。

在本实施例中,上述第一输入单元502可以将第一获取单元501获取的待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据。其中,分类模型用于表征输入数据和输出数据之间的对应关系,输出数据包括数值序列,数值序列中的各个数值表征输入数据属于预设类别集合中的各个类别的相对概率

在本实施例中,上述第一生成单元503可以根据第一输入单元502得到的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据。其中,目标数值为大于或等于预设阈值的数值。

在本实施例的一些可选的实现方式中,该装置500还包括:计算单元(图中未示出),被配置成将与待标注数据相对应的输出数据作为实际输出数据,将所生成的待标注数据的标注数据作为期望输出数据,计算预设损失函数的函数值;调参单元(图中未示出),被配置成采用梯度下降法,根据函数值对分类模型进行调参。

在本实施例的一些可选的实现方式中,第一生成单元503包括:第一更新子单元(图中未示出),被配置成将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第一预设数值,将更新后的数值序列作为待标注数据的标注数据,其中,第一预设数值为小于预设阈值的数值。

在本实施例的一些可选的实现方式中,第一生成单元503包括:第二更新子单元(图中未示出),被配置成将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第二预设数值,将与待标注数据相对应的输出数据包括的数值序列中的目标数值更新为第三预设数值,将更新后的数值序列作为待标注数据的标注数据,其中,第二预设数值为小于预设阈值的数值,第三预设数值为大于或等于预设阈值的数值。

在本实施例的一些可选的实现方式中,第一生成单元503包括:第三更新子单元(图中未示出),被配置成将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第四预设数值,将与待标注数据相对应的输出数据包括的数值序列中的目标数值更新为目标数值的预设倍数,将更新后的数值序列作为待标注数据的标注数据,其中,第四预设数值为小于预设阈值的数值。

在本实施例的一些可选的实现方式中,分类模型包含多个二分类子模型;分类模型包含的二分类子模型用于确定输入数据属于预设类别集合中的各个类别的相对概率。

在本实施例的一些可选的实现方式中,该装置500还包括:执行单元(图中未示出),被配置成响应于不满足预先确定的训练结束条件,执行如下步骤:将新的待标注数据作为输入数据,输入至最近一次调参后得到的分类模型,得到与新的待标注数据相对应的新的输出数据;根据新的输出数据包括的数值序列中的目标数值,生成新的待标注数据的标注数据;将新的输出数据作为实际输出数据,将新的待标注数据的标注数据作为期望输出数据,计算预设损失函数的新的函数值;采用梯度下降法,根据新的函数值对最近一次调参后得到的分类模型进行再次调参。

在本实施例的一些可选的实现方式中,该装置500还包括:第一确定单元(图中未示出),被配置成响应于满足训练结束条件,将最近一次调参后得到的分类模型确定为训练完成的分类模型。

在本实施例的一些可选的实现方式中,输入数据表征语句,预设类别集合中的类别表征语句的情感标签;以及,该装置500还包括:第二获取单元(图中未示出),被配置成获取目标语句;第二输入单元(图中未示出),被配置成将目标语句输入至训练完成的分类模型,得到与目标语句相对应的输出数据;第二确定单元(图中未示出),被配置成确定与目标语句相对应的输出数据包括的数值序列中的最大的数值;第三确定单元(图中未示出),被配置成将预设类别集合中与最大的数值相对应的类别,确定为目标语句的情感标签。

在本实施例的一些可选的实现方式中,该装置500还包括以下至少一项:第二生成单元(图中未示出),被配置成根据目标语句的情感标签,生成目标语句的回复语句;播放单元(图中未示出),被配置成播放与目标语句的情感标签相对应的音频;呈现单元(图中未示出),被配置成呈现与目标语句的情感标签相对应的图像;控制单元(图中未示出),被配置成控制目标设备执行与目标语句的情感标签相对应的操作。

本公开的上述实施例提供的装置,通过第一获取单元501获取待标注数据,然后,第一输入单元502将待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据,其中,分类模型用于表征输入数据和输出数据之间的对应关系,输出数据包括数值序列,数值序列中的各个数值表征输入数据属于预设类别集合中的各个类别的相对概率,最后,第一生成单元503根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,其中,目标数值为大于或等于预设阈值的数值,丰富了数据标注的方式,可以对未标注的数据进行自动标注,从而增加了用于训练模型的训练样本的数量。

下面参考图6,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)600的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图6示出的终端设备/服务器仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。

如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储装置608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。

通常,以下装置可以连接至i/o接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从rom602被安装。在该计算机程序被处理装置601执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待标注数据;将待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据,其中,分类模型用于表征输入数据和输出数据之间的对应关系,输出数据包括数值序列,数值序列中的各个数值表征输入数据属于预设类别集合中的各个类别的相对概率;根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,其中,目标数值为大于或等于预设阈值的数值。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

根据本公开的一个或多个实施例,本公开提供了一种用于标注数据的方法,该方法包括:获取待标注数据;将待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据,其中,分类模型用于表征输入数据和输出数据之间的对应关系,输出数据包括数值序列,数值序列中的各个数值表征输入数据属于预设类别集合中的各个类别的相对概率;根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,其中,目标数值为大于或等于预设阈值的数值。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的方法中,根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,包括:将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第一预设数值,将更新后的数值序列作为待标注数据的标注数据,其中,第一预设数值为小于预设阈值的数值。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的方法中,根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,包括:将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第二预设数值,将与待标注数据相对应的输出数据包括的数值序列中的目标数值更新为第三预设数值,将更新后的数值序列作为待标注数据的标注数据,其中,第二预设数值为小于预设阈值的数值,第三预设数值为大于或等于预设阈值的数值。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的方法中,根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,包括:将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第四预设数值,将与待标注数据相对应的输出数据包括的数值序列中的目标数值更新为目标数值的预设倍数,将更新后的数值序列作为待标注数据的标注数据,其中,第四预设数值为小于预设阈值的数值。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的方法中,分类模型包含多个二分类子模型;分类模型包含的二分类子模型用于确定输入数据属于预设类别集合中的各个类别的相对概率。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的方法中,该方法还包括:将与待标注数据相对应的输出数据作为实际输出数据,将所生成的待标注数据的标注数据作为期望输出数据,计算预设损失函数的函数值;采用梯度下降法,根据函数值对分类模型进行调参。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的方法中,该方法还包括:响应于不满足预先确定的训练结束条件,执行如下步骤:将新的待标注数据作为输入数据,输入至最近一次调参后得到的分类模型,得到与新的待标注数据相对应的新的输出数据;根据新的输出数据包括的数值序列中的目标数值,生成新的待标注数据的标注数据;将新的输出数据作为实际输出数据,将新的待标注数据的标注数据作为期望输出数据,计算预设损失函数的新的函数值;采用梯度下降法,根据新的函数值对最近一次调参后得到的分类模型进行再次调参。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的方法中,该方法还包括:响应于满足训练结束条件,将最近一次调参后得到的分类模型确定为训练完成的分类模型。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的方法中,输入数据表征语句,预设类别集合中的类别表征语句的情感标签;以及,该方法还包括:获取目标语句;将目标语句输入至训练完成的分类模型,得到与目标语句相对应的输出数据;确定与目标语句相对应的输出数据包括的数值序列中的最大的数值;将预设类别集合中与最大的数值相对应的类别,确定为目标语句的情感标签。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的方法中,该方法还包括以下至少一项:根据目标语句的情感标签,生成目标语句的回复语句;播放与目标语句的情感标签相对应的音频;呈现与目标语句的情感标签相对应的图像;控制目标设备执行与目标语句的情感标签相对应的操作。

根据本公开的一个或多个实施例,本公开提供了一种用于标注数据的装置,该装置包括:第一获取单元,被配置成获取待标注数据;第一输入单元,被配置成将待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据,其中,分类模型用于表征输入数据和输出数据之间的对应关系,输出数据包括数值序列,数值序列中的各个数值表征输入数据属于预设类别集合中的各个类别的相对概率;第一生成单元,被配置成根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,其中,目标数值为大于或等于预设阈值的数值。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的装置中,第一生成单元包括:第一更新子单元,被配置成将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第一预设数值,将更新后的数值序列作为待标注数据的标注数据,其中,第一预设数值为小于预设阈值的数值。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的装置中,第一生成单元包括:第二更新子单元,被配置成将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第二预设数值,将与待标注数据相对应的输出数据包括的数值序列中的目标数值更新为第三预设数值,将更新后的数值序列作为待标注数据的标注数据,其中,第二预设数值为小于预设阈值的数值,第三预设数值为大于或等于预设阈值的数值。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的装置中,第一生成单元包括:第三更新子单元,被配置成将与待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为第四预设数值,将与待标注数据相对应的输出数据包括的数值序列中的目标数值更新为目标数值的预设倍数,将更新后的数值序列作为待标注数据的标注数据,其中,第四预设数值为小于预设阈值的数值。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的装置中,分类模型包含多个二分类子模型;分类模型包含的二分类子模型用于确定输入数据属于预设类别集合中的各个类别的相对概率。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的装置中,该装置还包括:计算单元,被配置成将与待标注数据相对应的输出数据作为实际输出数据,将所生成的待标注数据的标注数据作为期望输出数据,计算预设损失函数的函数值;调参单元,被配置成采用梯度下降法,根据函数值对分类模型进行调参。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的装置中,该装置还包括:执行单元,被配置成响应于不满足预先确定的训练结束条件,执行如下步骤:将新的待标注数据作为输入数据,输入至最近一次调参后得到的分类模型,得到与新的待标注数据相对应的新的输出数据;根据新的输出数据包括的数值序列中的目标数值,生成新的待标注数据的标注数据;将新的输出数据作为实际输出数据,将新的待标注数据的标注数据作为期望输出数据,计算预设损失函数的新的函数值;采用梯度下降法,根据新的函数值对最近一次调参后得到的分类模型进行再次调参。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的装置中,该装置还包括:第一确定单元,被配置成响应于满足训练结束条件,将最近一次调参后得到的分类模型确定为训练完成的分类模型。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的装置中,输入数据表征语句,预设类别集合中的类别表征语句的情感标签;以及,该装置还包括:第二获取单元,被配置成获取目标语句;第二输入单元,被配置成将目标语句输入至训练完成的分类模型,得到与目标语句相对应的输出数据;第二确定单元,被配置成确定与目标语句相对应的输出数据包括的数值序列中的最大的数值;第三确定单元,被配置成将预设类别集合中与最大的数值相对应的类别,确定为目标语句的情感标签。

根据本公开的一个或多个实施例,本公开提供的用于标注数据的装置中,该装置还包括以下至少一项:第二生成单元,被配置成根据目标语句的情感标签,生成目标语句的回复语句;播放单元,被配置成播放与目标语句的情感标签相对应的音频;呈现单元,被配置成呈现与目标语句的情感标签相对应的图像;控制单元,被配置成控制目标设备执行与目标语句的情感标签相对应的操作。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取单元、第一输入单元和第一生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取待标注数据的单元”。

作为另一方面,本公开的实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待标注数据;将待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据,其中,分类模型用于表征输入数据和输出数据之间的对应关系,输出数据包括数值序列,数值序列中的各个数值表征输入数据属于预设类别集合中的各个类别的相对概率;根据与待标注数据相对应的输出数据包括的数值序列中的目标数值,生成待标注数据的标注数据,其中,目标数值为大于或等于预设阈值的数值。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1