标注信息处理方法、装置及电子设备与流程

文档序号:17726736发布日期:2019-05-22 02:33阅读:150来源:国知局
标注信息处理方法、装置及电子设备与流程

本申请涉及计算机技术领域,更具体地,涉及一种标注信息处理方法、装置及电子设备。



背景技术:

随着计算机技术的发展,更多的图像检测任务都可以配置给机器来完成。例如,对于一些直播图像或者视频内容的检测等。其中,机器在识别直播图像或者视频内容的过程中通常会基于一定的模型来进行识别。而机器所依靠的这些模型通常是基于前期标注的样本进行训练得到的。而样本的标注的准确性以及时效性还有待提升。而其中,标注员的标注能力是影响样本标注的准确性以及时效性的重要因素,因此,对标注员标注能力的反馈极为重要。



技术实现要素:

本申请提出了一种标注信息处理方法、装置及电子设备,以改善上述缺陷。

第一方面,本申请实施例提供了一种标注信息处理方法,包括:获取已标注样本集,所述已标注样本集对应标注员身份信息,所述已标注样本集包括多个已标注样本;确定所述已标注样本集的准确率,所述准确率用于表示所述已标注样本集中已标注样本的准确性;根据所述准确率设置与所述标注员身份信息对应的积分值。

第二方面,本申请实施例还提供了一种标注信息处理装置,包括:获取单元、确定单元和设置单元。获取单元,用于获取已标注样本集,所述已标注样本集对应标注员身份信息,所述已标注样本集包括多个已标注样本。确定单元,用于确定所述已标注样本集的准确率,所述准确率用于表示所述已标注样本集中已标注样本的准确性。设置单元,用于根据所述准确率设置与所述标注员身份信息对应的积分值。

第三方面,本申请实施例还提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述方法。

本申请提供的标注信息处理方法、装置及电子设备,获取每个标注员所标注的多个样本构成的已标注样本集,则已标注样本集包括多个已标注样本,并且该多个已标注样本均对应标注员身份信息。然后,获取所述已标注样本集的准确率,所述准确率用于表示所述已标注样本集中已标注样本的准确性,再根据该准确率设置与所述标注员身份信息对应的积分值。因此,通过根据标注员所标注的样本的准确率为该标注员设置一定的积分值,则该积分值能够反应标注员的标注样本的准确性,对标注员的能力评估,对提高标注员的标注能力提供参考。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本申请提出的一种标注信息处理方法的应用网络环境图;

图2示出了本申请实施例提供的一种检测界面示意图;

图3示出了本申请实施例提供的一种信息系统的架构示意图;

图4示出了本申请一实施例提供的一种标注信息处理方法的流程图;

图5示出了本申请另一实施例提供的一种标注信息处理方法的流程图;

图6示出了本申请另一实施例提供的一种标注信息处理方法中s504的流程图;

图7示出了本申请又一实施例提供的一种标注信息处理方法的流程图;

图8示出了本申请实施例提供的标签的示意图;

图9示出了本申请再一实施例提供的一种标注信息处理方法的流程图

图10示出了本申请再又一实施例提供的一种标注信息处理方法的流程图;

图11示出了本申请实施例提供的标注信息处理装置的模块框图;

图12示出了本申请实施例提供的电子设备的结构框图;

图13示出了本申请实施例的用于保存或者携带实现根据本申请实施例的信息处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

请参阅图1,示出了本申请实施例提供的标注信息处理方法及装置的应用场景图,如图1所示,标注节点10用于对样本进行标注,检测节点20用于对标注节点10标注后生成的已标注样本的标注结果进行检测。需要说明的是,标注节点10可以包括有多个标注设备,其中该标注设备可以为智能手机、平板电脑或者计算机等。作为一种方式,在标注设备中可以显示用户操作界面以便用户对样本进行标注。其中,该用户操作界面可以客户端的方式进行显示,也可以以网页的形式进行显示。

随着计算机技术与数学计算的相结合,人们将更多的任务交给了机器去执行。例如,配置机器去识别网络直播中的图像是否有违规内容,再例如配置机器去识别网络留言中是否有违规内容等。其中,可以直接执行识别任务的机器通常是基于预先训练好的模型来执行的识别任务,而该模型在训练过程中需要基于已标注样本进行训练。那么图1中的标注节点10执行的就是对于样本的标注,进而输出已标注样本。然后,检测节点20会对已标注样本的标注结果进行检测,以便检测出已标注样本的标注结果是否准确。例如,标注节点10输出有已标注样本a为违规内容,对于该已标注样本a,检测节点20对进一步的检测该已标注样本a是否真的为违规内容,具体地,可以对所有已标注样本中的标注正确的样本和标注错误的样本通过特定的标记标注和区分。如图2所示的检测界面,可以通过如图2所示的界面标识对于已标注样本的标注结果的不同检测结果,例如,在某个已标注样本通过显示打钩的方式,标记该已标注样本属于标注正确的样本,在某个已标注样本通过显示叉的方式,标记该已标注样本属于标注错误的样本。

其中,作为一种方式,标注节点以及检测节点可以均运行于同一个服务器中。在这种情况下,包括标注节点以及检测节点的信息系统运行于一个服务器中,而标注节点以及检测节点可以看作是该服务器中两个独立运行的软件模块。而标注设备以及检测设备可以与该同一个服务器连接。

作为另外一种方式,标注节点以及检测节点可以分别基于不同的服务器来实现。在这种情况下,如图3所示,在图3所示的信息系统1中,标注节点10包括有多个标注设备111以及标注服务器112。检测节点20包括有多个检测设备121以及检测服务器122。其中,标注设备111用于对还未标注的样本进行标注,进而将标出结果输出到标注服务器112中进行存储。而标注服务器112可以将已标注样本发送到检测节点20的检测服务器122中,然后检测服务器122再按照一定的规则将已标注样本分发到多个检测设备121中进行检测。

发明人在研究中发现,标注员的标注能力能够影响着整个待标注样本的标注的及时性和准确性,而标注员在标注完成之后,仅仅知道自己所标注的样本是否通过审核,即准确率达标,而无法知道自己的标准能力的高低,也就无法针对能力的不足而自我学习,而导致标注能力无法得到积极有效地提升,进而影响了整个待标注样本的标注的及时性和准确性。

因此,为了克服上述缺陷,本申请实施例提供了一种标注信息处理方法,如图4所示,该方法应用于电子设备,该电子设备可以是上述的检测服务器,也可以是标注服务器,具体地,该方法包括:s401至s403。

s401:获取已标注样本集,所述已标注样本集对应标注员身份信息,所述已标注样本集包括多个已标注样本。

其中,标注服务器为每个标注员分配一个标注任务,该标注任务内包括多个待标注样本以及任务描述信息,其中,该任务描述信息用于说明需要标注的目标的条件和需求,例如,该任务描述信息可以是“标注出亚洲女性”,其中,“亚洲”和“女性”就是对要标注的目标的条件和需求。

具体地,标注服务器将标注任务发送至标注设备,则该标注设备可以是一个客户端,例如,可以是一个应用程序,也可以是一个网页的界面,而标注员通过账号和密码登录该标注设备,在该标注设备内根据该任务描述需求对多个待标注样本标注,并将已标注样本发送至标注服务器,由标注服务器发送至检测服务器进行准确率审核,或者,标注服务器自己审核。

另外,考虑到待标注样本的数量庞大,如果得到所有的待标注样本均标注完成之后再审核准确率的话,一方面会导致审核的周期过长,另一方面也会造成通信链路的数据拥堵,因此,为了便于及时的发现标注节点已经生成有已标注样本,服务器会实时或者周期性的对标注节点的标注行为进行检测,从而便于实现在标注节点有已标注样本生成的情况下及时触发开始后续的对已标注样本的准确性进行判断的步骤。

需要说明的是,对于包括标注节点以及检测节点的信息系统的架构不同,具体执行对标注节点的标注行为进行检测的执行设备可以不同。作为一种方式,若标注节点以及检测节点均运行在同一个服务器上,在这种情况下,标注节点以及检测节点为两个软件模块,进而是由检测节点来执行对标注节点的标注行为进行检测。于本申请实施例中,本方法的执行主体是检测节点,则具体地,可以是检测节点中的检测服务器或者检测设备。

则若检测到所述标注节点有已标注样本生成,从生成的所述已标注样本中获取待检测已标注样本。

作为一种方式,检测节点将所述已标注样本进行分片,得到多个分片,则每个分片作为一个已标注样本集。其中,对生成的已标注样本进行分片可以理解为将生成的已标注样本分成多个部分,每个分片会包括一部分的已标注样本。例如,若获取到的已标注样本包括已标注样本a、已标注样本b、已标注样本c、已标注样本d、已标注样本e以及已标注样本f。那么若将该获取到的已标注样本进行分片可以得到第一分片以及第二分片,其中,第一分片可以包括已标注样本a、已标注样本b、已标注样本c,而第二分片可以包括有已标注样本d、已标注样本e以及已标注样本f。也就说,一个分片不限于一个标注任务或者一类已标注样本。

作为一种方式,可以按照指定的监控周期将所述已标注样本进行分片,得到多个分片。

可以理解的是,对于监控周期可以由用户预先配置。例如,可以配置监控周期为5分钟,也可以配置监控周期为10分钟等。那么在这种情况下,后续在进行分片的过程中,可以按照监控周期的时长进行分片,那么一个分片所包括的已标注样本则表征一个监控周期内所生成的已标注样本。还是以前述的已标注样本a、已标注样本b、已标注样本c、已标注样本d、已标注样本e以及已标注样本f为例。在监控周期为5分钟的情况下,若识别到已标注样本a、已标注样本b为标注开始时刻起5分钟内生成的,那么就将已标注样本a、已标注样本b分为第一分片,而若识别到已标注样本c、已标注样本d为标注开始时刻起5分钟到10分钟内生成的,那么就将已标注样本a、已标注样本b分为第二分片,而若识别到已标注样本e、已标注样本f为标注开始时刻起10分钟到15分钟内生成的,那么就将已标注样本e、已标注样本f分为第三分片。

因此,随着标注员在对待标注样本标注的过程中,按照时间周期,在每个时间周期内获取标注员在该时间周内完成的已标注样本,从而得到该时间周期对应的已标注样本集,需要说明的是,该已标注样本集可以是标注员在该时间周内完成的所有已标注样本,也可以是从标注员在该时间周内完成的所有已标注样本抽取一定比例的样本作为已标注样本集。

作为另外一种方式,还可以按照标注样本的数量来进行分片。可选的,用户可以预先配置每个分片所包括的已标注样本的阈值数量。在这种情况下,检测节点可以基于前述的阈值数量进行分片,在使得前一个分片中所分配的已标注样本的数量等于阈值数量以后,再继续生成下一个分片。例如,生成的已标注样本包括有已标注样本a、已标注样本b、已标注样本c、已标注样本d、已标注样本e以及已标注样本f。若所配置的分片的阈值数量为3,那么在这种情况下,检测节点可以生成包括已标注样本a、已标注样本b、已标注样本c等3个已标注样本的第一分片,然后还会生成包括已标注样本d、已标注样本e以及已标注样本f等3个已标注样本的第二分片。若所配置的分片的阈值数量为4,那么在这种情况下,检测节点可以生成包括已标注样本a、已标注样本b、已标注样本c以及已标注样本d等4个已标注样本的第一分片,然后还会生成包括已标注样本e以及已标注样本f等2个已标注样本的第二分片。

当然,上述获取已标注样本集的方式,也可以是在用户将所有待标注样本标注完成之后,再从已完成的标注样本中获取已标注样本集,例如,可以是抽取一定比例的样本作为已标注样本集。

另外,由于每个标注设备所上传的已标注完成的样本均与登录该标注设备的标注员身份信息对应,例如,该标注员身份信息可以是标注员的账号,则标注服务器获取的已标注样本集均对应一个标注员身份信息。

s402:确定所述已标注样本集的准确率,所述准确率用于表示所述已标注样本集中已标注样本的准确性。

在获取到已标注样本集之后,将已标注样本集发送至检测设备,用检测人员通过该检测设备对已标注样本集中的各个已标注样本的正确性审核,具体地,检测人员可以通过检测设备对已标注样本集中的各个已标注样本进行标记,则如果该已标注样本是正确的,则将该已标注样本设置第一标记,如果该已标注样本是错误的,则将该已标注样本设置第二标记,其中,第一标记和第二标记可以是数字、参数或者符号,例如,可以是为每个正确的已标注样本设置第一参数,为每个错误的已标注样本设置第二参数,最后统计第一参数和第二参数就能够确定已标注样本集所有的正确的已标注样本的第一数量以及所有的错误的已标注样本的第二数量。其中,第一参数和第二参数的输入,可以通过在每个样本的对位位置处选择第一符号或者第二符号而输入,例如,图2中的所示,该样本为图片,则在图片上选择“√”,表示输入的是第一参数,而在图片上选择“×”,则表示输入的是第二参数。

然后,再计算第一数量与已标注样本集的总数量的比值,就能够得到已标注样本集的准确率,则准确率用于表示所述已标注样本集中已标注样本的准确性,具体地,该准确率用于表示已标注样本集中正确标注的样本占总样本数的比值,则这个准确率的值越高则表示该已标注样本集中的正确的样本占比越高,则也表示了该已标注样本集对应的标注员的标注能力越强。

s403:根据所述准确率设置与所述标注员身份信息对应的积分值。

为了更加直观的体现标注员的标注能力,可以通过积分的方式,根据该标注员所标注的样本的准确率为该标注员对应的标注员身份信息设置一定的分值,即与所述标注员身份信息对应的积分值,则该积分值可以累加,具体地,标注员每次提交的已标注样本集,都会被根据该已标注样本集的准确率为该标注员身份信息设置一定的分值,则多个已标注样本集对应的分值,就是该标注员身份信息对应的积分值,则该积分值不仅能够表现出标注员的标准的准确性,还能够表现出该标注员标注的样本的数量,即数量越多,则送检的已标注样本集越多,则累加的分值越高,就积分值越高。

其中,根据所述准确率设置与所述标注员身份信息对应的积分值的具体实施方式可以,设置一个准确率阈值,如果所获得到的所述已标注样本集的准确率低于或等于该准确率阈值,则积分值为a,而如果高于该准确率阈值,则积分值为b,其中,b为大于0的数值,例如,b可以是1,其中,a可以是非正数,例如,可以是0,当然也可以是一个负数,比如,-1。

其中,准确率阈值为根据实际需求而设定的数值,则高于该准确率阈值,表明该已标注样本集能够通过检测,即该已标注样本集能够输出并被使用,例如,可以应用于机器学习模型创建的数据集,则可以给标注员身份信息设置一个正数的积分值。而如果已标注样本集的准确率低于或等于该准确率阈值,则表明该已标注样本集无法通过检测,即该已标注样本集能够输出不满足被使用的标准,即输入不合格的标注结果,则给标注员身份信息设置非正数的积分,例如,可以是0或者一个负数,例如,-1,则在标注员所标注的样本无法通过检测的时候,可以扣除一定分值,也可以不积分。

于本申请实施例中,上述a为0,b的数值可以是1,也可以是根据其他策略而有所调整,具体地,可以参考后续实施例。则针对标注员所标注的样本集,如果准确率通过检测,则赋予正数分值,即加分,而如果不通过,则不加分。则作为一种实施方式,可以给每个标注员身份信息设置一个积分参数,则上述方法得到的积分值可以更新该积分参数。

另外,上述的积分值是对应说获取的已标注样本集的,如果依据标注员所标注的所有样本得到了多个已标注样本集,例如,上述的多个分片。则标注员身份信息对应了多个已标注样本集,则获取每个已标注样本集的准确率,并且根据每个已标注样本集的准确率设置所述标注员身份信息对应的一个积分值,然后将所有的积分值累加,得到标注员所得到的整体分值。因此,针对标注员身份信息对应的多个已标注样本集,可以分别获取每个已标注样本集,并分别对每个已标注样本集执行本申请的方法,然后,分别得到每个已标注样本集对应的积分值,将所有的积分值累加,得到标注员整个标注样本中的总分值。

另外,得到的积分值或者总分值可以推送给标注员身份信息对应的客户端,具体地,该客户端可以是标注员用于标注样本的客户端,例如,可以是安装在标注终端内的客户端,具体地,客户端能够将所获取的分值展示,其展示方式可以是将多个标注员身份信息以及所对应的分值展示,例如,按照分值由高到低的顺序展示成一个积分表,例如,可以是在客户端的主页面内展示,使得每个登录该客户端的标注员都能够看到该积分表。在另一些实施例中,能够得到标注员身份信息所对应的每个分片,即每个已标注样本集的积分值,然后,将每个已标注样本集的任务描述信息与每个已标注样本集的积分值对应展示,则标注员能够通过该展示的内容,确定自己在那个任务下的分值比较低,从而能够对应提高该分值较低的任务对应的标注能力。

再者,根据准确率赋值,除了采用上述的方式,还可以根据不同的准确率为标注员身份信息增加不同的积分值,具体地,请参阅图5,该方法包括:s501至s504。

s501:获取已标注样本集,所述已标注样本集对应标注员身份信息,所述已标注样本集包括多个已标注样本。

s502:确定所述已标注样本集的准确率,所述准确率用于表示所述已标注样本集中已标注样本的准确性。

s503:获取预先设定的准确率与分值的对应关系,所述对应关系内包括多个准确率以及每个所述准确率对应的分值,且所述准确率越高所对应的分值越高。

具体地,预先设置一个准确率与分值的对应关系,则该对应关系可以存储在检测服务器内,具体地,对应关系内包括多个准确率以及每个所述准确率对应的分值,作为一种实施方式,该对应关系可以如下表所示:

表1

上述表1中,[95%,100%]表示一个准确率的范围,具体地是95%至100%,且包含两个端点95%和100%,也就是说,如果已标注样本集的准确率为95%、97%或100%,则95%、97%或100%均位于[95%,100%]范围内,则所对应的分值均为2。

另外,上述表1中的任务信息可以包括任务类别或者任务标识,也就是说,不同的任务所对应的准确率与分值的对应关系是不同的,具体地,假如两个已标注样本集属于不同的任务,但是两个已标注样本集的准确率形同,或者位于上表1中的同一个准确率范围内,但是由于二者的任务不同,则所获取的分值不同,例如,同样的准确率下,第一任务类别比第二任务类别的分值要高,所依据的原则是,任务难度越大,所获得分值越高。

例如,样本分类与样本特征标注,所对应的同样的准确率的分值是不同的,具体地,可以是同样的准确率下,样本分类的任务对应的分值小于样本特征标注的任务的分值,也就是说,样本分类的任务难度大于样本特征标注的任务难度。

而已标注样本集所对应的任务类别可以在获取到已标注样本集对应的任务描述信息中获取,例如,该任务描述信息为一个文本信息,通过对文本信息中的关键字提取能够确定该已标注样本集的任务类别,例如,一个任务描述信息是“将所有图片按人物数量分类”,则识别到关键字“分类”,可以确定该已标注样本集的任务类别是样本分类,而如果一个任务描述信息是“标记出图片中的所有女性”,则识别到关键字“标记”,可以确定该已标注样本集的任务类别是样本分类。当然,上述的任务类别,也可以是在为标注员分别任务的时候,已经设定好的,可以写入标注任务内的任务描述信息中。

另外,如果已标注样本集的准确率过低,则不给该标注员身份信息对应的积分参数加分,具体的实施方式可以是,在执行s503中加入对准确率的判断机制,即获取预先设定的准确率与分值的对应关系的具体实施方式为:判断所述已标注样本集的准确率是否低于指定数值,如果低于指定数值,则设置所述标注员身份信息对应的积分值为0,即该标注员身份信息对应的积分参数加0,也即是本次未给标注员身份信息加分。而如果是高于或等于指定数值,则执行获取预先设定的准确率与分值的对应关系,即可以根据对应关系得到已标注样本集的准确率对应的分值。

再者,还可以在上述的准确率与分值的对应关系中,设置低于指定数值的所有准确率的分值均为0,具体地,所述对应关系中,低于指定数值的准确率所对应的分值为0,例如,上述表1中的准确率范围在[0,59%]内的准确率的分值为0,即准确率如果低于或等于59%,则所对应的分值均为0。

s504:在所述对应关系内查找与所述已标注样本集的准确率对应的第一分值,作为所述标注员身份信息对应的积分值。

在上述的对应关系中,查找所述已标注样本集的准确率所对应的分值,记为第一分值,然后将所查找到的第一分值作为标注员身份信息对应的积分值。例如,所述已标注样本集的准确率为88%,则查找该准确率在上述表1中所属于的准确率的范围,即在[80%,94%]的准确率范围内,则该准确率范围内的分值为1.5,则可以确定已标注样本集的准确率对应的分值为1.5,即第一分值为1.5。然后,将1.5作为标注员身份信息对应的积分值,也就是说,本次标注员通过该已标注样本集,获得积分1.5。

另外,一个已标注样本集内可以能够多个任务,则可以根据多个任务将已标注样本集划分为多个已标注样本子集,然后,再确定每个已标注样本子集的子准确率,然后再根据每个已标注样本子集的任务的类别确定每个已标注样本子集对应的准确率与分值的对应关系,然后在根据每个已标注样本子集对应的准确率与分值的对应关系,确定每个子准确率对应的子分值,然后将所有的子分值相加,就得到了已标注样本集的准确率对应的第一分值。

再者,考虑到所标注的样本数量不同的时候,标注的难度是不同的,而难度越高,所赋予的积分值应当更高,例如,两个已标注样本集的准确率均是80%,则其中一个已标注样本集中所有样本的数量为第一数量,而另一个为第二数量,则如果第一数量少于第二数量,则第一数量对应的已标注样本集的分值应当低于第二数量所对应的分值,因为数量越多,越有可能涵盖标注员不擅长的标注领域。则还可以根据已标注样本集中样本的数量调整上述得到的第一分值,从而调整与所述标注员身份信息对应的积分值,具体地,s504的具体实施方式如图6所示,可以包括:s5041至s5044。

s5041:获取所述已标注样本集中所有已标注样本的数量,记为总样本数。

在一些实施例中,可以设置一个变量x,该变量x用于记录所述已标注样本集中所有已标注样本的数量,具体地,获取总样本数,将该总样本数赋值给变量x。

s5042:在所述对应关系内查找与所述已标注样本集的准确率对应的第一分值。

另外,s5042与s5041的执行顺序不限制,可以先在所述对应关系内查找与所述已标注样本集的准确率对应的第一分值,再获取所述已标注样本集中所有已标注样本的数量,记为总样本数。

s5043:根据所述总样本数调整所述第一分值以得到第二分值,其中,针对同样的第一分值,所述总样本数越多所述第二分值越高。

在一些实施例中,预先设置有总样本数与附加分的附加对应关系,该附加对应关系内包括多个总样本数以及每个所述总样本数对应的附加分,具体地,在该附加对应关系内可以包括多个总样本数区间以及每个总样本数区间对应的附加分,具体地,可以如表2所示:

表2

其中,表2中的区间范围所表示的数值的包含关系以及任务信息的含义可参考上述表1中的描述,在此不再赘述。其中,[800,∞)表示800及800以上。则在获取到所述已标注样本集对应的总样本数之后,确定该总样本数在表2中属于哪个区间,例如,该总样本数为1000,则属于[800,∞]的区间范围内,所对应的附加分为0.6。则表2中,总样本数越高,所对应的附加分越高,即所述已标注样本集的总样本数越高,所对应的附加分越高。

则根据所述总样本数调整所述第一分值以得到第二分值的具体实施方式可以是:获取总样本数与附加分的附加对应关系,该附加对应关系内包括多个总样本数以及每个所述总样本数对应的附加分;在所述附加对应关系中查找已标注样本集的总样本数对应的附加分。具体地,在通过附加对应关系确定已标注样本集的总样本数对应的附加分的实施方式中,可以在执行获取总样本数与附加分的附加对应关系之前,判断该总样本数是否大于指定阈值,如果大于,则执行获取总样本数与附加分的附加对应关系的步骤以及后续的步骤,否则,直接将s5042中确定的第一分值作为所述标注员身份信息对应的积分值。

在另一些实施中,根据所述总样本数调整所述第一分值以得到第二分值的具体实施方式可以是:判断该总样本数是否大于指定阈值,如果大于,则获取总样本数与指定阈值的差值,并且确定所述差值与指定阈值的比值,根据所述比值设置附加分。例如,可以是将比值乘以常量得到附加分。其中,指定阈值可以根据经验而设定,也可以统计在一个时间周期内,所有标注员身份信息对应的总样本数,根据多个总样本数确定指定阈值,例如,可以获取所有总样本数的平均值,将该平均值作为指定阈值,然后再根据该指定阈值和已标注样本集对应的总样本数确定该已标注样本集对应的附加分。其中,所述已标注样本集的总样本数越高,所对应的附加分越高。

而如果该已标注样本集的总样本数小于或等于指定阈值,则设置已标注样本集对应的附加分为0。

然后,再根据得到的附加分调整第一分值以得到第二分值,具体地,可以是获取第一分值与附加分之和,该第一分值与附加分之和作为第二分值,具体地,则如果当前在所述对应关系内查找与所述已标注样本集的准确率对应的第一分值为1.2,而得到的附加分为0.6,则将0.6与1.2相加,得到的分值为1.8,即该第二分值为1.8,也就说标注员身份信息对应的积分值为1.8,则不仅准确率高的已标注样本集的积分值比较高,而且准确率高的同时已标注样本集的总样本数也高的情况下,得到的积分值更高。

s5044:将所述第二分值作为所述标注员身份信息对应的积分值。

则在一些实施例中,所述标注员身份信息对应的积分值的获取方式可以是:

j=b+c,

其中,j为所述标注员身份信息对应的积分值,b为在所述对应关系内查找与所述已标注样本集的准确率对应的第一分值,c为根据所述总样本数确定的附加分,则c的获取方式可以采用上述的附加对应关系获取。

在另一些实施例中,所述标注员身份信息对应的积分值的获取方式可以是:

其中,j为所述标注员身份信息对应的积分值,d1为上述指定阈值,x为已标注样本集的总样本数,b为在所述对应关系内查找与所述已标注样本集的准确率对应的第一分值,则在x小于或等于d1的时候,将b赋值为j,则x大于d1的时候,获取(1+(x-d1)/d1)的值,将该值赋值给j。

也就是说,在已标注样本集的总样本数大于指定阈值的情况下,才额外增加分值,而在已标注样本集的总样本数小于或等于指定阈值的情况下,不额外增加分值。

另外,除了可以根据上述的任务类别确定积分值之外,还可以根据已标注样本集对应的难度系数而确定,则该难度系数反应了待标注样本被标注的难度,则可以根据难度系数越高,则得到的积分值越高的原则,根据该难度系数和所述已标注样本集的准确率设置与所述标注员身份信息对应的积分值。具体地,请参阅图7,该方法包括:

s701:获取已标注样本集,所述已标注样本集对应标注员身份信息,所述已标注样本集包括多个已标注样本。

s702:确定所述已标注样本集的准确率,所述准确率用于表示所述已标注样本集中已标注样本的准确性。

s703:确定所述已标注样本集对应的难度系数。

该难度系数反应了待标注样本被标注的难度,则难度系数越高,则得到的积分值应当越高,具体地,该难度系数可以是在为标注员分配标注任务的时候,随待标注样本一起发送至标注员的标注设备内,例如,该标注任务内包括多个待标注样本、任务描述信息和难度系数,其中,该难度系数可以是数值,则该数值越高表明难度系数越大。则该难度系数的设置可以根据试标人员的试标样本所需要的时间而设定,例如,可以是在分配该任务之前,先由试标人员对该任务内的待标注样本标注,确定该试标人员所耗费的时间长度,记为试标时间长度。获取该试标时间长度,根据该试标时间长度设定难度系数,即试标时间长度越长,则难度系数越高。

另外,该难度系数还可以根据样本中的目标物以及任务描述信息而确定,具体地,该任务描述信息可以包括多个标签,如图8所示,该任务描述信息为“标记出长头发的女生”,则该任务描述信息内包括第一标签801和第二标签802,则该第一标签801对应的文本为“长头发”,第二标签802对应的文本为“女生”,则每一个标签对应一个标注条件,例如,第一标签表示需要从多个样本中找到长头发的目标,具体地,本申请内的样本可以是图片,则第一标签对应的标注需求是在图片中找到长头发的目标,例如,长头发的人。而第二标签表示在图片中找到性别为女性的人。

则确定所述已标注样本集对应的难度系数的具体实施方式可以是确定所述已标注样本集所对应的所有标签,每个所述标签对应一个标注条件;基于所述所有标签确定所述难度系数。

则在一些实施例中,在获取到多个标签之后,可以根据标签的数量确定难度系数,例如,标签越多则表示难度越大,那么可以定义每个标签的基本难度值为e,然后标签数量乘以e,就是难度系数。

在另一些实施例中,还以根据标签的类别确定难度系数,具体地,不同的类别表示标注需求的类型不同,例如,长头发属于发型类别,而女生输入性别类,则从不同性别中找到女性比从不同发型中找到长发更容易,因为,一般人的性别特征比较明显,而发型的长短比较难确定,一方面是会被遮挡,另一方面对于多长的发型算长发,比如,齐腮的发型算长发还是短发,会存在较大争议。

则确定每个标签的类别,再根据每个标签的类别确定每个标签的基本难度值,再降所有的标签的基本难度值相加,得到已标注样本集所对应的难度系数。而标签的类型所对应的基本难度值可以根据预先设定的标签类别与难度值的对应关系获取。

s704:根据所述难度系数和所述准确率设置与所述标注员身份信息对应的积分值。

作为一种实施方式,预先设定有多个准确率与分值的对应关系,且每个对应关系对应一个难度系数,且每个对应关系内包括多个准确率以及每个所述准确率对应的分值,则在获取到难度系数之后,在多个准确率与分值的对应关系中,查找与所述难度系数对应的对应关系,然后,再在该对应关系中,查找准确率对应的分值作为与所述标注员身份信息对应的积分值。其中,在同样的准确率的情况下,难度系数越高,该准确率对应的分值越高。

作为另一种实施方式,还可以是确定所述准确率对应的第一分值;根据所述难度系数调整所述第一分值以得到第三分值,其中,针对同样的第一分值,所述难度系数越大所述第二分值越高;将所述第三分值作为所述标注员身份信息对应的积分值。

则确定所述准确率对应的第一分值的具体实施方式可以参考前述图5中的实施方式,在此不再赘述。而在获取到第一分值之后,根据该难度系数调整第一分值,具体地,可以是将难度系数乘以第一分值,将所得的乘积作为第三分值,例如,第一分值为1.2,而难度系数为1.6,则得到的第三分值为1.9。另外,还可以是确定该难度系数对应的难度分值,获取该难度分值与第一分值的和,将所求的和作为第三分值,例如,难度系数对应的分值为1.6,而第一分值为1.2,则得到的第三分值为2.8。其中,该难度系数对应的难度分值可以是根据预先设定的难度系数与难度分值的难度分对应关系而确定,具体地,该难度分对应关系中包括多个难度系数和每个难度系数对应的难度分值,则在该难度分对应关系中查找所述已标注样本集对应的难度系数所对应的难度分值。

另外,还可以根据上述的难度系数、总样本数和准确率共同确定所述标注员身份信息对应的积分值,作为一种实施方式,可以是基于所述准确率确定第一分值,再根据所述总样本数调整所述第一分值以得到第二分值,再根据难度系数调整第二分值得到第三分值,则该根据难度系数调整第二分值得到第三分值的方式可以参考上述根据所述难度系数调整所述第一分值以得到第三分值的实施方式,然后将调整后的第三分值作为所述标注员身份信息对应的积分值。

例如,如果1000张图片,准确率80%,则得分1.5分,即第一分值为1.5分,然后,根据该总样本数,即1000,对1.5分调整得到第二分值,即(1+(1000-700)/1000)=1.9,然后,再根据难度系数对第二分值调整,例如,例如调整方式为1.9*1.5,即难度系数为1.5,则得到的第三分值为2.85,则最终得到的积分值为2.85。

而作为另一种实施方式,可以先根据难度系数对第一分值调整得到第三分值,将该第三分值作为新的第一分值,再根据总样本数对新的第一分值调整,得到第二分值,将第二分值作为该积分值,具体的实施范式可以参考前述实施例,在此不再赘述。

再者,上述提及的根据基于所述所有标签确定所述难度系数的具体实施方式中,还可以考虑标签的分级情况,具体地,请参阅图9,示出了本申请提供的一种标注信息处理方法,该方法包括:s901至s908。

s901:获取已标注样本集,所述已标注样本集对应标注员身份信息,所述已标注样本集包括多个已标注样本。

s902:确定所述已标注样本集的准确率,所述准确率用于表示所述已标注样本集中已标注样本的准确性。

s903:确定所述已标注样本集所对应的所有标签。

s904:确定每个所述标签的主类别。

作为一种实施方式,可以是在上述试标过程中或者在分配标注任务的时候,为该标注任务设定多个标签,具体地,可以通过标注任务的任务描述信息体现,例如,上述“标记出长头发的女生”中的第一标签“长头发”和第二标签“女生”。

再者,可以预先设定一个标签类别,而标签下有对应有子标签,而子标签的类别为子类别,具体地,可以预先设定并记录,而在执行本方法的时候,由检测节点获取到标注任务的多个标签,并在预先设定好的标签与类别的对应关系中查找该标签对应的主类别。

其中,定义已标注样本集所对应的所有标签,每个标签对应的类别为子类别,而该子类别的上一个类别为主类别,例如,第一标签为长头发,则该第一标签对应的子类别为长头发,而该第一标签对应的主类别为发型,则“发型”为“长头发”的上一个类别,则该主类别下还可能包括短发、板寸、秃顶等多个子类别。

s905:确定所述已标注样本集中每个所述标签对应的目标物,其中,所述标签与该标签对应的目标物属于同一个主类别。

在获取到每个所述标签的主类别之后,在所述已标注样本集中分别查找与每个标签属于同一个主类别的目标物。例如,该主类别是发型,且该样本为图片,则将已标注样本集中每张图片内的发型标记出,以得到属于发型类别的所有目标物。具体地,可以在图片上将所查找到的目标物标记出。

s906:根据每个所述标签所对应的目标物确定该标签的子难度系数。

已标注样本集中的每个标签对应的目标物能够反应出该标注任务的属性维度,具体,该属性维度可以包括人物性别、人物国籍、场景复杂度等,)属性越多,难度系数越大。具体地,该属性维度与主类别相关,则所有标签中的不同的主类别的数量越多,则属性维度越高。

则在获取到目标物之后,则标注员在依据标签对待标注样本标注的时候,该目标物可以作为干扰物,即有可能会影响标注员的标注结果,使得错误将该目标物作为与标签属于同一个子类别的物体,例如,目标物中的短发会错误作为长发而被标注员标注,而使得准确率降低。

则根据每个所述标签所对应的目标物确定该标签的子难度系数的方式可以是统计每个标签对应的目标物的数量,则数量越多表明干扰越大,则难度系数越高,从而根据目标物的干扰物数量确定每个标签对应的子难度系数,具体地,预先设置有干扰物数量与自难度系数的对应关系,根据该对应关系,查找在该对应关系中,每个标签对应的目标物的数量所对应的子维度系数。

另外,在另一些实施例中,在获取到每个标签对应的目标物之后,还可以对该目标物所述的子类别进行归类,从而统计出每个标签对应的所有目标物中的子类别的数量,再根据该子类别的数量为该标签设置子难度系数,具体地,确定每个所述标签对应的目标物的子类别,其中所述目标物的子类别与所述标签的子类别均属于该标签对应的主类别;获取每个所述标签对应的目标物的子类别的分类数量;根据所述分类数量确定所述子难度系数,其中,所述分类数量越多所述子难度系数越高。

以上述第一标签为例,在所有已标注样本集中查找属于发型类别的目标物,作为一种实施方式,该样本为图片,则在已标注样本集中的每个图片中查找输入发型的目标物,并且统计各个目标物的子类别,即属于长发还是短发、板寸等类别。然后,统计所有目标物所包含的子类别的分类数量,则该分类数量可以理解为所有子类别的种类,具体地,如果该第一标签对应的目标物所述的类别包括长发和短发,则该标签对应的目标物的子类别的分类数量为2。

然后再获取该分类数量对应的子难度系数,具体地,可以根据预先设定的分类数量与子难度系数的对应关系而确定,当然,也可以是设定一个子第一基础难度分值,则子难度系数等于分类数量乘以第一基础难度分值,则该分类数量越多,子难度系数越高。

s907:根据所有标签的子难度系数得到所述已标注样本集对应的难度系数。

然后依次根据s906的实施方式获取每个标签的子维度系数,再将所有的子维度系数相加,得到所述已标注样本集对应的难度系数。

例如,该已标注样本集的标注任务对应两个标签,分别为第一标签和第二标签,则获取第一标签对应的第一子难度系数,以及第二标签对应的第二子难度系数,将第一子难度系数与第二子难度系数求和,求和之后的结果作为所述已标注样本集对应的难度系数。

s908:根据所述难度系数和所述准确率设置与所述标注员身份信息对应的积分值。

另外,还可以根据每个标签的级别确定难度系数,具体地,请参阅图10,该方法包括:s1001至s1007。

s1001:获取已标注样本集,所述已标注样本集对应标注员身份信息,所述已标注样本集包括多个已标注样本。

s1002:确定所述已标注样本集的准确率,所述准确率用于表示所述已标注样本集中已标注样本的准确性。

s1003:确定所述已标注样本集所对应的所有标签。

s1004:确定每个所述标签被预先设定的级别数。

其中,该级别是为预先设定的一个分级,具体地,该分级可以如下表3所示:

表3

其中,上述标签对应的级别表格可以是预先获取的,根据该级别表格查找已标注样本集对应的各个标签的级别,例如,第一标签为长头发,则该第一标签对应第三级别,即第一标签的级别数为3。

s1005:基于每个所述标签的级别数确定该标签的子难度系数,其中,所述级别数越多所述子难度系数越大。

具体地,确定该级别数对应的子难度系数,作为一种实施方式,预先设置有级别数与子难度系数的对应关系,然后在该级别数与子难度系数的对应关系中查找已标注样本集对应的各个标签的级别数对应的子难度系数。作为另一种实施方式,标签的级别数对应的子难度系数计算方式可以是获取级别数与第二基础难度分的乘积,将该乘积作为标签的级别数对应的子难度系数,因此,标签的级别数越大,则所对应的子难度系数越高。

则该标签的级别数可以反映出任务的难度,例如,该标签为第三级别,则在标注的时候,标注员需要先在图片中确定外貌特征,即第一级别对应的特征在,然后再从外貌特征中确定发型特征,即在第一级别对应的特征点进一步查找第二级别特征点,然后再从发型中查找长发,因此,基本越多,需要进一步查找的内容越多,因此,通过设定级别数越大,则所对应的子难度系数越高,使得标注员完成级别越高的标签的标注任务时,得到的分数更高。

s1006:根据所有标签的子难度系数得到所述已标注样本集对应的难度系数。

另外,还可以根据标签的级别数和属性共同计算难度系数,具体地,则根据所有标签的子难度系数得到所述已标注样本集对应的难度系数的具体实施方式还可以是:根据每个所述标签的主类别确定每个所述标签的第一子难度系数,根据每个所述标签的级别数确定每个所述标签的第二子难度系数,将每个标签的第一子难度系数和第二子难度系数相加得到第三子难度系数,将该第三自难度系数作为该标签的子难度系数,然后再执行根据所有标签的子难度系数得到所述已标注样本集对应的难度系数的操作,其中,根据每个所述标签的主类别确定每个所述标签的第一子难度系数以及根据每个所述标签的级别数确定每个所述标签的第二子难度系数均可以参考以上描述的实施例。

s1007:根据所述难度系数和所述准确率设置与所述标注员身份信息对应的积分值。

请参阅图11,其示出了本申请实施例提供的一种标注信息处理装置的结构框图该装置可以包括:获取单元1101、确定单元1102和设置单元1103。

获取单元1101,用于获取已标注样本集,所述已标注样本集对应标注员身份信息,所述已标注样本集包括多个已标注样本。

确定单元1102,用于确定所述已标注样本集的准确率,所述准确率用于表示所述已标注样本集中已标注样本的准确性。

设置单元1103,用于根据所述准确率设置与所述标注员身份信息对应的积分值。

具体地,设置单元1103还用于获取预先设定的准确率与分值的对应关系,所述对应关系内包括多个准确率以及每个所述准确率对应的分值,且所述准确率越高所对应的分值越高;在所述对应关系内查找与所述已标注样本集的准确率对应的第一分值,作为所述标注员身份信息对应的积分值。进一步地,设置单元1103用于获取所述已标注样本集中所有已标注样本的数量,记为总样本数;在所述对应关系内查找与所述已标注样本集的准确率对应的第一分值;根据所述总样本数调整所述第一分值以得到第二分值,其中,针对同样的第一分值,所述总样本数越多所述第二分值越高;将所述第二分值作为所述标注员身份信息对应的积分值。

另外,设置单元1103还用于确定所述已标注样本集对应的难度系数;根据所述难度系数和所述准确率设置与所述标注员身份信息对应的积分值。进一步地,设置单元1103根据所述难度系数和所述准确率设置与所述标注员身份信息对应的积分值的具体实施方式为:确定所述准确率对应的第一分值;根据所述难度系数调整所述第一分值以得到第三分值,其中,针对同样的第一分值,所述难度系数越大所述第二分值越高;将所述第三分值作为所述标注员身份信息对应的积分值。

进一步地,设置单元1103确定所述已标注样本集对应的难度系数的具体实施方式为:确定所述已标注样本集所对应的所有标签,每个所述标签对应一个标注条件;基于所述所有标签确定所述难度系数。具体地,设置单元1103确定每个所述标签的主类别;确定所述已标注样本集中每个所述标签对应的目标物,其中,所述标签与该标签对应的目标物属于同一个主类别;根据每个所述标签所对应的目标物确定该标签的子难度系数;根据所有标签的子难度系数得到所述已标注样本集对应的难度系数。

进一步,设置单元1103可以确定每个所述标签对应的目标物的子类别,其中所述目标物的子类别与所述标签的子类别均属于该标签对应的主类别;获取每个所述标签对应的目标物的子类别的分类数量;根据所述分类数量确定所述子难度系数,其中,所述分类数量越多所述子难度系数越高。具体地,设置单元1103确定每个所述标签被预先设定的级别数;基于每个所述标签的级别数确定该标签的子难度系数,其中,所述级别数越多所述子难度系数越大;根据所有标签的子难度系数得到所述已标注样本集对应的难度系数。

进一步的,还包括反馈单元,用于将所述积分值反馈至所述标注员身份信息对应的客户端。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

如图12所示,其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。于本申请实施中,该电子设备100可以是为上述的检测服务器121,也可以是标注服务器112。

本申请中的电子设备100可以包括一个或多个如下部件:处理器110、存储器120以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digitalsignalprocessing,dsp)、现场可编程门阵列(field-programmablegatearray,fpga)、可编程逻辑阵列(programmablelogicarray,pla)中的至少一种硬件形式来实现。处理器110可集成中央处理器(centralprocessingunit,cpu)、图像处理器(graphicsprocessingunit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(randomaccessmemory,ram),也可以包括只读存储器(read-onlymemory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图13,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质1300中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1300可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质1300包括非易失性计算机可读介质(non-transitorycomputer-readablestoragemedium)。计算机可读存储介质1300具有执行上述方法中的任何方法步骤的程序代码1310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1310可以例如以适当形式进行压缩。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1