一种智能标注平台的方法、装置、电子设备和存储介质与流程

文档序号:26104040发布日期:2021-07-30 18:15阅读:187来源:国知局
一种智能标注平台的方法、装置、电子设备和存储介质与流程

本发明涉及智能标注技术领域,具体涉及一种智能标注平台的方法、装置、电子设备和存储介质。



背景技术:

目前,在数据标注领域,缺少数据选择的过程,有些数据对模型提升效果有限,但有可能将这部分数据进行标注,增加标注成本;缺少对标注人员的标注水平评估的阶段。



技术实现要素:

本发明提供一种智能标注平台的方法、装置、电子设备和存储介质,能够解决上述增加标注成本;缺少对标注人员的标注水平评估的阶段的技术问题。

本发明解决上述技术问题的技术方案如下:

第一方面,本发明实施例提供了一种智能标注平台的方法,包括:

在学习阶段,标注平台接收工程师上传的待标注数据;

管理员在标注平台上将待标注数据分为第一学习数据和第一待标注数据;

标注专家在标注平台上对第一学习数据进行标注得到金标准数据;

标注人员在标注平台上对第一学习数据进行标注得到第一标注数据;

标注平台对金标准数据和第一标注数据进行对比打分;

根据打分结果确定标注人员是否具有标注其他待标注数据的能力。

在一些实施例中,上述方法中根据打分结果确定标注人员是否具有具有标注其他待标注数据的能力,包括:

若打分结果大于预设阈值,则确定标注人员具有标注其他待标注数据的能力;

若打分结果小于所述预设阈值,则确定标注人员不具有标注其他待标注数据的能力。

在一些实施例中,上述方法还包括:

标注人员具有标注其他待标注数据的能力,则标注人员作为标注专家,对学习数据进行标注得到金标准数据;

标注人员不具有标注其他待标注数据的能力,则标注人员作为标注人员,对学习数据进行标注得到第一标注数据。

在一些实施例中,上述方法还包括:

在标注阶段,工程师在标注平台上采用模型回标的方法对待标注数据进行预标注得到预标注数据;

管理员在标注平台上将预标注数据分为第二学习数据和第二待标注数据;

标注人员在所述标注平台上对所述第二待标注数据进行标注得到第二标注数据;

标注平台采用标注不一致检测算法进行检测第二标注数据是否达标。

在一些实施例中,上述方法中标注平台检测第二标注数据是否达标,包括:

若第二标注数据达标,则标注专家对所述第二标注数据进行质量抽检确定是否达标;

若第二标注数据不达标,则管理员在所述标注平台上重新确定第二待标注数据,标注人员在标注平台上对第二待标注数据进行标注得到第二标注数据,标注平台检测第二标注数据是否达标。

在一些实施例中,上述方法中标注专家对标注人员标注的数据进行质量抽检确定是否达标,包括:

若第二标注数据质量抽检达标,采用第二标注数据进行模型训练,若模型指标满足条件,则标注结束;

若第二标注数据质量抽检不达标,则管理员在所述标注平台上重新确定第二待标注数据,标注人员在标注平台上对所述第二待标注数据进行标注得到第二标注数据,标注平台检测第二标注数据是否达标。

在一些实施例中,上述方法中,若模型指标不满足条件,则工程师采用主动学习算法确定预标注数据。

第二方面,本发明实施例还提供了一种智能标注平台的装置,包括:

接收模块:用于在学习阶段,标注平台接收工程师上传的待标注数据;

分类模块:用于管理员在标注平台上将待标注数据分为第一学习数据和第一待标注数据;

第一标注模块:用于标注专家在标注平台上对第一学习数据进行标注得到金标准数据;

第二标注模块:用于标注人员在所述标注平台上对所述第一学习数据进行标注得到第一标注数据;

对比模块:标注平台对所述金标准数据和第一标注数据进行对比打分;

确定模块:用于根据打分结果确定标注人员是否具有标注其他待标注数据的能力。

第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;

所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种智能标注平台的方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种智能标注平台的方法。

本发明的有益效果是:在学习阶段,标注平台接收工程师上传的待标注数据;管理员在标注平台上将待标注数据分为第一学习数据和第一待标注数据;标注专家在标注平台上对第一学习数据进行标注得到金标准数据;标注人员在标注平台上对第一学习数据进行标注得到第一标注数据;标注平台对金标准数据和第一标注数据进行对比打分;根据打分结果确定标注人员是否具有标注其他待标注数据的能力。本申请实施例中通过加入学习阶段,评估标注人员和标注专家之间标注的差异,判断标注人员与标注专家之间标注水平的差异,从而确定标注人员是否有标注其他数据的能力,若有,则作为专家标注其他数据,若没有,则继续标注学习阶段的第一标注数据,减少因标注人员的标注水平不足,造成数据回标的情况,提高标注效率。

附图说明

图1为本发明实施例提供的一种智能标注平台的方法图一;

图2为本发明实施例提供的一种智能标注平台的方法图二;

图3为本发明实施例提供的一种智能标注平台的装置图;

图4为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本申请的限定。基于所描述的本申请的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为本发明实施例提供的一种智能标注平台的方法图一。

第一方面,结合图1,本发明实施例提供了一种智能标注平台的方法,包括s101、s102、s103、s104、s105和s106六个步骤:

s101:在学习阶段,标注平台接收工程师上传的待标注数据。

具体的,本申请实施例中,在工程师上传待标注数据到标注平台时,可以对待标注数据进行预处理,可以将待标注数据处理成标注平台要求的格式。

s102:管理员在标注平台上将待标注数据分为第一学习数据和第一待标注数据。

具体的,本申请实施例中,在工程师上传待标注数据到标注平台后,管理员可以在标注平台上看到待标注数据,管理员将待标注数据按照一定的比例分为第一学习数据和第一待标注数据;这里的一定的比例可以根据具体情况灵活确定,例如第一学习数据占比80%,第一待标注数据占比20%;第一学习数据占比70%,第一待标注数据占比30%等,并不以此限定本申请的保护范围。

s103:标注专家在标注平台上对第一学习数据进行标注得到金标准数据。

具体的,本申请实施例中,在管理员将待标注数据按照一定的比例分为第一学习数据和第一待标注数据后,标注专家在标注平台上看到了第一学习数据,对第一学习数据进行标注得到金标准数据。

s104:标注人员在标注平台上对第一学习数据进行标注得到第一标注数据。

具体的,本申请实施例中,在管理员将待标注数据按照一定的比例分为第一学习数据和第一待标注数据后,标注人员在标注平台上看到了第一学习数据,对第一学习数据进行标注得到第一标注数据。

s105:标注平台对金标准数据和第一标注数据进行对比打分。

具体的,本申请实施例中,标注平台对金标准数据和第一标注数据进行对比打分,确定第一标注数据和金标准数据的差异得到打分结果。

s106:根据打分结果确定标注人员是否具有标注其他待标注数据的能力。

本申请实施例中通过加入学习阶段,评估标注人员和标注专家之间标注的差异,判断标注人员与标注专家之间标注水平的差异,从而确定标注人员是否有标注其他数据的能力,若有标注其他数据的能力,则作为专家标注其他数据,若没有标注其他数据的能力,则继续标注学习阶段的第一标注数据,减少因标注人员的标注水平不足,造成数据回标的情况,提高标注效率。

还应理解,本申请中评估标注人员和标注专家之间标注的差异,不同的标注任务对应的打分标准不一样,如针对命名实体识别任务,采用f1值作为打分标准,f1值的计算公式如下:

其中tp表示真正率,fp表示假正率,fn表示假负率,p表示精确率,r表示召回率。

如针对分类任务,采用auc值作为打分标准。

在一些实施例中,上述方法中根据打分结果确定标注人员是否具有具有标注其他待标注数据的能力,包括:

若打分结果大于预设阈值,则确定标注人员具有标注其他待标注数据的能力;

若打分结果小于所述预设阈值,则确定标注人员不具有标注其他待标注数据的能力。

具体的,本申请实施例中,以命名实体识别任务为例,若f1>预设阈值,则确定标注人员具有标注其他待标注数据的能力;若f1<预设阈值,则确定标注人员不具有标注其他待标注数据的能力。

在一些实施例中,上述方法还包括:

标注人员具有标注其他待标注数据的能力,则标注人员作为标注专家,对学习数据进行标注得到金标准数据;

标注人员不具有标注其他待标注数据的能力,则标注人员作为标注人员,对学习数据进行标注得到第一标注数据。

具体的,本申请实施例中,若确定标注人员具有标注其他数据的能力,则作为标注人员作为标注专家标注其他数据,若确定标注人员不具有标注其他数据的能力,则标注人员继续标注学习阶段的第一标注数据,提高标注能力,减少因标注人员的标注水平不足,造成数据回标的情况,提高标注效率。

图2为本发明实施例提供的一种智能标注平台的方法图二。

在一些实施例中,结合图2,上述方法还包括s201、s202、s203和s204四个步骤:

s201:在标注阶段,工程师在标注平台上采用模型回标的方法对待标注数据进行预标注得到预标注数据。

具体的,本申请实施例中,模型回标是用当前模型的预测能力去对未标注的数据进行预标注得到预标注数据,当前的模型也许不能完全预测对数据,但是大部分的数据应该是可以预测出来的,从而减少标注的数量,降低标注成本。

s202:管理员在标注平台上将预标注数据分为第二学习数据和第二待标注数据。

具体的,本申请实施例中,在工程师在标注平台上采用模型回标的方法对待标注数据进行预标注得到预标注数据后,管理员将预标注数据按照一定的比例分为第二学习数据和第二待标注数据;这里的一定的比例可以根据具体情况灵活确定,例如第二学习数据占比20%,第二待标注数据占比80%;第二学习数据占比30%,第二待标注数据占比70%等,并不以此限定本申请的保护范围。

s203:标注人员在所述标注平台上对所述第二待标注数据进行标注得到第二标注数据。

具体的,本申请实施例中,在管理员将预标注数据按照一定的比例分为第二学习数据和第二待标注数据后,标注人员在标注平台上看到了第二待标注数据,对第二待标注数据进行标注得到第二标注数据。

s204:标注平台采用标注不一致检测算法进行检测第二标注数据是否达标。

具体的,本申请实施例中,标注平台采用标注不一致检测算法进行检测得到第二标注数据达标或者不达标两种结果。

在一些实施例中,上述方法中标注平台检测第二标注数据是否达标,包括:

若检测第二标注数据达标,则标注专家对所述第二标注数据进行质量抽检确定是否达标。

具体的,本申请实施例中,若标注平台检测结果为第二标注数据达标,则标注专家对标注专家对第二标注数据进行质量抽检确定第二标注数据的抽检结果达标或者不达标。

若检测第二标注数据不达标,则管理员在所述标注平台上重新确定第二待标注数据,标注人员在标注平台上对第二待标注数据进行标注得到第二标注数据,标注平台检测第二标注数据是否达标。

具体的,本申请实施例中,若检测结果为第二标注数据不达标,则管理员在标注平台上重新将预标注数据按照一定的比例分为第二学习数据和第二待标注数据;标注人员在标注平台上对第二待标注数据重新进行标注得到第二标注数据,标注平台重新检测第二标注数据是否达标。

在一些实施例中,上述方法中标注专家对标注人员标注的数据进行质量抽检确定是否达标,包括:

若抽检第二标注数据达标,采用第二标注数据进行模型训练,若模型指标满足条件,则标注结束;

具体的,本申请实施例中,若抽检结果为第二标注数据达标,采用第二标注数据进行模型训练,若模型指标满足条件,则标注结束;

若抽检第二标注数据不达标,则管理员在所述标注平台上重新确定第二待标注数据,标注人员在标注平台上对所述第二待标注数据进行标注得到第二标注数据,标注平台检测第二标注数据是否达标。

具体的,本申请实施例中,若抽检第二标注数据不达标,则管理员在标注平台上重新将预标注数据按照一定的比例分为第二学习数据和第二待标注数据;标注人员在标注平台上对第二待标注数据重新进行标注得到第二标注数据,标注平台重新检测第二标注数据是否达标。

在一些实施例中,上述方法中,若模型指标不满足条件,则工程师采用主动学习算法确定预标注数据。

具体的,本申请实施例中,若抽检结果为第二标注数据达标,采用第二标注数据进行模型训练,若模型指标不满足条件,则工程师采用主动学习算法确定预标注数据,管理员在标注平台上重新将预标注数据按照一定的比例分为第二学习数据和第二待标注数据;标注人员在标注平台上对第二待标注数据重新进行标注得到第二标注数据,标注平台重新检测第二标注数据是否达标。

应理解,通过主动学习算法可以主动选择对模型训练更有价值的数据,减少标注的数量,降低标注成本。

图3为本发明实施例提供的一种智能标注平台的装置图。

第二方面,结合图3,本发明实施例还提供了一种智能标注平台的装置,包括:

接收模块301:用于在学习阶段,标注平台接收工程师上传的待标注数据。

具体的,本申请实施例中,在工程师上传待标注数据到标注平台时,可以对待标注数据进行预处理,可以将待标注数据处理成标注平台要求的格式,标注平台接收工程师上传的待标注数据。

分类模块302:用于管理员在标注平台上将待标注数据分为第一学习数据和第一待标注数据。

具体的,本申请实施例中,在工程师上传待标注数据到标注平台后,管理员可以在标注平台上看到待标注数据,管理员将待标注数据按照一定的比例分类,分类模块302分为第一学习数据和第一待标注数据;这里的一定的比例可以根据具体情况灵活确定,例如第一学习数据占比80%,第一待标注数据占比20%;第一学习数据占比70%,第一待标注数据占比30%等,并不以此限定本申请的保护范围。

第一标注模块303:用于标注专家在标注平台上对第一学习数据进行标注得到金标准数据。

具体的,本申请实施例中,在管理员将待标注数据按照一定的比例分为第一学习数据和第一待标注数据后,标注专家在标注平台上看到了第一学习数据,通过第一标注模块303对第一学习数据进行标注得到金标准数据。

第二标注模块304:用于标注人员在所述标注平台上对所述第一学习数据进行标注得到第一标注数据。

具体的,本申请实施例中,在管理员将待标注数据按照一定的比例分为第一学习数据和第一待标注数据后,标注人员在标注平台上看到了第一学习数据,通过第二标注模块304对第一学习数据进行标注得到第一标注数据。

对比模块305:标注平台对所述金标准数据和第一标注数据进行对比打分。

具体的,本申请实施例中,标注平台中的对比模块305对金标准数据和第一标注数据进行对比打分,确定第一标注数据和金标准数据的差异得到打分结果。

确定模块306:用于根据打分结果确定标注人员是否具有标注其他待标注数据的能力。

本申请实施例中通过加入学习阶段,评估标注人员和标注专家之间标注的差异,判断标注人员与标注专家之间标注水平的差异,从而确定模块306确定标注人员是否有标注其他数据的能力,若有,则作为专家标注其他数据,若没有,则继续标注学习阶段的第一标注数据,减少因标注人员的标注水平不足,造成数据回标的情况,提高标注效率。

第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;

所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项所述一种智能标注平台的方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项所述一种智能标注平台的方法。

图4是本公开实施例提供的一种电子设备的示意性框图。

如图4所示,电子设备包括:至少一个处理器401、至少一个存储器402和至少一个通信接口403。电子设备中的各个组件通过总线系统404耦合在一起。通信接口403,用于与外部设备之间的信息传输。可理解,总线系统404用于实现这些组件之间的连接通信。总线系统304除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图3中将各种总线都标为总线系统404。

可以理解,本实施例中的存储器402可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。

在一些实施方式中,存储器402存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。

其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用业务。实现本申请实施例提供的一种智能标注平台的方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中,处理器401通过调用存储器402存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器401用于执行本申请实施例提供的一种智能标注平台的方法各实施例的步骤。

在学习阶段,标注平台接收工程师上传的待标注数据;

管理员在标注平台上将待标注数据分为第一学习数据和第一待标注数据;

标注专家在标注平台上对第一学习数据进行标注得到金标准数据;

标注人员在标注平台上对第一学习数据进行标注得到第一标注数据;

标注平台对金标准数据和第一标注数据进行对比打分;

根据打分结果确定标注人员是否具有标注其他待标注数据的能力。

本申请实施例提供的一种智能标注平台的方法中任一方法可以应用于处理器401中,或者由处理器401实现。处理器401可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的一种智能标注平台的方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成一种智能标注平台的方法的步骤。

本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式,但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1