一种数据标注方法与流程

文档序号:13804805阅读:579来源:国知局
一种数据标注方法与流程

技术领域:

本发明涉及技术预见领域,特别涉及基于群体智能的多源异构数据标注系统。

技术背景:

近年来,随着计算机技术和互联网的飞速发展,出现了各种形式的大数据,然而数据量的增大使人工标注语料变得异常困难,而且代价高昂,因而给大数据的资料库的过滤、标注和运用挑战,由此技术众包平台应运而生。然而,众包平台存在投入大、效率低、数据处理量小,以及标注质量得不到保证等缺点。

对于上述技术问题,公布号为cn106489149a的中国专利申请公开了一种基于数据挖掘和众包的数据标注方法及系统。该专利提出一种独特的方法对标注过程中标注结果进行标记,便于改进标注结果准确度,可以有效提高标注质量,降低标注成本。在cn106489149a的中国专利申请中,通过获取众包标注结果,使用整合的算法,对众包标注结果进行自动化审核,筛选出问题标注结果,并对问题标注结果进行标记,输出经过自动化审核的众包标注结果,上述众包标注结果中包括问题标注结果。

但是,在技术预见领域,待标注数据是广义概念上的数据,数据标注的范围即包括对论文、专利、新闻以及其它网络文本数据进行所属技术领域的标注,又包括技术预见领域特有的数据标注需求,如对某一技术发展阶段、技术类型、期刊重要度、研究机构影响力等进行标注,形式十分灵活,数据标注任务本身也有一定的难度。因此,在技术预见领域,对于不同的领域不同的数据类型需要具有相应标注能力的标注者来完成相应的数据标注任务。基于上述原因技术预见的数据标注任务对标注者具有较高的领域知识要求,上述公布号为cn106489149a的中国专利申请所公开的技术无法胜任技术预见领域的数据标注工作。目前需要有一个标注系统能满足在技术预见领域的标注需求,为技术预见领域提供数据标注技术支持。



技术实现要素:

本发明的范围只由后附权利要求书所规定,在任何程度上都不受这一节发明内容的陈述所限。

为了克服上述技术问题,本发明提供一种数据标注方法,包括:数据标注任务分配步骤,根据待标注数据的数据标识码和标注者标识码,将待标注的数据标注任务与标注者进行匹配,并依据匹配结果将所述待标注的数据标注任务分配给所述标注者;数据标注步骤,依据所要求的标注形式对所述待标注数据进行标注;结果收集和整合步骤,在所述待标注的数据标注任务的标注结果都提交之后,根据所述标注者的标注积分以及所述标注结果,整合所述标注结果,推测出正确标签。本发明的上述技术方案通过将待标注的数据标注任务与标注者进行匹配,选择具有一定领域知识背景的标注者进行标注,使得标注精度较高,极大降低了技术预见成本,提高了进行技术预见的能力。

优选地,所述的数据标注方法还包括:标注进度监控步骤,监视所述待标注数据的标注进度;其中,在指定时间内没有开始所述待标注的数据标注任务时,对所述待标注的数据标注任务重新进行分配,将所述待标注数据分配给所述待标注的数据标注任务的任务类别标注积分较高的其他标注者继续标注。本发明采用上述技术方案使得数据标注任务能够及时顺利地进行,提高了对大数据的分析效率和技术预见的准确度。

优选地,所述的数据标注方法还包括:积分更新步骤,根据所述标注者标注的质量更新所述标注者在对应数据标注任务中的积分。本发明采用上述技术方案使得数据标注任务能够准确有效地分配正确的标注者,提高了对大数据的分析效率和技术预见的准确度。

优选地,所述的数据标注方法还包括:数据标注任务类别定义步骤,将所述待标注的数据标注任务划分为不同类别,并为每个所述待标注的数据标注任务类别提供唯一的任务标识码。本发明采用上述技术方案使得数据标注任务能够准确有效地分配正确的标注者,提高了对大数据的分析效率和技术预见的准确度。

优选地,在所述的数据标注方法中,基于所述任务标识码获取所述待标注的数据标注任务类别,并基于所获取的数据标注任务类别对每一个所述待标注数据生成所述标注数据标识码。本发明采用上述技术方案使得数据标注任务能够准确有效地分配正确的标注者,提高了对大数据的分析效率和技术预见的准确度。

优选地,所述的数据标注方法还包括:预处理步骤,从标注任务发布者上传的所述待标注数据的原始数据中抽取所述待标注数据信息。

优选地,在所述预处理步骤中,从所述待标注数据中提取相应的字段。

优选地,所述的数据标注方法还包括:标注资格测试步骤,根据所述标注者所申请的数据标注任务类别,基于所述标注者对测试内容的完成情况,生成在每个所申请的所述数据标注任务类别下的测试积分。本发明采用上述技术方案使得数据标注任务能够准确有效地分配正确的标注者,提高了对大数据的分析效率和技术预见的准确度。

优选地,在所述标注资格测试步骤中,根据不同领域下的不同数据标注任务所需要的背景知识以及技能生成所述测试内容。本发明采用上述技术方案使得标注资格测试更具有针对性。

优选地,在所述的数据标注方法中,如果所述标注者的测试积分高于预先设定的阀值,获得所述数据标注任务的标注资格。本发明采用上述技术方案使得数据标注任务能够准确有效地分配正确的标注者,提高了对大数据的分析效率和技术预见的准确度。

优选地,在所述标注资格测试步骤中,根据所述标注者的测试结果,生成所述标注者的身份信息,其中所述身份信息包括所述标注者能够进行数据标注任务的类别和执行该类别的任务的标注积分。本发明采用上述技术方案使得对数据标注任务的分配更具有针对性。

优选地,在所述的数据标注方法中,所述标注者标识码包含人员编号信息、所属技术领域信息、数据标注任务类型的积分。本发明采用上述技术方案使得对数据标注任务的分配更具有针对性。

优选地,在所述的数据标注方法中,所述数据标识码包含数据编号和任务标识码。本发明采用上述技术方案使得对数据标注任务的分配更具有针对性。

优选地,在所述的数据标注方法中,所述任务标识码包含任务编号信息、任务类型信息和所涵盖技术领域信息。本发明采用上述技术方案使得对数据标注任务的分配更具有针对性。

优选地,在所述数据标注任务分配步骤中,将所述待标注的数据标注任务与多个标注者进行匹配,并将所述待标注的数据标注任务分配给匹配到的与所述待标注的数据标注任务相对应的标注积分较高的标注者;在所述结果收集和整合步骤,在所述待标注的数据标注任务的所述多个标注者的标注结果都提交之后,根据所述多个标注者的标注积分以及所述标注结果,整合多个所述标注结果,推测出正确标签。本发明采用上述技术方案使得数据标注任务能够准确有效地分配正确的标注者,提高了技术预见的准确度。

本发明的另一发面还提供一种数据标注装置,包括:至少一个处理器,所述至少一个处理器能够进行如下操作:根据待标注数据的数据标识码和标注者标识码,将待标注的数据标注任务与标注者进行匹配,并依据匹配结果将所述待标注的数据标注任务分配给所述标注者;依据所要求的标注形式对所述待标注数据进行标注;在所述待标注的数据标注任务的标注结果都提交之后,根据所述标注者的标注积分以及所述标注结果,整合所述标注结果,推测出正确标签。

优选地,所述至少一个处理器还能够进行如下操作:监视所述待标注数据的标注进度;其中,在指定时间内没有开始所述待标注的数据标注任务时,对所述待标注的数据标注任务重新进行分配,将所述待标注数据分配给所述待标注的数据标注任务的任务类别标注积分较高的其他标注者继续标注。

优选地,所述至少一个处理器还能够进行如下操作:根据所述标注者标注的质量更新所述标注者在对应数据标注任务中的积分。

优选地,所述至少一个处理器还能够进行如下操作:将所述待标注的数据标注任务划分为不同类别,并为每个所述待标注的数据标注任务类别提供唯一的任务标识码。

优选地,基于所述任务标识码获取所述待标注的数据标注任务类别,并基于所获取的数据标注任务类别对每一个所述待标注数据生成所述标注数据标识码。

优选地,所述至少一个处理器还能够进行如下操作:从标注任务发布者上传的所述待标注数据的原始数据中抽取所述待标注数据信息。

优选地,从所述待标注数据中提取相应的字段。

优选地,所述至少一个处理器还能够进行如下操作:根据所述标注者所申请的数据标注任务类别,基于所述标注者对测试内容的完成情况,生成在每个所申请的所述数据标注任务类别下的测试积分。

优选地,根据不同领域下的不同数据标注任务所需要的背景知识以及技能有针对性地生成所述测试内容。

优选地,如果所述标注者的测试积分高于预先设定的阀值,获得所述数据标注任务的标注资格。

优选地,根据所述标注者的测试结果,生成所述标注者的身份信息,其中所述身份信息包括所述标注者能够进行数据标注任务的类别和执行该类别的任务的标注积分。

优选地,所述标注者标识码包含人员编号信息、所属技术领域信息、数据标注任务类型的积分。

优选地,所述数据标识码包含数据编号和任务标识码。

优选地,所述任务标识码包含任务编号信息、任务类型信息和所涵盖技术领域信息。

优选地,将所述待标注的数据标注任务与多个标注者进行匹配,并将所述待标注的数据标注任务分配给匹配到的与所述待标注的数据标注任务相对应的标注积分较高的标注者;在所述待标注的数据标注任务的所述多个标注者的标注结果都提交之后,根据所述多个标注者的标注积分以及所述标注结果,整合多个所述标注结果,推测出正确标签。

本发明还进一步提供了一种存储介质,其存储使至少一个处理器能够执行以下操作的程序:根据待标注数据的数据标识码和标注者标识码,将待标注的数据标注任务与标注者进行匹配,并依据匹配结果将所述待标注的数据标注任务分配给所述标注者;依据所要求的标注形式对所述待标注数据进行标注;在所述待标注的数据标注任务的标注结果都提交之后,根据所述标注者的标注积分以及所述标注结果,整合所述标注结果,推测出正确标签。

通过上述技术方案能够对多源异构数据进行系统标注,其不仅可以对来自新闻、论文、专利等文本数据进行标注,还能对技术点发展阶段、技术点类型、期刊重要度、研究机构影响力等进行标注,可以提高技术预见中对大数据的分析效率和技术预见的准确度。另外,由于本发明采用通过测试的具有一定领域知识背景的标注者进行标注,进一步提高了标注精度,极大降低了技术预见成本,提高了进行技术预见的能力。

附图说明:

图1为本发明一实施方式中的数据标注系统架构示意图;

图2为本发明一实施方式的标注平台的结构框图;

图3为本发明一实施方式的标注平台的数据标注处理系统的结构框图;

图4为本发明一实施方式的数据标注处理流程图;

图5为本发明一实施方式中标注者的资格测试流程;

图6为本发明一实施方式的数据标注任务分配流程图。

具体实施方式

下面根据附图所示实施方式阐述本发明。此次公开的实施方式可以认为在所有方面均为例示,不具限制性。

图1为本实施方式中的数据标注系统架构示意图。如图1所示,多源异构数据标注系统包括任务发布者用终端1、标注平台2和标注者用终端3。上述标注平台2通过网络4、5分别与上述任务发布者用终端1及上述标注者用终端3通信连接。上述任务发布者用终端1和标注者用终端3可以是个人电脑、pad、手机等终端设备。上述标注平台2可以是服务器等平台设备。上述网络4、5可以是有线网络或无线网络、计算机网络或移动通信网络等。除了上述网络4、5,外还可以是蓝牙等通信连接方式。

标注任务发布者通过上述任务发布者用终端1登录上述标注平台2发布和定义数据标注任务。标注者通过上述标注者用终端3登录上述标注平台2接收数据标注任务和标注资格测试及进行数据标注操作等。上述标注平台2根据标注任务发布者通过上述任务发布者用终端1发布和定义的数据标注任务和标注者的标注操作进行数据标注处理。

图2为本实施方式的标注平台的结构框图。如图2所示,上述标注平台2可以是服务器等平台设备,主要由包括cpu、rom和ram等组成数据处理控制器21、显示器22和键盘23。数据处理控制器21主要由cpu21a、rom21b、ram21c、硬盘21d、读取装置21e、输出输入接口21f和通信接口21g构成。cpu21a、rom21b、ram21c、硬盘21d、读取装置21e、输出输入接口21f和通信接口21g通过总线21i相互连接,可以互相收发控制信号和控制上的数据等。

cpu21a可以执行存储在rom21b的计算机程序和读到ram21c中的计算机程序。

rom21b由只读存储器、prom、eprom、eeprom等构成,存储由cpu21a执行的计算机程序及其所用数据等。ram21c由sram或dram等构成,用于读取存储在rom201b和硬盘21d的计算机程序。ram21c还可以作为cpu21a执行这些计算机程序时的工作空间。

硬盘21d储存有操作系统和应用程序等供cpu21a执行用的各种计算机程序及其执行该计算机程序所用的数据。本实施方式中的数据标注用应用程序7a也储存在此硬盘21d中。

读取装置21e由软驱、cd-rom驱动器或dvd-rom驱动器等构成,可读取存储于便携型存储介质7的计算机程序或数据。便携型存储介质7存储有数据标注用应用程序7a,上述标注平台2可从该便携型存储介质7读取应用程序7a,将其装入硬盘21d。

上述应用程序7a不仅可由便携型存储介质7提供,也可以通过电子通信线路从该电子通信线路(不论有线、无线)连接的、可与上述标注平台2通信的外部机器上下载。比如,上述应用程序7a存储于网络服务器的硬盘中,上述标注平台2可访问此服务器,下载该应用程序7a,装入硬盘21d。

硬盘21d装有比如美国微软公司生产的windows(注册商标)等提供图形用户界面的操作系统。在以下说明中,本实施方式的应用程序7a均在上述操作系统上执行。

输出输入接口21f由比如usb、ieee1394、rs-232c等串行接口、scsi、ide、ieee1284等并行接口和由d/a转换器和a/d转换器等组成的模拟信号接口构成。输出输入接口21f接键盘23,用户可以用键盘23直接向上述标注平台2输入数据。

通信接口21g可以是比如ethernet(以太网,注册商标)接口。上述标注平台2通过该通信接口21g可以使用一定的通信协议与任务发布者用终端1和标注者用终端3之间传送数据。

装在数据处理控制器21硬盘21d中的数据标注用应用程序7a主要功能是根据标注任务发布者通过上述任务发布者用终端1发布和定义的数据标注任务和标注者的标注操作进行数据标注处理。

图3为本实施方式的标注平台的数据标注处理系统的结构框图。如图3所示,上述数据标注处理系统包括任务定义模块31、数据上传模块32、数据处理模块33、任务分配模块34、标注模块35、结果收集与整合模块36、标注者管理模块37、标注资格测试模块38、标注实时监控模块39。

上述任务定义模块31用于执行标注任务发布者通过上述任务发布者用终端1登录上述标注平台2对数据标注任务进行定义的操作。标注任务发布者根据技术预见需求定义数据标注任务类别,如技术领域划分(技术领域如机器人、生物学等技术门类);子技术领域划分(以机器人技术领域为例,子技术领域可分为减速器、传感器等);技术类型判断(判断一个技术属于哪种技术类型,如颠覆性技术,新兴技术等);任务划分完毕后,上述任务定义模块31为每个任务类别下的数据标注任务提供任务标识码ti。任务标识码格式如下:ti={任务编号;任务类型;所涵盖技术领域;所涵盖子技术领域}。其中,任务编号用于唯一标识当前数据标注任务;任务类型表示当前数据标注任务属于哪一类;所涵盖技术领域指数据标注任务中待标注数据涵盖哪些技术领域;所涵盖子技术领域指数据标注任务待标注数据涵盖技术领域里面的哪些子领域。

上述数据上传模块32用于将发布者将与数据标注任务对应的待标注数据上传到上述标注平台2,并根据数据标注任务类别对这些待标注数据生成数据标识码di,数据标识码格式为:di={数据编号;任务标识码ti}。其中,数据编号代表一个具体待标注数据集唯一身份标识;任务标识码包含上述任务标识码定义中的相关信息。

上述数据处理模块33用于对待标注数据进行数据预处理,便于从标注任务发布者上传的原始数据中抽取待标注数据信息。上述预处理主要是指从待标注数据中提取相应的字段等过程,可以根据标注任务发布者的要求,上述数据处理模块33提取不同的字段,比如提取摘要、关键词等。

上述任务分配模块34用于将待标注的数据标注任务根据上述任务定义模块31对数据标注任务进行定义的数据标注任务类别与标注者进行匹配并依据匹配结果进行数据标注任务的分配。对于某一数据标注任务,根据待标注数据的数据标识码di和标注者标识码id,由上述任务分配模块34将待标注的数据标注任务与标注者进行匹配并依据匹配结果进行数据标注任务的分配。上述任务分配模块34进行任务分配时优先将任务分配给匹配到的该类数据标注任务标注积分较高的标注者。为保证标注质量,数据标注处理系统可供标注任务发布者依据自身对标注结果的质量要求自主设定标注冗余度(奇数),即一个标注数据可同时分配的标注者个数,假定标注任务发布者设定该数据标注任务所需冗余度为7(冗余度,指需要几个人标注同一个任务),则上述任务分配模块34将待标注数据分配给该类数据标注任务匹配到的7位标注者。

上述标注模块35用于对待标注数据进行标注。标注者通过上述标注者用终端3登录上述标注平台2进行数据标注操作,通过上述标注模块35执行标注者对待标注数据进行标注的操作。依据标注形式的不同,数据标注处理系统可以预先设定不同的标注形式以及高效的标注交互式界面,方便标注者完成数据标注任务。如对于技术领域划分任务,标注者的标注形式是对待标注数据从多个待选标签中勾选某一标签作为类别标签,其中,待选标签基于标注任务发布者提供的信息由数据标注处理系统自动生成。

上述结果收集与整合模块36用于将多个标注结果整合,推测出正确的标签。同一个数据标注任务,数据标注处理系统会得到来自多个标注者的标注结果,上述结果收集与整合模块36将多个标注结果整合,推测出正确的标签。整合的方法是:根据标注者在该任务类别的标注积分,确定标注者标注结果的参考权重,利用参考权重和标注结果,分别求出每种标签的正确程度,将正确程度最大的标签作为待标注数据的正确标签。最终在得到所有任务的正确标签之后,将结果返回给标注任务发布者。

上述标注者管理模块37用于管理标注者的相关信息。根据申请者测试结果,上述标注者管理模块37自动生成标注任务申请者身份的身份id(即标注者标识码id),标注者标识码id信息主要包括标注者可数据标注任务类别和执行该类别任务的标注积分(首次标注积分初始化为通过相应数据标注任务所获得的测试积分)。标注者标识码id信息格式为id={人员编号;所属技术领域;所属子技术领域;数据标注任务类型1,积分1;数据标注任务类型2,积分2;…}。其中,人员编号代表上述数据标注处理系统对该标注者的唯一的识别码;所属技术领域指该标注者所能完成的数据标注任务属于哪一技术领域;所属技术子领域代表该标注者所能完成的数据标注任务具体属于哪一技术子领域;任务类型代表该标注者所具有的任务标注资格的类别;积分与任务类别相对应用于表示标注者在该数据标注任务中的水平,标注者每个数据标注任务类别下的积分不是恒定的,会随着数据标注任务执行过程中的标注者的标注正确率实时进行更新。

上述标注资格测试模块38用于对标注者的数据标注任务的能力进行测试。标注任务申请者在上述标注平台2注册时,首先选择自己所属技术领域与子技术领域,然后根据标注者申请的数据标注任务接受相应的资格测试,测试内容由上述标注资格测试模块38根据不同领域下的不同数据标注任务所需要的背景知识以及技能有针对性的生成,可全方位的用于检测标注者是否具有完成某一数据标注任务的能力。数据标注任务申请者通过测试后,上述标注资格测试模块38生成申请者在每个申请任务类别下的测试积分。根据标注任务发布者对每个类别数据标注任务测试得分设定的阀值,如果标注任务申请者测试积分高于相应阀值,则获得相应任务的标注资格。

上述标注实时监控模块39用于监控模块主要负责监控标注者标注进度以及根据标注结果更新标注者标注积分。上述标注实时监控模块39监控标注者标注进度,通过监控数据标注任务的完成情况,对标注过程进行优化。如果发现标注者在指定时间内没有开始数据标注任务,就将待标注数据分配给尚未分配到数据标注任务且标注积分较高的标注者继续进行标注,优选地,分配给尚未分配到数据标注任务且标注积分最高的标注者继续进行标注。上述标注实时监控模块39还根据标注结果更新标注者标注积分,根据标注者标注结果与正确标签的重合度更新标注者标注积分。如果标注者标注结果与正确标签重合度很大,标注者相应任务类别的标注积分会有所上升。如果标注者标注结果与正确标签重合度较小,标注者相应任务类别的标注积分会有所下降。

图4为本实施方式的数据标注处理流程图。如图4所示,标注任务发布者根据技术预见需求对数据标注任务类别进行定义操作,上述任务定义模块31基于上述定义操作,执行数据标注任务的定义(步骤s1)。标注任务发布者依据数据标注需求,将数据标注任务划分为不同类别,划分完成后系统按照规定为每个数据标注任务类别提供唯一的任务标识码ti,用于在系统中对数据标注任务的唯一的一种区分。

在对数据标注任务进行任务类别划分之后,标注任务发布者上传标注数据,上述数据上传模块32基于任务标识码ti获取数据标注任务类别,并基于所获取数据标注任务类别对每一个标注数据生成标注数据标识码di(步骤s2)。然后,上述数据处理模块33对数据集进行数据预处理(步骤s3)。上述预处理的步骤包括字段提取。预处理后的数据等待被分配给不同的标注者进行标注。

对于某一数据标注任务,根据待标注数据的数据标识码di和标注者标识码id,由上述任务分配模块34将待标注的数据标注任务与标注者进行匹配并依据匹配结果进行数据标注任务的分配(步骤s4)。

在标注者对待标注数据进行标注过程中,上述标注实时监控模块39会实时监控标注者标注进度(步骤s5)。如果上述标注实时监控模块39发现标注者在指定时间内没有开始数据标注任务(步骤s5:否),上述任务分配模块34对该数据标注任务重新进行分配,将该数据标注任务下的待标注数据分配给未进行该任务标注的该任务类别标注积分最高的标注者继续标注。如果上述标注实时监控模块39发现标注者在指定时间内已经开始数据标注任务(步骤s5:是),该标注者继续完成该数据标注任务(步骤s6)。在步骤s6中,上述标注模块35根据标注者基于上述待标注的数据标注任务下的所述待标注数据的输入,对待标注数据进行标注,依据预先设定的标注形式的不同,完成对待标注数据的标注任务。并且,在标注过程中任务上述标注实时监控模块39根据标注者标注的质量更新标注者在对应数据标注任务中的积分,并上述标注者管理模块37记录上述标注实时监控模块39所更新的标注者的积分(步骤s7)。

在一个数据标注任务所有标注结果都提交之后,上述结果收集与整合模块36根据任务标注者的标注积分以及标注结果,整合所有标注结果,推测出正确标签(步骤s8)。数据标注任务完成后,上述结果收集与整合模块36收集标注结果并将标注结果返回给标注任务发布者。

上述标注实时监控模块39实时监控标注任务发布者所发布的每个数据标注任务类别的数据标注任务是否均完成(步骤s9)。如果没有全部完成标注任务发布者所发布的每个数据标注任务类别的数据标注任务(步骤s9:否),返回步骤s4,由上述任务分配模块34对未完成的待标注数据的标注任务再次进行数据标注任务的分配;如果标注任务发布者所发布的每个数据标注任务类别的数据标注任务均已经完成(步骤s9:是),结束数据标注处理(步骤s10)。

图5为本实施方式中标注者的资格测试流程。如图5所示,标注申请者通过上述标注者用终端3登录上述标注平台2(步骤s51),标注申请者根据自己的所属领域、背景知识以及技能选择待申请的数据标注任务(步骤s52)。上述标注资格测试模块38接收到标注者所申请的数据标注任务类别,根据不同领域下的不同数据标注任务所需要的背景知识以及技能有针对性地生成测试内容(步骤s53)。数据标注任务申请者完成测试后,上述标注资格测试模块38生成申请者在每个申请任务类别下的测试积分,并由上述标注者管理模块37记录上述测试积分(步骤s54)。根据标注任务发布者对每个类别数据标注任务测试得分设定的阀值,上述标注资格测试模块38判断标注任务申请者测试积分是否高于所设定的阀值(步骤s55)。如果标注任务申请者测试积分高于相应阀值,上述标注者管理模块37自动生成标注任务申请者身份的身份id,获得相应任务的标注资格(步骤s56),然后结束测试(步骤s57)。如果标注任务申请者测试积分低于相应阀值,直接结束测试(步骤s57)。

图6为本实施方式的数据标注任务分配流程图。如图6所示,对于某一待标注的数据标注任务,上述任务分配模块34获取待标注的数据标注任务的数据标识码di和标注者标识码id(步骤s61),基于标注者标识码id,选择该类数据标注任务标注积分较高的标注者(步骤s62)。上述任务分配模块34判断所选的标注者数量是否达到所设定的标注冗余度要求(步骤s63)。如果所选的标注者数量未达到所设定的标注冗余度要求(步骤s63:否),上述任务分配模块34继续在剩余的标注者中选择该类数据标注任务标注积分较高的标注者。如果所选的标注者数量达到所设定的标注冗余度要求(步骤s63:是),上述任务分配模块34将待标注数据分配给该类数据标注任务匹配到的所选的所有标注者(步骤s64)。

在上述实施方式中,上述任务定义模块31位于上述标注平台2上,但是本发明并不限于此,上述任务定义模块31也可以位于上述任务发布者用终端1,任务发布者通过上述任务发布者用终端1将在其上已经定义操作的待标注的数据标注任务上传至上述标注平台2进行数据标注操作。

本发明的范围不受以下实施方式的说明所限,仅由权利要求书的范围所示,而且包括与权利要求范围具有同样意思及权利要求范围内的所有变形。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1