一种标注任务处理方法、装置、设备及存储介质与流程

文档序号:22737387发布日期:2020-10-31 09:17阅读:75来源:国知局
一种标注任务处理方法、装置、设备及存储介质与流程

本公开涉及信息技术领域,尤其涉及一种标注任务处理方法、装置、设备及存储介质。



背景技术:

当前在人们的日常生产、生活中会产生大量的数据集。该数据集中可能会包括不同类型的数据。随着信息技术的不断发展,人们更希望电子设备,例如计算机可以识别出数据集中特定类型的数据。例如,可以通过机器建模的方式,训练出能够识别特定类型数据的机器学习模型。

通常情况下,在对机器学习模型进行训练之前,需要对数据集中的特定类型的数据进行标注。但是在标注过程中,无法确定当前已标注的数据是否能够使得机器学习模型的性能达标,从而导致已标注数据过多或过少。



技术实现要素:

为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种标注任务处理方法、装置、设备及存储介质,以避免已完成的标注任务对应的已标注数据过多,或避免未完成的标注任务对应的已标注数据过少,从而可以提高标注模块的标注资源利用率,以及提高多个标注任务的执行效率。

第一方面,本公开实施例提供一种标注任务处理方法,包括:

创建多个标注任务,所述多个标注任务分别用于标注不同的实体类型;

将所述多个标注任务分别推送给不同的标注模块;

当所述多个标注任务中的任一标注任务完成时,向执行所述标注任务的标注模块推送其他未完成的标注任务。

第二方面,本公开实施例提供一种标注任务处理装置,包括:

标注任务管理模块,用于创建多个标注任务,所述多个标注任务分别用于标注不同的实体类型;将所述多个标注任务分别推送给不同的标注模块;

标注任务调度模块,用于当所述多个标注任务中的任一标注任务完成时,向执行所述标注任务的标注模块推送其他未完成的标注任务。

第三方面,本公开实施例提供一种标注任务处理设备,包括:

存储器;

处理器;以及

计算机程序;

其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。

本公开实施例提供的标注任务处理方法、装置、设备及存储介质,通过创建多个标注任务,所述多个标注任务分别用于标注不同的实体类型,并将多个标注任务分别推送给不同的标注模块,当该多个标注任务中的任一标注任务完成时,向执行该标注任务的标注模块推送其他未完成的标注任务,从而使得已完成标注任务的标注模块可以标注其他未完成的标注任务,避免已完成的标注任务对应的已标注数据过多,或避免未完成的标注任务对应的已标注数据过少,提高了标注模块的标注资源利用率,以及提高了多个标注任务的执行效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的标注任务处理方法流程图;

图2为本公开实施例提供的一种应用场景的示意图;

图3为本公开实施例提供的另一种应用场景的示意图;

图4为本公开实施例提供的又一种应用场景的示意图;

图5为本公开实施例提供的一种文本语料的示意图;

图6为本公开实施例提供的一种标注界面的示意图;

图7为本公开实施例提供的标注任务处理方法流程图;

图8为本公开实施例提供的标注任务处理方法流程图;

图9为本公开实施例提供的另一种标注界面的示意图;

图10为本公开实施例提供的标注任务处理方法流程图;

图11为本公开实施例提供的标注任务处理方法流程图;

图12为本公开实施例提供的系统的结构示意图;

图13为本公开实施例提供的系统的结构示意图;

图14为本公开实施例提供的标注任务处理装置的结构示意图;

图15为本公开实施例提供的标注任务处理设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。

通常情况下,在对机器学习模型进行训练之前,需要对数据集中的特定类型的数据进行标注。但是在标注过程中,无法确定当前已标注的数据是否能够使得机器学习模型的性能达标,从而导致已标注数据过多或过少。针对该问题,本公开实施例提供了一种标注任务处理方法,该标注任务处理方法会涉及到数据标注,所谓的数据标注是指:根据具体的标注任务需要,在原始数据中找到并标注正确信息的过程,其中的原始数据可以是文本数据、图像数据、视频数据、音频数据等,本实施例以文本数据为例进行示意性说明。该数据标注方法具体可能会涉及到自然语言处理、机器学习建模、知识预测、预测结果融合等。

具体的,自然语言处理(naturallanguageprocessing,nlp)具体可以是用机器来理解并处理人类语言范畴中的各类问题,其中,人类使用的语言可以统称为自然语言。

机器学习建模具体可以是:采用算法解释分析数据,训练机器学习模拟人类的思考过程,并将训练成果抽象为可复用的数学模型。

知识预测具体可以是:利用训练得到的模型,以原始文本为输入,预测得到各类所需标签类型下的文本序列(知识)。

预测结果融合具体可以是:同一篇文本输入不同的模型后可以得到若干份不同的预测结果,通过特定的评分算法,为用户展示计算得到的最正确的结果。

下面结合具体的实施例对该方法进行介绍。图1为本公开实施例提供的标注任务处理方法流程图。该方法具体步骤如下:

s101、创建多个标注任务,所述多个标注任务分别用于标注不同的实体类型。

本实施例所述的标注任务处理方法可适用于如图2所示的应用场景,该应用场景可包括标注任务处理装置20、标注模块21、标注模块22和标注模块23。其中,标注任务处理装置20和多个标注模块可以集成在一起,或者标注任务处理装置20和多个标注模块可以相互独立。可以理解的是,图2所示的应用场景只是一种示意性说明,并不限定标注模块的个数。

具体的,标注任务处理装置20可以创建多个标注任务,多个标注任务分别用于标注不同的实体类型。例如,一个标注任务用于标注一个或多个实体类型。例如,“人物”、“机构”、“地点”是三种不同的实体类型。标注实体类型的过程具体可以是标注属于该实体类型的实体内容的过程。例如,标注任务处理装置20创建的多个标注任务包括标注任务a、标注任务b和标注任务c。其中,标注任务a用于标注属于实体类型“人物”的实体内容。标注任务b用于标注属于实体类型“机构”的实体内容。标注任务c用于标注属于实体类型“地点”的实体内容。可以理解的是,此处的标注任务a、标注任务b、标注任务c、以及每个标注任务需要标注的实体类型只是示意性说明,并不作具体限定。例如,在一些实施例中,标注任务a还可以用于标注属于实体类型“人物”和“地点”的实体内容。其他的每个标注任务也可以标注多个不同的实体类型。

s102、将所述多个标注任务分别推送给不同的标注模块。

在本实施例中,标注任务处理装置20可以将其创建的多个标注任务分别推送给不同的标注模块。该标注模块可以是标注任务处理装置20中的模块,也可以是独立于标注任务处理装置20存在的模块。在一种可能的实现方式中,标注任务处理装置20具体可以是服务器,标注模块具体可以是标注员的终端设备。例如图3所示,服务器30可以将标注任务a推送给终端设备31,将标注任务b推送给终端设备32,将标注任务c推送给终端设备33。具体的,终端设备31对应的标注员标注属于实体类型“人物”的实体内容,终端设备32对应的标注员标注属于实体类型“机构”的实体内容,终端设备33对应的标注员标注属于实体类型“地点”的实体内容。可以理解的是,图3所示的应用场景只是一种示意性说明,并不限定终端设备的个数。

s103、当所述多个标注任务中的任一标注任务完成时,向执行所述标注任务的标注模块推送其他未完成的标注任务。

例如,当终端设备31对应的标注员标注的属于实体类型“人物”的实体内容满足预设条件时,可以确定标注任务a完成。例如,若终端设备31对应的标注员标注的属于实体类型“人物”的实体内容的个数大于或等于预设个数,并且根据该大于或等于预设个数的属于实体类型“人物”的实体内容训练得到的机器学习模型的性能指标达标,则可确定标注任务a完成。进一步,服务器30可以向终端设备31推送其他未完成的标注任务。例如,若标注任务b和/或标注任务c还未完成,则服务器30将标注任务b或标注任务c推送给终端设备31,从而使得终端设备31对应的标注员标注属于实体类型“机构”或“地点”的实体内容。

可以理解的是,在本公开实施例中,标注任务处理方法还可适用于如图4所示的应用场景。如图4所示,该应用场景中还可以包括管理员终端40。具体的,管理员可以在该管理员终端40上创建多个标注任务,并通过服务器30将多个标注任务分别推送给不同的标注员的终端设备。另外,管理员还可以给不同的标注员配置不同的账号和密码,该账号和密码用于标注员通过自己的终端设备登录服务器30。此外,管理员还可以通过管理员终端40将待标注的文本数据发送给服务器30,服务器30进一步将待标注的文本数据推送给不同的标注员的终端设备。

本公开实施例通过创建多个标注任务,所述多个标注任务分别用于标注不同的实体类型,并将多个标注任务分别推送给不同的标注模块,当该多个标注任务中的任一标注任务完成时,向执行该标注任务的标注模块推送其他未完成的标注任务,从而使得已完成标注任务的标注模块可以标注其他未完成的标注任务,避免已完成的标注任务对应的已标注数据过多,或避免未完成的标注任务对应的已标注数据过少,提高了标注模块的标注资源利用率,以及提高了多个标注任务的执行效率。

在上述实施例的基础上,所述多个标注任务中的每个标注任务包括待标注数据;可选的,所述待标注数据包括如下至少一种:文本数据、图像数据、视频数据、音频数据。本实施例以文本数据为例进行示意性说明。在本实施例中,待标注的文本数据也可称为未标注的文本数据。具体的,该待标注的文本数据具体可以包括一个或多个文本语料,其中,一个文本语料可以看作是一篇文章,本公开实施例并不限定一篇文章包括的段落个数和字符数。

所述标注模块用于展示所述待标注数据,并根据标注员对所述待标注数据的标注操作,确定第一标注结果,所述第一标注结果包括所述标注模块接收到的标注任务需要标注的实体类型对应的实体内容。

在一种可能的实现方式中,多个标注任务中的每个标注任务可同时包括该标注任务需要标注的实体类型和待标注的文本数据。当终端设备接收到标注任务时,可同时显示该实体类型和待标注的文本数据。如图5所示,为终端设备31显示的实体类型和待标注的文本数据的示意图。例如,终端设备31接收到的标注任务需要标注实体类型“公司”和“人”。具体的,终端设备31可以将实体类型“公司”、“人”和待标注的文本数据展示在标注界面上。另外,该标注界面上还可以展示有该待标注的文本数据的标识信息,例如,1001可以是当前待标注的文本语料的标号。进一步,终端设备31可以在该标注界面上标注出实体类型“公司”和实体类型“人”分别对应的实体内容。例如,实体类型“公司”对应的实体内容是“a技术股份有限公司”,实体类型“人”对应的实体内容是“张某某”。本实施例并不限定标注员的标注操作,在一种可行的实现方式中,标注员可以在该标注界面上先点击实体类型“公司”,以使实体类型“公司”处于被选中的状态。进一步,该标注员可以在该标注界面上滑动鼠标选中实体内容“a技术股份有限公司”。同理,该标注员可以先选中实体类型“人”,再选中实体内容“张某某”。

终端设备31可根据该标注员的标注操作,建立实体类型“公司”和实体内容“a技术股份有限公司”之间的对应关系、以及实体类型“人”和实体内容“张某某”之间的对应关系。该对应关系可以有多种表现形式,其中一种表现形式是,实体类型“公司”和实体内容“a技术股份有限公司”以相同的颜色展示在该标注界面中,实体类型“人”和实体内容“张某某”以相同的颜色展示在该标注界面中。实体类型“公司”和实体类型“人”以不同的颜色进行展示,以区分不同实体类型对应的实体内容。另一种表现形式是,该标注界面中直接展示标注结果,该标注结果包括实体类型“公司”和实体内容“a技术股份有限公司”之间的对应关系、以及实体类型“人”和实体内容“张某某”之间的对应关系。可以理解的是,上述两种表现形式可以同时展示在标注界面中,如图6所示。此处,可以将标注员对该待标注的文本数据进行标注操作得到的标注结果记为第一标注结果。另外,如图6所示,该标注界面还可以显示每个实体内容在该文本数据中的位置id,该位置id具体可以是实体内容包括的字符在该文本数据中的字符序号。

在另一种可能的实现方式中,服务器30可以分别向终端设备31、终端设备32、终端设备33发送不同的标注任务。另外,服务器30还可以分别向终端设备31、终端设备32、终端设备33发送待标注的文本数据。可以理解的是,针对于同一个终端设备,服务器30向该终端设备发送标注任务和该待标注的文本数据的先后顺序可以不做具体限定。另外,针对于同一个终端设备,服务器30向该终端设备发送的标注任务和该待标注的文本数据之间可以具备一定的关联关系,从而使得该终端设备可以确定该标注任务的执行对象是哪个待标注的文本数据,即该终端设备可以确定在哪个待标注的文本数据中标注该标注任务需要标注的实体类型。此外,服务器30向不同终端设备发送的待标注的文本数据可以相同,也可以不同。当终端设备31、终端设备32、终端设备33分别接收到标注任务和待标注的文本数据后,具体的,实体类型和待标注的文本数据的展示过程、以及标注员进行标注操作的过程类似于上述实施例所述的过程,此处不再赘述。

本实施例通过标注模块展示待标注数据,并根据标注员对所述待标注数据的标注操作,确定第一标注结果,所述第一标注结果包括所述标注模块接收到的标注任务需要标注的实体类型对应的实体内容,从而使得实体类型和其对应的实体内容展示在标注界面中,从而使得标注员可以直观的判断标注结果是否正确,提高了标注员进行数据标注的准确性和便捷性。

在上述实施例的基础上,所述方法还包括如图7所示的如下几个步骤:

s701、从标注同一实体类型的所有标注模块接收所述第一标注结果。

如图6所示,当终端设备31对应的标注员确定其标注后得到的标注结果没有问题后,该标注员可以点击该标注界面中的提交按钮。进一步,该终端设备31可根据该标注员对该提交按钮的点击操作,将该标注结果发送给服务器30。可以理解的是,在一些场景下,同一实体类型可能会由多个标注员进行标注,例如,终端设备31接收到的标注任务包括“公司”、终端设备32接收到的标注任务也包括“公司”。在这种情况下,服务器30可以从标注该同一个实体类型“公司”的所有终端设备接收相应的标注结果。

本实施例并不限定标注结果的记录格式,一种记录格式可以是json,例如,待标注的文本数据为“如何演好自己的角色,请读《演员自我修养》《喜剧之王》周某某崛起于穷困潦倒之中的独门秘笈”。该待标注的文本数据对应的标注结果可以是"entity_list":[{"entity_index":{"begin":21,"end":25},"entity_type":"影视作品","entity":"喜剧之王"},{"entity_index":{"begin":26,"end":29},"entity_type":"人物","entity":"周某某"}]。其中,"entity_list"表示一个列表,该列表用于保存所有标注的实体,其中,一个实体可以包括一个实体类型、该实体类型对应的实体内容、该实体内容在文本数据中的位置。例如,{"entity_index":{"begin":21,"end":25},"entity_type":"影视作品","entity":"喜剧之王"}是一个实体,该实体包括实体类型“影视作品”,该实体类型“影视作品”对应的实体内容"喜剧之王",实体内容"喜剧之王"在文本数据中的位置。{"entity_index":{"begin":26,"end":29},"entity_type":"人物","entity":"周某某"}是另一个实体,该实体包括实体类型"人物",实体类型"人物"对应的实体内容"周某某",实体内容"周某某"在文本数据中的位置。

s702、根据所述第一标注结果对机器学习模型进行训练,所述机器学习模型用于预测所述标注任务需要标注的实体类型对应的实体内容。

具体的,服务器30在接收到各个终端设备上报的标注结果后,可以根据各个终端设备上报的标注结果对机器学习模型进行训练。训练后的机器学习模型可用于预测标注任务需要标注的实体类型对应的实体内容。

可选的,根据所述第一标注结果对机器学习模型进行训练,包括:当所述第一标注结果的个数大于或等于预设个数时,根据所述第一标注结果对机器学习模型进行训练。

可以理解的是,终端设备每标注完一个文本数据,例如,每标注完一篇文本语料,该终端设备即可将该文本语料对应的第一标注结果提交给服务器30。服务器30可以确定该第一标注结果的个数是否大于或等于预设个数。当该第一标注结果的个数是否大于或等于预设个数时,服务器30可根据该大于或等于预设个数的第一标注结果对机器学习模型进行训练。或者,终端设备每标注完一篇文本语料,可以将该文本语料对应的第一标注结果先进行存储。当该终端设备已标注的文本语料的个数大于或等于预设个数时,该终端设备可以将该已标注的文本语料分别对应的第一标注结果一起发送给服务器30。服务器30可以根据最新接收到的大于或等于预设个数的第一标注结果对机器学习模型进行训练。或者,服务器30也可以根据最新接收到的大于或等于预设个数的第一标注结果、以及该服务器30历史存储的第一标注结果对机器学习模型进行训练。

在一些场景中,第一标注结果和文本语料可以一一对应,也就是说,第一标注结果的个数可以表示已标注的文本语料的个数。如图6所示,若终端设备31用于标注实体类型“公司”和实体类型“人”,则终端设备31对应的标注员每次标注的一篇文本语料对应的第一标注结果中均包括实体类型“公司”对应的实体内容和实体类型“人”对应的实体内容。当该标注员已标注的文本语料的个数大于或等于预设个数时,该服务器30可根据该已标注的文本语料对机器学习模型进行训练。此处并不限定机器学习模型的个数,可以是一个,也可以是多个。如果此处的机器学习模型是一个,则训练后的机器学习模型可以同时识别实体类型“公司”对应的实体内容和实体类型“人”对应的实体内容。如果此处的机器学习模型是两个,那么在对该两个机器学习模型进行训练之前,可以将实体类型“公司”对应的实体内容和实体类型“人”对应的实体内容进行区分,例如,将实体类型“公司”对应的实体内容放入第一集合,将实体类型“人”对应的实体内容放入第二集合。进一步,根据第一集合对其中一个机器学习模型进行训练,使得该机器学习模型可以识别实体类型“公司”对应的实体内容。根据第二集合对另一个机器学习模型进行训练,使得该机器学习模型可以识别实体类型“人”对应的实体内容。

在另一些场景中,第一标注结果的个数可以表示某一实体类型对应的实体内容的个数。如图6所示,实体类型“公司”的第一标注结果的个数为1,实体类型“人”的第一标注结果的个数为3。当实体类型“公司”的第一标注结果的个数大于或等于预设个数时,服务器30根据实体类型“公司”的第一标注结果对机器学习模型进行训练,从而使得训练后的机器学习模型可以识别或预测实体类型“公司”对应的实体内容。同理,当实体类型“人”的第一标注结果的个数大于或等于预设个数时,服务器30根据实体类型“人”的第一标注结果对机器学习模型进行训练,从而使得训练后的机器学习模型可以识别或预测实体类型“人”对应的实体内容。也就是说,一个实体类型可对应一个机器学习模型,多个实体类型也可对应一个机器学习模型。

可选的,根据所述第一标注结果对机器学习模型进行训练,包括:将所述第一标注结果划分为训练集和测试集;根据所述训练集对机器学习模型进行训练,得到所述机器学习模型的模型参数;其中,所述测试集用于计算所述机器学习模型的性能指标。

在本实施例中,例如,服务器30向终端设备31推送了100篇文本语料,终端设备31对应的标注员对每篇文本语料中的实体类型“影视作品”和实体类型“人物”分别对应的实体内容进行标注。当该标注员标注完10篇文本语料时,若终端设备31确定最新增加的已标注的文本语料的个数大于或等于预设个数,则终端设备31可将该10篇已标注的文本语料、以及每篇已标注的文本语料对应的第一标注结果发送给服务器30,或者终端设备31可将该10篇已标注的文本语料的标识信息、以及每篇已标注的文本语料对应的第一标注结果发送给服务器30。在本实施例中,已标注的文本语料具体可以是对应有标注结果的文本语料,未标注的文本语料具体可以是未得到相应标注结果的文本语料。

例如,每篇已标注的文本语料对应一个第一标注结果,则服务器30最新接收到的第一标注结果的个数和终端设备31最新增加的已标注的文本语料的个数相同,即服务器30最新接收到的第一标注结果的个数为10个。具体的,服务器30可以将该10个第一标注结果划分为训练集和测试集,例如,将该10个第一标注结果按照9:1的比例划分为训练集和测试集,即训练集包括9个第一标注结果,测试集包括1个第一标注结果。服务器30可采用该训练集对机器学习模型进行训练。具体的,服务器30可采用多种机器学习算法在该训练集的基础上对机器学习模型进行训练。进一步,服务器30可以采用该测试集计算其训练出的机器学习模型的性能指标。

具体的,机器学习算法并不限于一层或多层的卷积神经网络(convolutionalnerualnetwork,cnn)、循环神经网络(recurrentneuralnetwork,rnn)、长短期记忆网络(long-shorttermmemory,lstm)、bert(bidirectionalencoderrepresentationsfromtransformers)及其衍生的各类nlp领域的算法,此外还可以包括门循环单元(gatedrecurrentunit,gru)、双向长短期记忆网络(bi-lstm)、双向门循环单元(bi-gru)、xlnet等。具体的,在本实施例中,可采用bert+条件随机场算法(conditionalrandomfieldalgorithm,crf)对机器学习模型进行训练。

可选的,根据所述训练集对机器学习模型进行训练,得到所述机器学习模型的模型参数,包括:在根据所述训练集对机器学习模型进行训练的过程中,采用贝叶斯搜索、随机搜索、网格搜索、神经网络搜索、强化学习搜索中的至少一种,确定所述机器学习模型的模型参数。

在本公开实施例中,机器学习模型的训练过程是全自动的。对机器学习模型进行训练的过程即是寻找一组使得损失函数取值最小的模型参数的过程,在一次训练过程中,需要经过多次迭代计算来确定一组使得损失函数取值最小的模型参数。

具体的,每个机器学习模型可对应有几个超参数,例如,层数、批量大小、学习率、分割语句长度等。在本实施例中,可采用贝叶斯搜索、随机搜索、网格搜索、神经网络搜索、强化学习搜索中的至少一种方式确定该机器学习模型的超参数。具体的,超参数的取值可以影响到模型参数的取值。例如,服务器30可以在有限时间内寻找该机器学习模型的超参数和模型参数的最优组合进行模型训练。

在第一次迭代计算中,对于层数、批量大小、学习率、分割语句长度等超参数,可以随机选取一组超参数值,根据该组超参数值对机器学习模型进行训练,得到该机器学习模型的模型参数。具体的,可以采用梯度下降法,确定该机器学习模型的模型参数。可以理解的是,确定该机器学习模型的模型参数的方法不限于梯度下降法,还可以采用其他方法。进一步,根据该机器学习模型的模型参数和测试集可确定出第一次迭代计算后,该机器学习模型的性能指标,该性能指标例如可以是f1值。进一步,根据第一次迭代计算后该机器学习模型的性能指标和超参数的初始取值,采用贝叶斯搜索的方式确定下次迭代即第二次迭代计算时超参数的取值。

在第二次迭代计算中,根据上面确定出的第二次迭代计算时超参数的取值,对机器学习模型进行训练,得到该机器学习模型的模型参数。进一步,根据该机器学习模型的模型参数和测试集可确定出第二次迭代计算后,该机器学习模型的性能指标。进一步,根据第二次迭代计算时超参数的取值和第二次迭代计算后该机器学习模型的性能指标,采用贝叶斯搜索的方式确定下次迭代即第三次迭代计算时超参数的取值。以此类推,经过多次迭代计算后,可确定出一组最好的模型参数,该组最好的模型参数可使得该机器学习模型的性能指标在该多次迭代计算过程中最好。

可选的,所述训练集包括实体类型、所述实体类型对应的实体内容、所述实体内容在待标注数据中的位置;根据所述训练集对机器学习模型进行训练,包括:将所述训练集对应的待标注数据转换为第一数字信息;将所述训练集转换为第二数字信息;将所述第一数字信息和所述第二数字信息作为所述机器学习模型的输入信息,根据所述输入信息对所述机器学习模型进行训练。

下面以一个具体的例子来说明机器学习模型的训练过程。例如,待标注的文本语料为"如何演好自己的角色,请读《演员自我修养》《喜剧之王》周某某崛起于穷困潦倒之中的独门秘笈"。首先在文本语料的开始位置加上[cls],在该文本语料的结尾加上[sep],使得该文本语料变为“[cls]如何演好自己的角色,请读《演员自我修养》《喜剧之王》周某某崛起于穷困潦倒之中的独门秘笈[sep]”。进一步,将该变换后的文本语料中的每个字符转换为一个数字,其中,每个字符对应的数字可以根据预先设定的词表来确定,该词表可以包括大量的字符,以及每个字符在该词表中的位置,例如,“如”这个字在词表的第1064行,因此,可以将“如”这个字映射为数字1064,采用类似的原理可以将变换后的文本语料映射为如下的第一数字信息:

[101,1964,863,4029,1963,5633,2347,4639,6236,5683,8025,6436,6439,518,4029,1448,5633,2770,935,1076,519,518,1600,1197,723,4375,519,1454,3216,7721,2308,6630,755,4957,1738,4058,949,723,705,4639,4325,7306,4909,5008,102]。

具体的,标注员对文本语料"如何演好自己的角色,请读《演员自我修养》《喜剧之王》周某某崛起于穷困潦倒之中的独门秘笈"进行标注后得到的标注结果为"entity_list":[{"entity_index":{"begin":21,"end":25},"entity_type":"影视作品","entity":"喜剧之王"},{"entity_index":{"begin":26,"end":29},"entity_type":"人物","entity":"周某某"}]。进一步,还可以将该标注结果转换为第二数字信息。具体的,该标注结果中的每个实体类型可对应一个第二数字信息。例如,"影视作品"是一个实体类型,针对该实体类型对应的实体内容"喜剧之王"可对应有一个第二数字信息。"人物"是另一个实体类型,针对该实体类型对应的实体内容"周某某"可对应有一个第二数字信息。

具体的,该实体内容"喜剧之王"和实体内容"周某某"分别对应的第二数字信息可采用b(begin)、e(end)、i(inter)、o(other)格式、以及b(begin)、e(end)、i(inter)、o(other)分别对应的数字进行确定。具体的,b表示实体内容在该文本语料中的起始位置,i表示实体内容在该文本语料中的中间位置,e表示实体内容在该文本语料中的结束位置,o表示无需标注的位置。另外,b可以对应数字1,i可以对应数字2,e可以对应数字3,o可以对应数字0,则实体内容"喜剧之王"对应的第二数字信息具体可以是:[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,2,2,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。实体内容"周某某"对应的第二数字信息具体可以是:[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,2,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。在本实施例中,可以将该实体内容"喜剧之王"和实体内容"周某某"分别对应的第二数字信息记为label。在对机器学习模型进行训练时,可以将如上所述的第一数字信息和第二数字信息作为机器学习模型的输入,从而在训练后得到该机器学习模型的模型参数。

在一些实施例中,标注结果不仅可以包括实体类型、该实体类型对应的实体内容,该实体内容在待标注数据中的位置,还可以包括该待标注数据。

可以理解的是,上述实施例是以一个文本语料及其对应的标注结果为例,介绍了机器学习模型的训练方法和具体过程。当文本语料的个数或标注结果的个数大于或等于预设个数时,采用每个文本语料及其对应的标注结果对该机器学习模型进行训练的过程与此类似,此处不再一一赘述。

可以理解的是,每次训练出的机器学习模型可以对待标注的文本语料中的实体类型进行预测。例如,在一个机器学习模型对应一个实体类型的场景下,若某个机器学习模型可用于识别或预测实体类型"影视作品"对应的实体内容,则将某一待标注的文本语料对应的第一数字信息输入到该机器学习模型时,该机器学习模型可输出相应的label。进一步,可根据如上所述的b(begin)、e(end)、i(inter)、o(other)的分布情况,在该待标注的文本语料中确定出由该机器学习模型预测的实体类型"影视作品"对应的实体内容、该实体类型、实体内容的位置。从而输出类似于如上所述的"entity_list"的标注结果。

本实施例通过采用贝叶斯搜索、随机搜索、网格搜索、神经网络搜索、强化学习搜索中的至少一种确定机器学习模型的模型参数,使得机器学习模型的模型参数更加精准,从而对机器学习模型的训练可以达到较好的效果,提高机器学习模型的预测或预标注的准确性。

可选的,根据所述第一标注结果对机器学习模型进行训练之后,所述方法还包括如图8所示的如下几个步骤:

s801、确定所述训练后的机器学习模型的性能指标是否达标。

例如,服务器30对机器学习模型完成一次训练后,该服务器30可以检测本次训练后的机器学习模型的性能指标是否达标。

s802、若所述训练后的机器学习模型的性能指标已达标,则确定所述标注任务完成。

若本次训练后的机器学习模型的性能指标已达标,并且该机器学习模型可用于识别或预测某个标注任务需要标注的实体类型,则可以确定该标注任务已完成。进一步,服务器30可以给执行该标注任务的终端设备分配其他未完成的标注任务。或者,该服务器30可以给执行该标注任务的终端设备分配较多的未完成的标注任务,以及分配较少的已完成的标注任务。

s803、若所述训练后的机器学习模型的性能指标未达标,则根据所述训练后的机器学习模型对数据集中的待标注数据进行预测,得到第一预测结果。

若本次训练后的机器学习模型的性能指标未达标,并且该机器学习模型可用于识别或预测某个标注任务需要标注的实体类型,则可以确定该标注任务未完成。例如,本次训练后的机器学习模型是服务器30根据如上所述的第一标注结果第一次训练后的模型,若该机器学习模型的性能指标未达标,则可以采用该训练后的机器学习模型对数据集中的待标注的文本语料预测一遍,得到第一预测结果。

例如,图9所示为该训练后的机器学习模型对某一待标注的文本语料进行预测后的第一预测结果的示意图。在本实施例中,机器学习模型对待标注的文本语料进行预测也可以称为机器学习模型对待标注的文本语料进行预标注。例如,该机器学习模型可以对如图9所示的文本语料中的实体类型“公司”和“人”进行预测,得到第一预测结果。

可选的,服务器30还可以将训练过程中的相关信息存储进入数据库,例如,可以将该机器学习模型的存储地址、该机器学习模型的性能指标、该机器学习模型的第一预测结果等存储进入数据库。

s804、将所述第一预测结果推送给所述标注模块,所述标注模块用于展示所述第一预测结果,并根据标注员对所述第一预测结果的处理操作,确定第二标注结果。

进一步,服务器30可以将该第一预测结果推送给用于标注实体类型“公司”和“人”的标注员的终端设备,例如,终端设备31。终端设备31可以将该第一预测结果展示在标注界面中。该第一预测结果可以包括如图9所示的实体类型“公司”对应的实体内容(例如,灰色部分的文本序列)和实体类型“人”对应的实体内容(例如,矩形框中框选的名字)。另外,如图9所示,该标注界面中还可以包括一个选项按钮90。该选项按钮90包括两个状态,例如一个是开启状态,一个是关闭状态。当选项按钮90处于开启状态时,该标注界面的右侧可以显示预测结果。当选项按钮90处于关闭状态时,该标注界面的右侧可以不显示预测结果。

进一步,标注员可以对该第一预测结果进行处理,终端设备31可根据标注员对该第一预测结果的处理操作,确定第二标注结果。也就是说,第一预测结果是机器学习模型预标注的结果,该第一预测结果并不是正式的数据标注结果或最终的数据标注结果。但是,该第一预测结果可以辅助标注员即用户进行数据标注。标注员对该第一预测结果进行确认、修改、删除、补充标记等处理后得到的第二标注结果可作为正式的数据标注结果或最终的数据标注结果。

本公开实施例通过机器学习模型对待标注的文本数据进行预标注,得到该文本数据对应的第一预测结果后,将该文本数据对应的第一预测结果展示输出到标注界面上,以便标注员对该第一预测结果进行补充、修改等处理从而得到更完整、更准确的第二标注结果,由于标注员不需要手动标注出文本数据中每个实体类型对应的实体内容,而是在机器学习模型对该文本数据进行预标注后输出的第一预测结果的基础上进行数据标注,从而节省了标注员的工作量,提高了数据标注的效率。

可选的,所述标注员对所述第一预测结果的处理操作包括如下至少一种:对所述第一预测结果中的部分已标注项进行确认标注的操作;对所述第一预测结果中的部分已标注项进行删除标注的操作;对所述第一预测结果中的部分已标注项进行修改标注的操作;对所述第一预测结果中的未标注项进行补充标注的操作。

例如,如果标注员确定该第一预测结果中的部分已标注项是正确的,则进行确认标注的操作。本实施例并不限定具体的确认标注的操作。一种可能的实现方式是,如图9所示,如果该标注员确定实体内容“b贸易有限公司”属于实体类型“公司”,则该标注员可以在该标注界面的右侧点击实体内容“b贸易有限公司”对应的“待确认”按钮。可选的,针对标注员点击“待确认”按钮的实体内容“b贸易有限公司”可以在该文本语料中高亮显示,以突出显示经过标注员确认的实体内容。也就是说,标注员只需对机器学习模型的第一预测结果判断对错即可,标注员无需反复在文本数据中对实体内容进行标注,进一步提高了数据标注的效率。

如果标注员确定该第一预测结果中的部分已标注项是错误的,则进行删除标注的操作。本实施例并不限定具体的删除标注的操作。一种可能的实现方式是,例如,该标注员确定实体内容“e百货”不属于实体类型“公司”,则该标注员可以在如图9所示的标注界面中选择“删除”选项,从而删除已标注的实体内容“e百货”和实体类型“公司”之间的对应关系。也就是说,标注员只需对机器学习模型的第一预测结果判断对错即可,标注员无需反复在文本数据中对实体内容进行标注,进一步提高了数据标注的效率。

另外,该标注员还可以对第一预测结果中的部分已标注项进行修改标注的操作。例如图9所示,第一预测结果中的部分已标注项包括实体内容“爱xx”和实体类型“公司”之间的对应关系。如果该标注员确定该对应关系不正确,可以对该对应关系进行修改,具体的修改操作此处并不具体限定。例如,在图9所示的标注界面的右侧,该标注员可以将实体内容“爱xx”对应的实体类型修改为“人”。或者,在图9所示的标注界面的左侧,该标注员可以先选中实体类型“人”,再滑动鼠标选中实体内容“爱xx”,从而增加实体内容“爱xx”和实体类型“人”之间的对应关系。可见,通过标注员的修改操作,可以提高数据标注的准确性。

在一些应用场景中,可能会存在多个机器学习模型对同一篇文本语料进行预标注,此时,不同机器学习模型针对同一实体类型预测出的实体内容可能有所不同。在这种情况下,可以将不同机器学习模型针对同一实体类型预测出的实体内容进行融合处理,从而得到该实体类型对应的实体内容。例如,以图9所示的该篇文本语料为例,机器学习模型a识别出的实体类型“公司”对应的实体内容包括“b公司”,机器学习模型b识别出的实体类型“公司”对应的实体内容不包括“b公司”。将机器学习模型a识别出的实体类型“公司”对应的实体内容和机器学习模型b识别出的实体类型“公司”对应的实体内容进行融合处理后,如果实体内容“b公司”未被确认为属于实体类型“公司”,则实体内容“b公司”也可以呈现在标注界面中,例如,实体内容“b公司”可以以虚线框的形式显示在该标注界面中,此处并不对实体内容“b公司”的显示形式进行限定,虚线框只是一种区别性的显示形式,便于标注员发现潜在的可能属于实体类型“公司”的实体内容。若该标注员确定实体内容“b公司”属于实体类型“公司”,则该标注员可以先点击实体类型“公司”,再点击实体内容“b公司”对应的虚线框区域,从而增加实体内容“b公司”和实体类型“公司”的对应关系。进一步,实体内容“b公司”的虚线框可以变成与实体类型“公司”相同的灰度进行展示。因此,通过将机器学习模型识别出的且没有被标注出来的实体内容区别性的显示在标注界面中,可使得标注员无需重新查找每个实体类型可能存在的未被标注出的实体内容,提高了标注员的标注效率。另外,标注员无需对该未被标注出来的实体内容进行从头到尾的滑动鼠标勾选,只要点击该实体内容所属的实体类型、以及该实体内容区别性显示的区域即可增加一条标注结果,从而提高了标注员对实体类型进行标注的便捷性。

在另一些应用场景中,机器学习模型标注出的某一实体类型对应的实体内容可能不够完整,例如,图9所示的该篇文本语料中,实体内容“f律师事务所律师”也属于实体类型“公司”,但是,机器学习模型并没有将实体内容“f律师事务所律师”预标注出来。在这种情况下,标注员可以先点击实体类型“公司”,再在该篇文本语料中实体内容“f律师事务所律师”所在的位置上滑动鼠标、依次选中实体内容“f律师事务所律师”,从而标注出实体内容“f律师事务所律师”,以增加实体类型“公司”对应的实体内容。从而使得每个实体类型对应的实体内容更加完整,提高了第二标注结果的准确性和完整性。

也就是说,第二标注结果是经过标注员对第一预测结果进行确认、修改、删除、补充标记等处理后的结果,该第二标注结果可作为正式的数据标注结果或最终的数据标记结果,第二标注结果可以比第一预测结果更完整、更准确。如果机器学习模型的预测精度接近于标注员的标注精度时,该第二标注结果和该第一预测结果可以是相同的。

可选的,所述将所述第一预测结果推送给所述标注模块之后,所述方法还包括如图10所示的如下几个步骤:

s1001、从所述标注模块接收所述第二标注结果。

例如,标注员对第一预测结果处理完成后,点击如图9所示的标注界面右侧的“提交”按钮。相应的,终端设备31可根据标注员对该第一预测结果的处理操作,确定出第二标注结果,在标注员点击“提交”按钮后,终端设备31可以将该第二标注结果发送给服务器30。

s1002、根据所述第二标注结果对所述机器学习模型进行再次训练。

服务器30可根据该第二标注结果对预测实体类型“公司”和“人”的机器学习模型进行再次训练。

可选的,所述根据所述第二标注结果对所述机器学习模型进行再次训练,包括:当所述第二标注结果的个数大于或等于预设个数时,根据所述第二标注结果对所述机器学习模型进行再次训练。

例如,数据集中包括100篇待标注的文本语料,终端设备31对应的标注员用于标注实体类型“公司”和“人”对应的实体内容。服务器30可以向终端设备31推送该100篇待标注的文本语料,以便标注员对该100篇待标注的文本语料依次进行标注操作。该100篇待标注的文本语料的标号依次为1001-1100。当该标注员标注完标号为1001-1010的该10篇文本语料时,若已标注的文本语料的个数大于或等于预设个数,则终端设备31可以将该10篇已标注的文本语料的标号(例如,1001-1010)、以及每篇已标注的文本语料对应的第一标注结果发送给服务器30。可选的,每篇已标注的文本语料对应的第一标注结果还可以包括该篇已标注的文本语料的标号,从而使得服务器30可以确定每篇已标注的文本语料对应的第一标注结果。服务器30可以根据标号为1001-1010的该10篇已标注的文本语料、以及每篇已标注的文本语料对应的第一标注结果对机器学习模型a进行训练,使得训练出的机器学习模型a可以识别或预测实体类型“公司”和“人”对应的实体内容。若该机器学习模型a的性能指标未达标,则服务器30可以采用该机器学习模型a对原始的100篇文本语料进行预测,得到100篇文本语料中每篇文本语料的第一预测结果。在本实施例中,服务器30还可以记录已标注的文本语料的标号,例如,标号为1001-1010的该10篇文本语料已经被标注员所标注,则标号为1001-1010的该10篇文本语料为已标注的文本语料。进一步,服务器30可以将未标注的文本语料对应的第一预测结果推送给终端设备31,以便标注员对未标注的文本语料对应的第一预测结果进行如上所述的处理操作,得到相应的第二标注结果。在本实施例中,已标注的文本语料是指被标注员标注过的文本语料,标注员标注过的文本语料可以是标注员手工标注完的文本语料,也可以是标注员基于机器学习模型的预测结果进行确认、修改、删除、补充标记等处理后的文本语料。未标注的文本语料是指未被标注员标注过的文本语料,例如,经过机器学习模型预测的文本语料也属于未标注的文本语料。例如,服务器30可以将标号为1011-1100的该90篇文本语料分别对应的第一预测结果推送给终端设备31,以便标注员对该90篇文本语料分别对应的第一预测结果逐一进行如上所述的处理操作。例如,当该标注员处理完标号为1011-1020的该10篇文本语料对应的第一预测结果,得到该10篇文本语料中每篇文本语料的第二标注结果时,若新增的已标注的文本语料的个数大于或等于预设个数,则终端设备31可以将该10篇已标注的文本语料的标号(例如1011-1020)、以及每篇已标注的文本语料对应的第二标注结果发送给服务器30。服务器30可以根据标号为1011-1020的该10篇文本语料、以及每篇已标注的文本语料对应的第二标注结果对机器学习模型a进行再次训练。或者,服务器30可以根据标号为1001-1010的该10篇文本语料、标号为1001-1010的该10篇文本语料中每篇已标注的文本语料对应的第一标注结果、标号为1011-1020的该10篇文本语料、以及标号为1011-1020的该10篇文本语料中每篇已标注的文本语料对应的第二标注结果对机器学习模型a进行再次训练。

可选的,根据所述第二标注结果对所述机器学习模型进行再次训练,包括:将所述第二标注结果划分为训练集和测试集;根据所述训练集对机器学习模型进行训练,得到所述机器学习模型的模型参数;其中,所述测试集用于计算所述机器学习模型的性能指标。

例如,服务器30在根据第二标注结果对机器学习模型a进行再次训练时,可以将该第二标注结果划分为训练集和测试集,采用该训练集对机器学习模型a进行再次训练的过程与上述实施例所述的采用训练集对机器学习模型a进行训练的过程类似。例如,在根据所述训练集对机器学习模型进行训练的过程中,采用贝叶斯搜索、随机搜索、网格搜索、神经网络搜索、强化学习搜索中的至少一种,确定所述机器学习模型的模型参数,以及将所述训练集对应的待标注数据转换为第一数字信息;将所述训练集转换为第二数字信息;将所述第一数字信息和所述第二数字信息作为所述机器学习模型的输入信息,根据所述输入信息对所述机器学习模型进行训练的过程均与上述实施例类似,此处不再赘述。

另外,当服务器30采用第二标注结果划分后的该训练集完成对机器学习模型a的再次训练后,还可以采用第二标注结果划分后的该测试集计算再次训练后的机器学习模型a的性能指标。

可选的,根据所述第二标注结果对所述机器学习模型进行再次训练之后,所述方法还包括:确定所述再次训练后的机器学习模型的性能指标是否达标;若所述再次训练后的机器学习模型的性能指标已达标,则确定所述标注任务完成。

例如,服务器30可以确定再次训练后的机器学习模型a的性能指标是否达标,如果再次训练后的机器学习模型a的性能指标已达标,则可以确定用于标注实体类型“公司”和“人”的标注任务完成。

可选的,若所述再次训练后的机器学习模型的性能指标未达标,且所述再次训练后的机器学习模型的性能指标大于或等于历史训练后的机器学习模型的性能指标,则根据所述再次训练后的机器学习模型对所述数据集中的待标注数据进行预测,得到第二预测结果;将所述第二预测结果推送给所述标注模块,所述标注模块用于展示所述第二预测结果,并根据所述标注员对所述第二预测结果的处理操作,确定第三标注结果,所述第三标注结果用于对所述机器学习模型进行下次训练。

例如,服务器30确定再次训练后的机器学习模型a的性能指标未达标,则此时服务器30可以比较再次训练后的机器学习模型a的性能指标和历史训练后的机器学习模型a的性能指标。此处的再次训练后的机器学习模型a可以是根据标号为1011-1020的该10篇文本语料、以及每篇已标注的文本语料对应的第二标注结果训练后的机器学习模型a,再次训练后的机器学习模型a可记为第二次训练后的机器学习模型a。历史训练后的机器学习模型a可以是根据标号为1001-1010的该10篇文本语料、以及每篇已标注的文本语料对应的第一标注结果训练后的机器学习模型a,该历史训练后的机器学习模型a可记为第一次训练后的机器学习模型a。若再次训练后的机器学习模型a的性能指标小于历史训练后的机器学习模型a的性能指标,则标注员可以继续对标号为1021-1030的该10篇文本语料分别对应的第一预测结果进行如上所述的处理操作,得到标号为1021-1030的该10篇文本语料分别对应的第二标注结果。服务器30可根据标号为1021-1030的该10篇文本语料分别对应的第二标注结果对机器学习模型a进行再次训练。

若再次训练后的机器学习模型a的性能指标大于或等于历史训练后的机器学习模型a的性能指标,则可以采用再次训练后的机器学习模型a对原始的100篇文本语料进行预测,得到100篇文本语料中每篇文本语料的第二预测结果,或者,采用再次训练后的机器学习模型a对原始的100篇文本语料中未标注的文本语料(例如,标号为1021-1100的文本语料)进行预测,得到标号为1021-1100的文本语料分别对应的第二预测结果。该第二预测结果类似于如上所述的第一预测结果,此处不再赘述。进一步,服务器30可以将未标注的文本语料分别对应的第二预测结果推送给终端设备31,使得标注员可以对未标注的文本语料分别对应的第二预测结果逐一进行如上所述的处理操作,从而得到未标注的文本语料分别对应的第三标注结果,该第三标注结果类似于如上所述的第二标注结果,此处不再赘述。服务器30进一步可以根据第三标注结果对机器学习模型a进行第三次训练。可以理解的是,第三次训练与如上所述的第二次训练、第一次训练过程均类似,此处不再赘述。依次类推不断迭代训练,直到机器学习模型a的性能指标达标。在比较第三次训练后的机器学习模型a的性能指标和历史训练后的机器学习模型a的性能指标时,该历史训练后的机器学习模型a可以是第一次训练和第二次训练后性能指标最优的机器学习模型a。也就是说,在每次比较当前训练后的机器学习模型a的性能指标和历史训练后的机器学习模型a的性能指标时,具体可以比较当前训练后的机器学习模型a的性能指标和历史训练后机器学习模型a的最优性能指标。

可以理解的是,在本公开实施例中,由于服务器30或管理员创建的标注任务是多个,如上所述的机器学习模型a只是能够识别或预测该多个标注任务中某个标注任务需要标注的实体类型。若每个标注任务需要标注的实体类型均不同,则每个标注任务可以对应一个机器学习模型,该机器学习模型用于识别或预测该标注任务需要标注的实体类型。因此,每个标注任务所对应的机器学习模型的迭代训练过程可类似于如上所述的机器学习模型a的迭代训练过程,此处不再一一赘述。

在上述实施例的基础上,每个实体类型可对应有一个快捷方式,本实施例并不限定具体的快捷方式,例如,可以是快捷键。当标注员在选择实体类型时,标注员只需对该实体类型对应的快捷键进行操作,即可选中该实体类型。例如图6所示,当标注员按下键盘中的“1”时,实体类型“公司”被选中。当标注员按下键盘中的“2”时,实体类型“人”被选中,依次类推。可以理解的是,本实施例中的实体类型对应的快捷键并不限于键盘中“1”-“9”的快捷键,还可以根据标注员自己的喜好,自定义设置每个实体类型的快捷键。

此外,如图6或图9所示,该标注界面还可以显示有提示信息“对前9个实体类型支持“1”-“9”键盘键、快捷选中”。

本实施例通过响应于所述用户对所述实体类型对应的快捷方式的操作,对所述实体类型进行选中处理,可提高用户对实体类型的选中效率。

另外,如图6或图9所示的标注界面中,还可以包括标注员已标注的文本语料的篇数。此外,如图9所示,标注员还可以点击标注界面中的“继续标注”按钮以便继续标注,或者标注员还可以点击标注界面中的“回溯”按钮回溯该标注员之前标注的实体内容。

图11为本公开实施例提供的一种标注任务处理方法的流程图。如图11所示,该标注任务处理方法可以包括如下几个步骤:

s1101、管理员创建任务组,设置每个标注任务需要达到的指标。

可选的,该任务组包括多个标注任务。

s1102、管理员为标注员创建账号和密码。

s1103、标注员从系统获取文本语料和标注任务,开始标注。

该系统具体可以是如上所述的服务器30。

s1104、系统判断已标注的文本语料的个数已达到训练阈值。

s1105、系统针对每个标注任务训练一个机器学习模型。

s1106、系统判断全部标注任务对应的机器学习模型是否达到对应的指标,若是,则执行s1107,否则执行s1108。

s1107、结束标注。

s1108、系统判断部分标注任务对应的机器学习模型是否达到对应的指标,若是则执行s1109,否则执行s1110。

s1109、系统给执行该部分标注任务的标注员分配其他未达标的标注任务。

s1110、系统判断当前训练好的机器学习模型的性能指标是否超过历史最优,若是则执行s1112,否则执行s1111。

s1111、不更新预测结果。

s1112、更新预测结果,反馈给标注员进行辅助标注。

可以理解的是,s1101-s1112的具体实现过程和原理与上述实施例所述的过程和原理均一致,此处不再赘述。

在上述实施例中,该系统具体可以是标注任务处理系统,该系统或如上所述的服务器30可以包括如图12所示的几个模块,例如,机器预标注模块、预标注融合模块、数据标注模块、专用模型训练模块、模型选择模块。可以理解的是,该文本标注系统包括的多个模块是一种逻辑功能上的划分,本公开实施例并不限定该文本标注系统的内部结构。另外,该文本标注系统不限于包括机器预标注模块、预标注融合模块、数据标注模块、专用模型训练模块、模型选择模块,例如,还可以包括如图13所示的行为检测模块、智能错误修正模块。例如,结合图12所示的系统,该标注任务处理方法可包括如下几个步骤:

步骤1、标注员接收标注任务和文本语料,开始标注,得到标注结果,例如,第一标注结果。

步骤2、当标注结果的个数大于或等于预设个数时,标注员将该标注结果提交给系统。

步骤3、专用模型训练模块采用该标注结果对机器学习模型进行训练。

步骤4、模型选择模块可以计算训练后的机器学习模型的性能指标,并选择出性能指标优于历史记录的机器学习模型作为机器预标注模块可以调用的机器学习模型。

步骤5、机器预标注模块调用模型选择模块选择出的机器学习模型,并通过该机器学习模型对待标注的文本数据进行预标注,得到预测结果,例如,第一预测结果、第二预测结果等。

步骤6、如果机器预标注模块调用的机器学习模型的个数是多个,则每个机器学习模型可输出一个预测结果,进一步,预标注融合模块可以将多个机器学习模型分别输出的预测结果进行融合处理,并将融合处理后的预测结果输入到数据标注模块。

步骤7、标注员在数据标注模块的前端页面即标注界面中可以看到最新的预测结果或融合处理后的预测结果。此时,标注员可以对该预测结果进行如上所述的处理操作,得到新的标注结果,例如第二标注结果、第三标注结果等。具体的,该数据标注模块可以是如上所述的标注模块。

步骤8、当该新的标注结果的个数大于或等于预设个数时,标注员又可将该新的标注结果提交给系统,重新回到步骤3开始执行。也就是说,随着标注工作的继续进行,可以循环迭代步骤3-步骤8,直到专用模型训练模块训练出的机器学习模型的性能指标达标,或者标注员完成了标注任务。

可以理解的是,在每次循环迭代的过程中,该待标注的文本数据可以是固定的,例如,该待标注的文本数据包括100篇文章,每次迭代后的机器学习模型都会在这100篇文章上进行预标注得到相应的预测结果。

如图13所示,该系统还包括行为检测模块、智能错误修正模块。其中,标注员在标注界面进行数据标注的过程中,行为检测模块可持续记录标注员在该标注界面中的操作,并检测该标注员在该标注界面中的操作是否为异常操作。如果行为检测模块监测到该标注员在该标注界面中的操作属于异常操作,则该行为检测模块可触发智能错误修正模块的辅助修正机制。

在一种场景中,智能错误修正模块记录了常见错误的修正方案,该智能错误修正模块可与中文分词工具连接,或者该智能错误修正模块内包括该中文分词工具。如果标注员在标注过程中可能会异常截断预设文本序列,例如,异常切断了该中文分词工具中已有的分词,则智能错误修正模块可弹出警告框,提示标注员检测当前标注文本中是否存在错误截断。

例如,待标注的文本数据为:h汽车工业有限公司于2015年9月20日在襄阳市工商行政管理局登记成立。

标注员标注的实体内容为:“h汽车工业有限公”。

智能错误修正模块弹出的问题警告可以是:分词时的词语“公司”被截断。

进一步的,智能错误修正模块还可以提示修正内容:“h汽车工业有限公司”。

在另一种场景中,对于每个实体类型已经标出的实体内容,该系统可以将每个实体类型和该实体类型对应的实体内容存储到一个专用字典中。如果标注员在标注过程中可能会异常标注预设文本序列之外的内容,该智能错误修正模块可弹出警告框,提示标注员是否需要将此序列标出。

例如,标注员标注的内容为:气候特征贵南县属高原大陆性气候,冬长夏短。

标注员标注的内容为:“贵南县属”。

智能错误修正模块弹出的问题警告可以是:专用字典中已经存在“贵南县”。

进一步的,智能错误修正模块还可以提示修正内容:“贵南县”。

在又一种可能的场景中,标注员在标注过程中可能会异常标注预设符号。例如,标注员在滑动鼠标时勾选了多余的空格、换行或标点时,智能错误修正模块可自动去掉标注出的文本序列两侧的空白符合和不成对的非文字字符。例如,标注员的标注内容、智能错误修正模块弹出的问题警告、以及智能错误修正模块给出的修正结果如下表1所示:

表1

可以理解的是,智能错误修正模块可以修正的常见错误类型包括但不限于“文本序列前后存在空白符”、“文本序列前后存在标点符号”、“标签对应关系错误”、“文本序列错误截断”等。

例如,当智能错误修正模块确定标注员标注的内容存在错误时,该智能错误修正模块可以自动修正并弹框提醒标注员。标注员可以对该智能错误修正模块修正后的标注结果进行确认操作,即表示接受该智能错误修正模块的修正,此时,该智能错误修正模块修正后的标注结果为最终的标注结果,例如,第二标注结果。如果标注员不接受该智能错误修正模块的修正,可以点击弹框中的“拒绝修正”按钮,从而维持该标注员原有的标注结果。此时,该标注员原有的标注结果为最终的标注结果,例如,第二标注结果。

本实施例通过检测用户对预测结果的处理操作是否为异常操作,当用户对预测结果的处理操作为异常操作时,生成异常提示信息,以便提示用户进行检查或修改标注结果。另外,该异常提示信息还可以包括修正后的标注结果,也就是说,当系统确定用户的操作为异常操作时,该系统可以自动对用户的标注结果进行修正,并将修正后的标注结果展示给用户,不仅提高了标注的准确性,还提高了用户的标注效率。

图14为本公开实施例提供的标注任务处理装置的结构示意图。本公开实施例提供的标注任务处理装置可以执行标注任务处理方法实施例提供的处理流程,如图14所示,标注任务处理装置140包括:标注任务管理模块141和标注任务调度模块142;其中,标注任务管理模块141用于创建多个标注任务,所述多个标注任务分别用于标注不同的实体类型;将所述多个标注任务分别推送给不同的标注模块;标注任务调度模块142用于当所述多个标注任务中的任一标注任务完成时,向执行所述标注任务的标注模块推送其他未完成的标注任务。

可选的,所述多个标注任务中的每个标注任务包括待标注数据;所述标注模块用于展示所述待标注数据,并根据标注员对所述待标注数据的标注操作,确定第一标注结果,所述第一标注结果包括所述标注模块接收到的标注任务需要标注的实体类型对应的实体内容。

可选的,所述标注任务处理装置还包括:接收模块143和机器学习模型训练模块144;

所述接收模块用于从标注同一实体类型的所有标注模块接收所述第一标注结果;

所述机器学习模型训练模块用于根据所述第一标注结果对机器学习模型进行训练,所述机器学习模型用于预测所述标注任务需要标注的实体类型对应的实体内容。

可选的,所述机器学习模型训练模块144具体用于:

当所述第一标注结果的个数大于或等于预设个数时,根据所述第一标注结果对机器学习模型进行训练。

可选的,所述标注任务管理模块141还用于:

确定所述训练后的机器学习模型的性能指标是否达标;

若所述训练后的机器学习模型的性能指标已达标,则确定所述标注任务完成。

可选的,所述标注任务处理装置还包括:预测模块145;

所述预测模块用于当所述训练后的机器学习模型的性能指标未达标时,根据所述训练后的机器学习模型对数据集中的待标注数据进行预测,得到第一预测结果;

所述标注任务管理模块还用于:将所述第一预测结果推送给所述标注模块,所述标注模块用于展示所述第一预测结果,并根据标注员对所述第一预测结果的处理操作,确定第二标注结果。

可选的,所述标注员对所述第一预测结果的处理操作包括如下至少一种:

对所述第一预测结果中的部分已标注项进行确认标注的操作;

对所述第一预测结果中的部分已标注项进行删除标注的操作;

对所述第一预测结果中的部分已标注项进行修改标注的操作;

对所述第一预测结果中的未标注项进行补充标注的操作。

可选的,接收模块还用于:从所述标注模块接收所述第二标注结果;机器学习模型训练模块还用于:根据所述第二标注结果对所述机器学习模型进行再次训练。

可选的,所述机器学习模型训练模块具体用于:当所述第二标注结果的个数大于或等于预设个数时,根据所述第二标注结果对所述机器学习模型进行再次训练。

可选的,所述标注任务管理模块还用于:确定所述再次训练后的机器学习模型的性能指标是否达标;若所述再次训练后的机器学习模型的性能指标已达标,则确定所述标注任务完成。

可选的,预测模块具体用于:当所述再次训练后的机器学习模型的性能指标未达标,且所述再次训练后的机器学习模型的性能指标大于或等于历史训练后的机器学习模型的性能指标时,根据所述再次训练后的机器学习模型对所述数据集中的待标注数据进行预测,得到第二预测结果;所述标注任务管理模块还用于:将所述第二预测结果推送给所述标注模块,所述标注模块用于展示所述第二预测结果,并根据所述标注员对所述第二预测结果的处理操作,确定第三标注结果,所述第三标注结果用于对所述机器学习模型进行下次训练。

可选的,所述机器学习模型训练模块根据所述第一标注结果对机器学习模型进行训练时,具体用于:将所述第一标注结果划分为训练集和测试集;根据所述训练集对机器学习模型进行训练,得到所述机器学习模型的模型参数;其中,所述测试集用于计算所述机器学习模型的性能指标。

可选的,所述机器学习模型训练模块根据所述第二标注结果对所述机器学习模型进行再次训练时,具体用于:将所述第二标注结果划分为训练集和测试集;根据所述训练集对机器学习模型进行训练,得到所述机器学习模型的模型参数;其中,所述测试集用于计算所述机器学习模型的性能指标。

可选的,所述机器学习模型训练模块根据所述训练集对机器学习模型进行训练,得到所述机器学习模型的模型参数时,具体用于:在根据所述训练集对机器学习模型进行训练的过程中,采用贝叶斯搜索、随机搜索、网格搜索、神经网络搜索、强化学习搜索中的至少一种,确定所述机器学习模型的模型参数。

可选的,所述训练集包括实体类型、所述实体类型对应的实体内容、所述实体内容在待标注数据中的位置;所述机器学习模型训练模块根据所述训练集对机器学习模型进行训练时,具体用于:将所述训练集对应的待标注数据转换为第一数字信息;将所述训练集转换为第二数字信息;将所述第一数字信息和所述第二数字信息作为所述机器学习模型的输入信息,根据所述输入信息对所述机器学习模型进行训练。

可选的,所述待标注数据包括如下至少一种:文本数据、图像数据、视频数据、音频数据。

可以理解的是,在本实施例中,标注任务处理装置具体可以是如上所述的系统或服务器,或者可以是如上所述的系统中的部件或服务器中的部件。其中,机器学习模型训练模块144可以是如上所述的专用模型训练模块。预测模块145可以是如上所述的机器预标注模块。

图14所示实施例的标注任务处理装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

图15为本公开实施例提供的标注任务处理设备的结构示意图。本公开实施例提供的标注任务处理设备可以执行标注任务处理方法实施例提供的处理流程,如图15所示,标注任务处理设备150包括:存储器151、处理器152、计算机程序和通讯接口153;其中,计算机程序存储在存储器151中,并被配置为由处理器152执行如上所述的标注任务处理方法。

另外,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的标注任务处理方法。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1