一种数据处理方法、装置及网络设备与流程

文档序号:16391550发布日期:2018-12-25 19:21阅读:172来源:国知局
一种数据处理方法、装置及网络设备与流程

本发明涉及计算机技术领域,特别涉及一种数据处理方法、装置及网络设备。

背景技术

随着计算机技术的发展,机器学习技术被应用到越来越多的领域。机器学习通常需要大量的标注数据来训练学习模型,因此,数据的标注质量是影响学习模型精准性的重要因素。

为了提升数据的标注质量,比较常见的方式是让多个标注者来标注同一份数据,然后取大多数标注者标注的结果作为最终的标注结果;或者,对于每次的标注结果进行抽样评估,如果抽样评估的准确率小于预设阈值,则让标注者重新标注这份数据,直到抽样评估的准确率达到预设阈值。

在实现本发明的过程中,发明人发现现有技术至少存在以下问题:

相关技术中,在提升数据的标注质量,尤其是比较复杂的数据的标注时,主要依靠的还是人工的参与,需要耗费较大的人力资源以及时间,而且标注数据的准确率也还有待进一步提高。

因此,需要提供更可靠或更有效的方案,以便在保证标注数据质量的情况下,有效的减少时间以及人力资源的消耗。



技术实现要素:

为了解决现有技术的问题,本发明实施例提供了一种数据处理方法、装置及网络设备。所述技术方案如下:

一方面,提供了一种数据处理方法,所述方法包括:

获取第一标注数据集,所述第一标注数据集为按照预设标注规则对待标注数据进行标注得到的标注数据;

遍历所述第一标注数据集中的标注数据,在遍历所述第一标注数据集中的标注数据时,利用标注预测模型确定冲突标注数据;

获取第二标注数据集,所述第二标注数据集是将遍历过程中得到的冲突标注数据按照所述预设标注规则进行重新标注得到的标注数据;

根据所述第一标注数据集和第二标注数据集,确定第三标注数据集;

在所述第三标注数据集的评价结果不满足预设评价条件时,将所述第三标注数据集作为所述第一标注数据集,执行所述遍历的步骤直至所述第三标注数据集的评价结果满足所述预设评价条件。

另一方面,提供了一种数据处理装置,所述装置包括:

第一获取模块,用于获取第一标注数据集,所述第一标注数据集为按照预设标注规则对待标注数据进行标注得到的标注数据;

遍历模块,用于遍历所述第一标注数据集中的标注数据,在遍历所述第一标注数据集中的标注数据时,利用标注预测模型确定冲突标注数据;

第二获取模块,用于获取第二标注数据集,所述第二标注数据集是将遍历过程中得到的冲突标注数据按照所述预设标注规则进行重新标注得到的标注数据;

第一确定模块,用于根据所述第一标注数据集和第二标注数据集,确定第三标注数据集;

循环处理模块,用于在所述第三标注数据集的评价结果不满足预设评价条件时,将所述第三标注数据集作为所述第一标注数据集,执行所述遍历的步骤直至所述第三标注数据集的评价结果满足所述预设评价条件。

另一方面,提供了一种网络设备,包括:

处理器,适于实现一条或一条以上指令;以及,

存储器,所述存储器存储有一条或一条以上指令,所述一条或一条以上指令适于由所述处理器加载并执行上述的数据处理方法。

本发明实施例提供的技术方案带来的有益效果是:

本发明在获取到标注好的标注数据集后,对该标注数据集中的标注数据进行遍历,并在遍历过程中结合标注预测模型确定冲突标注数据,将遍历过程中得到的冲突标注数据重新进行标注,并将重新标注好的数据与之前的标注数据集进行融合得到新的标注数据集,之后对该新的标注数据集进行评价,在评价结果不满足预设评价条件时,进行上述的循环迭代操作,直至新的标注数据集满足预设评价条件,从而大大提高了数据的标注质量,并且由于有效的将模型和人力进行了结合,节约了人力和时间成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据处理方法的流程示意图;

图2是本发明实施例提供的在遍历所述第一标注数据集中的标注数据时,利用标注预测模型确定冲突标注数据的一种流程示意图;

图3是本发明实施例提供的获取第三标注数据集的评价结果的一种流程示意图;

图4是本发明实施例提供的另一种数据处理方法的流程示意图;

图5是本发明实施例提供的在遍历所述第一标注数据集中的标注数据时,利用标注预测模型确定冲突标注数据的另一种流程示意图;

图6是本发明实施例提供的一种数据处理装置的结构示意图;

图7是本发明实施例提供的遍历模块的一种结构示意图;

图8是本发明实施例提供的另一种数据处理装置的结构示意图;

图9是本发明实施例提供的第一确定模块的一种结构示意图;

图10是本发明实施例提供的另一种数据处理装置的结构示意图;

图11是本发明实施例提供的一种网络设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

请参考图1,其所示为本发明实施例提供的一种数据处理方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,所述方法包括:

s102,获取第一标注数据集,所述第一标注数据集为按照预设标注规则对待标注数据进行标注得到的标注数据。

在本说明书实施例中,待标注数据是指需要标注人员进行标注的对象,待标注数据可以包括但不限于文字,图像,音频,统计数据等等。

在本说明书实施例中,预设标注规则是指示标注人员如何对待标注数据进行标注的信息。标注数据包括与待标注数据对应的标注结果,标注结果是指标注人员基于预设标注规则对待标注数据进行标注之后得到的数据。

预设标注规则可以包含标注格式和标签类别等等。例如,标注格式可以是“槽位名=槽位值##槽位名=槽位值”,其中,槽位是待标注数据中某些带有特定属性的实体词;标签类别可以是“歌名-->song,歌手-->singer,类别,风格-->tag,影视,节目,作品-->tv,语言-->language,位置信息-->place”。依据上述预设标注规则,对于待标注数据为“给我来首牛仔很忙”的标注结果可以为“song=牛仔很忙”;对于待标注数据为“周杰伦最近有什么好听的歌”的标注结果可以为“singer=周杰伦##tag=好听的”;对于待标注数据为“点一首loveisjustadream”的标注结果可以为“song=loveisjustadream”。

需要说明的是,上述只是给出了预设标注规则的一种示例,在实际应用中,还可以根据需要设置相应的预设标注规则,例如,需要对待标注数据的意图进行标注时,可以在预设标注规则中指出意图a的标签类别为1,意图b的标签类别为2等等。

在实际应用中,标注人员可以通过一些交互设备向标注数据系统发起请求,标注数据系统可以从待标注数据集中选取待标注数据,并将该部分待标注数据与预设标注规则封装为数据包发送给标注人员。随后,可以获取标注人员标注完成的标注数据。

s104,遍历所述第一标注数据集中的标注数据,在遍历所述第一标注数据集中的标注数据时,利用标注预测模型确定冲突标注数据。

为了对标注数据的标注质量进行控制,在本说明书实施例中,通过遍历第一标注数据集中的标注数据,并在遍历该第一标注数据集的标注数据时,结合标注预测模型来确定冲突标注数据。

在本说明书实施例中,将待标注数据输入至标注预测模型,可以输出相对应的预测标注数据,当第一标注数据集中与该待标注数据相对应的标注数据与上述预测标注数据不一致时,则将第一标注数据集中与该待标注数据相对应的标注数据确定为冲突标注数据。

在本说明书实施例中,在遍历所述第一标注数据集中的标注数据时,利用标注预测模型确定冲突标注数据可以采用图2所示的方法。图2所示为本发明实施例提供的在遍历所述第一标注数据集中的标注数据时,利用标注预测模型确定冲突标注数据的一种流程示意图,如图2所示,可以包括:

s202,从所述第一标注数据集中选取至少一个标注数据作为待筛选标注数据,并将所述第一标注数据集去除所述待筛选标注数据后的标注数据作为训练标注数据。

在本说明书实施例中,将第一标注数据集中的标注数据拆分为待筛选标注数据和训练标注数据。训练标注数据是通过匹配一些参数来建立模型的数据集,即采用训练标注数据训练机器学习模型,以确定机器学习模型的参数。待筛选标注数据是用于从中筛选出冲突标注数据的数据集。

在本说明书实施例中,待筛选标注数据可以是第一标注数据集中的一个标注数据,也可以是几个标注数据的集合。可以采用随机选取的方式从第一标注数据集中选取待筛选标注数据。

s204,对所述训练标注数据进行机器学习,生成标注预测模型。

在本说明书实施例中,用于进行机器学习的模型类别可以根据标注数据对应的内容进行确定,例如,如果标注数据的内容是关于意图分类的数据,则可以选用意图分类的模型(如支持向量机一类的分类器)进行机器学习,如果标注数据的内容是关于槽位标注的内容,则可以选用序列标注的模型(如lstm模型、crf模型)进行机器学习。

在本说明书实施例中,生成标注预测模型可以通过最大化数据集的似然函数来实现,其中,x表示训练标注数据输入,y表示训练标注数据的类别标签输出。机器学习过程中,首先将训练标注数据x转化为向量c,然后将该向量c转化成对应的输出y。

在本说明书实施例中,在将向量c转化成对应的输出y时,可以将向量c输入一个softmax多项分类器,以计算每个类别标签的概率,具体的,第i个类别标签的生成概率可以表示为:

其中,j=1,…,k;

则所有类别标签的似然表示为:

通过确定上述所有类别标签的似然最大值可以确定用于进行机器学习的模型中的参数,进而生成标注预测模型。

在本说明书实施例中,将训练标注数据x转化为向量c可以采用以下至少两种方式:

方式一,统计训练标注数据中的每个词的tf-idf值,并将整句话转换为一个tf-idf向量,具体的,tf-idf向量可以表示为:

vd=[w1,d,w2,d,...,wn,d]t,其中,

其中,

tft,d是词组t在输入文本中出现的频率;

是逆向文件频率;

|d|是文件集中的文件总数;

|{d'∈d|t∈d'}|是含有词组t的文件数。

方式二,用循环神经网络编码器将x编码为一个宽度为k的向量c。给定任意长度有序特征序列循环神经网络编码器将返回固定长度特征向量ck∈rout(其中,xi可为one-hot表示或者稠密低维特征)。

在本说明书实施例中,循环神经网络编码器采取了递归式的定义:具体到序列信息的刻画过程,在刻画前i个元素组成的部分序列时,引入了隐藏状态si作为前一隐藏状态si-1和当前元素xi的输出,即si=r(si-1,xi);最终输出到固定长度的特征向量则是通过映射o(·)将最终的状态sk映射到ck,具体的,表示如下:

rnn(x1:k;s0)=c1:k

ci=o(si)

si=r(si-1,xi)

s206,将所述待筛选标注数据对应的待标注数据输入所述标注预测模型进行标注预测,得到所述待标注数据所对应的预测标注数据。

在本说明书实施例中,训练结束得到标注预测模型后,可以将待筛选标注数据对应的待标注数据输入至标注预测模型进行标注预测,可以得到该待标注数据所对应的预测标注数据。

s208,根据所述待筛选标注数据和预测标注数据,确定冲突标注数据。

在本说明书实施例中,得到预测标注数据后,可以将该预测标注数据的标注结果与待筛选标注数据的标注结果进行比对,在待筛选标注数据的标注结果与预测标注数据的标注结果不一致时,表明待筛选标注数据可能存在标注错误等问题,此时,将待筛选标注数据确定为冲突标注数据。

例如,表1所示的对于意图的标注中,由于序号2所对应的待筛选标注数据的标注结果与预测标注数据的标注结果不同,因此,将序号2所对应的待筛选标注数据确定为冲突标注数据。

表1

在本说明书实施例中,可以将每一次遍历确定出的冲突标注数据放入一个数据集中。

在本说明书实施例中,由于冲突标注数据为可能存在标注错误等问题的数据,为了在遍历的过程中提高机器学习得到的标注预测模型的可靠性,可以在确定待筛选标注数据为冲突标注数据后,将该冲突标注数据从第一标注数据集中剔除,如此,在进行下一个遍历过程时,训练标注数据中就不会存在冲突标注数据,从而可以使得采用训练标注数据进行机器学习得到的标注预测模型更加可靠,进而提高筛选出的冲突标注数据的准确性。

s106,获取第二标注数据集,所述第二标注数据集是将遍历过程中得到的冲突标注数据按照所述预设标注规则进行重新标注得到的标注数据。

在本说明书实施例中,在从第一标注数据集中确定了冲突标注数据后,可以将该冲突标注数据重新发送给标注人员,以使得标注人员根据预设标注规则对该冲突标注数据对应的待标注数据进行重新标注得到标注结果。随后可以获取上述重新标注的标注数据,作为第二标注数据集。

s108,根据所述第一标注数据集和第二标注数据集,确定第三标注数据集。

在本说明书实施例中,可以将第一标注数据集中的冲突标注数据以所述第二标注数据集中的标注数据替代,得到该第三标注数据集。。

s110,在所述第三标注数据集的评价结果不满足预设评价条件时,将所述第三标注数据集作为所述第一标注数据集,执行所述遍历的步骤直至所述第三标注数据集的评价结果满足所述预设评价条件。

在本说明书实施例中,确定了第三标注数据集后,可以对该第三标注数据集进行质量评价,即判断第三标注数据集的评价结果是否满足预设评价条件。该质量评价过程可以由人工执行,以降低前述步骤中可能存在的模型预测结果的不准确而造成的影响。

具体的,当第三标注数据集的评价结果不能满足预设评价条件时,可以将该第三标注数据集作为第一标注数据集,执行步骤s104,直至得到的第三标注数据集的评价结果能够满足预设评价条件,则表明此时的第三标注数据集的标注质量已经合格,满足了需求,可以结束执行。

需要说明的是,上述预设评价条件可以根据第三标注数据集的评价方式来设定。在本说明书实施例中,对第三标注数据集的评价方式可以采用抽样评估,则获取第三标注数据集的评价结果可以采用图3所示的方法。图3所示为本发明实施例提供的获取第三标注数据集的评价结果的一种流程示意图,如图3所示,可以包括:

s302,从所述第三标注数据集中抽取第一数量的标注数据作为样本标注数据。

在本说明书实施例中,抽取可以按照随机的方式抽取,抽取的第一数量可以根据实际需求进行设定,一般第一数量越大,则样本标注数据的数量越多,评价结果的可靠性越高;反之,第一数量越小,则样本标注数据的数量越少,评价结果可靠性越低。

s304,统计所述样本标注数据中满足所述预设标注规则的标注数据的第二数量。

在本说明书实施例中,可以依据用于指示标注人员如何对待标注数据进行标注的预设标注规则对样本标注数据进行逐一检测,当某一样本标注数据的检测结果为满足预设标注规则时,则可以认为该样本标注数据标注准确,统计样本标注数据中满足预设标注规则的标注数据的数量,作为第二数量。

s306,计算所述第二数量与第一数量的比值,将所述比值作为所述第三标注数据集的评价结果。

在本说明书实施例中,可以计算第二数量与第一数量的比值,并将该比值作为第三标注数据集的评价结果。

需要说明的是,当第三标注数据集的评价结果为上述比值时,预设评价条件可以对应地设置为预设比值,例如,预设评价条件可以设置为95%或者90%等数值。当评价结果小于该预设比值时,则表明第三标注数据集的评价结果不满足预设评价条件;反之,当评价结果大于或者等于预设比值时,则表明第三标注数据集的评价结果满足预设评价条件。

需要说明的是,上述只是给出了获取第三标注数据集的评价结果的一个示例,在实际应用中,还可以采用其他的方式来对第三标注数据集的标注质量进行评价以得到评价结果,例如,还可以根据第三标注数据集中标注数据的分布情况来评价等等,本发明对此不作限定。

综上,本发明实施例在获取到标注好的标注数据集后,对该标注数据集中的标注数据进行遍历,并在遍历过程中结合标注预测模型确定冲突标注数据,将遍历过程中得到的冲突标注数据重新进行标注,并将重新标注好的数据与之前的标注数据集进行融合得到新的标注数据集,之后对该新的标注数据集进行评价,在评价结果不满足预设评价条件时,进行上述的循环迭代操作,直至新的标注数据集满足预设评价条件,从而大大提高了数据的标注质量,并且由于在整个标注数据质量的控制过程中,有效的将模型和人力进行了结合,降低了人力和时间成本,提高了标注数据质检的效率。

请参考图4,其所示为本发明实施例提供的另一种数据处理方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图4所示,所述方法包括:

s402,获取第一标注数据集,所述第一标注数据集为按照预设标注规则对待标注数据进行标注得到的标注数据。

在本说明书实施例中,待标注数据是指需要标注人员进行标注的对象,待标注数据可以包括但不限于文字,图像,音频,统计数据等等。

在本说明书实施例中,预设标注规则是指示标注人员如何对待标注数据进行标注的信息。标注数据包括与待标注数据对应的标注结果,标注结果是指标注人员基于预设标注规则对待标注数据进行标注之后得到的数据。

预设标注规则可以包含标注格式和标签类别等等。例如,标注格式可以是“槽位名=槽位值##槽位名=槽位值”,其中,槽位是待标注数据中某些带有特定属性的实体词;标签类别可以是“歌名-->song,歌手-->singer,类别,风格-->tag,影视,节目,作品-->tv,语言-->language,位置信息-->place”。依据上述预设标注规则,对于待标注数据为“给我来首牛仔很忙”的标注结果可以为“song=牛仔很忙”;对于待标注数据为“周杰伦最近有什么好听的歌”的标注结果可以为“singer=周杰伦##tag=好听的”;对于待标注数据为“点一首loveisjustadream”的标注结果可以为“song=loveisjustadream”。

需要说明的是,上述只是给出了预设标注规则的一种示例,在实际应用中,还可以根据需要设置相应的预设标注规则,例如,需要对待标注数据的意图进行标注时,可以在预设标注规则中指出意图a的标签类别为1,意图b的标签类别为2等等。

在实际应用中,标注人员可以通过一些交互设备向标注数据系统发起请求,标注数据系统可以从待标注数据集中选取待标注数据,并将该部分待标注数据与预设标注规则封装为数据包发送给标注人员。随后,可以获取标注人员标注完成的标注数据。

s404,获取所述第一标注数据集中标注数据的数据特征。

在本说明书实施例中,标注数据的数据特征可以是对标注结果进行分析后得到的特征,例如,可以是标注数据的槽位特征,也可以是标注数据的意图特征等等。

s406,将所述第一标注数据集拆分为n份标注数据子集,所述标注数据子集所包含的标注数据的数据特征满足预设的分布规则,n≥2。

在本说明书实施例中,为了提高数据处理的效率,可以将第一标注数据集拆分为n份(n≥2)标注数据子集,并且每份标注数据子集所述包含的标注数据的数据特征需要满足预设的分布规则,以确保后续筛选出的冲突标注数据的可靠性。

在一个具体实施例中,预设的分布规则可以为每份标注数据子集的数据特征满足一个泊松分布。若标注数据子集中包含m个标注数据,数据特征x发生的概率p(x)可以用下式表示:

p(0)=e-m

当标注数据子集的数据特征满足上述泊松分布时,可以最大程度的保证各个标注数据子集数据的一致性,那么,在后续利用机器学习得到的标注预测模型从待筛选标注数据中筛选冲突标注数据时,能够尽可能的将冲突标注数据筛选出,可以大大提高筛选的准确性和可靠性,进而不仅可以提高数据处理的效率,还有利于提高最终获得的标注数据的质量。

在本说明书实施例中,预设的分布规则还可以根据标签类别以及实际需求进行设置,例如,预设的分布规则可以为标注数据子集中的各数据特征为一预设比例,如当标注数据的标注类型是意图时,预设的分布规则可以为标注数据子集中意图特征1:意图特征2≥9:1,即拆分后得到的每一分标注数据子集中的标注数据的数据特征均需要满足意图特征1:意图特征2≥9:1,本发明对此不作限定。

s408,遍历所述第一标注数据集中的标注数据,在遍历所述第一标注数据集中的标注数据时,利用标注预测模型确定冲突标注数据。

在本说明书实施例中,在遍历所述第一标注数据集中的标注数据时,利用标注预测模型确定冲突标注数据可以采用图5所示的方法。图5所示为本发明实施例提供的在遍历所述第一标注数据集中的标注数据时,利用标注预测模型确定冲突标注数据的另一种流程示意图,如图5所示,可以包括:

s502,从所述n份标注数据子集中选取k份标注数据子集作为待筛选标注数据,并将(n-k)份所述标注数据子集作为训练标注数据,1≤k≤n/2。

在本说明书实施例中,可以随机地从拆分的n份标注数据子集中选取k份标注数据子集,1≤k≤n/2,例如,可以从拆分的n份标注数据子集中选取1份标注数据子集作为待筛选标注数据,则剩余的(n-1)份标注数据子集作为训练标注数据。

s504,对所述训练标注数据进行机器学习,生成标注预测模型。

s506,将所述待筛选标注数据对应的待标注数据输入所述标注预测模型进行标注预测,得到所述待标注数据所对应的预测标注数据。

其中,上述步骤504至步骤506可以参见前述图2所示的方法实施例,在此不再赘述。

s508,根据所述待筛选标注数据和预测标注数据,确定冲突标注数据。

在本说明书实施例中,由于待筛选标注数据为一个或者多个标注数据子集,因此,确定的冲突标注数据可能是标注数据子集中的一个或者多个标注数据。具体的,当作为待筛选标注数据的标注数据子集中的标注数据的标注结果与预测标注数据的标注结果不一致时,可以将该标注数据子集中的相对应标注数据确定为冲突标注数据。例如表2所示,待筛选标注数据包含标注数据子集1和标注数据子集2,其中,标注数据子集1中的序号2对应的标注数据的标注结果与预测标注数据的预测标注结果不一致,因此,标注数据子集1的序号2对应的标注数据可以确定为冲突标注数据;标注数据子集2中的序号3对应的标注数据的标注结果与预测标注数据的预测标注结果不一致,因此,标注数据子集2的序号3对应的标注数据可以确定为冲突标注数据。

表2

在本说明书实施例中,可以将每一次遍历确定出的冲突标注数据放入一个数据集中。

在本说明书实施例中,由于冲突标注数据为可能存在标注错误等问题的数据,为了在遍历的过程中提高机器学习得到的标注预测模型的可靠性,可以在一次遍历确定冲突标注数据后,将该冲突标注数据从第一标注数据集中剔除,如此,在进行下一个遍历过程时,训练标注数据中就不会存在冲突标注数据,从而可以使得采用训练标注数据进行机器学习得到的标注预测模型更加可靠。

s410,获取第二标注数据集,所述第二标注数据集是将遍历过程中得到的冲突标注数据按照所述预设标注规则进行重新标注得到的标注数据。

在本说明书实施例中,在从第一标注数据集中确定了冲突标注数据后,可以将该冲突标注数据重新发送给标注人员,以使得标注人员根据预设标注规则对该冲突标注数据对应的待标注数据进行重新标注得到标注结果。随后可以获取上述重新标注的标注数据,作为第二标注数据集。

s412,根据所述第一标注数据集和第二标注数据集,确定第三标注数据集。

s414,在所述第三标注数据集的评价结果不满足预设评价条件时,将所述第三标注数据集作为所述第一标注数据集,执行所述遍历的步骤直至所述第三标注数据集的评价结果满足所述预设评价条件。

在本说明书实施例中,当第三标注数据集的评价结果满足预设评价条件时,则表明第三标注数据集的标注质量已经满足要求,可以结束执行。

上述步骤s412至步骤s414的详细内容可以参见前述图1所示的方法实施例,在此不再赘述。

综上,本发明实施例在获取到标注好的标注数据集后,对该标注数据集中的标注数据进行遍历,并在遍历过程中结合标注预测模型确定冲突标注数据,将遍历过程中得到的冲突标注数据重新进行标注,并将重新标注好的数据与之前的标注数据集进行融合得到新的标注数据集,之后对该新的标注数据集进行评价,在评价结果不满足预设评价条件时,进行上述的循环迭代操作,直至新的标注数据集满足预设评价条件,从而大大提高了数据的标注质量,并且由于整个标注数据质量的控制过程中,有效的将模型和人力进行了结合,降低了人力和时间成本,提高了标注数据质检的效率。

与上述几种实施例提供的数据处理方法相对应,本发明实施例还提供一种数据处理装置,由于本发明实施例提供的数据处理装置与上述几种实施例提供的数据处理方法相对应,因此前述数据处理方法的实施方式也适用于本实施例提供的数据处理装置,在本实施例中不再详细描述。

请参阅图6,其所示为本发明实施提供的一种数据处理装置的结构示意图,如图6所示,该装置可以包括:第一获取模块610,遍历模块620,第二获取模块630,第一确定模块640和循环处理模块650。

第一获取模块610,可以用于获取第一标注数据集,所述第一标注数据集为按照预设标注规则对待标注数据进行标注得到的标注数据;

遍历模块620,可以用于遍历所述第一标注数据集中的标注数据,在遍历所述第一标注数据集中的标注数据时,利用标注预测模型确定冲突标注数据;

第二获取模块630,可以用于获取第二标注数据集,所述第二标注数据集是将遍历过程中得到的冲突标注数据按照所述预设标注规则进行重新标注得到的标注数据;

第一确定模块640,可以用于根据所述第一标注数据集和第二标注数据集,确定第三标注数据集;

循环处理模块650,可以用于在所述第三标注数据集的评价结果不满足预设评价条件时,将所述第三标注数据集作为所述第一标注数据集,执行所述遍历的步骤直至所述第三标注数据集的评价结果满足所述预设评价条件。

在一个实例中,如图7所示,遍历模块620可以包括:选取模块6210,生成模块6220,预测模块6230和第二确定模块6240。

选取模块6210,可以用于从所述第一标注数据集中选取至少一个标注数据作为待筛选标注数据,并将所述第一标注数据集去除所述待筛选标注数据后的标注数据作为训练标注数据;

生成模块6220,可以用于对所述训练标注数据进行机器学习,生成标注预测模型;

预测模块6230,可以用于将所述待筛选标注数据对应的待标注数据输入所述标注预测模型进行标注预测,得到所述待标注数据所对应的预测标注数据;

第二确定模块6240,可以用于根据所述待筛选标注数据和预测标注数据,确定冲突标注数据。

在一具体实例中,第二确定模块6240具体可以用于在所述待筛选标注数据与所述预测标注数据不一致时,将所述待筛选标注数据确定为冲突标注数据。

在另一实例中,如图8所示,该装置可以包括:第一获取模块610,遍历模块620,第二获取模块630,第一确定模块640,循环处理模块650,第三获取模块660和拆分模块670。

第三获取模块660,可以用于获取所述第一标注数据集中标注数据的数据特征;

拆分模块670,可以用于将所述第一标注数据集拆分为n份标注数据子集,所述标注数据子集所包含的标注数据的数据特征满足预设的分布规则,n≥2;

在该实例中,第一获取模块610,遍历模块620,第二获取模块630,第一确定模块640和循环处理模块650可以参见图6所示的装置实施例。遍历模块620可以为图7所示的结构,其中,选取模块6210具体可以用于从所述n份标注数据子集中选取k份标注数据子集作为待筛选标注数据,并将(n-k)份所述标注数据子集作为训练标注数据,1≤k≤n/2。

可选的,如图7所示,遍历模块620还可以包括:

第一剔除模块6250,可以用于将所述冲突标注数据从所述第一标注数据集中剔除。

在一具体实例中,如图9所示,第一确定模块640可以包括:

替代模块6410,可以用于将所述第一标注数据集中的冲突标注数据以所述第二标注数据集中的标注数据替代,得到第三标注数据集。

可选的,如图10所示,该装置可以包括:第一获取模块610,遍历模块620,第二获取模块630,第一确定模块640,循环处理模块650,抽取模块680,统计模块690和计算模块6010。

抽取模块680,可以用于从所述第三标注数据集中抽取第一数量的标注数据作为样本标注数据;

统计模块690,可以用于统计所述样本标注数据中满足所述预设标注规则的标注数据的第二数量;

计算模块6010,可以用于计算所述第二数量与第一数量的比值,将所述比值作为所述第三标注数据集的评价结果。

在该实例中,第一获取模块610,遍历模块620,第二获取模块630,第一确定模块640和循环处理模块650可以参见图6所示的装置实施例。

综上,本发明实施例提供的数据处理装置在获取到标注好的标注数据集后,对该标注数据集中的标注数据进行遍历,并在遍历过程中结合标注预测模型确定冲突标注数据,将遍历过程中得到的冲突标注数据重新进行标注,并将重新标注好的数据与之前的标注数据集进行融合得到新的标注数据集,之后对该新的标注数据集进行评价,在评价结果不满足预设评价条件时,进行上述的循环迭代操作,直至新的标注数据集满足预设评价条件,从而大大提高了数据的标注质量,并且由于整个标注数据质量的控制过程中,有效的将模型和人力进行了结合,降低了人力和时间成本,提高了标注数据质检的效率。

需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。

请参阅图11,其所示为本发明实施例提供的一种网络设备的结构示意图,该网络设备用于实施上述实施例中提供的数据处理方法。该网络设备可以是诸如pc(personalcomputer,个人计算机)、手机、pda(平板电脑)等终端设备,也可以是诸如应用服务器、集群服务器等服务设备。请参见图11,该网络设备的内部结构可包括但不限于:处理器、网络接口及存储器。其中,网络设备内的处理器、网络接口及存储器可通过总线或其他方式连接,在本说明书实施例所示图11中以通过总线连接为例。

其中,处理器(或称cpu(centralprocessingunit,中央处理器))是网络设备的计算核心以及控制核心。网络接口可选的可以包括标准的有线接口、无线接口(如wi-fi、移动通信接口等)。存储器(memory)是网络设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器可以是高速ram存储设备,也可以是非不稳定的存储设备(non-volatilememory),例如至少一个磁盘存储设备;可选的还可以是至少一个位于远离前述处理器的存储装置。存储器提供存储空间,该存储空间存储了网络设备的操作系统,可包括但不限于:windows系统(一种操作系统),linux(一种操作系统),android(安卓,一种移动操作系统)系统、ios(一种移动操作系统)系统等等,本发明对此并不作限定;并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。在本说明书实施例中,处理器加载并执行存储器中存放的一条或一条以上指令,以实现上述方法实施例提供的数据处理方法。

本发明的实施例还提供了一种存储介质,所述存储介质可设置于网络设备之中以保存用于实现方法实施例中的一种数据处理方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集可由网络设备的处理器加载并执行以实现上述方法实施例提供的数据处理方法。

可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1