一种数据标注方法、装置及计算设备与流程

文档序号:26500257发布日期:2021-09-04 02:09阅读:126来源:国知局
一种数据标注方法、装置及计算设备与流程

1.本发明涉及人工智能技术领域,特别涉及一种数据标注方法、装置及计算设备。


背景技术:

2.在人工智能技术领域,通常需要基于大量样本来训练算法,以提升算法的准确度和精度。获取覆盖多种场景的样本数据、以及对大量样本数据进行标注处理,成为提升算法准确度的关键。
3.现有技术中,对样本的标注处理一般只是针对趋势数据,样本数据覆盖的场景单一,而且,现有技术仅支持人工标注,不支持算法的导入,无法基于算法对样本数据进行标注,也无法将人工标注与基于算法的智能标注结果进行比对来验证算法的准确性。
4.为此,需要一种数据标注方法来解决上述技术方案中存在的问题。


技术实现要素:

5.为此,本发明提供一种数据标注方法和装置,以力图解决或者至少缓解上面存在的问题。
6.根据本发明的一个方面,提供了一种数据标注方法,在数据标注装置中执行,包括步骤:获取一条或多条结构数据,基于所述一条或多条结构数据生成数据集;基于所述数据集建立相应的标注集,所述标注集中包括一个或多个标注任务,每个标注任务分别对应所述数据集中的一条结构数据;获取基于所述标注任务对相应的结构数据进行标注生成的真实标注信息;将所述数据集中的结构数据输入预定模型,获取经所述预定模型处理后输出的智能标注信息;以及将所述智能标注信息与真实标注信息进行比对,以确定所述预定模型的准确率。
7.可选地,在根据本发明的数据标注方法中,基于所述数据集建立相应的标注集的步骤包括:建立与所述数据集相关联的样本集,所述样本集中适于存储一个或多个样本;建立与所述样本集相对应的一个或多个标注集,所述标注集包括一种或多种标签,以便基于标签对所述结构数据进行标注处理。
8.可选地,在根据本发明的数据标注方法中,还包括步骤:基于数据集中的每条结构数据和相应的标注信息组合生成样本;将所述样本存储到与所述数据集相关联的样本集。
9.可选地,在根据本发明的数据标注方法中,建立与所述数据集相关联的样本集的步骤包括:配置生成样本集的基础信息,所述基础信息包括样本集信息以及相关联的数据集信息,以建立样本集与数据集的关联关系。
10.可选地,在根据本发明的数据标注方法中,将所述智能标注信息与真实标注信息进行比对的步骤包括:利用混淆矩阵模型将所述智能标注信息与真实标注信息进行比对。
11.可选地,在根据本发明的数据标注方法中,在获取一条或多条结构数据之前,包括步骤:生成一个或多个数据集的配置信息,所述配置信息包括数据集对应的数据结构和数据类型;基于所述数据结构生成数据集对应的数据交互接口。
12.可选地,在根据本发明的数据标注方法中,获取一条或多条结构数据的步骤包括:基于数据集对应的数据交互接口获取相应数据结构的一条或多条结构数据。
13.可选地,在根据本发明的数据标注方法中,基于数据集对应的数据交互接口获取相应数据结构的一条或多条结构数据的步骤包括:基于原始数据接口获取原始数据,确定与所述原始数据类型相对应的数据交互接口,并返回所述数据交互接口的路径;基于所述数据交互接口获取与所述原始数据相对应的一条或多条结构数据。
14.可选地,在根据本发明的数据标注方法中,所述数据类型包括趋势数据、波形数据或频谱数据。
15.可选地,在根据本发明的数据标注方法中,所述标签包括启机、停机、有效、无效中的一种或多种。
16.根据本发明的一个方面,提供了一种数据标注装置,包括:获取模块,适于获取一条或多条结构数据,基于所述一条或多条结构数据生成数据集;创建模块,适于基于所述数据集建立相应的标注集,所述标注集中包括一个或多个标注任务,每个标注任务分别对应所述数据集中的一条结构数据;标注模块,适于获取基于所述标注任务对相应的结构数据进行标注生成的真实标注信息,并适于将所述数据集中的结构数据输入预定模型,获取经所述预定模型处理后输出的智能标注信息;以及比对模块,适于将所述智能标注信息与真实标注信息进行比对,以确定所述预定模型的准确率。
17.根据本发明的一个方面,提供了一种计算设备,包括:至少一个处理器;以及存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如上所述的数据标注方法的指令。
18.根据本发明的一个方面,提供了一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如上所述方法。
19.根据本发明的技术方案,提供了一种数据标注方法和装置,通过创建多个数据集,基于多个数据集可以获取到多种类型的结构数据,通过对数据集中的结构数据进行自定义标注,能够生成覆盖多种应用场景的多样化的样本。另外,本发明不仅能实现基于人工标注生成样本,还能利用人工标注的真实标注信息来检测、评价预定模型的准确率,通过将智能标注结果与人工标注结果进行比对,可以评估预定模型的准确率。
附图说明
20.为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
21.图1示出了根据本发明一个实施例的计算设备100的示意图;
22.图2示出了根据本发明一个实施例的数据标注方法200的流程图;以及
23.图3示出了根据本发明一个实施例的数据标注装置300的示意图。
具体实施方式
24.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
25.图1是示例计算设备100的示意框图。
26.如图1所示,在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
27.取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(up)、微控制器(uc)、数字信息处理器(dsp)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(alu)、浮点数单元(fpu)、数字信号处理核心(dsp核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
28.取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如ram)、非易失性存储器(诸如rom、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。
29.计算设备100还包括储存设备132,储存设备132包括可移除储存器136和不可移除储存器138。
30.计算设备100还可以包括储存接口总线134。储存接口总线134实现了从储存设备132(例如,可移除储存器136和不可移除储存器138)经由总线/接口控制器130到基本配置102的通信。操作系统120、应用122以及数据124的至少一部分可以存储在可移除储存器136和/或不可移除储存器138上,并且在计算设备100上电或者要执行应用122时,经由储存接口总线134而加载到系统存储器106中,并由一个或者多个处理器104来执行。
31.计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个a/v端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个i/o端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
32.网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中以编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(rf)、微波、红
外(i r)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
33.计算设备100可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。当然,计算设备100也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(pda)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。甚至可以被实现为服务器,如文件服务器、数据库服务器、应用程序服务器和web服务器等。本发明的实施例对此均不做限制。
34.在根据本发明的实施例中,计算设备100被配置为执行根据本发明的数据标注方法200。其中,计算设备100的应用122中包含用于执行本发明的数据标注方法200的多条程序指令,这些程序指令可以被计算设备100读取并执行,使得本发明的数据标注方法200可以在计算设备100中执行。
35.在一个实施例中,计算设备100的应用122中包含数据标注装置300,数据标注装置300中包含用于执行本发明的数据标注方法200的多条程序指令,使得本发明的数据标注方法200可以在数据标注装置300中执行。
36.图2示出了根据本发明一个实施例的数据标注方法200的流程图。数据标注方法200适于在计算设备的数据标注装置300中执行。
37.如图2所示,方法200始于步骤s210。在步骤s210中,获取一条或多条结构数据,基于一条或多条结构数据生成数据集。可以理解,数据集中包括一条或多条相应的结构数据。
38.根据一个实施例,在执行步骤s210之前,预先配置生成多个数据集的配置信息。配置信息包括数据集对应的基础信息,例如包括数据集的名称和相应的数据类型,以便获取和存储相应类型的数据;配置信息还包括数据集对应的数据结构,基于数据结构可以生成与数据集相对应的数据交互接口,以便基于数据交互接口来获取相应数据结构的结构数据。
39.这样,在步骤s210中,可以基于数据集对应的数据交互接口来获取相应数据结构的一条或多条结构数据,从而形成包括一条或多条结构数据的数据集。应当指出,数据集中的每条结构数据分别对应一个待标注的样本。
40.还应当指出,同一个数据集中的多条结构数据可以对应同一个数据类型。这样,基于多个数据集可以获取到多种类型的结构数据,以便生成覆盖多种应用场景的多样化的样本。
41.在一个实施例中,数据类型例如包括趋势数据、波形数据或频谱数据,但本发明不限于这些数据类型。
42.根据一个实施例,基于数据集对应的数据交互接口来获取相应数据结构的一条或多条结构数据进一步可以根据以下方法执行:
43.首先,基于原始数据接口获取原始数据,也即是,获取用户基于原始数据接口导入的原始数据。通过确定原始数据类型,并确定与原始数据类型相对应的数据集的数据交互接口,向用户返回数据交互接口的路径。进而,用户可以基于路径访问数据交互接口,基于数据交互接口可以将原始数据基于相应的数据结构发送至数据标注装置300。这样,数据标注装置300便可以基于数据交互接口获取到与原始数据相对应的一条或多条结构数据。
44.随后,在步骤s220中,基于数据集建立相应的标注集,标注集中包括与数据集中的一条或多条结构数据相对应的一个或多个标注任务。这里,每个标注任务对应于数据集中的一条结构数据,也即是待标注的结构数据。
45.需要说明的是,用户可以基于标注任务来对数据集中的相应结构数据进行标注处理,以便生成与结构数据相对应的标注信息。基于每条结构数据和相应的标注信息可以组合生成样本。
46.在步骤s230中,获取基于标注任务对相应的结构数据进行标注生成的真实标注信息。这里,当用户(专家、技术人员)基于标注任务对结构数据进行标注处理后,数据标注装置300可以获取到用户基于标注任务对相应的结构数据进行标注生成的标注信息,该标注信息是由专家、技术人员对结构数据进行标注的人工标注信息,可作为真实标注信息。
47.根据一个实施例,基于数据集建立相应的标注集可以根据以下方法来执行:
48.首先,建立与数据集相关联的样本集。这里,可以基于每个数据集分别建立一个样本集,每个样本集关联一个数据集。样本集中可以存储一个或多个样本,也即是可以存储与其相关联的数据集中的每条结构数据相对应的样本。在一种实施方式中,在建立与数据集相关联的样本集时,通过配置生成样本集的基础信息,基础信息包括样本集信息以及相关联的数据集信息,从而能够建立样本集与数据集的关联关系。
49.进而,基于每个样本集分别建立一个或多个标注集。具体地,建立与样本集相对应的一个或多个标注集,每个标注集可以包括相应的一种或多种类型的标签,以便基于不同类型的标签对结构数据进行标注处理。这样,通过从数据集中获取一条或多条结构数据,可以基于相应的标签对每条结构数据进行标注处理,生成与结构数据相对应的标注信息。在一种实施方式中,标签例如可以包括启机、停机、有效、无效中的一种或多种,但本发明不限于此。应当指出,标注集对应的标签的具体类型可以由本领域技术人员根据实际需要训练的模型来确定。
50.在一个实施例中,在对数据集中的每条结构数据进行标注处理生成相应的标注信息后,可以基于数据集中的每条结构数据和相应的标注信息进行组合生成样本,并将一个或多个样本存储到与数据集相关联的样本集中。基于此,样本集中的每个样本分别与其关联的数据集中的一条结构数据相对应。需要说明的是,样本集中的一个或多个样本可作为训练样本,以便基于训练样本对模型进行训练。
51.在一种实施方式中,标签类型例如包括启机和停机,相应地,基于标签对结构数据进行标注生成的标注信息为启机或者停机。基于结构数据和标注信息生成的样本集即是启停机样本集。基于启停机样本集中的样本可以训练启停机状态确定模型,以便利用训练后的启停机状态确定模型来根据设备的振动数据判断设备处于启机状态或停机状态。
52.另外,根据本发明的方法200,在步骤s240中,将数据集中的结构数据输入预定模型,并获取经预定模型对结构数据进行处理后输出的智能标注信息。这里,预定模型是与本发明中的样本的标签类型相匹配的模型,例如启停机状态确定模型,预定模型可以是基于训练样本进行训练后的模型。应当指出,本发明对预定模型的具体结构和处理逻辑不做限制。
53.最后,在步骤s250中,将经过预定模型处理后输出的智能标注信息与真实标注信息进行比对,以确定预定模型的准确率。
54.在一个实施例中,数据标注装置300与智能平台(图中未示出)相连,智能平台包括一种或多种预定模型。数据标注装置300可以从智能平台获取一种或多种预定模型,以便基于预定模型对数据集中的结构数据进行处理,即是将数据集中的结构数据输入预定模型,经预定模型处理后输出相应的智能标注信息,从而获取智能标注信息。
55.在一种实施方式中,智能平台可以从数据标注装置300获取数据集,并基于相应的预定模型对数据集中的结构数据进行处理,即是将数据集中的结构数据输入预定模型,经预定模型处理后输出相应的智能标注信息。进而,智能平台将预定模型处理后输出的智能标注信息发送至数据标注装置300。这样,数据标注装置300便从智能平台获取到基于预定模型处理生成的智能标注信息,通过将智能标注信息与人工标注的真实标注信息进行比对,能够确定预定模型的准确率。这样,本发明可以基于人工标注的真实标注信息来对预定模型的准确率进行评价。
56.根据一个实施例,可以利用混淆矩阵模型将智能标注信息与真实标注信息进行比对,以便确定预定模型的准确率。但,本发明不限于这种比对方法。现有技术中所有能实现比对标注信息的方法均在本发明的保护范围之内。
57.图3示出了根据本发明一个实施例的数据标注装置300的示意图。
58.如图3所示,数据标注装置300包括依次相连的获取模块310、创建模块320、标注模块330以及比对模块350。
59.其中,获取模块310可以获取一条或多条结构数据,基于一条或多条结构数据生成数据集。创建模块320可以基于数据集建立相应的标注集,标注集中包括一个或多个标注任务,每个标注任务分别对应数据集中的一条结构数据。标注模块330可以获取用户基于标注任务对相应的结构数据进行标注生成的真实标注信息。并且,标注模块330与智能平台相连,可以将数据集中的结构数据输入智能平台中的预定模型,以便获取经预定模型处理后输出的智能标注信息。比对模块350可以将智能标注信息与真实标注信息进行比对,以确定预定模型的准确率。
60.应当指出,获取模块310具体可以执行前述步骤s210,创建模块320可以执行前述步骤s220,标注模块330具体可以执行前述步骤s220~s230,比对模块350具体可以执行前述步骤s250。这里,获取模块310、创建模块320、标注模块330、比对模块350的具体执行逻辑参见前文方法200中的相关描述,这里不再赘述。
61.a8、如a7所述方法,其中,基于数据集对应的数据交互接口获取相应数据结构的一条或多条结构数据的步骤包括:基于原始数据接口获取原始数据,确定与所述原始数据类型相对应的数据交互接口,并返回所述数据交互接口的路径;基于所述数据交互接口获取与所述原始数据相对应的一条或多条结构数据。
62.a9、如a6

a8中任一项所述方法,其中,所述数据类型包括趋势数据、波形数据或频谱数据。
63.a10、如a2所述方法,其中,所述标签包括启机、停机、有效、无效中的一种或多种。
64.根据本发明的数据标注方法和装置,通过创建多个数据集,基于多个数据集可以获取到多种类型的结构数据,通过对数据集中的结构数据进行自定义标注,能够生成覆盖多种应用场景的多样化的样本。另外,本发明不仅能实现基于人工标注生成样本,还能利用人工标注的真实标注信息来检测、评价预定模型的准确率,通过将智能标注结果与人工标
注结果进行比对,可以确定预定模型的准确率。
65.这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、u盘、软盘、cd

rom或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
66.在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的多语言垃圾文本的识别方法。
67.以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
68.在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
69.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
70.类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
71.本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
72.本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权
利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
73.此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
74.此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
75.如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
76.尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1