样本标注的一致性处理方法、装置及电子设备与流程

文档序号:26940315发布日期:2021-10-12 15:44阅读:159来源:国知局
样本标注的一致性处理方法、装置及电子设备与流程

1.本发明实施例涉及人工智能技术领域,更具体地,涉及样本标注的一致性处理方法、样本标注的一致性处理装置、电子设备、及一种计算机可读存储介质。


背景技术:

2.机器学习包括有监督学习和无监督学习,其中,有监督学习需要使用大量的带标签的样本进行训练,以获得相应的机器学习模型,这就需要在训练模型之前,组织标注人员进行样本标注,以形成带标签的样本。
3.在样本标注中,由于不同的人对于相同的数据可能进行不同的标注,而且,同一人在进行大量的标注中也会出现对于相同的数据进行不同标注的情况,因此,在同一标注任务及不同标注任务的标注操作中,都会出现对于相同数据进行不同标注的情况。然而,对于机器学习而言,对于相同的数据,能够保持标注内容(即标签)的一致性是很重要的,这可以极大地提高标注质量,进而提高训练得到的机器学习模型在评价指标上的评分,因此,非常有必要在人工执行标注任务中提供有助于提高标注一致性的相关处理,进而提高标注的准确性及标注效率。


技术实现要素:

4.本发明实施例的一个目的是提供一种在执行标注任务中进行有关标注一致性处理的新的技术方案。
5.根据本发明的第一方面,提供了一种样本标注的一致性处理方法,其包括:
6.获取对应标注任务的记忆库,其中,所述记忆库为保存已标注的历史样本的数据库;
7.根据所述记忆库,为执行所述标注任务提供标注参照信息。
8.可选地,所述获取对应标注任务的记忆库包括:
9.根据对于记忆库的选择信息和所述标注任务的任务定义信息中的至少一项,获取对应所述标注任务的记忆库。
10.可选地,所述获取对应标注任务的记忆库包括:
11.在记忆库列表中搜索与所述标注任务的应用场景相适配的记忆库,其中,所述记忆库列表包括多个记忆库条目,每个记忆库条目包括对应记忆库的标识、对应记忆库的应用场景及对应记忆库的获取地址;
12.根据搜索到的记忆库,确定所述对应标注任务的记忆库;
13.根据所述对应标注任务的记忆库的获取地址,获得所述对应标注任务的记忆库。
14.可选地,每个记忆库条目还包括对应记忆库的调用信息,所述调用信息包括调用次数、调用时间和调用账户中的至少一项;
15.所述根据搜索到的记忆库,确定所述对应标注任务的记忆库包括:
16.在搜索到至少两个记忆库的情况下,根据所述至少两个记忆库各自的调用信息,
确定所述对应标注任务的记忆库。可选地,所述根据所述记忆库,为执行所述标注任务提供标注参照信息包括:
17.针对所述标注任务中的待标注样本,获取所述记忆库中的、与所述待标注样本具有相同数据内容的历史样本;
18.根据获取到的历史样本的标注内容,提供对于所述待标注样本的标注参照信息。
19.可选地,所述获取所述记忆库中的、与所述待标注样本具有相同数据内容的历史样本,包括:
20.在所述记忆库中具有至少两个所述历史样本的情况下,根据所述至少两个所述历史样本各自的调用信息,获取所需的历史样本;
21.所述调用信息包括调用次数、调用时间和调用账户中的至少一项。
22.可选地,所述方法还包括:
23.针对所述标注任务中的待标注样本,获取由预置的标注推荐模型给出的标注推荐内容;
24.根据所述标注推荐内容,提供对于所述待标注样本的标注参照信息。
25.可选地,所述方法还包括:
26.针对所述标注任务中的待标注样本,获取所述标注任务中的、与所述待标注样本具有相同数据内容的已标注样本;
27.根据获取到的所述已标注样本的标注内容,提供对于所述待标注样本的标注参照信息。
28.可选地,所述根据所述记忆库,为执行所述标注任务提供标注参照信息包括:
29.获取所述记忆库中的、与所述标注任务中的已标注样本具有相同数据内容的历史样本;
30.根据获取到的历史样本的标注内容,对所述已标注样本进行标注内容的一致性检查;
31.根据所述一致性检查的检查结果,提供对于所述已标注样本的标注参照信息。
32.可选地,所述标注参照信息包括未通过所述一致性检查的已标注样本的检查结果信息,每条所述检查结果信息包括对应样本的数据内容和/或数据标识、对应样本在所述标注任务中的当前标注内容、及对应样本在所述记忆库中的在先标注内容。
33.可选地,所述获取所述记忆库中的、与所述标注任务中的已标注样本具有相同数据内容的历史样本包括:
34.根据完成所述标注任务的命令,获取所述记忆库中的、与所述标注任务中的已标注样本具有相同数据内容的历史样本。
35.可选地,所述方法还包括在所述记忆库中搜索与所述标注任务中的样本具有相同数据内容的历史样本的步骤,包括:
36.获取所述标注任务中的样本对于设定的反映样本数据内容的特征向量的向量值;
37.获取所述历史样本对于所述特征向量的向量值;
38.比较所述标注任务中的样本的向量值与所述历史样本的向量值,获得比较结果;
39.根据所述比较结果,获得与所述标注任务中的样本具有相同数据内容的历史样本。
40.可选地,所述在所述记忆库中搜索与所述标注任务中的样本具有相同数据内容的历史样本的包括:
41.根据设定的搜索事件,在所述记忆库中搜索与所述标注任务中的样本具有相同数据内容的历史样本,其中,所述搜索事件包括开始所述标注任务的命令和结束所述标注任务的命令中的至少一项。
42.可选地,所述方法还包括:
43.在所述标注任务的范围内,对所述标注任务的已标注样本的标注内容进行一致性检查;
44.根据所述一致性检查的检测结果,提供对于所述已标注样本的标注参照信息。
45.可选地,所述方法还包括:
46.将所述标注任务中的通过所述一致性检查的已标注样本保存至所述记忆库。
47.根据本发明的第二方面,还提供了一种样本标注的一致性处理方法,由终端设备实施,该方法包括:
48.获取对于所述标注任务中样本的标注参照信息,其中,所述标注参照信息至少根据记忆库中保存的历史样本生成,所述历史样本为已标注的样本;
49.输出所述标注参照信息。
50.可选地,所述标注参照信息还根据所述标注任务中的已标注样本生成;和/或,所述标注参照信息还根据预置的标注推荐模型给出的标注推荐内容生成。
51.可选地,所述获取对于所述标注任务中样本的标注参照信息包括:
52.响应于对所述标注任务中的待标注样本进行的标注操作,获取对于所述待标注样本的所述标注参照信息。
53.可选地,所述获取对于所述标注任务中样本的标注参照信息包括:
54.获取对于所述标注任务中的已标注样本的所述标注参照信息。
55.可选地,所述获取对于所述标注任务中的已标注样本的所述标注参照信息包括:
56.响应于完成所述标注任务的命令,获取对于所述标注任务中的已标注样本的所述标注参照信息。
57.可选地,所述输出所述标注参照信息包括:以文字提示和语音提示中的至少一种方式,输出所述标注参考信息。
58.可选地,所述方法还包括获得所述记忆库的步骤,包括:
59.响应于选择记忆库的操作,提供选择接口;
60.获取通过所述选择接口输入的选择信息;
61.根据所述选择信息,获得与对应所述标注任务的所述记忆库。
62.根据本发明的第三方面,还提供了一种样本标注的一致性处理方法,由终端设备实施,其包括:
63.根据设置的对于所需标注参照信息的来源信息,获取对于所述标准任务中样本的标注参照信息;
64.输出获取到的所述标注参照信息。
65.可选地,所述方法还包括:
66.响应于进行样本标注的功能设置的操作,提供设置接口,其中,所述设置接口包括
所需标准参照信息的来源设置项;
67.根据对于所述来源设置项的设置内容,获得所述设置的对于所需标注参照信息的来源信息;
68.所述来源设置项提供以下来源选项:
69.第一选项,根据记忆库中保存的历史样本生成标准参照信息;
70.第二选项,根据标注任务中的已标注样本生成标准参照信息;
71.第三选项,根据预置的标注推荐模型给出的标注推荐内容生成标准参照信息。
72.可选地,所述输出所述标注参照信息,包括:
73.根据设置的输出模式,输出获取到的所述标注参照信息。
74.可选地,所述方法还包括:
75.响应于进行样本标注的功能设置的操作,提供设置接口,其中,所述设置接口包括输出模式设置项;
76.根据对于所述输出模式设置项的设置内容,获得所述设置的输出模式。
77.根据本发明的第四方面,还提供了一种样本标注的一致性处理装置,包括:
78.数据获取模块,用于获取对应标注任务的记忆库,其中,所述记忆库为保存已标注的历史样本的数据库;以及,
79.信息提供模块,用于根据所述记忆库,为执行所述标注任务提供标注参照信息。
80.根据本发明的第五方面,还提供了一种电子设备,其包括:
81.存储器,用于存储可执行的指令;
82.处理器,用于根据所述可执行的指令的控制,运行所述电子设备执行根据本发明的第一方面、第二方面或者第三方面所述的一致性处理方法。
83.根据本发明的第六方面,还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储有可被计算机读取执行的计算机程序,所述计算机程序用于在被所述计算机读取运行时,执行根据本发明的第一方面、第二方面或者第三方面所述的一致性处理方法。
84.本发明实施例的一个有益效果在于:根据本实施例的方法,可以在标注人员执行标注任务时,根据记忆库中保存的历史样本的标注结果,为本次标注任务提供标注检查信息,以供标注人员根据该标注检查信息进行或者修改样本的标注,提高对于相同数据的标注结果的一致性。
85.通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
86.被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
87.图1a示意性地给出了本发明实施例的一种应用场景的界面示意图;
88.图1b示意性地给出了本发明实施例的另一种应用场景的界面变化示意图;
89.图2是可用于实施本发明实施例的一致性处理方法的电子设备的硬件结构示意图;
90.图3是根据一个实施例的一致性处理方法的流程示意图;
91.图4是根据另一个实施例的一致性处理方法的流程示意图;
92.图5是根据一个实施例的一致性处理装置的原理框图。
93.图6是根据另一个实施例的一致性处理装置的原理框图。
具体实施方式
94.现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
95.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
96.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
97.在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
98.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
99.在机器学习领域,有监督学习需要使用大量带标签的样本进行训练,以获得相应的机器学习模型,其中,一个样本对应一个数据对象,该数据对象可以是图像数据、文本数据、或者音频数据等等,一个数据对象的标签根据机器学习的目的可以是分类结果或者各种预测值等。为了获得这些带标签的样本,在进行机器学习之前,需要组织标注人员对收集到的大量样本进行标签的标注。以需要方将要训练用于识别异常交易的机器学习模型为例,参与训练的样本可以是交易数据,在进行训练之前,需求方会组织标注人员对每条交易数据进行标签的标注,即,对每条交易数据打标签,以为每条交易数据打上属于异常交易或者不属于异常交易的标签,这样,通过这些样本进行机器学习,便可获得用于识别异常交易的机器学习模型。
100.需求方在组织标注人员进行样本标注之前,可以先创建一个标注任务,并根据该标注任务的标注数据量及时间限制等,组织一人或者多人参与执行本次标注任务。由于每个标注任务通常涉及大量样本,因此,在不同的标注任务中及同一标注任务中都可能存在数据内容相同的样本,对于这些样本,如果被标注为不同的标签,将会导致标注质量下降,进而影响根据这些样本训练得到的机器学习模型在提供识别、预估等服务时的准确度。因此,对于机器学习而言,对于具有相同数据内容的样本,尤其是在相同应用场景下的具有相同数据内容的样本,能够保持标注内容(即标签)的一致性是很重要的,这可以极大地提高标注质量,因此,有必要在标注人员进行样本标注时,进行有助于提高标注一致性的相关处理,以提高标注的准确性及标注效率。
101.本发明实施例即针对提高样本标注的一致性,提供了相应的一致性处理方案,该处理方案至少基于记忆库进行,该记忆库为保存有已标注的历史样本的数据库,该历史样本为在已完成的标注任务中被标注过的样本,即,记忆库中的历史样本均具有相应的标签。该处理方案至少根据记忆库中的历史样本的标注内容,为当前标注任务提供标注参照信
息,以供标注人员根据该标注参照信息进行当前标注任务中的待标注样本的标注,和/或根据该标注参照信息修改当前标注任务中的已标注样本的标注内容等,进而提高当前标注任务中的样本与记忆库中具有相同数据内容的历史样本在标注内容上的一致性。
102.例如,该处理方案可以是在标注人员执行标注任务的过程中,为标注人员提供标签推荐,即,为当前所要标注的目标样本提供所推荐的标签,以通过推荐的形式提高标注的一致性。该种应用如图1a所示,在该应用中,需求方创建了一个标注任务a,该标注任务a具有多条待标注的样本,标注人员在通过终端设备100执行标注任务a时,终端设备100可以在检测到标注人员针对任意样本的标注操作时,例如,检测到光标移动至某个样本的标签输入框的首个字符位时,查找记忆库中是否存在与该样本具有相同数据内容的历史样本,如存在,则弹出提示框,并通过该提示框提供该样本被在先标注过的标签,以提醒标注人员注意保持对于具有相同数据内容的样本的标注一致性,标注人员可以根据实际情况决定是否需要采用在先标注过的标签进行该样本的标注。例如,在图1a中,终端设备100在检测到标注人员对样本1进行标注操作时,弹出的提示框提示“该样本1被在先标注为标签1ax”,标注人员可以根据该提示,在该标记任务中,将样本1也标注为标签1ax。
103.又例如,该处理方案也可以是在标注人员完成一个标注任务后,对该标注任务中的标注标签进行一致性检查。该种应用如图1b所示,标注人员在完成标注任务a后,可以点击“提交”按键触发完成该标注任务a的命令,终端设备100根据该命令,可以将对标注任务a进行一致性检查的检测结果作为标注参照信息进行显示输出,该一致性检查包括:根据记忆库中保存的历史样本的标注内容,对标注任务a中的已标注样本的标注内容进行一致性检查。该检查结果如图1b所示,可以包括未通过一致性检查的各条样本的检查结果信息,例如,经过一致性检查,发现样本5、样本2000、样本4000等未通过该检查,每条检查结果信息包括对应样本在该标注任务a中被标注的当前标签及对应样本在在先标注任务中被标注的在先标签等,例如,样本5的当前标签为5l,在先标签为5al等,以供标注人员针对该标注任务a进行所标注内容的修改。
104.<硬件配置>
105.本发明实施例的处理方法可以由图1a和图1b中的终端设备100实施,对此,记忆库可以保存在终端设备100中,也可以如图1a所示,保存在服务器200中,该服务器200可以是本地服务器、远程服务器或者部署在云端的服务器等,该服务器可以是数据库服务器,也可以是其他类型的服务器,终端设备100可以在实施该处理方法时,从服务器200加载该记忆库,或者访问该服务器200。
106.本发明实施例的处理方法也可以由与终端设备100通信连接的应用服务器实施,并由终端设备100输出应用服务器提供的标注参照信息。同样,该应用服务器可以保存有记忆库,也可以从其他服务器中加载所需使用的记忆库,在此不做限定。
107.图2为可以实施本发明实施例的样本标注的一致性处理方法的一个例子的电子设备的组成结构示意图。
108.图2中的电子设备1000可以是便携式电脑、台式计算机、平板电脑、手机、服务器等,在此不做限定。
109.如图2所示,电子设备1200可以包括处理器1010、存储器1020、接口装置1030、通信装置1040、显示装置1050、输入装置1060、扬声器1070、麦克风1080,等等。处理器1010用于
执行程序指令,该程序指令可以采用比如x86、arm、risc、mips、sse等架构的指令集。存储器1020例如包括rom(只读存储器)、ram(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1030例如包括usb接口、rj45接口、耳机接口等。通信装置1040例如能够进行有线或无线通信。显示装置1050例如是液晶显示屏、触摸显示屏等。输入装置1060例如可以包括触摸屏、键盘、鼠标等。扬声器1070用于输出语音信息。麦克风1080用于采集语音信息。
110.本实施例中,电子设备1000的存储器1020用于存储程序指令,处理器1010用于从存储器1020加载程序指令至内存,并且执行该指令,以实施任意实施例的样本标注的一致性处理方法。本实施例中,电子设备1000可以采用linux、windows等操作系统,在此不做限定。
111.技术人员可以根据本说明书所公开方案设计以上指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
112.虽然图2中示出了电子设备1000的多个装置,但其也可以仅包括图2中的部分装置,例如包括处理器1010和存储器1020等,在此不做限定。
113.图2所示的电子设备1000仅仅是解释性的,并且决不是为了要限制本发明、其应用或用途。
114.<方法实施例一>
115.图3是根据一个实施例的样本标注的一致性处理方法的流程示意图,该方法可以由如图2所示的电子设备1000实施,也可以由其他结构的电子设备实施。该电子设备1000可以是终端设备,也可以是应用服务器,在此不做限定。
116.该电子设备1000可以通过本地的样本标注应用提供样本标注的一致性处理,也可以通过网页提供样本标注的一致性处理,在此不做限定。
117.在通过样本标注应用提供一致性处理的实施例中,例如是如图1a和图1b所示的终端设备100上安装有该应用的客户端。在通过网页提供一致性处理的实施例中,终端设备100上安装有浏览器等。
118.本实施例中,标注人员可以通过终端设备执行标注任务,而终端设备和/或与终端设备连接的应用服务器为标注人员执行该标注任务实施本实施例的一致性处理方法。
119.根据图3所示,本实施例的一致性处理方法可以包括如下步骤s3100和步骤s3200。
120.步骤s3100,获取对应标注任务的记忆库,其中,该记忆库为保存已标注的历史样本的数据库。
121.本实施例中,历史样本为被在先标注过、具有标签的样本,例如,一历史样本为交易数据,该交易数据被在先标注过“属于异常交易”的标签;又例如,一历史样本为文本数据,该文本数据被在先标注过“为公司名称”的标签等。
122.该记忆库可以保存在实施该步骤s3100的电子设备1000(终端设备或者应用服务器)中;也可以保存在如图1a所示的服务器200中,实施该步骤s3100的电子设备可以从该服务器200加载对应该标注任务的记忆库。
123.本实施例中,可以仅具有一个记忆库,该记忆库保存有被在先标注过的所有历史样本,这样,对于任何新创建的标注任务,均将对应该记忆库进行标注一致性的处理。
124.本实施例中,也可以具有多个记忆库,不同的记忆库可以对应不同的应用场景,即,同一应用场景具有一个记忆库,当然,同一应用场景也可以具有两个(包括两个)以上的
记忆库。
125.该应用场景可以反映相适配的样本类别,例如,多个记忆库包括保存图像数据样本的记忆库、保存文本数据样本的记忆库、及保存音频数据样本的记忆库等,这些记忆库可以通过不同的命名进行区别,这样,电子设备1000便可以根据标注任务对应的样本类别选择对应的记忆库,以提高根据记忆库进行样本标注的一致性处理的效率。
126.该应用场景也可以反映相适配的机器学习目的,例如,多个记忆库包括保存有用于训练分类器的历史样本的记忆库、保存有用于训练数值预测模型的历史样本的记忆库等。这样,电子设备1000便可以根据标注任务对应的机器学习目的选择对应的记忆库,以提高根据记忆库进行样本标注的一致性处理的效率。
127.该应用场景还可以既反映相适配的样本类别,又反映相适配的机器学习目的,以实现根据标注任务对应的样本类别和机器学习目的,选择对应的记忆库等。本实施例中,还可以对记忆库的应用场景进行更精细的划分,在此不做限定。
128.本实施例中,根据记忆库的设置情况,在步骤s3100可以获得对应新创建的一个标注任务的记忆库。任意标注任务可以对应一个记忆库,也可以对应两个以上的记忆库,在此不做限定。
129.在一个实施例中,该步骤s3100中获取对应标注任务的记忆库可以包括:根据对于记忆库的选择信息,获取对应该标注任务的记忆库。
130.该选择信息可以由标注人员通过终端设备100输入。
131.该选择信息可以包括所选择的记忆库的标识和标注任务的应用场景中的至少一项。该记忆库的标识具有唯一性,其可以是记忆库的名称,也可以是记忆库的代码等。
132.例如,该选择信息包括记忆库的标识,电子设备1000可以根据该标识,在记忆库列表中或者记忆库文件夹下查找对应的记忆库。
133.又例如,该选择信息包括标注任务的应用场景,该应用场景可以包括样本类别和机器学习目的中的至少一项,则电子设备1000可以根据标注任务的应用场景和记忆库的应用场景,确定相适配的记忆库。
134.根据该实施例的方法,可以允许标注人员灵活地选择所要使用的记忆库,进而提高进行一致性处理的效率及有效性。
135.在一个实施例中,该步骤s3100中获取对应标注任务的记忆库可以包括:根据标注任务的任务定义信息,获取对应该标注任务的记忆库。
136.该任务定义信息可以由标注任务的创建者在创建该标注任务时设置。该任务定义信息例如包括标注任务的应用场景等。
137.电子设备1000可以根据该任务定义信息,从记忆库列表或者记忆库文件夹下查找对应的记忆库。
138.根据该实施例的方法,可以进行记忆库的自动选择,减少标注人员在开启一致性处理的功能时所必须完成的设置项。
139.在一个实施例中,该步骤s3100中获取对应标注任务的记忆库可以包括:在记忆库列表中搜索与标注任务的应用场景相适配的记忆库,其中,该记忆库列表包括多个记忆库条目,每个记忆库条目包括对应记忆库的标识、对应记忆库的应用场景及对应记忆库的获取地址;根据搜索到的记忆库,确定对应该标注任务的记忆库;以及,根据对应该标注任务
的记忆库的获取地址,获取对应该标注任务的记忆库。
140.该实施例中,在搜索到一个记忆库的情况下,该记忆库即为对应该标注任务的记忆库。
141.该实施例中,每个记忆库条目还可以包括对应记忆库的调用信息,该调用信息例如包括调用次数、调用时间及调用账户中的至少一项。对此,在搜索到至少两个记忆库的情况下,可以根据搜索到的至少两个记忆库各自的调用信息,确定对应该标注任务的记忆库。例如,确定调用次数最多的记忆库为对应该标注任务的记忆库等。又例如,确定调用时间最近的记忆库为对应该标准任务的记忆库。又例如,确定调用账户包括当前账户的记忆库为对应该标准任务的记忆库等。
142.该实施例中,记忆库的调用次数指被调用进行样本标注的一致性处理的次数。调用时间指被调用进行样本标注的一致性处理的最新时间。调用账户指被调用进行样本标注的注册账户。
143.根据该实施例的方法,可以使得电子设备在不保存记忆库的情况下,也能够快速查找并获取到对应该标注任务的记忆库。
144.步骤s3200,根据步骤s3100获取到的记忆库,为执行该标注任务提供标注参照信息。
145.本实施例中,该标注参照信息可以包括与标注任务中的样本具有相同数据内容的历史样本的标注内容。在此,与标注任务中的任意样本具有相同数据内容的历史样本可以是一个,也可以是多个,即,对于标注任务中的任意样本,相应的标注参照信息可以包含一个标签,也可以包含多个标签。
146.在终端设备实施该步骤s3200的情况下,该步骤s3200中为执行该标注任务提供标注参照信息可以包括:生成该标注参照信息,并以文字提示和语音提示中的至少一种提示方式输出该标注参考信息。
147.在应用服务器实施该步骤s3200的情况下,该步骤s3200中为执行该标注任务提供标注参照信息可以包括:生成该标注参照信息,并将该标注参照信息发送至终端设备,以由终端设备以文字提示和/或语音提示等方式输出该标注参照信息,或者输出整理后的标注参照信息。该整理包括基于输出格式要求的数据整理等,例如,按照图1a和图1b所示的显示格式进行数据整理等。
148.在一个实施例中,可以通过标注推荐的方式,提高标注的一致性及标注效率。该实施例中,本步骤s3200中根据记忆库,为执行该标注任务提供标注参照信息可以包括如下步骤s3211和步骤s3212:
149.步骤s3211,针对该标注任务中的待标注样本,获取记忆库中的与待标注样本具有相同数据内容的历史样本。
150.步骤s3212,根据获取到的历史样本的标注内容,提供对于所述待标注样本的标注参照信息。
151.该实施例中,由于记忆库中保存的历史样本均被在先标注过相应的标签,因此,可以从记忆库中获取该历史样本的标注内容(即标签)。
152.该实施例中,该步骤s3211可以根据标注人员对标注任务中的待标注样本进行的标注操作实施,在该种情况下,参见图1a所示,可以是获取记忆库中的、与该标注操作对应
的待标注样本具有相同数据内容的历史样本,以针对该标注操作提供相应的标注参照信息。对此,可以是根据每一次标注操作,在记忆库中搜索与对应的待标注样本具有相同数据内容的历史样本以供获取,也可以是预先完成该搜索形成搜索记录,例如,该搜索可以根据开始该标注任务的命令完成,这样,在检测到标注操作时,便能够从该搜索记录中快速获取到对应的历史样本,以形成对应的标注参照信息。该实施例中,将分别针对每一次目标标注操作提供该标注参照信息,其中,该目标标注操作为:针对在记忆库中具有相同数据内容的待标注样本的标注操作。
153.该标注操作可以包括以下至少一项:将光标移动至该待标注样本的标签输入框的首字符位,参见图1a所示,将光标移动至样本1的标签输入框的首字符位时,代表标注人员将要对该样本1进行标注;选择该待标注样本进行标注,例如,通过点击该待标注样本的列表项完成该选择操作;将光标停留在该待标注样本的列表项上达到设定时间长度等。
154.该实施例中,该步骤s3211也可以根据开始该标注任务的命令实施,以在标注人员进行标注操作之前,在步骤s3212针对标注任务中的待标注样本提供标注参照信息,在此不做限定。这样,标注人员可以在标注之前,获得该标注任务中待标注样本的所有标注参照信息,以方便标注人员从整体上获知本次标注任务中可能存在一致性问题的样本的概况。
155.该实施例中,对于任意待标注样本,其标注参照信息可以包括获取到的历史样本的标注内容,还可以包括该标注内容被使用过的次数等。这样,标注人员便可以在对标注任务中的待标注样本进行标注时,根据对应样本的标注参照信息进行对应样本的标注,进而提高相同样本的标注一致性。
156.该实施例中,对于任意待标注样本,在获取到多个历史样本的情况下,其标注参照信息可以包含获取到的每一历史样本的标注内容,也可以仅包含被这些历史样本中的多数使用的标注内容。
157.对此,步骤s3211中获取记忆库中的、与待标注样本具有相同数据内容的历史样本,可以包括:在记忆库中具有至少两个满足条件(与待标注样本具有相同数据内容的)历史样本的情况下,根据这至少两个历史样本各自的调用信息,获取所需的历史样本。
158.该调用信息包括调用次数、调用时间和调用账户中的至少一项。
159.例如,通过步骤s3211获取到与一个待标注样本具有相同数据内容的5个历史样本,其中有3个历史样本被标注了相同的标签a,而另外2个历史样本则被标注了相同的标签b,这样,该待标注样本的标注参照信息可以包含标签a和标签b,及标签a和标签b各自被使用过的次数3和2;该待标注样本的标注参照信息也可以仅包含被5个历史样本中的多数使用(调用次数最多)的标签a等,在此不做限定。
160.又例如,通过步骤s3211获取到与一个待标注样本具有相同数据内容的5个历史样本,其中,被标注了标签a的历史样本被当前账户调用过,这样,该待标注样本的标注参照信息可以包含此标签a等,在此不做限定。
161.在一个实施例中,也可以在标注人员完成对标注任务中部分样本或者全部样本的标注后,实施以上步骤s3100,以实现对标注质量的检查,为标注人员修改所标注的标签提供依据,进而提高标注的一致性。该实施例中,步骤s3200中根据该记忆库,为执行标注任务提供标注参照信息可以包括如下步骤s3221~步骤s3223:
162.步骤s3221,获取记忆库中的与该标注任务中的已标注样本具有相同数据内容的
历史样本。
163.该实施例中,可以是根据完成该标注任务的命令,获取记忆库中的与该标注任务中的已标注样本具有相同数据内容的历史样本。
164.参见图1b所示,标注人员在完成标注任务的所有标注工作后,例如可以通过点击标注界面最下方的“提交”按键触发完成该标注任务的命令。这样,电子设备1000便可以在标注人员完成该标注任务后,统一进行一致性检查,减少在标注期间对于计算机资源的占用,有利于提高对于标注操作的响应速度。
165.该实施例中,也可以在完成对标注任务中部分样本的标注后,实施该步骤s3221,在此不做限定。
166.步骤s3222,根据获取到的历史样本的标注内容,对对应的已标注样本进行标注内容的一致性检查。
167.该步骤s3222中,标注内容即为所标注的标签。
168.该步骤s3222中,一致性检查即为检查该已标注样本的标注内容与记忆库中具有相同数据内容的历史样本的标注内容是否一致,如一致,则确定通过一致性检查,如不一致,则确定未通过一致性检查。
169.在针对任意的已标注样本获取到多个历史样本的情况下,如果该已标注样本的标注内容与多个历史样本中的多数的标注内容一致,则可以确定该已标注样本的标注内容与记忆库中具有相同数据内容的历史样本的标注内容一致。
170.步骤s3223,根据该一致性检查的检查结果,提供对于已标注样本的标注参照信息。
171.该步骤s3223中,该标注参照信息可以仅涉及未通过一致性检查的样本,例如,参照图1b所示,该标注参照信息包含未通过一致性检查的样本的数据内容和/或数据标识、对应样本在该标注任务中的当前标签、及对应样本在记忆库中的在先标签等,以供标注人员根据该标注参照信息,对未通过一致性检查的样本进行重新标注等。
172.根据以上步骤s3100和步骤s3200可知,根据本实施例的方法可以在标注人员执行标注任务时,根据记忆库中保存的历史样本的标注内容,为本次标注任务提供标注检查信息,以供标注人员根据该标注检查信息进行或者修改样本的标注,有利于保证对于具有相同数据内容的样本的标注一致性。
173.在一个实施例中,除了根据记忆库中保存的历史样本提供标注推荐之外,还可以根据预设的标注推荐模型提供进行标注推荐的标注参照信息。
174.该实施例中,该方法还可以包括如下步骤:针对该标注任务中的待标注样本,获取由预置的标注推荐模型给出的标注推荐内容;以及,根据该标注推荐内容,提供对于该待标注样本的标注参照信息。
175.以上实施例仍然可以由如图2所示的电子设备1000实施,该电子设备可以是终端设备,也可以是应用服务器,在此不做限定。
176.该标注推荐模型可以通过训练样本预先训练得到,训练样本例如可以从记忆库中的历史样本中选取。
177.该实施例中,可以根据标注人员对标注任务中的待标注样本进行的标注操作实施以上步骤,在该种情况下,可以是获取该标注推荐模型针对该标注操作对应的待标注样本
给出的标注推荐内容,以针对该标注操作提供相应的标注参照信息。对此,可以根据每一次标注操作,调用该标注推荐模型给出对应待标注样本的标注推荐内容供本步骤获取;也可以是预先完成该调用操作以形成推荐记录,例如,根据开始该标注任务的命令调用该标注推荐模型,以形成推荐记录,这样,在检测到标注操作时,能够从该推荐记录中快速获取到对应的标注推荐内容。该实施例中,将分别针对每一次标注操作提供包含该标注推荐内容的标注参照信息。
178.该实施例中,以上步骤也可以根据开始该标注任务的命令实施,以在标注人员进行标注操作之前,即针对标注任务中的所有待标注样本提供包含该标注推荐内容的标注参照信息,在此不做限定。
179.根据该实施例的方法,还可以根据标注推荐模型进行的标注推荐,为标注人员提供多方位的标注参照,有利于提高标注的准确性和有效性。
180.在一个实施例中,除了根据记忆库中保存的历史样本提供标注推荐之外,还可以根据该标注任务中的已标注样本提供进行标注推荐的标注参照信息。
181.该实施例中,该方法还可以包括如下步骤:针对标注任务中的待标注样本,获取标注任务中的、与待标注样本具有相同数据内容的已标注样本;以及,根据获取到的已标注样本的标注内容,提供对于待标注样本的标注参照信息。
182.以上实施例仍然可以由如图2所示的电子设备1000实施,该电子设备可以是终端设备,也可以是应用服务器,在此不做限定。
183.在由应用服务器实施的情况下,应用服务器可以从终端设备获取标注任务中的已标注样本的标注内容等。
184.该实施例中,可以根据标注人员对标注任务中的待标注样本进行的标注操作实施以上步骤;也可以间隔设定时间实施以上步骤;还可以根据标注任务中的已标注样本的数量的多少实施以上步骤等,在此不做限定。
185.根据该实施例的方法,还可以在标注任务的范围内,根据该标注任务中的已标注样本,为标注人员提供多方位的标注参照,有利于提高标注的准确性和有效性。
186.在一个实施例中,该方法除了根据记忆库对标注任务中的已标注样本进行标注内容的一致性检查之外,还可以在该标注任务的范围内,对已标注样本进行标注内容的一致性检查,以提高一致性检查的全面性。
187.该实施例中,该方法还可以包括如下步骤:在标注任务的范围内,对标注任务的已标注样本的标注内容进行一致性检查;以及,根据该一致性检查的检测结果,提供对于标注任务中的已标注样本的标注参照信息。
188.该实施例中,在标注任务的范围内,对标注任务的已标注样本的标注内容进行一致性检查即指:对标注任务中存在的具有相同数据内容的已标注样本,进行标注内容的一致性检查。
189.根据标注任务本身进行的一致性检查所得到的标注参照信息,与根据记忆库进行的一致性检查所得到的标注参照信息可以在一个列表中提供,也可以分不同的列表提供,在此不做限定。
190.在以上实施例中,均涉及搜索具有相同数据内容的样本的操作,以下以在记忆库中搜索与标注任务中的样本具有相同数据内容的历史样本为例,说明可供选择的实施步
骤。
191.在一个实施例中,可以根据开始标注任务的命令和结束标注任务的命令中的至少一项,在记忆库中搜索与标注任务中的样本具有相同数据内容的历史样本。根据该搜索操作获得的搜索结果供执行以上步骤s3211、步骤s3221等使用。
192.在一个实施例中,可以设置为:在两个样本的数据内容的表达完全相同时,例如,两个样本具有完全相同的文字和/或数字表达,则两个样本具有相同的数据内容,这有利于简化相同样本的搜索操作。也可以设置为:在样本的数据内容具有相同的关键词时,则两个样本具有相同的数据内容。还可以设置为:在两个样本具有相同的数据来源时,例如,两个样本来自于同一笔交易,则两个样本具有相同的数据内容等。
193.在一个实施例中,在该记忆库中搜索与标注任务中的样本具有相同数据内容的历史样本,可以包括如下步骤s3311~s3314:
194.步骤s3311,获取该标注任务中样本对于设定的反映样本数据内容的特征向量的向量值。
195.该特征向量可以包括一个或者多个特征,样本对于每一特征的特征值将构成该向量值,例如,该特征向量为具有五个特征的五维向量,则该向量值则由五个特征值构成。
196.该特征向量包含的各个特征能够反映样本的数据内容,例如包括数据来源、数据生成时间、字符数、是否存在特定关键字和/或关键词等等,在此不做限定。
197.步骤s3312,获取记忆库中的历史样本对于该特征向量的向量值。
198.步骤s3313,比较该标注任务中样本的向量值与该历史样本的向量值,获得比较结果。
199.比较两个向量值可以通过任意的进行相同或者相似识别的算法进行,例如,可以通过计算两个向量值之间的距离进行二者间的比较,该距离例如是欧式距离等,距离越小,说明两个向量值越接近。在此,可以设置一个距离阈值,在两个向量值之间的距离值小于该距离阈值时,则认为两个向量值对应的两个样本具有相同的数据内容。
200.步骤s3314,根据该比较结果,获得与该标注任务中的样本具有相同数据内容的历史样本。
201.该步骤s3314中,可以选择使得比较结果满足设定的相同条件的历史样本,成为与该标注任务中的样本相同的历史样本。该相同条件例如为二者之间的距离值小于设定的距离阈值等。
202.根据以上步骤s3311~s3314可知,通过比较两个样本的向量值来搜索与该标注任务中样本具有相同数据内容的历史样本,将能够搜索出表达方式存在差别,但数据内容实际相同的历史样本,有利于提高相同搜索的准确性和全面性。
203.在以上各实施例中,对于可以由终端设备实施的步骤,终端设备可以从本地获取所需的相关数据,也可以从例如是应用服务器的其他设备中获取所需的相关数据。对于可以由应用服务器实施的步骤,应用服务器可以从本地获取所需的相关数据,也可以从终端设备或者其他设备中获取所需的相关数据或者命令,在此不做限定。
204.以上各实施例可以根据需要单独使用,也可以相互结合使用,在此不做限定。
205.<方法实施例二>
206.本实施例的方法由终端设备实施,该终端设备例如是图1a和图1b中所示的终端设
备100。图4示出了本实施例方法的流程示意图。根据图4所示,该方法可以包括如下步骤s4100和步骤s4200:
207.步骤s4100,获取对于标注任务中样本的标注参照信息,其中,该标注参照信息至少根据记忆库中保存的历史样本生成,该历史样本为已标注的样本。
208.该步骤s4100中,根据记忆库中保存的历史样本生成该标注参照信息的步骤包括:对于标注任务中的任意样本,根据记忆库中保存的与该样本具有相同数据内容的历史样本的标注内容,生成对应该样本的标注参照信息。
209.该任意样本可以是标注任务中的待标注样本,在此,通过为待标注样本提供标注参照信息,可以实现标注推荐的目的,进而有利于保证对于相同数据内容的样本的标注一致性。
210.该任意样本也可以是标注任务中的已标注样本,在此,通过为已标注样本提供标注参照信息,可以实现一致性检查的目的,使得标注人员可以根据该标注参照信息修改已标注样本的标注内容等。
211.在一个实施例中,对于标注任务中的待标注样本,该标注参照信息还可以根据标注任务中的已标注样本生成。
212.该实施例中,对于标注任务中的任意待标注样本,还可以根据该标注任务中的、与该待标注样本具有相同数据内容的已标注样本的标注内容,生成对应该待标注样本的标注参照信息。
213.在一个实施例中,对于标注任务中的待标注样本,该标注参照信息还可以根据预置的标注推荐模型给出的标注推荐内容生成。
214.该实施例中,对于标注任务中的任意待标注样本,还可以根据该标注推荐模型给出的对于该待标注样本的标注推荐内容,生成该标注推荐信息。
215.该实施例中,生成该标注参照信息的操作可以由终端设备100实施,也可以由应用服务器实施,即,终端设备100可以接收应用服务器提供的该标注参照信息以供在本步骤s4100中获取,在此不做限定。
216.在一个实施例中,可以通过标注参照信息为标注人员进行待标注样本的标注,提供标注推荐,从而保证对于相同样本的标注一致性。该实施例中,步骤s4100中获取对于该标注任务中样本的标注参照信息可以包括:响应于对标注任务中的待标注样本进行的标注操作,获取对于该待标注样本获取到的该标注参照信息。
217.针对该待标注样本获取到的该标注参照信息包括根据记忆库生成的标注参照信息。
218.针对该待标注样本获取到的该标注参照信息还可以包括根据该标注任务中的已标注样本生成的标注参照信息。
219.针对该待标注样本获取到的该标注参照信息还可以包括根据预置的标注推荐模型给出的标注推荐内容生成的标注参照信息。
220.该实施例中,该方法还可以包括检测该标注操作的步骤,可以包括以下至少一项:在检测到光标移动至该待标注样本的标签输入框的首字符处时,确定在执行该标注操作,参见图1a所示,将光标移动至样本1的标签输入框的首字符处时,代表标注人员将要对该样本1进行标注;在检测到选择该待标注样本时,确定在执行该标注操作;在检测到光标停留
在该待标注样本的列表项上达到设定时间长度时,确定在执行该标注操作等。
221.该实施例中,终端设备100将至少在每一次检测到针对特定待标注样本的标注操作时,提供如图1a所示的标注参照信息,其中,该特定待标注样本为:在记忆库中具有相同数据内容的历史样本的待标注样本,和/或,在标注任务中具有相同数据内容的已标注样本的待标记样本。
222.在一个实施例中,也可以通过该标注参照信息为标注人员修改已标注样本提供参照依据,从而保证对于相同样本的标注一致性。该实施例中,该步骤s4100中获取对于标注任务中样本的标注参照信息,可以包括:获取对于标注任务中的已标注样本的该标注参照信息。
223.该标注参照信息至少根据记忆库生成。
224.该标注参照信息还可以根据该标注任务中的已标注样本生成,在此不再赘述。
225.该实施例中,可以是响应于完成该标注任务的命令,获取对于该标注任务中的已标注样本的该标注参照信息。例如,如图1b所示,终端设备100在接收到标注人员触发的完成该标注任务的命令后,即可获取对于该标注任务中的已标注样本的该标注参照信息,并提供该标注参照信息。
226.步骤s4200,输出该标注参照信息。
227.该步骤s4200中,输出该标注参照信息可以包括:以文字提示和语音提示中的至少一种方式,输出该标注参考信息。
228.文字提示方式参见图1a和图1b所示,可以通过在弹窗或者界面中提供相应的文字内容。
229.语音提示方式可以为:调用终端设备的扬声器输出标注参照信息。
230.根据以上步骤s4100和步骤s4200可知,该终端设备可以为标注人员执行标注任务提供标注参照信息,标注人员可以根据该标注参照信息进行和/或修改相应的标注内容,这有利于保证对于相同样本的标注一致性,提高标注质量。
231.在一个实施例中,该方法还可以包括获取所使用的记忆库的步骤,可以包括以下步骤s5100~s5300:
232.步骤s5100,响应于选择记忆库的操作,提供选择接口。
233.该选择记忆库的操作可以由用户通过安装在终端设备100上的本地客户端或者网页设置的入口触发。
234.该选择接口可以包括输入框、勾选项和下拉列表中至少一种形式的接口,以通过该选择接口输入用于选择记忆库的选择信息。
235.该选择信息可以包括记忆库的标识和标注任务的应用场景中的至少一项。
236.步骤s5200,获取通过该选择接口输入的选择信息。
237.该步骤s5200中,可以响应于确认所输入的选择信息的操作,获取通过该选择接口输入的该选择信息。对应地,本地客户端或者网页可以在选择信息的输入界面提供“确认”按键,以供触发该确认操作。
238.步骤s5300,根据获取到的该选择信息,获取对应该标注任务的记忆库。
239.例如,该选择信息包括记忆库的标识,则终端设备100可以根据该标识,在记忆库列表中查找对应的记忆库。或者,终端设备100也可以将该标识发送至应用服务器查找对应
的记忆库等,在此不做限定。
240.又例如,该选择信息包括标注任务的应用场景,该应用场景可以包括样本类别和机器学习目的中的至少一项,则终端设备100可以根据标注任务的应用场景和记忆库的应用场景,匹配得到对应的记忆库。
241.根据以上步骤s5100~步骤s5300可知,该实施例的方法将允许标注人员灵活地选择所要使用的记忆库,进而提高进行一致性处理的效率及有效性。该实施例中,还可以在所提供的选择接口中显示推荐的选择信息,该推荐的选择信息可以根据创建该标注任务时提供的任务信息确定,例如,该任务信息包括标注任务的应用场景,则可以根据该应用场景确定该推荐的选择信息。
242.在一个实施例中,还提供了一种样本标注的一致性处理方法,该方法同样由终端设备实施,该方法可以包括如下步骤s6100~s6200:
243.步骤s6100,根据设置的对于所需标注参照信息的来源信息,获取对于标准任务中样本的标注参照信息。
244.该来源信息表示所希望的标注参照信息的来源,例如,希望获取来源于记忆库的标注参照信息等。
245.该来源信息可以由用户在进行样本标注时设置,进而能够根据用户的设置提供定制化的服务。
246.步骤s6200,输出获取到的标注参照信息。
247.该实施例中,可以按照固定的输出模式,输出获取到的标注参照信息。
248.该输出模式例如包括输出方式、输出时机等。例如,以侧面批注的方式输出。又例如,在鼠标点击标注输入框时输出等等,在此不做限定。
249.该实施例中,也可以允许用户设置所希望的输出模式,并按照设置的输出模式,输出获取到的标注参照信息。
250.在一个实施例中,可以提供样本标注的功能设置入口,用户可以通过该入口进入样本标注的功能设置界面,以进行对于来源信息和/或输出模式的设置。
251.该实施例中,该方法还可以包括如下步骤s6011~s6012:
252.步骤s6011,响应于进行样本标注的功能设置的操作,提供设置接口,其中,该设置接口包括所需标准参照信息的来源设置项。
253.每一设置项可以提供输入框、下拉列表、勾选项等至少一种形式的设置接口。
254.该来源设置项可以提供以下来源选项:
255.第一选项,根据记忆库中保存的历史样本生成标准参照信息;
256.第二选项,根据标注任务中的已标注样本生成标准参照信息;
257.第三选项,根据预置的标注推荐模型给出的标注推荐内容生成标准参照信息。
258.用户可以根据需要勾选至少一个选项。
259.另外,也可以将第一选项设置为必选项,其他两个选项设置为可选项,用户可以根据需要勾选其他两个选项。
260.步骤s6012,根据对于来源设置项的设置内容,获得设置的对于所需标注参照信息的来源信息,以供步骤s6100获取。
261.该实施例中,该方法也可以包括如下步骤s6021~s6022:
262.步骤s6021,响应于进行样本标注的功能设置的操作,提供设置接口,其中,该设置接口包括输出模式设置项。
263.该输出模式设置项可以提供多种输出模式,以供用户选择等。
264.步骤s6022,根据对于输出模式设置项的设置内容,获得设置的输出模式,以供执行步骤s6200。
265.<装置实施例一>
266.在一个实施例中,还提供了一种样本标注的一致性处理装置,图5示出了该一致性处理装置的结构原理框图。如图5所示,该一致性处理装置5000包括数据获取模块5100和信息提供模块5200。
267.该数据获取模块5100可以用于获取对应标注任务的记忆库,其中,该记忆库为保存已标注的历史样本的数据库。
268.该信息处理模块5200可以用于根据该记忆库,为执行该标注任务提供标注参照信息。
269.在一个实施例中,该数据获取模块5100在获取对应标注任务的记忆库时,可以用于:根据对于记忆库的选择信息和所述标注任务的任务定义信息中的至少一项,获取对应所述标注任务的记忆库。
270.在一个实施例中,该数据获取模块5100在获取对应标注任务的记忆库时,可以用于:在记忆库列表中搜索与所述标注任务的应用场景相适配的记忆库,其中,所述记忆库列表包括多个记忆库条目,每个记忆库条目包括对应记忆库的标识、对应记忆库的应用场景及对应记忆库的获取地址;以及,根据搜索到的记忆库的获取地址,获得对应所述标注任务的记忆库。
271.在一个实施例中,该信息提供模块5200在根据所述记忆库,为执行标注任务提供标注参照信息时,可以用于:针对所述标注任务中的待标注样本,获取所述记忆库中的、与所述待标注样本具有相同数据内容的历史样本;以及,根据获取到的历史样本的标注内容,提供对于所述待标注样本的标注参照信息。
272.在一个实施例中,该信息处理模块5200还可以用于:针对所述标注任务中的待标注样本,获取由预置的标注推荐模型给出的标注推荐内容;以及,根据所述标注推荐内容,提供对于所述待标注样本的标注参照信息。
273.在一个实施例中,该信息处理模块5200还可以用于:针对所述标注任务中的待标注样本,获取所述标注任务中的、与所述待标注样本具有相同数据内容的已标注样本;以及,根据获取到的所述已标注样本的标注内容,提供对于所述待标注样本的标注参照信息。
274.在一个实施例中,该信息处理模块5200在根据所述记忆库,为执行所述标注任务提供标注参照信息时,可以用于:获取记忆库中的、与标注任务中的已标注样本具有相同数据内容的历史样本;根据获取到的历史样本的标注内容,对所述已标注样本进行标注内容的一致性检查;以及,根据所述一致性检查的检查结果,提供对于所述已标注样本的标注参照信息。
275.该实施例中,该标注参照信息可以包括未通过所述一致性检查的已标注样本的检查结果信息,每条所述检查结果信息包括对应样本的数据内容和/或数据标识、对应样本在所述标注任务中的当前标注内容、及对应样本在所述记忆库中的在先标注内容。
276.在一个实施例中,该信息处理模块5200在获取记忆库中的、与标注任务中的已标注样本具有相同数据内容的历史样本时,可以用于:根据完成所述标注任务的命令,获取所述记忆库中的、与所述标注任务中的已标注样本具有相同数据内容的历史样本。
277.在一个实施例中,该一致性处理装置5000还可以包括相同搜索模块,该相同搜索模块用于实施在记忆库中搜索与标注任务中的样本具有相同数据内容的历史样本的步骤,该相同搜索模块在实施该步骤时,可以用于:获取所述标注任务中的样本对于设定的反映样本数据内容的特征向量的向量值;获取所述历史样本对于所述特征向量的向量值;比较所述标注任务中的样本的向量值与所述历史样本的向量值,获得比较结果;以及,根据所述比较结果,获得与所述标注任务中的样本具有相同数据内容的历史样本。
278.在一个实施例中,相同搜索模块用于:根据设定的搜索事件,在记忆库中搜索与所述标注任务中的样本具有相同数据内容的历史样本,其中,搜索事件包括开始所述标注任务的命令和结束所述标注任务的命令中的至少一项。
279.在一个实施例中,该信息处理模块5200还可以用于:在标注任务的范围内,对标注任务的已标注样本的标注内容进行一致性检查;以及,根据该一致性检查的检测结果,提供对于所述已标注样本的标注参照信息。
280.在一个实施例中,该一致性处理装置5000还可以包括记忆库更新模块,该记忆库更新模块可以用于:将标注任务中的通过所述一致性检查的已标注样本保存至所述记忆库。
281.以上一致性处理装置5000的各个模块,例如可以由如图2所示的电子设备的处理器实现。
282.<装置实施例二>
283.在一个实施例中,还提供了另一种一致性处理装置,该一致性处理装置位于终端设备一侧。图6示出了该一致性处理装置6000的结构原理框图。
284.该一致性处理装置6000可以包括信息处理模块6100和信息输出模块6200。该数据处理模块6100用于获取对于标注任务中样本的标注参照信息,其中,该标注参照信息至少根据记忆库中保存的历史样本生成,该历史样本为已标注的样本。该信息输出模块6200用于提供该标注参照信息。
285.在一个实施例中,该标注参照信息还可以根据标注任务中的已标注样本生成。
286.在一个实施例中,该标注参照信息还可以根据预置的标注推荐模型给出的标注推荐内容生成。
287.在一个实施例中,该信息处理模块6100在获取对于标注任务中样本的标注参照信息时,可以用于:响应于对标注任务中的待标注样本进行的标注操作,获取对于该待标注样本的该标注参照信息。
288.在一个实施例中,该信息处理模块6100在获取对于标注任务中样本的标注参照信息时,可以用于:获取对于标注任务中的已标注样本的该标注参照信息。
289.在一个实施例中,该信息处理模块6100在获取对于标注任务中的已标注样本的标注参照信息时,可以用于:响应于完成该标注任务的命令,获取对于标注任务中的已标注样本的该标注参照信息。
290.在一个实施例中,该信息输出模块6200在提供该标注参照信息时,可以用于:以文
字提示和语音提示中的至少一种方式,提供所述标注参考信息。
291.在一个实施例中,该一致性处理装置6000还可以包括设置模块,该设置模块用于:响应于选择记忆库的操作,提供选择接口;获取通过所述选择接口输入的选择信息;以及,根据所述选择信息,获得与对应所述标注任务的所述记忆库。
292.以上一致性处理装置6000的各个模块,例如可以由如图2所示的电子设备的处理器实现。
293.在一个实施例中,该信息处理模块6100可以用于:根据设置的对于所需标注参照信息的来源信息,获取对于所述标准任务中样本的标注参照信息。该信息输出模块6200可以用于:输出获取到的所述标注参照信息。
294.在一个实施例中,该设置模块可以用于:响应于进行样本标注的功能设置的操作,提供设置接口,其中,所述设置接口包括所需标准参照信息的来源设置项;以及,根据对于所述来源设置项的设置内容,获得所述设置的对于所需标注参照信息的来源信息;其中,该来源设置项提供以下来源选项:第一选项,根据记忆库中保存的历史样本生成标准参照信息;第二选项,根据标注任务中的已标注样本生成标准参照信息;以及,第三选项,根据预置的标注推荐模型给出的标注推荐内容生成标准参照信息。
295.在一个实施例中,该信息输出模块6200在输出获取到的所述标注参照信息时,可以用于:根据设置的输出模式,输出获取到的所述标注参照信息。
296.在一个实施例中,该设置模块可以用于:响应于进行样本标注的功能设置的操作,提供设置接口,其中,所述设置接口包括输出模式设置项;以及,根据对于所述输出模式设置项的设置内容,获得所述设置的输出模式。
297.<介质实施例>
298.在本实施例中,还提供一种计算机可读存储介质,该计算机可读存储介质存储有可被计算机读取并运行的计算机程序,所述计算机程序用于在被所述计算机读取运行时,执行如本发明以上任意实施例所述的一致性处理方法。
299.本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
300.计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
301.这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关
计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
302.用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
303.这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
304.这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
305.也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
306.附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
307.以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1