一种数据切分方法及相关装置与流程

文档序号:35536689发布日期:2023-09-23 11:58阅读:33来源:国知局
一种数据切分方法及相关装置与流程

本技术涉及数据标注,尤其涉及一种数据切分方法及相关装置。


背景技术:

1、随着人工智能(artificial intelligence,ai)领域中深度学习技术的迅速发展,结合深度学习的数据标注技术也得到了极大发展。数据标注可以是指对未标记标签的文本、视频、图像等数据进行分类得到分类标签。

2、因为数据标注需要耗费大量的人力,所以企业通常将需要标注的数据交给第三方进行标注。这在提高了标注效率的同时,也增加了隐私泄露的风险。在社会公众对个人隐私保护日益关注的情况下,数据标注环节应当加强对隐私泄露风险的控制。

3、现有技术中,通过将原始数据切分为预设大小或随机大小的多个数据切片,使得每个数据切片中仅包含部分数据,从而降低隐私泄露的风险;再对该多个数据切片进行标注,然后将与原始数据对应的切片标注拼接得到完整的标注信息,最后将完整的标注信息和原始数据进行关联。

4、然而,采用现有切分方式得到的数据切片,其中的部分原始数据仍可能存在隐私信息,从而在数据标注环节具有较高的隐私泄露风险。


技术实现思路

1、本技术提供了一种数据切分方法及相关装置,在数据标注的场景下,能够使得待标注数据中存在隐私关系的数据分离地更加彻底,减少切分待标注数据后得到的每一个数据切片中的隐私信息,降低数据标注环节中隐私泄露的风险。

2、本技术第一方面提供一种数据切分方法,该方法可以应用于计算机设备,具体可以应用于终端、服务器或其他具备数据处理能力的计算机设备,以下均以应用于终端为例进行说明。

3、该数据切分方法应用于数据标注场景,具体包括:

4、首先,终端获取待标注数据,该待标注数据包括多个子数据,每个子数据用于描述目标对象的一个属性,该多个子数据中的至少两个子数据之间存在目标关联关系。

5、其中,目标对象是指客观存在且可以相互区别的事物。

6、当两个或两个以上的子数据描述的是同一目标对象的一组关联隐私属性时,可以认为该两个或两个以上的子数据存在目标关联关系。该关联隐私属性为预设的属性,可以通过相关的深度学习模型识别子数据得到。

7、然后,根据该目标关联关系,终端切分该待标注数据,得到多个目标数据切片。

8、其中,每个目标数据切片包含该多个子数据中的部分子数据,且每个目标数据切片所包含的子数据之间不存在该目标关联关系。

9、其中,终端可以通过与待标注数据的数据类型对应的深度学习模型,确定存在该目标关联关系的子数据;并根据存在该目标关联关系的子数据,通过多种切分方式对该待标注数据进行切分,得到该多个目标数据切片。

10、最后,终端向标注侧发送所述多个目标数据切片,以便所述标注侧对所述多个目标数据切片进行数据标注。

11、本技术通过根据目标关联关系切分待标注数据,使得得到的每个目标数据切片所包含的子数据之间不存在该目标关联关系;当存在该目标关联关系的子数据的共同披露会导致隐私泄露的风险时,采用本技术的数据切分方法可以降低数据标注时的数据隐私泄露风险,有效保护数据隐私。

12、在一种可能的实现中,目标数据切片包括第一数据切片和第二数据切片,该第一数据切片中的第一子数据和该第二数据切片中的第二子数据存在该目标关联关系。

13、在一种可能的实现中,标注侧包括多台标注设备;向标注侧发送多个目标数据切片,包括:将该第一数据切片和该第二数据切片分别发送给不同的标注设备。

14、其中,该标注设备为单个标注人员能够独立操作的单台计算机设备。

15、本技术中,终端通过将第一数据切片和第二数据切片分别发送给不同的标注设备,使得同一台标注设备接收到的目标数据切片中的子数据不存在目标关联关系,进而能够有效降低隐私泄露的风险。

16、在一种可能的实现中,向标注侧发送多个目标数据切片,包括:在第一时间点向标注侧发送该第一数据切片;在第二时间点向标注侧发送该第二数据切片,第一时间点和第二时间点为不同的时间点。

17、本技术中,终端通过将第一数据切片和第二数据切片错开时间点发送,使得第一子数据和第二子数据之间的目标关联关系更隐蔽,能够降低隐私泄露的风险。

18、在一种可能的实现中,第一时间点和第二时间点的时间间隔大于预设的时间阈值。

19、本技术中,通过设置该时间阈值,使得标注侧接收到第一数据切片和第二数据切片的时间间隔足够长,进一步降低了隐私泄露的风险。

20、在一种可能的实现中,在切分待标注数据之前,该方法还包括:通过目标识别模型,获取该待标注数据中各个子数据对应的预设种类的信息;在切分该待标注数据,得到多个目标数据切片之后,该方法还包括:将该目标数据切片的辅助标注信息发送至标注侧,以便该标注侧基于该目标数据切片的辅助标注信息对该目标数据切片进行标注,该辅助标注信息包括该目标数据切片中各个子数据对应的预设种类的信息。

21、其中,终端可以根据待标注数据的类型,以及数据标注的需求确定目标识别模型的类型,以及该预设种类的信息的具体信息种类。

22、其中,在得到多个目标数据切片后,终端可以获取该多个目标数据切片对应的预设种类的信息,并将每个目标数据切片对应的预设种类的信息作为目标数据切片的辅助标注信息。

23、其中,终端可以通过该目标识别模型识别待标注数据中的子数据,获取得到该子数据对应的预设种类的信息。

24、本技术通过将目标数据切片中子数据对应的,有助于标注人员理解待标注数据的预设种类的信息作为辅助标注信息发送给标注侧,使得标注侧在对目标数据切片进行数据标注时,可以基于该预设种类的信息进行标注,有效地提高了标注效率。

25、在一种可能的实现中,该预设种类的信息为自然语言信息或语义信息。

26、本技术通过将目标数据切片中子数据的自然语言信息或语义信息作为辅助标注信息发送给标注侧,使得标注侧在对目标数据切片进行数据标注时,可以基于对应的自然语言信息或语义信息进行标注,有效地提高了标注效率。

27、在一种可能的实现中,根据该目标关联关系,切分该待标注数据,包括:终端通过目标识别模型从该待标注数据中确定存在目标关联关系的子数据;根据该存在目标关联关系的子数据,切分该待标注数据。

28、在一种可能的实现中,根据该目标关联关系,切分该待标注数据,得到多个目标数据切片,包括:识别待标注数据中各个子数据所在的目标区域,该子数据为描述目标对象的一个属性的完整数据;根据存在目标关联关系的子数据所在的目标区域,对该待标注数据进行切分,得到多个目标数据切片,每个目标数据切片包括一个或多个完整的子数据。

29、其中,子数据所在的区域为该子数据所占据的区域。

30、在确定该存在目标关联关系的子数据后,终端可以确定该存在目标关联关系的子数据所在的目标区域,并根据这些目标区域将该待标注数据切分为多个目标数据切片。

31、本技术中,通过先获取目标区域,再根据存在所述目标关联关系的所述子数据所在的目标区域进行数据切分,使得切分得到的目标数据切片中包含的一个或多个完整的子数据,保障了数据切片中的数据完整性,进而提高数据标注的准确性。

32、在一种可能的实现中,该多个目标数据切片包括第三数据切片和第四数据切片;该第三数据切片包括第一子数据,该第四数据切片包括第二子数据;该根据该目标关联关系,切分该待标注数据,包括:对该待标注数据进行初始切分,以得到初始数据切片;基于该初始数据切片包括该第一子数据和该第二子数据,且该第一子数据和该第二子数据之间存在该目标关联关系,对该初始数据切片进行切分,以得到该第三数据切片和该第四数据切片。

33、本技术中,在根据目标关联关系切分该待标注数据之前,可以先进行一次初始切分,得到初始数据切片,再获取该初始切片中存在目标关联关系的子数据,最后再进行基于目标关联关系的切分。通过二次切分的手段,终端可以从各个初始数据切片包含的子数据中识别存在目标关联关系的子数据,而不用从该待标注数据的所有子数据中进行识别,有效降低了终端的运算量,提高了切分效率。

34、在另一种可能的实现中,在对该待标注数据进行初始切分,以得到初始数据切片之前,包括:获取该待标注数据中各个子数据所在的目标区域;对该待标注数据进行初始切分,已得到初始数据切片包括:根据该目标区域对待标注数据进行初始切分,以得到包含一个或多个完整的子数据的初始数据切片;对该初始数据切片进行切分包括:根据该第一子数据所在的目标区域和该第二子数据所在的目标区域,对该初始数据切片进行切分。

35、在一种可能的实现中,在将所述目标数据切片的辅助标注信息发送至标注侧之后,该方法还包括:接收标注侧返回的多个反馈消息,每个反馈消息用于反馈一个目标数据切片的辅助标注信息是否正确;根据该多个反馈消息计算该辅助标注信息的错误参数;若该错误参数符合告警条件时,则输出告警信息。

36、本技术中,通过使用反馈消息计算辅助标注信息的错误参数,以确定目标识别模型所识别的预设种类的信息是否足够准确;并在检测到该预设种类的信息不够准确时,输出告警信息,触发人工接入对该目标识别模型进行调整和再训练。

37、在一种可能的实现中,每个反馈消息用于反馈一个子数据的辅助标注信息是否正确。

38、在一种可能的实现中,告警条件为辅助标注信息的错误比例与预期错误率的差值大于告警阈值;所述根据所述多个反馈消息计算所述辅助标注信息的错误参数,包括:计算反馈辅助标注错误的反馈消息的数量与该反馈消息的总数量之比,得到该错误比例。

39、其中,终端可以通过使用该目标识别模型对一定数量的样本数据进行语义信息的识别,并根据识别结果和对应样本数据的正确语义信息对比,得到该预期错误率;该告警阈值为预设的可容忍波动值。

40、在另一种可能的实现中,告警条件为反馈辅助标注错误的反馈消息的数量达到预设统计阈值。

41、在一种可能的实现中,该方法还包括:接收该标注侧返回的切分错误消息;输出警报信息。

42、其中,终端在进行数据切分时可能错误切分,导致目标数据切片中包含的子数据不完整;标注侧可以根据该子数据不完整的目标数据切片返回切分错误消息,终端根据该切分错误消息输出警报信息。

43、本技术中,终端通过在接收到切分错误消息时输出警报信息,使得工作人员接入进行对切分错误的待标注数据进行重新切分,保障了数据标注的准确性。

44、在一种可能的实现中,该子数据包括关键子数据体和非关键子数据;在该向标注侧发送该多个目标数据切片之前,包括:将该多个目标数据切片中的关键子数据添加特殊标记,该特殊标记用于使该标注侧的标注人员区分该关键子数据和该非关键子数据;该向标注侧发送该多个目标数据切片,包括:向该标注侧发送添加该特殊标记后的多个目标数据切片。

45、本技术中,通过对目标数据切片中的关键子数据添加特殊标记,使得标注人员在使用标注设备对目标数据切片进行标注时,能够区分关键子数据和非关键子数据,进而提示标注人员以灵活的标准对该关键子数据和该非关键子数据进行标注,以提高标注质量。

46、本技术第二方面提供一种数据切分装置,包括:

47、获取单元,用于获取待标注数据,所述待标注数据包括多个子数据,每个所述子数据用于描述目标对象的一个属性,所述多个子数据中的至少两个子数据之间存在目标关联关系;

48、切分单元,用于根据所述目标关联关系,切分所述待标注数据,得到多个目标数据切片;以及,

49、发送单元,用于向标注侧发送所述多个目标数据切片,以便所述标注侧对所述多个目标数据切片进行数据标注。

50、在一种可能的实现中,所述目标数据切片包括第一数据切片和第二数据切片,所述第一数据切片中的第一子数据和所述第二数据切片中的第二子数据存在所述目标关联关系。

51、在一种可能的实现中,所述标注侧包括多台标注设备;所述发送单元具体用于:将所述第一数据切片和所述第二数据切片分别发送给不同的所述标注设备。

52、在一种可能的实现中,所述发送单元具体用于:在第一时间点向所述标注侧发送所述第一数据切片;在第二时间点向所述标注侧发送所述第二数据切片,所述第一时间点和所述第二时间点为不同的时间点。

53、在一种可能的实现中,所述第一时间点和所述第二时间点的时间间隔大于预设的时间阈值。

54、在一种可能的实现中,所述获取单元还用于:通过目标识别模型,获取所述待标注数据中各个子数据对应的预设种类的信息;所述发送单元还用于:将所述目标数据切片的辅助标注信息发送至所述标注侧,以便所述标注侧基于所述目标数据切片的辅助标注信息对所述目标数据切片进行标注,所述辅助标注信息包括所述目标数据切片中各个子数据对应的预设种类的信息。

55、在一种可能的实现中,该预设种类的信息为自然语言信息或语义信息。

56、在一种可能的实现中,所述切分单元具体用于:识别所述待标注数据中各个子数据所在的目标区域,每个所述子数据为描述目标对象的一个属性的完整数据;根据存在所述目标关联关系的所述子数据所在的目标区域,对所述待标注数据进行切分,得到所述多个目标数据切片,每个所述目标数据切片包括一个或多个完整的所述子数据。

57、在一种可能的实现中,所述多个目标数据切片包括第三数据切片和第四数据切片;所述第三数据切片包括第三子数据,所述第四数据切片包括第四子数据;所述切分单元还用于:对所述待标注数据进行初始切分,以得到初始数据切片;基于所述初始数据切片包括所述第三子数据和所述第四子数据,且所述第三子数据和所述第四子数据之间存在所述目标关联关系,对所述初始数据切片进行切分,以得到所述第三数据切片和所述第四数据切片。

58、在一种可能的实现中,其特征在于,所述装置还包括:接收单元,用于接收所述标注侧返回的多个反馈消息,每个所述反馈消息用于反馈一个所述目标数据切片的所述辅助标注信息是否正确;计算单元,用于根据所述多个反馈消息计算所述辅助标注信息的错误参数;告警单元,用于当所述计算单元计算得到的错误参数符合告警条件时,输出告警信息。

59、在一种可能的实现中,所述告警条件为所述辅助标注信息的错误比例与预期错误率的差值大于告警阈值;所述计算单元具体用于:计算反馈所述辅助标注错误的反馈消息的数量与所述反馈消息的总数量之比,得到所述错误比例。

60、本技术第三方面提供一种计算机设备,包括:

61、处理器、存储器;

62、该存储器中存储有指令操作或代码;

63、该处理器配置为与该存储器通信,并执行该存储器中的指令操作或代码以执行第一方面所述的方法。

64、本技术第四方面提供一种计算机可读存储介质,该计算机可读存储介质包括指令,当该指令在计算机上运行时,使得该计算机执行第一方面所述的方法。

65、本技术第五方面提供一种计算机程序产品,包括计算机可读指令,当该计算机可读指令在计算机设备上运行时,使得该计算机设备执行第一方面所述的方法。

66、本技术第六方面提供了一种芯片系统,该芯片系统包括至少一个处理器和接口,该接口用于接收数据和/或信号,至少一个处理器用于支持计算机设备实现上述第一方面或第一方面任意一种可能的实现方式中所涉及的功能。在一种可能的设计中,芯片系统还可以包括存储器,存储器,用于保存计算机设备必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包含芯片和其他分立器件。

67、上述第二方面至第六方面提供的方案,用于实现或配合实现上述第一方面提供的方法,因此可以与第一方面达到相同或相应的有益效果,此处不再进行赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1