一种数据标注方法和装置、计算机可读存储介质与流程

文档序号:19187919发布日期:2019-11-20 01:41阅读:177来源:国知局
一种数据标注方法和装置、计算机可读存储介质与流程

本申请涉及但不限于自然语言处理(naturallanguageprocessing,nlp)技术领域,尤其涉及一种数据标注方法和装置、计算机可读存储介质。



背景技术:

随着大数据以及人工智能(artificialintelligence,ai)的研究和发展,越来越多的企业采用nlp相关的技术来处理企业级数据问题。数据是nlp的关键,数据的种类除了包含已经存入数据库的结构化数据外,还有很大一部分是非结构化的数据,例如:文本类数据。当前,很多大公司可以提供实体识别、关系识别等各类服务模型,以避开数据标注过程来获取文本类数据的价值。这些服务模型大多是由互联网数据训练得到的,互联网数据的显著特点是文字内容丰富且文字来源广泛,但是,由于互联网数据的用词习惯和写作风格与企业级文本数据存在较大差异,对于企业应用来说,想要获取互联网数据的价值,就必须建立适用于各自领域的nlp模型。

而建立nlp模型,就不能避开一条必经之路:数据标注。在经过大量的数据标注之后,标注好的数据会有很多用途。数据标注简单来说,就是给数据打标签。对于nlp来说,对数据中的实体、关系进行数据标注是很常见的,例如,如图1所示,在一段文本中,出现的字符串“3月25日”可以标注为日期(date),字符串“高娜娜”可以标注为姓名(name)等等。

在数据标注过程中,对于同一字符串有时可能会有许多不同的标签,例如,对于字符串“高娜娜”来说,“高娜娜”作为一个整体是一个姓名,但是,如果将“高娜娜”拆分成:“高”、“娜娜”,此时,“高”可以标注为姓,“娜娜”可以标注为名。因此,对于同一字符串“高娜娜”来说,“高”作为“高娜娜”的一部分,既可以标注为姓名,又可以标注为姓;“娜娜”作为“高娜娜”的一部分,既可以标注为姓名,又可以标注为名。因此,在这种情况下,研究如何实现数据的重叠标注很有必要并且具有一定的实际意义。



技术实现要素:

为了解决上述技术问题,本申请提供了一种数据标注方法和装置、计算机可读存储介质,能够实现对同一数据的重叠标注。

为了解决上述技术问题,本申请实施例的技术方案是这样实现的:

本发明实施例提供了一种数据标注方法,包括:

监听并接收用户的鼠标操作;

检测接收的鼠标操作是否为预定义的标签标注操作且当前鼠标选中的数据是否为已标注数据;

如果接收的鼠标操作为预定义的标签标注操作且当前鼠标选中的数据为已标注数据,则对当前鼠标选中的数据进行重叠标注,并按照标注顺序在该数据的一侧分层显示标注的标签。

在一种示例性实施例中,所述按照标注顺序在该数据的一侧分层显示标注的标签,包括:

检测当前标注的标签为对所述当前鼠标选中的数据的第几重标签;

如果当前标注的标签为对所述当前鼠标选中的数据的第n重标签,则将当前标注的标签显示于所述当前鼠标选中的数据的垂直方向上方的第n层位置或垂直方向下方的第n层位置,其中,n为大于1的自然数。

在一种示例性实施例中,在显示所述标签时,不同的所述标签使用不同的高亮背景颜色进行显示,且所述标签的长度与所述标签标注的数据的长度相同。

在一种示例性实施例中,在所述对当前鼠标选中的数据进行重叠标注时,所述方法还包括:使用所述已标注数据的第一重所述标签的高亮背景颜色,高亮显示所述已标注数据。

在一种示例性实施例中,在显示所述标签时,每个所述标签显示在一个几何图形块中,所述几何图形块为多边形块、圆角矩形块或椭圆形块。

在一种示例性实施例中,在所述对当前鼠标选中的数据进行重叠标注时,所述方法还包括:

增大所述已标注数据所在行的显示所述标签一侧的行间距,以用于按层显示所述标注的标签。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如以上任一项所述的数据标注方法的步骤。

本发明实施例还提供了一种数据标注装置,包括处理器及存储器,其中:

所述处理器用于执行存储器中存储的数据标注程序,以实现如以上任一项所述的数据标注方法的步骤。

本发明实施例还提供了一种数据标注装置,包括检测模块和标注模块,其中:

检测模块,用于监听并接收用户的鼠标操作,检测接收的鼠标操作是否为预定义的标签标注操作且当前鼠标选中的数据是否为已标注数据,当接收的鼠标操作为预定义的标签标注操作且当前鼠标选中的数据为未标注数据时,发送第一通知至标注模块;当接收的鼠标操作为预定义的标签标注操作且当前鼠标选中的数据为已标注数据时,发送第二通知至标注模块;

标注模块,用于接收到检测模块的第一通知,对当前鼠标选中的数据进行第一重标签标注,在该数据的一侧显示标注的标签;接收到检测模块的第二通知,对当前鼠标选中的数据进行重叠标注,并按照标注顺序在该数据的一侧分层显示标注的标签。

在一种示例性实施例中,所述标注模块的按照标注顺序在该数据的一侧分层显示标注的标签,包括:

检测当前标注的标签为对所述当前鼠标选中的数据的第几重标签;

如果当前标注的标签为对所述当前鼠标选中的数据的第n重标签,则将当前标注的标签显示于所述当前鼠标选中的数据的垂直方向上方的第n层位置或垂直方向下方的第n层位置,其中,n为大于1的自然数。

本申请的技术方案,具有如下有益效果:

本申请提供的数据标注方法和装置、计算机可读存储介质,通过按照标注顺序在已标注数据的一侧分层显示重叠标注的标签,实现了数据的重叠标注,且具有较好的标签展示效果。

本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书、权利要求书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。

图1为相关技术中的一种经过标签标注的文本结构示意图;

图2为本申请实施例的一种数据标注方法的流程示意图;

图3为本申请实施例的一种经过标签标注的文本结构示意图;

图4为本申请实施例的一种数据标注装置的结构示意图。

具体实施方式

本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。

此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。

自然语言处理,是对语音、文本等数据进行处理、转换、抽取信息的一大类问题的总称。实体,这里重点指自然语言处理领域中的命名实体识别(namedentityrecognition,ner),但不限于命名实体。关系,这里重点是指自然语言处理领域中的实体与实体之间的关系。实体识别,从输入文本中提取出具有一定语义信息的实体,如姓名、日期、地点、组织机构等。关系识别,从输入文本中提取具有一定语义信息的实体与实体之间的关系,如父母与子女、雇佣、任职、地缘关系等。训练,指机器学习领域中,机器根据训练数据以及损失函数来更新模型参数的过程。中文分词(chinesewordsegmentation,cws)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

实施例一数据标注方法

如图2所示,根据本申请实施例的一种数据标注方法,包括如下步骤:

步骤201:监听并接收用户的鼠标操作;

在一种示例性实施例中,所述用户的鼠标操作包括鼠标左键单击、鼠标左键双击、鼠标拖放、鼠标右键单击等等鼠标操作。

步骤202:检测接收的鼠标操作是否为预定义的标签标注操作且当前鼠标选中的数据是否为已标注数据;

如果接收的鼠标操作不是预定义的标签标注操作,则返回步骤201;

如果接收的鼠标操作为预定义的标签标注操作且当前鼠标选中的数据为已标注数据,则转到步骤203;

如果接收的鼠标操作为预定义的标签标注操作且当前鼠标选中的数据为未标注数据,则转到步骤204;

在一种示例性实施例中,所述预定义的标签标注操作包括:鼠标双击或鼠标拖放选中数据、鼠标左键单击选择标签类型。

步骤203:对当前鼠标选中的数据进行重叠标注,并按照标注顺序在该数据的一侧分层显示标注的标签,返回步骤201;

需要说明的是,本申请所述的重叠标注指的是对文本中的一个或多个字符串中所蕴含的所有标签都进行标注,标注结果可以叠加并可以明确显示。例如,假设一段文本中出现日期信息“2014年10月20日”,则“2014年10月20日”整体可以标注为第一重标签:日期,同时,在“2014年10月20日”中,“2014年”又可以看作是年份,因此,可以为“2014年”标注第二重标签:年,同理,可以为“10月”标注第二重标签:月,为“20日”标注第二重标签:日。由于“2014年”、“10月”、“20日”之间互不重叠,所以它们各自标注的年、月、日标签均为第二重标签。

在一种示例性实施例中,所述按照标注顺序在该数据的一侧分层显示标注的标签,包括:

检测当前标注的标签为对所述当前鼠标选中的数据的第几重标签;

如果当前标注的标签为对所述当前鼠标选中的数据的第n重标签,则将当前标注的标签显示于所述当前鼠标选中的数据的垂直方向上方的第n层位置或垂直方向下方的第n层位置,其中,n为大于1的自然数。

本申请提供的数据标注方法,可以对文本中的字符串进行多重标注,而现有的标签标注方法对文本中的字符串只能进行一重标注。如图3所示,文本中的字符串“中国香港”具有三重标签,第一重标签为:对“中国”标注国家标签,对“香港”标注城市标签;第二重标签为:对“中国香港”整体标注出生地标签;第三重标签为:对“中国香港”整体标注bornlocation标签。

本申请提供的数据标注方法支持对一个字符串标注多个标签。当一个字符串只标注一个标签时,可以通过高亮显示或者下划线等形式显示标注的标签;当一个字符串需要标注多个标签时,在现有标注的标签基础上,在标注文本的垂直方向上,通过不同的颜色、标记(下划线、上划线等)等分层显示标注的标签。

在一种示例性实施例中,在显示所述标签时,不同的所述标签使用不同的高亮背景颜色进行显示,且所述标签的长度与所述标签标注的数据的长度相同。

在一种示例性实施例中,在所述对当前鼠标选中的数据进行重叠标注时,所述方法还包括:使用所述已标注数据的第一重所述标签的高亮背景颜色,高亮显示所述已标注数据。

例如,在对图3文本中的字符串“中国香港”进行标签标注时,首先,可以将字符串“中国香港”看作一个整体,对“中国香港”进行第一重标注,此时,可以为文本中的“中国香港”和第一重标签添加蓝色高亮显示背景,“中国香港”对应的第一重标签的字体颜色可以使用与其高亮显示背景颜色对比度不同的颜色。然后,对字符串“中国”和“香港”进行第二重标注,由于“中国”和“香港”没有数据重叠,因此,两者均属于第二重标注,此时,可以为“中国”和“香港”的第二重标签分别添加不同的高亮显示背景,例如紫色和绿色,“中国”和“香港”对应的第二重标签的字体颜色可以分别使用与其高亮显示背景颜色对比度不同的颜色。同理,可以按照类似的方法对字符串“中国”、字符串“香港”等进行第三重乃至第四重的标签标注。

在一种示例性实施例中,在显示所述标签时,每个标签显示在一个几何图形块中,所述几何图形块可以为多边形块、圆角矩形块、椭圆形块或其它任意形状的图形块。

如图3所示,每个标签被显示在一个矩形块中。

在实际的标签标注过程中,每个标签对应的几何图形块的颜色可以根据标签名称的不同而具有各自相应的颜色。通过采用不同颜色的几何图形块分层显示的方式,可以在多重标签标注时,清晰地显示出当前标注数据的标签标注信息,并且不会使标注文本页面杂乱。

在一种示例性实施例中,在所述对当前鼠标选中的数据进行重叠标注时,所述方法还包括:

增大所述已标注数据所在行的显示所述标签一侧的行间距,以用于按层显示所述标注的标签。

在前端显示中,除了需要分层显示标注的标签外,还需要根据当前文本标注的标签的重数,动态地调整行间距,节省空间,以达到最好的标注展示效果。

步骤204:对当前鼠标选中的数据进行第一重标签标注,在该数据的一侧显示标注的标签,返回步骤201。

具体地,此处可以通过现有的标签标注方法对当前鼠标选中的数据进行第一重标签标注。

实施例二:计算机可读存储介质

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如以上任一项所述的数据标注方法的步骤。

实施例三:数据标注装置

本申请实施例还提供了一种数据标注装置,包括处理器及存储器,其中:所述处理器用于执行存储器中存储的程序,以实现如以上任一项所述的数据标注方法的步骤。

实施例四:数据标注装置

如图4所示,根据本申请实施例的一种数据标注装置,包括检测模块401和标注模块402,其中:

检测模块401,用于监听并接收用户的鼠标操作,检测接收的鼠标操作是否为预定义的标签标注操作且当前鼠标选中的数据是否为已标注数据,当接收的鼠标操作为预定义的标签标注操作且当前鼠标选中的数据为未标注数据时,发送第一通知至标注模块402;当接收的鼠标操作为预定义的标签标注操作且当前鼠标选中的数据为已标注数据时,发送第二通知至标注模块402;

标注模块402,用于接收到检测模块401的第一通知,对当前鼠标选中的数据进行第一重标签标注,在该数据的一侧显示标注的标签;接收到检测模块401的第二通知,对当前鼠标选中的数据进行重叠标注,并按照标注顺序在该数据的一侧分层显示标注的标签。

在一种示例性实施例中,所述预定义的标签标注操作包括:鼠标双击或鼠标拖放选中数据、鼠标左键单击选择标签类型。

在一种示例性实施例中,所述标注模块402的按照标注顺序在该数据的一侧分层显示标注的标签,包括:

检测当前标注的标签为对所述当前鼠标选中的数据的第几重标签;

如果当前标注的标签为对所述当前鼠标选中的数据的第n重标签,则将当前标注的标签显示于所述当前鼠标选中的数据的垂直方向上方的第n层位置或垂直方向下方的第n层位置,其中,n为大于1的自然数。

本申请提供的数据标注装置,可以对文本中的字符串进行多重标注,而现有的标签标注装置对文本中的字符串只能进行一重标注。如图3所示,文本中的字符串“中国香港”具有三重标签,第一重标签为:对“中国”标注国家标签,对“香港”标注城市标签;第二重标签为:对“中国香港”整体标注出生地标签;第三重标签为:对“中国香港”整体标注bornlocation标签。

本申请提供的数据标注装置支持对一个字符串标注多个标签。当一个字符串只标注一个标签时,可以通过高亮显示或者下划线等形式显示标注的标签;当一个字符串需要标注多个标签时,在现有标注的标签基础上,在标注文本的垂直方向上,通过不同的颜色、标记(下划线、上划线等)等分层显示标注的标签。

在一种示例性实施例中,所述标注模块402在显示所述标签时,不同的标签使用不同的高亮背景颜色进行显示,且所述标签的长度与所述标签标注的数据的长度相同。

在一种示例性实施例中,所述标注模块402在对当前鼠标选中的数据进行重叠标注时,使用所述已标注数据的第一重所述标签的高亮背景颜色,高亮显示所述已标注数据。

例如,在对图3文本中的字符串“中国香港”进行标签标注时,首先,可以将字符串“中国香港”看作一个整体,对“中国香港”进行第一重标注,此时,可以为文本中的“中国香港”和第一重标签添加蓝色高亮显示背景,“中国香港”对应的第一重标签的字体颜色可以使用与其高亮显示背景颜色对比度不同的颜色。然后,对字符串“中国”和“香港”进行第二重标注,由于“中国”和“香港”没有数据重叠,因此,两者均属于第二重标注,此时,可以为“中国”和“香港”的第二重标签分别添加不同的高亮显示背景,例如紫色和绿色,“中国”和“香港”对应的第二重标签的字体颜色可以分别使用与其高亮显示背景颜色对比度不同的颜色。同理,可以按照类似的方法对字符串“中国”、字符串“香港”等进行第三重乃至第四重的标签标注。

在一种示例性实施例中,所述标注模块402在显示所述标签时,每个标签显示在一个几何图形块中,所述几何图形块可以为多边形块、圆角矩形块、椭圆形块或其它任意形状的图形块。

如图3所示,每个标签被显示在一个矩形块中。

在实际的标签标注过程中,每个标签对应的几何图形块的颜色可以根据标签名称的不同而具有各自相应的颜色。通过采用不同颜色的几何图形块分层显示的方式,可以在多重标签标注时,清晰地显示出当前标注数据的标签标注信息,并且不会使标注文本页面杂乱。

在一种示例性实施例中,在对当前鼠标选中的数据进行重叠标注时,所述标注模块402还用于:增大已标注数据所在行的显示标签一侧的行间距,以用于按层显示所述标注的标签。

在前端显示中,除了需要分层显示标注的标签外,还需要根据当前文本标注的标签的重数,动态地调整行间距,节省空间,以达到最好的标注展示效果。

在数据标注过程中,重叠标注是标签标注的一种特殊且常见情况。本申请提供的数据标注方法和装置、计算机可读存储介质,通过按照标注顺序在已标注数据的一侧分层显示重叠标注的标签,实现了数据的重叠标注,且具有较好的展示效果。

本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1