语料标注方法及装置与流程

文档序号:18739807发布日期:2019-09-21 01:38阅读:609来源:国知局
语料标注方法及装置与流程

本申请涉及语料处理领域,具体而言,涉及一种语料标注方法及装置。



背景技术:

自然语言处理中需要提供训练语言模型所需要的语料。语料标注是语料准备的重要过程之一。

发明人发现,现有语料标注缺乏系统标注方法。进一步,影响之后的自然语言处理结果

针对相关技术中语料标注处理效果不佳的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请的主要目的在于提供一种语料标注方法及系统,以解决语料标注处理效果不佳的问题。

为了实现上述目的,根据本申请的一个方面,提供了一种语料标注方法。

根据本申请的语料标注方法包括:提取第一语料中的实体,并根据预设命名实体规则标注所述实体;根据语义确定所述第一语料中的关键词,并根据预设语义关键词规则标注所述关键词;根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板;将经过标注后的所述实体、所述关键词、所述模板入库。

进一步地,方法还包括:对所述第一语料中数据类别进行标注的步骤,所述对所述第一语料中数据类别的标注步骤包括:按照百科类数据类别和闲聊类数据类别划分所述数据类别;判断所述第一语料中的数据是否属于预设百科类数据类别,如果是则按照预设百科类数据对所述第一语料中的数据进行标注;判断所述第一语料中的数据是否属于预设闲聊类数据类别,如果是则按照预设闲聊类数据对所述第一语料中的数据进行标注。

进一步地,方法还包括:对所述第一语料中词级别进行标注的步骤,所述对所述第一语料中词级别进行标注的步骤包括:在所述第一语料中提取出最小单元为词级别的词语;根据不同预设词级别规则,标注出所述第一语料中的词语。

进一步地,方法还包括:对所述第一语料中句级别进行标注的步骤,所述第一语料中句级别进行标注的步骤包括:在所述第一语料中提取出最小单元为句级别的句子;根据不同预设句级别规则,标注出所述第一语料中的词语。

进一步地,根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板包括根据所述实体和所述关键词抽象出第一句式,对所述第一句式进行扩展并确定主题或主语后得到所述模块,根据预设语句拓展模板规则标注所述模板。

进一步地,方法还包括:对所述第一语料中相似语义进行标注的步骤,所述第一语料中相似语义进行标注的步骤包括:判断第一语料中的第一句子和第二句子是否相似,如果相似,则采用不同的标注;如果不相似,则采用相同的标注。

本申请的另一方面,提供了一种语料标注装置。

根据本申请的语料标注装置包括:第一提取模块,用于提取第一语料中的实体,并根据预设命名实体规则标注所述实体;第二提取模块,用于根据语义确定所述第一语料中的关键词,并根据预设语义关键词规则标注所述关键词;第三提取模块,用于根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板;入库模块,用于将经过标注后的所述实体、所述关键词、所述模板入库。

进一步地,装置还包括:类别标注模块,用于对所述第一语料中数据类别进行标注,所述标注模块包括:类别标注单元,用于按照百科类数据类别和闲聊类数据类别划分所述数据类别;第一判断单元,用于判断所述第一语料中的数据是否属于预设百科类数据类别,如果是则按照预设百科类数据对所述第一语料中的数据进行标注;第二判断单元,用于判断所述第一语料中的数据是否属于预设闲聊类数据类别,如果是则按照预设闲聊类数据对所述第一语料中的数据进行标注。

进一步地,装置还包括:词标注模块,用于对所述第一语料中词级别进行标注,所述词标注模块包括:词提取单元,用于在所述第一语料中提取出最小单元为词级别的词语;词标注单元,用于根据不同预设词级别规则,标注出所述第一语料中的词语。

进一步地,装置还包括:句标注模块,所述句标注模块用于对所述第一语料中句级别进行标注,所述句标注模块包括:句提取单元,用于在所述第一语料中提取出最小单元为句级别的句子;句标注单元,用于根据不同预设句级别规则,标注出所述第一语料中的词语。

在本申请实施例中语料标注方法及系统,采用提取第一语料中的实体,并根据预设命名实体规则标注所述实体的方式,通过根据语义确定所述第一语料中的关键词,并根据预设语义关键词规则标注所述关键词,达到了根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板的目的,从而实现了将经过标注后的所述实体、所述关键词、所述模板入库的技术效果,进而解决了语料标注处理效果不佳的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请第一实施例中的语料标注方法流程示意图;

图2是根据本申请第二实施例中的语料标注方法流程示意图;

图3是根据本申请第三实施例中的语料标注方法流程示意图;

图4是根据本申请第四实施例中的语料标注方法流程示意图;

图5是根据本申请第五实施例中的语料标注方法流程示意图;

图6是根据本申请第一实施例中的语料标注装置结构示意图;

图7是根据本申请第二实施例中的语料标注装置结构示意图;

图8是根据本申请第三实施例中的语料标注装置结构示意图;

图9是根据本申请第四实施例中的语料标装置结构示意图;

图10是根据本申请第五实施例中的语料标注装置结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。

并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。

此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示,该方法包括如下的步骤S102至步骤S106:

步骤S102,提取第一语料中的实体,并根据预设命名实体规则标注所述实体;

提取出所述第一语料中的实体,并根据所述预设命名实体规则标注出所述实体。比如,实体可以是,邮箱地址、网址、日期、百分比、度量、时间、时期、货币、股票交易代码、手机号码、座机号码、专业术语等等。

需要注意的是,所述命名实体规则可以根据实际使用情况确定规则中包含实体的维度。

步骤S104,根据语义确定所述第一语料中的关键词,并根据预设语义关键词规则标注所述关键词;

根据所述语义确定出所述第一语料中的关键词,并根据预设语义关键词规则标注所述关键词。

需要注意的是,所述预设语义关键词规则需要基于语义。

步骤S106,根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板;

根据所述实体和所述关键词将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板。具体地,首先对问题进行抽象形成aabb句式,然后对aabb句式进行扩展,在句式一定出现句子的主语或者主题即aa,但是不一定出现bb。比如,占地面积是不是越大越好?占地面积是越大越好么?占地面积越大越好么?占地面积是否越大越好?

步骤S108,将经过标注后的所述实体、所述关键词、所述模板入库。

根据上述获取的经过标注后的所述实体、所述关键词、所述模板进行入库处理。基于所述实体、所述关键词以及所述模板作为语料的基础标注结果进行入库。

从以上的描述中,可以看出,本申请实现了如下技术效果:

在本申请实施例中语料标注方法,采用提取第一语料中的实体,并根据预设命名实体规则标注所述实体的方式,通过根据语义确定所述第一语料中的关键词,并根据预设语义关键词规则标注所述关键词,达到了根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板的目的,从而实现了将经过标注后的所述实体、所述关键词、所述模板入库的技术效果,进而解决了语料标注处理效果不佳的技术问题。

根据本申请实施例,作为本实施例中的优选,如图2所示,还包括:对所述第一语料中数据类别进行标注的步骤,所述对所述第一语料中数据类别的标注步骤包括:

步骤S202,按照百科类数据类别和闲聊类数据类别划分所述数据类别;

步骤S204,判断所述第一语料中的数据是否属于预设百科类数据类别,如果是则按照预设百科类数据对所述第一语料中的数据进行标注;

步骤S206,判断所述第一语料中的数据是否属于预设闲聊类数据类别,如果是则按照预设闲聊类数据对所述第一语料中的数据进行标注。

具体地,所述百科类数据类别标注时,是否属于预设百科类数据类别是指,在预设百科类数据类别在预设百科类数据类别中的每条数据必须标注所属的大类以及小类并且以问题所属的类别来判断数据所属的类别。大类可以是天文地理类、生物类、科学知识类、人文类等,在本申请的实施例中并不进行具体限定。小类可以是比如科学知识类中的物理知识、化学知识等。

具体地,所述闲聊类数据类别标注时,是否属于预设闲聊类数据类别是指,在预设闲聊类数据类别中的语句类型、情感类型或者性格类型等维度。

闲聊类数据的标注从多个维度标注,需要注意的是,每条数据必须同时标注多个维度。通过所述三个维度将问题打上标签,同样用所述三个维度将答案打上标签。

比如,早上好属于问候类,高兴属于情感类,成熟稳重属于性格类型。

根据本申请实施例,作为本实施例中的优选,如图3所示,还包括:对所述第一语料中词级别进行标注的步骤,所述对所述第一语料中词级别进行标注的步骤包括:

步骤S302,在所述第一语料中提取出最小单元为词级别的词语;

步骤S304,根据不同预设词级别规则,标注出所述第一语料中的词语。

具体地,所述词级别可以是,色情词、暴力词、低俗词、辱骂词等。所述最小单元为词级别的词语、及色情、暴力、低俗、辱骂的标注。

根据本申请实施例,作为本实施例中的优选,如图4所示,还包括:对所述第一语料中句级别进行标注的步骤,所述第一语料中句级别进行标注的步骤包括:

步骤S402,在所述第一语料中提取出最小单元为句级别的句子;

步骤S404,根据不同预设句级别规则,标注出所述第一语料中的词语。

具体地,句级别的句子可以是,从句子级别标注,本句话属于色情、暴力、低俗、辱骂中的哪一种,打上对应的标签,如果都不属于则不标。比如,色情句子、暴力句子、低俗句子、辱骂句子。

根据本申请实施例,作为本实施例中的优选,根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板包括:

步骤S502,根据所述实体和所述关键词抽象出第一句式,对所述第一句式进行扩展并确定主题或主语后得到所述模块,根据预设语句拓展模板规则标注所述模板。

根据所述实体和所述关键词抽象出第一句式,对所述第一句式进行扩展并确定主题后得到所述模块,根据预设语句拓展模板规则标注所述主题模板。

具体地,对问题进行抽象形成固定格式的句式,对所述固定格式的句式进行扩展,此时,句式中一定有主题,不一定有主语、谓语、宾语。比如,环境污染?物理是什么?什么是物理?

根据所述实体和所述关键词抽象出第一句式,对所述第一句式进行扩展并确定主语后得到所述模块,根据预设语句拓展模板规则标注所述主语模板。

具体地,对问题进行抽象形成固定格式的句式,对所述固定格式的句式进行扩展,此时,句式中一定有主语,不一定有主题、谓语、宾语。比如,你知道环境污染是什么?

根据本申请实施例,作为本实施例中的优选,如图6所示,还包括:对所述第一语料中相似语义进行标注的步骤,所述第一语料中相似语义进行标注的步骤包括:

步骤S602,判断第一语料中的第一句子和第二句子是否相似,

步骤S604,如果相似,则采用不同的标注;

步骤S606,如果不相似,则采用相同的标注。

具体地如果断第一语料中的第一句子与第二句子相似,则标注为1,第一句子与第二句子相似不相似,则标注为0。

需要注意的是,相似或者不相似指的是语义的相似,即第一句子与第二句子的意思是不是相似。

需要注意的是,确认相似与不相似时,可以采用自然语言处理技术中常见语义相似度计算方法,在本申请的实施例中并不进行限定。只要能够满足相似度计算的要求即可。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例,还提供了一种用于实施上述方法的语料标注装置,如图7所示,该装置包括:第一提取模块10,用于提取第一语料中的实体,并根据预设命名实体规则标注所述实体;第二提取模块20,用于根据语义确定所述第一语料中的关键词,并根据预设语义关键词规则标注所述关键词;第三提取模块30,用于根据所述实体和所述关键词,将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板;入库模块40,用于将经过标注后的所述实体、所述关键词、所述模板入库。

本申请实施例的第一提取模块10中提取出所述第一语料中的实体,并根据所述预设命名实体规则标注出所述实体。比如,实体可以是,邮箱地址、网址、日期、百分比、度量、时间、时期、货币、股票交易代码、手机号码、座机号码、专业术语等等。

需要注意的是,所述命名实体规则可以根据实际使用情况确定规则中包含实体的维度。

本申请实施例的第二提取模块20中根据所述语义确定出所述第一语料中的关键词,并根据预设语义关键词规则标注所述关键词。

需要注意的是,所述预设语义关键词规则需要基于语义。

本申请实施例的第三提取模块30中根据所述实体和所述关键词将所述第一语料抽象为模板,并根据预设语句拓展模板规则标注所述模板。具体地,首先对问题进行抽象形成aabb句式,然后对aabb句式进行扩展,在句式一定出现句子的主语或者主题即aa,但是不一定出现bb。比如,占地面积是不是越大越好?占地面积是越大越好么?占地面积越大越好么?占地面积是否越大越好?

本申请实施例的入库模块40中根据上述获取的经过标注后的所述实体、所述关键词、所述模板进行入库处理。基于所述实体、所述关键词以及所述模板作为语料的基础标注结果进行入库。

根据本申请实施例,作为本实施例中的优选,如图8所示,还包括:类别标注模块50,用于对所述第一语料中数据类别进行标注,所述标注模块包括:类别标注单元501,用于按照百科类数据类别和闲聊类数据类别划分所述数据类别;第一判断单元502,用于判断所述第一语料中的数据是否属于预设百科类数据类别,如果是则按照预设百科类数据对所述第一语料中的数据进行标注;第二判断单元503,用于判断所述第一语料中的数据是否属于预设闲聊类数据类别,如果是则按照预设闲聊类数据对所述第一语料中的数据进行标注。

上述单元中,具体地,所述百科类数据类别标注时,是否属于预设百科类数据类别是指,在预设百科类数据类别在预设百科类数据类别中的每条数据必须标注所属的大类以及小类并且以问题所属的类别来判断数据所属的类别。大类可以是天文地理类、生物类、科学知识类、人文类等,在本申请的实施例中并不进行具体限定。小类可以是比如科学知识类中的物理知识、化学知识等。

具体地,所述闲聊类数据类别标注时,是否属于预设闲聊类数据类别是指,在预设闲聊类数据类别中的语句类型、情感类型或者性格类型等维度。

闲聊类数据的标注从多个维度标注,需要注意的是,每条数据必须同时标注多个维度。通过所述三个维度将问题打上标签,同样用所述三个维度将答案打上标签。

比如,早上好属于问候类,高兴属于情感类,成熟稳重属于性格类型。

根据本申请实施例,作为本实施例中的优选,如图9所示,还包括:词标注模块60,用于对所述第一语料中词级别进行标注,所述词标注模块包括:词提取单元601,用于在所述第一语料中提取出最小单元为词级别的词语;词标注单元602,用于根据不同预设词级别规则,标注出所述第一语料中的词语。

上述单元中,具体地,所述词级别可以是,色情词、暴力词、低俗词、辱骂词等。所述最小单元为词级别的词语、及色情、暴力、低俗、辱骂的标注。

根据本申请实施例,作为本实施例中的优选,如图10所示,还包括:句标注模块70,所述句标注模块用于对所述第一语料中句级别进行标注,所述句标注模块包括:句提取单元701,用于在所述第一语料中提取出最小单元为句级别的句子;句标注单元702,用于根据不同预设句级别规则,标注出所述第一语料中的词语。

上述单元中,具体地,句级别的句子可以是,从句子级别标注,本句话属于色情、暴力、低俗、辱骂中的哪一种,打上对应的标签,如果都不属于则不标。比如,色情句子、暴力句子、低俗句子、辱骂句子。

显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1