数据集的标注方法、装置、电子设备及介质与流程

文档序号：32994866发布日期：2023-01-18 00:03阅读：36来源：国知局

1.本发明涉及人工智能技术领域，尤其是涉及一种数据集的标注方法、装置、电子设备及介质。

背景技术：

2.命名实体识别(named entity recognition，ner)是自然语言处理领域常用的信息提取技术，一般搭建ner模型需要用到标注数据，标注数据直接影响模型表现效果。
3.面对新领域的文本，ner模型训练存在冷启动问题，因此需要对训练文本的每个字符添加其所属的实体类别标注。然而对于新领域的ner模型训练，只能靠人工标注生成训练数据集，工作量大且速度慢；或者利用既有目标领域内的参考数据集构造辅助标注模型，比如根据领域知识图谱，以语句中被掩码实体字符为目标训练模型，用来对实体位置进行标注预测，但也增加了额外的工作量和开发成本，而且领域知识图谱并不多见，对于不存在领域知识图谱的情况就无计可施。综上所述，现有的数据集文本标注方法，存在工作量大且开发成本较高的问题。

技术实现要素：

4.有鉴于此，本发明的目的在于提供一种数据集的标注方法、装置、电子设备及介质，以减少了文本标注的工作量，同时降低了开发成本。
5.为了实现上述目的，本发明实施例采用的技术方案如下：
6.第一方面，本发明实施例提供了一种数据集的标注方法，包括：基于预先得到的目标领域的实体字典确定实体字典长文本；计算实体字典长文本和待标注文本的公共子序列，并确定公共子序列的边界区间；基于公共子序列的边界区间将边界重合的公共子序列进行拼接，得到多个不相交子序列；基于实体字典中的实体名称对不相交子序列进行标注，得到标注文本。
7.在一种实施方式中，基于预先得到的目标领域的实体字典确定实体字典长文本，包括：获取目标领域的文本中的实体名称，得到实体字典；基于实体名称的关键字对实体字典进行分类，得到多个实体类别；基于实体类别对实体名称进行排序，得到实体字典长文本。
8.在一种实施方式中，计算实体字典长文本和待标注文本的公共子序列，并确定公共子序列的边界区间，包括：计算公共子序列为待标注文本和实体字典长文本之间连续相同的字符串，并确定字符串的长度；基于预先确定的公共子序列长度阈值，剔除字符串的长度小于公共子序列长度阈值的字符串，得到公共子序列；基于公共子序列中的字符在待标注文本中的字符位置确定公共子序列的边界区间。
9.在一种实施方式中，基于实体字典中的实体名称对不相交子序列进行标注之前，还包括：基于公共子序列确定停止词字典。
10.在一种实施方式中，基于实体字典中的实体名称对不相交子序列进行标注，包括：
基于实体字典中的实体名称对不相交子序列进行标注，得到第一标注结果；基于停止词字典，滤除第一标注结果中的停止词，得到待标注文本的标注结果。
11.第二方面，本发明实施例提供了一种数据集的标注装置，包括：实体字典长文本确定模块，用于基于预先得到的目标领域的实体字典确定实体字典长文本；公共子序列确定模块，用于计算实体字典长文本和待标注文本的公共子序列，并确定公共子序列的边界区间；拼接模块，用于基于公共子序列的边界区间将边界重合的公共子序列进行拼接，得到多个不相交子序列；标注模块，用于基于实体字典中的实体名称对不相交子序列进行标注，得到标注文本。
12.在一种实施方式中，实体字典长文本确定模块，还用于：获取目标领域的文本中的实体名称，得到实体字典；基于实体名称的关键字对实体字典进行分类，得到多个实体类别；基于实体类别对实体名称进行排序，得到实体字典长文本。
13.在一种实施方式中，公共子序列确定模块，还用于：计算公共子序列为待标注文本和实体字典长文本之间连续相同的字符串，并确定字符串的长度；基于预先确定的公共子序列长度阈值，剔除字符串的长度小于公共子序列长度阈值的字符串，得到公共子序列；基于公共子序列中的字符在待标注文本中的字符位置确定公共子序列的边界区间。
14.第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述第一方面提供的任一项的方法的步骤。
15.第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述第一方面提供的任一项的方法的步骤。
16.本发明实施例带来了以下有益效果：
17.本发明实施例提供的上述数据集的标注方法、装置、电子设备及介质，首先，基于预先得到的目标领域的实体字典确定实体字典长文本；然后，计算实体字典长文本和待标注文本的公共子序列，并确定公共子序列的边界区间；接着，基于公共子序列的边界区间将边界重合的公共子序列进行拼接，得到多个不相交子序列；最后，基于实体字典中的实体名称对不相交子序列进行标注，得到标注文本。上述方法根据目标领域内的实体字典的实体字典长文本，计算实体字典长文本和待标注文本的公共子序列，进而根据公共子序列对待标注文本进行标注，从而能够快速生成初始实体识别模型需要的标注文本，减少了文本标注的工作量，同时降低了开发成本。
18.本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
19.为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
20.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的
附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1为本发明实施例提供的一种数据集的标注方法的流程图；
22.图2为本发明实施例提供的一种实体模糊标注的示意图；
23.图3为本发明实施例提供的一种实体字典拼接示意图；
24.图4为本发明实施例提供的另一种数据集的标注方法的示意图；
25.图5为本发明实施例提供的一种数据集的标注装置的结构示意图；
26.图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
27.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
28.目前，对于新领域的ner模型训练，只能靠人工标注生成训练数据集，工作量大且速度慢；或者利用既有目标领域内的参考数据集构造辅助标注模型，比如根据领域知识图谱，以语句中被掩码实体字符为目标训练模型，用来对实体位置进行标注预测，但也增加了额外的工作量和开发成本，而且领域知识图谱并不多见，对于不存在领域知识图谱的情况就无计可施。综上所述，现有的数据集文本标注方法，存在工作量大且开发成本较高的问题。
29.基于此，本发明实施例提供的一种数据集的标注方法、装置、电子设备及介质，可以减少文本标注的工作量，同时降低开发成本。
30.为便于对本实施例进行理解，首先对本发明实施例所公开的一种数据集的标注方法进行详细介绍，该方法可以由电子设备执行，诸如智能手机、电脑、平板电脑等，参见图1所示的一种数据集的标注方法的流程图，示意出该方法主要包括以下步骤s101至步骤s104：
31.步骤s101：基于预先得到的目标领域的实体字典确定实体字典长文本。
32.在一种实施方式中，可以预先通过外部方法从网络、书籍、报刊等途径收集目标领域的文本中的实体名称构建实体字典；然后，对于实体字典进行粗分类，按照相同前缀、后缀或者其他关键词将实体名称划分为不同的类别；最后，将同属于一个类别的实体名称拼接成实体字典长文本。
33.步骤s102：计算实体字典长文本和待标注文本的公共子序列，并确定公共子序列的边界区间。
34.在一种实施方式中，公共子序列，也即最长连续公共子序列或者最长公共子串，指实体字典长文本和待标注文本2个字符串的连续相同部分，诸如：“helloworld”与“loop”的最长连续公共子序列即为“lo”。边界区间是指公共子序列中的字符在待标注文本中的字符位置所形成的区间，诸如：假设“helloworld”为实体字典长文本，“loop”为待标注文本，“lo”为公共子序列，则边界区间为(1,2)。基于此，本发明实施例中，可以计算实体字典长文本和待标注文本的连续相同部分，得到至少一个公共子序列，并根据字符位置确定公共子
序列的边界区间。
35.步骤s103：基于公共子序列的边界区间将边界重合的公共子序列进行拼接，得到多个不相交子序列。
36.在一种实施方式中，由于得到的多个公共子序列可能会存在边界重合的情况，为了简化文本得到更精确的标注数据，本发明实施例中可以根据公共子序列的边界区间，将存在边界重合的多个公共子序列，按照首尾相连的方式拼接成更长的序列，从而得到多个不相交子序列。
37.步骤s104：基于实体字典中的实体名称对不相交子序列进行标注，得到标注文本。
38.在一种实施方式中，参见图2所示的一种实体模糊标注的示意图，在得到不相交子序列后，可以根据实体字典中的实体名称的局部片段对不相交子序列进行标注，从而得到对待标注文本的模糊标注。
39.本发明实施例提供的上述数据集的标注方法，根据目标领域内的实体字典的实体字典长文本，计算实体字典长文本和待标注文本的公共子序列，进而根据公共子序列对待标注文本进行标注，从而能够快速生成初始实体识别模型需要的标注文本，减少了文本标注的工作量，同时降低了开发成本。
40.在具体实施中，公共子序列中可能会在高频出现但无实际意义的词语，对于这列词语不需要进行实体标注，因此，本发明实施例中在基于实体字典中的实体名称对不相交子序列进行标注之前，还包括：基于公共子序列确定停止词字典。具体的，停止词字典中包括高频出现但无实际意义的词语。
41.进一步地，在基于实体字典中的实体名称对不相交子序列进行标注时，可以采用包括但不限于以下方式：首先，基于实体字典中的实体名称对不相交子序列进行标注，得到第一标注结果；然后，基于停止词字典，滤除第一标注结果中的停止词，得到待标注文本的标注结果。在具体实施中，可以利用实体字典中不同实体名称的局部片段，实现对待标注文本中实体的模糊标注，即得到第一标注结果；然后，根据停止词字典对得到的不相交子序列集合中高频出现但无实际意义的词语进行过滤去除，最终得到的标注的子序列集合作为待标注文本的标注结果。
42.在一种实施方式中，对于前述步骤s101，即在基于预先得到的目标领域的实体字典确定实体字典长文本时，可以采用包括但不限于以下方式：
43.首先，获取目标领域的文本中的实体名称，得到实体字典。
44.在具体实施时，可以首先通过外部方法收集获取目标领域的文本中的实体名称，得到实体字典。比如：对于地理名实体，可先收集全国城市名称；对于组织名实体，可先收集全国公开机构名称。收集需要的实体名称形成字典作为用来标注目标实体的原材料，待标注实体可能与收集的实体名称完全一致或部分相似。
45.然后，基于实体名称的关键字对实体字典进行分类，得到多个实体类别。
46.在具体实施时，对于实体字典中的额实体名称可以按照相同的关键字，诸如共同前缀、后缀或其它，粗略分成若干类别。比如：对于组织名实体，按照名称共同的前缀将组织名实体分成不同类别。
47.最后，基于实体类别对实体名称进行排序，得到实体字典长文本。
48.在具体实施时，参见图3所示一种实体字典拼接示意图，可以对实体字典先按照实
体类别分类，再对每个实体类别按照实体名称排序，将所有实体名称拼接成实体字典长文本。其中，排序是为了让相似的实体名称拼接一起，便于后面计算连续公共子序列以及模糊标注。
49.在一种实施方式中，对于前述步骤s102，即在计算实体字典长文本和待标注文本的公共子序列，并确定公共子序列的边界区间时，可以采用包括但不限于以下方式：
50.首先，计算公共子序列为待标注文本和实体字典长文本之间连续相同的字符串，并确定字符串的长度。
51.然后，基于预先确定的公共子序列长度阈值，剔除字符串的长度小于公共子序列长度阈值的字符串，得到公共子序列。
52.最后，基于公共子序列中的字符在待标注文本中的字符位置确定公共子序列的边界区间。
53.在具体实施时，考虑到需要标注的实体名称的长度通常是有限制的，为了避免标注无意义的词语，减少工作量，可以预先根据不同领域内实体名称的特征，确定公共子序列长度阈值作为参考，当字符串的长度小于公共子序列长度阈值时，则表明该字符串不属于需要标注的实体名称，剔除长度小于公共子序列长度阈值的字符串后，即可得到公共子序列。进一步，根据公共子序列中的字符在待标注文本中所处的字符位置确定公共子序列的边界区间。
54.本发明实施例提供的上述方法，能够快速生成初始实体识别模型需要的标注文本，减少了文本标注的工作量，同时降低了开发成本。
55.为了便于理解，本发明实施例还提供了一种具体的数据集的标注方法，参见图4所示，该标注方法主要包括：领域实体字典预处理、最长连续公共子序列求解和实体标注结果生成三部分，具体包括以下六个步骤：
56.第一步：获取目标领域的实体字典。
57.具体的，以目标领域为金融领域为例，对于公募基金产品名称实体，可以在网络上搜寻到主要公募基金公司名称及旗下的基金产品名称作为实体字典，以规模较大的易方达基金为例，旗下开放式基金有易方达中证红利etf联接a、易方达中证军工(lof)a等，则可以收集需要的实体名称形成实体字典留用。
58.第二步：对实体字典按照关键字粗分类。
59.具体的，对于实体字典名称按照相同的关键字粗略分成若干类别。比如对于公募基金产品，基本都会包含相应的基金公司名称作为前缀，比如“易方达xxx”，因此，可以按照基金公司名称将基金产品实体分成不同类别，如将易方达旗下基金分成一类，华夏基金分成一类，其它分类类似。
60.第三步：按类别顺序将实体字典全拼接，得到字典长文本。
61.具体的，可以对实体字典先按照实体类别排序，再按照实体名称排序，将所有实体字典名称拼接成字典长文本(即实体字典长文本)。
62.第四步：求待标注文本与字典长文本的最长连续公共子序列集合。
63.也即求解最长连续公共子序列，具体的，基于第三步得到的实体字典长文本与待标注文本计算最长连续公共子序列，得到待标注文本的多个公共子序列以及边界区间。其中，公共子序列以实体名称的最小长度作为参数，实体名称的最小长度可以根据不同领域
内实体名称特点调整，一般对于基金产品包含基金公司名称，最小长度可以取3。
64.举例说明：假设实体字典长文本为：“易方达优选多资产三个月持有混合(fof)a
…
华泰柏瑞优势领航混合
…
广发稳健优选六个月持有期混合a
…
英大灵活配置混合型
…”
，待标注文本为：“11月18日，易方达又是领航六个月持有期混合型基金中基金(fof)(a类012652c类012653)开始发售。”，那么，字典长文本与待标注文本得到的最长连续公共子序列共有5个，其中“易方达优”边界为(8,12),“优势领航”边界为(11,15)，“六个月持有期混合”边界为(15,23)，“混合型”边界为(21,24)，“fof”边界为(30,33)。
65.第五步：对子序列合计中重叠边界拼接，得到若干个完全不相交实体标注。
66.具体的，对第四步得到的子序列结果进行边界拼接，即对上述5个最长连续公共子序列进行拼接可以得到“易方达优势领航六个月持有期混合型”。由于在基金产品领域内，基金产品名称一般会有部分相同，所以即使待标注文本中的实体名称不在领域实体字典中，也可以根据其它基金产品名称部分拼接得到完整的标注实体，实现了对实体模糊标注。
67.第六步：根据停止词字典过滤无实际意义词。
68.类似前述第5个公共子序列“fof”这样的关键字在基金实体中出现频度较高，一般会包含在基金产品名称中，单独出现就不会是实体名称，因此可以根据停止词字典对其过滤。最终得到的公共子序列为[(8,24,'易方达优势领航六个月持有期混合型')]，根据边界信息可以对文本进行实体标注。
[0069]
本发明实施例提供的上述数据集的标注方法，仅需要少量的开发量和领域内容易获取的实体字典，即可实现对实体识别样本的初步标注，解决ner模型的训练的冷启动问题，可以节约大量人工标注工作，简便可行。同时，对于不同领域、不同实体类型都可以适用，在新领域的ner模型开发初期可以起到良好的辅助作用。
[0070]
对于前述数据集的标注方法，本发明实施例还提供了一种数据集的标注装置，参见图5所示的一种数据集的标注装置的结构示意图，示意出该装置主要包括以下部分：
[0071]
实体字典长文本确定模块501，用于基于预先得到的目标领域的实体字典确定实体字典长文本；
[0072]
公共子序列确定模块502，用于计算实体字典长文本和待标注文本的公共子序列，并确定公共子序列的边界区间；
[0073]
拼接模块503，用于基于公共子序列的边界区间将边界重合的公共子序列进行拼接，得到多个不相交子序列；
[0074]
标注模块504，用于基于实体字典中的实体名称对不相交子序列进行标注，得到标注文本。
[0075]
本发明实施例提供的上述数据集的标注装置，根据目标领域内的实体字典的实体字典长文本，计算实体字典长文本和待标注文本的公共子序列，进而根据公共子序列对待标注文本进行标注，从而能够快速生成初始实体识别模型需要的标注文本，减少了文本标注的工作量，同时降低了开发成本。
[0076]
在一种实施方式中，上述实体字典长文本确定模块501，还用于：获取目标领域的文本中的实体名称，得到实体字典；基于实体名称的关键字对实体字典进行分类，得到多个实体类别；基于实体类别对实体名称进行排序，得到实体字典长文本。
[0077]
在一种实施方式中，上述公共子序列确定模块502，还用于：计算公共子序列为待
标注文本和实体字典长文本之间连续相同的字符串，并确定字符串的长度；基于预先确定的公共子序列长度阈值，剔除字符串长度小于公共子序列长度阈值的字符串，得到公共子序列；基于公共子序列中的字符在待标注文本中的字符位置确定公共子序列的边界区间。
[0078]
在一种实施方式中，上述装置还包括：停止词字典确定模块，用于：基于公共子序列确定停止词字典。
[0079]
在一种实施方式中，上述标注模块504还用于：基于实体字典中的实体名称对不相交子序列进行标注，得到第一标注结果；基于停止词字典，滤除第一标注结果中的停止词，得到待标注文本的标注结果。
[0080]
本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。
[0081]
需要说明的是，本发明实施中提供的具体数值，仅为是示例性的，在此不做限定。
[0082]
本发明实施例还提供了一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被处理器运行时执行如上实施方式的任一项所述的方法。
[0083]
图6为本发明实施例提供的一种电子设备的结构示意图，该电子设备100包括：处理器60，存储器61，总线62和通信接口63，所述处理器60、通信接口63和存储器61通过总线62连接；处理器60用于执行存储器61中存储的可执行模块，例如计算机程序。
[0084]
其中，存储器61可能包含高速随机存取存储器(ram，random access memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。
[0085]
总线62可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。
[0086]
其中，存储器61用于存储程序，所述处理器60在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中，或者由处理器60实现。
[0087]
处理器60可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现成可编程门阵列(field-programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61，处理器60读取存储器61中的信息，结合
其硬件完成上述方法的步骤。
[0088]
本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见前述方法实施例，在此不再赘述。
[0089]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0090]
最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张涵刘星辰陈晓峰麻沁甜张福缘
技术所有人：上海苍阙信息科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。