命名实体提取方法与装置以及电子设备

文档序号:29695600发布日期:2022-04-16 12:55阅读:83来源:国知局
命名实体提取方法与装置以及电子设备

1.本技术涉及数据识别技术领域,尤其涉及一种命名实体提取方法与装置以及电子设备。


背景技术:

2.命名实体识别旨在识别自然语言文本中具有特定含义的实体的边界和类型,主要包括人名、地名、机构名、专有名词等。令牌(token)是文本的基本单位,通常指英文中的单词或中文中的字符。在机器学习中,文本被视为令牌序列,命名实体识别的任务转化为序列标注任务,即给序列中的每个令牌进行标注,打上标签。标注方案对命名实体识别的性能有很大的影响。相关的命名实体识别方案中对于标注方案都将非实体标记视为相同,并忽略这些标记之间的差异。


技术实现要素:

3.有鉴于此,本技术的目的在于提出一种命名实体提取方法与装置以及电子设备。
4.基于上述目的,本技术提供了
5.一种命名实体提取方法,其特征在于,包括:
6.通过命名实体识别模型,识别出自然语言文本中属于命名实体的第一类令牌以及不属于命名实体的第二类令牌,以将所述自然语言文本转换成令牌序列,并按照从前到后的顺序对所述令牌序列进行标注以得到目标标签序列;
7.根据所述目标标签序列,从所述令牌序列中提取每个命名实体,
8.其中,对所述令牌序列进行标注以得到所述目标标签序列包括:
9.按照从前到后的顺序给所述令牌序列中的所述第一类令牌和所述第二类令牌分别打上第一类标签和第二类标签,以得到初始标签序列;
10.对于所述初始标签序列中的每一个所述第二类标签,执行下列操作,以得到所述目标标签序列:
11.响应于确定该第二类标签的前一标签不存在或不属于所述第一类标签,而该第二类标签的后一标签属于所述第一类标签,将该第二类标签更改为第一类边界标记;
12.响应于确定该第二类标签的前一标签属于所述第一类标签,而该第二类标签的后一标签不存在或不属于所述第一类标签,将该第二类标签更改为第二类边界标记。
13.进一步的,所述操作还包括:
14.响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第二类边界标记。
15.进一步的,所述操作还包括:
16.响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第一类边界标记。
17.进一步的,所述将该第二类标签更改为第一类边界标记包括:
18.获取该第二类标签的后一标签中包含的第一实体类型标识符;
19.将该第二类标签更改为包含所述第一实体类型标识符的所述第一类边界标记,
20.所述将该第二类标签更改为第二类边界标记包括:
21.获取该第二类标签的前一标签中包含的第二实体类型标识符;
22.将该第二类标签更改为包含所述第二实体类型标识符的所述第二类边界标记。
23.进一步的,响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第二类边界标记,包括:
24.获取该第二类标签的前一标签中包含的第三实体类型标识符;
25.将该第二类标签更改为包含所述第三实体类型标识符的所述第二类边界标记。
26.进一步的,响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第一类边界标记,包括:
27.获取该第二类标签的后一标签中包含的第四实体类型标识符;
28.将该第二类标签更改为包含所述第四实体类型标识符的所述第一类边界标记。
29.进一步的,所述命名实体识别模型包括预训练语言模型和标签解码器;
30.识别出所述自然语言文本中的所述第一类令牌和所述第二类令牌以将所述自然语言文本转换成所述令牌序列包括:通过所述预训练语言模型,将所述自然语言文本转换为令牌表示,并识别出所述令牌表示中的所述第一类令牌和所述第二类令牌,以得到所述令牌序列;
31.按照从前到后的顺序对所述令牌序列进行标注包括:通过所述标签解码器,按照从前到后的顺序对所述令牌序列进行标注。
32.进一步的,所述标签解码器包括条件随机场crf模型。
33.基于同一构思,本技术还提供了一种命名实体提取装置,包括:
34.标注模块,用于通过命名实体识别模型,识别出自然语言文本中属于命名实体的第一类令牌以及不属于命名实体的第二类令牌,以将所述自然语言文本转换成令牌序列,并按照从前到后的顺序对所述令牌序列进行标注以得到目标标签序列;
35.提取模块,用于根据所述目标标签序列,从所述令牌序列中提取每个命名实体,
36.其中,所述标注模块被配置成:
37.按照从前到后的顺序给所述令牌序列中的所述第一类令牌和所述第二类令牌分别打上第一类标签和第二类标签,以得到初始标签序列;
38.对于所述初始标签序列中的每一个所述第二类标签,执行下列操作,以得到所述目标标签序列:
39.响应于确定该第二类标签的前一标签不存在或不属于所述第一类标签,而该第二类标签的后一标签属于所述第一类标签,将该第二类标签更改为第一类边界标记;
40.响应于确定该第二类标签的前一标签属于所述第一类标签,而该第二类标签的后一标签不存在或不属于所述第一类标签,将该第二类标签更改为第二类边界标记。
41.基于同一构思,本技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任一项所述的方法。
42.从上面所述可以看出,本技术提供的命名实体提取方法与装置以及电子设备,首
先通过命名实体识别模型,识别出自然语言文本中属于命名实体的第一类令牌以及不属于命名实体的第二类令牌,以将所述自然语言文本转换成令牌序列,并按照从前到后的顺序对所述令牌序列进行标注以得到目标标签序列。根据所述目标标签序列,从所述令牌序列中提取每个命名实体。其中,目标标签序列对于命名实体前后的边界字符进行有区别的标注,显著提高了命名实体的区分度,使得命名实体识别的结果更加准确。
附图说明
43.为了更清楚地说明本技术或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
44.图1为本技术实施例的命名实体提取方法流程示意图;
45.图2为本技术实施例的命名实体提取装置示意图;
46.图3为本技术实施例的电子设备结构示意图。
具体实施方式
47.为使本技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本技术进一步详细说明。
48.需要说明的是,除非另外定义,本技术实施例使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。本技术实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
49.如背景技术部分所述,相关的命名实体识别中标注方案只考虑实体的内部标记,而忽略了它们的外部标记的信息。所有相关的标注方案都将非实体标记视为相同,并忽略这些标记之间的差异,申请人在实现本技术的过程中发现,靠近实体的标记可能表示实体的边界,应与其他标记区别对待。
50.有鉴于此,本说明书一个或多个实施例提供了一种命名实体提取方案,参考图1,本说明书一个实施例的命名实体识别方法,包括以下步骤:
51.步骤s101、通过命名实体识别模型,识别出自然语言文本中属于命名实体的第一类令牌以及不属于命名实体的第二类令牌,以将所述自然语言文本转换成令牌序列,并按照从前到后的顺序对所述令牌序列进行标注以得到目标标签序列;
52.在本步骤中,对所述令牌序列进行标注以得到所述目标标签序列包括:
53.按照从前到后的顺序给所述令牌序列中的所述第一类令牌和所述第二类令牌分别打上第一类标签和第二类标签,以得到初始标签序列;
54.对于所述初始标签序列中的每一个所述第二类标签,执行下列操作,以得到所述
目标标签序列:
55.响应于确定该第二类标签的前一标签不存在或不属于所述第一类标签,而该第二类标签的后一标签属于所述第一类标签,将该第二类标签更改为第一类边界标记;
56.响应于确定该第二类标签的前一标签属于所述第一类标签,而该第二类标签的后一标签不存在或不属于所述第一类标签,将该第二类标签更改为第二类边界标记。
57.在本实施例中,自然语言文本中包括命名实体和非命名实体。命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的命名实体还包括数字、日期、货币、地址等等。非命名实体则是其他部分。令牌(token)是文本的基本单位,通常指英文中的单词或中文中的字符,对应于命名实体的则是第一类令牌,对应于非命名实体的则是第二类令牌。对于第一类令牌,首先将其标记为第一类标签,以表示该令牌对应的字符或单词为命名实体;对于第二类令牌,首先将其标记为第二类标签,以表示该令牌对应的字符或单词为非命名实体。之后,分析第二类标签前后的标签情况,将紧挨命名实体两侧的非命名实体对应的第二类标签更改为边界标记,以突出表示该命名实体的前后边界。
58.作为一个具体的示例,对“早产儿肾功能尚不成熟”这句话进行标注,其中,“肾”为命名实体,则需要在“肾”之前的“儿”上标注第一边界标记,在“肾”之后的“功”上标注第二边界标记。
59.步骤s102、根据所述目标标签序列,从所述令牌序列中提取每个命名实体。
60.在本步骤中,令牌序列对应的目标标签序列带有命名实体和命名实体边界信息的标签,在提取时,只需根据相应的标签提取命名实体即可。
61.可见,目标标签序列对于命名实体前后的边界字符进行有区别的标注,显著提高了命名实体的区分度,使得命名实体识别的结果更加准确。
62.在另外一些实施例中,对于前述实施例中所述的操作还可以包括:
63.响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第二类边界标记。
64.在本实施例中,存在一种情况:非命名实体的字符或单词只占据一个令牌的长度,因此该非命名实体对应的第二类标签只有一个。若此时该非命名实体的前后都是命名实体,则需要将该非命名实体对应的第二类标签更改为所述第二类边界标记,以作为前面的命名实体的后边界的标记。
65.作为一个具体的示例,对“早产儿肾和肝功能尚不成熟”这句话进行标注,其中,“肾”和“肝”为命名实体,则需要在“肾”之前的“儿”上标注“肾”的第一类边界标记,在“肾”之后的“和”上标注“肾”的第二类边界标记,在“肝”之后的“功”上标注“肝”的第二类边界标记。
66.在另外一些实施例中,对于前述实施例中所述的操作还可以包括:
67.响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第一类边界标记。
68.在本实施例中,存在一种情况:非命名实体的字符或单词只占据一个令牌的长度,因此该非命名实体对应的第二类标签只有一个。若此时该非命名实体的前后都是命名实体,则需要将该非命名实体对应的第二类标签更改为所述第一类边界标记,以作为后面的命名实体的前边界的标记。
69.在另外一些实施例中,对于前述实施例中所述的将该第二类标签更改为第一类边界标记包括:
70.获取该第二类标签的后一标签中包含的第一实体类型标识符;
71.将该第二类标签更改为包含所述第一实体类型标识符的所述第一类边界标记,
72.所述将该第二类标签更改为第二类边界标记包括:
73.获取该第二类标签的前一标签中包含的第二实体类型标识符;
74.将该第二类标签更改为包含所述第二实体类型标识符的所述第二类边界标记。
75.在本实施例中,标签可以表示字符或单词的两个方面的信息,包括两个部分:表示对应的字符或单词是否为命名实体的第一类标签和第二类标签;表示对应的字符或单词为何种类型的实体类型标识符,用于表示人名、机构名、地名等类型信息。在本实施例中,将用于表示命名实体边界信息的第一类边界标记和第二类边界标记也赋予其作为边界标记对应的实体类型标识符,使得命名实体的区分度进一步提高,从而命名实体识别的结果更加准确。
76.在另外一些实施例中,对于前述实施例中所述的响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第二类边界标记,包括:
77.获取该第二类标签的前一标签中包含的第三实体类型标识符;
78.将该第二类标签更改为包含所述第三实体类型标识符的所述第二类边界标记。
79.作为一个具体的示例,参考表1,命名实体可以是某个身体器官,也可以是某种疾病。将本实施例中的标注方案称为bio+es,将第一类边界标记设为o-,第二类边界标记设为o+,单个字符的命名实体的第一类标签设为s,多个字符的命名实体的第一类标签开始符号设为b,中间符号设为i,结束符号设为e,第二类标签设为o,身体器官的实体类型标识符设为bod,疾病的实体类型标识符设为dis,对“早产儿肾功能尚不成熟,葡萄糖肾阈较低,易出现糖尿。”进行标注。
80.表1
81.token早产儿肾功能尚不成熟,葡萄糖肾阈较低,易出现糖尿。标注ooo-bods-bodo+bodoooooo-bodb-bodi-bode-bods-bodo+bodoooooo-disb-dise-diso+dis
82.在另外一些实施例中,对于前述实施例中所述的响应于确定该第二类标签的前一标签和后一标签都属于所述第一类标签,将该第二类标签更改为所述第一类边界标记,包括:
83.获取该第二类标签的后一标签中包含的第四实体类型标识符;
84.将该第二类标签更改为包含所述第四实体类型标识符的所述第一类边界标记。
85.在另外一些实施例中,对于前述实施例中所述的方法中的命名实体识别模型包括预训练语言模型和标签解码器;
86.识别出所述自然语言文本中的所述第一类令牌和所述第二类令牌以将所述自然语言文本转换成所述令牌序列包括:通过所述预训练语言模型,将所述自然语言文本转换为令牌表示,并识别出所述令牌表示中的所述第一类令牌和所述第二类令牌,以得到所述令牌序列;
87.按照从前到后的顺序对所述令牌序列进行标注包括:通过所述标签解码器,按照从前到后的顺序对所述令牌序列进行标注。
88.在本实施例中,字符表示包括汉字的嵌入和其他有效表示,是中文的基本单位。在自然语言处理中,汉字通常被视为英文单词,每个汉字都被视为一个令牌。字符表示的功能是将标记映射到一个连续的空间中,以方便后续的计算。一般来说,在进行各种机器学习算法之前,我们需要对输入进行向量化。独热编码用一个很长的向量表示每个令牌,向量的长度就是字典的大小。在独热向量空间中,两个不同的字符具有正交表示,不能反映令牌之间的语义关系。分布式表示可以克服独热表示的缺点。分布式表示的基本思想是通过训练将每个令牌映射成一个固定长度的短向量。所有这些向量构成一个向量空间,空间的每一维代表一个潜在特征,那么每个令牌可以看作是空间中的一个点。分布式表示是从文本中自动学习的,它可以自动捕获标记的语义和句法属性,从而使输入的字符在命名实体识别中经常转化为分布式表示。因此在命名实体识别中,将输入字符转换为分布式表示形式,以便在命名实体识别中进行学习和训练。
89.预训练语言模型也被称为动态的上下文相关的嵌入,在本实施例中,预训练语言模型可以是elmo,gpt,bert,ernie,albert,nezha等,通过这些模型产生的字符表示是上下文相关的,会随上下文而变化。对于给定的字符,bert使用其字符位置向量、句子位置向量及字符向量相加作为输入,使用掩码语言模型(maskedlanguage model)来对输入进行深度双向表示的预训练,从而得到鲁棒的上下文相关的字符表示。
90.在一些实施例中,预训练语言模型对于引入附加信息的自然语言文本的上下文相关性并不能很好的识别,此时可以通过上下文编码器进一步分析句子中字符的位置和不同字符之间的依赖关系,对输入的表示进行编码,为每个字符得到其在当前句子中的表示。
91.在本实施例中,上下文编码器可以是基于循环的神经网络模型,也可以是transformer编码器。循环神经网络(recurrentneural network,rnn)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。循环神经网络设计了一个不随序列数据长度和位置而变化的参数共享的循环结构,每个循环单元当前时间步的状态由该时间步的输入和上一个时间步的状态决定。它的权重系数是共享的,即在一次迭代中,循环节点使用相同的权重系数处理所有的时间步。相比于前馈神经网络,权重共享降低了rnn的总参数量。权重共享也意为着rnn可以提取序列中随时间变化的特征,因此其在学习和测试序列具有不同长度时可表现出泛化能力。由于梯度消失问题,原始的rnn将更多的权重赋予最近的节点,无法学习到长距离依赖。因此产生了门控循环网络,其设想是通过门控单元赋予rnn控制其内部信息积累的能力,在学习时既能掌握长距离依赖又能选择性地遗忘信息防止过载。主流的门控循环网络有门控循环单元(gru)和长短时记忆网络(lstm)。
92.基于循环的神经网络模型通常是对输入和输出序列按顺序进行计算,它们根据前一步的隐藏状态和输入产生位置的隐藏状态序列。这种固有的顺序特性阻碍样本训练的并行化,这在更长的序列长度上变得至关重要,因为有限的内存限制样本的批次大小。
93.在本实施例中,上下文编码器其实是可以嵌套的,实际上bert等本身就具备上下文编码信息,但大部分仍然会在其后增加ltsm结构的上下文编码器,只是在这种情况下增加上下文编码器带来的效果提升不明显。但是对于引入的附加信息,其本身不具有上下文
相关信息,这就需要编码器来捕获其上下文信息。
94.在另外一些实施例中,标签解码器可以是条件随机场crf模型。
95.在本实施例中,标签解码器是命名实体识别模型的最后阶段。它以上下文相关的表示形式作为输入,并生成与输入自然语言文本相对应的标签序列,即目标标签序列。目前主要有两种实现形式。(1)mlp+softmax。把序列标记任务将转换为多类分类问题,在得到每个词的表示后,直接用一个线性层来得到该词所对应的各个标签的分数。这种结构中每个令牌的标签是根据解码器得到的其上下文相关表示独立预测的,而不考虑其周边的令牌。(2)条件随机场(conditional random field,crf),它可以建模标签序列内部的依赖,比如在bioes标注方案中,b后面只能接i或者e,而不能接s。条件随机场能够在训练的时候逐渐学会这种标签间的依赖,从而避免一些错误发生。在本技术中,使用crf作为解码器。
96.条件随机场是给定随机变量x条件下,随机变量y的马尔可夫随机场。序列标注问题中主要用的是线性链条件随机场,这时在条件随机场模型p(y|x),中,y是输出变量,表示标记序列,x是输入变量,表示需要标注的观察序列。学习时,利用训练数据通过极大似然估计或者正则化的极大似然估计得到条件概率模型p’(y|x);预测时,对于给定的输入序列x,求出条件概率p’(y|x)最大的输出y。条件随机场的概率计算问题是给定条件随机场p(y|x),输入序列x和输出序列y,计算条件概率p(yi=yi|x),p(y
i-1=y
i-1,yi|xi)以及相应的数学期望的问题。条件随机场的预测问题是给定条件随机场p(y|x)和输入序列(观察序列)x,求条件概率最大的输出序列(标记序列)y*,即对观测序列进行标注。条件随机场的预测算法是著名的维特比算法,应用动态规划高效的求解最优路径,即概率最大的目标标签序列。
97.可见,本实施例中通过预训练语言模型得到令牌序列的分布式表示。之后通过上下文编码器使用循环神经网络、transformer模型或其他网络来捕获字符之间的上下文相关性。进一步的通过标签解码器用编码后的上下文信息来预测令牌的标签,即得到目标标签序列。
98.下面给出本技术实施例的一个具体应用场景,表2展示了本技术中bio+es标注方案与其他相关标注方案的区别。同样,以“早产儿肾功能尚不成熟,葡萄糖肾阈较低,易出现糖尿。”为例。
99.表2
100.tokenioiobbioioe1ioe2bioe1bioe2biosbioesbio+es早oooooooooo产oooooooooo儿oooooooooo-bod肾i-bodi-bodb-bodi-bode-bodb-bode-bods-bods-bods-bod功oooooooooo+bod能oooooooooo尚oooooooooo不oooooooooo成oooooooooo熟oooooooooo,oooooooooo-bod
葡i-bodi-bodb-bodi-bodi-bodb-bodb-bodb-bodb-bodb-bod葡i-bodi-bodi-bodi-bodi-bodi-bodi-bodi-bodi-bodi-bod糖i-bodi-bodi-bode-bode-bode-bode-bodi-bode-bode-bod肾i-bodb-bodb-bodi-bode-bodb-bode-bods-bods-bods-bod阈oooooooooo+bod较oooooooooo低oooooooooo,oooooooooo易oooooooooo出oooooooooo现oooooooooo-dis糖i-disi-disb-disi-disi-disb-disb-disb-disb-disb-dis尿i-disi-disi-disi-dise-dise-dise-disi-dise-dise-dis。oooooooooo+dis
101.在本实施例中,分析了三个基准中文命名实体识别数据集,包括:msra、weibo和resume。表3分别表示了本技术的使用bio+es的命名实体识别方法和使用bioes的命名实体识别方法在通过bert/ernie两个预训练语言模型和使用crf作为编码器时对数据集中目标文本的识别效果。识别效果通过将f1分数转换为百分制展示。作为一个多分类任务,命名实体识别转化的序列标注任务通常采用精确匹配的f分数中的宏平均f1分数和微平均f1分数作为评价指标。f分数是统计学中用来衡量分类模型准确性的指标。对于不平衡的样本分布,仅仅用精度来衡量模型的质量是不够的。f分数综合考虑分类模型的准确率和召回率,得到它们的加权调和平均。f分数介于0和1之间,分数越高表示性能越好。
102.表3
[0103] msraweiboresumebert+crf(bioes)95.7272.2895.78bert+crf(bio+es)95.9372.4695.99ernie+crf(bioes)95.9371.8396.77ernie+crf(bio+es)96.o172.9796.92
[0104]
从表中可以看出,本技术实施例的命名实体提取方法在f分数上高于相关方法,因此本技术实施例所提出的bio+es标注方案在大多数情况下比其他方案表现更好。这表明本技术的使用bio+es标注方案的命名实体提取方法是一种更具表现力的方案。
[0105]
需要说明的是,本技术实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本技术实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
[0106]
需要说明的是,上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理
和并行处理也是可以的或者可能是有利的。
[0107]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种命名实体提取装置。
[0108]
参考图2,所述命名实体提取装置,包括:
[0109]
标注模块201,用于通过命名实体识别模型,识别出自然语言文本中属于命名实体的第一类令牌以及不属于命名实体的第二类令牌,以将所述自然语言文本转换成令牌序列,并按照从前到后的顺序对所述令牌序列进行标注以得到目标标签序列;
[0110]
提取模块202,用于根据所述目标标签序列,从所述令牌序列中提取每个命名实体,
[0111]
其中,所述标注模块被配置成:
[0112]
按照从前到后的顺序给所述令牌序列中的所述第一类令牌和所述第二类令牌分别打上第一类标签和第二类标签,以得到初始标签序列;
[0113]
对于所述初始标签序列中的每一个所述第二类标签,执行下列操作,以得到所述目标标签序列:
[0114]
响应于确定该第二类标签的前一标签不存在或不属于所述第一类标签,而该第二类标签的后一标签属于所述第一类标签,将该第二类标签更改为第一类边界标记;
[0115]
响应于确定该第二类标签的前一标签属于所述第一类标签,而该第二类标签的后一标签不存在或不属于所述第一类标签,将该第二类标签更改为第二类边界标记。
[0116]
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0117]
上述实施例的装置用于实现前述任一实施例中相应的命名实体识别方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0118]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的命名实体提取方法。
[0119]
图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0120]
处理器1010可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
[0121]
存储器1020可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
[0122]
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中
输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0123]
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0124]
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0125]
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0126]
上述实施例的电子设备用于实现前述任一实施例中相应的命名实体提取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0127]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的命名实体提取方法。
[0128]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0129]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的命名实体提取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0130]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本技术的范围(包括权利要求)被限于这些例子;在本技术的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本技术实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0131]
另外,为简化说明和讨论,并且为了不会使本技术实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本技术实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本技术的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0132]
尽管已经结合了本技术的具体实施例对本技术进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例
如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
[0133]
本技术实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本技术实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1