文本数据的标注方法和装置、电子设备和存储介质与流程

文档序号:25310286发布日期:2021-06-04 15:30阅读:102来源:国知局
文本数据的标注方法和装置、电子设备和存储介质与流程

1.本申请涉及数据处理领域,尤其涉及一种文本数据的标注方法和装置、电子设备和存储介质。


背景技术:

2.随着自然语言技术的盛行,文本/短文本作为自然语言处理中最主要的数据来源,需要事先对文本/短文本进行数据标注,利用标注后的数据来保证后续数据应用的准确性,因此,当下对数据标注的需求愈加强烈。
3.在现有的数据标注方式中,主要是依靠人工完成的,但是面对呈现指数级增加的数据,传统的依靠人工标注存在效率低的问题,导致人工标注已经不能满足日益高涨的数据需求。
4.因此,相关技术中存在人工标注效率低的问题。


技术实现要素:

5.本申请提供了一种文本数据的标注方法和装置、电子设备和存储介质,以至少解决相关技术中存在人工标注效率低的问题。
6.根据本申请实施例的一个方面,提供了一种文本数据的标注方法,该方法包括:
7.获取待标注的目标文本;
8.将所述目标文本输入目标数据标注模型,确定所述目标文本的文本标注,其中,所述目标数据标注模型是使用文本编码、知识编码和训练文本对初始数据标注模型的参数进行调整得到的,所述训练文本携带有第一文本标注,所述文本编码是对训练文本进行编码得到的,所述知识编码是对训练文本的知识信息进行编码得到的。
9.可选地,在所述获取待标注文本数据之前,所述方法还包括:
10.获取所述训练文本;
11.利用实体链接和实体知识库对所述训练文本进行处理,得到概念实体数据;
12.利用目标词处理方案和目标网络模型对所述训练文本进行处理,得到所述文本编码;
13.利用目标词处理方案和目标网络模型对所述概念实体数据进行处理,得到所述知识编码。
14.可选地,所述利用实体链接和实体知识库对所述训练文本进行处理,得到概念实体数据包括:
15.利用所述实体链接对所述训练文本进行实体链接操作,确定所述训练文本的实体数据集,其中,所述实体链接操作用于将所述训练文本映射到所述实体知识库的实体上;
16.利用所述实体知识库对所述实体数据集进行概念化操作,得到所述概念实体数据,其中,所述概念化操作用于获取所述实体的属性。
17.可选地,所述利用目标词处理方案和目标网络模型对所述训练文本进行处理,得
到所述文本编码包括:
18.利用所述目标词处理方案将所述训练文本映射为第一数字向量,其中,所述目标词处理方案用于将词语数据转换为数字向量;
19.将所述第一数字向量输入第一网络模型,得到语义编码,其中,所述目标网络模型包括所述第一网络模型,所述第一网络模型用于获取所述语义编码;
20.将所述语义编码输入第二网络模型,得到所述文本编码,其中,所述目标网络模型包括所述第二网络模型,所述第二网络模型用于获取所述文本编码。
21.可选地,所述利用目标词处理方案和目标网络模型对所述概念实体数据进行处理,得到所述知识编码包括:
22.利用所述目标词处理方案将所述概念实体数据映射为第二数字向量;
23.将所述第二数字向量输入所述第一网络模型,得到语义编码数据;
24.将所述语义编码数据输入所述第二网络模型,得到所述知识编码。
25.可选地,在所述将所述目标文本输入目标数据标注模型,确定所述目标文本的文本标注之前,所述方法还包括:
26.根据所述文本编码和所述知识编码,确定子概念实体数据,其中,所述概念实体数据包括所述子概念实体数据;
27.将所述训练文本和所述子概念实体数据输入全连接网络层,得到所述训练文本的第二文本标注;
28.根据所述第二文本标注、所述第一文本标注以及输入初始数据标注模型的训练文本,调整所述初始数据标注模型的参数,得到所述目标数据标注模型。
29.可选地,所述根据所述文本编码和所述知识编码,确定子概念实体数据包括:
30.将所述文本编码和所述知识编码进行融合,得到融合后的编码数据;
31.将所述融合后的编码数据输入第三网络模型,得到所述训练文本属于每个所述概念实体数据的概率,其中,所述第三网络模型用于获取所述训练文本属于概念实体数据的概率;
32.将概率数值最大的概念实体数据,确定为所述子概念实体数据。
33.根据本申请实施例的另一个方面,提供了一种文本数据的标注装置,该装置包括:
34.第一获取单元,用于获取待标注的目标文本;
35.第一确定单元,用于将所述目标文本输入目标数据标注模型,确定所述目标文本的文本标注,其中,所述目标数据标注模型是使用文本编码、知识编码和训练文本对初始数据标注模型的参数进行调整得到的,所述训练文本携带有第一文本标注,所述文本编码是对训练文本进行编码得到的,所述知识编码是对训练文本的知识信息进行编码得到的。
36.可选地,该装置还包括:
37.第二获取单元,用于在所述获取待标注文本数据之前,获取所述训练文本;
38.第一处理单元,用于利用实体链接和实体知识库对所述训练文本进行处理,得到概念实体数据;
39.第二处理单元,用于利用目标词处理方案和目标网络模型对所述训练文本进行处理,得到所述文本编码;
40.第三处理单元,用于利用目标词处理方案和目标网络模型对所述概念实体数据进
行处理,得到所述知识编码。
41.可选地,第一处理单元包括:
42.实体链接操作模块,用于利用所述实体链接对所述训练文本进行实体链接操作,确定所述训练文本的实体数据集;
43.概念化操作模块,用于利用所述实体知识库对所述实体数据集进行概念化操作,得到所述概念实体数据。
44.可选地,第二处理单元包括:
45.第一映射模块,用于利用所述目标词处理方案将所述训练文本映射为第一数字向量,其中,所述目标词处理方案用于将词语数据转换为数字向量;
46.第一得到模块,用于将所述第一数字向量输入第一网络模型,得到语义编码,其中,所述目标网络模型包括所述第一网络模型,所述第一网络模型用于获取所述语义编码;
47.第二得到模块,用于将所述语义编码输入第二网络模型,得到所述文本编码,其中,所述目标网络模型包括所述第二网络模型,所述第二网络模型用于获取所述文本编码。
48.可选地,第三处理单元包括:
49.第二映射模块,用于利用所述目标词处理方案将所述概念实体数据映射为第二数字向量;
50.第三得到模块,用于将所述第二数字向量输入所述第一网络模型,得到语义编码数据;
51.第四得到模块,用于将所述语义编码数据输入所述第二网络模型,得到所述知识编码。
52.可选地,该装置还包括:
53.第二确定单元,用于在所述将所述目标文本输入目标数据标注模型,确定所述目标文本的文本标注之前,根据所述文本编码和所述知识编码,确定子概念实体数据,其中,所述概念实体数据包括所述子概念实体数据;
54.输入单元,用于将所述训练文本和所述子概念实体数据输入全连接网络层,得到所述训练文本的第二文本标注;
55.调整单元,用于根据所述第二文本标注、所述第一文本标注以及输入初始数据标注模型的训练文本,调整所述初始数据标注模型的参数,得到所述目标数据标注模型。
56.可选地,第二确定单元包括:
57.融合模块,用于将所述文本编码和所述知识编码进行融合,得到融合后的编码数据;
58.输入模块,用于将所述融合后的编码数据输入第三网络模型,得到所述训练文本属于每个所述概念实体数据的概率,其中,所述第三网络模型用于获取所述训练文本属于概念实体数据的概率;
59.确定模块,用于将概率数值最大的概念实体数据,确定为所述子概念实体数据。
60.根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的文本数据的标注方法步骤。
61.根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的文本数据的标注方法步骤。
62.在本申请实施例中,采用将获取的待标注的目标文本输入训练好的目标数据标注模型的方式,通过目标数据标注模型输出待标注的目标文本的文本标注,由于本申请实施例利用目标数据标注模型实现对目标文本进行数据的标注,从而可以达到快速,便捷地获取目标文本的文本标注的目的,进而解决了相关技术中存在的人工标注效率低的问题。
附图说明
63.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
64.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
65.图1是根据本发明实施例的一种可选的文本数据的标注方法的硬件环境的示意图;
66.图2是根据本申请实施例的一种可选的文本数据的标注方法的流程示意图;
67.图3是根据本申请实施例的一种可选的文本数据的标注方法的整体流程示意图;
68.图4是根据本申请实施例的一种可选的文本数据的标注装置的结构框图;
69.图5是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
70.为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
71.需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
72.在现有的数据标注任务中,主要依靠人力或者专门的数据标注公司完成。其主要形式可以表示为表1的形式:
73.表1
74.序号内容标签(标注)1短文本1标签2
2短文本2标签33短文本3标签4
………
75.在表1中展示了具体的标注样例,对短文本1对应的标注为标签2类别,以此类推,最后完成对所有短文本数据的标注过程。
76.但是人工进行数据标注会出现效率低下的问题。为了解决上述问题,本申请实施例提供一种文本数据的标注方法。可选地,在本申请实施例中,上述文本数据的标注方法可以应用于如图1所示的硬件环境中。如图1所示,终端102中可以包含有存储器104、处理器106和显示器108(可选部件)。终端102可以通过网络110与服务器112进行通信连接,该服务器112可用于为终端或终端上安装的客户端提供服务,可在服务器112上或独立于服务器112设置数据库114,用于为服务器112提供数据存储服务。此外,服务器112中可以运行有处理引擎116,该处理引擎116可以用于执行由服务器112所执行的步骤。
77.可选地,终端102可以但不限于为可以计算数据的终端,如移动终端(例如手机、平板电脑)、笔记本电脑、pc(personal computer,个人计算机)机等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、wifi(wireless fidelity,无线保真)及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。
78.此外,在本申请实施例中,上述文本数据的标注方法还可以但不限于应用于处理能力较强大的独立的处理设备中,而无需进行数据交互。例如,该处理设备可以但不限于为处理能力较强大的终端设备,即,上述文本数据的标注方法中的各个操作可以集成在一个独立的处理设备中。上述仅是一种示例,本实施例中对此不作任何限定。
79.可选地,在本申请实施例中,上述文本数据的标注方法可以由服务器112来执行,也可以由终端102来执行,还可以是由服务器112和终端102共同执行。其中,终端102执行本申请实施例的文本数据的标注方法也可以是由安装在其上的客户端来执行。
80.以运行在服务器为例,图2是根据本申请实施例的一种可选的文本数据的标注方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
81.步骤s201,获取待标注的目标文本;
82.步骤s202,将目标文本输入目标数据标注模型,确定目标文本的文本标注,其中,目标数据标注模型是使用文本编码、知识编码和训练文本对初始数据标注模型的参数进行调整得到的,训练文本携带有第一文本标注,文本编码是对训练文本进行编码得到的,知识编码是对训练文本的知识信息进行编码得到的。
83.可选地,本申请实施例获取需要进行数据标注的目标文本,然后将该目标文本输入训练好的目标数据标注模型里,目标数据标注模型输出目标文本对应的文本数据标注。
84.本申请实施例中的目标数据标注模型是使用文本编码、知识编码和训练文本对初始数据标注模型的参数进行调整得到的,其中,训练文本携带有第一文本标注,该第一文本标注是用于表征训练文本的标注信息的,比如,训练文本的第一文本标注为企业家等。文本编码是对训练文本进行文本编码得到的,知识编码是对训练文本的知识信息进行编码得到的。
85.在本申请实施例中,采用将获取的待标注的目标文本输入训练好的目标数据标注
模型的方式,通过目标数据标注模型输出待标注的目标文本的文本标注,由于本申请实施例利用目标数据标注模型实现对目标文本进行数据的标注,从而可以达到快速,便捷地获取目标文本的文本标注的目的,进而解决了相关技术中存在的人工标注效率低的问题。
86.作为一种可选的实施例,在获取待标注文本数据之前,方法还包括:
87.获取训练文本;
88.利用实体链接和实体知识库对训练文本进行处理,得到概念实体数据;
89.利用目标词处理方案和目标网络模型对训练文本进行处理,得到文本编码;
90.利用目标词处理方案和目标网络模型对概念实体数据进行处理,得到知识编码。
91.可选地,获取到建立初始数据标注模型的训练文本,再利用实体链接和现有的实体知识库对训练文本进行处理,得到概念实体数据。其中,现有的实体知识库,比如,yago,probase等。
92.利用目标词处理方案(比如词嵌入算法)和目标网络模型(比如,神经网络模型),对该训练样本进行词语文本的处理,得到文本编码;利用目标词处理方案(比如词嵌入算法)和目标网络模型(比如,神经网络模型)对概念实体数据进行处理,得到知识编码。
93.本申请实施例利用历史标注数据,比如训练文本,作为训练初始数据标注模型的数据,提高了历史标注数据的利用率。
94.作为一种可选的实施例,利用实体链接和实体知识库对训练文本进行处理,得到概念实体数据包括:
95.利用实体链接对训练文本进行实体链接操作,确定训练文本的实体数据集,其中,实体链接操作用于将训练文本映射到实体知识库的实体上;
96.利用实体知识库对实体数据集进行概念化操作,得到概念实体数据,其中,概念化操作用于获取实体的属性。
97.可选地,利用实体链接技术,先对训练文本进行实体链接操作,得到训练文本的实体数据集合,可以理解的是,实体链接操作用于将训练文本中某些字符串映射到实体知识库中对应的实体上,例如,通过实体链接得到实体数据集为e={aaa};
98.利用实体知识库对实体数据集进行概念化操作,得到属于上述实体数据集中的实体的属性,将该实体的属性确定为概念实体数据,比如,将实体“aaa”概念化得到其对应的概念实体数据c={人,企业家,ceo})。
99.作为一种可选的实施例,利用目标词处理方案和目标网络模型对训练文本进行处理,得到文本编码包括:
100.利用目标词处理方案将训练文本映射为第一数字向量,其中,目标词处理方案用于将词语数据转换为数字向量;
101.将第一数字向量输入第一网络模型,得到语义编码,其中,目标网络模型包括第一网络模型,第一网络模型用于获取语义编码;
102.将语义编码输入第二网络模型,得到文本编码,其中,目标网络模型包括第二网络模型,第二网络模型用于获取文本编码。
103.可选地,本申请实施例涉及的目标词处理方案,是用于将词语数据转换为数字向量的,因此利用目标词处理方案将训练文本映射为第一数字向量,考虑到短文本语义信息的完整性,再将第一数字向量输入第一网络模型中,这里的第一数字向量可以是高维向量,
第一网络模型可以为神经网络模型。
104.第一网络模型主要完成对输入的第一数字向量进行处理,得到语义编码;在将语义编码输入第二网络模型,得到最终的训练文本的编码表示形式,即文本编码。其中,第二网络模型可以是自注意力机制模型等。
105.作为一种可选的实施例,利用目标词处理方案和目标网络模型对概念实体数据进行处理,得到知识编码包括:
106.利用目标词处理方案将概念实体数据映射为第二数字向量;
107.将第二数字向量输入第一网络模型,得到语义编码数据;
108.将语义编码数据输入第二网络模型,得到知识编码。
109.可选地,利用目标词处理方案将概念实体数据映射为第二数字向量,然后将第二数字向量输入第一网络模型,得到概念表示的语义编码数据。其中,第二数字向量也可以是高维向量。
110.考虑到概念表示的语义编码数据存在语义歧义性和文本内容概念的相对重要性问题,其中,语义编码数据存在语义歧义性是指存在歧义的内容,例如,在文本“他使用苹果手机已经十年了”中的“苹果”,可以对应检索到“水果”和“苹果手机”,显然,获取的“水果”并不适合该训练文本的概念。
111.文本内容概念的相对重要性问题是指,不同的文本概念重要性权重不相同,例如,在文本“aaa是苹果公司的ceo”中的“aaa”,可以对应检索到“人”和“企业家”,显然,“企业家”对于文本标注的重要性更强。因此,语义编码后可以预先进行歧义性和重要性的筛选。
112.之后将筛选后的语义编码输入到第二网络模型中进一步地编码,通过神经网络的迭代更新,得到最终的知识编码。
113.作为一种可选的实施例,在将目标文本输入目标数据标注模型,确定目标文本的文本标注之前,方法还包括:
114.根据文本编码和知识编码,确定子概念实体数据,其中,概念实体数据包括子概念实体数据;
115.将训练文本和子概念实体数据输入全连接网络层,得到训练文本的第二文本标注;
116.根据第二文本标注、第一文本标注以及输入初始数据标注模型的训练文本,调整初始数据标注模型的参数,得到目标数据标注模型。
117.可选地,根据获取的文本编码和知识编码,得到概念实体数据中的一个子集,作为子概念实体数据;
118.在将训练文本和子概念实体数据输入全连接网络层中进行融合,输出该训练文本的第二文本标注。其中,该第二文本标注也是用于表征训练文本的数据标注信息的。
119.然后将获取的第二文本标注和该训练文本事先确定好的第一文本标注进行比较,如果第一文本标注和第二文本标注不相同,则对初始数据标注模型的参数进行调整,之后再用训练文本输入调整后的初始数据标注模型,得到输出的第三文本标注,再根据输出的第三文本标注与测试文本事先确定好的第四文本标注进行比较,如果第三文本标注和第四文本标注不相同,则对调整后的初始数据标注模型接着进行参数的调整,直到输出的第三文本标注与第四文本标注的相似度大于预设阈值,然后将最终调整好的初始数据标注模型
确定为训练好的目标数据标注模型。
120.作为一种可选的实施例,根据文本编码和知识编码,确定子概念实体数据包括:
121.将文本编码和知识编码进行融合,得到融合后的编码数据;
122.将融合后的编码数据输入第三网络模型,得到训练文本属于每个概念实体数据的概率,其中,第三网络模型用于获取训练文本属于概念实体数据的概率;
123.将概率数值最大的概念实体数据,确定为子概念实体数据。
124.可选地,将得到的文本编码(可以用a表示)和知识编码(可以用b表示)进行融合,得到融合后的编码数据c,其中c=ra+(1

a)b,r可以是人工自定义的任意数值,表示重要性权重。
125.将编码数据c输入第三网络模型,得到训练文本属于每个概念实体数据的概率,其中,第三网络模型可以是多层感知机网络模型,训练文本属于每个概念实体数据的概率通常是小数数值,比如,训练样本属于概念实体数据“苹果水果”的概率为0.2,属于概念实体数据“苹果手机”的概率为0.8。
126.在本申请实施例中,直接将融合后的编码数据输入第三网络模型中,得到训练文本属于每个概念实体数据的概率,根据每个概念实体数据的概率确定出训练样本对应的子概念实体数据,相比相关技术节省了时间成本和金钱成本。
127.将上述得到的多个概率进行数值大小的比较,将数值最大对应的概念实体数据确定为子概念实体数据。
128.作为一种可选实施例,如图3所示,图3是根据本申请实施例的一种可选的文本数据的标注方法的整体流程示意图,具体流程如下:
129.将历史标注源数据的训练数据输入第一网络模型,得到语义编码;
130.将语义编码输入第二网络模型,得到文本编码;
131.利用实体链接对训练数据进行实体链接操作,得到实体数据集;
132.利用实体知识库对实体数据集进行概念化操作,得到概念实体数据;
133.将概念实体数据输入第一网络模型,得到语义编码数据;
134.将语义编码数据输入第二网络模型,得到知识编码;
135.将文本编码和知识编码进行融合,得到融合后的编码数据;
136.将融合后的编码数据和概念实体数据进行融合,得到文本标注;
137.根据文本标注和历史标注源数据的测试数据,对初始数据标注模型的参数进行调整,得到目标数据标注模型;
138.将待标注源数据输入目标数据标注模型,得到标注结果。
139.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom(read

only memory,只读存储器)/ram(random access memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
140.根据本申请实施例的另一个方面,还提供了一种用于实施上述文本数据的标注方
法的文本数据的标注装置。图4是根据本申请实施例的一种可选的文本数据的标注装置的结构框图,如图4所示,该装置可以包括:
141.第一获取单元401,用于获取待标注的目标文本;
142.第一确定单元402,用于将目标文本输入目标数据标注模型,确定目标文本的文本标注,其中,目标数据标注模型是使用文本编码、知识编码和训练文本对初始数据标注模型的参数进行调整得到的,训练文本携带有第一文本标注,文本编码是对训练文本进行编码得到的,知识编码是对训练文本的知识信息进行编码得到的。
143.通过上述模块,采用将获取的待标注的目标文本输入训练好的目标数据标注模型的方式,通过目标数据标注模型输出待标注的目标文本的文本标注,由于本申请实施例利用目标数据标注模型实现对目标文本进行数据的标注,从而可以达到快速,便捷地获取目标文本的文本标注的目的,进而解决了相关技术中存在的人工标注效率低的问题。
144.作为一种可选的实施例,该装置还包括:
145.第二获取单元,用于在获取待标注文本数据之前,获取训练文本;
146.第一处理单元,用于利用实体链接和实体知识库对训练文本进行处理,得到概念实体数据;
147.第二处理单元,用于利用目标词处理方案和目标网络模型对训练文本进行处理,得到文本编码;
148.第三处理单元,用于利用目标词处理方案和目标网络模型对概念实体数据进行处理,得到知识编码。
149.作为一种可选的实施例,第一处理单元包括:
150.实体链接操作模块,用于利用实体链接对训练文本进行实体链接操作,确定训练文本的实体数据集;
151.概念化操作模块,用于利用实体知识库对实体数据集进行概念化操作,得到概念实体数据。
152.作为一种可选的实施例,第二处理单元包括:
153.第一映射模块,用于利用目标词处理方案将训练文本映射为第一数字向量,其中,目标词处理方案用于将词语数据转换为数字向量;
154.第一得到模块,用于将第一数字向量输入第一网络模型,得到语义编码,其中,目标网络模型包括第一网络模型,第一网络模型用于获取语义编码;
155.第二得到模块,用于将语义编码输入第二网络模型,得到文本编码,其中,目标网络模型包括第二网络模型,第二网络模型用于获取文本编码。
156.作为一种可选的实施例,第三处理单元包括:
157.第二映射模块,用于利用目标词处理方案将概念实体数据映射为第二数字向量;
158.第三得到模块,用于将第二数字向量输入第一网络模型,得到语义编码数据;
159.第四得到模块,用于将语义编码数据输入第二网络模型,得到知识编码。
160.作为一种可选的实施例,该装置还包括:
161.第二确定单元,用于在将目标文本输入目标数据标注模型,确定目标文本的文本标注之前,根据文本编码和知识编码,确定子概念实体数据,其中,概念实体数据包括子概念实体数据;
circuit,专用集成电路)、fpga(field-programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
180.此外,上述电子设备还包括:显示器,用于显示文本数据的标注结果。
181.可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
182.本领域普通技术人员可以理解,图5所示的结构仅为示意,实施上述文本数据的标注方法的设备可以是终端设备,该终端设备可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图5其并不对上述电子设备的结构造成限定。例如,终端设备还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示的不同的配置。
183.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、rom、ram、磁盘或光盘等。
184.根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行文本数据的标注方法的程序代码。
185.可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
186.可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
187.s1,获取待标注的目标文本;
188.s2,将所述目标文本输入目标数据标注模型,确定所述目标文本的文本标注,其中,所述目标数据标注模型是使用文本编码、知识编码和训练文本对初始数据标注模型的参数进行调整得到的,所述训练文本携带有第一文本标注,所述文本编码是对训练文本进行编码得到的,所述知识编码是对训练文本的知识信息进行编码得到的。
189.可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
190.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、rom、ram、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
191.根据本申请实施例的又一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一个实施例中的文本数据的标注方法步骤。
192.上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
193.上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例文本数据的标注方法的全部或部分步骤。
194.在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有
详述的部分,可以参见其他实施例的相关描述。
195.在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
196.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
197.另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
198.以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1