文本的数据标注方法和装置、存储介质及电子装置与流程

文档序号:22737402发布日期:2020-10-31 09:17阅读:126来源:国知局
文本的数据标注方法和装置、存储介质及电子装置与流程

本发明涉及数据处理领域,具体而言,涉及一种文本的数据标注方法和装置、存储介质及电子装置。



背景技术:

自然语言处理中,需要大量的标注数据,一般情况下,数据标注的准确率在90%以上就可以被模型所使用,但是对于某些问题,比如家电行业,需要保证模型的稳定性,对于已有数据必须保证100%的准确率。但是人为标注的数据依然还有将近10%的错误率,对于这些错误的标注,仍需后期投入人力物力资源进行材料的校对与更正工作,再次进行审核标注,显然,在挑选这些错误数据时需要耗费大量的时间,占用很多人力资源。

现有技术运用传统的语言处理算法进行自然语言的标注校验分析处理。

在逐层处理的串行处理过程中,完整的自然语言按从广泛到精确的逻辑顺序进行解析。这类方案的一个明显缺陷就是错误的积累:由上层产生的错误没有被及时抽离,而是作为输入进入到下一层继续进行识别处理,识别的结果从上层继承到下一层,造成了大量不必要的检测、识别工作,带来一定量的资源浪费。

在分层分别处理的并行处理过程中,每一层有各自的识别单位和标准,层次之间的识别互不影响,有效解决了错误传播的问题。但这种脱离了层次间关联的识别方法破坏了自然语言所具有的强逻辑性,可能出现不同领域的分析方法拆解同一句话的情况,分析结果可能不尽如人意。

针对上述的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供了一种文本的数据标注方法和装置、存储介质及电子装置,以至少解决现有技术中,对文本进行数据标注的准确性较低的技术问题。

根据本发明实施例的一个方面,提供了一种文本的数据标注方法,包括:获取待标注的文本,其中,所述文本中至少包括一个待标注的目标对象;通过层次化的逐层串行的第一处理方式对所述文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对所述文本标注数据,得到第二标注数据;根据预设规则对所述第一标注数据和所述第二标注数据存在差异的部分进行标注,得到第三标注数据,对所述第一标注数据和所述第二标注数据相同的部分进行标注,得到第四标注数据;将所述第三标注数据与所述第四标注数据确定为所文本的标注数据。

根据本发明实施例的另一方面,还提供了一种文本的数据标注装置,包括:获取单元,用于获取待标注的文本,其中,所述文本中至少包括一个待标注的目标对象;第一标注单元,用于通过层次化的逐层串行的第一处理方式对所述文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对所述文本标注数据,得到第二标注数据;第二标注单元,用于根据预设规则对所述第一标注数据和所述第二标注数据存在差异的部分进行标注,得到第三标注数据,对所述第一标注数据和所述第二标注数据相同的部分进行标注,得到第四标注数据;确定单元,用于将所述第三标注数据与所述第四标注数据确定为所文本的标注数据,其中,所述第四标注数据是所述第一标注数据和所述第二标注数据相同部分的标注数据。

根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文本的数据标注方法。

根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的文本的数据标注方法。

在本发明实施例中,获取待标注的文本,其中,文本中至少包括一个待标注的目标对象;通过层次化的逐层串行的第一处理方式对文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对文本标注数据,得到第二标注数据;根据预设规则对第一标注数据和第二标注数据存在差异的部分进行标注,得到第三标注数据,对第一标注数据和第二标注数据相同的部分进行标注,得到第四标注数据;将第三标注数据与第四标注数据确定为所文本的标注数据,达到了将两种标注数据方式相结合,对比两种方式产生差异的数据再进行二次处理的目的,从而实现了提高文本标注数据的准确性的技术效果,进而解决了现有技术中,对文本进行数据标注的准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种可选的文本的数据标注方法的应用环境的示意图;

图2是根据本发明实施例的一种可选的文本的数据标注方法的流程图;

图3是根据本发明实施例的一种可选的文本第一处理方式的流程图;

图4是根据本发明实施例的一种可选的文本第二处理方式的流程图

图5是根据本发明实施例的一种可选的文本语义层次示意图;

图6是根据本发明实施例的一种可选的基于多层次多模型的已标注数据校验方法的流程图;

图7是根据本发明实施例的一种可选的文本的数据标注装置的结构示意图;

图8是根据本发明实施例的一种可选的文本的数据标注方法的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面,提供了一种文本的数据标注方法,可选地,作为一种可选的实施方式,上述文本的数据标注方法可以但不限于应用于如图1所示的硬件环境中的文本的数据标注系统中,其中,该文本的数据标注系统可以包括但不限于终端设备102、网络110及服务器112。

其中,上述终端设备102中可以包括但不限于:人机交互屏幕104,处理器106及存储器108。人机交互屏幕104用于通过人机交互接口获取人机交互指令,还用于呈现该待标注的文本;处理器106用于响应上述人机交互指令,对文本标注数据。存储器108用于存储待标注的文本,及文本标注完成的标注数据等信息。这里服务器可以包括但不限于:数据库114及处理引擎116,处理引擎116用于调用数据库114中存储的待标注的文本,通过获取待标注的文本,其中,文本中至少包括一个待标注的目标对象;通过层次化的逐层串行的第一处理方式对文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对文本标注数据,得到第二标注数据;根据预设规则对第一标注数据和第二标注数据存在差异的部分进行标注,得到第三标注数据,对第一标注数据和第二标注数据相同的部分进行标注,得到第四标注数据;将第三标注数据与第四标注数据确定为所文本的标注数据,达到了将两种标注数据方式相结合,对比两种方式产生差异的数据再进行二次处理的目的,从而实现了提高文本标注数据的准确性的技术效果,进而解决了现有技术中,对文本进行数据标注的准确性较低的技术问题。

具体过程如以下步骤:在终端设备102中的人机交互屏幕104显示待标注的文本(如图1所示为该文本中包括的目标对象(人物a))。如步骤s102-s110,获取该待标注的文本,并将该文本通过网络110发送服务器112。在服务器112通过层次化的逐层串行的第一处理方式对文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对文本标注数据,得到第二标注数据;根据预设规则对第一标注数据和第二标注数据存在差异的部分进行标注,得到第三标注数据,对第一标注数据和第二标注数据相同的部分进行标注,得到第四标注数据;将第三标注数据与第四标注数据确定为所文本的标注数据,。然后将上述确定出的结果返回终端设备102。

然后,如步骤s102-s110,终端设备102通过层次化的逐层串行的第一处理方式对文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对文本标注数据,得到第二标注数据;根据预设规则对第一标注数据和第二标注数据存在差异的部分进行标注,得到第三标注数据,对第一标注数据和第二标注数据相同的部分进行标注,得到第四标注数据;将第三标注数据与第四标注数据确定为所文本的标注数据。

可选地,在本实施例中,上述文本的数据标注方法可以但不限于应用于服务器112中,用于协助应用客户端对所待标注的文本标注数据。其中,上述应用客户端可以但不限于运行终端设备102中,该终端设备102可以但不限于为手机、平板电脑、笔记本电脑、pc机等支持运行应用客户端的终端设备。上述服务器112和终端设备102可以但不限于通过网络实现数据交互,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、wifi及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述仅是一种示例,本实施例中对此不作任何限定。

可选地,作为一种可选的实施方式,如图2所示,上述文本的数据标注方法包括:

步骤s202,获取待标注的文本,其中,文本中至少包括一个待标注的目标对象。

步骤s204,通过层次化的逐层串行的第一处理方式对文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对文本标注数据,得到第二标注数据。

步骤s206,根据预设规则对第一标注数据和第二标注数据存在差异的部分进行标注,得到第三标注数据,对第一标注数据和第二标注数据相同的部分进行标注,得到第四标注数据。

步骤s208,将第三标注数据与第四标注数据确定为所文本的标注数据。

可选的,在本实施例中,上述文本可以包括但不限于文档文本、图片文本等。在文本是文档文本的情况下,对文档文本进行数据标注可以包括但不限于对文档中的图像进行标注、以及对词语进行标注,该文档的格式可以包括但不限于word格式、pdf格式等。在该文本是图片文本的情况下,对图片文本进行标注可以包括但不限于图片中的对象进行数据标注,例如,对图片中的人物、动物等进行数据标注,其中,该图片文本的格式不做具体的限定。

需要说明的是,在文本是文档文本的情况下,该文档文本中的目标对象可以包括大不限于是:词语、短句、长句等。在文本是图片文本的情况下,目标对象可以包括但不限于:人物、动物等。

还需要说的是,在获取待标注的文本之间,可以对该文本进行部分数据的标注,即该待标注文本可以包括但不限完全没有标注的标注数据、以及存在部分标注数据的文本。

可见,本实施例中,的文本的数据标注可以应用对文档文本和/或图像文本的数据标注中,将该标注数据输入到神经网络中,进而文档文本的识别或者图像文本的识别。

可选的,在实施例中,通过第一处理方式对文本标注数据,得到第一标注数据,包括:

s1,确定文本对应第一类别,根据第一类别将文本输入到第一神经网络的第一层,得到第一类别对应的标注数据;

s2,将第一类别对应的标注数据输入到第一神经网络的第二层,得到第一标注数据。

在实际应用中,第一处理方式包括但不限于采用textcnn算法模型进行校验识别,该算法效率高,适用于大量数据的分析处理工作。如图3所示,文本第一处理方式的流程图。

如图3所示,处理过程逐层分类。从执行开始,自类别一层将输入的文本划分为不同的类别(相当于文本的第一类别),每种类别下有着各自的领域集合。经类别处理后的文本带着其处理后的类别标签进入该类别下的领域级别的划分。在领域一层中,采用与之前一层处理方法相同的处理方式,每个领域同样对应一组意图集合,领域划分后进入对应的意图集合层继续进行划分校验。当全部层次校验标注完成后,最终形成一个标注过不同层次标签的处理后文本。处理后的文本结果,不同层次之间的标注标签之间具有一定的逻辑性,有着明显的上下层之间的制约关系。

该第一处理方式,适用于处理数据标签很多的情况,逐层处理将标签分流,可有效提升计算速度。

可选的,在本实施例中,通过第二处理方式对文本标注数据,得到第二标注数据,可以包括:

s1,根据不同的分类方式确定文本对应第二类别和第三类别;

s2,根据所述第二类别输入到第二神经网络,得到所述第二类别对应的标注数据,根据所述第三类别输入到第三神经网络,得到所述第三类别对应的标注数据;

s3,根据预设条件处理第二类别对应的标注数据和第三类别对应的标注数据,得到第二标注数据。

在实际应用中,第二处理方式是各层次分别独立并行处理的文本校验标注方法,可以包括但不限于robert算法实现。如图4所示,文本第二处理方式的流程图。

如图4所示,与之前提到的第一处理方式不同,该第二处理方式将不同的语言层次拆分成独立的标签集合,分为类别集合、领域集合和意图集合等。每个集合中包括本层次的全部标签,较前种方法集合规模扩大,标签数量变多。

该第二处理方法将输入的文本材料输入至每个层次分别进行并行的分析处理,多个层次可以同时执行,同时取得分析结果。这样的处理方式可以提高系统的处理效率。分层次处理后,可以得到原来输入材料整数倍的处理结果,每条结果均带有一个层次的标注结果。获得一次处理后的全部输出后,将同一条语言文本材料不同层次的处理结果进行组合处理,整合后得到一条完整的处理结果。全部语言材料组合完毕,处理过程将形成与第一处理方式相似的处理结果,包含类别、意图、领域等多个方面的分析信息。

该第二处理方式减弱了层次之间的制约逻辑关系:每种标签都是在整体的大集合中选取标注校验的,没有了上下层之间的制约关系,上层的错误不会传递给下层,不同类别、领域、意图间的标注界限同时也被打破了。

可选的,在本实施例中,经过层次化处理和逐层并行处理两种不同的处理过程后,最终会得到两组对于同一组输入数据的不同处理结果。两组结果都是机器校验得到,故存在一定的校验误差。为了有针对性地剔除和修正这些误差,需要进行结果比对。结果比对有两个准则:

1)、比对同一条语言材料的校验结果,当且仅当结果的类别位、领域位、意图位等校验判别位置完全相同时,判定这条数据的校验结果为正确。否则该数据便称为“坏数据”。将比对过程中产生的全部坏数据输入到一个坏数据的存储数据库中。

2)、对于比对结果完全相同的结果,为了保证数据的准确性,我们还要进行一次判别:对于每个标签的判别概率进行提取计算,两种方法得到的概率值进行加权平均,将加权值不足0.9的数据同样加入到坏数据的数据库中。

由以上两种比对方法会产生两批数据,一批可默认为标注校验合格的数据,无需二次处理。而对于坏数据数据库中的数据,需要输入到人工校验系统中进行人工二次校验判别(相当于根据预设规则标注数据)。

通过本申请提供的实施例,获取待标注的文本,其中,文本中至少包括一个待标注的目标对象;通过层次化的逐层串行的第一处理方式对文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对文本标注数据,得到第二标注数据;根据预设规则对第一标注数据和第二标注数据存在差异的部分进行标注,得到第三标注数据,对第一标注数据和第二标注数据相同的部分进行标注,得到第四标注数据;将第三标注数据与第四标注数据确定为所文本的标注数据,达到了将两种标注数据方式相结合,对比两种方式产生差异的数据再进行二次处理的目的,从而实现了提高文本标注数据的准确性的技术效果,进而解决了现有技术中,对文本进行数据标注的准确性较低的技术问题。

作为一种可选的实施例,将第三标注数据与第四标注数据确定为所文本的标注数据之后,还可以包括:

将文本的标注数据输入到目标神经网络模型中,输出对目标对象执行目标操作的概率;

在概率大于预定阈值的情况下,响应对目标对象的指令执行目标操作。

其中,响应目标对象的指令执行目标操作,包括:响应目标对象的指令执行删除目标对象的标注数据操作;或者;响应目标对象的指令执行添加目标对象的标注数据操作;或者响应目标对象的指令执行更新目标对象的标注数据操作。

作为一种可选的实施例,本申请还提供了一种基于多层次多模型的已标注数据校验方法。

在自然语言的分析处理过程中,根据自然语言的规律和内在的逻辑关联,将自然语言的语义分析大致划分成了几个层次,几个层次由广泛及精细,可以将一句完整的话拆分为便于机器理解和表示的形式。如5图所示,文本语义层次示意图,图5中展示类别、领域、意图等层次,类别中包含领域,同一领域又划分成不同的类别,经过几次这样的划分处理,最终将文本分析解剖为关键词形式。这种层次划分是两种不同文本处理方式产生的基础。

如图6所示,基于多层次多模型的已标注数据校验方法的流程图。该方法的具体方式如下:

步骤1,将待处理的文本作为输入数据分别输入到两个文本处理系统中,输入前,文本样本已经经过了人工的标注等基本处理。

步骤2,两个文本处理系统分别处理同一批输入的待处理文本数据,从而产生两个输入文本处理过程,最终得到两个处理结果。两种处理过程分别为层次化的逐层串行处理和不区分层次的并行处理方法,两个处理过程与第一次处理方式与第二处理方式相似。

步骤3,将两个文本处理过程产生的处理结果进行比对,比对标准包括每个层次的分析结果、位置等信息,将比对后的数据区分为比对结果完全一致和比对结果不同两部分。

步骤4,比对后产生的数据分别处理:

1)、对于比对结果相同的数据,可默认为文本分析处理完全正确,直接作为文本处理的输出结果。

2)、比对结果不同的数据被提取抽离,进入人工处理校验环节,由专门的从业人员对这部分文本数据进行分析标注。人工标注后的数据则作为另一部分的输出结果。

步骤5,整合上述产生的两种文本处理结果,作为方案的最终结果输出。该结果经过两次机器分析处理,一次比对校验,部分还经过人工校验,具有较高的准确性。

通过本申请提供的实施例,可以具有如下益处:

1.结合人工处理方式和机器处理方式的优点。人工处理方式准确率较高,以人的观点分析文本得到的结果更符合人类对自然语言的普遍认知,但这种方案耗费的时间、人力资源相当可观。机器处理运用传统的文本处理算法进行标注的校验分析,分析效率高。将两种方式结合,把人力资源有指向性地投入到机器难以分析正确的部分进行处理,既可以保证分析结果的准确性,又能提高分析处理效率。

2、机器处理方式应用了两种不同的处理过程。层次化的逐层处理过程保证了文本分析的内在逻辑关联,而分层处理过程则是同步标注每层得到的语义结果。将两种分析过程的输出加以比较,完全相同的部分可以作为正确结果输出。这样的比对方案使得机器处理的结果更加可靠,同时可以筛选出机器难以识别处理的部分进入人工处理部分,提高效率。

3、更为可靠的比对判别机制。在比对两种不同的机器方法产生的分析结果时,我们有两个标准来判断这条数据的好坏结果。其一是传统的逐位比较,将判断出的每个元素一一对比,存在不同的判断结果便认定该数据为坏数据。除此之外,对于各个判别位均判断相同的数据,还要根据每个识别位置的概率结果综合判别,将两个过程的概率结果加权平均得到判别结果。这是因为机器算法识别存在一些无法避免的误差,即便采用双算法综合识别,还是会有一些被识别错误的数据存在。因此我们将加权平均得到的结果同可忍耐的判别概率0.9对比,将低于0.9的数据同样加入坏数据集合。两种判别机制可以使机器判别的结果更加可靠。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面,还提供了一种用于实施上述文本的数据标注方法的文本的数据标注装置。如图7所示,该装置包括:获取单元71、第一标注单元73、第二标注单元75以及确定单元77。

获取单元71,用于获取待标注的文本,其中,文本中至少包括一个待标注的目标对象。

第一标注单元73,用于通过层次化的逐层串行的第一处理方式对文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对文本标注数据,得到第二标注数据。

第二标注单元75,用于根据预设规则对第一标注数据和第二标注数据存在差异的部分进行标注,得到第三标注数据,对第一标注数据和第二标注数据相同的部分进行标注,得到第四标注数据。

确定单元77,用于将第三标注数据与第四标注数据确定为所文本的标注数据。

可选的,在本实施例中,第一标注单元73,可以包括:

第一得到模块,用于确定文本对应的第一类别,根据第一类别将文本输入到第一神经网络的第一层,得到第一类别对应的标注数据;

第二得到模块,用于将第一类别对应的标注数据输入到第一神经网络的第二层,得到第一标注数据。

可选的,在本实施例中,第一标注单元73,可以包括:

确定模块,用于根据不同的分类方式确定文本对应第二类别和第三类别;

第三得到模块,用于根据所述第二类别输入到第二神经网络,得到所述第二类别对应的标注数据,根据所述第三类别输入到第三神经网络,得到所述第三类别对应的标注数据;

第四得到模块,用于根据预设条件处理第二类别对应的标注数据和第三类别对应的标注数据,得到第二标注数据。

通过本申请提供的实施例,获取单元71获取待标注的文本,其中,文本中至少包括一个待标注的目标对象;第一标注单元73通过层次化的逐层串行的第一处理方式对文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对文本标注数据,得到第二标注数据;第二标注单元75根据预设规则对第一标注数据和第二标注数据存在差异的部分进行标注,得到第三标注数据,对第一标注数据和第二标注数据相同的部分进行标注,得到第四标注数据;确定单元77将第三标注数据与第四标注数据确定为所文本的标注数据。达到了将两种标注数据方式相结合,对比两种方式产生差异的数据再进行二次处理的目的,从而实现了提高文本标注数据的准确性的技术效果,进而解决了现有技术中,对文本进行数据标注的准确性较低的技术问题。

作为一种可选的实施例,上述装置还可以包括:

得到单元,用于将第三标注数据与第四标注数据确定为所文本的标注数据之后,将文本的标注数据输入到目标神经网络模型中,输出对目标对象执行目标操作的概率;

响应单元,用于在概率大于预定阈值的情况下,响应对目标对象的指令执行目标操作。

其中,响应单元,包括:

第一响应模块,用于响应目标对象的指令执行删除目标对象的标注数据操作;或者;

第二响应模块,用于响应目标对象的指令执行添加目标对象的标注数据操作;或者

第三响应模块,用于响应目标对象的指令执行更新目标对象的标注数据操作。

根据本发明实施例的又一个方面,还提供了一种用于实施上述文本的数据标注方法的电子装置,如图8所示,该电子装置包括存储器802和处理器804,该存储器802中存储有计算机程序,该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

s1,获取待标注的文本,其中,文本中至少包括一个待标注的目标对象;

s2,通过层次化的逐层串行的第一处理方式对文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对文本标注数据,得到第二标注数据;

s3,根据预设规则对第一标注数据和第二标注数据存在差异的部分进行标注,得到第三标注数据,对第一标注数据和第二标注数据相同的部分进行标注,得到第四标注数据;

s4,将第三标注数据与第四标注数据确定为所文本的标注数据。

可选地,本领域普通技术人员可以理解,图8所示的结构仅为示意,电子装置也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobileinternetdevices,mid)、pad等终端设备。图8其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图8中所示更多或者更少的组件(如网络接口等),或者具有与图8所示不同的配置。

其中,存储器802可用于存储软件程序以及模块,如本发明实施例中的文本的数据标注方法和装置对应的程序指令/模块,处理器804通过运行存储在存储器802内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本的数据标注方法。存储器802可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器802可进一步包括相对于处理器804远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器802具体可以但不限于用于存储待标注的文档、文档对应的标注数据等信息。作为一种示例,如图8所示,上述存储器802中可以但不限于包括上述文本的数据标注装置中的获取单元71、第一标注单元73、第二标注单元75以及确定单元77。此外,还可以包括但不限于上述文本的数据标注装置中的其他模块单元,本示例中不再赘述。

可选地,上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置806包括一个网络适配器(networkinterfacecontroller,nic),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置806为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。

此外,上述电子装置还包括:显示器808,用于显示上述待处理的文档信息;和连接总线810,用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:

s1,获取待标注的文本,其中,文本中至少包括一个待标注的目标对象;

s2,通过层次化的逐层串行的第一处理方式对文本标注数据,得到第一标注数据,通过不区分层次的并行处理的第二处理方式对文本标注数据,得到第二标注数据;

s3,根据预设规则对第一标注数据和第二标注数据存在差异的部分进行标注,得到第三标注数据,对第一标注数据和第二标注数据相同的部分进行标注,得到第四标注数据;

s4,将第三标注数据与第四标注数据确定为所文本的标注数据。

可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-onlymemory,rom)、随机存取器(randomaccessmemory,ram)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1