文本角色标注方法、装置、电子设备和存储介质与流程

文档序号:23723510发布日期:2021-01-26 14:11阅读:82来源:国知局
文本角色标注方法、装置、电子设备和存储介质与流程

[0001]
本申请涉及计算机领域,具体涉及自然语言处理和深度学习领域,尤其涉及一种文本角色标注方法、装置、电子设备和存储介质。


背景技术:

[0002]
目前,多角色有声文学作品越来越受人们的关注,用合成语音播报小说文本,为用户提供多彩的听书体验。该产品形态的规模化依赖于对文学作品中角色的标注。如何快速、高效、准确地标注文学作品中的角色,至关重要的。


技术实现要素:

[0003]
本申请提供一种文本角色标注方法、装置、电子设备和存储介质。
[0004]
根据本申请的一方面,提供了一种文本角色标注方法,包括:
[0005]
获取待标注的文本数据;
[0006]
对所述文本数据进行解析,以获取所述文本数据中的各个待标注语句;
[0007]
获取每个所述待标注语句对应的多组关联语句;
[0008]
根据每个所述待标注语句对应的多组关联语句,对每个所述待标注语句进行角色标注。
[0009]
根据本申请的另一方面,提供了一种文本角色标注装置,包括:
[0010]
第一获取模块,用于获取待标注的文本数据;
[0011]
解析模块,用于对所述文本数据进行解析,以获取所述文本数据中的各个待标注语句;
[0012]
第二获取模块,用于获取每个所述待标注语句对应的多组关联语句;
[0013]
标注模块,用于根据每个所述待标注语句对应的多组关联语句,对每个所述待标注语句进行角色标注。
[0014]
根据本申请的另一方面,提供了一种电子设备,包括:
[0015]
至少一个处理器;以及
[0016]
与所述至少一个处理器通信连接的存储器;其中,
[0017]
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的文本角色标注方法。
[0018]
根据本申请另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的文本角色标注方法。
[0019]
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
[0020]
附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0021]
图1为本申请实施例提供的一种文本角色标注方法的流程示意图;
[0022]
图2为本申请实施例提供的另一种文本角色标注方法的流程示意图;
[0023]
图3为本申请实施例提供的另一种文本角色标注方法的流程示意图;
[0024]
图4为本申请实施例提供的另一种文本角色标注方法的流程示意图;
[0025]
图5为本申请实施例提供的另一种文本角色标注方法的流程示意图;
[0026]
图6为本申请实施例提供的一种文本角色标注装置的结构示意图;
[0027]
图7为根据本申请实施例的文本角色标注方法的电子设备的框图。
具体实施方式
[0028]
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0029]
下面参考附图描述本申请实施例的文本角色标注方法、装置、电子设备和存储介质。
[0030]
图1为本申请实施例提供的一种文本角色标注方法的流程示意图。
[0031]
本申请实施例的文本角色标注方法,可由本申请实施例提供的文本角色标注装置执行,该装置可配置于电子设备中,通过根据待标注文本数据中每个待标注语句对应的多组关联语句,对每个待标注语句进行自动角色标注,提高标注地准确性和效率。
[0032]
如图1所示,该文本角色标注方法包括:
[0033]
步骤101,获取待标注的文本数据。
[0034]
用户可将需要标注的文本数据输入至电子设备,电子设备获取待标注的文本数据,或者电子设备预先存储有多个文本数据,将用户选择的文本数据,作为当前待标注的文本数据。
[0035]
本实施例中,待标注的文本数据可以是任意形式的文学作品,包括但不限于小说、新闻、剧本等。
[0036]
步骤102,对文本数据进行解析,以获取文本数据中的各个待标注语句。
[0037]
在获取待标注的文本数据后,对文本数据进行解析,获取文本数据中需要进行角色标注的各个待标注语句。
[0038]
具体地,可以根据预先设定的分词,获取待标注语句。其中,预设的分词包括但不限于“道”、“说”、“问”等等。比如文本数据中“a不由地感叹道“那里的风景真美
””
,“那里的风景非常美”为待标注语句。
[0039]
或者,也可以利用预先训练深度学习模型,预测文本数据中的待标注语句。
[0040]
步骤103,获取每个待标注语句对应的多组关联语句。
[0041]
为了提高角色标注的准确性,本实施例中,可获取每个待标注语句对应的多组关联语句。
[0042]
本实施例中,可根据每个待标注语句前后的语句,得到多组关联语句,其中,每组
关联语句中包括待标注语句。也即根据每个待标注语句的上下文,获取每个待标注语句的多组关联语句。其中,每组关联语句中包括多个关联语句。
[0043]
比如,分别将待标注语句的前3个语句作为一组关联语句,前4个语句作为一组关联语句,前2个语句和后1个语句作为一组关联语句。
[0044]
步骤104,根据每个待标注语句对应的多组关联语句,对每个待标注语句进行角色标注。
[0045]
在获取每个待标注语句对应的多组关联语句后,针对每个待标注语句,可以根据待标注语句对应的每组关联语句和待标注语句,获取待标注语句对应的候选角色,并将根据每组关联语句得到待标注语句对应的候选角色,作为待标注语句对应的候选角色,并从对应的多个候选角色中选取一个角色,对待标注语句进行角色标注。
[0046]
在获取候选角色时,可将每组关联语句和待标注语句,输入与训练训练的模型中,模型输出对应的候选角色。比如,关联语句为待标注语句的前2个语句,那么将前2个语句和待标注语句,输入至模型中。若关联语句为待标注语句的前3个语句和后1个语句,那么将前2个语句、待标注语句和后1个语句,输入至模型中。
[0047]
本申请实施例的文本角色标注方法,通过获取待标注的文本数据;对文本数据进行解析,以获取文本数据中的各个待标注语句;获取每个待标注语句对应的多组关联语句;根据每个待标注语句对应的多组关联语句,对每个待标注语句进行角色标注。由此,通过根据待标注语句的多组关联语句,对待标注语句进行角色自动标注,提高了角色标注的准确性和标注效率。并且,本申请实施例的文本角色标注方法,可应用于任意形式的文学作品,应用范围广。
[0048]
在本申请的一个实施例中,上述对文本数据进行解析,获取文本数据中的各个待标注语句时,也可根据标点符号,获取文本数据中的待标注语句。
[0049]
在多种文学作品中,比如小说、剧本等,角色说的内容通常是通过引号引用。基于此,本实施例中,可依次识别文本数据中的标点符号,当识别到引号时,获取文本数据中由引号包裹的语句,将引号包裹的语句作为待标注语句。
[0050]
其中,引号包括但不限于双引号、单引号、直角引号等等。
[0051]
本申请实施例中,在对文本数据进行解析,以获取文本数据中的各个待标注语句时,通过对文本数据进行标点符号识别,以获取文本数据中由引号包裹的语句,从而通过识别标点符号,自动识别出文本数据中需要标注的语句,以进行角色标注,提高了待标注语句的识别效率。
[0052]
进一步地,为了提高角色标注的准确性,在本申请的一个实施例中,上述获取每个待标注语句对应的关联语句时,可以根据由引号包裹的语句的类型获取关联语句。下面结合图2进行说明,图2为本申请实施例提供的另一种文本角色标注方法的流程示意图。
[0053]
如图2所示,上述获取每个待标注语句对应的多组关联语句,包括:
[0054]
步骤201,根据由引号包裹的语句的上下文,对由引号包裹的语句进行类型识别,以确定由引号包裹的语句的类型。
[0055]
在实际应用中,文学作品的表达方式比较多样化,由引号包裹的语句可能是旁白,不需要进行角色标注。
[0056]
为了提高角色标注的准确性,本实施例中,在获取文本数据中由引号包裹的语句
后,获取文本数据中由引号包裹的语句的上文,根据上文对由引号包裹的语句进行类型识别,确定由引号包裹的语句的类型。
[0057]
其中,由引号包裹的语句的类型包括对白、独白、旁白等等。
[0058]
在进行类型识别时,可以根据由引号包裹的语句的上文的语义,如果确定由引号包裹的语句为心理活动,确定引号包裹的语句的类型为独白;如果由引号包裹的语句为对话内容,确定由引号包裹的语句的类型为对白;如果由引号包裹的语句,是由第三人称描述的角色的心理活动,确定由引号包裹的语句的类型为旁白。
[0059]
或者,也可以将由引号包裹的语句所在的语句,输入至预先训练的深度学习模型中,利用预先训练的深度学习模型预测由引号包裹的语句的类型。
[0060]
步骤202,在由引号包裹的语句的类型为对白或独白的情况下,获取由引号包裹的语句的多组关联语句。
[0061]
由于对白或独白是由文本数据中角色完成的,因此,本实施例中,在由引号包裹的语句的类型为对白或独白的情况下,可以认为由引号包裹的语句为待标注语句,根据由引号包裹的语句的上下文,获取由引号包裹的语句的多组关联语句。
[0062]
其中,每组关联语句包括由引号包裹的语句。
[0063]
本申请实施例中,在获取每个待标注语句对应的多组关联语句时,通过根据由引号包裹的语句的上下文,对由引号包裹的语句进行类型识别,以确定由引号包裹的语句的类型;在由引号包裹的语句的类型为对白或独白的情况下,获取由引号包裹的语句的多组关联语句。由此,在引号包裹的语句为对白或独白的情况下,将引号包裹的语句作为待标注语句,获取由引号包裹的语句的多组关联语句,从而提高了待标注语句和关联语句的准确性,进而提高了角色标注的准确性。
[0064]
在实际应用中,文本数据中由引号包裹的语句可能为旁白的内容,为了提高文本标注的准确性,在本申请的一个实施例中,在由引号包裹的语句的类型为旁白的情况下,可将由引号包裹的语句标注为旁白。
[0065]
本申请实施例中,在确定由引号包裹的语句的类型之后,在文本数据中由引号包裹的语句的类型为旁白的情况下,将由引号包裹的语句标注为旁白,从而提高了文本标注的准确性。
[0066]
为了进一步提高角色标注的准确性,在本申请的一个实施例中,在上述获取每个待标注语句对应的多组关联语句时,可根据不同的视野域获取待标注语句的多组关联语句。下面结合图3说明,图3为本申请实施例提供的另一种文本角色标注方法的流程示意图。
[0067]
如图3所示,上述获取每个待标注语句对应的多组关联语句,包括:
[0068]
步骤301,确定每个待标注语句在文本数据中的位置及对应的多个视野域。
[0069]
在获取文本数据中各个待标注语句后,可确定每个待标注语句在文本数据中的位置和每个待标注语句对应的多个视野。
[0070]
其中,待标注语句在文本数据中的位置,可用待标注语句的第一个字符和最后一个字符在文本数据中的位置表示。比如,某待标注语句在文本数据中的位置是从第16个字符到第30个字符。
[0071]
本实施例中,视野域可以理解为待标注语句的预设数量的上下文语句。比如,某待标注语句的视野域为待标注语句上下文的7个语句,或者10个语句等等。
[0072]
在确定待标注语句对应的多个视野域时,可根据待标注语句在文本数据中的位置确定。比如,当待标注语句位于文本数据的开头部分时,可根据待标注语句之前的语句的数量,确定视野域。当待标注语句的上下文内容比较长时,可根据与待标注语句临近的上下文确定视野域。
[0073]
比如,待标注语句位于文本数据的开头部分,前面有两个语句,该待标注语句的视野域可以为上下文的6个语句、7个语句等。
[0074]
步骤302,根据每个待标注语句在文本数据中的位置及对应的多个视野域,从文本数据中获取每个待标注语句在每个视野域对应的关联语句。
[0075]
在确定每个待标注语句在文本数据中的位置和对应的多个视野域后,可根据每个视野域,从文本数据中获取待标注语句的上下文,得到在每个视野域对应的关联语句。
[0076]
比如,某待标注语句对应的多个视野域分别为待标注语句上下文的3个语句、5个语句、9个语句,那么对于视频域为待标注语句上下文的3个语句,可获取待标注语句的前2个语句和后1个语句,作为一组关联语句;根据视野域为待标注语句上下文的5个语句,可获取待标注语句的前3个语句和后2个语句,作为一组关联语句;根据视野域为待标注语句上下文的9个语句,可获取待标注语句的前6个语句和后3个语句,作为一组关联语句。
[0077]
需要说明的是,根据同一视野域可以获取多组不同的关联语句。比如视野域为上下文的9个语句,可将待标注语句的前7个语句和后2个语句作为关联语句,也可以将待标注语句的前6个语句和后3个语句作为关联语句,也可以将待标注语句的前5个语句和后4个语句作为关联语句等等,可以根据需要选择一组作为待标注语句的关联语句。
[0078]
本实施例中,根据每个待标注语句对应的多个不同的视野域,可以获取不同长度的上下文,得到长度不同的多组关联语句。
[0079]
本申请实施例中,在获取每个待标注语句对应的多组关联语句时,可以通过确定每个待标注语句在文本数据中的位置及对应的多个视野域,根据每个待标注语句在文本数据中的位置及对应的多个视野域,从文本数据中获取每个待标注语句在每个视野域对应的关联语句。由此,通过多个不同长度的视野域,可以获取每个待标注语句的多组关联语句,从而根据多组不同的关联语句,确定待标注语句所属的角色,提高了角色标注的准确性。
[0080]
在本申请的一个实施例中,上述根据每个待标注语句对应的多组关联语句,对每个待标注语句进行角色标注时,可根据图4所示的方式进行角色标注。图4为本申请实施例提供的另一种文本角色标注方法的流程示意图。
[0081]
如图4所示,上述根据每个待标注语句对应的多组关联语句,对每个待标注语句进行角色标注,包括:
[0082]
步骤401,根据每个待标注语句对应的每组关联语句,确定每个待标注语句对应的每个候选角色。
[0083]
本实施例中,可将每个待标注语句的每组关联语句和待标注语句输入至预先训练的模型中,通过模型根据每组关联语句和待标注语句,预测每个待标注语句的候选角色,那么将根据每个待标注语句的所有关联语句得到的候选角色,为每个待标注语句对应的候选角色。
[0084]
比如,某待标注语句对应3组关联语句s1、s2、s3,根据关联语句和s1和待标注语句,预测该待标注语句的候选角色为r1;根据关联语句s2和待标注语句,预测该待标注语句
的候选角色为r2;根据关联语句s3和待标注语句,预测该待标注语句的候选角色为r3。那么,该待标注语句对应的候选角色为r1、r2、r1。
[0085]
步骤402,根据每个待标注语句对应的每个候选角色的重复次数,确定每个待标注语句所属的角色。
[0086]
本实施例中,可以根据每个待标注语句对应的候选角色,统计每个待标注语句对应的每个候选角色的重复次数,可将重复次数最高的候选角色,作为待标注语句所属的角色,并利用待标注语句所属的角色标注待标注语句。
[0087]
比如,某待标注语句对应的候选角色为r1、r2、r1,那么角色r1的重复次数为2次,角色r2的重复次数为1次,可将角色r1作为该待标注语句所属的角色,将该待标注语句的角色标注为r1。
[0088]
本申请实施例中,在根据每个待标注语句对应的多组关联语句,对每个待标注语句进行角色标注时,可以根据每个待标注语句对应的每组关联语句,确定每个待标注语句对应的每个候选角色,根据每个待标注语句对应的每个候选角色的重复次数,确定每个待标注语句所属的角色。由此,通过根据待标注语句对应的候选角色中每个候选角色的重复次数,确定待标注语句所属的角色,从而提高了角色标注的准确性。
[0089]
在本申请的一个实施例中,在根据每个待标注语句对应的多组关联语句,对每个待标注语句进行角色标注时,也可以根据每个候选角色及对应的概率值,对待标注语句进行角色标注。下面结合图5进行说明,图5为本申请实施例提供的另一种文本角色标注方法的流程示意图。
[0090]
如图5所示,上述根据每个待标注语句对应的多组关联语句,对每个待标注语句进行角色标注,包括:
[0091]
步骤501,根据每个待标注语句对应的每组关联语句,确定每个待标注语句对应的每个候选角色及概率值。
[0092]
本实施例中,针对每个待标注语句,可根据每组关联语句和待标注语句构成预测样本,将预测样本输入至信息抽取模型中,信息抽取模型在不同的视野域时,进行不同的掩码,输出每个预测样本对应的预测结果。其中,预测结果为候选角色的名字在文本数据中的位置和概率值。
[0093]
比如,某待标注语句有3组关联语句,分别为前7个语句和后3个语句、前4个语句和后2个语句、前2个语句和后1个语句,那么信息抽取模型可输出3个结果。以关联语句前7个语句和后3个语句为例,其中,前7个语句、待标注语句和后3个语句构成预测样本,将预测样本输入至信息抽取模型中,预测的角色名字的起止字符在文本中的位置,比如起始字符为第7个字符,概率为90%,结束字符为第10个字符,概率为85%,表示该角色的名字的第一个字符是文本数据中的第7个字符,该角色名字的最后一个字符为文本数据中的第10个字符。
[0094]
步骤502,根据每个待标注语句对应的每个候选角色及概率值,确定每个待标注语句所属的角色。
[0095]
在获取每个待标注语句对应的每个候选角色及概率值后,可将每个待标注语句对应的所有候选角色和概率值输入至投票器进行投票,将投票结果作为待标注语句所属的角色。
[0096]
其中,投票器可以采用不同的投票方式,下面举例说明。
[0097]
比如,某待标注语句有3组关联语句,分别为前7个语句和后3个语句、前4个语句和后2个语句、前2个语句和后1个语句,根据3组关联语句可以得到3个预测样本。比如,3个预测样本对应的预测结果分别为,第一个结果:起始字符为第7个字符,概率为90%,结束字符为第10个字符,概率为85%;第二个结果:起始字符为第8个字符,概率为85%,结束字符为第10个字符,概率为80%;第三个结果:起始字符为第7个字符,概率为85%,结束字符为第9个字符,概率为78%。
[0098]
上述3个结果中,起始字符中第7个字符出现了两次,第8个字符出现1次,可将出现次数最多的第7个字符作为该待标注语句所属角色的起始字符;结束字符中第10个字符出现了两次,第9个字符出现了一次,可将第10个字符作为该待标注语句所属角色的名字的结束字符。那么,该待标注语句所属角色的名字的起始字符为第7个字符,结束字符为第10个字符。
[0099]
或者,上述结果中,将起始字符中概率最大的第7个字符作为该待标注语句所属角色的名字的起始字符,将结束字符中概率最大的第10个字符,作为该待标注语句所属角色的名字的结束字符。
[0100]
本申请实施例中,在根据每个待标注语句对应的多组关联语句,对每个待标注语句进行角色标注时,可以根据每个待标注语句对应的每组关联语句,确定每个待标注语句对应的每个候选角色及概率值,根据每个待标注语句对应的每个候选角色及概率值,确定每个待标注语句所属的角色。由此,通过根据每个待标注语句对应的每个候选角色及概率值,从多个候选角色中确定出待标注语句所属的角色,从而提高了角色标注的准确性。
[0101]
为了实现上述实施例,本申请实施例还提出一种文本角色标注装置。图6为本申请实施例提供的一种文本角色标注装置的结构示意图。
[0102]
如图6所示,该文本角色标注装置600包括:第一获取模块610、解析模块620、第二获取模块630及标注模块640。
[0103]
第一获取模块610,用于获取待标注的文本数据;
[0104]
解析模块620,用于对文本数据进行解析,以获取文本数据中的各个待标注语句;
[0105]
第二获取模块630,用于获取每个待标注语句对应的多组关联语句;
[0106]
标注模块640,用于根据每个待标注语句对应的多组关联语句,对每个待标注语句进行角色标注。
[0107]
在本申请实施例一种可能的实现方式中,上述解析模块620,用于:
[0108]
对文本数据进行标点符号识别,以获取文本数据中由引号包裹的语句。
[0109]
在本申请实施例一种可能的实现方式中,上述第二获取模块630,用于:
[0110]
根据由引号包裹的语句的上下文,对由引号包裹的语句进行类型识别,以确定由引号包裹的语句的类型;
[0111]
在由引号包裹的语句的类型为对白或独白的情况下,获取由引号包裹的语句的多组关联语句。
[0112]
在本申请实施例一种可能的实现方式中,上述标注模块640,还用于:
[0113]
在由引号包裹的语句的类型为旁白的情况下,将由引号包裹的语句标注为旁白。
[0114]
在本申请实施例一种可能的实现方式中,上述第二获取模块630,用于:
[0115]
确定每个待标注语句在文本数据中的位置及对应的多个视野域;
[0116]
根据每个待标注语句在文本数据中的位置及对应的多个视野域,从文本数据中获取每个待标注语句在每个视野域对应的关联语句。
[0117]
在本申请实施例一种可能的实现方式中,上述标注模块640,用于:
[0118]
根据每个待标注语句对应的每组关联语句,确定每个待标注语句对应的每个候选角色;
[0119]
根据每个待标注语句对应的每个候选角色的重复次数,确定每个待标注语句所属的角色。
[0120]
在本申请实施例一种可能的实现方式中,上述标注模块640,用于:
[0121]
根据每个待标注语句对应的每组关联语句,确定每个待标注语句对应的每个候选角色及概率值;
[0122]
根据每个待标注语句对应的每个候选角色及概率值,确定每个待标注语句所属的角色。
[0123]
需要说明的是,前述文本角色标注方法实施例的解释说明,也适用于该实施例的文本角色标注装置,故在此不再赘述。
[0124]
本申请实施例的文本角色标注装置,通过获取待标注的文本数据;对文本数据进行解析,以获取文本数据中的各个待标注语句;获取每个待标注语句对应的多组关联语句;根据每个待标注语句对应的多组关联语句,对每个待标注语句进行角色标注。由此,通过根据待标注语句的多组关联语句,对待标注语句进行角色自动标注,提高了角色标注的准确性和标注效率。并且,本申请实施例的文本角色标注方法,可应用于任意形式的文学作品,应用范围广。
[0125]
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
[0126]
如图7所示,是根据本申请实施例的文本角色标注方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
[0127]
如图7所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。
[0128]
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文本角色标注方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本角色标注方法。
[0129]
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本角色标注方法对应的程序指令/模块(例如,附图6所示的第一获取模块610、解析模块620、第二获取模块630及标注模块640)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本角色标注方法。
[0130]
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本角色标注电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至文本角色标注方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0131]
文本角色标注方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。
[0132]
输入装置703可接收输入的数字或字符信息,以及产生与文本角色标注方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
[0133]
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0134]
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
[0135]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0136]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0137]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps(virtual private server,虚拟专用服务器)服务中,存在的管理难度大,业务扩展性弱的缺陷。
[0138]
根据本申请实施例的技术方案,涉及自然语言处理和深度学习领域,通过根据待标注语句的多组关联语句,对待标注语句进行角色自动标注,提高了角色标注的准确性和标注效率。并且,本申请实施例的文本角色标注方法,可应用于任意形式的文学作品,应用范围广。
[0139]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
[0140]
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1