文本处理方法、装置及存储介质与流程

文档序号:33330483发布日期:2023-03-04 00:20阅读:30来源:国知局
文本处理方法、装置及存储介质与流程

1.本公开涉及自然语言处理技术,尤其涉及一种文本处理方法、装置及存储介质。


背景技术:

2.随着社交软件的普及,每日发布在社交通讯平台上的文档数量巨大,对于原创的待标注文档,需要准确识别出待标注文档中提到的标签,并从初始标签中确定用于标注待标注文档的目标标注标签,这样,可以保证推荐业务在根据用户画像确定标签,并为用户推荐相关内容时,标签对应的文档是与标签的相似度高的内容。
3.相关技术中,在需要对待标注文档进行标注,确定目标标注标签时,可以采用匹配召回和相关性排序相结合的方式进行建模。在相关性排序模块中,可以采用文本分类任务建模,即对待标注文档和初始标签的文本进行二分类,来判断待标注文档和初始标签之间是否具备相关性,但是,由于每一对进行二分类的待标注文档和初始标签都需要输入一次模型,对于同一个待标注文档,需要多次通过模型,极大地降低了确定目标标注标签时的响应速度。
4.在相关性排序模块中,还可以采用文本语义匹配建模,即通过模型来分别计算待标注文档和初始标签的文本语义表征(如,特征向量),并通过两个文本语义表征在高维空间的相似度来衡量相关程度,但是,由于模型本身设计上的缺陷,会导致文本语义表征的准确率不高,无法准确地确定目标标注标签。


技术实现要素:

5.为克服相关技术中存在的问题,本公开提供一种文本处理方法、装置及存储介质,第一方面,可以直接从预设数据库中提取对应的标签向量,可以提高确定目标标注标签时的响应速度;第二方面,通过确定向量距离来确定目标标注标签,可以将文档与标签之间的相似度向量化,能够更加准确快速地得到目标标注标签;第三方面,通过预先训练得到的目标向量转换模型来确定待标注文档的文本向量和初始标签的标签向量,可以在提高文本语义表征的准确率的基础上,提高确定目标标注标签的准确率。
6.根据本公开实施例的第一方面,提供一种文本处理方法,包括:
7.将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,根据得到的所述待标注文档与各个所述初始标签的匹配度,从所述初始标签中选取与所述待标注文档相对应的候选标注标签;其中,所述预设数据库中预存有:各个所述初始标签和各个所述初始标签对应的标签向量,所述标签向量由目标向量转换模型对所述初始标签进行向量转换得到;
8.从所述预设数据库中提取所述候选标注标签的标签向量;
9.基于所述目标向量转换模型对所述待标注文档进行向量转换,得到所述待标注文档的文本向量;
10.分别确定所述待标注文档的文本向量与各个所述候选标注标签的标签向量之间
的向量距离;
11.基于各个所述向量距离,从所述候选标注标签中确定目标标注标签;其中,所述目标标注标签用于标注所述待标注文档。
12.在一些实施例中,所述将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,包括:
13.对所述待标注文档中的非文本内容进行滤除处理,得到具有文本内容的中间文档;
14.根据所述中间文档中满足预设筛选条件的文本内容,生成目标文档;
15.将所述目标文档中的文本内容分别与各个所述初始标签对应的文本内容进行比对。
16.在一些实施例中,所述方法还包括:
17.从历史文档数据中确定训练文档;
18.对所述初始标签进行预处理,得到与所述初始标签对应的候选训练标签;
19.将所述训练文档中的文本内容分别与各个所述候选训练标签对应的文本内容进行比对,根据得到的所述训练文档与各个所述候选训练标签的匹配度,从所述候选训练标签中选取与所述训练文档相对应的目标训练标签;
20.将所述训练文档和所述目标训练标签输入初始向量转换模型进行向量转换处理,得到所述训练文档的文本向量和所述目标训练标签的标签向量;
21.将所述训练文档的文本向量和所述目标训练标签的标签向量输入对比学习模型,得到对比损失值;
22.基于所述对比损失值对所述初始向量转换模型的模型参数进行调整,得到所述目标向量转换模型。
23.在一些实施例中,所述对所述初始标签进行预处理,得到与所述初始标签对应的候选训练标签,包括:
24.根据所述初始标签的标签类型,确定至少一个与所述初始标签相关联的关联标签;其中,所述关联标签与所述初始标签所标注的对象相同,且所述关联标签的标注范围大于所述初始标签的标注范围;
25.根据所述初始标签的标注范围和各个所述关联标签的标注范围,确定所述初始标签和各个所述关联标签的拼接顺序;
26.按照所述拼接顺序,对所述初始标签和各个所述关联标签进行拼接处理,得到与所述初始标签对应的所述候选训练标签。
27.在一些实施例中,所述与所述训练文档相对应的目标训练标签包括:正样本标签和负样本标签;所述将所述训练文档的文本向量和所述目标训练标签的标签向量输入对比学习模型,得到对比损失值,包括:
28.从所述历史文档数据中确定与所述训练文档之间的相似度大于预设相似度阈值的相似文档;
29.利用所述对比学习模型中的相似度子模型,根据所述训练文档的文本向量和所述正样本标签的标签向量,确定所述训练文档和所述正样本标签之间的第一相似度;
30.利用所述相似度子模型,根据所述训练文档的文本向量和所述负样本标签的标签
向量,确定所述训练文档和所述负样本标签之间的第二相似度;
31.根据所述第一相似度、所述第二相似度以及所述训练文档与所述相似文档之间的第三相似度,确定所述对比损失值;其中,所述对比损失值与所述第三相似度负相关,与所述第一相似度和所述第二相似度之间的和值正相关。
32.在一些实施例中,所述方法还包括:
33.将与所述训练文档的匹配度大于预设匹配度的候选训练标签确定为可见标签;
34.将与所述训练文档的匹配度小于或等于所述预设匹配度的候选训练标签确定为不可见标签;
35.按照预设标注策略将第一数量的所述可见标签确定为所述正样本标签,将第二数量的所述可见标签确定为所述负样本标签;
36.根据所述第一数量和所述第二数量,从所述不可见标签中确定第三数量的所述负样本标签;
37.其中,所述第二数量与所述第三数量的和值,与所述第一数量之间的比值满足预设比例关系。
38.在一些实施例中,所述基于各个所述向量距离,从所述候选标注标签中确定目标标注标签,包括:
39.将所述向量距离大于预设距离阈值的所述候选标注标签确定为所述目标标注标签;
40.其中,所述向量距离用于表征所述待标注文档和所述候选标注标签之间的相似度。
41.根据本公开实施例的第二方面,提供一种文本处理装置,包括:
42.第一比对模块,配置为将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,根据得到的所述待标注文档与各个所述初始标签的匹配度,从所述初始标签中选取与所述待标注文档相对应的候选标注标签;其中,所述预设数据库中预存有:各个所述初始标签和各个所述初始标签对应的标签向量,所述标签向量由目标向量转换模型对所述初始标签进行向量转换得到;
43.提取模块,配置为从所述预设数据库中提取所述候选标注标签的标签向量;
44.第一转换模块,配置为基于所述目标向量转换模型对所述待标注文档进行向量转换,得到所述待标注文档的文本向量;
45.第一确定模块,配置为分别确定所述待标注文档的文本向量与各个所述候选标注标签的标签向量之间的向量距离;
46.第二确定模块,配置为基于各个所述向量距离,从所述候选标注标签中确定目标标注标签;其中,所述目标标注标签用于标注所述待标注文档。
47.在一些实施例中,所述第一比对模块,配置为:
48.对所述待标注文档中的非文本内容进行滤除处理,得到具有文本内容的中间文档;
49.根据所述中间文档中满足预设筛选条件的文本内容,生成目标文档;
50.将所述目标文档中的文本内容分别与各个所述初始标签对应的文本内容进行比对。
51.在一些实施例中,所述装置还包括:
52.第三确定模块,配置为从历史文档数据中确定训练文档;
53.处理模块,配置为对所述初始标签进行预处理,得到与所述初始标签对应的候选训练标签;
54.第二比对模块,配置为将所述训练文档中的文本内容分别与各个所述候选训练标签对应的文本内容进行比对,根据得到的所述训练文档与各个所述候选训练标签的匹配度,从所述候选训练标签中选取与所述训练文档相对应的目标训练标签;
55.第二转换模块,配置为将所述训练文档和所述目标训练标签输入初始向量转换模型进行向量转换处理,得到所述训练文档的文本向量和所述目标训练标签的标签向量;
56.输入模块,配置为将所述训练文档的文本向量和所述目标训练标签的标签向量输入对比学习模型,得到对比损失值;
57.调整模块,配置为基于所述对比损失值对所述初始向量转换模型的模型参数进行调整,得到所述目标向量转换模型。
58.在一些实施例中,所述处理模块,配置为:
59.根据所述初始标签的标签类型,确定至少一个与所述初始标签相关联的关联标签;其中,所述关联标签与所述初始标签所标注的对象相同,且所述关联标签的标注范围大于所述初始标签的标注范围;
60.根据所述初始标签的标注范围和各个所述关联标签的标注范围,确定所述初始标签和各个所述关联标签的拼接顺序;
61.按照所述拼接顺序,对所述初始标签和各个所述关联标签进行拼接处理,得到与所述初始标签对应的所述候选训练标签。
62.在一些实施例中,所述与所述训练文档相对应的目标训练标签包括:正样本标签和负样本标签;所述输入模块,配置为:
63.从所述历史文档数据中确定与所述训练文档之间的相似度大于预设相似度阈值的相似文档;
64.利用所述对比学习模型中的相似度子模型,根据所述训练文档的文本向量和所述正样本标签的标签向量,确定所述训练文档和所述正样本标签之间的第一相似度;
65.利用所述相似度子模型,根据所述训练文档的文本向量和所述负样本标签的标签向量,确定所述训练文档和所述负样本标签之间的第二相似度;
66.根据所述第一相似度、所述第二相似度以及所述训练文档与所述相似文档之间的第三相似度,确定所述对比损失值;其中,所述对比损失值与所述第三相似度负相关,与所述第一相似度和所述第二相似度之间的和值正相关。
67.在一些实施例中,所述装置还包括:
68.第四确定模块,配置为将与所述训练文档的匹配度大于预设匹配度的候选训练标签确定为可见标签;
69.第五确定模块,配置为将与所述训练文档的匹配度小于或等于所述预设匹配度的候选训练标签确定为不可见标签;
70.第六确定模块,配置为按照预设标注策略将第一数量的所述可见标签确定为所述正样本标签,将第二数量的所述可见标签确定为所述负样本标签;
71.第七确定模块,配置为根据所述第一数量和所述第二数量,从所述不可见标签中确定第三数量的所述负样本标签;
72.其中,所述第二数量与所述第三数量的和值,与所述第一数量之间的比值满足预设比例关系。
73.在一些实施例中,所述第二确定模块,配置为:
74.将所述向量距离大于预设距离阈值的所述候选标注标签确定为所述目标标注标签;
75.其中,所述向量距离用于表征所述待标注文档和所述候选标注标签之间的相似度。
76.根据本公开实施例的第三方面,提供一种文本处理装置,包括:
77.处理器;
78.配置为存储处理器可执行指令的存储器;
79.其中,所述处理器配置为:执行时实现上述第一方面中任一种文本处理方法中的步骤。
80.根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由文本处理装置的处理器执行时,使得所述装置能够执行上述第一方面中任一种文本处理方法中的步骤。
81.本公开的实施例提供的技术方案可以包括以下有益效果:
82.本公开实施例中,第一方面,通过将候选标注标签向量预存在预设数据库中,在需要确定目标标注标签时,可以直接从预设数据库中提取对应的标签向量,且在确定待标注文档的文本向量与各个候选标注标签的标签向量之间的向量距离之前,待标注文档通过一次目标向量转换模型确定文本向量即可,可以提高确定目标标注标签时的响应速度;第二方面,由于向量距离能够用于表征文档与标签之间的相似度,通过向量距离来确定目标标注标签,可以将文档与标签之间的相似度向量化,相较于采用额外的相似度计算模型进行相似度计算,能够更加准确快速地得到目标标注标签;第三方面,通过预先训练得到的目标向量转换模型来确定待标注文档的文本向量和初始标签的标签向量,可以在提高文本语义表征的准确率的基础上,提高确定目标标注标签的准确率。
83.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
84.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
85.图1是根据一示例性实施例示出的文本处理方法的流程图;
86.图2a是根据一示例性实施例示出的基于transformer的双向编码表征模型的结构图一;
87.图2b是根据一示例性实施例示出的基于transformer的双向编码表征模型的结构图二;
88.图3a是根据一示例性实施例示出的使用孪生bert网络的句子嵌入模型的结构图
一;
89.图3b是根据一示例性实施例示出的使用孪生bert网络的句子嵌入模型的结构图二;
90.图4是根据一示例性实施例示出的训练文档与目标训练标签相对应的结构图;
91.图5是根据一示例性实施例示出的确定候选训练标签中可见标签和正样本标签的示意图;
92.图6是根据一示例性实施例示出的一种文本处理装置框图;
93.图7是根据一示例性实施例示出的一种文本处理装置800的框图;
94.图8是根据一示例性实施例示出的一种文本处理装置的硬件结构框图。
具体实施方式
95.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
96.本公开实施例中提供了一种文本处理方法,图1是根据一示例性实施例示出的文本处理方法的流程图,如图1所示。该方法主要包括以下步骤:
97.在步骤101中,将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,根据得到的所述待标注文档与各个所述初始标签的匹配度,从所述初始标签中选取与所述待标注文档相对应的候选标注标签;其中,所述预设数据库中预存有:各个所述初始标签和各个所述初始标签对应的标签向量,所述标签向量由目标向量转换模型对所述初始标签进行向量转换得到;
98.在步骤102中,从所述预设数据库中提取所述候选标注标签的标签向量;
99.在步骤103中,基于所述目标向量转换模型对所述待标注文档进行向量转换,得到所述待标注文档的文本向量;
100.在步骤104中,分别确定所述待标注文档的文本向量与各个所述候选标注标签的标签向量之间的向量距离;
101.在步骤105中,基于各个所述向量距离,从所述候选标注标签中确定目标标注标签;其中,所述目标标注标签用于标注所述待标注文档。
102.需要说明的是,本公开提出的文本处理方法可以应用于电子设备,也可以应用于服务器。这里,电子设备可以包括:终端设备,例如,移动终端或者固定终端。其中,移动终端可以包括:手机、平板电脑、笔记本电脑等设备。固定终端可以包括:台式电脑、智能电视等。服务器作为计算机的一种,可以在网络中为其它客户机(如电脑、智能手机、atm等终端设备甚至是火车系统等大型设备)提供计算或者应用服务。
103.本公开实施例中的文本处理方法可以被配置在文本处理装置中,该文本处理装置可以设置在服务器中,或者也可以设置在电子设备中,本公开实施例对此不作限制。
104.需要说明的是,本公开实施例的执行主体,在硬件上可以例如为服务器或者电子设备中的中央处理器(central processing unit,cpu),在软件上可以例如为服务器或者电子设备中的相关的后台服务,对此不作限制。
105.这里,待标注文档可以为原创的文档,例如,可以为原创的博文等;待标注文档还可以为在原创的基础上新生成的文档,例如,可以为从应用程序中获取的新生成的原创博文、实时生成的原创资讯等。待标注文档中的文本内容可以为待标注文档中除非文本内容之外的文本内容。其中,非文本内容可以包括统一资源定位系统(uniform resource locator,url)、特殊字符(使用频率少,且难以直接输入的字符)、表情符号等。文本内容可以为一句或一段文本,包括文字、数字等。
106.预设数据库为离线状态时在内存空间中预先创建完成的用于进行数据存储的缓存空间,在一些实施例中,预设数据库可以为本地的内存空间;在另一些实施例中,预设数据库可以为云端的内存空间。初始标签可以为原始的未经任何处理的标签,这里,初始标签可以为任意级别的标签,例如,三级标签、二级标签或一级标签等。初始标签对应的文本内容可以为初始标签中除非文本内容的文本内容。
107.在一些实施例中,在需要对待标注文档进行标注时,可以将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,得到待标注文档与各个初始标签的匹配度,并可以根据得到的待标注文档与各个初始标签的匹配度,从初始标签中选取与待标注文档相对应的候选标注标签,其中,预设数据库中预存有各个初始标签和各个初始标签对应的标签向量,且标签向量由目标向量转换模型对初始标签进行向量转换得到。
108.在一些实施例中,可以运用匹配召回模块实现将待标注文档与初始标签进行比对的功能。其中,匹配召回模块可以为将待标注文档的文本内容与初始标签对应的文本内容进行比对的模块,也可以为将待标注文档的语义信息与初始标签的语义信息进行比对的模块。这里,可以将匹配召回模块嵌入目标向量转换模型中,也可以将匹配召回模块作为独立的模块与目标向量转换模型共同配置在电子设备或服务器中。对于匹配召回模块的模型和配置方式不作具体限定,只要能实现比对功能即可。
109.在一些实施例中,匹配召回模块采用的策略可以为基于内容匹配的召回,也可以为基于协同过滤的召回。以采用的匹配召回策略为基于内容匹配的召回为例,在进行召回的过程中,通过将待标注文档的文本内容与初始标签对应的文本内容进行匹配,根据匹配结果召回与待标注文档的文本内容匹配度大于预设文本内容匹配度的初始标签,并将召回的初始标签确定为候选标注标签。这里,匹配度可以表征待标注文档中的文本内容与初始标签对应的文本内容的重复率。
110.例如,预设文本内容匹配度为50%,其中一个初始标签与待标注文档的文本内容匹配度为60%,该文本内容匹配度60%大于预设文本内容匹配度50%,可以将该初始标签确定为所述待标注文档相对应的候选标注标签。
111.在一些实施例中,在从初始标签中确定出与待标注文档相匹配的候选标注标签的情况下,由于预设数据库中预存有各个初始标签对应的标签向量,且标签向量由目标向量转换模型进行向量转换得到,可以直接从预设数据库中提取并使用候选标注标签的标签向量。
112.在一些实施例中,在离线状态时,可以预先基于目标向量转换模型确定初始标签对应的标签向量,并且将所有初始标签以及各个初始标签对应的标签向量以键值对的形式存储在内存空间中。
113.在另一些实施例中,在需要确定用于标注待标注文档的目标标注标签的情况下,首先可以通过匹配召回模块,根据待标注文档的文本内容与预先获取的预设数量的初始标签对应的文本内容进行比对,在通过匹配召回模块之后,可以确定出至少一个候选标注标签,这样,可以根据候选标注标签,在预设数据库中查找候选标注标签对应的标签向量。
114.在确定候选标注标签的标签向量和待标注文档的文本向量的情况下,可以分别确定待标注文档的文本向量与各个候选标注标签的标签向量之间的向量距离,然后可以基于向量距离快速确定目标标注标签。
115.在一些实施例中,可以通过不同的距离计算模型确定待标注文档的文本向量与各个候选标注标签的标签向量之间的向量距离。例如,可以采用余弦距离公式计算待标注文档的文本向量与各个候选标注标签的标签向量之间的向量距离。再例如,可以采用欧式距离公式计算待标注文档的文本向量与各个候选标注标签的标签向量之间的向量距离。还例如,可以采用曼哈顿距离公式计算待标注文档的文本向量与各个候选标注标签的标签向量之间的向量距离。
116.以采用余弦距离公式计算待标注文档的文本向量与各个候选标注标签的标签向量之间的向量距离为例,可以利用余弦距离表示向量距离,余弦距离的计算公式如下:
[0117][0118]
公式(1)中,cos(θ)为余弦距离,a为待标注文档的文本向量,b为候选标注标签的标签向量,||a||为待标注文档的文本向量的模长,||b||为候选标注标签的标签向量的模长,ai为待标注文档的文本向量中的各个维度,bi为候选标注标签的标签向量中的各个维度。
[0119]
在确定待标注文档的文本向量和各个候选标注标签的标签向量之间的向量距离的情况下,可以根据各个向量距离,从候选标注标签中确定目标标注标签;其中,目标标注标签可以用于标注待标注文档。
[0120]
在一些实施例中,在确定出目标标注标签的情况下,可以直接建立待标注文档与目标标注标签之间的关联关系,完成目标标注标签对待标注文档的标注,这样,推荐业务在根据用户画像为用户确定目标标注标签的情况下,与目标标注标签关联推荐的待标注文档,都是与目标标注标签的关联度高的内容。在另一些实施例中,可以在接收到针对待标注文档的标注指令的情况下,建立待标注文档和目标标注标签之间的关联关系,完成对待标注文档的标注。
[0121]
在一些实施例中,可以按照各个向量距离的大小进行排序,再根据排序结果从候选标注标签中确定目标标注标签。例如,将各个向量距离按照从大到小的顺序进行排序,并将预设个数之前的候选标注标签确定为目标标注标签,以预设个数为两个为例,将排序结果中的前两个候选标注标签确定为目标标注标签。
[0122]
再例如,将各个向量距离按照从大到小的顺序进行排序,根据预设百分比从候选标注标签中确定目标标注标签,以候选标注标签的个数为10个,预设百分比为10%为例,可以将排序结果中的第一个候选标注标签确定为目标标注标签。
[0123]
在一些实施例中,所述基于各个所述向量距离,从所述候选标注标签中确定目标标注标签,包括:
[0124]
将所述向量距离大于预设距离阈值的所述候选标注标签确定为所述目标标注标签;
[0125]
其中,所述向量距离用于表征所述待标注文档和所述候选标注标签之间的相似度。
[0126]
这里,可以将向量距离大于预设距离阈值的候选标注标签确定为目标标注标签,其中,向量距离用于表征待标注文档和候选标注标签之间的相似度。以预设距离阈值为0.5为例,可以将预设距离阈值大于0.5的候选标注标签确定为目标标注标签。
[0127]
本公开实施例中,通过向量来表征待标注文档和候选标注标签,并通过向量来确定向量距离,用向量距离来表征待标注文档和候选标注标签之间的相似度,可以实现对目标向量转换模型的复用,且可以更快地确定相似度,有效提升每秒查询率(queries-per-second,qps);基于各个向量距离与预设距离阈值,从候选标注标签中确定目标标注标签,可以更加便捷地确定目标标注标签;此外,还可以根据实际的应用场景适应性调整预设距离阈值,这样根据预设距离阈值确定的目标标注标签可以满足实际的需求。
[0128]
本公开实施例中,第一方面,通过将候选标注标签向量预存在预设数据库中,在需要确定目标标注标签时,可以直接从预设数据库中提取对应的标签向量,且在确定待标注文档的文本向量与各个候选标注标签的标签向量之间的向量距离之前,待标注文档通过一次目标向量转换模型确定文本向量即可,可以提高确定目标标注标签时的响应速度;第二方面,由于向量距离能够用于表征文档与标签之间的相似度,通过向量距离来确定目标标注标签,可以将文档与标签之间的相似度向量化,相较于采用额外的相似度计算模型进行相似度计算,能够更加准确快速地得到目标标注标签;第三方面,通过预先训练得到的目标向量转换模型来确定待标注文档的文本向量和初始标签的标签向量,可以在提高文本语义表征的准确率的基础上,提高确定目标标注标签的准确率。
[0129]
在一些实施例中,所述将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,包括:
[0130]
对所述待标注文档中的非文本内容进行滤除处理,得到具有文本内容的中间文档;
[0131]
根据所述中间文档中满足预设筛选条件的文本内容,生成目标文档;
[0132]
将所述目标文档中的文本内容分别与各个所述初始标签对应的文本内容进行比对。
[0133]
由于待标注文档可以为原创的文档,文档中可能包括标点符号,表情符号等特殊字符,文档在包含有非文本内容的情况下,在将文本与标签进行比对时,可能会出现比对结果不准确的问题;并且,文档的篇幅过长可能会导致在进行文本内容比对时,确定出与待标注文档的重点内容偏差很大的候选标注标签。此外,包含非文本内容的文档在进行向量转换时,非文本内容可能会对文本向量的准确性造成影响。
[0134]
本公开实施例中,可以对待标注文档中的非文本内容进行滤除处理,即,剔除待标注文档中的非文本内容,将待标注文档中的文本内容按照原本的顺序进行整合,得到具有文本内容的中间文档,其中,非文本内容可以包括统一资源定位系统、特殊字符、表情符号
等。
[0135]
在得到中间文档之后,可以根据中间文档中满足预设筛选条件的文本内容,生成目标文档。在一些实施例中,可以按照文本内容在中间文档中的顺序,将满足预设筛选条件的文本内容提取出来,得到目标文档。这里,预设筛选条件可以为预先设定的条件,例如,可以根据需要提取的字符的个数设置筛选条件,再例如,可以根据需要提取的文本内容的语义设置筛选条件。以根据需要提取的字符的个数设置筛选条件为例,可以提取中间文档中前256个字符,也可以提取前192个字符等。预设筛选条件可以根据待标注文档的平均字符数量或最大字符数量等进行适应性调整,在此不作具体限定。
[0136]
例如,待标注文档可以为:今天我和朋友们去美食城吃火锅,这家店的火锅很好吃,大家都非常满足。对非标内容进行滤除处理后,得到的中间文档为:今天我和朋友们去美食城吃火锅这家店的火锅很好吃大家都非常满足。如果预设筛选条件中设置的是提取前32个字符,其中,一个汉字对应两个字符,则根据预设筛选条件,生成的目标文档可以为:今天我和朋友们去美食城吃火锅这家。
[0137]
本公开实施例中,在确定出目标文档的情况下,可以将目标文档中的文本内容分别与初始标签对应的文本内容进行比对。这里,可以运用匹配召回模块实现将目标文档与初始标签进行比对的功能,从而确定与目标文档相匹配的候选标注标签。
[0138]
本公开实施例中,通过对待标注文档进行预处理,可以尽可能地避免文档中包含的非文本内容或文档篇幅过长导致的比对结果不准确的问题,减小对模型效果造成的影响,提高确定文本向量时的准确率。
[0139]
在一些实施例中,所述方法还包括:
[0140]
从历史文档数据中确定训练文档;
[0141]
对所述初始标签进行预处理,得到与所述初始标签对应的候选训练标签;
[0142]
将所述训练文档中的文本内容分别与各个所述候选训练标签对应的文本内容进行比对,根据得到的所述训练文档与各个所述候选训练标签的匹配度,从所述候选训练标签中选取与所述训练文档相对应的目标训练标签;
[0143]
将所述训练文档和所述目标训练标签输入初始向量转换模型进行向量转换处理,得到所述训练文档的文本向量和所述目标训练标签的标签向量;
[0144]
将所述训练文档的文本向量和所述目标训练标签的标签向量输入对比学习模型,得到对比损失值;
[0145]
基于所述对比损失值对所述初始向量转换模型的模型参数进行调整,得到所述目标向量转换模型。
[0146]
这里,历史文档数据为历史积累的数据,可以为存储在内存空间中的历史数据,还可以为按照预设的抓取条件进行抓取的历史数据。例如,历史文档数据可以为历史发布的博文,也可以为历史分享的资讯。训练文档可以从历史文档数据中随机确定,也可以按照历史文档数据中各个历史数据的顺序进行确定。
[0147]
在一些实施例中,训练文档可以为原创的文档,也可以为经过预处理之后得到的预处理文档,这里,预处理可以为滤除训练文档中的非文本内容,也可以为从训练文档中提取满足预设筛选条件的内容,还可以为在滤除训练文档中的非文本内容之后提取满足预设筛选条件的内容。预处理文档可以为具有文本内容的中间文档,也可以为目标文档。通过将
预处理之后得到的预处理文档作为训练文档,可以在将训练文档中的文本内容与候选训练标签对应的文本内容进行比对时,直接使用训练文档,且由于训练文档为原创的文档预处理过的,在作为历史文档数据保存在内存空间中时,可以节约内存空间的资源。
[0148]
这里,可以采用将初始标签按照预设规则进行扩充的方式对初始标签进行预处理,得到候选训练标签。例如,可以通过增加修饰词的方式对初始标签对应的文本内容进行扩充,生成固定字符数量的候选训练标签。再例如,可以根据初始标签的语义对初始标签进行扩充,生成包含更丰富的相关语义的候选训练标签。在实际应用中,可以根据初始标签的字符数量、语义等对预处理的方式进行适应性调整。
[0149]
在一些实施例中,在确定出候选训练标签的情况下,可以将训练文档中的文本内容分别与各个候选训练标签对应的文本内容进行比对,得到训练文档与各个候选训练标签的匹配度,并可以根据得到的训练文档与各个候选训练标签的匹配度,从候选训练标签中选取与训练文档相对应的目标训练标签。
[0150]
在一些实施例中,可以运用匹配召回模块实现将训练文档与候选训练标签进行比对的功能。其中,匹配召回模块可以为将训练文档的文本内容与候选训练标签对应的文本内容进行比对的模块,也可以为将训练文档的语义信息与候选训练标签的语义信息进行比对的模块。这里,可以将匹配召回模块嵌入目标向量转换模型中,也可以将匹配召回模块作为独立的模块与目标向量转换模型共同配置在电子设备或服务器中。对于匹配召回模块的模型和配置方式不作具体限定,只要能实现比对功能即可。
[0151]
在一些实施例中,在确定出目标训练标签的情况下,可以将训练文档和目标训练标签输入初始向量转换模型进行向量转换处理,得到训练文档的文本向量和目标训练标签的标签向量。这里,初始向量转换模型可以为预训练得到的模型,初始向量转换模型可以包括:基于transformer的双向编码表征(bidirectional encoder representations from transformer,bert)模型、使用孪生bert网络的句子嵌入(sentence embeddings using siamese bert-networks,sentence-bert)模型、屏蔽序列到序列预训练(masked sequence to sequence pre-training,mass)模型等。
[0152]
例如,图2a是根据一示例性实施例示出的基于transformer的双向编码表征模型的结构图一,图2b是根据一示例性实施例示出的基于transformer的双向编码表征模型的结构图二,其中,基于transformer的双向编码表征模型是一种自然语言处理模型,基于transformer的双向编码表征模型包含12个transformer的编码器,并由两个预训练任务构成,包括:遮掩语言模型(masked language model,mlm)和下句预测(next sentence prediction,nsp),遮掩语言模型在句子中随机遮盖一部分单词,然后同时利用上下文的信息预测遮盖的单词,这样可以更好地根据全文理解单词的意思。而下句预测任务主要是让模型能够更好地理解句子间的关系。
[0153]
如图2a所示,该结构图为采用遮掩语言模型和下句预测任务进行预训练的过程,[cls]是用于分类的标识符,[sep]是用于分割句子的标识符,tok表示不同的词,e表示输入的嵌入向量,c表示标识符[cls]输出的向量,tn表示第n个词在经过模型处理后输出的向量。在预训练的过程中输入句子对,句子对包括:句子1和句子2,其中,句子1和句子2之间通过[sep]进行分割。
[0154]
如图2b所示,该结构图为对于自然语言处理任务进行微调的过程,针对特定的自
然语言处理任务对模型进行微调,即,可以将预训练得到的模型,应用到各种自然语言处理任务中,进行简单的微调。这里,自然语言处理任务可以包括:句子对的分类任务、单个句子标注任务、问答任务等。其中,在问答任务中输入的是问答对,问答对包括:问题和包含答案的文本,输出为开始/结束序列。在一些实施例中,可以将对预训练模型进行微调后得到的模型确定为初始向量转换模型,充分利用预训练模型的知识。
[0155]
再例如,图3a是根据一示例性实施例示出的使用孪生bert网络的句子嵌入模型的结构图一,图3b是根据一示例性实施例示出的使用孪生bert网络的句子嵌入模型的结构图二,使用孪生bert网络的句子嵌入模型可以对预训练的bert进行修改,使用孪生网络或三重网络生成文本语义表征(如,特征向量)。如图3a所示,该结构图为训练阶段,对两个文本(可以为句子1和句子2)分别借助bert(可以包括:嵌入层、编码器、池化层等)提取特征向量u、v后,然后对u、v进行特征拼接,再输入二分类模型。如图3b所示,该结构图为预测阶段,即使用该模型的阶段,利用余弦距离公式确定两个文本的特征向量的相似度,即cosine-sim(u,v)。在一些实施例中,可以将使用孪生bert网络的句子嵌入模型确定为初始向量转换模型。
[0156]
在确定训练文档的文本向量和目标训练标签的标签向量的情况下,可以将文本向量和标签向量输入对比学习模型,得到对比损失值;基于对比损失值对初始向量转换模型的模型参数进行调整,得到目标向量转换模型。其中,对比学习模型可以包括:简单的对比句向量表征框架(simple contrastive learning of sentence embeddings,simcse)模型、对比学习实现自监督学习(self-supervised learning implemented by contrastive learning,simclr)模型等,对比学习的目标是拉近相似的样本,推开不相似的样本。目标向量转换模型可以为在基于transformer的双向编码表征模型的基础上,采用对比学习的训练思路,进行继续训练得到的模型。
[0157]
需要说明的是,不同的对比学习模型对应的对比损失函数存在差异,确定的对比损失值也存在不同,在基于对比损失值对初始向量转换模型的模型参数进行调整时,也需要结合相应的对比学习模型。
[0158]
在一些实施例中,可以利用历史文档数据和初始标签等数据对基于transformer的双向编码表征模型进行微调,并将微调后得到的基于transformer的双向编码表征模型确定为初始向量转换模型,这样,在使用微调之后得到初始向量转换模型的情况下,通过初始向量转换模型得到的文本向量和标签向量可以更加准确,且更加适用于实际的使用场景。
[0159]
获取向量的方法可以为直接将文本前插入一个[cls]符号位置的输出作为向量,也可以为对所有词的输出求和作为向量,还可以为对所有词的输出求平均作为向量等。但是,以上获取向量的方法均存在各向异性问题,而各向异性可以引发词频影响词向量空间分布和词向量空间稀疏性两种现象,低频词向量分布的稀疏,会导致确定出的向量距离有误差。在初始标签变化非常频繁的场景下,会新增多种标签,对模型的鲁棒性造成很大的影响,且非常不利于系统的稳定。
[0160]
简单的对比句向量表征框架模型是采用对比学习的思想,进行向量表征的新模型,通过将文本向量和标签向量输入简单的对比句向量表征框架模型,可以得到对比损失值,基于对比损失值,可以对基于transformer的双向编码表征模型进行调整,得到目标向
量转换模型。基于对比学习模型得到的对比损失值,对初始向量转换模型进行调整,可以有效解决各向异性问题,在初始标签变化频繁时,可以降低对模型的鲁棒性造成的影响。
[0161]
本公开实施例中,将确定用于标注待标注文档的目标标注标签这一文本分类问题,建模为确定合适的目标向量转换模型,可以有效提升模型的处理效率;利用深度预训练的初始向量转换模型的优势,结合对比学习的思路,并通过对初始标签进行预处理来自定义输入格式,可以提升模型的文本语义表征能力,还可以有效提升目标向量转换模型的处理速度和模型的鲁棒性,同时,对比学习的思路可以有效减少基于transformer的双向编码表征模型作为初始向量转换模型在向量表示时出现的各向异性问题,并且可以大幅度提升目标向量转换模型的准确率。
[0162]
在一些实施例中,所述对所述初始标签进行预处理,得到与所述初始标签对应的候选训练标签,包括:
[0163]
根据所述初始标签的标签类型,确定至少一个与所述初始标签相关联的关联标签;其中,所述关联标签与所述初始标签所标注的对象相同,且所述关联标签的标注范围大于所述初始标签的标注范围;
[0164]
根据所述初始标签的标注范围和各个所述关联标签的标注范围,确定所述初始标签和各个所述关联标签的拼接顺序;
[0165]
按照所述拼接顺序,对所述初始标签和各个所述关联标签进行拼接处理,得到与所述初始标签对应的所述候选训练标签。
[0166]
在一些实施例中,标签类型可以表征标签的级别,即可以按照标签级别对标签进行分类,其中,标签级别可以表征标签的不同层级。例如,如果确定该初始标签为第一标签类型,则可以确定该初始标签为一级标签,如果确定该初始标签为第二标签类型,则可以确定该初始标签为二级标签。在另一些实施例中,标签类型也可以表征标签的语义,即可以按照标签语义对标签进行分类等。关联标签与初始标签可以在标签级别上相互关联,也可以在标签语义上相互关联。
[0167]
在一些实施例中,标签所标注的对象可以为任意对象。例如,可以为某一文档,某一事物、某一个人物或者某一现象等。本公开实施例中,关联标签与初始标签所标注的对象相同,例如,初始标签所标注的对象为第一文档,则关联标签所标注的对象也为该第一文档,如果初始标签所标注的对象为第二文档,则关联标签所标注的对象也为该第二文档。再例如,初始标签所标注的对象为苹果,则关联标签所标注的对象也为苹果。
[0168]
其中,标注范围可以为标签级别的大小,也可以为标签语义中意思表征的范围。以标注范围为标签级别的大小,且初始标签的标注范围小于关联标签的标注范围为例,初始标签的标注范围为某一种水果,关联标签的标注范围可以为全部水果。在一些实施例中,初始标签的标注范围也可以大于关联标签的标注范围。初始标签的标注范围和关联标签的标注范围之间的大小关系,可以根据实际需要进行适应性调整。
[0169]
这里,以标签类型表征标签的级别为例,在基于初始标签的标签类型确定该初始标签的标签级别为三级标签的情况下,由于三级标签的文字通常很短,如3-5个字符,可以根据三级标签的标签类型,确定至少一个与三级标签相关联的关联标签。
[0170]
在一些实施例中,可以根据初始标签确定一个关联标签,该关联标签可以为与三级标签相关联的二级标签,例如,根据三级标签为a汽车,可以确定二级标签为汽车品牌,二
级标签与初始标签所标注的对象均为汽车,且二级标签的标注范围大于初始标签的标注范围。
[0171]
在另一些实施例中,可以根据初始标签确定两个关联标签,该两个关联标签可以为与三级标签相关联的二级标签和一级标签,例如,根据三级标签为a汽车,可以确定二级标签为汽车品牌,一级标签为汽车,一级标签、二级标签与初始标签所标注的对象均为汽车,且一级标签的标注范围大于二级标签的标注范围,二级标签的标注范围大于三级标签的标注范围。
[0172]
需要说明的是,在确定出初始标签的标注范围和各个关联标签的标注范围之后,可以根据初始标签的标注范围和各个关联标签的标注范围,确定初始标签和各个关联标签的拼接顺序,并按照拼接顺序,对初始标签和各个关联标签进行拼接处理,得到与初始标签对应的候选训练标签。
[0173]
以初始标签为三级标签,关联标签包括一级标签和二级标签为例,在一些实施例中,如果按照标注范围从小到大的顺序,对初始标签和关联标签进行拼接,由于一级标签的标注范围大于二级标签的标注范围,二级标签的标注范围大于三级标签的标注范围,可以将二级标签设置于一级标签之前,三级标签设置于二级标签之前。例如,三级标签为a汽车,二级标签为汽车品牌,一级标签为汽车,并用下划线将一级标签、二级标签和三级标签之间进行分隔,拼接处理得到的候选训练标签可以为a汽车_汽车品牌_汽车。
[0174]
在另一些实施例中,如果按照标注范围从大到小的顺序,对初始标签和关联标签进行拼接,由于一级标签的标注范围大于二级标签的标注范围,二级标签的标注范围大于三级标签的标注范围,可以将一级标签设置于二级标签之前,二级标签设置于三级标签之前。例如,三级标签为a汽车,二级标签为汽车品牌,一级标签为汽车,并用下划线将一级标签、二级标签和三级标签之间进行分隔,得到的候选训练标签可以为汽车_汽车品牌_a汽车。
[0175]
在一些实施例中,可以针对实际业务场景中初始标签的数量和特性,适应性地调整对初始标签进行预处理的方式,使得预处理之后得到的候选标注标签可以更精准有效地适用于实际应用场景。
[0176]
在一些实施例中,可以将初始标签经过预处理之后得到的候选训练标签存储在内存空间中,这样,在需要多次使用同一候选训练标签的情况下,可以直接从内存空间中获取,而无需再次对初始标签进行处理得到候选训练标签。
[0177]
本公开实施例中,通过初始标签的标签类型,对初始标签进行拼接得到候选训练标签,可以适当对初始标签进行扩充,为初始标签引入更加丰富的语义信息,可以更准确地识别出文档对应的标签,在将候选训练标签输入到模型中的情况下,可以提高模型的准确率。
[0178]
在一些实施例中,所述与所述训练文档相对应的目标训练标签包括:正样本标签和负样本标签;所述将所述训练文档的文本向量和所述目标训练标签的标签向量输入对比学习模型,得到对比损失值,包括:
[0179]
从所述历史文档数据中确定与所述训练文档之间的相似度大于预设相似度阈值的相似文档;
[0180]
利用所述对比学习模型中的相似度子模型,根据所述训练文档的文本向量和所述
正样本标签的标签向量,确定所述训练文档和所述正样本标签之间的第一相似度;
[0181]
利用所述相似度子模型,根据所述训练文档的文本向量和所述负样本标签的标签向量,确定所述训练文档和所述负样本标签之间的第二相似度;
[0182]
根据所述第一相似度、所述第二相似度以及所述训练文档与所述相似文档之间的第三相似度,确定所述对比损失值;其中,所述对比损失值与所述第三相似度负相关,与所述第一相似度和所述第二相似度之间的和值正相关。
[0183]
这里,以对比学习模型为简单的对比句向量表征框架模型为例,简单的对比句向量表征框架模型可以包含无监督对比学习和有监督对比学习两种方法。无监督对比学习中,采用dropout技术,对原始文本(即,训练文档)进行数据增强,从而构造出正例,用于后续对比学习训练。有监督对比学习中,自然语言推理数据集中的一个前提假设文本具有对应的蕴含文本和矛盾文本,借助于自然语言推理数据集,可以将蕴涵文本作为正例,将矛盾文本作为困难负例,用于后续对比学习训练。
[0184]
图4是根据一示例性实施例示出的训练文档与目标训练标签相对应的结构图,如图4所示,训练文档1对应的目标训练标签1为蕴含文本,目标训练标签2、目标训练标签3、
……
目标训练标签n为对目标训练标签1进行过滤处理之后得到的矛盾文本,其中,训练文档2、
……
训练文档n为待处理的训练文档。训练文档和目标训练标签可以通过目标向量转换模型301进行向量转换,得到训练文档的文本向量和目标训练标签的标签向量。
[0185]
以对比学习模型为有监督对比学习的方法为例。在一些实施例中,可以从历史文档数据中确定与训练文档之间的相似度大于预设相似度阈值的相似文档,即蕴涵文本,作为正例,其中,预设相似度阈值可以为90%,这里,可以根据实际情况对预设相似度阈值进行适应性调整。在另一些实施例中,可以从正样本标签中按照预设指令选择一个正样本标签作为正例。
[0186]
在一些实施例中,利用对比学习模型中的相似度子模型,可以根据训练文档的文本向量和正样本标签的标签向量,确定训练文档和正样本标签之间的第一相似度;利用相似度子模型,根据训练文档的文本向量和负样本标签的标签向量,确定训练文档和负样本标签之间的第二相似度;其中,正样本标签可以为与训练文档之间的匹配度较高的目标训练标签,也可以为借助于自然语言推理数据集进行确定的目标训练标签;负样本标签可以为与训练文档之间的匹配度较低的目标训练标签,也可以为借助于自然语言推理数据集进行确定的目标训练标签。
[0187]
例如,在目标训练标签与训练文档之间的匹配度达到65%的情况下,可以确定目标训练标签与训练文档之间的匹配度较高,并将与训练文档之间的匹配度达到65%的目标训练标签确定为正样本标签。在目标训练标签与训练文档之间的匹配度低于15%的情况下,可以确定目标训练标签与训练文档之间的匹配度较低,并将与训练文档之间的匹配度低于15%的目标训练标签确定为负样本标签。在一些实施例中,可以根据实际情况对正样本标签对应的匹配度和负样本对应的匹配度进行适应性调整。
[0188]
需要说明的是,这里,正样本标签和负样本标签可以表征和训练文档之间的匹配度,负样本标签可以作为该有监督对比学习模型中的困难负例,正样本标签可以作为该有监督对比学习模型中的负例。这里,训练文档和正样本标签之间的第一相似度可以包括:在从正样本标签中按照预设指令选择一个正样本标签作为正例的情况下,正样本标签中剔除
正例后,其他正样本标签和训练文档之间的第一相似度。训练文档和负样本标签之间的第二相似度可以包括:与训练文档之间的匹配度较低的目标训练标签和训练文档之间的第二相似度,例如,与训练文档之间的匹配度低于15%的目标训练标签和训练文档之间的第二相似度。
[0189]
根据训练文档和正样本标签之间的第一相似度、训练文档和负样本标签之间的第二相似度以及训练文档与相似文档之间的第三相似度,可以确定对比损失值,其中,第三相似度可以根据训练文档的文本向量与相似文档的文本向量确定,对比损失值与第三相似度负相关,与第一相似度和第二相似度之间的和值正相关。以该对比学习模型为有监督的简单的对比句向量表征框架模型为例,对比损失值的计算公式如下:
[0190][0191]
公式(2)中,loss为对比损失值,sim为相似度子模型,τ为温度超参数,hi为训练文档的文本向量,h
i+
为相似文档的文本向量,sim(hi,h
i+
)为第三相似度,h
j+
为正样本标签的标签向量,h
j-为负样本标签的标签向量,sim(hi,h
j+
)为第一相似度,sim(hi,h
j-)为第二相似度。
[0192]
在一些实施例中,可以尽量增加训练文档与正例之间的相似度,尽量减小训练文档与负例、困难负例之间的相似度,可以达到最小化对比损失值的目标。
[0193]
本公开实施例中,通过最小化对比损失值,即最大化第三相似度,最小化第一相似度和第二相似度之间的和值,这样,根据对比损失值对初始向量转换模型的模型参数进行调整,基于得到的目标向量转换模型得到的向量分布更为均匀,也可以有效解决各向异性问题。
[0194]
在一些实施例中,所述方法还包括:
[0195]
将与所述训练文档的匹配度大于预设匹配度的候选训练标签确定为可见标签;
[0196]
将与所述训练文档的匹配度小于或等于所述预设匹配度的候选训练标签确定为不可见标签;
[0197]
按照预设标注策略将第一数量的所述可见标签确定为所述正样本标签,将第二数量的所述可见标签确定为所述负样本标签;
[0198]
根据所述第一数量和所述第二数量,从所述不可见标签中确定第三数量的所述负样本标签;
[0199]
其中,所述第二数量与所述第三数量的和值,与所述第一数量之间的比值满足预设比例关系。
[0200]
在一些实施例中,可以将满足预设标注策略的候选训练标签作为正样本标签,其余不满足预设标注策略的候选训练标签均作为负样本标签。但是,直接将不满足预设标注策略的候选训练标签均作为负样本标签,会加大模型的训练难度,导致模型不能收敛。
[0201]
其中,预设标注策略可以为匹配召回模块中预先配置的标注策略,也可以为标注模块中预先配置的标注策略。预设标注策略可以为按照匹配度进行标注,也可以为按照百分比进行标注。例如,以预设标注策略为按照匹配度70%进行标注为例,可以将与训练文档之间的匹配度达到70%的候选训练标签确定为正样本标签,将与训练文档之间的匹配度低
于70%的候选训练标签确定为负样本标签。再例如,以预设标注策略为按照百分比30%进行标注为例,可以将各个候选训练标签与训练文档之间的各个匹配度按照从大到小的顺序进行排序,序列中前30%个候选训练标签确定为正样本标签,后30%个候选训练标签确定为负样本标签。
[0202]
这里,可以将与训练文档的匹配度大于预设匹配度的候选训练标签确定为可见标签,将与训练文档的匹配度小于或等于预设匹配度的候选训练标签确定为不可见标签。在一些实施例中,可以线上筛选模块实现对可见标签和不可见标签的确定。其中,预设匹配度可以为在线上筛选模块中预先配置的,也可以在实际应用过程中根据候选训练标签的数量、候选训练标签与训练文档的匹配度等进行适应性调整。
[0203]
在另一些实施例中,在匹配召回模块根据得到的训练文档与各个候选训练标签的匹配度,从候选训练标签中选取与训练文档相对应的目标训练标签的情况下,将目标训练标签中与训练文档的匹配度大于匹配阈值的目标训练标签确定为可见标签,将目标训练标签中与训练文档的匹配度小于或等于匹配阈值的目标训练标签确定为不可见标签。
[0204]
在一些实施例中,可以在匹配召回模块中配置匹配阈值,也可以在运行匹配召回模块之后,再通过线上筛选模块配置匹配阈值,实现对可见标签和不可见标签的确定。其中,匹配阈值可以为在匹配召回模块或线上筛选模块中预先配置的,也可以在实际应用过程中根据目标训练标签的数量、目标训练标签与训练文档的匹配度等进行适应性调整。需要说明的是,预设匹配度可以等于匹配阈值,也可以小于匹配阈值,预设匹配度与匹配阈值的大小可以根据实际需求进行调整。
[0205]
例如,在运行匹配召回模块之后,可以确定10个目标训练标签,通过线上筛选模块可以将目标训练标签中与训练文档的匹配度大于匹配阈值的5个标签输出,并将这5个输出的标签确定为可见标签;其他5个小于或等于预设匹配度的标签确定为不可见标签。
[0206]
在确定可见标签和不可见标签的情况下,可以按照预设标注策略将第一数量的可见标签确定为正样本标签,将第二数量的可见标签确定为负样本标签。其中,预设标注策略中可以包括对可见标签按照匹配度进行标注的条件,也可以包括需要确定的正样本标签和负样本标签的数量。例如,可以按照预设标注策略将5个可见标签中满足预设标注策略的2个可见标签确定为正样本标签,将5个可见标签中不满足预设标注策略的3个可见标签确定为负样本标签。
[0207]
在一些实施例中,在确定第一数量的正样本标签和第二数量的负样本标签的情况下,从不可见标签中进一步确定第三数量的负样本标签;其中,第二数量与第三数量的和值,与第一数量之间的比值满足预设比例关系。例如,第一数量为2个,第二数量为3个,即,可以确定2个正样本标签和3个负样本标签,预设比例关系为3:1,可以确定第三数量为3个,即从不可见标签中确定3个负样本标签。这里,可以采用随机抽取的方式从不可见标签中确定负样本标签。
[0208]
其中,预设比例可以结合初始标签的数量、目标训练标签的数量等进行确定,可以用于减少由于负样本标签的数量不可控,造成负样本标签过多,导致模型的训练难度加大的问题。
[0209]
图5是根据一示例性实施例示出的确定候选训练标签中可见标签和正样本标签的示意图,如图5所示,候选训练标签401包括可见标签402,可见标签402包括正样本标签403。
[0210]
本公开实施例中,通过预设匹配度、预设标注策略来确定正样本标签和负样本标签,并从不可见标签中随机选取第三数量的目标训练标签作为负样本标签,调节负样本标签和正样本标签之间的比值满足预设比例关系,将满足预设比例关系的负样本标签和正样本标签确定为训练数据,这样,可以降低模型的训练难度,避免由于训练数据的构造导致的模型无法收敛的问题。
[0211]
图6是根据一示例性实施例示出的一种文本处理装置框图。如图6所示,该文本处理装置500主要包括:
[0212]
第一比对模块501,配置为将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,根据得到的所述待标注文档与各个所述初始标签的匹配度,从所述初始标签中选取与所述待标注文档相对应的候选标注标签;其中,所述预设数据库中预存有:各个所述初始标签和各个所述初始标签对应的标签向量,所述标签向量由目标向量转换模型对所述初始标签进行向量转换得到;
[0213]
提取模块502,配置为从所述预设数据库中提取所述候选标注标签的标签向量;
[0214]
第一转换模块503,配置为基于所述目标向量转换模型对所述待标注文档进行向量转换,得到所述待标注文档的文本向量;
[0215]
第一确定模块504,配置为分别确定所述待标注文档的文本向量与各个所述候选标注标签的标签向量之间的向量距离;
[0216]
第二确定模块505,配置为基于各个所述向量距离,从所述候选标注标签中确定目标标注标签;其中,所述目标标注标签用于标注所述待标注文档。
[0217]
在一些实施例中,所述第一比对模块501,配置为:
[0218]
对所述待标注文档中的非文本内容进行滤除处理,得到具有文本内容的中间文档;
[0219]
根据所述中间文档中满足预设筛选条件的文本内容,生成目标文档;
[0220]
将所述目标文档中的文本内容分别与各个所述初始标签对应的文本内容进行比对。
[0221]
在一些实施例中,所述装置还包括:
[0222]
第三确定模块,配置为从历史文档数据中确定训练文档;
[0223]
处理模块,配置为对所述初始标签进行预处理,得到与所述初始标签对应的候选训练标签;
[0224]
第二比对模块,配置为将所述训练文档中的文本内容分别与各个所述候选训练标签对应的文本内容进行比对,根据得到的所述训练文档与各个所述候选训练标签的匹配度,从所述候选训练标签中选取与所述训练文档相对应的目标训练标签;
[0225]
第二转换模块,配置为将所述训练文档和所述目标训练标签输入初始向量转换模型进行向量转换处理,得到所述训练文档的文本向量和所述目标训练标签的标签向量;
[0226]
输入模块,配置为将所述训练文档的文本向量和所述目标训练标签的标签向量输入对比学习模型,得到对比损失值;
[0227]
调整模块,配置为基于所述对比损失值对所述初始向量转换模型的模型参数进行调整,得到所述目标向量转换模型。
[0228]
在一些实施例中,所述处理模块,配置为:
[0229]
根据所述初始标签的标签类型,确定至少一个与所述初始标签相关联的关联标签;其中,所述关联标签与所述初始标签所标注的对象相同,且所述关联标签的标注范围大于所述初始标签的标注范围;
[0230]
根据所述初始标签的标注范围和各个所述关联标签的标注范围,确定所述初始标签和各个所述关联标签的拼接顺序;
[0231]
按照所述拼接顺序,对所述初始标签和各个所述关联标签进行拼接处理,得到与所述初始标签对应的所述候选训练标签。
[0232]
在一些实施例中,所述与所述训练文档相对应的目标训练标签包括:正样本标签和负样本标签;所述输入模块,配置为:
[0233]
从所述历史文档数据中确定与所述训练文档之间的相似度大于预设相似度阈值的相似文档;
[0234]
利用所述对比学习模型中的相似度子模型,根据所述训练文档的文本向量和所述正样本标签的标签向量,确定所述训练文档和所述正样本标签之间的第一相似度;
[0235]
利用所述相似度子模型,根据所述训练文档的文本向量和所述负样本标签的标签向量,确定所述训练文档和所述负样本标签之间的第二相似度;
[0236]
根据所述第一相似度、所述第二相似度以及所述训练文档与所述相似文档之间的第三相似度,确定所述对比损失值;其中,所述对比损失值与所述第三相似度负相关,与所述第一相似度和所述第二相似度之间的和值正相关。
[0237]
在一些实施例中,所述装置还包括:
[0238]
第四确定模块,配置为将与所述训练文档的匹配度大于预设匹配度的候选训练标签确定为可见标签;
[0239]
第五确定模块,配置为将与所述训练文档的匹配度小于或等于所述预设匹配度的候选训练标签确定为不可见标签;
[0240]
第六确定模块,配置为按照预设标注策略将第一数量的所述可见标签确定为所述正样本标签,将第二数量的所述可见标签确定为所述负样本标签;
[0241]
第七确定模块,配置为根据所述第一数量和所述第二数量,从所述不可见标签中确定第三数量的所述负样本标签;
[0242]
其中,所述第二数量与所述第三数量的和值,与所述第一数量之间的比值满足预设比例关系。
[0243]
在一些实施例中,所述第二确定模块505,配置为:
[0244]
将所述向量距离大于预设距离阈值的所述候选标注标签确定为所述目标标注标签;
[0245]
其中,所述向量距离用于表征所述待标注文档和所述候选标注标签之间的相似度。
[0246]
图7是根据一示例性实施例示出的一种文本处理装置800的框图。例如,装置800可以是移动电话,移动电脑等。
[0247]
参照图7,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。
[0248]
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其它组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
[0249]
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0250]
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其它与为装置800生成、管理和分配电力相关联的组件。
[0251]
多媒体组件808包括在装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0252]
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
[0253]
i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0254]
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0255]
通信组件816被配置为便于装置800和其它设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如wi-fi,4g或5g,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信
息。在一个示例性实施例中,通信组件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其它技术来实现。
[0256]
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其它电子元件实现,用于执行上述方法。
[0257]
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0258]
一种非临时性计算机可读存储介质,当存储介质中的指令由文本处理装置的处理器执行时,使得文本处理装置能够执行文本处理方法,所述方法包括:
[0259]
将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,根据得到的所述待标注文档与各个所述初始标签的匹配度,从所述初始标签中选取与所述待标注文档相对应的候选标注标签;其中,所述预设数据库中预存有:各个所述初始标签和各个所述初始标签对应的标签向量,所述标签向量由目标向量转换模型对所述初始标签进行向量转换得到;
[0260]
从所述预设数据库中提取所述候选标注标签的标签向量;
[0261]
基于所述目标向量转换模型对所述待标注文档进行向量转换,得到所述待标注文档的文本向量;
[0262]
分别确定所述待标注文档的文本向量与各个所述候选标注标签的标签向量之间的向量距离;
[0263]
基于各个所述向量距离,从所述候选标注标签中确定目标标注标签;其中,所述目标标注标签用于标注所述待标注文档。
[0264]
图8是根据一示例性实施例示出的一种文本处理装置的硬件结构框图。例如,电子设备1900可以被提供为一服务器。参照图8,电子设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行一种文本处理方法,包括:
[0265]
将待标注文档中的文本内容分别与预设数据库中各个初始标签对应的文本内容进行比对,根据得到的所述待标注文档与各个所述初始标签的匹配度,从所述初始标签中选取与所述待标注文档相对应的候选标注标签;其中,所述预设数据库中预存有:各个所述初始标签和各个所述初始标签对应的标签向量,所述标签向量由目标向量转换模型对所述初始标签进行向量转换得到;
[0266]
从所述预设数据库中提取所述候选标注标签的标签向量;
[0267]
基于所述目标向量转换模型对所述待标注文档进行向量转换,得到所述待标注文档的文本向量;
[0268]
分别确定所述待标注文档的文本向量与各个所述候选标注标签的标签向量之间
的向量距离;
[0269]
基于各个所述向量距离,从所述候选标注标签中确定目标标注标签;其中,所述目标标注标签用于标注所述待标注文档。
[0270]
电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入/输出(i/o)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm或类似。
[0271]
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本公开的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本公开的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
[0272]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0273]
在本公开所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
[0274]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0275]
另外,在本公开各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0276]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0277]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1