一种基于迁移学习的文本分类模型获得方法及相关设备与流程

文档序号:27769698发布日期:2021-12-04 02:22阅读:103来源:国知局
一种基于迁移学习的文本分类模型获得方法及相关设备与流程

1.本公开涉及文本处理技术领域,尤其涉及一种基于迁移学习的文本分类模型获得方法及相关设备。


背景技术:

2.当前,大多采用分词器和对整个卷积神经网络进行训练进行文本分类。然而,与银行相关的业务文本不多,尤其可供于开发用的文本非常少。因此,在人工智能领域,若用数量极少的文本对卷积神经网络模型直接进行训练,收敛效果差,导致文本分类结果准确性低。
3.因此,如何利用较少的训练文本得到分类效果好的文本分类模型,成为本领域人员急需解决的技术问题。


技术实现要素:

4.鉴于上述问题,本公开提供一种克服上述问题或者至少部分地解决上述问题的一种基于迁移学习的文本分类模型获得方法及相关设备,技术方案如下:
5.一种基于迁移学习的文本分类模型获得方法,包括:
6.构建初始文本分类模型,其中,所述初始文本分类模型由预先训练好的词向量模型和预先构建的卷积神经网络的全连接层构成,所述词向量模型的输出层与所述全连接层连接;
7.获得目标文本数据集,其中,所述目标文本数据集中包括至少一个携带有文本类别标签的目标文本;
8.将所述目标文本数据集中的所述目标文本输入至所述初始文本分类模型中对所述全连接层进行分类训练,获得训练好的目标文本分类模型。
9.可选的,所述将所述目标文本数据集中的所述目标文本输入至所述初始文本分类模型中对所述全连接层进行分类训练,获得训练好的目标文本分类模型,包括:
10.将所述目标文本数据集中的所述目标文本输入至所述初始文本分类模型中的所述词向量模型中,分别获得所述词向量模型输出的与各所述目标文本对应的文本向量矩阵;
11.将各所述文本向量矩阵输入至所述全连接层中进行分类训练,获得已训练好所述全连接层的目标文本分类模型。
12.可选的,在所述获得目标文本数据集之前,所述方法还包括:
13.获得原始文本数据集,其中,所述原始文本数据集中包括至少一个携带有文本类别标签的原始文本;
14.根据所述词向量模型的输入要求,分别对所述原始文本数据集中的各所述原始文本进行预处理,生成目标文本数据集。
15.可选的,所述根据所述词向量模型的输入要求,分别对所述原始文本数据集中的
各所述原始文本进行预处理,包括:
16.对所述原始文本数据集中的各所述原始文本进行维度处理,获得满足所述词向量模型的输入维度要求的所述目标文本;
17.将所述原始文本数据集中的各所述原始文本携带的所述文本类别标签进行格式处理,获得满足所述词向量模型的标签格式要求的所述文本类别标签。
18.可选的,在所述获得训练好的目标文本分类模型之后,所述方法还包括:
19.按照预设模型评估指标,对所述目标文本分类模型进行评估,获得评估结果。
20.可选的,所述预设模型评估指标至少包括总体分类精度和特异性。
21.可选的,所述词向量模型满足预设收敛要求条件。
22.一种基于迁移学习的文本分类模型获得装置,包括:初始文本分类模型构建单元、目标文本数据集获得单元以及目标文本分类模型获得单元,
23.所述初始文本分类模型构建单元,用于构建初始文本分类模型,其中,所述初始文本分类模型由预先训练好的词向量模型和预先构建的卷积神经网络的全连接层构成,所述词向量模型的输出层与所述全连接层连接;
24.所述目标文本数据集获得单元,用于获得目标文本数据集,其中,所述目标文本数据集中包括至少一个携带有文本类别标签的目标文本;
25.所述目标文本分类模型获得单元,用于将所述目标文本数据集中的所述目标文本输入至所述初始文本分类模型中对所述全连接层进行分类训练,获得训练好的目标文本分类模型。
26.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现上述任一项所述的基于迁移学习的文本分类模型获得方法。
27.一种电子设备,所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如上述任一项所述的基于迁移学习的文本分类模型获得方法。
28.借由上述技术方案,本公开提供的一种基于迁移学习的文本分类模型获得方法及相关设备,可以构建初始文本分类模型,其中,初始文本分类模型由预先训练好的词向量模型和预先构建的卷积神经网络的全连接层构成,词向量模型的输出层与全连接层连接;获得目标文本数据集,其中,目标文本数据集中包括至少一个携带有文本类别标签的目标文本;将目标文本数据集中的目标文本输入至初始文本分类模型中对全连接层进行分类训练,获得训练好的目标文本分类模型。本公开通过预先训练好的词向量模型和卷积神经网络的全连接层构建文本分类模型,基于迁移学习技术对全连接层进行分类训练,在训练文本较少的情况下也可以获得分类准确性高的目标文本分类模型。
29.上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
30.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通
技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
31.图1示出了本公开实施例提供的基于迁移学习的文本分类模型获得方法的一种实施方式的流程示意图;
32.图2示出了本公开实施例提供的基于迁移学习的文本分类模型获得方法的另一种实施方式的流程示意图;
33.图3示出了本公开实施例提供的基于迁移学习的文本分类模型获得方法的另一种实施方式的流程示意图;
34.图4示出了本公开实施例提供的基于迁移学习的文本分类模型获得方法的另一种实施方式的流程示意图;
35.图5示出了本公开实施例提供的基于迁移学习的文本分类模型获得装置的结构示意图。
具体实施方式
36.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
37.如图1所示,本公开实施例提供的基于迁移学习的文本分类模型获得方法的一种实施方式的流程示意图,该基于迁移学习的文本分类模型获得方法可以包括:
38.s100、构建初始文本分类模型,其中,初始文本分类模型由预先训练好的词向量模型和预先构建的卷积神经网络的全连接层构成,词向量模型的输出层与全连接层连接。
39.可选的,本公开实施例涉及的文本可以是银行业务相关文本。具体的,银行业务相关文本可以包括智能客服系统产生的业务文本。进一步地,本公开实施例涉及的文本可以具体为中文文本。
40.本公开实施例可以使用一个经过足够多的文本进行训练后的词向量模型。可选的,词向量模型满足预设收敛要求条件。其中,预设收敛要求条件可以根据实际需要进行设置,本公开在此不作进一步限制。本公开实施例基于一个收敛效果好的词向量模型构建文本分类模型,可以在训练文本较少的情况下,训练出一个具有分类精准的全连接层。
41.可选的,卷积神经网络可以为lenet网络、alexnet网络、vgg网络、nin网络、goolenet网络以及densenet网络中的任一种。可以理解的是,在实际情况中,本公开实施例可以分别将该词向量模型分别连接不同类型的卷积神经网络的全连接层,构建出多个初始文本分类模型,以便对多个初始文本分类模型中的全连接层进行训练。
42.其中,词向量模型的输出端与该全连接层的输入端连接。词向量模型的输入为文本,全连接层的输出为该文本的分类结果。
43.s200、获得目标文本数据集,其中,目标文本数据集中包括至少一个携带有文本类别标签的目标文本。
44.在实际中,本公开实施例可以设置不同文本类别的文件夹,一个文件夹对应的文本类别标签,文件夹中保存有该文本类别标签和属于该文件夹对应的文本类别的文本。
45.本公开实施例可以对采集到的原始文本进行预处理,使得处理后的目标文本可以输入至词向量模型中。可选的,预处理可以包括切词、去除停用词、标点符号以及重复词中的一种或多种处理。
46.可选的,基于图1所示方法,如图2所示,本公开实施例提供的基于迁移学习的文本分类模型获得方法的另一种实施方式的流程示意图,在步骤s200之前,该基于迁移学习的文本分类模型获得方法还可以包括:
47.s01、获得原始文本数据集,其中,原始文本数据集中包括至少一个携带有文本类别标签的原始文本。
48.具体的,本公开实施例可以对原始文本数据集中的各原始文本进行维度处理,获得满足词向量模型的输入维度要求的目标文本。
49.s02、根据词向量模型的输入要求,分别对原始文本数据集中的各原始文本进行预处理,生成目标文本数据集。
50.具体的,本公开实施例可以将原始文本数据集中的各原始文本携带的文本类别标签进行格式处理,获得满足词向量模型的标签格式要求的文本类别标签。
51.本公开实施例通过对原始文本进行维度处理以及对文本类别标签进行格式处理,使得处理后获得的目标文本和文本类别标签满足词向量模型的输入要求。
52.s300、将目标文本数据集中的目标文本输入至初始文本分类模型中对全连接层进行分类训练,获得训练好的目标文本分类模型。
53.其中,词向量模型在全连接层进行分类训练的过程不参与训练,即不改变词向量模型的模型参数。在对全连接层进行分类训练的过程中,不断调整全连接层的参数,使得调整后的全连接层具有准确进行文本分类的能力。
54.具体的,基于图1所示方法,如图3所示,本公开实施例提供的基于迁移学习的文本分类模型获得方法的另一种实施方式的流程示意图,步骤s300可以包括:
55.s310、将目标文本数据集中的目标文本输入至初始文本分类模型中的词向量模型中,分别获得词向量模型输出的与各目标文本对应的文本向量矩阵。
56.s320、将各文本向量矩阵输入至全连接层中进行分类训练,获得已训练好全连接层的目标文本分类模型。
57.可以理解的是,本公开实施例可以通过深度学习算法对全连接层进行分类训练,使得训练好的全连接层具有对目标文本的文本分类能力。
58.本公开实施例基于预先训练好的词向量模型输出的文本向量矩阵对全连接层进行分类训练,可以合理控制分类训练中的过拟合问题,使得训练好的全连接层具有准确的文本分类能力。
59.可选的,基于图1所示方法,如图4所示,本公开实施例提供的基于迁移学习的文本分类模型获得方法的另一种实施方式的流程示意图,在步骤s300之后,该基于迁移学习的文本分类模型获得方法还可以包括:
60.s400、按照预设模型评估指标,对目标文本分类模型进行评估,获得评估结果。
61.可选的,预设模型评估指标至少包括总体分类精度(accuracy)和特异性。
62.本公开实施例可以通过预设模型评估指标对训练好的目标文本分类模型进行评估,可以确定文本分类效果更加准确的模型。
63.本公开提供的一种基于迁移学习的文本分类模型获得方法,可以构建初始文本分类模型,其中,初始文本分类模型由预先训练好的词向量模型和预先构建的卷积神经网络的全连接层构成,词向量模型的输出层与全连接层连接;获得目标文本数据集,其中,目标文本数据集中包括至少一个携带有文本类别标签的目标文本;将目标文本数据集中的目标文本输入至初始文本分类模型中对全连接层进行分类训练,获得训练好的目标文本分类模型。本公开通过预先训练好的词向量模型和卷积神经网络的全连接层构建文本分类模型,基于迁移学习技术对全连接层进行分类训练,在训练文本较少的情况下也可以获得分类准确性高的目标文本分类模型。
64.虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
65.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
66.与上述方法实施例相对应,本公开实施例还提供一种基于迁移学习的文本分类模型获得装置,其结构如图5所示,可以包括:初始文本分类模型构建单元100、目标文本数据集获得单元200以及目标文本分类模型获得单元300。
67.初始文本分类模型构建单元100,用于构建初始文本分类模型,其中,初始文本分类模型由预先训练好的词向量模型和预先构建的卷积神经网络的全连接层构成,词向量模型的输出层与全连接层连接。
68.可选的,词向量模型满足预设收敛要求条件。
69.目标文本数据集获得单元200,用于获得目标文本数据集,其中,目标文本数据集中包括至少一个携带有文本类别标签的目标文本。
70.目标文本分类模型获得单元300,用于将目标文本数据集中的目标文本输入至初始文本分类模型中对全连接层进行分类训练,获得训练好的目标文本分类模型。
71.可选的,目标文本分类模型获得单元300,包括:文本向量矩阵获得子单元和目标模型获得子单元。
72.文本向量矩阵获得子单元,用于将目标文本数据集中的目标文本输入至初始文本分类模型中的词向量模型中,分别获得词向量模型输出的与各目标文本对应的文本向量矩阵。
73.目标模型获得子单元,用于将各文本向量矩阵输入至全连接层中进行分类训练,获得已训练好全连接层的目标文本分类模型。
74.可选的,该基于迁移学习的文本分类模型获得装置还包括:原始文本数据集获得单元和目标文本数据集生成单元。
75.原始文本数据集获得单元,用于获得原始文本数据集,其中,原始文本数据集中包括至少一个携带有文本类别标签的原始文本。
76.目标文本数据集生成单元,用于根据词向量模型的输入要求,分别对原始文本数据集中的各原始文本进行预处理,生成目标文本数据集。
77.可选的,目标文本数据集生成单元,具体用于对原始文本数据集中的各原始文本进行维度处理,获得满足词向量模型的输入维度要求的目标文本。将原始文本数据集中的
各原始文本携带的文本类别标签进行格式处理,获得满足词向量模型的标签格式要求的文本类别标签。
78.可选的,该基于迁移学习的文本分类模型获得装置还包括:模型评估单元。
79.模型评估单元,用于在目标文本分类模型获得单元300获得训练好的目标文本分类模型之后,按照预设模型评估指标,对目标文本分类模型进行评估,获得评估结果。
80.可选的,预设模型评估指标至少包括总体分类精度和特异性。
81.本公开提供的一种基于迁移学习的文本分类模型获得装置,可以构建初始文本分类模型,其中,初始文本分类模型由预先训练好的词向量模型和预先构建的卷积神经网络的全连接层构成,词向量模型的输出层与全连接层连接;获得目标文本数据集,其中,目标文本数据集中包括至少一个携带有文本类别标签的目标文本;将目标文本数据集中的目标文本输入至初始文本分类模型中对全连接层进行分类训练,获得训练好的目标文本分类模型。本公开通过预先训练好的词向量模型和卷积神经网络的全连接层构建文本分类模型,基于迁移学习技术对全连接层进行分类训练,在训练文本较少的情况下也可以获得分类准确性高的目标文本分类模型。
82.关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
83.所述基于迁移学习的文本分类模型获得装置包括处理器和存储器,上述初始文本分类模型构建单元100、目标文本数据集获得单元200以及目标文本分类模型获得单元300等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
84.处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来通过预先训练好的词向量模型和卷积神经网络的全连接层构建文本分类模型,基于迁移学习技术对全连接层进行分类训练,在训练文本较少的情况下也可以获得分类准确性高的目标文本分类模型。
85.本公开实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现所述基于迁移学习的文本分类模型获得方法。
86.本公开实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述基于迁移学习的文本分类模型获得方法。
87.本公开实施例提供了一种电子设备,电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述的基于迁移学习的文本分类模型获得方法。本文中的电子设备可以是服务器、pc、pad、手机等。
88.本公开还提供了一种计算机程序产品,当在电子设备上执行时,适于执行初始化基于迁移学习的文本分类模型获得方法步骤的程序。
89.需要说明的是,本公开提供的一种基于迁移学习的文本分类模型获得方法及相关设备可用于人工智能领域以及金融领域。上述仅为示例,并不对本公开提供的一种基于迁移学习的文本分类模型获得方法及相关设备的应用领域进行限定。
90.本公开是参照根据本公开实施例的方法、装置、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中
的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
91.在一个典型的配置中,电子设备包括一个或多个处理器(cpu)、存储器和总线。电子设备还可以包括输入/输出接口、网络接口等。
92.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
93.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd

rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
94.在本公开的描述中,需要理解的是,如若涉及术语“上”、“下”、“前”、“后”、“左”和“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的位置或元件必须具有特定方位、以特定的方位构成和操作,因此不能理解为本公开的限制。
95.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
96.本领域技术人员应明白,本公开的实施例可提供为方法、系统或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
97.以上仅为本公开的实施例而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1