一种意图匹配度分析模型的训练方法及装置与流程

文档序号:32443869发布日期:2022-12-06 23:12阅读:48来源:国知局
一种意图匹配度分析模型的训练方法及装置与流程

1.本技术涉及自然语言理解技术领域,特别是涉及一种意图匹配度分析模型的训练方法及装置。


背景技术:

2.随着科技的不断发展,人们对意图识别的应用也越来越多。意图识别,顾名思义就是判断一句话或者一个文本是什么意思或者要做些什么,比如要对一个问题进行意图识别,就要判断这个问题想要得到的是天气、是新闻还是想要得到其他类型的信息。现有技术中对意图识别采用预定义好的意图类别训练分类模型,但是通过这种方式训练出的模型对新出现的,没有进行分类的意图不能进行识别,外延性较差。


技术实现要素:

3.基于上述问题,本技术提供了一种意图匹配度分析模型的训练方法及装置。
4.本技术公开了一种意图匹配度分析模型的训练方法:
5.获取样本数据集,所述样本数据集中包括多个样本数据,一条样本数据包括一个文本和一个意图,所述样本数据具有对应的样本意图置信度,所述样本意图置信度用于表示样本数据中文本与意图的匹配程度;
6.将样本数据输入初始模型得到样本数据对应的待定意图置信度;
7.利用所述待定意图置信度与所述样本意图置信度的差异调整所述初始模型得到意图匹配度分析模型,所述意图匹配度分析模型用于分析文本与意图的匹配度。
8.可选的,所述分析文本与意图的匹配度包括:
9.获取多个待分析意图;
10.将待分析文本和所述多个待分析意图形成多个待分析数据,一条待分析数据中包括所述待分析文本和一个意图;
11.将待分析数据输入所述意图识别模型得到待分析数据对应的匹配度,所述多个待分析数据用于得到多个待分析数据对应的匹配度;
12.根据所述多个待分析数据对应的匹配度确定所述待分析文本与所述多个待分析意图的匹配度。
13.可选的,所述初始模型包括:
14.参数数量大于预设参数数量的初始模型。
15.可选的,所述意图匹配度分析模型的训练方法进一步包括:
16.将所述意图匹配度分析模型作为教师模型;
17.利用所述教师模型的特征提取层初始化学生模型的特征提取层,所述学生模型的特征提取层与所述教师模型的特征提取层具有对应关系;
18.将样本数据输入所述学生模型得到样本数据对应的学生待定匹配度与特征提取层中输出的学生特征匹配度,所述学生特征匹配度有对应的教师特征匹配度,所述教师特
征匹配度是通过所述学生模型特征提取层对应的教师模型特征提取层获得的;
19.计算所述学生特征匹配度与所述教师特征匹配度的均方误差;
20.利用所述均方误差与所述学生待定匹配度得到学生匹配度;
21.利用所述学生匹配度与所述样本意图置信度的差异调整所述学生模型得到轻量级意图匹配度分析模型。
22.本技术公开了一种意图匹配度分析模型的训练装置,所述装置包括:
23.样本数据集获取模块,用于获取样本数据集,所述样本数据集中包括多个样本数据,一条样本数据包括一个文本和一个意图,所述样本数据具有对应的样本意图置信度,所述样本意图置信度用于表示样本数据中文本与意图的匹配程度;
24.待定意图置信度获取模块,用于获取待定意图置信度,将样本数据输入初始模型得到样本数据对应的待定意图置信度;
25.模型调整模块,用于调整初始模型,利用所述待定意图置信度与所述样本意图置信度的差异调整所述初始模型得到意图匹配度分析模型,所述意图匹配度分析模型用于分析文本与意图的匹配度。
26.可选的,所述意图匹配度分析模型的训练装置包括:
27.意图获取模块,用于获取多个待分析意图;
28.待分析数据生成模块,用于生成待分析数据,将待分析文本和所述多个意图形成多个待分析数据,一条待分析数据中包括所述待分析文本和一个意图;
29.待分析数据匹配度生成模块,用于生成待分析数据匹配度,将待分析数据输入所述意图识别模型得到待分析数据对应的匹配度,所述多个待分析数据用于得到多个待分析数据对应的匹配度;
30.分析结果确定模块,用于确定意图匹配度分析结果,根据所述多个待分析数据对应的匹配度确定所述待分析文本与所述多个待分析意图的匹配度。
31.可选的,所述意图匹配度分析模型的训练装置包括:
32.初始模型判断模块,用于判断初始模型的参数数量是否大于预设参数数量。
33.可选的,所述意图匹配度分析模型的训练装置进一步包括:
34.教师模型确定模块,用于确定教师模型,将所述意图匹配度分析模型作为教师模型;
35.学生模型初始化模块,用于初始化学生模型,利用所述教师模型的特征提取层初始化学生模型的特征提取层,所述学生模型的特征提取层与所述教师模型的特征提取层具有对应关系;
36.学生匹配度获取模块,用于获取学生匹配度,将样本数据输入所述学生模型得到样本数据对应的学生待定匹配度与特征提取层中输出的学生特征匹配度,所述学生特征匹配度有对应的教师特征匹配度;
37.计算模块,用于计算所述学生特征匹配度与所述教师特征匹配度的均方误差;
38.学生匹配度确定模块,利用所述均方误差与所述学生待定匹配度得到学生匹配度;
39.学生模型调整模块,用于调整学生模型,利用所述学生匹配度与所述样本意图置信度的差异调整所述学生模型得到轻量级意图匹配度分析模型。
40.本技术还提供了一种电子设备,包括存储器和处理器,其中:
41.所述存储器,用于保存计算机程序;
42.所述处理器,用于执行所述计算机程序,以实现上述意图匹配度分析模型的训练方法。
43.本技术还提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现上述意图匹配度分析模型的训练方法。
44.相较于现有技术,本技术具有以下有益效果:
45.现有技术采用预定义好的意图类别训练分类模型,利用分类模型进行意图识别,但是通过这种方式训练出的模型对新出现的,没有进行分类的意图不能进行识别,外延性较差,通过本技术提供的方法训练出的意图匹配度分析模型可以对文本与意图的匹配度进行分析,通过匹配度确定文本的意图识别结果,即使是训练过程中没有出现的意图也可以进行分析匹配度,通过匹配度得到意图识别结果,外延性较强。
46.除此之外本技术还有以下有益效果:
47.在现有的模型的训练过程中,使用的初始模型参数越多则训练出的模型越准确,但是通过多参数初始模型训练出的模型在实时应用的场景与资源限制的场景无法使用,若使用的初始模型参数较少则训练出模型的性能较差。本技术提供的方法若使用参数较少的初始模型进行训练并使用教师模型进行监督,通过本技术提供的方法训练出的模型性能较好,在应用的场景下分析准确度较高。
附图说明
48.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
49.图1为本技术提供的一种意图匹配度分析模型的训练方法流程图;
50.图2为本技术提供的另一种意图匹配度分析模型的训练方法流程图;
51.图3为本技术提供的又一种意图匹配度分析模型的训练方法流程图;
52.图4为本技术提供的一种意图匹配度分析模型的训练装置结构示意图。
具体实施方式
53.正如前文描述,目前的意图识别需要获取数据集,对数据集中的数据进行分类,相同意图的数据分为同一类,利用分好类的数据训练分类模型。实际应用场景时需要判断文本的种类,所述种类为所述文本的意图,通过分类的方式实现意图识别。
54.经过研究发现,通过现有技术训练出的分类模型需要判断文本的种类,而种类是预先设定好的,如果文本并不属于预先设定好的任意一个种类,则现有技术训练出的分类模型不能对其进行分类已到达意图识别的目的,也就是说现有技术并不能对新出现的意图进行识别,外延性较差。
55.为了解决上述问题,本技术提供了一种意图匹配度分析模型的训练方法及装置,所述方法通过获取样本数据集,所述样本数据集中包括多个样本数据,一条样本数据包括
一个文本和一个意图,所述样本数据具有对应的样本意图置信度;将样本数据输入初始模型得到样本数据对应的待定意图置信度;利用所述待定意图置信度与所述样本意图置信度的差异调整所述初始模型得到意图匹配度分析模型。本技术提供的方法可以通过分析匹配度的方式进行意图识别,可以对零意图样本的意图进行识别,从而实现开放意图识别,与现有技术通过分类进行意图识别相比外延性更强,现有技术中使用的初始模型参数较多,在需要实时应用的场景和资源限制的场景中无法使用这些参数较多的初始模型,如果放弃使用参数较多的初始模型而选择参数较少的初始模型,训练出的模型精度较差,本技术相比于现有技术提供了一种使用监督训练的方式训练参数较少的初始模型,使训练出的意图匹配度分析模型可以支持实时应用的场景和资源限制的场景,并且提高了训练出模型在分析时的准确度。
56.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
57.图1为本技术提供的一种意图匹配度分析模型的训练方法流程图,所述方法包括以下步骤:
58.s101:获取样本数据集,所述样本数据集中包括多个样本数据,一条样本数据包括一个文本和一个意图,所述样本数据具有对应的样本意图置信度,所述样本意图置信度用于表示样本数据中文本与意图的匹配程度。
59.其中,可以准备多个数据集,数据集可以是开源的数据集,也可以是通过搜集到的数据组成的数据集,也可以是通过其他形式获取的数据集,都应该属于本技术的保护范围。
60.其中,一个数据集中包括多个文本和多个意图,而且每个文本都有对应的意图,将一个数据集中的文本和这个数据集中所有的意图进行拼接,将文本与这个文本对应的意图作为正样本,也就是对应的样本意图置信度为1,将文本与这个数据集中处对应意图之外的意图进行拼接作为负样本,也就是对应的样本意图置信度为0。对准备的所有数据集都进行上述拼接,将所有拼接好的数据形成集合作为样本数据集。
61.s102:将样本数据输入初始模型得到样本数据对应的待定意图置信度。
62.其中,待定意图置信度表示样本数据中文本与意图的待定意图置信度。
63.s103:利用所述待定意图置信度与所述样本意图置信度的差异调整所述初始模型得到意图匹配度分析模型,所述意图匹配度分析模型用于分析文本与意图的匹配度。
64.其中,一条样本数据包括一个文本和一个意图,在样本数据集中存在样本数据对应的样本意图置信度,也就是一条样本数据中文本和意图的样本意图置信度,将样本数据输入初始模型后得到的待定意图置信度是初始模型得到的文本与意图的待定意图置信度,文本和意图准确的样本意图置信度与初始模型得到的待定意图置信度存在差异,利用差异调整初始模型的参数。将第一条样本数据输入模型得到第一条样本数据对应的待定意图置信度,将第一条样本数据对应的待定意图置信度与第一条样本数据对应的样本意图置信度进行比较得到差异,利用差异调整模型,将第二条样本数据输入调整后的模型得到第二条样本数据对应的待定意图置信度,将第二条样本数据对应的待定意图置信度与第二条样本数据对应的样本意图置信度进行比较得到差异,利用差异再次调整模型,进行迭代直到训
练完成。
65.上述意图匹配度分析模型的训练方法获取的样本数据集可以包括对多个分类数据集进行处理后得到的样本数据,可以将多个不同分类数据集中的意图和文本组成样本数据集,并直接利用样本数据集进行训练,不用为多个分类数据集进行多次训练,优化了训练过程,使模型训练更简单。上述意图匹配度分析模型的训练方法通过使用的样本数据集中的样本数据包括文本与意图,并具有对应的样本意图置信度,将这样的样本数据输入初始模型进行训练可以使训练出的意图匹配度分析模型对输入文本与意图的匹配度进行分析,通过匹配度对文本进行意图识别,即使是训练过程中没有出现的意图也可以通过分析匹配度的方式进行识别,准确性较高,外延性较高。
66.选择的初始模型不同,训练出的意图匹配度分析模型在预测时的准确度也会受到影响,初始模型的参数越多训练出的意图匹配度分析模型在预测时的准确度越高,相对的占用的资源也越多,下述方法提供了一种让参数较少的初始模型训练出的模型性能接近或达到使用参数多初始模型训练出的模型性能的方法,图2为本技术提供的另一种意图匹配度分析模型的训练方法流程图,所述方法包括以下步骤;
67.s201:训练教师模型。
68.其中,使用参数数量大于阈值的初始模型进行如图1所对应的意图匹配度分析模型的训练方法进行训练得到意图匹配度分析模型,并将所述意图匹配度分析模型作为教师模型。
69.s202:初始化学生模型。
70.其中,将参数数量小于阈值的初始模型作为学生模型,并使用教师模型对学生模型进行初始化,初始化的过程可以是利用教师模型中特征提取层的后三层将学生模型的特征提取层设置为三层,教师模型的最后一层特征提取层与学生模型第三层特征提取层相对应,教师模型的倒数第二层特征提取层与学生模型第二层特征提取层相对应,教师模型的倒数第三层特征提取层与学生模型第一层特征提取层相对应。
71.s203:利用教师模型监督训练学生模型。
72.其中,将样本数据输入学生模型和教师模型,样本数据与图1所对应的意图匹配度分析模型的训练方法中提到的样本数据描述一致。
73.其中,将样本数据输入学生模型可以得到样本数据中文本与意图的学生待定匹配度,还可以得到学生模型的三个特征提取层输出的三个学生特征匹配度。
74.其中,将样本数据输入教师模型可以得到教师模型后三层特征提取层输出的样本数据中文本与意图的教师匹配度,教师匹配度和学生匹配度具有对应关系,学生模型第一层特征提取层输出的学生特征匹配度与教师模型倒数第三层特征提取层输出的教师匹配度具有对应关系,学生模型其余两层输出的学生特征匹配度与教师特征匹配度的对应关系如s202所述。
75.s204:计算学生特征匹配度与教师特征匹配度的均方误差。
76.其中,将学生模型第一层特征提取层输出的学生特征匹配度与教师模型倒数第三层特征提取层输出的教师匹配度计算均方误差,学生模型其余两层输出的学生特征匹配度与对应的教师特征匹配度计算均方误差,将三个计算得到的均方误差相加得到总均方误差。
77.s205:利用总均方误差与学生待定匹配度确定学生匹配度。
78.其中,学生待定匹配度是根据学生模型计算出的训练损失得到的,可以将训练损失与总均方误差相加得到学生匹配度。
79.s206:利用学生匹配度和样本意图置信度的差距调整学生模型。
80.其中,一条样本数据可以通过上述步骤得到一个学生匹配度,可以将学生匹配度与所述样本数据的样本意图置信度进行比较得到差异,利用差异调整学生模型,进行迭代直到训练完成,利用学生模型训练得到轻量级意图匹配度分析模型。
81.上述意图匹配度分析模型的训练方法提供了对参数较少的初始模型进行训练的过程,将参数较少的初始模型作为学生模型,通过使用教师模型对学生模型进行监督训练使训练出的模型性能可以接近或达到教师模型,通过上述方法训练出的轻量级意图匹配度分析模型可以在实时应用的场景和资源较差的场景下进行应用,更加准确、易用。
82.此外,本技术结合实际使用需要提出了又一种方法,图3为本技术提供的又一种意图匹配度分析模型的训练方法流程图;
83.s301:准备多个分类数据集。
84.其中,分类数据集可以是如chinanews、ccfbdci2020等数据集,也可以是领域意图分类数据集,也可以是其他开源数据集,都应该属于本技术保护的范围,数据集中包括多个文本与多个意图。
85.s302:为数据集中的数据准备样本意图置信度。
86.其中,以chinanews为例,chinanews数据集中存在多个文本,每个文本都有一个与文本匹配的意图,可以为这个意图添加一个描述,这个描述可以是对意图的解释或者对意图的扩充,文本有一个能够正确对文本进行描述的意图,将文本与能够正确对文本进行描述的意图进行拼接,并将样本匹配度设定为1,将文本与数据集中除能够正确对文本进行描述的意图以外的意图进行拼接,并将样本匹配度设定为0。
87.s303:准备样本数据集。
88.其中,可以将经过s302处理之后的部分数据集中的数据作为样本数据,也可以将处理之后的全部数据集中的数据作为样本数据,将样本数据集合到一起形成样本数据集。
89.s304:将样本数据输入初始模型得到样本数据对应的待定意图置信度。
90.其中,初始模型可以是roberta,将样本数据输入roberta可以得到样本数据对应的待定意图置信度。
91.s305:利用所述待定意图置信度与所述样本意图置信度的差异调整所述初始模型得到意图匹配度分析模型。
92.s306:准备验证数据集。
93.其中,可以将s303选择之后的另一部分数据集中的数据作为验证数据;也可以另外准备多个分类数据集,如thucnews、iflytek_ltc等数据集,为准备好的数据集准备验证匹配度,准备的过程如s302所述,将准备好的数据集中的数据作为验证数据,将验证数据集合到一起形成验证数据集。
94.s307:验证意图匹配度分析模型。
95.其中,可以将验证数据集中的一条验证数据输入意图匹配度分析模型,得到验证数据中文本与意图的验证匹配度,将验证匹配度与验证数据对应的样本意图置信度进行比
较得到差异。可以提前设置验证匹配度与样本意图置信度差异的阈值,如果验证匹配度与样本意图置信度差异小于阈值,则意图匹配度分析模型验证完成;如果验证匹配度与样本意图置信度差异不小于阈值,则利用验证匹配度与样本意图置信度差异调整意图匹配度分析模型。
96.其中,也可以将一条验证数据输入意图匹配度分析模型得到第一验证匹配度,比较第一验证匹配度与验证数据对应的样本意图置信度得到第一差异,利用第一差异调整意图匹配度分析模型。将另一条验证数据输入调整后的意图匹配度分析模型得到第二验证匹配度,比较第二验证匹配度与验证数据对应的样本意图置信度得到第二差异,利用第二差异再次调整意图匹配度分析模型,重复上述过程,当连续五次调整均不能改变验证匹配度与样本意图置信度的差异时验证完成,也可以是连续十次调整均不能改变验证匹配度与样本意图置信度的差异,也可以是其他连续次数调整均不能改变验证匹配度与样本意图置信度的差异,都应该属于本技术的保护范围。
97.s308:准备待分析数据。
98.其中,可以准备多个待分析意图,待分析意图可以是人为确定的,也可以是通过其他方式确定的都应该属于本技术的保护范围,将一个待分析文本和一个待分析意图组成多条待分析数据,利用一个待分析文本和多个待分析意图组成多条待分析数据。
99.s309:意图匹配度分析。
100.其中,可以将一条待分析数据输入意图匹配度分析模型,可以通过意图匹配度分析模型可以得到待分析数据中待分析文本和待分析意图的匹配度,多条待分析数据可以得到待分析文本与多条待分析意图的匹配度。在确定待分析文本意图的时候可以将匹配度最高的待分析意图作为待分析文本的意图识别结果,也可以通过提前设定,同时输出匹配度第二高的待分析意图,将匹配度第二高的待分析意图作为待分析文本的备选意图识别结果。可以提前设定最低匹配度阈值,如果待分析文本与多个待分析意图的匹配度均低于最低匹配度阈值,在待分析意图不存在待分析文本的正确意图对应的意图识别结果,也可以将待分析文本与待分析意图最高的匹配度进行输出,都应该属于本技术的保护范围。
101.上述意图匹配度分析模型的训练方法获取多个分类数据集,并对多个分类数据集进行处理形成样本数据集,通过这样的方法形成的样本数据集包括了多个分类数据集中的文本和意图,可以对这些文本和意图同时进行训练,使训练的过程更简单。获取验证数据集,通过验证数据集对训练好的意图匹配度分析模型进行验证,使意图匹配度分析模型得性能更好,实际应用的场景准确度更高。实际应用的场景下通过分析待分析文本与多个待分析意图的匹配度完成意图识别,即使是训练过程中没有出现过的意图也可以进行识别,外延性较高。
102.一种意图匹配度分析模型的训练装置400,其中包括:
103.样本数据集获取模块401,用于获取样本数据集,所述样本数据集中包括多个样本数据,一条样本数据包括一个文本和一个意图,所述样本数据具有对应的样本意图置信度;
104.待定意图置信度获取模块402,用于获取待定意图置信度,将样本数据输入初始模型得到样本数据对应的待定意图置信度;
105.模型调整模块403,用于调整初始模型,利用所述待定意图置信度与所述样本意图置信度的差异调整所述初始模型得到意图匹配度分析模型,所述意图匹配度分析模型用于
分析文本与意图的匹配度。
106.意图匹配度分析模型的训练装置中还可以包括以下模块:
107.意图获取模块,用于获取多个待分析意图;
108.待分析数据生成模块,用于生成待分析数据,将待分析文本和所述多个意图形成多个待分析数据,一条待分析数据中包括所述待分析文本和一个意图;
109.待分析数据匹配度生成模块,用于生成待分析数据匹配度,将待分析数据输入所述意图识别模型得到待分析数据对应的匹配度,所述多个待分析数据用于得到多个待分析数据对应的匹配度;
110.分析结果确定模块,用于确定意图匹配度分析结果,根据所述多个待分析数据对应的匹配度确定所述待分析文本与所述多个待分析意图的匹配度。
111.初始模型判断模块,用于判断初始模型的参数数量是否大于预设参数数量。
112.教师模型确定模块,用于确定教师模型,将所述意图匹配度分析模型作为教师模型;
113.学生模型初始化模块,用于初始化学生模型,利用所述教师模型的特征提取层初始化学生模型的特征提取层,所述学生模型的特征提取层与所述教师模型的特征提取层具有对应关系;
114.学生匹配度获取模块,用于获取学生匹配度,将样本数据输入所述学生模型得到样本数据对应的学生待定匹配度与特征提取层中输出的学生特征匹配度,所述学生特征匹配度有对应的教师特征匹配度;
115.计算模块,用于计算所述学生特征匹配度与所述教师特征匹配度的均方误差;
116.学生匹配度确定模块,利用所述均方误差与所述学生待定匹配度得到学生匹配度;
117.学生模型调整模块,用于调整学生模型,利用所述学生匹配度与所述样本意图置信度的差异调整所述学生模型得到轻量级意图匹配度分析模型。
118.本技术还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述意图匹配度分析模型的训练方法步骤。
119.该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质,都属于本技术保护的范围。
120.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
121.以上所述,仅为本技术的一种具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,
都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1