本申请涉及语言模型训练的,尤其涉及一种训练数据的评估方法、装置、电子设备和存储介质。
背景技术:
1、语言模型可以处理多种自然语言任务,如问答、对话等,语言模型技术是通向人工智能的一条重要途径。语言模型能够执行多种自然语言任务,需要足够全面、完整的训练数据作为训练支撑。但是训练数据可能并不完整,在无法给出有效的训练数据补充建议的情况下,会影响语言模型的训练效果。
技术实现思路
1、有鉴于此,本申请提出一种训练数据的评估方法、装置、电子设备和存储介质,该方法能够在训练数据不完整的情况下给出有效的训练数据补充建议。
2、本申请提出的技术方案具体如下:
3、第一方面,本申请提供了一种训练数据的评估方法,包括:
4、计算预先采集的问题数据与训练数据之间的相似度;
5、若所述训练数据中存在至少一条目标训练数据,与所述问题数据之间的相似度大于设定相似度阈值,则确定所述问题数据解答成功;
6、若所有问题数据的问题解答率小于设定的问题解答率阈值,则根据所有解答失败的问题数据,生成并输出所述训练数据的第一补充数据指示信息;所述问题解答率表示所有问题数据中、解答成功的问题数据的数量在所有问题数据的占比。
7、第二方面,本申请提供了一种训练数据的评估装置,包括:
8、计算模块,用于计算预先采集的问题数据与训练数据之间的相似度;
9、第一确定模块,用于若所述训练数据中存在至少一条目标训练数据,与所述问题数据之间的相似度大于设定相似度阈值,则确定所述问题数据解答成功;
10、第二确定模块,用于若所有问题数据的问题解答率小于设定的问题解答率阈值,则根据所有解答失败的问题数据,生成并输出所述训练数据的第一补充数据指示信息;所述问题解答率表示所有问题数据中、解答成功的问题数据的数量在所有问题数据的占比。
11、第三方面,本申请提供了一种电子设备,包括:
12、存储器和处理器;
13、其中,所述存储器用于存储程序;
14、所述处理器,用于通过运行所述存储器中的程序,实现以上任意一项所述的方法。
15、第四方面,本申请提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现以上任意一项所述的方法。
16、本申请提出的训练数据的评估方法,计算预先采集的问题数据与训练数据之间的相似度,若训练数据中存在至少一条与问题数据之间的相似度大于设定相似度阈值的目标训练数据,则确定问题数据解答成功,若所有问题数据的问题解答率小于设定的问题解答率阈值,则根据所有解答失败的问题数据,生成并输出训练数据的第一补充数据指示信息,其中,问题解答率表示所有问题数据中、解答成功的问题数据的数量在所有问题数据的占比。以便于能够根据第一补充数据指示信息对训练数据进行补充,使训练数据的完整性符合语音模型的训练要求,从而可以提升模型训练效果和训练效率。
1.一种训练数据的评估方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所有问题数据中包括多个维度的问题数据,所述维度根据问题的领域而确定;
3.根据权利要求2所述的方法,其特征在于,在计算特定维度的问题数据与训练数据之间的相似度之前,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述采集问题数据,包括:
5.根据权利要求3所述的方法,其特征在于,所述将所有问题数据划分为多个维度的问题数据,包括:
6.根据权利要求1所述的方法,其特征在于,还包括:
7.根据权利要求1所述的方法,其特征在于,所述计算预先采集的问题数据与训练数据之间的相似度,包括:
8.根据权利要求7所述的方法,其特征在于,在计算第一问题数据与各条训练数据之间的点乘相似度之前,所述方法还包括:
9.根据权利要求1所述的方法,其特征在于,还包括:
10.一种训练数据的评估装置,其特征在于,包括:
11.一种电子设备,其特征在于,包括:
12.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至9中任意一项所述的方法。