本说明书涉及计算机,尤其涉及一种模型训练和异常检测方法、装置、存储介质及设备。
背景技术:
1、随着大数据技术的发展,用户的隐私及财产安全也面临着越来越大的挑战,因此,对数据进行异常检测尤为重要。通过对数据中可能存在的异常进行检测进而对异常情况进行处理,可以有效避免用户的财产损失以及隐私泄露的风险。
2、然而,目前在异常检测过程中所使用的数据通常为时间数据序列,由于对序列数据进行标注的成本较大,因此用于对模型进行训练的标签数据较少。并且,由于时间数据序列存在多变性,即序列数据的统计特性会随时间的变化而发生变化,导致现有方法所训练出的模型的性能较差,准确率较低,难以准确的对数据中存在的异常情况进行检测。
3、因此,如何保证模型针对时间数据序列所输出的异常检测结果的准确性,进一步保障用户的隐私及财产安全,是一个亟待解决的问题。
技术实现思路
1、本说明书提供一种模型训练和异常检测方法、装置、存储介质及设备。以通过数据序列中的锚定点和参考时长确定正负样本进而对模型进行无监督训练。
2、本说明书采用下述技术方案:
3、本说明书提供了一种模型训练方法,包括:
4、获取各业务数据按照时间顺序排序所得到时间数据序列,以及预设的参考时长,所述参考时长用于表征以一个时刻为起点,业务数据的变化超过设定变化量所经过的时间长度;
5、在所述时间数据序列中选取预设时段的数据片段,作为锚定样本;
6、根据所述参考时长,从所述时间数据序列中确定所述锚定样本位于的第一参考时段,以及从所述时间数据序列中确定第二参考时段,所述第二参考时段的中心时刻与所述预设时段的中心时刻之间的时间间距大于所述第一参考时段的中心时刻与所述预设时段的中心时刻之间的时间间距;
7、根据所述第一参考时段中除所述锚定样本以外的数据片段,确定第一样本,以及根据所述第二参考时段中所包含的数据片段,确定第二样本;
8、将所述锚定样本、所述第一样本以及所述第二样本输入待训练的异常检测模型,以通过所述异常检测模型,确定所述锚定样本对应的锚定特征、所述第一样本对应的第一特征以及所述第二样本对应的第二特征;
9、根据所述锚定特征与所述第一特征之间的第一相似度,以及所述锚定特征与所述第二特征之间的第二相似度,确定目标损失值;
10、以最小化所述目标损失值为优化目标,对所述异常检测模型进行训练。
11、可选地,在以最小化所述目标损失值为优化目标,对所述异常检测模型进行训练之前,所述方法还包括:
12、确定所述第二相似度对应的第一权重,其中,若所述第二相似度越大,所述第一权重越大;
13、根据所述锚定特征与所述第一特征之间的第一相似度,以及所述锚定特征与所述第二特征之间的第二相似度,确定目标损失值,具体包括:
14、根据所述第一相似度、所述第二相似度以及所述第一权重,确定所述目标损失值。
15、可选地,根据所述第一相似度、所述第二相似度以及所述第一权重,确定所述目标损失值,具体包括:
16、根据所述第一权重,确定第二权重,其中,所述第一权重与所述第二权重之间呈负相关关系;
17、根据所述第一相似度,确定第一损失值,根据所述第一权重和所述第二相似度,确定第二损失值,以及根据所述第二权重和所述第二相似度,确定第三损失值,其中,所述第二相似度越大,则所述第二损失值越小,所述第三损失值越大;
18、根据所述第一损失值、所述第二损失值以及所述第三损失值,确定所述目标损失值。
19、可选地,所述方法还包括:
20、根据所述锚定特征、所述第一特征以及所述第二特征,对所述锚定样本、所述第一样本以及所述第二样本进行聚类;
21、根据得到的聚类结果,对所述参考时长进行更新,并通过更新后的参考时长,对所述异常检测模型进行训练。
22、本说明书提供了一种异常检测方法,包括:
23、获取待检测数据序列;
24、将所述待检测数据序列输入预先训练的异常检测模型中,以通过所述异常检测模型,确定所述待检测数据序列所对应的数据特征,其中,所述异常检测模型是通过上述模型训练方法训练得到的;
25、根据所述数据特征,进行异常检测。
26、本说明书提供了一种模型训练装置,包括:
27、获取模块,用于获取各业务数据按照时间顺序排序所得到时间数据序列,以及预设的参考时长,所述参考时长用于表征以一个时刻为起点,业务数据的变化超过设定变化量所经过的时间长度;
28、选取模块,用于在所述时间数据序列中选取预设时段的数据片段,作为锚定样本;
29、第一确定模块,用于根据所述参考时长,从所述时间数据序列中确定所述锚定样本位于的第一参考时段,以及从所述时间数据序列中确定第二参考时段,所述第二参考时段的中心时刻与所述预设时段的中心时刻之间的时间间距大于所述第一参考时段的中心时刻与所述预设时段的中心时刻之间的时间间距;
30、第二确定模块,用于根据所述第一参考时段中除所述锚定样本以外的数据片段,确定第一样本,以及根据所述第二参考时段中所包含的数据片段,确定第二样本;
31、输入模块,用于将所述锚定样本、所述第一样本以及所述第二样本输入待训练的异常检测模型,以通过所述异常检测模型,确定所述锚定样本对应的锚定特征、所述第一样本对应的第一特征以及所述第二样本对应的第二特征;
32、第三确定模块,用于根据所述锚定特征与所述第一特征之间的第一相似度,以及所述锚定特征与所述第二特征之间的第二相似度,确定目标损失值;
33、训练模块,用于以最小化所述目标损失值为优化目标,对所述异常检测模型进行训练。
34、可选地,在以最小化所述目标损失值为优化目标,对所述异常检测模型进行训练之前,所述第三确定模块还用于,确定所述第二相似度对应的第一权重,其中,若所述第二相似度越大,所述第一权重越大;
35、所述第三确定模块具体用于,根据所述第一相似度、所述第二相似度以及所述第一权重,确定所述目标损失值。
36、可选地,所述第三确定模块具体用于,根据所述第一权重,确定第二权重,其中,所述第一权重与所述第二权重之间呈负相关关系;根据所述第一相似度,确定第一损失值,根据所述第一权重和所述第二相似度,确定第二损失值,以及根据所述第二权重和所述第二相似度,确定第三损失值,其中,所述第二相似度越大,则所述第二损失值越小,所述第三损失值越大;根据所述第一损失值、所述第二损失值以及所述第三损失值,确定所述目标损失值。
37、可选地,所述训练模块还用于,根据所述锚定特征、所述第一特征以及所述第二特征,对所述锚定样本、所述第一样本以及所述第二样本进行聚类;根据得到的聚类结果,对所述参考时长进行更新,并通过更新后的参考时长,对所述异常检测模型进行训练。
38、本说明书提供了一种异常检测装置,包括:
39、获取模块,用于获取待检测数据序列;
40、确定模块,用于将所述待检测数据序列输入预先训练的异常检测模型中,以通过所述异常检测模型,确定所述待检测数据序列所对应的数据特征,其中,所述异常检测模型是通过上述模型训练方法训练得到的;
41、检测模块,用于根据所述数据特征,进行异常检测。
42、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练及异常检测方法。
43、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述模型训练及异常检测方法。
44、本说明书采用的上述至少一个技术方案能够达到以下有益效果:
45、在本说明书提供的模型训练方法中,获取时间数据序列以及预设的参考时长;在时间数据序列中选取数据片段,作为锚定样本;根据参考时长,确定锚定样本位于的第一参考时段,以及从时间数据序列中确定第二参考时段;在第一参考时段中确定第一样本,以及在第二参考时段中确定第二样本;将锚定样本、第一样本以及第二样本输入待训练的异常检测模型,确定锚定样本对应的锚定特征、第一样本对应的第一特征以及第二样本对应的第二特征;根据锚定特征与第一特征之间的第一相似度,以及锚定特征与第二特征之间的第二相似度,确定目标损失值对异常检测模型进行训练。
46、从上述方法可以看出,本方案在对异常检测模型进行训练的过程中,可以利用锚定样本邻域内的第一样本和邻域外的第二样本对异常检测模型进行训练,这样一来,在对模型训练的过程中可以不使用有标签样本,而是在第一样本和第二样本中选取出正样本和负样本来对模型进行自监督训练,并且,相比于现有方案,本方案在正、负样本的选取过程中充分考虑了样本数据的数据状态发生变化的参考时长,从而降低序列数据的多变性对异常检测结果所带来的影响,进一步提高了异常检测模型对时间数据序列检测结果的准确性,充分保障了用户的隐私及财产安全。