一种模型失效检测方法、装置、电子设备及介质与流程

文档序号:28945286发布日期:2022-02-19 08:38阅读:86来源:国知局
一种模型失效检测方法、装置、电子设备及介质与流程

1.本发明涉及机器学习领域,尤其涉及一种模型失效检测方法、装置、电子设备及介质。


背景技术:

2.自然语言处理模型如今被广泛应用于网络中的海量文本数据,对这些数据进行结构化整理、分析。在当下的机器学习领域,模型的表现更多取决于数据的数量和质量,以及训练任务设计的合理性。
3.当前的机器学习中的模型泛化能力,指的是模型在遇到领域内相似情形时的推断能力,即内插(interpolation)泛化能力,而非针对领域外数据的外推(extrapolation)能力。简而言之,目前的机器学习模型,普遍要求在上线后所遇到的待分析数据,不能超出之前所用于训练的数据分布,否则模型的推断效果就会发生显著下降,即发生退化现象。受到使用场景的分布变化速度影响,所述退化现象的明显程度不一。
4.在自媒体快速发展的当下,网络用语飞速传播,容易出现词语概念的改变、情感的极性翻转,进而影响模型上线后的准确率。为了保证模型在上线后性能符合预期,目前业界的解决方案为:定时从模型的真实工作环境中收集数据,并将这些数据整合到原来的训练数据中,重新训练模型后对线上模型进行更新。
5.由前述背景可以明确,模型的部署上线,并不是一劳永逸的任务终点,上线后的持续跟踪维护,才是维持其性能的重要环节。因此,现有技术的缺陷主要体现在跟踪维护的过程中,具体包括:
6.在模型并未发生显著退化的情况下,进行低效率的数据收集工作,容易造成资源浪费;对突发事件造成的噪声无法有效识别,容易导致训练模型不够精准;这种导致模型退化的分布变化是存在其内在价值的,现有技术无法在实质上追踪这些分布变化,导致错失有价值的时序变化信息。


技术实现要素:

7.本发明所述技术方案,可针对不同的文本数据应用场景,与现有技术相比实现更好地检测模型的失效情况。
8.本发明所要解决的技术问题为:及时对模型的退化情况进行量化预警,避免低效率的数据收集工作,避免造成资源浪费;通过高度匹配的数据排序方法,排除低价值数据,解决训练模型不精准的问题;通过获取造成差异的主要归因词汇,追踪导致模型退化的分布变化情况,挖掘变化情况的内在价值。
9.第一方面,本发明提供了一种模型失效检测方法,包括:获取待测模型对应的训练数据的第一文本分布;所述训练数据为自然语言数据,所述第一文本分布包括单词及所述单词对应的词频;获取所述待测模型对应的业务数据的第二文本分布;所述业务数据为在预设的时间区间内采集的所述待测模型对应的自然语言数据,所述第二文本分布包括单词
及所述单词对应的词频;获取所述第一文本分布以及所述第二文本分布之间的偏移值;在所述偏移值大于预设的预警阈值时,执行预设操作。
10.其进一步的技术方案为,所述获取待测模型的训练数据的第一文本分布还包括:对所述训练数据进行分词处理,得到第一文本集合;将所述第一文本集合中的停用词删除,得到第二文本集合;对所述第二文本集合中的单词进行词频统计,得到所述第一文本分布。
11.其进一步的技术方案为,所述获取待测模型对应的业务数据的第二文本分布还包括:对所述业务数据进行分词处理,得到第三文本集合;将所述第三文本集合中的停用词删除,得到第四文本集合;对所述第四文本集合中的单词进行词频统计,得到所述第二文本分布。
12.其进一步的技术方案为,所述获取所述第一文本分布以及所述第二文本分布之间的偏移值还包括:提取所述第一文本分布与所述第二文本分布中的公共词,得到公共词集合;从所述第一文本分布中,筛选出所述公共词的词频,得到第三文本分布;从所述第二文本分布中,筛选出所述公共词的词频,得到第四文本分布;对所述第三文本分布进行归一化处理得到第一概率分布q;对所述第四文本分布进行归一化处理得到第二概率分布p
t
;根据所述第一概率分布q和第二概率分布p
t
计算所述偏移值。
13.其进一步的技术方案为,所述根据所述第一概率分布q和第二概率分布p
t
计算所述偏移值还包括:通过以下公式计算所述第一概率分布q和第二概率分布p
t
之间的kl散度作为所述偏移值;或计算所述第一概率分布q和第二概率分布p
t
之间的js散度,作为所述偏移值。
14.其进一步的技术方案为,还包括:选取预设数量的单词作为主要归因词汇;根据所述主要归因词汇筛选目标训练数据;通过所述目标训练数据对所述待测模型进行训练。
15.其进一步的技术方案为,所述选取预设数量的单词作为主要归因词汇还包括:根据所述第三文本分布,获取所述公共词集合中的单词在所述第三文本分布中的第一频次占比;根据所述第四文本分布,获取所述公共词集合中的单词在所述第四文本分布中的第二频次占比;根据所述第一频次占比以及第二频次占比,获取所述公共词集合中的单词的偏离量;所述偏离量为第一频次占比相对于第二频次占比的偏离差异;通过公式计算所述偏离量δw,其中qw为第一频次占比,pw为第二频次占比;从所述公共词集合中按照偏离量由大到小的顺序对单词进行排序。
16.第二方面,本发明实施例提供的一种模型失效检测装置,所述模型失效检测装置包括用于执行如第一方面所述方法的单元。
17.第三方面,本发明提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行存储器上所存放的程序时,实现第一方面所述方法的步骤。
18.第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
19.本发明实施例提供的上述技术方案与现有技术相比具有如下优点:
20.本发明实施例的技术方案中,可实现及时对模型的退化情况进行量化预警,避免低效率的数据收集工作,避免造成资源浪费;通过高度匹配的数据排序方法,排除低价值数据,解决训练模型不精准的问题;通过获取造成差异的主要归因词汇,追踪导致模型退化的分布变化情况,挖掘变化情况的内在价值。
21.因此,本发明的目的在于:
22.1.对文本数据分布差异进行量化预警,确保线上模型处于预定工作状态。
23.2.分布差异的重要性归因,即对分布中的差异因素进行重要性排序。
24.3.将重要性靠前的因素,作为训练数据扩增的依据,增加数据扩增的可解释性并降低成本。
25.4.挖掘重要差异因素的附加价值,该价值的大小,取决于具体应用场景下的业务逻辑。
附图说明
26.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
27.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
28.图1为本发明实施例提供的一种模型失效检测方法的流程示意图。
29.图2为本发明实施例提供的一种模型失效检测方法的子流程示意图。
30.图3为本发明实施例提供的一种模型失效检测方法的子流程示意图。
31.图4为本发明实施例提供的一种模型失效检测方法的子流程示意图。
32.图5是本发明另一个实施例提供的模型失效检测装置的结构示意图。
33.图6是本发明另一个实施例提供的模型失效检测装置的结构示意图。
34.图7是本发明另一个实施例提供的电子设备的结构示意图。
具体实施方式
35.下面将结合本发明实施例中的附图,对实施例中的技术方案进行清楚、完整地描述。显然,以下将描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
36.应当理解,在此本发明实施例说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明实施例。如在本发明实施例说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
37.实施例1
38.参见图1,图1为本发明实施例提供的一种模型失效检测方法的流程示意图。本发明实施例提出一种模型失效检测方法,该模型失效检测方法应用于机器学习训练模型,作为机器学习训练模型的辅助工具,避免或减少机器学习训练模型随着时间的推移而导致性
能下降。
39.具体地,参见图1,该模型失效检测方法包括如下步骤。
40.s101,获取待测模型对应的训练数据的第一文本分布。
41.所述训练数据为自然语言数据。
42.所述第一文本分布包括单词及所述单词对应的词频。
43.所述第一文本分布的数据量较小,可选地,其数量不超过10000。
44.所述文本分布可以为,给定数据源在特定时间窗口,所产生的所有文本数据的词频统计分布。
45.参见图2,在一实施例中,以上步骤s101具体包括如下步骤:
46.s201,对所述训练数据进行分词处理,得到第一文本集合。
47.s202,将所述第一文本集合中的停用词删除,得到第二文本集合。
48.s203,对所述第二文本集合中的单词进行词频统计,得到所述第一文本分布。
49.上述技术方案当中,对第二文本集合进行了停用词删除,因而第二文本集合的单词质量优于第一文本集合,所以对第二文本集合进行词频统计后,可以提升本发明技术方案的准确度。
50.s102,获取所述待测模型对应的业务数据的第二文本分布。
51.所述业务数据为,在预设的时间区间内采集的所述待测模型对应的自然语言数据。
52.所述第二文本分布包括单词及所述单词对应的词频。
53.所述第二文本分布的数据量较大,需要选择合适的时间区间,一方面降低成本,另一方面避免因时间区间过长而掩盖数据变化的真实情况。
54.所述预设的时间区间,可以为某个时间跨度,也可以为某个时间分片。
55.进一步地,相邻时间分片的间隔,可根据采样定理,设定采样间隔不大于事件持续时间的一半,其技术效果为避免在采样间隔中错失预警时机;进一步地,可以采用非均匀采样:例如电商购物节,相应词语的文本快速变化,例如红包、尾款、秒杀等,此时可以采用非均匀采样。
56.参见图3,在一实施例中,以上步骤s102具体包括如下步骤:
57.s301,对所述业务数据进行分词处理,得到第三文本集合。
58.s302,将所述第三文本集合中的停用词删除,得到第四文本集合。
59.s303,对所述第四文本集合中的单词进行词频统计,得到所述第二文本分布。
60.上述技术方案当中,对第四文本集合进行了停用词删除,因而第四文本集合的单词质量优于第三文本集合,所以对第四文本集合进行词频统计后,可以提升本发明技术方案的准确度。
61.s103,获取所述第一文本分布以及所述第二文本分布之间的偏移值。
62.所述偏移值可以对第一文本分布、第二文本分布之间的分布差异进行量化。
63.参见图4,在一实施例中,以上步骤s103具体包括如下步骤:
64.s401,提取所述第一文本分布与所述第二文本分布中的公共词,得到公共词集合。
65.s402,从所述第一文本分布中,筛选出所述公共词的词频,得到第三文本分布。
66.s403,从所述第二文本分布中,筛选出所述公共词的词频,得到第四文本分布。
67.s404,对所述第三文本分布进行归一化处理得到第一概率分布q。
68.s405,对所述第四文本分布进行归一化处理得到第二概率分布p
t

69.s406,根据所述第一概率分布q和第二概率分布p
t
计算偏移值。
70.所述偏移值可以为kl散度,第一概率分布q和第二概率分布p
t
之间的kl散度为:
[0071][0072]
当p
t
的分布与q一致时,模型的表现效果最佳,随着p
t
与q的差异越大,则模型的预测效果变差,其退化的风险变高。
[0073]
所述偏移值可以为js散度,第一概率分布q和第二概率分布p
t
之间的js散度为:
[0074][0075]
其中,r=(q+p
t
)/2;
[0076]
上述技术方案当中,筛选公共词的词频和进行归一化处理,共同保证了最后得到的结果符合偏移值的定义与值域,进而保证量化指标的可解释性。
[0077]
上述技术方案当中,偏移值的计算较为简洁,在线上监控过程中无需重复进行计算,所以实施成本很低。
[0078]
上述技术方案当中,随着p
t
与q的差异越大,则模型的预测效果变差,而js散度的波动比kl散度更小,解决了kl散度非对称的问题,在部分场景中应用js散度可以提升模型预测效果的准确度。
[0079]
本发明主要解决模型训练数据q对于线上业务数据p
t
的表达能力,实现对模型退化的预警,因此主要考虑d
kl
(p
t
||q);次要考虑线上某个时间段内的业务数据对模型训练数据q的表达能力d
kl
(q||p
t
)。在实际业务场景中,d
kl
(p
t
||q)的重要性高于d
kl
(q||p
t
)。
[0080]
s104,在所述偏移值大于预设的预警阈值时,执行预设操作。
[0081]
所述预警阈值,可根据项目实际情况确定。
[0082]
若预警阈值较低,则所述技术方案对模型的退化较为敏感,容易频繁出现预警,模型的退化更容易被即时纠正,且实施成本较高。
[0083]
若预警阈值较高,则所述技术方案对模型的退化不敏感,不容易频繁出现预警,模型的退化不会被频繁纠正,且实施成本较低。
[0084]
上述技术方案当中,预设操作可以为发出报警信息,即可以及时对模型的退化情况进行量化预警,避免低效率的数据收集工作,避免造成资源浪费。
[0085]
实施例2
[0086]
s501,获取待测模型对应的训练数据的第一文本分布。
[0087]
所述训练数据为自然语言数据。
[0088]
所述第一文本分布包括单词及所述单词对应的词频。
[0089]
所述第一文本分布的数据量较小,可选地,其数量不超过10000。
[0090]
s502,获取所述待测模型对应的业务数据的第二文本分布。
[0091]
所述业务数据为,在预设的时间区间内采集的所述待测模型对应的自然语言数据。
[0092]
所述第二文本分布包括单词及所述单词对应的词频。
[0093]
所述第二文本分布的数据量较大,需要选择合适的时间区间,一方面降低成本,另一方面避免因时间区间过长而掩盖数据变化的真实情况。
[0094]
s503,获取所述第一文本分布以及所述第二文本分布之间的偏移值。
[0095]
所述偏移值可以对第一文本分布、第二文本分布之间的分布差异进行量化。
[0096]
s504,在所述偏移值大于预设的预警阈值时,执行预设操作。
[0097]
所述技术方案,预设操作可以为发出报警信息,即可以及时对模型的退化情况进行量化预警,避免低效率的数据收集工作,避免造成资源浪费。
[0098]
s505,选取预设数量的单词作为主要归因词汇。根据所述主要归因词汇筛选目标训练数据。通过所述目标训练数据对所述待测模型进行训练。
[0099]
所述主要归因词汇,为对模型性能退化的影响较为明显的词汇。
[0100]
所述筛选目标训练数据,即根据应用场景需求,在主要归因词汇当中选出前k个重要性更高的词汇,并对前k个重要性更高的词汇进行标注;所述前k个的具体数量,可根据实际情况确定。
[0101]
上述方案中,训练数据的来源是真实业务数据,主要归因词汇作为检索关键词,通过围绕所述检索关键词,对线上的业务数据进行针对性筛选,可以有效减少训练数据的标注数量;而现有技术为,无差别的导出一批线上业务数据直接进行标注,这种不经筛选的方案效率较低且性价比不高;因此,上述方案克服了现有技术中存在的缺陷。
[0102]
在一实施例中,以上步骤s505具体包括如下步骤:
[0103]
s611,提取所述第一文本分布与所述第二文本分布中的公共词,得到公共词集合。
[0104]
s612,从所述第一文本分布中,筛选出所述公共词的词频,得到第三文本分布。
[0105]
s613,从所述第二文本分布中,筛选出所述公共词的词频,得到第四文本分布。
[0106]
s614,根据所述第三文本分布,获取第一频次占比。
[0107]
所述第一频次占比为,所述公共词集合中的单词在所述第三文本分布中的频次占比。
[0108]
s615,根据所述第四文本分布,获取第二频次占比。
[0109]
所述第二频次占比为,所述公共词集合中的单词在所述第四文本分布中的频次占比。
[0110]
s616,根据所述第一频次占比以及第二频次占比,获取所述公共词集合中的单词的偏离量。
[0111]
所述偏离量为第一频次占比相对于第二频次占比的偏离差异。
[0112]
s617,通过公式计算所述偏离量δw。
[0113]
其中qw为第一频次占比,pw为第二频次占比。
[0114]
s618,从所述公共词集合中按照偏离量由大到小的顺序对单词进行排序。
[0115]
上述技术方案,通过高度匹配的数据排序方法,排除低价值数据,解决训练模型不精准的问题。
[0116]
s506,根据所述主要归因词汇筛选目标训练数据。
[0117]
所述目标训练数据,为待测模型的训练数据的新版本,目标训练数据的筛选可有效防止模型的退化。
[0118]
s507,通过所述目标训练数据,对所述待测模型进行训练。
[0119]
上述技术方案,通过获取造成差异的主要归因词汇,可实现追踪导致模型退化的分布变化情况,挖掘变化情况的内在价值。
[0120]
上述技术方案进行训练的结果,有较高的精准度,在模型发生退化以后可以用最小的成本或者代价,实现即时纠正,因此该训练结果具有良好的参考价值。
[0121]
实施例3
[0122]
参见图5,本发明实施例3提供的一种模型失效检测装置的框图,该模型失效检测装置包括:
[0123]
第一获取单元71,用于获取待测模型对应的训练数据的第一文本分布;所述训练数据为自然语言数据,所述第一文本分布包括单词及所述单词对应的词频;
[0124]
第二获取单元72,用于获取所述待测模型对应的业务数据的第二文本分布;所述业务数据为在预设的时间区间内采集的所述待测模型对应的自然语言数据,所述第二文本分布包括单词及所述单词对应的词频;
[0125]
第三获取单元73,用于获取所述第一文本分布以及所述第二文本分布之间的偏移值;
[0126]
预警单元74,用于在所述偏移值大于预设的预警阈值时,执行预设操作。
[0127]
在一实施例中,所述获取待测模型对应的训练数据的第一文本分布,包括:
[0128]
对所述训练数据进行分词处理,得到第一文本集合;
[0129]
将所述第一文本集合中的停用词删除,得到第二文本集合;
[0130]
对所述第二文本集合中的单词进行词频统计,得到所述第一文本分布。
[0131]
在一实施例中,所述获取所述待测模型对应的业务数据的第二文本分布,包括:
[0132]
对所述业务数据进行分词处理,得到第三文本集合;
[0133]
将所述第三文本集合中的停用词删除,得到第四文本集合;
[0134]
对所述第四文本集合中的单词进行词频统计,得到所述第二文本分布。
[0135]
在一实施例中,所述获取所述第一文本分布以及所述第二文本分布之间的偏移值,包括:
[0136]
提取所述第一文本分布与所述第二文本分布中的公共词,得到公共词集合;
[0137]
从所述第一文本分布中,筛选出所述公共词的词频,得到第三文本分布;
[0138]
从所述第二文本分布中,筛选出所述公共词的词频,得到第四文本分布;
[0139]
对所述第三文本分布进行归一化处理得到第一概率分布q;
[0140]
对所述第四文本分布进行归一化处理得到第二概率分布p
t

[0141]
根据所述第一概率分布q和第二概率分布p
t
计算所述偏移值。
[0142]
在一实施例中,所述根据所述第一概率分布q和第二概率分布p
t
计算所述偏移值,包括:
[0143]
通过以下公式计算所述第一概率分布q和第二概率分布p
t
之间的kl散度作为所述偏移值;
[0144]
或计算所述第一概率分布q和第二概率分布p
t
之间的js散度,作为所述偏移值。
[0145]
所述模型失效检测装置,可实现及时对模型的退化情况进行量化预警,避免低效
率的数据收集工作,避免造成资源浪费;通过高度匹配的数据排序方法,排除低价值数据,解决训练模型不精准的问题;通过获取造成差异的主要归因词汇,追踪导致模型退化的分布变化情况,挖掘变化情况的内在价值。
[0146]
实施例4
[0147]
参见图6,本发明实施例4提供的一种模型失效检测装置的框图,实施例4提供的模型失效检测装置与实施例3提供的模型失效检测装置的区别在于,还包括:
[0148]
选取单元75,用于选取预设数量的单词作为主要归因词汇;
[0149]
筛选单元76,用于根据所述主要归因词汇筛选目标训练数据;
[0150]
训练单元77,用于通过所述目标训练数据对所述待测模型进行训练。
[0151]
在一实施例中,所述选取预设数量的单词作为主要归因词汇,包括:
[0152]
根据所述第三文本分布,获取所述公共词集合中的单词在所述第三文本分布中的第一频次占比;
[0153]
根据所述第四文本分布,获取所述公共词集合中的单词在所述第四文本分布中的第二频次占比;
[0154]
根据所述第一频次占比以及第二频次占比,获取所述公共词集合中的单词的偏离量;所述偏离量为第一频次占比相对于第二频次占比的偏离差异;
[0155]
通过公式计算所述偏离量δw,其中qw为第一频次占比,pw为第二频次占比;
[0156]
从所述公共词集合中按照偏离量由大到小的顺序对单词进行排序。
[0157]
上述方案中,从线上业务数据根据主要归因词汇筛选一部分数据,并对所述数据进行标注,可以有效减少训练数据的标注数量,实现效率的提升。
[0158]
实施例5
[0159]
如图7所示,本发明实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113、通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,
[0160]
存储器113,用于存放计算机程序;
[0161]
在本发明一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的模型失效检测方法,包括:
[0162]
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的模型失效检测方法的步骤。
[0163]
综上所述,本发明的技术方案,可实现及时对模型的退化情况进行量化预警,避免低效率的数据收集工作,避免造成资源浪费;通过高度匹配的数据排序方法,排除低价值数据,解决训练模型不精准的问题;通过获取造成差异的主要归因词汇,追踪导致模型退化的分布变化情况,挖掘变化情况的内在价值。
[0164]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在
涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0165]
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1