解释业务场景下模型的方法、介质、装置和计算设备与流程

文档序号:26596096发布日期:2021-09-10 22:30阅读:101来源:国知局
解释业务场景下模型的方法、介质、装置和计算设备与流程

1.本公开的实施方式涉及通信及计算机技术领域,更具体地,本公开的实施方式涉及一种解释业务场景下模型的方法、介质、装置和计算设备。


背景技术:

2.本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.相关模型可解释性的技术落地在本身可解释的模型上,这类模型在完成训练后,其解释逻辑与样本、场景无关,仅与模型引入的样本特征信息有关,因而解释的能力较弱。此外可解释性模型通常逻辑比较单一,无法覆盖现在行业业务场景下的复杂建模需求,对于复杂模型的解释性目前研究处于早期“黑盒”阶段,类似可解释性模型上的解释能力,无法覆盖在这类复杂模型上。而随着业务越来越复杂,数据量规模的剧增,复杂性的模型越来越流行,对于业务而言,可解释性能力的缺失很难为业务指标的变化说明原因。


技术实现要素:

4.单纯做模型可解释性在业务场景下不是特别准确,因此除对模型本身进行解释之外,把模型放到具体运行场景中考虑环境参数和一些参数对模型的影响,同时还利用可解释模型的一些特征信息和业务数据信息。相关技术中可对训练好的模型中权重的高低进行可视化展示,而本公开中获取模型训练样本,对线上样本分布进行分析给到业务人员做辅助。另外,获取环境数据,考虑模型上线之后的表现情况,例如模型上线之后是不是有更多流量产生运算瓶颈,模型在业务场景下流量qps突然暴增,会导致业务有问题。
5.因此,采集机器学习模型的训练样本保存下来,对真实业务的数据进行分析并进行解释。解释不完全依赖于模型,还依赖于样本数据、环境数据、监控数据;通过数据的组合提供给业务人员进行分析。
6.为此需要一种以模型训练样本数据、相关系统上报的核心数据、环境数据、监控数据来提升业务场景上模型的可解释性。
7.在本上下文中,本公开的实施方式期望提供一种解释业务场景下模型的方法、介质、装置和计算设备。
8.在本公开实施方式的第一方面中,提供了一种解释业务场景下模型的方法,包括:
9.收集业务场景下目标模型训练相关的核心数据;
10.对所述核心数据进行解释得到第一解释结果;
11.收集目标模型相关数据,所述目标模型相关数据包括以下中至少之一:与所述目标模型的应用环境相关的环境数据以及与所述目标模型相关的监控数据;
12.利用所述目标模型相关数据和所述第一解释结果中至少之一对所述目标模型进行解释得到第二解释结果。
13.在本公开的一些实施例中,基于前述方案,所述核心数据包括所述目标模型的实
时样本以及所述目标模型训练相关的中间文件,收集业务场景下目标模型训练相关的核心数据包括:
14.响应于用户的实时行为,收集目标模型的实时样本,所述实时样本包括实时特征,以及实时行为数据或者打标行为数据;
15.收集所述目标模型训练相关的中间文件并且存储至数据存储模块;
16.相应地,对所述核心数据进行解释得到第一解释结果包括:
17.对所述实时行为数据与所述实时特征的相关性或者所述打标行为数据与所述实时特征的相关性进行解释得到第一解释结果。
18.在本公开的一些实施例中,基于前述方案,所述模型为推荐模型,响应于用户的实时行为,收集目标模型的实时样本,包括:
19.获取用户的实时特征;
20.收集实时行为数据,所述实时行为数据表征用户对根据所述用户的实时特征推荐的目标对象执行的实时行为;
21.将所述实时特征与所述实时行为数据拼接形成实时样本,其中,所述实时样本用于对所述目标模型进行训练。
22.在本公开的一些实施例中,基于前述方案,所述模型为分类模型,响应于用户的实时行为,收集目标模型的实时样本,包括:
23.获取用户的实时特征,根据实时特征对所述用户进行分类并展示分类结果;
24.收集实时行为数据,所述实时行为数据表征用户对所述分类结果执行的实时行为;
25.将所述实时特征与所述实时行为数据拼接形成实时样本,其中,所述实时样本用于对所述目标模型进行训练。
26.在本公开的一些实施例中,基于前述方案,收集目标模型的实时特征以及打标行为数据包括:
27.获取用户的实时特征;
28.在所述实时特征满足预设条件的情况下,发送至目标端;
29.接收所述目标端根据实时特征进行打标得到的打标行为数据。
30.在本公开的一些实施例中,基于前述方案,对所述实时行为数据与所述实时特征的相关性或者所述打标行为数据与所述实时特征的相关性进行解释得到第一解释结果包括:
31.将所述实时样本上传至解释引擎;
32.利用所述解释引擎中的解释模板对所述实时行为数据与所述实时特征的相关性或者所述打标行为数据与所述实时特征的相关性进行解释,得到第一解释结果,其中,所述解释模板中设有解释指标。
33.在本公开的一些实施例中,基于前述方案,所述解释引擎包括实时解释引擎和离线解释引擎,
34.相应地,将所述实时样本上传至解释引擎包括:
35.若所述目标模型为实时训练模型,则将所述实时样本上传至实时解释引擎;
36.若所述目标模型为离线训练模型,则将所述实时样本上传至离线解释引擎。
37.在本公开的一些实施例中,基于前述方案,利用所述目标模型相关数据和所述第一解释结果中至少之一对所述目标模型进行解释得到第二解释结果包括:
38.根据预设分析规则,建立关于所述目标模型相关数据和所述第一解释结果中至少之一的数据关联关系,以可视化形式展示所述数据关联关系。
39.在本公开的一些实施例中,基于前述方案,在建立所述数据关联关系之前,还包括:
40.检测所述目标模型相关数据中的异常数据;
41.对所述异常数据进行修复或删除。
42.在本公开的一些实施例中,基于前述方案,解释业务场景下模型的方法还包括:
43.接收场景绑定指令,所述场景绑定指令中携带场景标识和用户标识;
44.查找与所述场景标识对应的场景并且将所述用户标识与所述场景标识进行绑定。
45.在本公开的一些实施例中,基于前述方案,建立关于所述目标模型相关数据和所述第一解释结果中至少之一的数据关联关系包括:
46.获取所述目标模型的预设时间段内的目标模型相关数据;
47.建立所述目标模型相关数据与所述预设时间段中的时间点的关联关系。
48.在本公开的一些实施例中,基于前述方案,获取所述目标模型的预设时间段内的目标模型相关数据包括:
49.接收数据对比指令,所述数据对比指令中携带数据标识及时段信息;
50.查找与所述时段信息对应的时段内与所述数据标识对应的目标模型相关数据。
51.在本公开的一些实施例中,基于前述方案,解释业务场景下模型的方法还包括:
52.获取所述目标模型相关数据和或所述实时特征的自定义逻辑,在所述目标模型相关数据和/或所述实时特征满足预设条件的情况下,发出警报信息。
53.在本公开的一些实施例中,基于前述方案,建立关于所述目标模型相关数据和所述第一解释结果中至少之一的数据关联关系包括:
54.获取所述目标模型的预设时间段内的目标模型相关数据与效果变化数据;
55.建立所述目标模型相关数据、所述效果变化数据及所述第一解释结果中的任意两者或三者之间的关联关系。
56.在本公开的一些实施例中,基于前述方案,在利用所述解释引擎中的预设解释模板对所述实时行为数据与所述实时特征的相关性或所述打标行为数据与所述实时特征的相关性进行解释,得到第一解释结果之后,还包括:
57.将所述第一解释结果进行数据化,并存储至数据存储模块。
58.在本公开的一些实施例中,基于前述方案,将所述第一解释结果进行数据化包括:
59.利用预设的业务配置表将所述第一解释结果转换为规则数据表。
60.在本公开的一些实施例中,基于前述方案,将所述第一解释结果进行数据化包括:
61.利用预设算法根据所述第一解释结果计算对应的算法指标。
62.在本公开的一些实施例中,基于前述方案,在对所述异常数据进行修复或删除之后,还包括:
63.验证是否仍存在异常数据;
64.在不存在异常数据的情况下,记录数据清洗信息形成数据报告并输出。
65.在本公开的一些实施例中,基于前述方案,所述解释模板通过应用程序接口写入。
66.在本公开的一些实施例中,基于前述方案,所述目标模型相关数据通过约定的解析协议、采用软件开发工具包上传。
67.在本公开的一些实施例中,基于前述方案,所述环境数据包括与业务场景下所述目标模型所应用于的服务器的处理流量相关的数据。
68.在本公开的一些实施例中,基于前述方案,所述监控数据包括与所述目标模型的特征更新失败相关的数据。
69.在本发明实施方式的第二方面中,提供了一种介质,其上存储有程序,该程序被处理器执行时实现如上述实施例中所述的解释业务场景下模型的方法。
70.在本发明实施方式的第三方面中,提供了一种解释业务场景下模型的装置,包括:
71.第一收集模块,被配置为收集业务场景下目标模型训练相关的核心数据;
72.第一解释模块,被配置为对所述核心数据进行解释得到第一解释结果;
73.第二收集模块,被配置为收集目标模型相关数据,所述目标模型相关数据包括以下中至少之一:与所述目标模型的应用环境相关的环境数据以及与所述目标模型相关的监控数据;
74.第二解释模块,被配置为利用所述目标模型相关数据和所述第一解释结果中至少之一对所述目标模型进行解释得到第二解释结果。
75.在本公开的一些实施例中,基于前述方案,所述核心数据包括所述目标模型的实时样本以及所述目标模型训练相关的中间文件,所述第一收集模块包括:
76.第一收集单元,被配置为响应于用户的实时行为,收集目标模型的实时样本,所述实时样本包括实时特征,以及实时行为数据或者打标行为数据;
77.第二收集单元,被配置为收集所述目标模型训练相关的中间文件并且存储至数据存储模块;
78.相应地,所述第一解释模块还被配置为:
79.对所述实时行为数据与所述实时特征的相关性或者所述打标行为数据与所述实时特征的相关性进行解释得到第一解释结果。
80.在本公开的一些实施例中,基于前述方案,所述模型为推荐模型,所述第一收集单元还被配置为:
81.获取用户的实时特征;
82.收集实时行为数据,所述实时行为数据表征用户对根据所述用户的实时特征推荐的目标对象执行的实时行为;
83.将所述实时特征与所述实时行为数据拼接形成实时样本,其中,所述实时样本用于对所述目标模型进行训练。
84.在本公开的一些实施例中,基于前述方案,所述模型为分类模型,所述第一收集单元还被配置为:
85.获取用户的实时特征,根据实时特征对所述用户进行分类并展示分类结果;
86.收集实时行为数据,所述实时行为数据表征用户对所述分类结果执行的实时行为;
87.将所述实时特征与所述实时行为数据拼接形成实时样本,其中,所述实时样本用
于对所述目标模型进行训练。
88.在本公开的一些实施例中,基于前述方案,所述第一收集单元还被配置为:
89.获取用户的实时特征;
90.在所述实时特征满足预设条件的情况下,发送至目标端;
91.接收所述目标端根据实时特征进行打标得到的打标行为数据。
92.在本公开的一些实施例中,基于前述方案,所述第一解释模块还被配置为:
93.将所述实时样本上传至解释引擎;
94.利用所述解释引擎中的解释模板对所述实时行为数据与所述实时特征的相关性或者所述打标行为数据与所述实时特征的相关性进行解释,得到第一解释结果,其中,所述解释模板中设有解释指标。
95.在本公开的一些实施例中,基于前述方案,所述解释引擎包括实时解释引擎和离线解释引擎,
96.相应地,所述第一解释模块还被配置为:
97.若所述目标模型为实时训练模型,则将所述实时样本上传至实时解释引擎;
98.若所述目标模型为离线训练模型,则将所述实时样本上传至离线解释引擎。
99.在本公开的一些实施例中,基于前述方案,所述第二解释模块还被配置为:
100.根据预设分析规则,建立关于所述目标模型相关数据和所述第一解释结果中至少之一的数据关联关系,以可视化形式展示所述数据关联关系。
101.在本公开的一些实施例中,基于前述方案,装置还包括:
102.检测模块,被配置为检测所述目标模型相关数据中的异常数据;
103.修复模块,被配置为对所述异常数据进行修复或删除。
104.在本公开的一些实施例中,基于前述方案,装置还包括:
105.接收模块,被配置为接收场景绑定指令,所述场景绑定指令中携带场景标识和用户标识;
106.绑定模块,被配置为查找与所述场景标识对应的场景并且将所述用户标识与所述场景标识进行绑定。
107.在本公开的一些实施例中,基于前述方案,所述第二解释模块还被配置为:
108.获取所述目标模型的预设时间段内的目标模型相关数据;
109.建立所述目标模型相关数据与所述预设时间段中的时间点的关联关系。
110.在本公开的一些实施例中,基于前述方案,所述第二解释模块还被配置为:
111.接收数据对比指令,所述数据对比指令中携带数据标识及时段信息;
112.查找与所述时段信息对应的时段内与所述数据标识对应的目标模型相关数据。
113.在本公开的一些实施例中,基于前述方案,装置还包括:
114.警报模块,被配置为:获取所述目标模型相关数据和或所述实时特征的自定义逻辑,在所述目标模型相关数据和/或所述实时特征满足预设条件的情况下,发出警报信息。
115.在本公开的一些实施例中,基于前述方案,所述第二解释模块还被配置为:
116.获取所述目标模型的预设时间段内的目标模型相关数据与效果变化数据;
117.建立所述目标模型相关数据、所述效果变化数据及所述第一解释结果中的任意两者或三者之间的关联关系。
118.在本公开的一些实施例中,基于前述方案,装置还包括:
119.数据化模块,被配置为将所述第一解释结果进行数据化,并存储至数据存储模块。
120.在本公开的一些实施例中,基于前述方案,所述数据化模块还被配置为:
121.利用预设的业务配置表将所述第一解释结果转换为规则数据表。
122.在本公开的一些实施例中,基于前述方案,所述数据化模块还被配置为:
123.利用预设算法根据所述第一解释结果计算对应的算法指标。
124.在本公开的一些实施例中,基于前述方案,装置还包括:
125.验证模块,被配置为验证是否仍存在异常数据;
126.记录输出模块,被配置为在不存在异常数据的情况下,记录数据清洗信息形成数据报告并输出。
127.在本公开的一些实施例中,基于前述方案,所述解释模板通过应用程序接口写入。
128.在本公开的一些实施例中,基于前述方案,所述目标模型相关数据通过约定的解析协议、采用软件开发工具包上传。
129.在本公开的一些实施例中,基于前述方案,所述环境数据包括与业务场景下所述目标模型所应用于的服务器的处理流量相关的数据。
130.在本公开的一些实施例中,基于前述方案,所述监控数据包括与所述目标模型的特征更新失败相关的数据。
131.在本发明实施方式的第四方面中,提供了一种计算设备,包括:处理器和存储器,所述存储器存储有可执行指令,所述处理器用于调用所述存储器存储的可执行指令执行如上述实施例中所述的解释业务场景下模型的方法。
132.根据本公开实施方式的解释业务场景下模型的方法、介质、装置和计算设备,通过根据本实施方式的方法通过除收集目标模型的核心数据之外还收集业务场景下的环境数据和监控数据参与对目标模型的解释,提高模型的可解释性,并且将模型可解释能力独立于模型之外,实现相同解释方法可以用于任意模型训练的业务场景。
附图说明
133.通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
134.图1示意性示出了根据本公开的一个实施例的解释业务场景下模型的方法的流程图;
135.图2示意性示出了根据本公开的一个实施例的实现解释业务场景下模型的方法的系统架构图;
136.图3示意性示出了根据本公开的一个实施例的解释业务场景下模型的方法的环境数据qps的变化图;
137.图4示意性示出了根据本公开的一个实施例的解释业务场景下模型的方法的环境数据时延的变化图;
138.图5示意性示出了根据本公开的一个实施例的解释业务场景下模型的方法的监控数据特征失败率的变化图;
139.图6示意性示出了根据本公开的一个实施例的解释业务场景下推荐模型的方法的流程图;
140.图7示意性示出了根据本公开的一个实施例的解释业务场景下模型的装置的框图。
141.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
142.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
143.本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
144.根据本公开的实施方式,提出了一种解释业务场景下模型的方法、介质、装置及计算设备。
145.本公开提及的主要术语解释如下:
146.通用机器学习场景:互联网产品从传统软件行业中定制化的内容消费逻辑转换为内容与消费者的个性化匹配,而传统的规则引擎无法满足这类复杂性要求,需要更为个性化的数学模型来进行内容的分发;
147.可解释性:可解释性在数学上没有严格的定义,在能理解的领域下,可解释性是指人们能够理解决策原因的程度,机器学习模型的可解释性越高,人们就越容易理解为什么做出某些决策与预测;
148.可解释模型:可解释模型指其数学公式天然有可解释性,能够通过模型参数很容易地说明决策的原因,常见的可解释模型包括:线性回归、逻辑回归、决策树等等;
149.模型可解释性方法:针对互联网产品的内容分发,个性化的数学模型,尤其是复杂的深度学习模型应用越来越广泛,而模型可解释性方法指的是通过一定的数学手段,将复杂模型的数学逻辑与复杂的业务场景尤其是业务产生正负向效果上相关联的技术手段。
150.此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
151.下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
152.发明概述
153.目前业界流行的模型可解释性方法主要集中在本身具有可解释性的模型,比如线性回归、逻辑回归、决策树等本身具有可解释性的模型。
154.以逻辑回归为例,逻辑回归是业界落地的一种分类方法,常用于包括点击率预估在内的多个互联网业务场景,其数学公式如下:
[0155][0156]
其中,y为行为最终概率,x为行为特征,w为参数,假定w由特征参数{β0,β1,β2,


β
p
},如针对于点击率预估场景,该行为点击的概率如下:
[0157][0158]
对行为点击概率与不点击概率进行相除并取log后:
[0159][0160]
表明该行为能够被其特征值{1,x1,x2,

,x
p
}决定有多大概率被点击,通过合理改变某些特征值,可以决定该行为最终概率。
[0161]
基于上述数学原理,相关技术通常针对可解释的模型来进行模型归因分析,通过对其模型参数取绝对值,来判断其对于场景的重要性。
[0162]
本发明人发现,关于模型可解释性的相关技术落地在本身可解释的模型上,这类模型在完成训练后,其解释逻辑与样本、场景无关,仅与模型引入的样本特征信息有关,因而解释的能力较弱。此外可解释性模型通常逻辑比较单一,无法覆盖现在行业业务场景下的复杂建模需求,对于复杂模型的解释性目前研究处于早期“黑盒”阶段,类似可解释性模型上的解释能力,无法覆盖在这类复杂模型上。而随着业务越来越复杂,数据量规模的剧增,复杂性的模型越来越流行,对于业务而言,可解释性能力的缺失很难为业务指标的变化说明原因。
[0163]
一方面,有一些模型是不可解释的,特征变化之后模型输出是否符合预期变化是不确定的。对于一些模型可以通过权重解释,而对于一个规则或随机策略,并没有模型相关信息例如权重,则传统可解释方法无法实现。本发明人意识到,在这种情况下,需要引入真实业务场景下的样本。不管怎样收集到样本,比如业务场景下随机策略推送年轻女性主播,但模型没有哪个特征代表年轻女性主播,但样本中可以看到推荐的主播是年轻女性的点击概率特别高,则知道推荐年轻女性主播转化率高。
[0164]
另一方面,单纯做模型可解释性在业务场景下不是特别准确,因此除对模型本身进行解释之外,把模型放到具体运行场景中考虑环境参数和一些参数对模型的影响,同时还利用可解释模型的一些特征信息和业务数据信息。本公开中获取模型训练样本,对线上样本分布进行分析给到业务人员做辅助。另外,获取环境数据,考虑模型上线之后的表现情况,例如模型上线之后是不是有更多流量产生运算瓶颈,模型在业务场景下流量qps突然暴增,会导致业务有问题。
[0165]
因此,采集机器学习模型的训练样本保存下来,对真实业务的数据进行分析并进行解释。解释不完全依赖于模型,还依赖于样本数据、环境数据、监控数据;通过数据的组合提供给业务人员进行分析。
[0166]
因此,本公开的实施例提供了一种解释业务场景下模型的方法、介质、装置及计算设备,可以提高模型的可解释性,并且将模型可解释能力独立于模型之外,实现相同解释方法可以用于任意模型训练的业务场景。
[0167]
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
[0168]
示例性方法
[0169]
下面参考图1来描述根据本公开示例性实施方式的解释业务场景下模型的方法。
[0170]
图1示意性示出了一种解释业务场景下模型的方法,包括步骤102至108。
[0171]
102:收集业务场景下目标模型训练相关的核心数据。
[0172]
目标模型可以为本身可解释模型、任意机器学习模型、或仅规则或随机策略。目标模型应用于业务场景下,执行其对应功能的业务。在一种实施例中,目标模型为推荐模型,业务场景可以为音乐播放平台为用户推荐歌单、购物平台为用户推荐商品项或者采购平台为用户推荐商品项。
[0173]
在一种实施例中,核心数据包括目标模型的实时样本,收集业务场景下目标模型训练相关的核心数据包括:
[0174]
响应于用户的实时行为,收集目标模型的实时样本,所述实时样本包括实时特征,以及实时行为数据或者打标行为数据。
[0175]
在应用目标模型的业务场景下,用户执行实时行为,收集到包括用户的实时特征和实时行为数据或者实时特征和打标行为数据,构成实时样本,对目标模型进行迭代训练,下文对两种情况进行说明。
[0176]
在一种实施例中,所述模型为推荐模型,响应于用户的实时行为,收集目标模型的实时样本,包括:
[0177]
获取用户的实时特征;
[0178]
收集实时行为数据,所述实时行为数据表征用户对根据所述用户的实时特征推荐的目标对象执行的实时行为;
[0179]
将所述实时特征与所述实时行为数据拼接形成实时样本,其中,所述实时样本用于对所述目标模型进行训练。
[0180]
对于购物平台为用户推荐商品项的实施例,用户对购物平台推荐的商品项进行点击浏览的行为数据作为样本,训练目标模型,训练的目标模型用于购物平台推荐,在用户进入购物平台主页或更新至某一页面,根据用户特征计算实时得分,并且向用户推荐得分最高的商品项,用户针对推送的商品项执行行为即点击或不点击。对于音乐播放平台为用户推荐歌单的实施例,用户进入音乐播放平台或更新至某一页面,根据用户特征计算实时得分,并且向用户推荐得分最高的歌单,用户针对推荐的歌单执行行为点击或不点击。以推荐歌单为例对上述收集核心数据进行说明,响应于向用户推荐歌单后用户的点击或不点击实时行为,收集到推荐模型的实时特征和实时行为数据,将实时特征和实时行为拼成样本对推荐模型继续迭代训练。
[0181]
实时特征是指与用户使用平台时的用户相关特征或目标对象相关特征。以音乐播放平台推荐歌单为例进行说明,实时特征可以包括歌单已播放次数、用户历史播放歌单次数。实时特征还可以包括:用户所使用的终端设备的系统类型例如android或ios,终端设备连接的网络类型例如wifi、4g或5g,用户的性别、年龄等。模型训练平台的与模型训练相关的核心数据进行上报后对核心数据进行分析,核心数据上报能够有效解决无数据的情况,通过后续对核心数据的分析,能够准确地对包括样本、特征在内的多种不同数据源进行综合考量,增大对复杂模型的支持。
[0182]
上文对实时样本包括实时特征和实时行为数据的情况进行说明,下面对实时样本包括实时特征和打标行为数据的情况进行说明。对于实时样本包括实时特征和打标行为数据的实施例,收集目标模型的实时特征以及打标行为数据可以包括:
[0183]
获取用户的实时特征;
[0184]
在所述实时特征满足预设条件的情况下,发送至目标端;
[0185]
接收所述目标端根据实时特征进行打标得到的打标行为数据。
[0186]
打标行为数据是由目标端例如由运营方根据实时特征打标形成的行为数据。以挖掘作弊用户即检测用户刷歌单为例进行说明,收集用户的实时特征例如当天歌单已播放次数和用户历史播放歌单次数,若同一用户id针对某个歌单的已播放次数大于阈值和/或用户历史播放歌单次数大于预设阈值的情况下,发送给运营方进行打标,将实时特征发送给运营方根据预设规则或模板判断后进行打标,即是不是作弊。例如,可以将模型实时打分高的打标为作弊。
[0187]
在一种实施方式中,目标模型为分类模型,响应于用户的实时行为,收集目标模型的实时样本,包括:
[0188]
获取用户的实时特征,根据实时特征对所述用户进行分类并展示分类结果;
[0189]
收集实时行为数据,所述实时行为数据表征用户对所述分类结果执行的实时行为;
[0190]
将所述实时特征与所述实时行为数据拼接形成实时样本,其中,所述实时样本用于对所述目标模型进行训练。
[0191]
分类模型可以为使用任意聚类算法的聚类模型或其他分类模型,用户登录或使用该分类模型所应用于的业务平台的情况下,获取用户的实时特征,根据实时特征判断用户属于哪一类型并且将分类结果展示给用户,用户对该分类结果进行确认,确认该分类结果是否符合自身情况。实时行为包括对分类结果的认同或否认行为,例如通过点击确认控件等执行的认同行为或通过点击否认控件等执行的否认行为,之后将实时特征与实时行为数据拼接形成实时样本。
[0192]
在一种实施例中,核心数据包括所述目标模型的实时样本以及所述目标模型训练相关的中间文件,收集业务场景下目标模型训练相关的核心数据包括:
[0193]
响应于用户的实时行为,收集目标模型的实时样本,所述实时样本包括实时特征,以及实时行为数据或者打标行为数据;
[0194]
收集所述目标模型训练相关的中间文件并且存储至数据存储模块。
[0195]
目标模型训练相关的中间文件是模型参数可视化的一些文件,例如模型参数直方图、模型权重直方图等。中间文件存储至数据存储模块之后,可以在训练过程中查看,根据中间文件去调节参数或权重。例如,模型参数服从均值为0、方差为1的正态分布,在训练过程中查看直方图分布,判断是不是训练地比较好。比如直方图中所有权重都很高,模型溢出,则判断为不合理且需要调节参数。模型训练平台会直接上传中间文件,直接存储至数据存储模块。数据存储模块可以为任意存储装置,例如分布式存储装置,可选地,可以使用driud或mysql存储装置来存储相关数据,尤其是时序性数据,通过持久化在时序数据库中,用于后续对比指标、性能变化时,相关上报数据的变化,能够有效地对比不同时刻模型性能与核心数据指标的变化,能够有效地掌握场景历史变化,也能为模型上线作出参考。
[0196]
步骤104:对所述核心数据进行解释得到第一解释结果。
[0197]
步骤104可以通过以下实现:对所述实时行为数据与所述实时特征的相关性或者所述打标行为数据与所述实时特征的相关性进行解释得到第一解释结果。
[0198]
不同于传统可解释方法对训练好的模型中权重的高低可视化展示进行解释,在核心数据至少包括模型的实时样本即实时行为数据与实时特征或打标行为数据与实时特征的情况下,步骤104中对其之间的相关性进行解释。
[0199]
具体地,对所述实时行为数据与所述实时特征的相关性或者所述打标行为数据与所述实时特征的相关性进行解释得到第一解释结果可以通过以下实现:
[0200]
将所述实时样本上传至解释引擎;
[0201]
利用所述解释引擎中的解释模板对所述实时行为数据与所述实时特征的相关性或者所述打标行为数据与所述实时特征的相关性进行解释,得到第一解释结果,其中,所述解释模板中设有解释指标。
[0202]
解释模板可以通过应用程序接口写入,可以由用户或业务人员根据需求定义一些模板。具体地,可以根据目标模型的具体应用场景来设置解释模板中的解释指标。解释指标可以为个体条件依赖、累积局部效应、特征交互、置换特征重要性、lime、shapley、shap、反事实解释、对抗样本、异质点数据统计、影响力实例。通过组合多种解释指标来替代传统的单一的可解释性模型指标,模型可解释能力更加强大。
[0203]
以推荐模型推荐歌单为例,选用特征交互指标,模型使用歌单已播放次数和用户历史播放歌单次数两个指标来预测是否点击歌单,假定存在以下四条样本,如表1所示:
[0204]
表1样本数据
[0205][0206]
每条样本有三个字段,前两个字段为特征字段,第三个字段为行为字段。比如表1中第一行至第4行表征用户a至用户d的样本,在推荐模型训练时训练目标为歌单已播放次数小时点击概率小,即用户产生点击行为的概率小。以“歌单已播放次数”与是否点击歌单进行交互分析,发现“歌单已播放次数”较少如小于10000次时,用户不会点击歌单,可能存在的原因是歌单已播放次数能够有效表明歌单受欢迎程度,而“用户历史播放歌单次数”较少时,用户不会点击歌单,可能存在的原因在于“用户历史播放歌单次数”表明该用户一定程度上对歌单播放的兴趣,大于一定阈值表明用户对歌单播放兴趣较大,更容易接受歌单推荐。在解释模板中设置为歌单已播放次数少于10000次用户不会点击歌单的情况下,若实时样本中歌单已播放次数为8000次用户未点击时,可以对行为数据与实时特征之间的相关性进行解释。
[0207]
在一种实施例中,所述解释引擎包括实时解释引擎和离线解释引擎,
[0208]
相应地,将所述实时样本上传至解释引擎包括:
[0209]
若所述目标模型为实时训练模型,则将所述实时样本上传至实时解释引擎;
[0210]
若所述目标模型为离线训练模型,则将所述实时样本上传至离线解释引擎。
[0211]
解释引擎按业务逻辑分为实时解释引擎与离线解释引擎,实时训练模型为实时生
效的模型,即利用实时样本实时训练的模型,离线训练模型为非实时生效的模型,例如,产生新的实时样本后预设时间后训练模型,以上文推荐模型为例,在向用户推荐歌单后,用户点击或不点击的行为数据生成实时样本后,利用该实时样本训练推荐模型,对于离线训练模型,则在用户点击完一段时间后,如一天或一周后利用该实时样本训练推荐模型。
[0212]
图2示意性示出了根据本公开的一个实施例的实现解释业务场景下模型的方法的系统架构图,如图2所示,系统架构包括数据上报系统、解释引擎和数据存储与可视化系统,数据上报系统包括核心数据上报201、环境数据上报202、监控数据上报203,解释引擎根据目标模型为实时训练或离线训练而划分为实时解释引擎204和离线解释引擎205,数据存储与可视化系统包括解释数据化206、数据存储模块207、自定义数据可视化208及业务监控系统209。
[0213]
实时解释引擎中,核心数据上报至kafka,即实时任务流将核心数据收集放到服务器上、上报至kafka。通过约定消费数据存放位置,业务下游可以知道产生的数据存放的位置,消费数据方使用,例如实时解释引擎进行消费。对于离线解释引擎,将数据上报至hdfs,同样设置解释模板进行解释,批量化生成解释数据。
[0214]
在一种实施例中,在利用所述解释引擎中的预设解释模板对所述实时行为数据与所述实时特征的相关性或所述打标行为数据与所述实时特征的相关性进行解释,得到第一解释结果之后,还包括:
[0215]
将所述第一解释结果进行数据化,并存储至数据存储模块。
[0216]
解释结果这类数据有一部分情况下无法直接提供给业务人员使用,需要通过解释数据化模块对其数据化后存储至数据存储模块。
[0217]
将所述第一解释结果进行数据化可以通过以下实现:利用预设的业务配置表将所述第一解释结果转换为规则数据表。在这种情况下,主要套用业务配置模块,比如规则化的可视化数据表,将解释结果个性化地展示成图表信息。
[0218]
将所述第一解释结果进行数据化还可以通过以下实现:利用预设算法根据所述第一解释结果计算对应的算法指标。在这种情况下,根据解释结果计算公开的算法指标,比如在线auc、在线q分布等等。同样如同写入解释模板,对解释结果进行数据化也可以通提供一个接口由用户自定义写入数学逻辑。在一种实施例中,在将核心数据上报前,还检测核心数据中的异常数据,并且对异常数据进行修复或删除。
[0219]
106:收集目标模型相关数据,所述目标模型相关数据包括以下中至少之一:与所述目标模型的应用环境相关的环境数据以及与所述目标模型相关的监控数据。
[0220]
环境数据主要包括应用目标模型的线上业务的访问浏览例如每秒查询率(qps)、请求数据时延、模型推理时延等,还包括实时样本拼接过程中各流程耗时、对存放特征的特征仓库的请求qps、负载、特征版本更新时间等等元信息,以及模型训练的数据目录、超参、模型架构、模型训练时间线等等,这部分数据用来辅助分析模型因环境信息而造成的指标、性能的变化。
[0221]
对于环境数据,首先考虑与业务场景下目标模型所应用于的服务器的处理流量相关的数据,例如流量是不是太大。服务应用于线上业务,如果访问流量暴增,服务无法供给,用户会感觉卡顿,流量大又会导致请求数据时延大。以推荐歌单的推荐模型为例进行说明,若用户打开音乐播放平台且根据用户特征向用户推送歌单的处理流量太大,例如qps太大,
则请求数据时延大。将qps、请求数据时延等上报到数据存储模块并且之后进行可视化展示,便于业务人员获知当前qps等,辅助分析目标模型因qps等造成的性能变化。
[0222]
特征版本更新时间是指拼接样本时特征会有变化,例如去年和今年使用音乐播放平台,用户使用年限会变化。再例如当前时间段使用的网络类型为4g、下个时间段使用的网络类型为wifi,在特征更新时会添加版本号和更新时间。超参例如是目标模型训练时的学习率,超参作为环境数据上报,便可以获知目标模型是利用什么超参训练出来的,表现如何,表现不好时可以查看以确认设置的超参是不是有问题,例如太大等。模型训练时间线是用于表征目标模型的更新情况,例如目标模型是凌晨训练的,但凌晨训练资源不够导致目标模型未能上线,例如下午才上线,那么利用模型训练时间线便可以获知哪个时间段利用的是旧的模型还是新的模型。模型训练时间线中,将数据采集时间、样本生成时间、模型训练时间、模型上线时间展示到预设页面上。
[0223]
监控数据可以称为监控系统信息,如图2所示,监控数据上报203主要包括特征质量监控系统和abtest监控系统,特征质量监控系统主要收集与目标模型的特征更新失败相关的数据,包括特征版本更新后的特征质量,比如请求失败数、空值率等等,辅助分析由于特征质量造成的模型性能与指标的变化。特征更新失败不能直接判断,而是根据系统的时延判断其存在可能性。更新特征时可能程序bug或系统原因,更新上去特征更新失败,或者特征中的男女特征为空。abtest监控系统主要是收集模型最终的效果数据,从而实现效果数据与特征质量的线上对比效果,用来辅助分析模型上线后的指标、性能的变化程度。监控数据还可以包括部署服务所依赖的底层架构的数据,比如底层架构是不是有问题,若底层架构有问题,则服务就终止。可以将abtest监控系统收集的效果数据和同一时间段的特征质量关联对比,确认特征质量变差时效果数据是否变差,还可以将abtest监控系统收集到的效果数据与同一时间段的环境数据关联对比,确认环境数据变差例如qps过高时效果数据是否变差,下文对此进行说明。
[0224]
目标模型相关数据即环境数据和监控数据通过约定的解析协议、采用软件开发工具包(sdk)上传。上传数据不仅仅包括环境数据指标、监控数据指标,也包括对应的场景标识等标识信息,用于在之后数据可视化时作为唯一标识来利用其确定场景。
[0225]
108:利用所述目标模型相关数据和所述第一解释结果中至少之一对所述目标模型进行解释得到第二解释结果。
[0226]
步骤108可以通过以下实现:
[0227]
根据预设分析规则,建立关于所述目标模型相关数据和所述第一解释结果中至少之一的数据关联关系,以可视化形式展示所述数据关联关系。
[0228]
在一种实施例中,建立关于所述目标模型相关数据和所述第一解释结果中至少之一的数据关联关系可以通过以下实现:获取所述目标模型的预设时间段内的目标模型相关数据;建立所述目标模型相关数据与所述预设时间段中的时间点的关联关系。具体地,获取所述目标模型的预设时间段内的目标模型相关数据可以通过以下实现:接收数据对比指令,所述数据对比指令中携带数据标识及时段信息;查找与所述时段信息对应的时段内与所述数据标识对应的目标模型相关数据。
[0229]
下文以目标模型相关数据为环境数据qps为例进行说明,用户通过业务监控系统209输入数据对比指令,指令中携带表征qps的数据标识和时段信息为2021

04

10全天与
2021

04

13全天,查找到上述时段内的qps数据,建立qps与上述时间段中每个时间点的关联关系。在经过可视化形式展示之后,生成如图3所示的2021

04

10与2021

04

13的qps随时间变化图。如所示,横轴为时间、纵轴为每秒多少个请求,不同时间段qps有高有低,在正常时间段内04

10与04

13的qps很贴近,但在前后两个时间段内04

13与04

10的qps差距比较大,业务人员发现这个时间段与以往历史数据相比有变化,有些异常。qps差距比较高,导致时延也会差距比较大,时延存在异常。如图4所示,与图3的qps差距比较大的两个时间段对应的两个时间段时延存在异常。
[0230]
上文中,通过用户自定义图表,看图表的分布。此外,也可以针对使用率高的图表直接设置基础数据模板,比如数据平视图即横轴时间与竖直轴样本的图、折线图等,如果突然发现业务异常,使用折线图对qps展示,qps过高,时延过高,则消费者感受到卡顿。
[0231]
在另一种实施例中,建立关于所述目标模型相关数据和所述第一解释结果中至少之一的数据关联关系还可以通过以下实现:
[0232]
获取所述目标模型的预设时间段内的目标模型相关数据与效果变化数据;
[0233]
建立所述目标模型相关数据、所述效果变化数据及所述第一解释结果中的任意两者或三者之间的关联关系。
[0234]
以建立目标模型相关数据与效果变化数据之间的关联关系为例进行说明。abtest监控系统主要是收集模型最终的效果数据,从而实现效果数据与特征质量的线上对比效果,可以将abtest监控系统收集的效果数据和同一时间段的特征质量关联对比,确认特征质量变差时效果数据是否变差,还可以将abtest监控系统收集到的效果数据与同一时间段的环境数据关联对比,确认环境数据变差例如qps过高时效果数据是否变差。如图5所示,横轴表示时间,纵轴表示特征失败率,若在特征失败率高的时段中,模型效果数据差,则匹配。若不匹配,则存在异常、寻找其他原因。在一实施例中,对用户的性别特征即男女分布与最后是否点击关联并可视化,验证样本收集时上报的男女特征是否有问题。
[0235]
在一种实施方式中,解释业务场景下模型的方法还包括:
[0236]
获取所述目标模型相关数据和或所述实时特征的自定义逻辑,在所述目标模型相关数据和/或所述实时特征满足预设条件的情况下,发出警报信息。
[0237]
自定义逻辑例如为qps超过1000,在qps超过1000的情况下发出警报信息,例如自定义逻辑为实时特征“歌单已播放次数”小于10000次但推荐次数超过预设阈值不合理,在这种情况下发出警报信息。用户通过业务监控系统209配置相关指标进行自定义逻辑或自定义监控报警机制,从而实现对用户进行报警通知,例如邮件告警周知。
[0238]
在建立所述数据关联关系之前,还包括:检测所述目标模型相关数据中的异常数据;对所述异常数据进行修复或删除。可选地,在对所述异常数据进行修复或删除之后,还包括:验证是否仍存在异常数据;在不存在异常数据的情况下,记录数据清洗信息形成数据报告并输出。
[0239]
在一种实施方式中,解释业务场景下模型的方法还包括:
[0240]
接收场景绑定指令,所述场景绑定指令中携带场景标识和用户标识;
[0241]
查找与所述场景标识对应的场景并且将所述用户标识与所述场景标识进行绑定。
[0242]
用户通过如图2所示的业务监控系统209输入场景绑定指令,将用户与场景标识绑定,通过绑定场景业务将可视化的相关图表展示给用户。
[0243]
根据本实施方式的解释业务场景下推荐模型的方法从模型训练样本、业务数据可解释指标多个方面来解释模型在业务场景上模型性能、核心指标的好坏;在通用机器学习场景,通过联合多个流程的数据上报,将落地业务的模型整体数据链路打通,提供模型性能与指标的归因统计,通过引入算法业务人员的可解释指标,解决复杂模型的黑盒特征,大大地提升整体机器学习业务场景的可解释性。
[0244]
图6示意性示出了一个具体的音乐推荐场景下,根据本发明的一个实施例的解释业务场景下推荐模型的方法的流程图。
[0245]
参照图6所示,根据本发明的一个实施例的解释业务场景下推荐模型的方法的流程,包括如下步骤:
[0246]
602:在用户进入音乐播放平台时获取用户的歌单已播放次数、用户历史播放歌单次数;
[0247]
604:根据歌单已播放次数、用户历史播放歌单次数计算歌单得分,向用户推荐得分最高的歌单;
[0248]
606:收集用户针对推荐的歌单执行的表征点击或不点击的实时行为数据;
[0249]
608:将歌单已播放次数、用户历史播放歌单次数及行为数据拼接形成实时样本,对音乐播放平台上应用的推荐模型进行训练;
[0250]
610:将所述实时样本上传至解释引擎,利用解释引擎中的解释模板对实时行为数据与歌单已播放次数、用户历史播放歌单次数的相关性进行解释,得到第一解释结果;
[0251]
参加表1的4条样本,每条样本有三个字段,前两个字段为特征,第三个字段为行为。比如表1中第一行至第4行表征用户a至用户d的样本,在推荐模型训练时训练目标为歌单已播放次数小时点击概率小,即用户产生点击行为的概率小。以“歌单已播放次数”与是否点击歌单进行交互分析,发现“歌单已播放次数”较少如小于10000次时,用户不会点击歌单,可能存在的原因是歌单已播放次数能够有效表明歌单受欢迎程度,而“用户历史播放歌单次数”较少时,用户不会点击歌单,可能存在的原因在于“用户历史播放歌单次数”表明该用户一定程度上对歌单播放的兴趣,大于一定阈值表明用户对歌单播放兴趣较大,更容易接受歌单推荐。在解释模板中设置为歌单已播放次数少于10000次用户不会点击歌单的情况下,若实时样本中歌单已播放次数为8000次用户未点击时,可以对行为数据与实时特征之间的相关性进行解释。
[0252]
612:利用预设的可视化数据表,将第一解释结果展示成图表信息并存储至mysql;
[0253]
614:获取推荐模型的预设时间段内的qps和时延;建立qps和时延与预设时间段中的时间点的关联关系并进行可视化展示;
[0254]
616:获取推荐模型的预设时间段内的效果变化数据和与特征失败相关的数据,建立与时间点的关联关系进行可视化展示;
[0255]
618:获取关于qps的自定义逻辑,在qps超过预设值的情况下,发出警报信息。
[0256]
根据本实施方式的解释业务场景下推荐模型的方法从模型训练样本、业务数据可解释指标多个方面来解释模型在业务场景上模型性能、核心指标的好坏;在通用机器学习场景,通过联合多个流程的数据上报,将落地业务的模型整体数据链路打通,提供模型性能与指标的归因统计,通过引入算法业务人员的可解释指标,解决复杂模型的黑盒特征,大大地提升整体机器学习业务场景的可解释性。
[0257]
示例性介质
[0258]
在介绍了本发明示例性实施方式的方法之后,接下来,对本发明示例性实施方式的介质进行说明。
[0259]
在一些可能的实施方式中,本发明的各个方面还可以实现为一种介质,其上存储有程序代码,当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的解释业务场景下模型的方法中的步骤。
[0260]
具体地,所述设备的处理器执行所述程序代码时用于实现如下步骤:
[0261]
收集业务场景下目标模型训练相关的核心数据;
[0262]
对所述核心数据进行解释得到第一解释结果;
[0263]
收集目标模型相关数据,所述目标模型相关数据包括以下中至少之一:与所述目标模型的应用环境相关的环境数据以及与所述目标模型相关的监控数据;
[0264]
利用所述目标模型相关数据和所述第一解释结果中至少之一对所述目标模型进行解释得到第二解释结果。
[0265]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的解释业务场景下模型的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述解释业务场景下模型的方法的技术方案的描述。
[0266]
需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0267]
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0268]
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、rf等,或者上述的任意合适的组合。
[0269]
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0270]
示例性装置
[0271]
在介绍了本发明示例性实施方式的介质之后,接下来,参考图7对本发明示例性实
施方式的解释业务场景下模型的装置进行说明。
[0272]
图7示意性示出了根据本发明的一个实施例的解释业务场景下模型的装置的框图。
[0273]
参照图7所示,根据本发明的一个实施例的解释业务场景下模型的装置700,包括:
[0274]
第一收集模块702,被配置为收集业务场景下目标模型训练相关的核心数据;
[0275]
第一解释模块704,被配置为对所述核心数据进行解释得到第一解释结果;
[0276]
第二收集模块706,被配置为收集目标模型相关数据,所述目标模型相关数据包括以下中至少之一:与所述目标模型的应用环境相关的环境数据以及与所述目标模型相关的监控数据;
[0277]
第二解释模块708,被配置为利用所述目标模型相关数据和所述第一解释结果中至少之一对所述目标模型进行解释得到第二解释结果。
[0278]
在本公开的一些实施例中,基于前述方案,所述核心数据包括所述目标模型的实时样本以及所述目标模型训练相关的中间文件,所述第一收集模块包括:
[0279]
第一收集单元,被配置为响应于用户的实时行为,收集目标模型的实时样本,所述实时样本包括实时特征,以及实时行为数据或者打标行为数据;
[0280]
第二收集单元,被配置为收集所述目标模型训练相关的中间文件并且存储至数据存储模块;
[0281]
相应地,所述第一解释模块还被配置为:
[0282]
对所述实时行为数据与所述实时特征的相关性或者所述打标行为数据与所述实时特征的相关性进行解释得到第一解释结果。
[0283]
在本公开的一些实施例中,基于前述方案,所述模型为推荐模型,所述第一收集单元还被配置为:
[0284]
获取用户的实时特征;
[0285]
收集实时行为数据,所述实时行为数据表征用户对根据所述用户的实时特征推荐的目标对象执行的实时行为;
[0286]
将所述实时特征与所述实时行为数据拼接形成实时样本,其中,所述实时样本用于对所述目标模型进行训练。
[0287]
在本公开的一些实施例中,基于前述方案,所述模型为分类模型,所述第一收集单元还被配置为:
[0288]
获取用户的实时特征,根据实时特征对所述用户进行分类并展示分类结果;
[0289]
收集实时行为数据,所述实时行为数据表征用户对所述分类结果执行的实时行为;
[0290]
将所述实时特征与所述实时行为数据拼接形成实时样本,其中,所述实时样本用于对所述目标模型进行训练。
[0291]
在本公开的一些实施例中,基于前述方案,所述第一收集单元还被配置为:
[0292]
获取用户的实时特征;
[0293]
在所述实时特征满足预设条件的情况下,发送至目标端;
[0294]
接收所述目标端根据实时特征进行打标得到的打标行为数据。
[0295]
在本公开的一些实施例中,基于前述方案,所述第一解释模块还被配置为:
[0296]
将所述实时样本上传至解释引擎;
[0297]
利用所述解释引擎中的解释模板对所述实时行为数据与所述实时特征的相关性或者所述打标行为数据与所述实时特征的相关性进行解释,得到第一解释结果,其中,所述解释模板中设有解释指标。
[0298]
在本公开的一些实施例中,基于前述方案,所述解释引擎包括实时解释引擎和离线解释引擎,
[0299]
相应地,所述第一解释模块还被配置为:
[0300]
若所述目标模型为实时训练模型,则将所述实时样本上传至实时解释引擎;
[0301]
若所述目标模型为离线训练模型,则将所述实时样本上传至离线解释引擎。
[0302]
在本公开的一些实施例中,基于前述方案,所述第二解释模块还被配置为:
[0303]
根据预设分析规则,建立关于所述目标模型相关数据和所述第一解释结果中至少之一的数据关联关系,以可视化形式展示所述数据关联关系。
[0304]
在本公开的一些实施例中,基于前述方案,装置还包括:
[0305]
检测模块,被配置为检测所述目标模型相关数据中的异常数据;
[0306]
修复模块,被配置为对所述异常数据进行修复或删除。
[0307]
在本公开的一些实施例中,基于前述方案,装置还包括:
[0308]
接收模块,被配置为接收场景绑定指令,所述场景绑定指令中携带场景标识和用户标识;
[0309]
绑定模块,被配置为查找与所述场景标识对应的场景并且将所述用户标识与所述场景标识进行绑定。
[0310]
在本公开的一些实施例中,基于前述方案,所述第二解释模块还被配置为:
[0311]
获取所述目标模型的预设时间段内的目标模型相关数据;
[0312]
建立所述目标模型相关数据与所述预设时间段中的时间点的关联关系。
[0313]
在本公开的一些实施例中,基于前述方案,所述第二解释模块还被配置为:
[0314]
接收数据对比指令,所述数据对比指令中携带数据标识及时段信息;
[0315]
查找与所述时段信息对应的时段内与所述数据标识对应的目标模型相关数据。
[0316]
在本公开的一些实施例中,基于前述方案,装置还包括:
[0317]
警报模块,被配置为:获取所述目标模型相关数据和或所述实时特征的自定义逻辑,在所述目标模型相关数据和/或所述实时特征满足预设条件的情况下,发出警报信息。
[0318]
在本公开的一些实施例中,基于前述方案,所述第二解释模块还被配置为:
[0319]
获取所述目标模型的预设时间段内的目标模型相关数据与效果变化数据;
[0320]
建立所述目标模型相关数据、所述效果变化数据及所述第一解释结果中的任意两者或三者之间的关联关系。
[0321]
在本公开的一些实施例中,基于前述方案,装置还包括:
[0322]
数据化模块,被配置为将所述第一解释结果进行数据化,并存储至数据存储模块。
[0323]
在本公开的一些实施例中,基于前述方案,所述数据化模块还被配置为:
[0324]
利用预设的业务配置表将所述第一解释结果转换为规则数据表。
[0325]
在本公开的一些实施例中,基于前述方案,所述数据化模块还被配置为:
[0326]
利用预设算法根据所述第一解释结果计算对应的算法指标。
[0327]
在本公开的一些实施例中,基于前述方案,装置还包括:
[0328]
验证模块,被配置为验证是否仍存在异常数据;
[0329]
记录输出模块,被配置为在不存在异常数据的情况下,记录数据清洗信息形成数据报告并输出。
[0330]
在本公开的一些实施例中,基于前述方案,所述解释模板通过应用程序接口写入。
[0331]
在本公开的一些实施例中,基于前述方案,所述目标模型相关数据通过约定的解析协议、采用软件开发工具包上传。
[0332]
在本公开的一些实施例中,基于前述方案,所述环境数据包括与业务场景下所述目标模型所应用于的服务器的处理流量相关的数据。
[0333]
在本公开的一些实施例中,基于前述方案,所述监控数据包括与所述目标模型的特征更新失败相关的数据。
[0334]
示例性计算设备
[0335]
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来,介绍根据本公开的另一示例性实施方式的计算设备。
[0336]
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
[0337]
在一些可能的实施方式中,根据本发明实施方式的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的解释业务场景下模型的方法中的步骤。例如,所述处理器可以执行如图1中所示的步骤:
[0338]
收集业务场景下目标模型训练相关的核心数据;
[0339]
对所述核心数据进行解释得到第一解释结果;
[0340]
收集目标模型相关数据,所述目标模型相关数据包括以下中至少之一:与所述目标模型的应用环境相关的环境数据以及与所述目标模型相关的监控数据;
[0341]
利用所述目标模型相关数据和所述第一解释结果中至少之一对所述目标模型进行解释得到第二解释结果。
[0342]
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的解释业务场景下模型的方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述解释业务场景下模型的方法的技术方案的描述。
[0343]
又如,所述处理器也可以执行如图6中所示的步骤。
[0344]
应当注意,尽管在上文详细描述中提及了解释业务场景下模型的装置的若干单元或子单元,但是这种划分仅仅是示例性的,并非是强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或单元的特征和功能可以在一个模块或单元中具体化。反之,上文描述的一个模块或单元的特征和功能可以进一步划分为由多个模块或单元来具体化。
[0345]
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0346]
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所发明的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1