一种基于结构化数据的预测方法

文档序号:26009852发布日期:2021-07-23 21:29阅读:121来源:国知局
本发明涉及一种预测,特别涉及一种基于结构化数据的预测方法,属于人工智能学习预测
技术领域
:。
背景技术
::迄今为止,大多数企业都依赖结构化数据进行数据存储和预测分析。关系数据库管理系统(rdbms)已经成为业界采用的主流数据库系统,关系数据库已经成为实际上存储和查询结构化数据的标准,而结构化数据对大多数业务的操作都是至关重要的。结构化数据中往往包含着大量的信息,这些信息往往可以用于进行数据驱动的决策或是识别风险和机会。从数据中提取见解用于决策需要高级分析,尤其是深度学习,它比统计聚合要复杂得多。形式上,结构化数据指的是可以用表格来表示的数据类型。可以看作是一个由n行(元组/样本)m列(属性/特征)组成的逻辑表,它是通过选择、投影和连接等核心关系操作从关系数据库中提取出来的。预测建模是学习依赖属性y对决定属性x的函数依赖性(预测函数),即,f:x→y。其中x通常称为特征向量,y为预测目标。针对结构化数据进行预测的主要挑战实际上是如何通过交叉特征来建模这些属性之间的依赖关系和相关性,即所谓的特征相互作用。这些交叉特征通过捕获原始输入特征的相互作用来创建新特征。具体来说,一个交叉特征可以定义为即输入特征与它们对应的各自相互作用关系权值的乘积。权重wi表示第i个特征对交叉特征的贡献;在特征相互作用中,wi=0使对应的特征xi失效,交叉特征的相互作用阶数则是指其非零交互权值wi的个数。这种用于关系建模的交叉特征是结构化数据学习的核心,它使学习模型能够代表更复杂的功能,而不仅仅是用于预测分析输入特征的简单线性聚合。现有对数据进行关系建模并用于目标预测的方法主要分为2类:隐式建模和显式建模。典型的隐式建模方法是深度神经网络(dnns),如cnns、lstm等。但dnns只适用于一些特定数据类型,例如,cnns在图像领域的应用,以及lstm在序列数据上的应用。然而,把dnns应用到关系表中的结构化数据时,可能不会产生有意义的结果。具体来说,结构化数据的属性值之间存在内在的相关性和依赖性,而这种特性之间的相互作用关系对于预测分析是必不可少的。虽然理论上,只要有足够的数据和容量,dnn可以近似任何目标函数,但传统dnn网络层善于捕获的相互作用是可加性的,因此,要为这样相乘的相互作用建模,就需要过分庞大并且越来越难以理解的模型,这些模型往往由多层叠加而成,层之间还有非线性的激活函数。先前的研究也提出,用dnns隐式建模这样的交叉特征可能需要大量的隐藏单元,这大大增加了计算成本,并且也使dnns更加难以解释;如文献alexandrandoni,rinapanigrahy,gregoryvaliant,andlizhang.2014.learningpolynomialswithneuralnetworks.inproceedingsofthe31thinternationalconferenceonmachinelearning,icml.所述。在关系分析中,dnns的首选替代方案是明确地对特征交互进行建模,从而在特征归因方面获得更好的性能和可解释性。然而,可能的特征交互的数量在组合上是很大的。因此,显式交叉特征建模的核心问题是如何识别正确的特征集,同时确定相应的交互权值。大多数现有的研究通过捕获交互阶数限制在预定义的个数范围内的交叉特征来回避这一问题。然而,随着最大阶数的增加,交叉特征的数量仍然接近指数增长。afn(weiyucheng,yanyanshen,andlinpenghuang.2020.adaptivefactorizationnetwork:learningadaptive-orderfeatureinteractions.in34thaaaiconferenceonartificialintelligence.)则更进一步,它利用对数神经元对交叉特征进行建模(j.wesleyhines.1996.alogarithmicneuralnetworkarchitectureforunboundednon-linearfunctionapproximation.inproceedingsofinternationalconferenceonneuralnetworks(icnn’96).ieee,1245–1250.),每个神经元将特征转化为对数空间,从而将多个特征的幂转化为可学习的系数,具体来说,即通过这种方式,每个对数神经元就可以捕获特定的任意阶特征相互作用项,但是afn有其固有的局限性,由于对数变换的使用,交互项的输入特征被限制为正值。另外,每个交互项的交互阶数不受约束,并且训练后保持静态。我们认为交叉特征应该只考虑某些输入特征,并且,特征相互作用应该动态地对单个输入建模。其基本原理是,并非所有的输入特征对交叉项都是建设性的,使用不相关的特征进行建模可能会引入噪声,从而降低有效性和可解释性。特别是,在实际应用中学习模型的部署不仅强调了准确性,同时还强调了效率和可解释性。值得注意的是,理解学习模型的一般行为和整个逻辑(全局可解释性),并为所做出的特定决策提供理由(局部可解释性)对于高风险应用中的关键决策制定至关重要,如医疗保健或金融行业。尽管许多黑盒模型(如dnns)具有强大的预测能力,但它们以隐式的方式对输入进行建模,这种方式令人费解,有时还可能学习到一些令人意想不到的模式。就此而言,明确地用最小组成特征集自适应地建模特征关系,会在有效性、效率和可解释性方面提供合理的先验知识。技术实现要素:本发明的目的在于针对现有技术的上述部分或全部不足,提供一种基于结构化数据的预测方法,包括以下内容:获取所述结构化数据元组x=<x1,x2,…xj,…xm>,xj表示第j个属性值,m表示所述结构化数据属性的个数;将属性值xj转换为嵌入向量表示ej,j∈{1,2,…,m};使用多个指数神经元基于所述嵌入向量建模所述x的特征相互作用;将所有所述特征相互作用聚合构建所述x的特征向量;基于所述特征向量进行分类预测。作为优选,所述将属性值xj转换为嵌入向量表示ej的过程如下:当所述xj为数值型时,先根据该属性值域范围缩放到(0,1]区间内,再与预学习的嵌入向量相乘;当所述xj为分类型时,直接根据其值索引对应预学习的嵌入向量。作为优选,所述建模所述x的特征相互作用时,阶数非固定。作为优选,所述指数神经元的个数为k×o个,其中,k表示注意头的个数,o表示每个注意头的所述指数神经元的数目,k和o都是自然数;每个注意头的所有所述指数神经元共享其双线性注意函数的权重矩阵watt;每个注意头的第i个所述指数神经元yi表示如下:其中,i,⊙表示哈达玛积,exp(·)函数和相应的指数wij按元素应用,ej表示所述结构化数据第j个属性值对应的嵌入向量,i,j,m,ne均为自然数,1≤i≤o,1≤j≤m,m表示所述结构化数据属性的个数,ne表示嵌入大小,表示yi对ej求导数,表示yi对wij求导数,diag(·)是对角矩阵函数;表示所述yi的动态特征交互权重,通过下式获得:wi=zi⊙vi;其中,表示可学习的注意权值向量,zi作为门,表示注意重校准权重,通过双线性注意对齐得分动态生成,表示如下:其中,表示注意查询向量,t表示转置运算,表示双线性注意函数的权重矩阵,α-entmax(·)表示稀疏softmax,稀疏性随α的增大而增大,α为用于控制稀疏性的超参数,作为优选,所述聚合为向量拼接。作为优选,基于所述特征向量进行分类预测前先通过多层感知器mlp捕获元素的非线性特征交互,并获得编码关系的向量表示h:其中,nh表示非线性特征交互尺寸,为自然数。作为优选,所述分类预测通过下式进行:其中,和分别表示权重和偏差,np表示预测目标数。作为优选,将所述预测方法与dnn结合进行目标预测。作为优选,将所述多个指数神经元的vi加和平均后的排序作为所述结构化数据中各属性对目标预测的重要性排名。作为优选,将所述多个指数神经元的wi加和平均后的排序作为当前所述元组中各属性值对当前目标预测结果的重要性排名。另一方面,本发明还提供了一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述的一种基于结构化数据的预测方法。另一方面,本发明还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述的一种基于结构化数据的预测方法。另一方面,本发明还提供了一种计算机程序产品,包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述的一种基于结构化数据的预测方法。有益效果与现有技术相比,本发明提出的一种基于结构化数据的预测方法,具有如下特点:1、提出通过指数神经元建模交叉特征,克服了对数神经元输入必须为正的限制,提高了神经元适用场景;2、提出的指数神经元能够建模任意阶的交叉特征,提升了交叉特征建模的有效性;3、通过指数神经元以及多头门控注意力机制能够根据输入数据动态并有选择性地建模任意阶的交叉特征,提升特征建模的准确性和效率;4、交叉特征建模方法遵循白盒设计,建模过程更加透明,因而在关系分析处理中更具解释性;5、通过注意重校准权重的门控机制能够动态捕捉对应于输入样本的交互项,提供模型决策的可解释性,从而得到人们的信任并提供新的见解,促进人们对某些领域的理解。6、通过对所有指数神经元的全局权重vi加和平均并排序,可使人们加深对于决策的影响因素及其重要程度的理解。7、通过对所有指数神经元的动态特征交互权重wi加和平均并排序,可使人们加深对于当前输入决策的影响因素及其重要程度的理解。附图说明图1为本发明实施例一所述方法的流程图;图2为本发明实施例一所述方法的优选实施方式流程示意图;图3为lime、shape和本发明方法分别针对数据集frappe和diabetes130的全局特征归因;图4为frappe数据集上的一个代表性输入实例的arm-net(左)的局部特征归因以及由lime(右上)和shap(右下)给出的局部特征重要性权重;图5为diabetes130数据集上的一个代表性输入实例的arm-net(左)的局部特征归因以及由lime(右上)和shap(右下)给出的局部特征重要性权重;。具体实施方式下面结合附图,具体说明本发明的优选实施方式。为了后续描述的方便,将结构化数据表示为一个逻辑表t,其中包含n行和m列,具体来说,每一行可以表示为一个元组(x,y)=(x1,x2,…xj,…xm,y),其中y是从属属性(预测目标),x(x=<x1,x2,…xj,…xm>)是决定属性(特征向量),xj表示第j个属性值。实施例一实现了本发明所述的基于结构化数据的预测方法,具体包括以下内容:s1、获取所述结构化数据元组x=<x1,x2,…xj,…xm>,xj表示第j个属性值,m表示所述结构化数据属性的个数;举例来说,当一个公司想要对月销售额进行预测时,提供的x包含属性域(month、regionid、storeid、productid),则m=4,4个属性分别为月份、地区id、商店id和产品id。s2、将属性值xj转换为嵌入向量表示ej,j∈{1,2,…,m};此处可以采用任何现有方法将当前元组的每个属性值转换为嵌入向量,如fm方法,双向嵌入方法等。较优的,可以对结构化数据的数值型属性和分类型属性分别处理:对于数值型属性,先根据该属性值域范围缩放到(0,1]区间内,再与预学习的嵌入向量相乘;对于分类型属性,直接根据其值索引对应预学习的嵌入向量。该种嵌入方式可以将向量嵌入过程纳入本发明方法的整体学习过程,使得嵌入向量表达更具针对性,因不同预测场景的不同而不同。对于上述x,四个属性均是分类型属性,可以通过训练得到所有对应分类的嵌入向量,如1-12月的嵌入向量,执行预测任务时,如果month=3,则直接使用对应于3月份的嵌入向量即可。s3、使用多个指数神经元基于所述嵌入向量建模所述x的特征相互作用;指数神经元不同于对数神经元,不要求输入必须为正,从而降低了对输入数据的要求,一个指数神经元建模一个特征相互作用,即交叉特征。进一步的,建模时不限定相互作用阶数,而是根据当前数据自适应确定阶数,可以提高所获取的特征相互作用的准确性和效率。进一步的,设置指数神经元的个数为k×o个,其中,k表示注意头的个数,o表示每个注意头的所述指数神经元的数目,k和o都是自然数;每个注意头的所有所述指数神经元共享其双线性注意函数φatt的权重矩阵watt;每个注意头的第i个所述指数神经元yi表示如下:其中,i,⊙表示哈达玛积,exp(·)函数和相应的指数wij按元素应用,ej表示所述结构化数据第j个属性值对应的嵌入向量,i,j,m,ne均为自然数,1≤i≤o,1≤j≤m,m表示所述结构化数据属性的个数,ne表示嵌入大小,表示yi对ej求导数,表示yi对wij求导数,diag(·)是对角矩阵函数;表示所述yi的动态特征交互权重,通过下式获得:wi=zi⊙vi;(3)其中,表示可学习的注意权值向量,zi作为门,表示注意重校准权重,通过双线性注意对齐得分动态生成,表示如下:其中,表示可学习的注意查询向量,t表示转置运算,表示双线性注意函数的权重矩阵,α-entmax(·)表示稀疏softmax,稀疏性随α的增大而增大,α为用于控制稀疏性的超参数,s4、将所有所述特征相互作用聚合构建所述x的特征向量;聚合可以采用各种方法,如加和平均,加权等等,本例采用拼接方法,即将所有指数神经元输出的特征相互作用向量拼接得到一个大向量,对于上述指数神经元,得到的特征向量维度为k·o·ne。该向量过于庞大,可以进一步捕获其非线性特征交互,降低向量维度,如使用多层感知器mlp捕获元素的非线性特征交互获得编码关系的向量表示h:其中,nh表示非线性特征交互的特征嵌入尺寸,为自然数。s5、基于所述特征向量进行分类预测。分类预测可以通过下式进行:其中,和分别表示权重和偏差,np表示预测目标数。对于上述月销售额预测任务,其预测目标总销售额totalsales可以设为多分类,如将具体销售数额划分为5个区间。对于其它应用场景,如癌症预测,可以设为二分类。即根据具体应用场景设置分类(预测目标)数目。以二元分类任务为例,对应的目标函数为二元交叉熵:其中和分别是预测标签和真值标签,n是训练实例,即训练元组数目,而σ(·)是sigmoid函数。在指定目标函数的情况下,可以使用流行的基于梯度的优化器(如sgd、adam(diederikp.kingmaandjimmyba.2015.adam:amethodforstochasticoptimization.in3rdinternationalconferenceonlearningrepresentations,iclr.)等)对本发明网络进行有效的训练,如对如图2所示网络进行训练,然后基于训练后网络对输入数据元组(实例)进行预测。进一步的,将上述方法用于某一场景,使用对应的结构化训练数据对网络进行训练后,所有指数神经元的全局权值vi就有了确定值,将所有指数神经元的vi加和平均后对其m个元素进行排序,其排序就体现了各属性对目标预测的招重要性,即全局解释性。同理,将所有指数神经元的特征相互作用涉及的属性组合按出现频次统计后排序输出,即zi中涉及的非零元素对应的属性组合,可以获得对应目标预测数据集的高频交互项(交互属性、频度和阶数),交互属性反映出影响关系密切的属性组合,频度反映了对应的高频交互项对目标预测的影响程度,阶数反映出大多与交互无关的属性被作为噪声自动滤除,有效提高了指数神经元交互建模的效率。进一步的,使用训练后的网络进行预测时,由于门控机制,针对输入数据作噪声滤除,可以获得每一交互关注的属性(zi中非零元素对应的属性)及其占比权值(wi中对应属性的元素值),将所有指数神经元的wi加和平均后对其m个元素进行排序,其排序就体现了当前输入元组数据的各属性值对当前目标预测的影响程度大小,即局部解释性。进一步的,有足够多隐藏单元的深度神经网络dnn是一种通用近似器,在捕捉非线性特征交互作用方面具有很强的能力,因此可以将上述方法(简称arm-net)与dnn结合进行更为有效的预测,此时预测结果为:其中w1和w2分别是arm-net和dnn的集成权重,是偏移量,并且np同样是学习任务的预测目标数。然后,通过优化目标函数(例如上述公式7),可以容易地对整个集成模型进行端到端训练。我们将arm-net和dnn的集成模型表示为arm-net+。通过上述本发明预测方法提高了结构化数据关系建模的有效性、可解释性和效率:1、有效性大多数现有的特征交互建模研究要么以预定义的最大交互阶数静态捕获可能的交叉特征,要么以隐式的方式建模交叉特征。然而,在不同的输入实例中,不同的关系应该具有不同的组成属性。有些关系是有信息的,而另一些可能只是噪音。因此,以静态方式建模交叉特征不仅参数和计算效率低,而且可能是无效的。特别地,每个指数神经元的输出捕捉到一个任意阶的特定交叉特征,并可能通过停用其他特征来表示相互作用特征的任何组合。利用所提出的指数神经元和多头门控注意机制,本发明可以自适应地对特征交互进行建模,从而获得更好的预测性能。2、可解释性可解释性度量了模型所做的决策可以被人类理解的程度,从而得到用户的信任并提供新的见解。目前已经存在解释黑盒模型如何工作的事后解释方法,包括基于扰动的方法、基于梯度的方法和基于注意的方法。然而,另一个模型给出的解释往往不可靠,这可能会产生误导。另外,本发明遵循白盒设计,并且建模过程更加透明,因而在关系分析处理中更具解释性。具体地说,每个特征交互项的交互权重是从实例间全局共享的注意值中得到的,并由每个实例的注意对齐动态地重新校准。因此,共享注意权重值向量在实例总体上并在属性域校准之前对全局交互权重进行编码。因此,我们可以将指数神经元的所有值向量的绝对值进行聚合,以获得全局可解释性。如将所有指数神经元的进行加和平均,这个结果可以指示本发明对群体中每个属性域的一般关注,即属性域的特征重要性,即其结果排序可以指示出不同属性之于预测目标的重要性排序。同时,提出的门控注意机制也增加了局部解释性,即在每个输入的基础上提供特征归因。值得注意的是,每个指数神经元都指定了一组稀疏的属性域,这些属性域通过注意力对齐被动态使用。因此,我们可以识别动态捕获的交叉特征,同时,对于每个实例(即结构化数据的一个元组),通过聚合所有指数神经元的交互权重就能够获得相对特征重要性表。为了理解内部建模过程,还可以对捕获的交叉特征项进行全局/局部分析。3、效率除了有效性和可解释性之外,模型复杂性是实际应用中模型部署的另一个重要标准。为了简化分析和减少超参数的数目,我们将所有嵌入、注意向量的大小设置为ne,并将arm网络中所有mlp的参数规模表示为nw。回想一下,m、k、o分别表示每个注意头的属性域、注意头和每个注意头指数神经元的数量。向量嵌入有o(mne)个特征嵌入参数,每个实例只使用m个属性域嵌入,其中m是不同特征的数量,则是总体稀疏性。由于m通常很小,并且向量嵌入只是嵌入查找和重缩放,因此复杂性可以忽略不计。对于arm模块,k·o个指数神经元可在复杂度o(komne)中计算;值/查询向量的参数规模大小为o(kone),所有m种输入嵌入的双线性注意对齐的计算复杂度为o(komne)。对于预测模块,复杂度为o(nw),这主要是等式7的非线性特征交互函数φmlp带来的。因此,总体参数规模大小和对于处理每个输入的计算复杂度分别是o(mne+nw)和o(komne+nw)。这与属性域的数量呈线性关系,因此是高效的,并且是可伸缩的。试验结果使用五个真实数据集(app推荐(frappe)、电影推荐(movielens)、分类点击率预测(avazu、criteo)和医疗健康(diabetes130))对本发明方法(arm-net、arm-net+)和现有五类特征交互建模方法进行比较。五个数据集的统计数据及本发明方法arm网络中搜索到的最佳超参数见表1:数据集统计和arm-net最佳参数配置(table1:datasetstatisticsandbestarm-netconfigurations),表中给出了不同数据集(dataset)的元组(实例)数(tuples)、属性域数目(fields)和不同特征数(features),以及对应数据集的本发明网络的最佳超参数(arm-nethyperparameters)。table1:datasetstatisticsandbestarm-netconfigurations.五类特征交互建模方法为:(1)线性回归(lr),在不考虑特征交互的情况下,将输入属性与其各自的重要性权重进行线性聚合;(2)对二阶特征交互作用进行建模的方法,即fm,afm;(3)捕捉高阶特征交互作用的方法,即hofm,dcn,cin和afn;(4)基于神经网络的方法,即dnn,以及图神经网络gcn和gat。(5)通过dnns集成了显式交叉特征建模和隐式特征交互建模的模型,即wide&deep、kpnn、nfm、deepfm、dcn+、xdeepfm和afn+。使用auc(roc曲线下的面积,越大越好)和logloss(交叉熵,越小越好)作为评价指标。对于auc和logloss,在采用的基准数据集上,0.001水平的改近被认为是显著的。我们将数据集分成8:1:1,分别用于训练、验证和测试,报告五次独立运行的评估指标的平均值,并在验证集上采取了提前停止的策略。试验中采用adam优化器,学习率搜索范围为0.1~1e-3,所有模型的batchsize定为4096。特别地,我们对较小的数据集diabetes130采用1024的batchsize,对于较大的数据集avazu,则每1000个训练步骤进行一次评估。实验是在xeon(r)silver4114cpu@2.2ghz(10核)、256g内存和geforcertx2080ti的服务器上进行的。模型在pytorch1.6.0和cuda10.2中实现。比较结果见表2:相同训练数据集下的总体预测性能(table2:overallpredictionperformancewiththesametrainingsettings)。从表2中可以看出:1.使用单个模型的显式交互建模。将arm网络与单一结构的基线模型进行比较,这类基线模型可以显式地捕获一阶、二阶和高阶交叉特征。基于表2结果,我们有以下发现:首先,arm-net在auc上始终优于显式建模相互作用的基线模型。更好的预测性能证实了arm-net跨数据集和领域的有效性,包括应用推荐(frappe)、电影标签推荐(movielens)、点击率预测(avazu和criteo)和医疗再入院预测(diabetes130)。其次,高阶模型(例如hofm和cin)通常比低阶模型(例如lr和fm)有更好的预测性能,这验证了高阶交叉特征对预测的重要性,高阶交叉特征的缺失会大大降低模型的建模能力。第三,afn和arm-net都显著优于固定阶的基线模型,这验证了以自适应和数据驱动的方式建模任意阶特征交互的有效性。最后,arm-net的auc明显高于一般表现最好的基线模型afn。table2:overallpredictionperformancewiththesametrainingsettings.arm网络的良好性能主要归功于指数神经元和门控注意机制。具体来说,afn中对数变换正输入的限制限制了它的表示,而arm-net则通过在指数空间中建模特征交互来避免这个问题。此外,arm-net的多头门控注意力不像afn那样静态地建模交互,而是选择性地过滤噪声特征,并动态地生成交互权重,以反映每个输入实例的特征。因此,arm-net可以捕获更有效的交叉特征,以便在每个输入的基础上获得更好的预测性能,并且由于这种运行时灵活性,arm-net的参数效率更高。如表1所示,对于不同规模的数据集,最好的arm-net只需要几十到几百个指数神经元,而最好的afn一般需要一千多个神经元才能获得最佳结果,例如,在大型数据集avazu上,arm网络和afn分别需要32个和1600个神经元。2.基于神经网络的模型和集成模型。基于表2结果,我们有以下发现:(1)尽管没有显式地对特征交互进行建模,但是相对于其他单一结构的基线模型,最佳的基于神经网络的模型通常具有更强的预测性能。特别是,基于注意力机制的图网络gat在avazu和diabetes130上获得了明显高于其他单一结构模型的auc。然而,它的性能并不像arm-net那样稳定,不同的数据集之间差异很大,例如,gat在frappe和movielens上的性能比dnn和arm-net差得多。(2)dnn的模型集成显著提高了它们各自的预测性能。这可以在整个基线模型中一致地观察到,例如dcn+、xdeepfm和afn+,这表明dnns捕获的非线性相互作用是对显式捕获的相互作用的补充。(3)arm-net实现了与dnn相当的性能,arm-net+进一步提高了性能,在所有的基准数据集上都获得了最好的整体性能。总之,这些结果进一步证实了arm-net对任意阶特征交互的有选择地、动态地建模的有效性。对于解释性的试验结果本发明通过在两个具有代表性的领域,即frappe上的用户应用程序使用预测和diabetes130上的糖尿病患者的再入院预测,展示了armor的可解释性结果。具体来说,frappe上的学习任务是根据给定使用上下文预测应用程序的使用状态。上下文包括10个属性域,{user_id,item_id,daytime,weekday,weekend,location,is_free,weather,country,city},主要描述移动终端用户的使用模式;对于diabetes130,学习任务是通过分析糖尿病患者再入院的相关因素及其他信息来预测再入院的可能性。共有43个属性域用于预测,我们展示了10个最重要的属性域进行了说明。两个数据集的属性域的解释都是公开的(linasbaltrunas,karenchurch,alexandroskaratzoglou,andnuriaoliver.2015.frappe:understandingtheusageandperceptionofmobileapprecommendationsin-the-wild.arxivpreprintarxiv:1505.03014(2015).以及beatastrack,jonathanpdeshazo,chrisgennings,juanlolmo,sebastianventura,krzysztofjcios,andjohnnclore.2014.impactofhba1cmeasurementonhospitalreadmissionrates:analysisof70,000clinicaldatabasepatientrecords.biomedresearchinternational2014(2014).),通过这些解释可以验证arm-net产生的可解释性结果。对于这两个数据集,首先展示了通过聚集指数神经元的值向量获得的各个属性域的全局特征重要性,并将arm-net的全局特征归因与两种被广泛采用的解释方法lime(marcotúlioribeiro,sameersingh,andcarlosguestrin.2016."whyshoulditrustyou?":explainingthepredictionsofanyclassifier.inproceedingsofthe22ndacmsigkdd.acm,1135–1144.)和shap(scottm.lundbergandsu-inlee.2017.aunifiedapproachtointerpretingmodelpredictions.inadvancesinneuralinformationprocessingsystems30:annualconferenceonneuralinformationprocessingsystems,usa.4765–4774.)进行了比较。这两种方法采用基于线性回归和博弈论的输入扰动的解释方法来识别待解释模型的特征重要性。具体来说,在frappe和diabetes130数据集上lime和shap的解释结果分别基于表现最佳的单结构基线模型dnn和gat(petarvelickovic,guillemcucurull,arantxacasanova,adrianaromero,pietroandyoshuabengio.2018.graphattentionnetworks.in6thinternationalconferenceonlearningrepresentations,iclr.),两种方法给出的全局特征重要性是通过对测试数据集所有实例的局部特征归因进行聚合得到的。然后,我们以相应的频率(frequency)和阶数(orders)显示arm-net捕获的顶级交互项(interactionterm),它们分别表示每个实例的平均出现次数和为每个交互项捕获的特征数量。我们还通过显示arm模块通过聚集分配的特征交互权重来说明局部解释,并再次将arm-net的局部特征归因结果与lime和shap进行比较。全局可解释性。我们在图3中说明了全局特征归因,并在表3和表4中分别总结了arm-net捕获的两个数据集的高频交互项。table3:topglobalinteractiontermsforfrappe.table4topglobalinteractiontermsfordiabetes130.从图3中,可以看到在frappe数据集上,arm-net识别的最重要的特征是{user_id,item_id,is_free}。对这些属性的全局关注是合理的,因为user_id和item_id标识用户和item,是协同过滤等学习任务中使用的两个主要特征,is_free表示用户是否为应用付费,这与用户对应用的偏好高度相关。同样地,在diabetes130数据集上,arm-net确定的最重要特征包括{急诊评分、住院评分、诊断数},这与文献(beatastrack,jonathanpdeshazo,chrisgennings,juanlolmo,sebastianventura,krzysztofjcios,andjohnnclore.2014.impactofhba1cmeasurementonhospitalreadmissionrates:analysisof70,000clinicaldatabasepatientrecords.biomedresearchinternational2014(2014).)中logistic回归模型估计的属性域系数是一致的。我们还注意到,arm-net提供的全局特征重要性与两种通用的解释方法(即lime和shap)是一致的。同时,我们注意到arm-net提供的全局特征重要性相对更可靠,因为arm-net本质上就支持全局特征归因,其建模过程更透明,而lime和shap通常被用作一种通过近似来解释其他“黑盒”模型的媒介。从表3中frappe数据集上的顶级全局交互项中,可以发现:首先,交互项建模最频繁的属性域包括use_id、item_id和is_free,这与图3中的全局特征重要性是一致的。其次,这些交互项在交互建模中经常出现,比如交互项(工作日,地点,is_free),(item_id,is_free,city)和(user_id,is_free)的频率分别为3.71,3.36和2.88,这表明这些(具有不同交互权重的)交叉特征在每个实例中被使用了多次(注意,每个实例的推理都有k·o交互项)。第三,交互项的阶数多为2和3,这说明为交互建模识别合适的属性集是必要的,而通过列举所有可能的特征组合来捕获交叉特征效率极低并且是无效的,这可能会引入噪声。从表4中列出的针对diabetes130数据集的顶级全局交互项中,可以观察到交互项中最常建模的属性域是相当多样化的,这表明不同的指数神经元确实捕获了不同的交叉特征,这在建模特征交互时参数效率更高。此外,顶层交互项的阶数小于3,并且存在许多一阶项,这表明对于一些数据集,例如diabetes130,建模高阶的交叉特征可能是不必要的。局部可解释性。图4显示了frappe数据集上的一个代表性输入实例的arm-net的局部特征归因,其中显示了三个代表性指数神经元的交互权重和所有神经元的平均权重。我们可以注意到不同的指数神经元以稀疏的方式选择性地捕捉不同的交叉特征。例如,neuron3捕获特征交互项(item\id,weekend,country),这表示对于这个特定的实例,neuron3对这三个属性有响应。此外,该实例的聚合交互权重显示item_id、is_free和user_id是三个最具区分性的属性,这与图3中的全局解释结果一致。我们还通过图4中的lime(marcotúlioribeiro,sameersingh,andcarlosguestrin.2016."whyshoulditrustyou?":explainingthepredictionsofanyclassifier.inproceedingsofthe22ndacmsigkdd.acm,1135–1144.)和shap(scottm.lundbergandsu-inlee.2017.aunifiedapproachtointerpretingmodelpredictions.inadvancesinneuralinformationprocessingsystems30:annualconferenceonneuralinformationprocessingsystems,usa.4765–4774.)说明了局部特征归因。我们可以注意到,尽管lime和shap都和arm-net一样,将item_id、user_id和city作为的三个最重要的特征,但是lime也赋予了其他特征很大的重要性权重,例如is_free、country。这表明外部解释方法可能并不一致,也不一定可靠,因为它们只是待解释的模型的近似。图5给出了diabetes130数据集上相似的局部特征归因结果。我们可以发现,不同的指数神经元侧重于不同的交叉特征。具体来说,neuron1和neuron2分别更关注emergency_score和diag_1_category,neuron3更关注num_diagnoses。此外,对于这一特定的糖尿病患者,最后五个特征,即emergency_score,inpatient_score,diag_1_category,num_diagnoses以及diabetes_med是再入院预测中最有用的属性。通过这种局部解释,arm-net可以支持更个性化的分析和管理。随着机器学习模型在医疗保健、金融投资和推荐系统等各个领域发挥越来越重要的作用,对模型透明度和可解释性的需求越来越高,这有助于调试学习模型,也有利于模型的验证和改进。此外,一个可解释的模型也可促进对某些领域的理解,从而才能产生对分析结果的信任。作为全局或局部可解释性的一种简单而有效的方法是特征归因,它根据所用特征的权重和大小来确定输入实例的特征重要性。值得提到的是,基于博弈论模型,shapley值评估了预测中每个特征的重要性,lime使用线性模型通过输入扰动对模型进行局部逼近,从而提供不局限于某具体模型的局部解释。grad-cam为基于cnn的模型提供了基于梯度加权类激活映射的可视化解释,以突出局部区域。同时,也有结合领域的专业知识而提出的针对特定领域的模型解释方法。例如,在医疗分析和金融领域,越来越多地采用深度模型来实现高预测性能;然而,这种关键和高风险的应用强调了对可解释性的需要。特别是,注意力机制被广泛采用,通过可视化注意力权重来促进深度模型的可解释性。通过将注意力机制整合到模型设计中,许多研究成功实现了可解释的医疗分析。具体而言,dipole用三种注意机制在诊断预测中支持访问级解释。retain和tracer可以支持访问级别和特征级别的解释。然而,大多数现有方法的一个固有限制是,它们的可解释性是建立在单个输入特征的基础上的,而忽略了关系分析所必需的特征交互。特征交互建模。交叉特征通过相应组成特征的乘积来显式地建模属性域之间的特征交互,这对于不同应用程序的预测分析非常重要,例如应用程序推荐和点击预测。许多现有的工作使用dnns隐式地捕捉交叉特征。然而,用dnns隐式地建模相乘的特征交互需要大量的隐藏单元,这使得建模过程效率低下,同时在实践中难以解释。许多模型提出显式地捕获交叉特征,这通常能获得更好的预测性能。在这些研究中,一些模型捕捉了二阶特征相互作用,另一些则模拟了在预定义的最大阶内的高阶特征相互作用。最近的工作afn提出用对数神经元来模拟任意阶的交叉特征,但这也有着对数变换对输入限制的局限性和运行时的灵活性限制。本发明arm-net则基于门控多头注意机制提出了自适应地使用指数神经元建模特征相互作用的方法,该模型准确、高效、可解释性强。其核心思想是通过交叉特征有选择地、动态地建立属性依赖和相关性模型。首先将输入特征转化为指数空间,然后自适应地确定每个交叉特征的交互权重和交互阶数。为了对任意阶交叉特征进行动态建模和选择性过滤噪声特征,我们提出了一种新的稀疏注意机制来生成给定输入元组的交互权重。因此,本发明arm-net能够以输入感知的方式识别信息量最大的交叉特征,从而在推理过程中获得更准确的预测和更好的解释性。对真实数据集的大量实验研究证实,与现有模型相比,arm-net始终具有优越的预测性能,全局可解释性和针对单个实例的局部可解释性。描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称并不构成对该单元本身的限定。应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
:的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1