评估操作结果的方法、电子设备和计算机程序产品与流程

文档序号:26839270发布日期:2021-10-08 20:31阅读:97来源:国知局
评估操作结果的方法、电子设备和计算机程序产品与流程

1.本公开涉及数据挖掘技术领域,并且更特别地,涉及一种用于评估操作结果的方法、电子设备和计算机程序产品。


背景技术:

2.随着信息技术的飞速发展,数据规模迅速增长。在这些数据中蕴含着巨大的有用信息,因此数据挖掘受到越来越广泛的关注。例如,因果关系推断在各个领域得到广泛的应用,诸如医疗健康、教育、和生态等领域,用于挖掘数据中包含的有价值信息。在这些领域中,通常难以发现针对所有个体均有效的方案。例如,对于癌症患者,不同治疗方案对于不同病人的治疗效果是不一样;对于要接受教育培训的学生,不同的培训方案对于不同学生的效果也是不一样的。
3.对于上述问题,目前的一种解决方案是针对处理方案寻找由个体特征定义的效果较好的子组。这种寻找具有不同治疗效果的子组的问题被称为子组分析。这种子组分析有助于探索例如治疗效果的异质性。
4.子组分析方法大致可以分为两类,即验证性子组分析和探索性子组分析。验证性子组分析主要用于处理少量的预定义子组,而探索性子组分析是以数据驱动的方式来确定具有不同治疗效果的子组。在验证性子组分析方法中,子组是专业人员预先定义的,这具有较大主观性,而这种主观性可能直接导验证性子组组分析致可疑结果并且存在对分析结果进行故意操纵的可能性。探索性子组分析采用的是基于树形结构的方法,这是一种识别异质性的目前广受关注的技术,其可以自动进行识别子组无需事先,并适用于数据量较大的情况。
5.然而,无论是验证性子组组分析中还是探索性子组分析方法,两者都是可能只处理二元处理,而且存在分析结果不准确的问题。因此,需要一种改进的用于操作结果评估的技术方案。


技术实现要素:

6.有鉴于此,本公开提出了一种用于评估操作结果的方法、电子设备和计算机程序产品。
7.根据本公开的第一方面,提供了一种评估操作结果的方法。该方法可以包括针对一组观测数据建立初始预测模型,其中所述初始预测模型具有分层结构,并且包括用于对个体进行分组的门控节点和用于基于不同的预测方法来执行预测的多个不同的专家节点,并且其中所述观测数据包括多个个体的多个个体特征、针对所述多个个体执行的所述预定操作中的相应操作及相应操作结果。该方法还包括利用所述观测数据确定所述初始预测模型的门控节点和专家节点的参数,以获得最终预测模型。该方法进一步包括:利用所述最终预测模型中的各个专家节点,对所述观测数据中与其匹配的个体子组进行预测,以确定所述预定操作对于各个个体子组的操作结果。
8.根据本公开的第二方面,提供另一种用于评估操作结果的方法。该方法可以包括接收一个或多个个体的个体特征和针对所述一个或多个个体执行的预定操作中的相应操作方式。该方法还包括基于预测模型和所一个或多个个体的个体特征,确定所述一个或多个个体所属的一个或多个子组,所述预测模型具有分层结构,并且包括用于对个体进行分组的门控节点和用于基于不同预测方法执行预测的多个不同的专家节点。该方法进一步包括根据所述相应操作方式,利用所述预测模型中与确定的所述一个或多个子组相关联的专家节点来针对所述一个或多个个体预测相应的操作结果。
9.根据本公开的第三方面,提供了一种电子设备。该电子设备包括处理器以及与处理器耦合的存储器,存储器具有存储于其中的指令,指令在被处理器执行时使电子设备执行动作。该动作包括:针对一组观测数据建立初始预测模型,其中所述初始预测模型具有分层结构,并且包括用于对个体进行分组的门控节点和用于基于不同的预测方法来执行预测的多个不同的专家节点,并且其中所述观测数据包括多个个体的多个个体特征、针对所述多个个体执行的所述预定操作中的相应操作及相应操作结果;利用所述观测数据确定所述初始预测模型的门控节点和专家节点的参数,以获得最终预测模型;以及利用所述最终预测模型中的各个专家节点,对所述观测数据中与其匹配的个体子组进行预测,以确定所述预定操作对于各个个体子组的操作结果。
10.根据本公开的第四方面,还提供了另一种电子设备。该电子设备包括处理器以及与处理器耦合的存储器,存储器具有存储于其中的指令,指令在被处理器执行时使设备执行动作。该动作包括:接收一个或多个个体的个体特征和针对所述一个或多个个体执行的预定操作中的相应操作方式;基于预测模型和所一个或多个个体的个体特征,确定所述一个或多个个体所属的一个或多个子组,所述预测模型具有分层结构,并且包括用于对个体进行分组的门控节点和用于基于不同预测方法执行预测的多个不同的专家节点;根据所述相应操作方式,利用所述预测模型中与确定的所述一个或多个子组相关联的专家节点来针对所述一个或多个个体预测相应的操作结果。
11.在本公开的第五方面中,提供了一种计算机可读介质,其上存储有机器可执行指令,所述机器可执行指令在被执行时使机器执行根据第一方面的方法。
12.在本公开的第六方面中,提供了一种计算机可读介质,其上存储有机器可执行指令,所述机器可执行指令在被执行时使机器执行根据第二方面的方法。
13.在本公开的第七方面中,提供了一种计算机程序产品,计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令,机器可执行指令在被执行时使机器执行根据第一方面的方法。
14.在本公开的第八方面中,提供了一种计算机程序产品,计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令,机器可执行指令在被执行时使机器执行根据第二方面的方法。
15.提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也并非意在限制本公开的范围。
附图说明
16.通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开的附图中相同的标号表示相同或相似的部件。在附图中:
17.图1示意性地示出了根据本公开的一个实施方式的用于评估操作结果的方法的流程图;
18.图2示意性地示出了根据本公开的一个实施方式的初始预测模型的结构的示意图;
19.图3示意性地示出了根据本公开的一个实施方式的用于基于优化目标函数对初始预测模型进行优化的方法的流程图;
20.图4示意性地示出了根据本公开的一个实施方式的用于评估预定操作针对一个或多个个体的操作结果的方法的流程图;
21.图5示意性地示出了根据本公开的一个实施方式的用于评估操作结果的系统的方框图;
22.图6示意性地示出了根据本公开的一个具体实现的评估预定操作对于个体子组的操作结果的示例应用;
23.图7示意性地示出了能够在其中实施根据本公开的实施方式的电子设备的示意图。
具体实施方式
24.在下文中,将参考附图详细描述本公开的各个示例性实施方式。应当注意,这些附图和描述涉及的仅仅是作为示例的优选实施方式。可以应该指出的是,根据随后的描述,很容易设想出此处公开的结构和方法的替换实施方式,并且可以在不脱离本公开要求保护的公开的原理的情况下使用这些替代实施方式。
25.应当理解,给出这些示例性实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。此外在附图中,出于说明的目的,将可选的步骤、模块、模块等以虚线框示出。
26.在此使用的术语“包括”、“包含”及类似术语应该被理解为是开放性的术语,即“包括/包含但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。
27.在本公开的实施例中,术语“处置变量/方式”是在观测实验中针对被研究的每个个体执行预定操作的操作方式,其可以用处置水平来表示,例如服用药物或服用安慰剂,复用药物的各种剂量等,学生所参加的课程方案等各种潜在策略。在本文中,使用t来表示处置方式,其也可以被称为“处置变量”。t的取值为t,其可以为离散型数据,也可以是连续型数据。例如,对于两个处置水平的二元处理,例如t=0,1;对于具有三个处置水平的三元处理,例如t=0,1,2;对于更多处置水平的处理,以此类推。而在处置水平是连续的情况下,t也可以是在一个取值范围内的任何值。
28.在本公开的实施例中,术语“个体特征”是指待观测的个体的特征,也可以称作个体属性。例如对于个体是患者的情下,个体特征例如包括患者的体重、年龄、性别、患病时
间、相关的医疗检查数据等等。对于教育领域,例如可以是学生的年龄、性别、当前所处水平(例如英语水平级别)、是否参加过类似课程、家庭经济情况等。在本文中,用x表示个体特征,此外,个体特征也可以被称作是“协变量”。
29.在本公开的实施例中,术语“操作结果”是针对个体执行预定操作的情况下已经得到或预测/评估的结果,也可以称作“处置结果”。例如,对于个体是患者的情况下,操作结果可以指其复用药物或复用安慰剂后,个体的病情的发展情况,例如病症症状减轻情况,或者衡量效果的检查值等。对于教育医疗领域而言,可以是学生的学习效果,例如相关水平的提升(例如英语水平测试的级别提升情况)。在本文中,使用y表示来表示处置结果,其也可以被称为“结果变量”。
30.在本公开的实施例中,“观测数据”是在专门观测试验中获得数据,或者是在实际应用中积累的数据。例如,可以是基于预先针对个体执行预定操作而到的操作结果数据,对于医疗领域可以是针对不同的患者进行观测试验而获取的数据。n可以指示观测样本的数量,即有多少条与个体相关的数据;d为观测变量的维数,或者观测变量的数目,即每条数据中有多个相关参数值,其是协变量x、处置变量t和结果变量的数量之和。
31.在本公开的实施例中,术语“隐变量”是在因果关系推断中未被观测的变量,但是在因果关系推断中需要了解的隐性变量,是为了通过优化模型来解决本市实施例中的因果关系推断问题而被特别引入的。
32.如前文所提到的,在许多实际应用中,期望能够预测某个操作对于一个或多个子组的效果,或者预测对于某个个体适合的处置方式,以使得计算设备能够自动地做出决策或者辅助人们做出决策。这样,就可以自动确定对某一个体是否执行某个处置或者确定对个体执行多个处置中的哪一个。例如,可以期望预测出某种药物或治疗对某个患者病症的可能影响,从而自动地或辅助医生制定治疗方案。还可能期望预测培训课程能在多大程度上提高某个学生的成绩,或者预测广告推送对消费者最终购买行为的影响等。此外,也可以在环境保护和治理的应用中,对于一个环境保护或治理方案对于某个地区的效果为了进行预测或者自动确定最适合于该地区的治理方案。
33.如前所述,现有的子组分析大致可以分为验证性子组分析和探索性子组分析。然而,在验证性子组分析中,待分析的子组数量和子组的划分方式均是调查人员根据其经验而预先定义,其具有高度主观性,这种主观性会直接导致可疑的结果和并且存在人故意操纵结果的可能性。
34.与此不同,探索性子组分析是基于树结构的自动化过程,其是以数据驱动的,无需预先定义子组的数量和子组的划分方式,因此其具有较高客观性。下面出于说明的目的,将会示例性的介绍一个现有技术中的方案。
35.在现有技术的一种子组分析方案中,首先根据观测数据生长一个初始树形结构,其中针对每个节点,其将会遍历所有的可能分割方式,并按照分割统计最大化的划分方式对该节点进行分割,针对该节点的左右两个子节点将执行相同的操作。这样生成的是子组已经划分完成的初始树结构。随后对该初始树结构执行剪枝操作,减掉该树结构最薄弱的链路,以简化树形结构。最后,将会对树形结构的大小进行进一步缩减,其中将会计算每个端子节点对之间的分割统计值,将异质性较小的节点对进行合并,该分割统计值计算操作将反复进行直至所有剩余子组表现中优异的异质性。此时得到的树形结构即为结果分析模
型。
36.然而,探索性子组分析对超参数比较敏感,需要人工对超参数进行调节以实现较好的结果,因此其性能高度依赖于超参数的设定。同时,在现有技术中,无论是验证性子组组分析中还是探索性子组分析方法,两者都只支持二元处理,其既不适用于需要多元处理的情形,也不适用于基于参数的连续处理预测的情形。为此,需要一种改进的操作结果评估的技术方案,以至少部分上解决现有技术中的上述问题。
37.为此,在本公开的实施方式中,提供了一种新的评估操作结构的方案。根据该方案,首先针对一组观测数据建立分层的多专家初始预测模型,然后利用观测数据确定所述初始预测模型的门控节点和专家节点的参数,以获得最终预测模型。此后,可以利用最终预测模型中的各个专家节点,对观测数据中与其匹配的个体子组进行预测,以确定预定操作对于各个个体子组的操作结果。与现有的子组分析技术不同,利用本公开的实施方式,对超参数不敏感,因此能够在无需调节超参数的情况下实现完全自动化的操作结果评估。同时,在本公开的实施方式,各个专家模型不仅适用于二元处理的应用,而且适合多元处理应用,同时还能适合处置水平是连续类型的情形,因此具有更加广泛的应用场景。
38.下文,将参考附图结合具体示例里详细描述本公开中公开的技术方案。然而需要说明的是,下面的描述仅仅是出于说明的目的而给出的,本专利并不局限于此。
39.图1示意性地示出了根据本公开的一个实施方式的用于估计操作效果的方法的流程图的示意图。该方法中的各个步骤可以在电子设备中的单个处理单元集中来执行,也可以由电子设备中的多个处理单元分别来执行,而且可以在多个电子设备的多个处理单元中来执行,只要他们之间能够进行数据上传输即可。
40.如图1所示,首先在块110,针对一组观测数据建立初始预测模型。该初始预测模型具有分层结构,并且包括用于对个体进行分组的门控节点和用于基于不同的预测方法来执行预测的多个不同的专家节点。例如,该初始预测模型可以是分层混合专家(hme)网络模型。观测数据是包括针对个体指定相应操作的结果数据,具体地可以包括多个个体的多个个体特征、针对所述多个个体执行的预定操作中的相应操作及相应操作结果。
41.观测数据可以预先存储在观测数据库中的数据,也可以在需要进行操作结果评估时导入系统。观测数据本身可以是来自第三方的数据,或者是通过其他方式采集的数据。例如,对于医疗健康领域而言,医疗机构和医药研发公司针对多组患者/志愿者进行相应的观测试验(例如复用药物、复用安慰剂等)得到的观测结果数据。而对于例如,教育培训机构而言,可以是其基于长期教学积累而获得的关于学生接收教育培训相关的效果的数据。
42.观测数据可以是一个n*d的矩阵,其n为观测样本的数量,即有多少条数据;d为观测变量的维数,或者观测变量的数目,即每条数据中有多个相关参数。例如对于医疗健康领域,n指示观测数据中患者的数量,d指示与该患者相关的数据的数量,包括患者的个体特征的数目、相应的操作/、相应的结果。可以预先对这些数据预处理,例如对原始数据的集成、规约、降噪等预处理。这些预处理操作本身在本领域是已知的,此处不再赘述。
43.在本文中,以t指示观测数据中的处置变量,即针对个体执行的操作;x指示观测协变量,即个体的个体特征,y指示相应的操作结果。t和x、y的维度共同定义了观测数据的维度d。诸如在x=5,t=1,y=1,观测数据的维度d=7。
44.基于观测数据,可以建立在给定处置变量t和协变量x情况下操作结果y的条件分
布。在本文中,提出采用具有多个专家的分层网络模型来进行表征。例如,可以采用分层专家混合(hme)模型。然而需要说明的是,该模型仅仅是处于示例目的而给出的,本公开并不仅限于此。
45.hme网络是混合专家模型的扩展,其以树形结构来表示,并且根据门控函数将多个不同的专家模型混合在一起。具体而言,其是一个具有多个层次的树形结构,其叶子节点是与用于基于不同专家模型来进行预测的多个专家模型对应的专家节点,叶子节点之外的其他节点是门控节点,其指示着分组判定条件,用来对观测数据进行分组。
46.针对观测数据,首先建立一个初始的hme网络,该初始hme网络中仅包括基础的多层级的树形结构,其叶子节点为专家节点。hme网络的层级和专家节点数目可以是满足观测数据的需求的一个预定值。一方面该值要与协变量x的数目相适应,同时又要能够提供一定的设计灵活性。例如,对于具有5个协变量的观测数据,可以生成例如具有32个专家节点的6层hme网络。对于更少的协变量(例如3个),例如可以采用具有16个专家节点的5层hme网络,而对于更多协变量(例如10个),可以采用64个专家节点的7层hme网络。
47.出于说明的目的,在图2中示出了一个示例性的hme模型的示意图,其是一个基于树形结构的多层模型,为6层网络结构,包括有32个专家节点。
48.该hme初始网络可以通过相应的数学式来表示,然而在实际应用中,并不是一定会在电子设备中用数学式子来表示该模型,而是有可能通过确定与该模型相关的参数来构建该hme网络。举个示例性的简单例子,例如专家节点的数目和门控节点的数目就可以指示hme初始网络的结构。
49.关于初始预测模型的构建和数学表征,将在下文中参考hme模型的具体示例中进行详细介绍,此处不再赘述。
50.继续参考图1,接着在块120,利用观测数据确定所述初始预测模型的门控节点和专家节点的参数,以获得最终预测模型。例如,可以针对初始的预测模型进行缩减,并确定剩余的门控节点和专家节点的参数值。例如,确定每个门控节点对应于个体特征x(1,

,n)中的哪个个体特征,其分割点的值是多少;在模型中使用哪些专家节点,各个专家节点对应的专家模型的参数是什么。
51.在块110中确定的初始网络模型仅仅是个网络模型的初始架构,并没有关于门控节点所对应的个体特征的信息,也没有该个体特征的分割点(分组划分点)的信息,专家节点对应模型中的参数也尚未确定。在块120中,将利用观测数据来对初始模型的结构进行缩减,并对模型中的节点的参数进行确定。
52.在根据本公开的一个实施方式中,可以确定针对所述初始预测模型的优化目标函数,并且基于所述观测数据和所述优化目标函数对所述初始预测模型进行优化,以确定所述最终预测模型。。
53.例如,可以基于分解渐进贝叶斯(fab)方法来确定针对所述初始预测模型的优化目标函数。并且可选地,在基于fab方法确定的优化目标函数中引入隐变量,该隐变量指示所述观测数据t中的每条观测数据与预测模型中的各个专家节点是否匹配。这样在优化的过程中,不但可以确定出各个门控节点、专家节点的参数值,还可以确定与各个专家匹配的观测数据。
54.出于说明的目的,图3示出了根据本公开的一个实施方式的用于基于优化目标函
数对初始预测模型进行优化的方法的流程图。如图3,在块310,首先基于所述优化目标函数,对所述隐变量优化,以确定观测数据与所述各个专家节点匹配的优化概率。接着在块320,基于所确定的优化概率,对现有的预测模型进行缩减,以得到精简预测模型。然后在块330,可以基于所述优化目标函数,对所述精简预测模型中的门控节点以及专家节点进行优化,以确定各个门控节点的优化参数值以及专家节点的优化参数值,从而生成优化预测模型。
55.需要说明的是,上述步骤可以重复执行,直至目标函数收敛,即两次优化得到结果差别在预定的阈值范围内。或者也可以在已经重复执行预定的次数后停止重复执行上述操作。这样就可以得到了可以用于执行预测的最终预测模型。
56.该优化目标函数的确定以及优化过程,将在下文中结合示例具体详细描述,此处不再赘述。
57.接下来,可以在块103,可以利用最终预测模型中的各个专家节点,对观测数据t中与其匹配的个体子组进行预测,以确定所述预定操作对于各个个体子组的操作结果。
58.如前所述,在模型结构缩减过程中,是基于结构中的专家节点与各个观测数据的匹配的概率来执行的,也就是说,在最终预测模型,已经隐含了观测数据与各个专家节点的匹配关系。在最终预测网络中,在观测数据t中与每个专家节点匹配的那部分观测数据就构成一个个体子组。针对各个个体子组,可以利用相应专家节点对其中的各个数据进行预测。然后,可以将该子组内各个个体的操作结果评估值进行综合,以作为预定操作针对该个体子组的操作结构的评估值。例如,可以将该各个个体的操作结果评估值的平均值作为针对该子组的最终操作结果评估值。然而需要说明的是平均值仅仅是一个示例,也可以采用其他形式的值作为最终的操作结果评估值。
59.可以理解,在本公开的实施方式中,生成的预测模型中包括与相应分组适应的各个专家模型,该专家模型不仅适合于二元处理,还可以适合于三元处理,而且也可以针对连续处理做出结果评估。例如,对于三元处理,可以得到与三个不同的处置水平对应的三个操作结果评估,而对于连续处理水平,可以得到一个操作评估结果曲线。
60.结果得到的专家模型和/或上述操作结果评估可以被传输给电子设备中的其他处理模块或者其他电子设备中的其他处理模块,以便在其他过程中使用。例如调整药物的配方、自动推荐适合的药物复用建议、调整教育结构的课程结构设置、自动推荐适合的药物方案等。
61.通过本公开的实施方法,可以实现对观测数据中的个体的自动分组,并可以评估预定操作各个个体子组的操作结果。整个过程都是数据驱动的,无需依赖于任何主观认知。而且,尽管在本公开的预测模型参数确定过程中也存在超参数,但是对于经过多次观察发现,根据本公开的操作结果评估对超参数的取值并不敏感,也就是说操作结果评估并不依赖于超参数,因而无需对超参数的调整,这样结果精确到受到超参数的取值影响。同时在基于fab的优化模型的情况下,在优化过程中可以采用l0范式,其能够进一步有效缓解过拟合问题。
62.在下文中,将结合具体的例子来描述优化目标函数确定和网络优化过程。然而需要说明的是,这仅仅是出于说明目的而给出的一种示例性方法,本公开并不局限于此。
63.此外,需要说明的是,在下面的描述中出于说明的目的,给出了预测模型构建和目
标函数确定的每个过程,然而是出于说明本公开的具体原理而给出的,实际上这并非是意味着在本公开提供的方案中会执行上述过程中的每个步骤。相反,实际情况更可能是,表征hme网络的表达式和/或优化目标函数的表达式已经被预先存储在电子设备中。在实际需要对观测数据进行评估时,可能只需根据观测数据的情况基于预先存储的预测模型和优化目标函数来确定实际将使用的具体模型和表达式。例如,可以确定将要使用的预测模型的层级、专家节点的数目、门控节点的数目以及优化目标函数中将使用的各个参数,然后将这些参数值赋予下面的表达式。
64.hme网络模型
65.在下文中,首先定义一些需要在hme网络中使用的参数,以对hme网络进行表征。
66.对于hme网络,可以将门控节点的数目用g来指示,将其中的专家节点的数目用e来指示。可以针对门控节点中的第g个(g=1,...,g)门控节点,定义一个二进制因隐变量ug∈{0,1}。该隐变量ug可以表示一条观测数据是否与该门控节点的左侧分支上的某个专家节点相关联/相匹配,即该条数据的操作结果评估是否由该门控节点左侧分支上的某个专家节点生成。如果ug=1,则该条观测数据与该门控节点的左侧分支上的某个专家节点相关联;并且ug=0表示该条观测数据未与该门控节点的左侧分支上的某个专家节点相关联,即与其右侧分支上的专家节点相关联。
67.可以用x来指示对于观测数据中的各个个体特征,则操作结果由该门控节点的左侧分支上的一个专家节点生成的概率可以被表示为:
[0068][0069]
其中θ
g
=(α
g
,β
g
,γ
g
)指示门控节点g针对分割维度γ
g
以预定分割点β
g
进行分割的概率;γ
g
指示分割维度,即按照协变量x中的哪个协变量来进行分割;β
g
指示分割点,即在那个值进行分割;α
g
指示以这种方式进行分割的概率。
[0070]
在此基础之上,第e个专家的条件分布可以被表示为:
[0071][0072]
其中其中参数τe指示专家e(e=0,1

e)中针对处置t=t的操作结果y的平均因果效应,we和σe2指示该专家模型使用的参数。该示例中专家模型是线性预测模型,但是这仅仅是示例性,本公开并不具局限于此。
[0073]
此外,可以进一步定义一些附加的参数以便于后面hme模型的表征。可以进一步定义参数g
g
和ε
e
,其中g
g
指示仅位于第g个门控节点的子树上的所有专家节点的索引,且g=1,...,g;ε
e
指示从根节点开始到第e个专家节点的唯一路径上的所有门控节点的索引,且e=1;...;e。基于此,可以进一步定义下面的函数:
[0074][0075]
其中h(ξ,g,e)是根据第e个专家节点是否在门控节点g的左侧/右侧子树而定义的函数;ξ是具有广泛意义的量,其可为隐变量,也可为其他变量或函数,或者为具体数值。
[0076]
利用ξ来分别指示隐变量ug和b(x,θ
g
)(式1),则可以得到下面的两个函数:
[0077]
h
u
(g,e):=h(u
g
,g,e)∈{0,1},其为二进制隐变量;
[0078]
h
b
(x,g,e):=h{b(x,θ
g
),g,e},其是概率函数.
[0079]
其中h
u
(g,e)指示一条观测数据是否与第g个门控节点分支下的第e个专家节点相关关联;
[0080]
h
b
(x,g,e)指示一条观测数据与第g个门控节点的分支下的第e个专家节点相关联的概率。
[0081]
这样,初始混合专家模型可以表示为:
[0082][0083]
其中
[0084]
y指示结果变量t;
[0085]
x指示协变量x中的各个维度;
[0086]
t=示处置变量;
[0087]
θ=(θ1,...,θ
g
),且指示hme模型中的各个门控节点的相关参数,
[0088]
φ=(φ1,...,φ
e
),且指示hme模型中的各个专家节点的相关参数。
[0089]
隐变量引入
[0090]
对于上述hme模型,为了针对观测数据进行子组分析,除了上述的观测变量外,还需要了解观测数据与各个专家节点是否匹配。因此,针对hme网络进一步定义一个二进制的隐变量z
e
。该隐变量z
e
指示观测数据中的每条观测数据与初始预测模型中的各个专家节点是否匹配。具体地,专家节点e与各条观测数据的操作是否匹配可以被表示:
[0091][0092]
其中
[0093]
e指示转接节点的索引,e=0,1

e;
[0094]
g指示门控节点的索引,g=0,1,

g;
[0095]
ε
e
指示从根节点开始到第e个专家节点的唯一路径上的所有门控节点的索引,
[0096]
h
u
(g,e)指示一条观测数据是否与第g个门控节点分支下的第e个专家节点相关联,其中值为1指示其与第g个门控节点分支下的第e个专家节点,值为0指示不与第e个专家节点相关联。
[0097]
如果一条观测数据的操作结果可以与该专家节点e匹配,则ze=1,否则ze=0。可
用z=ze来表示观测数据与e个专家节点相关匹配的信息,该隐变量是一个分量赋值向量。这样,观测数据和潜变量可以分别表被表示为:
[0098]
观测数据:
[0099]
潜变量:其中z
n
=(z
n1
,...,z
ne
),并且
[0100]
基于上述观测数据和隐变量,上面式4中的hme网络可以进一步被表示为:
[0101][0102][0103]
接着,可以基于上述引入了隐变量的hme函数建立初始预测模型的优化目标函数。在下文中,将以fab方法为例来构建优化目标函数。
[0104]
优化目标函数构造
[0105]
首先,可以将上述式4中的hme模型所需要的参数θ和φ用m来表示。这样,可以基于贝叶斯方法选择最大化以下模型后验的模型:
[0106]
p(m|y
n
,x
n
,t
n
)

p(m|x
n
,t
n
)p(y
n
|x
n
,t
n
,m)
[0107]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式7)
[0108]
利用均匀模型先验p(m|x
n
,t
n
),需要特别关注的是p(y
n
|x
n
,t
n
,m)。如果用q(z
n
)指示z
n
的变量分布,则可以得到
[0109][0110]
并且当q(z
n
)=p(z
n
|y
n
,x
n
,t
n
,m)时,能够保持质量。可以通过估计优化上述式子右侧下限值来估计p(y
n
|x
n
,t
n
,m)。
[0111]
根据贝叶斯方法,p(y
n
|x
n
,t
n
,m)可以被进一步表示为
[0112][0113]
其中其他参数与上文中相同;并且因此关于该量的有效样本的数目是
[0114]
可以进一步使用d
g
,d
e
来分别指示λ以及θ
g
和φ
e
的最大似然估计。然后,将拉普拉斯近似方法应用至各个分解的分布这样就可以按照下述方式进行近似:
[0115][0116]
其中[a,a]指示矩阵a和向量a的二次项aa,并且
[0117][0118]
在上式中,指示费希尔信息矩阵的分解采用近似,其中可以被表示为:
[0119][0120]
按照类似方式,可以被近似为:
[0121][0122]
其中
[0123][0124]
其中指示费希尔信息矩阵的分解采用近似,其中可以被表示为
[0125][0126]
因此,logp(y
n
,z
n
|x
n
,t
n
,θ,φ)可以被近似为:
[0127][0128]
通过将上面的式13带入式9可以得到:
[0129][0130]
进一步,可以将priorsp(θ
g
|m),p(φ
e
|m)视为常数,并且注意到:
[0131][0132][0133]
这样,p(y
n
,z
n
|x
n
,t
n
,m)可以进一步被表示为:
[0134][0135]
通过进一步忽略渐进最小项,我们得到下面的优化目标函数fic:
[0136][0137]
其中,如下:
[0138][0139]
在上式中,在实践上是难以获得的,因此难以直接估计fic。而fab推理是针对目标函数fic的渐进一致下限来进行的。而对于拉普拉斯函数,因此显然这样,根据的定义,可以得到下式
[0140][0141]
这样,就可以得到fic(y
n
,x
n
,t
n
,m)的下限:
[0142][0143]
其中是个任意的标量。这样,通过下面的最大化问题,就可以针对初始预测网络进行优化:
[0144][0145]
如果固定q,θ和φ,则
[0146][0147]
则优化目标函数可以被进一步表示简化为。
[0148][0149]
其中s=(s1,...,s
e
)是一个分量函数项向量。
[0150]
这样,就可以得到适于针对上述hme模型进行优化的优化目标函。针对该目标函数进行求解,即可得到优化预测网络。
[0151]
优化目标函数的求解过程可以包括两个,第一个是基于通过优化隐变量来针对初始预测网络的结构进行缩减;第二个是在缩减的预测网络的结构的基础上,针对门控节点和专家节点的参数进行优化。下面将通过实例的方式,对上述两个过程进行描述。
[0152]
网络结构缩减
[0153]
在本公开的一个实施方式中,将通过优化隐变量的概率分布来对网络结构精简。
[0154]
首先,基于上面的优化目标函数,表征专家节点与观测数据匹配的优化概率q可以表示为:
[0155][0156]
此处,
[0157][0158]
通过对上述相对于q
ne
求导数并使得导入=0,可以得到下面的式子:
[0159][0160]
其中
[0161]
[0162]
这样就可以得到专家节点与观测数据匹配的优化概率q。进一步地,根据优化的专家节点与观测数据的匹配概率,将初始预测模型中匹配度概率不高(即有效性不好)的专家及其相应的分支移出。例如,采用的方式以下面的式子示出。
[0163][0164]
其中δ指示用于判断是否移除专家节点的判断阈值;并且指示归一化常量,其中
[0165]
因而,通过模型缩减或收缩步骤,能够移出网络模型中不需要的专家节点和相关分支。这样通过上述步骤,就能从具有大量专家节点的对称树结构的初始预测模型中移除不相关的专家节点。
[0166]
模型节点参数确定
[0167]
在移除了不相关的专家节点后,将针对得到的模型中的节点的参数进行优化。在根据的实施方式中,将进一步优化分量函数项向量s和参数θ,φ。基于上述fic目标式,优化目标式可以表示如下:
[0168][0169]
在上述的中,(s,φ)和θ之间并没有交叉项,即两者之间并没有关联关系,则因此可以针对两者分别进行优化,这样可以分别得到下面的两个优化目标式。
[0170][0171][0172]
其中式24a可以被进一步表示为:
[0173]
[0174]
其是第γ
g
维度的值大于或β
g
的观测数据的集合;是第γ
g
维度的值小于β
g
的观测数据的集合;指示仅仅位于第g个门控节点的左侧的子树上的所有专家节点的索引,指示仅仅位于第g个门控节点的右侧的子树上的所有专家节点的索引。
[0175]
这样,给定上述式子的解是相对于α
g
的分析解,即
[0176][0177]
而在式24b中,在给定s
e
的情况下,de指示的维度,通过使用φ
e
的l0范式,de可以被表示为d
e
=||ω
e
||0+2。以此方式,该等式可以被转换为具有离散约束的特征选择问题,其可以被表示如下。
[0178][0179][0180][0181]
其中c是正则化项与相对应的预定常数。在上面的式25中,目标函数是依据φ
e
的平滑凹形,因此通过使用向前-向后(foba)贪婪算法,可以解决该l0-正则化特征选择问题。
[0182]
可以看出,在针对门控节点和专家节点的参数进行优化的过程中使用了l0范式,因此可以减少过拟合问题。
[0183]
上述模型结构缩减和模型节点参数优化的步骤可以以迭代的方式反复执行直至函数收敛。即每次将会基于当前的预测网络进一步进行优化。例如,在第一次时基于初始预测网络进行优化,而在随后优化过程中将以上次优化得到的预测网络为基础,进一步进行优化。该迭代可以反复进行直至连续两次迭代得到预测网络之间的差异在预定阈值一下。当然,也可以规定在超过预定的迭代次数,则停止迭代操作,或者两者结合起来使用。
[0184]
通过这样的若干次迭代,可以得到一个最终预测模型,在该模型中各个门控节点所关联的个体特征及其分割点以及预测模型中将使用的专家模型及其参数都已被确定。
[0185]
需要说明的是,在上文详细描述了hme网络建立的整个过程,但是在实际应用时,并不会像上面的过程一样逐步进行目标函数的建立,而是可能会确定例如与式4中hme网络表达式相关的参数m,然后利用这些参数和观测数据基于例如式21和22来对预测模型进行
缩减,并基于例如式26以及式27来求解门控节点和专家节点的参数优化值。
[0186]
在上文中,描述了基于观测数据获得优化的预测网络,并利用该网络中的专家节点针对各个子组来评估操作结果的技术方案。然而,事实上本公开的技术方案也可以以其他方式来实现,利用例如在步骤120中确定的最终预测模型来针对个体进行操作效果预测。下文将参考图4来进行说明。
[0187]
图4示意性地示出了根据本公开的一个实施方式的用于评估预定操作针对一个或多个个体的操作结果的方法的流程图。该方法中的各个步骤可以在电子设备中的单个处理单元集中来执行,也可以由电子设备中的多个处理单元分别来执行,而且可以在多个电子设备的多个处理单元中来执行,只要他们之间能够进行数据上传输即可。
[0188]
如图4所示,在块410,接收一个或多个个体的个体特征和针对所述一个或多个个体执行的预定操作中的相应操作方式。此处的个体例如是患者、学生或者其他个体,个体的个体特征是与该个体相关的可能与操作结果相关的个体属性。在一个示例中,其比如包括患者的体重、年龄、性别、患病时间等;在另一示例中,其例如包括学生的年龄、性别、当前所处水平(例如英语水平级别)、是否参加过类似课程、家庭经济情况等。
[0189]
然后,在块420,基于预测模型和所一个或多个个体的个体特征,确定所述一个或多个个体所属的一个或多个子组,所述预测模型具有分层结构,并且包括用于对个体进行分组的门控节点和用于基于不同预测方法执行预测的多个不同的专家节点。预测模型中包括有门控节点,这些门控节点指示了对应个体特征及其分割点,基于这些门控节点,可以将个体划分到对应的子组。
[0190]
在一个实施方式中,所述预测模型可以是预先建立的优化模型,其可以通过以下操作来构造的。例如首先针对一组观测数据建立初始预测模型,其中所述初始预测模型具有分层结构,并且包括用于对个体进行分组的门控节点和用于基于不同的预测方法来执行预测的多个不同的专家节点,所述观测数据包括多个个体的多个个体特征、针对所述多个个体所执行的所述预定操作中的相应操作及相应操作结果。然后,利用所述观测数据来确定所述初始预测模型的门控节点和专家节点的参数,以获得最终预测模型。该预先确定预测模型的过程与上面结合图1的块110和120是类似的。关于其详细信息,可以参考结合图1-图3所作出的描述,此处不再赘述。
[0191]
接着,在块430,根据所述相应操作方式,利用所述预测模型中与确定的一个或多个子组相关联的专家节点来针对所述一个或多个个体来预测相应的操作结果。预测的操作结果可以例如是指示患者服用药物时可能的效果的值,或者是关于患者服用该药物的多个不同剂量下的多个效果值,也可以是患者服用该药物时关于连续剂量的效果曲线。
[0192]
图5示意性地示出了根据本公开的一个实施方式的用于评估操作结果的系统的方框图。如图1所示,该系统包括观测数据库501、预测模型构建单元510、模型优化单元520和操作结果估计单元530。
[0193]
在观测数据库501中存储着观测数据,诸如是患者的个体特征、相应的操作和对应操作效果。可以预先对这些数据预处理,例如对原始数据的集成、规约、降噪等预处理。
[0194]
预测模型构建单元510,接收到观测数据,并针对该观测数据建立初始预测模型。预测模型可以是前面提及的hme模型,其具有树形的分层结构并且依据门控空节点混合多个专家模型。
[0195]
模型优化单元520基于观测变量利用目标优化函数针对初始网络进行优化。可选地,模型优化估计单元可以包括目标函数确定单元522、隐变量优化单元524、模型缩减单元526和节点优化单元528。
[0196]
目标函数确定单元522可以基于例如fab确定针对初始预测模型的优化目标函数。例如,可以用上面提及的变量分布q来得到边缘对数似然的渐进近似,即上面的fic函数。然后将hme模型的fic的下限当作fab算法的优化目标函数。
[0197]
隐变量优化单元524可以基于上述优化目标函数针对变量分布q进行优化。模型缩减单元526可以根据上述变量分布优化的结果,去除其中与观测数据匹配度差的专家节点及其相关分支。
[0198]
节点优化单元528基于杉树优化目标函数对缩减后的hme模型中的门控节点和专家节点的参数进行优化。
[0199]
模型优化单元将会使上述隐变量优化单元524、模型缩减单元526和节点优化单元528进行迭代操作直至fic收敛,从而得到最终预测模型。
[0200]
操作结果估计单元530将会获得最终预测模型中的专家节点针对各个与其关联的子组的观测数据进行预测的预测结果。
[0201]
此外,操作结果估计单元530也可以是与上述单元在操作上分离的单元,其可以与上述各个单元位于相同电子设备中,或者是位于存储有上述最终预测模型的其他电子设备上。其可以接收个体相关的数据,例如个体的个体特征,待评估的操作等。这样,可以基于最终预测模型,确定该个体所属的子组及其对应的专家模型,并基于该专家模型来针对个体进行操作结果预测,如结合图5所描述的那样。此外,需要说明,操作结果数据也可以接收批量待评估的个体数据,并针对各个个体给出相应的操作结果评估。
[0202]
此外,需要说明的是,该系统可以一个电子设备实现,也可以由多个电子设备实现;图示中的各个功能块,可以都由一个处理单元来实现,也可以由在一个电子设备或多个电子设备中的多个处理单元来实现。
[0203]
在下文中,将下面结合一些具体实施例来描述本公开方案的实现。然而需要说明的是,这些仅仅是示例性的,本公开并不局限于。
[0204]
在医疗领域,针对一种药物通常需要了解其该种药物对于与不同类型的患者的有效性,以便后续改善药物配方,或者方便医生或者患者决定其是否适合于该药物或者适合的剂量。在现有的方案中,通常是由专业人员基于自己的经验进行分析和选择。而且即便存在一些验证性子组组分析方法,但由于其对超参数比较敏感,因此分析结果的准确性也有赖于专业人员的主观判断。而使用本公开的方法,可以基于观测数据自动确定出最终预测网络,并对观测数据进行分析,以得到该要对于不同类型患者的效果评估。
[0205]
图6示意性地示出了根据本公开的一个具体实现的评估预定操作对于个体子组的操作结果的示意图。在图6中示出了作为输入数据的观测数据,其中包括198个孩子的医疗相关数据。每条数据指示了某种钙剂或安慰剂对于每个孩子的骨密度影响情况。如图所示,每条观测数据包括7个变量,一个处置变量t、一个结果变量y,5个协变量x1-x5。处置t是一个二元处置变量,指示患者是服用钙剂或者安慰剂。结果变量是一个连续输出全身骨密度值tbbmd。5个协变量指示患者的5个特征,例如x1是年龄(6-18岁),x2是性别(男或女),x3是种族(白人,非裔美国人,其他),x4是唐纳阶段(ts;依次变量取值1-6);x5是患病时长(2-9
年)。
[0206]
将198个孩子的数据输入电子设备中的处理单元,针对这198条数据,例如可以建立6层具有32个专家节点的hme模型,然后基于fab模型按照例如式19和20对模型进行缩减,并利用式24和25确定模型中专家节点和门控节点的优化参数。最后,可以输出如图6右下侧所示的最终网络,其中与各个专家节点关联的观测数据(即个体子组)的数目被示出在节点的左侧或者右侧,而利用各个专家网络针对相应观测数据计算的指示治疗效果的值被示出在节点下部。示出评估值是基于专家模型预测的子组内的所有个体的平均值。
[0207]
从上面的结果可以看出,该钙剂对于患病时长在6.5年以下、年龄小于15岁的孩子均有效果,但是对于男孩儿的效果优于对于女孩儿的效果。另外,对于患病时间超过6.5年的患者或者年龄大于15岁的患者,该钙剂没有效果。
[0208]
利用本公开的实施例,可以输出复用钙剂对于各个子组的效果评估,基于该结果例如可以对后续药剂配方的进行调整。另外,医生或患者可以基于此来确定是否适合复用该钙剂,以辅助他们选择适合的药物。附加地或备选地,将可以患者数据直接输入电子设备中,有电子设备根据患者的个体特征自动确定其属于那个子组以及相应的专家模型,并利用该专家模型确定复用钙剂的效果。在模型中存在与一种疾病相关的多种药物相关的模型的情况,还可以为患者自动选择更适合和更有效的药物。
[0209]
此外,在教育领域中,学生可能需要从具体安排不同的多个同类课程(例如,听、说、读、写比例不同的英语课程)中进行选择,或者教育机构需要向学生推荐更适合的课程。教育机构通常具有这方面的观测数据。观测数据可以包括先前参加课程d、e、f等的学生的特征,例如年龄、性别、是否参加过类似课程、家庭经济情况等信息,以及个体学生在参加相应课程后的表现,例如考试成绩、获奖情况等。
[0210]
基于这样的观测数据可以利用本发明的方法来获得针对不同类型的学生适用的不同学习方案,并基于此可以帮助当前正在进行课程选择的学生做出决策,或者向其推荐更合适的课程。与前文提及的类似,传统方法对不能准确、客观地向学生推荐课程。而利用本公开中提供的上述方案由于对超参数不敏感,因此可以得到更加准确的评估结果
[0211]
此外,需要说明的是在本公开的预测模型中采用的多个专家模型,其可以适用于多种类型的数据,例如离散二元处理、三元处理或者更多元的处理,同时也适合于连续处理的情况。
[0212]
图7示出了可以用来实现本公开的实施例的示例设备700的示意性框图。如图所示,设备700包括中央处理单元(cpu)701,其可以根据存储在只读存储器(rom)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序指令,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。cpu 701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
[0213]
设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0214]
处理单元701执行上文所描述的各个方法和处理,例如过程100、300和400中的任
一个。例如,在一些实施例中,过程100、300和400可以被实现为计算机软件程序或计算机程序产品,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由cpu 701执行时,可以执行上文描述的过程100、300和400中的任一个的一个或多个步骤。备选地,在其他实施例中,cpu 701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程100、300和400中的任一个。
[0215]
根据本公开的一些实施例,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的方法。
[0216]
本领域的技术人员应当理解,上述本公开的方法的各个步骤可以通过通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本公开不限制于任何特定的硬件和软件结合。
[0217]
应当理解,尽管在上文的详细描述中提及了设备的若干装置或子装置,但是这种划分仅仅是示例性而非强制性的。实际上,根据本公开的实施例,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
[0218]
以上所述仅为本公开的可选实施例,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1