平衡数据建模中的起源和准确性权衡的方法和系统的制作方法_3

文档序号:8412510阅读:来源:国知局
,并且第二分支导向高成本标签328作为子节点。
[0052] ?血糖水平节点320,其是BMI节点312通过大于或等于40分支的子节点。血糖 水平节点320本身具有两个分支:第一分支小于6. 0 (即,血糖水平小于6. 0),并且第二分 支大于或等于6. 0。第一分支导向低成本标签324作为子节点,并且第二分支导向高成本标 签328作为子节点。
[0053] 如上所述,模型140可以用于评估其有用性的两个方面包括:准确性和起源。模型 140的准确性可以定义为有关以下项的度量:模型140如何密切地表示有关模型140的主 题的已知信息(例如,其信息被收集并且已知采用原始数据110的形式的患者的信息)和/ 或它可以很好地预测模型评估的其它数据对象(例如,其它患者)的分类的程度。准确性 可以测量为百分比值或其它值。例如,可以通过以下方式确定准确性:将具有已知分类(例 如,高成本与低成本)的实例(例如,对应于患者记录的数据对象)分为两个集:训练数据 集和测试数据集。划分例如可以分别为80%/20%。训练数据集可以用于基于建模算法来 构建分类模型,并且可以将分类模型应用于测试数据集以便测试模型的准确性,该准确性 表示为正确分类的实例(例如,患者记录)与测试数据集中的实例总数的比例。如果模型 对测试数据集的分类与测试数据集的已知分类匹配,则该分类被视为正确。
[0054] 可以通过将Rl 174特性、R2 178特性和R3 180特性与加权值关联来测量起源, 其中特性的级别越高,其具有的加权值就越高。因此,可以通过在模型中包括更多的高级特 性,增加给定模型的起源。其中一个原因是高级特性表示领域相关知识;它们表示的洞察深 于较低级别特性提供的洞察。
[0055] 另一方面,模型140的起源可以定义为模型为什么清晰预测给定分类的度量。它 例如可以基于模型包括多少个高级特性。例如,可以根据从中选择特性的特性层次结构的 级别,为模型中使用的每个特性分配权重,由此根据节点具有的子节点数量,特性层次结构 的叶节点具有最低加权值,并且父节点具有较高加权值。具有最高起源的模型可以是具有 最高数量的高级特性的模型。
[0056] 在某些情况下,可能出现以下情况:较高起源导致较低准确性,并且反之亦然。例 如,这可能因为具有相对高于第二模型的起源的第一模型包含少于第二模型的低级特性。 第一模型可能具有较低准确性,因为例如高级特性基于使用某种程度的主观性定义的定义 (例如包括基于领域相关知识的定义)。例如,可以使用来自医疗保健专业人员的输入,定 义诸如"高再住院率"之类的R3 180特性,该特性具有"在一个月时间内大于或等于4次再 住院率"定义。该定义可以基于医疗保健专业人员主观观察什么特性/信息对医疗保健专 业人员有用。因此,提供给领域知识150组件以便定义高级特性(例如R3 180中的那些特 性)的信息不一定正确。它们在开发模型中用作工具,但模型可能不完全准确。因此,增加 的起源可以导致准确性减小,因为模型更多地依赖其定义应用于收集的数据的特性,而不 是从收集的数据导出的特性。
[0057] 在类似于图3A中所示的模型140的一个示例性模型(未示出)中,示例性模型可 以仅包括年龄节点304。所述示例性模型可以为小于40岁的任何患者(表示为数据对象) 分配低成本标签324,并且为大于和等于40岁的任何患者分配高成本标签328。该模型的 准确性可以达到90%。换言之,对于使用该示例性模型评估的90%患者,患者的年龄可以 准确指示为该患者提供医疗保健服务如何昂贵。但是,该单节点示例性模型对于为什么出 现这种情况可能模糊不清。换言之,40岁(其是特性层次结构200中的Rl 174特性)为 什么在确定医疗保健成本中是重要特性可能不容易显而易见(即,可能是低起源)。因此, 尽管高度准确,但该示例性模型(未示出)可以被视为具有低起源,并且可以被视为相对无 Mo
[0058] 图3A中的模型140包括的特性可以多于上面讨论的示例性模型(未示出)。例如 可以使用以下记录R(即,数据对象)生成模型140,该记录可以用于需要为其建模的给定患 者P : {年龄:52 ;就诊计数:1 ;BMI :30 ;再住院计数:2 ;血糖水平:7. 0 ;HlCn :6. 0 ;频繁用 户:无}。可以根据模型140 (使用R)评估P,从年龄节点304开始。因为P的年龄大于40 岁,所以通过模型140的大于或等于分支评估P的分类。相应地,接下来针对BMI节点312 评估P。因为P的BMI小于40,所以接下来针对再住院计数节点316评估P。因为P的再住 院计数小于4,所以为P分配低成本标签324。(例如,P的健康保险提供商使用的计算机系 统)可以使用该分类确定P向提供商表示的成本。
[0059] 在上面的实例中,模型140可以被确定为具有90%的准确性。换言之,所述模型 可以以90%的确定性正确预测高/低成本分类。尽管高度准确,但该实例中的模型140可 能没有高起源级别。换言之,(例如,对于P的健康保险提供商)可能并不显而易见的是: 具有与P情况相同的记录R的患者为什么应该被视为低成本,即使在90%的时间内事实都 是如此。在该实例中,相对低的起源可能由于以下事实所致:尽管模型140结合原始数据 110的Rl 174和R2 178级别特性,但它不包括R3 180中的任何特性,如结合特性层次结 构200(图2)定义的那样。因此,尽管准确,但模型可能不是很有用。相应地,可能需要生 成以下模型:该模型根据其起源被更好地理解的度量来评估P。
[0060] 图3B示出根据本公开的各实施例的示例性决策树模型142 (或简称模型142)。模 型142可以是修改后的模型140,或者它可以是原始模型(即,没有必要基于模型140生成 模型142)。模型142可以具有低于模型140的准确性(例如80% ),但可以具有较高起源。 换言之,它可以仅针对使用该模型评估的80%患者,正确地将患者分类为低成本与高成本 (相对于模型140的90%准确性),但它可以在每一种情况下都提供更大起源,如下所述。
[0061] 在该实例中,模型142可以具有以下节点:
[0062] ?年龄节点304,其具有两个分支:小于50,以及等于或大于50。
[0063] · HlCn节点332,其是年龄节点304通过小于50分支的子节点,其本身具有两个 分支:对应于低成本标签324的小于9. 0分支,以及对应于高成本标签328的大于或等于分 支。
[0064] ?频繁用户节点336,其是年龄节点304通过大于或等于50分支的子节点,其本身 具有两个分支:对应于低成本标签324的否分支,以及对应于高成本标签328的是分支。 [0065] 可以根据模型142评估相同患者P,该患者的记录R根据图3A中的模型140产生 低成本分类。可以首先相对于年龄节点304评估P。因为P的年龄不小于50岁,所以接下 来相对于频繁用户节点336评估P。因为P不是频繁用户(如在图2中的特性层次结构200 中定义),所以为P分配低成本标签324。该分类可以更容易理解;即,P之类的患者为什么 具有低成本可能更显而易见。相应地,可通过查看模型142应用于P的结果得出的一个结论 可以是:不是频繁医疗保健用户的年龄等于或大于50岁的患者表示低成本。这是模型140 中未明确支持的结论。因此,尽管模型140可以以大于模型142的准确性预测低成本与高 成本分类,但模型142可以提供更多的洞察并且允许更好的推理。
[0066] 图4A是示出根据本公开的一个实施例的用于生成分析模型M(其例如可以是图3B 中所示的模型142)的方法400的步骤的流程图。方法400例如可以由作为图1中所示的 环境100的一部分的程序104实现。方法400可以接收特性层次结构作为输入。这可以是 图2中所示的特性层次结构200。方法400可以生成模型M(例如,图1A-B、3A-B中所示的 模型140-142),该模型满足在步骤412a指定的准确性阈值160值(其可以由用户170配 置),并且如果给出阈值要求,则可以引入尽可能多的高级特性。
[0067] 因此,方法400可以在404基于试探方法从数据集Rl 174、R2 178和/或R3 180 中选择一个或多个特性,并且在步骤408基于其选定特性生成M。通过试探方法,方法400 分析可以从特性层次结构生成的多个模型,并且将它们相互比较以便确定哪个模型包括特 性层次结构中的最高数量的高级特性,同时维持满足阈值准确性准则的准确性。下面结合 图4B更详细地描述基于试探方法选择特性的其它细节。方法400可以在步骤412确定生 成的M是否满足在步骤412a指定的准确性要求,以及如果给出该阈值,则它是否包括尽可 能多的高级特性。当确定如此时,方法400在步骤316输出M(例如,在显示器上)。
[0068] 当在步骤412确定M不满足用户170设置的要求时,方法400可以在步骤404基 于其它试探数据迭代地选择适当的特性。在每次迭代中,方法400可以建议要选择的特性, 例如包括未在先前迭代期间选择的特性或特性组合,以便在步骤408生成的模型将不同于 在步骤412视为不可接受或不需要的先前模型。如果每次迭代(例如,预定迭代次数)均 导致不满意的模型,则可以不提供模型。
[0069] 执行方法400中的一项挑战可以是在用作输入的数据集中存在大量候选特性集。 在数学上,如果特性层次结构中的特性数量为N,则具有([2frl)]-l)个候选特性集,其中N 是包括空特性(例如,用作特性层次结构的根节点的虚拟节点)的特性总数。因此,在特性 选择步骤404,应用试探法变得对快速发现可以生成所需模型的适当特性集有用。如上讨论 的,试探方法包括从同一特性层次结构生成模型集,并且确定生成的模型集中的哪个模型 包括特性层次结构的最高数量的高级特性,同时维持满足方法400的准确性阈值要求的准 确性级别。直观上,试探方法可以应用某些规则以遍历特性层次结构,以便可以快速发现能 够导向最优或近优建模的特性集。在每次迭代中,可以基于当前特性集、特性层次结构的结 构和当前模型及其确定的准确性,确定新的选定特性集。
[0070] 根据本公开的一个实施例,用于特性选择的步骤404试探方法可以定义如下。作 为选择过程的一部分,方法400可以首先分析特性层次结构的根,假设在层次结构级别0始 终具有一个根节点。这例如可以是虚拟节点。虚拟节点是特性层次结构的最通用节点。高 级特性指位于层次结构的较高级别中的特性。相反,低级特性指位于层次结构的较低级别 中的特性。通过逐渐遍历特性层次
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1