平衡数据建模中的起源和准确性权衡的方法和系统的制作方法

文档序号：8412510阅读：345来源：国知局

平衡数据建模中的起源和准确性权衡的方法和系统的制作方法
【技术领域】
[0001] 本公开一般地涉及计算机化建模，更具体地说，涉及大型分析模型。
【背景技术】
[0002] 计算机化数据建模可以用于促进更好地理解大型数据集。数据建模技术的应用很广泛，并且可以包括金融、保险、医疗保健、教育等领域。尽管在创建分析模型中收集信息是一项挑战，但同样重要的挑战是呈现信息以使其有用的方式。

【发明内容】

[0003] 本发明的各实施例提供一种用于生成计算机化分析模型的方法、系统和计算机程序产品，所述计算机化分析模型接收具有定义的第一特性集的原始数据集。基于将领域知识集应用于所述第一特性集，定义第二特性集，以及基于所述第一和第二特性集的特性之间的关系，生成特性层次结构。从所述特性层次结构中选择特性集，其中将所述第二特性集的尽可能多的特性结合到所述分析模型中，同时维持定义的准确性值。基于所选择的特性集，生成计算机化分析模型。
【附图说明】
[0004] 图IA是根据本公开的一个实施例的数据建模环境的组件的示意框图；
[0005] 图IB是示出根据本公开的一个实施例的图IA的数据建模环境的选择组件的示意框图；
[0006] 图2示出根据本公开的一个实施例的示例性特性层次结构；
[0007] 图3A是根据本公开的一个实施例的特性层次结构的示意框图；
[0008] 图3B是根据本公开的一个实施例的决策树模型的示意框图；
[0009] 图4A是示出根据本公开的一个实施例的用于生成分析模型的方法的步骤的流程图；
[0010] 图4B是示出根据本公开的一个实施例的图4A的方法的其它步骤的流程图；
[0011] 图5是根据本公开的一个实施例的计算机系统的示意框图；
[0012] 图6是根据本公开的一个实施例的示例性云计算环境的框图；以及
[0013] 图7是根据本公开的一个实施例的图6的示例性云计算环境的功能层的框图。
【具体实施方式】
[0014] 本公开的各个方面提供解决方案以便生成分析模型和数据分类，它们比现有数据建模技术提供的解决方案更全面。当前建模技术不提供有关使用什么特性形成模型以及由于什么原因的清晰视图。当底层数据的大小和结果数据模型的复杂性增加时，该问题加重。给定底层特性的复杂性，最终用户例如可能不注意或者甚至可能拒绝有价值的洞察。一个实例是医疗保健领域，其中数据起源（provenance)尤其重要，因为在患者信息的数据挖掘中使用的抽象并且原始的特性集不易于理解，或者甚至不易于呈现给领域中的专家。如果分析模型和它所基于的特性未得到很好的解释，则医疗保健领域中的决策者可能不愿意接受分析模型进行的建议。
[0015] 例如，第一模型可以基于收集的对应于不同年龄的患者的原始数据，以很高的准确性预测在患者生命的随后每一年内，70岁以上的患者有95%的可能性需要高成本保健。高成本保健例如可以定义为对应于为患者提供的医疗服务的成本的货币价值。尽管该实例中的模型高度准确，但为什么70岁在预测医疗保健成本中发挥作用可能并不显而易见，艮P，模型可能具有相对低的起源。使用该实例中的模型的医疗保健专业人员可能无法确定最佳实践，以便帮助患者变得更健康并且产生较低的医疗保健成本，因为医疗保健专业人员和患者可能对患者年龄具有有限的控制。
[0016] 另一方面，使用本公开的各实施例生成的模型可以包括基于收集的数据和信息的更有意义的特性，它们可以使医疗保健专业人员和患者能够采取纠正或预防措施，以便降低提供给患者的医疗保健的成本。例如，起源级别相对高于上面实例中的第一模型的第二模型可以使用第一模型的相同底层数据，以70%的准确性预测血糖水平高于特定值的患者可能产生高医疗保健成本。尽管此第二模型可能在预测患者是否产生高医疗保健成本方面不如第一模型准确，但第二模型允许医疗保健专业人员确定影响高医疗保健成本的因素，医疗保健专业人员可以解决该因素。在该实例中，使用第二模型的医疗保健专业人员可以建议患者接受治疗以便降低患者的血糖水平。这是第一模型不支持的建议，尽管第一模型远比第二模型准确。
[0017] 以分类模型为例，大多数现有方法集中于构建可以在分类准确性方面提供高质量性能的分类模型。因此，通常同等对待模型中的所有特性，并且基于特性对分类准确性的影响选择这些特性。但是，可用于生成分析模型的不同特性可以包含不同级别的语义。通常，用于在分析模型中进行分析的原始数据集包含基本特性。本公开有助于在这些基本特性之上进行构建，以便可以通过应用领域知识（例如，医疗保健领域知识），开发新的有意义特性。例如，这可以尤其适用于以下情况：给定可接受级别的分类准确性，期望较高的起源级别。
[0018] 针对基于特性层次结构构建分类模型的问题，现有解决方案集中于如何通过在适当层次结构级别选择特性而最大化分析模型性能。为了使模型可理解，它们尝试通过控制层次结构的深度来简化决策树模型。一种更好的方法可以是通过选择对期望的分析（例如，用户期望的）更重要的特性，改进模型的可理解性。
[0019] 相应地，本公开的各实施例允许通过应用领域特定知识，基于具有现有特性集的数据集来定义新特性。这些新特性通常承载适用于其中部署分析模型的领域的更多语义，并且可以有助于更好地理解模型。同时，在某些情况下模型可能变得不太准确。但是，本公开的各实施例可以维持足够级别的期望准确性（例如，用户所期望的），使得给定模型仍可以用于进行预测。相应地，本公开的各实施例指定模型准确性阈值，并且生成满足该最低准确性要求的分析模型，同时最大化起源级别。
[0020] 本公开的各实施例可以提供一但不限于一以下一个或多个特性和/或优点：对原始数据进行更好地分类、优先级确定和过滤，并且标识使用有意义输入（例如，来自用户）描述的模型；结果生成引擎，其基于更有意义的信息，更好地理解要采取什么决策；基于定义为在给定领域中尤其有用的特性，产生更有洞察力的分析结果；控制分析模型的准确性和起源之间的权衡的能力；以及总体上促进更多地使用分析模型。
[0021] 图IA是根据本公开的一个实施例的数据建模环境100的组件的示意框图。环境 100例如可以在下面图5中描述的计算机系统中实现。环境100可以包括计算机程序104，其包含在有形存储器件中。程序104可以促进环境100的功能，包括处理其各种组件之间的信息，如下所述。
[0022] 环境100可以还包括原始数据110集合，其包含有关领域的数据，所述数据具有不同级别的相关性和准确性。原始数据110可以存储在环境100中的有形存储器件上。原始数据Iio可以具有一个或多个属性，每个属性可以被视为原始数据Iio的特性。领域例如可以定义为"医疗保健"。因此，原始数据Iio例如可以是在到医疗保健机构一次或多次就诊期间，从患者收集的医疗保健数据。在该实例中，原始数据Iio可以包括医疗相关的人口统计信息或其它潜在特性（例如性别和种族），并且可以还包括体重和身高测量、验血结果等。
[0023] 原始数据110的特性可以通过特性组合120组件定义和组织，并且通过模型构建器130处理以便生成分析模型140。可以将分析模型140提供给用户170。如上所述，这些组件可以实现为程序104的组件，或者实现为环境100中的另一个程序的一部分。下面将更详细地描述这些组件。
[0024] 尽管本公开的各实施例讨论用户170的角色，但用户170不必在任何情况下或者在任何使用相应的实施例期间与这些实施例交互。此外，如果涉及用户170,则用户170例如可以指定用户170输入作为偏好，在每次迭代期间，该偏好自动应用于这些实施例的建模功能。
[0025] 环境100的特性组合120组件可以标识原始数据110的特性，和/或可以基于预定义的特性集来分析原始数据110,以便定义原始数据110的特性之间的依赖性。基于这些特性之间的定义的依赖性，可以构造特性层次结构或树，其中树的每个节点表示可以链接到父和/或子节点（多个）的特性，并且两个节点之间的每个链接表示依赖关系。在所述特性层次结构中，所有基本特性可以处于叶节点级别（即，可能一个特性不依赖于另一个特性）。在下面讨论的图2中示出此类特性层次结构的实例。
[0026] 可以将环境100的特性组合120组件生成的特性层次结构提供给模型构建器130，以便生成分析模型140。根据本公开的一个方面，在首次生成模型中，或者在修改模型构建器130先前生成的现有模型中，模型构建器130可以根据定义所需准确性级别的阈值160 评估对应的模型，以便生成的模型具有至少等于阈值160的准确性级别。例如，可以根据以下项测量准确性：模型140如何密切地表示有关模型140的主题的信息（例如，其信息被收集并且已知采用原始数据110的形式的患者的信息）和/或它可以很好地预测模型评估的其它数据对象（例如，其它患者）的分类的程度。在一个相关实施例中，阈值160可以是期望的准确性范围而不是特定值。
[0027] 应用阈值160可以允许增加分类模型的可理解性，但代价可能是分析模型140的准确性级别较低但可接受。如果分析模型140包括特性层次结构的更多高级特性，则它可以更可理解和有用。可能是这种情况，因为高级特性通常承载更多反映领域特定知识的语义。因此，可以生成分析模型140以便包括尽可能多的高级特性，而不违反定义的准确性阈值 160。
[0028] 可以迭代地修改分析模型140。例如，可以将原始数据110的定义的领域知识 150(即，针对适用领域定义的知识）迭代地（或者仅一次）应用于特性组合120,以便在现有低级特性之上定义新的高级特性。在每次迭代中，模型构建器130可以再次处理修改后的特性组合120,以便生成新分析模型140。在一个实施例中，领域知识150可以由用户 170定义和/或修改。用户170例如可以是在环境100中建模的领域专家。在医疗保健实例中，用户170可以是具有领域相关知识的医疗保健专家。专家能够定义更有用的高级特性，这些特性不易于在原始数据110中定义。
[0029] 图IB是示出根据本公开的一个实施例的图IA中所示的数据建模环境100的选择组件的示意框图，其包括特性组合120组件的附加组件。特性组合120组件的提取、转换和加载（ETL) 172组件可以接收原始数据11

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：C·古特曼;孙行智;
技术所有人：国际商业机器公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。