平衡数据建模中的起源和准确性权衡的方法和系统的制作方法_2

文档序号:8412510阅读:来源:国知局
0作为输入,并且可以生成对应的数 据集Rl 174。ETL 172组件可以包括程序代码,其实现通常用于数据库使用和数据仓储 的对应过程。ETL 172组件从原始数据110中提取数据并且转换数据,以便符合包括质 量级别的操作需要。ETL 172将转换后的数据加载到最终目标,例如数据库或操作数据 存储库、数据集市或数据仓库。示例性ETL 172工具包括以下项:Ab Initio、Anatella、 Apatar、BusinessObjects Data Integrator、CloverETL、Data Moving Tool (DMT)、 Data Transformation Services (DTS)、Feature Manipulation Engine、IBM InfoSphere DataStage、Informatica、LogiXML、MuleSoft、Oracle Warehouse Builder、Pentaho、 Pervasive Software、Pipeline Pilot、SAS suites、Scripella、SnapLogic、Sprog、SQL Server INtergration Services、Sunopsis、Talend Open Studio for Data Integration 以及WhereScape。在此使用或描述的所有商标是其相应所有者的财产。
[0030] Rl 174包括ETL 172在原始数据110中标识的基本特性。在医疗保健实例中,这 些基本特性可以包括人口统计信息和健康测量,例如患者的年龄、生日、血糖水平、身高、体 重等。根据一个示例性实施例,Rl 174中的特性可以组织为具有一个或多个对应值的数据 对象。例如,一个此类数据对象可以是具有对应数值的BloodGlucoseLevel数据对象。
[0031] 环境100的特性组合120组件的聚合176组件可以聚合Rl 174数据,以便 生成第二数据集R2 178。在医疗保健实例中,R2 178数据可以包括在多次看医生期 间随时间收集的信息和这些信息的聚合,例如体质指数(BMI)测量、身高、体重和其它 信息。其它信息可以包括为患者提供保健的成本。根据一个示例性实施例,R2 178中 的特性例如可以是具有一个或多个对应值的数据对象。例如,一个此类数据对象可以 是具有对应数值的BloodGlucoseLevel数据对象。数值例如可以是在Rl 174中发现 的不同BloodGlucoseLevel数据对象值的平均值。作为另一实例,R2 178特性可以是 TotalCostOfCare数据对象,其包括Rl 174中的对应CostOfCare数据对象的聚合(即,累 计总)值。
[0032] 在生成上述R2 178特性中,环境100的聚合176组件可以通过使用例如包括SQL 工具的数据转换工具,或者包括数据处理组件(例如IBM SPSS Modeler、Mathematica、 Matlab或上述其它ETL工具)的数据管理工具,转换R2 178特性(它们可以在诸如DB2、 0raCle、SQL服务器之类的数据库系统中)。这些工具提供自动化以及用户可控制的转换功 能,这些功能允许自动定义和执行任务。其它工具包括Java、C和其它程序设计语言提供的 功能,以便定义一个数据集到另一个数据集的期望转换。
[0033] 在生成R2 178中,聚合176组件可以还定义和维护Rl 174和R2 178的特性之间 的父子关系。例如,可以使用Rl 174中的两个子特性生成父特性R2 178,两个子特性取决 于该父特性。根据一个实施例,可以将父子关系存储在数据库表中,该数据库表的表项具有 包括"父"和"子"的属性。该表可以在数据库上维护的数字文件中维护,并且当生成对应 模型时,由环境100的其它组件根据需要引用。
[0034] 领域知识150组件可以基于Rl 174和/或R2 178的低级特性定义一个或多个高 级特性,以便生成第三数据集R3 180。在医疗保健实例中,高级特性可以定义为"高再住院 率"数据对象。此类特性不包括医疗设备采用可以测量身高、体重或血压的方式直接测量的 数据。相反,"高再住院率"是可以从底层原始数据导出的特性。例如,可以针对与定义的医 疗疗程相关的所有记录,从原始数据110确定高再住院率的值,方法是判定使用疗程的患 者的记录是否具有原始数据110中的附加记录,这些附加记录指示在定义的时间段内,由 于诸如疗程后感染之类的指定原因或其它原因(例如可以定义为由于疗程产生的并发症) 而随后停留在医院或医疗机构。例如,可以基于疗程的"再住院"记录数量,按照疗程定义 值"高"、"中"和"低",作为指示执行疗程的记录数量的百分比。
[0035] 领域知识150组件中的高级特性的定义可以应用于Rl 174和/或R2178之一或 两者,以便产生第三数据集R3 180。这可以迭代地(或一次)完成,并且在某些实施例中可 以涉及来自用户170的输入。例如,可以将领域知识150组件中的高级特性定义应用于Rl 174特性,以便定义R3 180特性。备选地或除此之外,可以将它们应用于R2 178特性,以 便定义R3 180特性。每当更新Rl 174和/或R2 178时,可以通过连续迭代重复该过程。 在医疗保健实例中,领域知识150组件可以由有经验的医生(该医生为用户170)定义/配 置/修改。但是,用户170输入不是必须的。因此,R3 180可以是数据库,其包含Rl 174和 R2 178中包括的原始数据110的组合和聚合后的特性,使用可能不容易在Rl 174和/或R2 178中显而易见的领域相关知识改进以便建模。R3 180本身可以随时间经由聚合176组件 聚合。特性组合120组件可以使用Rl 174、R2 178和R3 180生成上述特性层次结构,其中 使用原始数据110定义第一级别特性Rl 174,其具有相关特性R2 178 ;R1 174和R2 178又 可以具有相关特性R3 180。
[0036] 可以使用上述与生成Rl 174和R2 178特性集有关的相同工具,例如包括使用上 述ETL 172组件或其它数据处理组件,生成R3 180特性。此外,生成R3 180还可以包括定 义要应用领域知识以便生成R3 180特性的Rl 174和R2 178的特性之间的父/子依赖性。 这可以采用上述与生成和维护R2 178特性的依赖性记录有关的相同方式完成。
[0037] 图2示出根据本公开的一个实施例的示例性特性层次结构200。特性层次结构200 可以由环境100的特性组合120组件生成,如上面结合图IA-B所述。根据一个其中特性组 合120作为输入接收的原始数据110包括医疗保健数据的示例性实施例,特性组合120的 组件(图IB中所示)生成的特性层次结构200可以包括以下节点:
[0038] ?根节点204 :这可以是默认定义为零级别节点以便用作特性层次结构200树根 的节点,第一级别特性可以依赖于该根节点。
[0039] ?年龄节点208-患者的年龄。
[0040] · HlCn节点212-患者的HlCn读数。
[0041] 籲体质指数(BMI)节点216-BMI节点216可以具有以下子节点:身高节点232和 体重节点236。
[0042] ?伴随疾病计数节点220-患者同时患有的被确诊疾病的数量;伴随疾病计数节 点220可以具有以下子节点:疾病诊断节点2401-n。
[0043] ?频繁用户节点224-频繁用户分类例如可以定义为在一周内门诊就诊次数大于 或等于4次就诊的患者。该节点可以具有以下子节点:门诊就诊计数节点248。门诊就诊 计数节点248又可以具有以下子节点:门诊就诊节点2561-n。
[0044] ?高再住院率节点228-高再住院率可以定义为在一年时间内患者再住院次数大 于或等于4。该节点可以具有以下子节点:再住院计数节点252。再住院计数节点252又可 以具有以下子节点:住院节点2641-n。
[0045] 在特性层次结构200中,叶节点(即,没有子节点的节点)可以是由环境100的特 性组合120组件标识为基本特性Rl 174的特性。基于包含在这些叶节点中的信息,可以定 义其它特性以便生成R2 178 (Rl 174特性和R3 180特性的聚合)和R3 180特性。R3 180 特性例如可以是:频繁用户节点224、高再住院率节点228和再住院计数节点252,它们基 于特性层次结构200的Rl 174和R2 178特性确定。如可以从所示的实例看到的,这些R3 180节点/特性基于领域知识150特性。例如,频繁用户是不存在于原始数据110中的定义 的特性,而是从原始数据110中的潜在聚合数据导出。例如,可以由医生或其它有经验的医 疗保健专业人员(即,用户170),或者通过自动化手段(例如具有领域特定定义的计算机化 分析工具和/或数据库)动态完成定义频繁用户。
[0046] 图3A示出根据本公开的各实施例的示例性决策树模型140 (或简称模型140)。决 策树模型140是分类模型,其允许为数据对象分配类标签。其它实施例可以使用不同分类 模型,例如支持向量机(SVM)分类器、逻辑回归模型或其它分类模型。这些模型可以采用数 学公式或模型的形式,并且可以应用于特性层次结构。模型140可以对应于一个患者的分 类,或者它可以包含多个患者的聚合分类。
[0047] 在本实施例中,模型140基于图2中的特性层次结构200。模型140可以为数据对 象分配如下类标签:低成本标签324或高成本标签328。数据对象例如可以是具有对应于 患者的关联数据集的患者记录。模型140可以包括以下节点:
[0048] ?用作根节点的年龄节点304-年龄节点304具有两个分支:第一分支对应于小 于40岁的年龄,并且第二分支对应于大于和等于40岁的年龄。
[0049] ?用作根节点的子节点的就诊计数节点308,其本身具有两个分支,这两个分支对 应于小于6以及大于或等于6的值。这两个分支的第一个具有分类低成本324作为其子节 点,并且第二分支具有分类高成本328作为其子节点。
[0050] ?体质指数(BMI)节点312,其本身具有两个分支和两个对应的子节点。分支是: 小于40,以及大于或等于40。
[0051] ?再住院计数节点316,其是BMI节点312通过小于40分支的子节点。再住院计 数节点316本身具有小于4以及大于或等于4的两个分支,第一分支导向低成本标签324 作为子节点
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1