平衡数据建模中的起源和准确性权衡的方法和系统的制作方法_5

文档序号:8412510阅读:来源:国知局
算 环境中执行任务的计算资源和其它资源的动态获取;计量和定价功能:在云计算环境内对 资源的使用进行成本跟踪,并为此提供帐单和发票。在一个例子中,该资源可以包括应用软 件许可。安全功能:为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户 门户功能:为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能:提供云 计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能:为 根据SLA预测的对云计算资源未来需求提供预先安排和供应。
[0098] 工作负载层722提供云计算环境可能实现的功能的示例。在该层中,可提供的工 作负载或功能的示例包括:地图绘制与导航;软件开发及生命周期管理;虚拟教室的教学 提供;数据分析处理;交易处理;以及分析建模组件,例如用于图1-4B中所述的本公开实施 例的组件。
[0099] 尽管针对优选实施例具体示出并描述了本发明,但所属技术领域的技术人员将理 解,在不偏离本申请的精神和范围的情况下,可以做出各种形式和细节上的更改。因此,本 发明并不限于在此描述和示出的精确形式和细节,而是落入所附权利要求的范围内。
[0100] 所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算 机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、 完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方 式,这里可以统称为"模块"或"系统"。此外,本发明的各个方面还可以实现为在一个或多 个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程 序代码。
[0101] 可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机 可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一但不限于一 电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者上述的任意合适的组合。计算 机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便 携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器 (EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者 上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的 有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0102] 计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据 信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括一 但不限于一电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计 算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传 输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0103] 计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括一但不限 于一无线、有线、光缆、RF等等,或者上述的任意合适的组合。
[0104] 可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面 的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言一诸如Java、 Smalltalk、C++等,还包括常规的过程式程序设计语言一诸如"C"语言或类似的程序设计 语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独 立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机 或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络一包 括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如 利用因特网服务提供商来通过因特网连接)。
[0105] 将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/ 或框图描述本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/ 或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给 通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得 这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和 /或框图中的一个或多个方框中规定的功能/动作的装置。
[0106] 也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、 其它可编程数据处理装置、或其它设备以特定方式工作,从而,存储在计算机可读介质中的 指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令 的制造品。
[0107] 也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备 上,使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤,以产生计算机实现 的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中 的一个或多个方框中规定的功能/动作的过程。
[0108] 附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程 序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代 表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用 于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标 注的功能可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本 并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是, 框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定 的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合 来实现。
[0109] 尽管使用数字和字母顺序或连续标识了所公开的方法的步骤以及所公开的系统 和环境的组件,但这种数字或字母并不指示必须以所述顺序执行这些步骤,并且仅用于促 进明确引用所述方法的步骤。此外,可以并行执行所述方法的步骤以便执行其所述的功能。
【主权项】
1. 一种用于生成分析模型的计算机实现的方法,所述方法包括: 接收具有定义的第一特性集的数据集; 基于将领域知识数据集应用于所述第一特性集,定义第二特性集; 基于所述第一和第二特性集的特性之间的关系,生成特性层次结构;以及 基于从所述特性层次结构中选择特性,生成分析模型,其中所述分析模型包括在维持 定义的准确性值时最高数量的所述第二特性集的特性。
2. 根据权利要求1的方法,还包括: 基于所述第一特性集的特性的聚合和所述第二特性集的特性的聚合中的任何一个或 多个,定义第三特性集;以及 基于所述第一、第二和第三特性集的特性之间的关系,生成所述特性层次结构。
3. 根据权利要求1的方法,其中生成分析模型进一步包括: 试探性地生成所述分析模型,由此从基于所述特性层次结构的不同特性组合生成的分 析模型集中选择所述分析模型。
4. 根据权利要求1的方法,还包括: 确定所述分析模型中的每个特性的影响度量; 将所述分析模型中的每个特性的所述影响度量与所述分析模型中的至少一个其它特 性的所述影响度量相比较;以及 当所述至少一个其它特性具有优选影响时,使用所述分析模型中的所述至少一个其它 特性替换所述分析模型中的每个特性。
5. 根据权利要求1的方法,其中所述定义的准确性级别由用户定义。
6. 根据权利要求1的方法,其中所述领域知识数据集由用户定义。
7. 根据权利要求1的方法,其中所述分析模型是分类模型,所述分类模型包括以下项 中的任何一个:决策树模型、支持向量机SVM模型和逻辑回归模型。
8. -种用于生成分析模型的计算机系统,包括: 接收模块,其被配置为接收具有定义的第一特性集的数据集; 定义模块,其被配置为基于将领域知识数据集应用于所述第一特性集,定义第二特性 集; 第一生成模块,其被配置为基于所述第一和第二特性集的特性之间的关系,生成特性 层次结构;以及 第二生成模块,其被配置为基于从所述特性层次结构中选择特性,生成分析模型,其中 所述分析模型包括在维持定义的准确性值时最高数量的所述第二特性集的特性。
9. 根据权利要求8的计算机系统,还包括: 附加定义模块,其被配置为基于所述第一特性集的特性的聚合和所述第二特性集的特 性的聚合中的任何一个或多个,定义第三特性集;以及 第三生成模块,其被配置为基于所述第一、第二和第三特性集的特性之间的关系,生成 所述特性层次结构。
10. 根据权利要求8的计算机系统,其中所述第二生成模块进一步包括: 试探性地生成所述分析模型,由此从基于所述特性层次结构的不同特性组合生成的分 析模型集中选择所述分析模型。
11. 根据权利要求8的计算机系统,还包括: 确定模块,其被配置为确定所述分析模型中的每个特性的影响度量; 比较模块,其被配置为将所述分析模型中的每个特性的所述影响度量与所述分析模型 中的至少一个其它特性的所述影响度量相比较;以及 替换模块,其被配置为当所述至少一个其它特性具有优选影响时,使用所述分析模型 中的所述至少一个其它特性替换所述分析模型中的每个特性。
12. 根据权利要求8的计算机系统,其中所述定义的准确性级别由用户定义。
13. 根据权利要求8的计算机系统,其中所述领域知识数据集由用户定义。
14. 根据权利要求8的计算机系统,其中所述分析模型是分类模型,所述分类模型包括 以下项中的任何一个:决策树模型、支持向量机SVM模型和逻辑回归模型。
【专利摘要】本发明涉及一种平衡数据建模中的起源和准确性权衡的方法和系统。生成数据模型可以包括接收原始数据集,以及基于所述原始数据集的第一特性集生成第一库,基于所述第一库的特性的聚合生成具有第二特性集的第二库,以及基于所述第一和第二特性集生成具有第三特性集的第三库。可以基于所述模型的准确性和起源之间的权衡,生成所述数据模型。
【IPC分类】G06F17-30
【公开号】CN104731843
【申请号】CN201410682237
【发明人】C·古特曼, 孙行智
【申请人】国际商业机器公司
【公开日】2015年6月24日
【申请日】2014年11月24日
【公告号】US20150178622
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1