平衡数据建模中的起源和准确性权衡的方法和系统的制作方法_4

文档序号:8412510阅读:来源:国知局
结构的连续级别(从高级别到低级别),可以选择特性以 便生成一个或多个对应的模型,并且可以更新准确性度量。如果满足准确性要求,则搜索可 以停止,并且不需要搜索较低级别和更具体的特性。例如,搜索可以在级别1开始。如果从 该初始特性集(即,级别1的特性集)生成的模型不足够准确,则模型中的级别1的特性可 以由在级别2发现的其子特性替换。
[0071] 可以通过评估特性层次结构中的特性对使用特性层次结构生成的模型的作用和/ 或影响,增强方法400在步骤404的特性选择。方法400可以使用度量,该度量指示特性在 模型中的意义和/或对模型的影响。例如,当作为决策树模型的一部分而评估特性时,一个 此类度量可以是信息增益度量。信息增益度量是以下度量:当在模型中使用一个特性将实 例(数据对象)分成子集时,决策树模型的熵值变化。熵是实例集的输出值的不一致或不 纯的度量。在分类模型的情况下,输出值可以是给定实例(即,数据对象向量(例如,患者 记录))的类标签(例如,高成本或低成本)。如果S是用于生成模型的实例集,并且?1是 S中输出值为i的实例部分,则S的熵可以定义为:
[0072] Entropy(S) = - Σ PiIog2(Pi)
[0073] 如果给出上面的熵定义,则特性A的信息增益可以确定为:
[0074] Gain (S,A) = Entropy ⑶-Σ vinValues⑷[(I Sv I / I S I) *Entropy (Sv)]
[0075] 其中S是用于生成模型的实例集,V是特性A的值,\是六=v的S子集,并且 Values(A)是A的所有可能值。
[0076] 信息增益(及其基础熵值(多个))仅是以下度量的一个实例:该度量可以用于评 估特性在对应模型(例如,决策树分类模型)中的意义和对该模型的影响。其它分类模型 可以使用不同度量。例如,逻辑回归模型可以使用P值度量,其是特性在模型中的统计意义 的指示。
[0077] 方法400的步骤404的试探过程选择哪个模型因此可以基于对模型具有优选、预 定或指定影响的模型特性。例如,如果将特性包括在对应模型中产生较低熵值,则该特性可 以相对于其它特性具有优选影响。用户可以基于使用和/或需要/优选的特定建模,预先 定义和/或指定此类偏好。
[0078] 在该实例中,如果模型不足够准确,则具有最不重要的熵值的特性可以由下一级 别的其子特性替换。该方法保留被视为对于构建模型重要的通用特性,并且分解相对狭隘 以及对模型不太重要的那些特性。
[0079] 分解在步骤404选择的特性集以便支持新的选定特性集之后,创建新特性集。可 以在步骤408基于新特性集生成新模型。如果新模型的性能不优于先前模型M的性能,则 可以忽略分解的特性集,并且可以取消分解以便支持具有第二不重要的熵值的其它特性的 新的分解。
[0080] 特性分解过程可以继续,直到结果模型足够准确,或者直到如果选定特性集中的 每个特性都是特性层次结构中的叶节点。
[0081] 现在参考图4B,根据本公开的一个示例性实施例的方法400的步骤404 (图4A)的 试探方法包括以下步骤。在步骤420,方法400可以从特性集FS开始,该特性集包括层次结 构的第一级别(例如,级别1)中的所有特性。在步骤424,所述方法可以为模型M和新模型 匪分配空值。方法400还可以将测试的特性集TFS初始化为空。
[0082] 在步骤432,方法400可以基于特性集FS初始化模型M。可以基于模型M中的FS 的特性针对模型M的熵值,对所述特性排序。排序可以采用升序。还可以根据特性在特性 层次结构中的级别,对特性进行排序。该排序也可以采用升序。可能使用其它排序策略。
[0083] 在步骤440,方法400可以选择最初在FS中但不在TFS中的特性f,其中f在特性 层次结构中具有子节点。在步骤444,在步骤440选择的f可以由其子特性替换。
[0084] 在步骤448,方法400可以基于FS-{f}与{f的子特性}的并集,计算新模型匪(其 可以在步骤424初始化)。在步骤452,可以将测试特性集TFS更新为TFS与{f}的并集。
[0085] 可以在步骤456评估模型匪的准确性并且将其与M的准确性相比较。如果匪的 性能不是更好,则可以在步骤456再次重复和评估以下步骤:选择特性f440、使用其子特性 替换特性444、计算新模型448,以及更新测试特性集452。
[0086] 当在步骤456确定NM的准确性好于M时,方法400可以在步骤460继续到更新FS = FS-{f}与{f的子特性}的并集。TFS可以在步骤464更新为空,并且M可以设置为等于 NM。
[0087] 可以在步骤472再次评估M的准确性,以便判定它是否小于阈值度量160 (参见图 1A-B),以及FS中的所有特性是否是特性层次结构中的叶节点。如果M小于阈值度量160, 并且FS中的所有特性并非都是叶节点,则方法400可以重复以下步骤以便到达新M :排序 436、选择440、替换444、计算448、更新452、评估456、设置460、更新464以及更新468。可 以在步骤472再次评估该新M,或者方法400可以如结合图4A所述的那样提供M,或者方法 400可以结束。
[0088] 继续参考所述图4A-B,方法400部分地促进设置准确性阈值,并且针对该阈值评 估模型M。可以使用有关起源的其它约束;例如以下要求:R3180(图1B、2)中的至少3个特 性或特定特性必须在模型中。因此,方法400可以生成M,以便满足准确性要求并且满足起 源要求。起源要求可以基于用户170 (图1A-B)输入。
[0089] 现在参考图5,计算设备1000可以包括相应多组内部组件800和外部组件900。每 组内部组件800包括一个或多个处理器820 ;-个或多个计算机可读RAM 822 ;-个或多个 计算机可读ROM 824 (在一个或多个总线826上);一个或多个操作系统828;执行方法400 的一个或多个软件应用829 (例如,设备驱动器模块);以及一个或多个计算机可读有形存 储器件830。一个或多个操作系统828和设备驱动器模块存储在一个或多个相应的计算机 可读有形存储器件830上,以便经由一个或多个相应的RAM 822 (其通常包括高速缓冲存储 器)由一个或多个相应的处理器820执行。在图5中所示的实施例中,每个计算机可读有 形存储器件830是内部硬盘驱动器的磁盘存储器件。备选地,每个计算机可读有形存储器 件830是半导体存储器件,例如ROM 824、EPROM、闪存,或者可以存储计算机程序和数字信 息的任何其它计算机可读有形存储器件。
[0090] 每组内部组件800还包括读写驱动器或接口 832以便读取和写入一个或多个计算 机可读有形存储器件936,例如精简供应存储器件、⑶-ROM、DVD、SSD、记忆棒、磁带、磁盘、光 盘或半导体存储器件。R/W驱动器或接口 832可以用于将设备驱动器840固件、软件或微代 码加载到有形存储器件936,以便促进与计算设备1000的组件通信。
[0091] 每组内部组件800还可以包括网络适配器(或交换机端口卡)或接口 836,例如 TCP/IP适配卡、无线WI-FI接口卡,或者3G或4G无线接口卡或其它有线或无线通信链路。 与计算设备1000关联的操作系统828可以经由网络(例如,因特网、局域网或广域网)和 相应的网络适配器或接口 836,从外部计算机(例如,服务器)下载到计算设备1000。从网 络适配器(或交换机端口适配器)或接口 836,将与计算设备1000关联的操作系统828加 载到相应的硬盘驱动器830和网络适配器836中。网络可以包括铜线、光纤、无线传输、路 由器、防火墙、交换机、网关计算机和/或边缘服务器。
[0092] 每组外部组件900可以包括计算机显示器920、键盘930和计算机鼠标934。外部 组件900还可以包括触摸屏、虚拟键盘、触摸板、指点设备和其它人机接口设备。每组内部 组件800还包括设备驱动器840,以便与计算机显示器920、键盘930和计算机鼠标934对 接。设备驱动器840、读写驱动器或接口 832以及网络适配器或接口 836包括硬件和软件 (存储在存储器件830和/或ROM 824中)。
[0093] 现在参考图6,示出示例性云计算环境600。如图所示,云计算环境600包括一个 或多个云计算节点,每个云计算节点可以是云的消费者使用的本地计算设备可以与其相通 信的系统1000,本地计算设备例如可以是个人数字助理(PDA)或移动电话600A、台式计算 机600B、膝上型计算机600C和/或汽车计算机系统600N。节点1000之间可以相互通信。 可以在如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网 络中将这些节点进行物理或虚拟分组(图中未显示)。这样,云的消费者无需在本地计算 设备上维护资源就能请求云计算环境600提供的基础架构即服务、平台即服务和/或软件 即服务。应当理解,图6显示的各类计算设备600A-N仅仅是示意性的,计算节点1000以及 云计算环境600可以与任意类型网络上和/或网络可寻址连接的任意类型的计算机化设备 (例如使用Web浏览器)通信。
[0094] 现在参考图7,示出云计算环境600(图6)提供的一组功能抽象层。首先应当理 解,图7所示的组件、层以及功能都仅仅是示意性的,本发明的实施例不限于此。如图7所 示,提供下列层和对应功能:
[0095] 硬件和软件层710包括硬件和软件组件。硬件组件的例子包括:主机,例如 IBM? zSeries?系统;基于Rise(精简指令集计算机)体系结构的服务器,例如 IBM pSeries?系统;IBM xSeries? 系统;IBM BladeCenter? 系统;存储器件;网络和 网络组件。软件组件的例子包括:网络应用服务器软件,例如IBM "WebSphere?应用服务 器软件;以及数据库软件,例如IBMDB2?数据库软件。(IBM、zSeries、pSeries、xSeries、 BladeCenter、WebSphere以及DB2是国际商业机器公司在全世界各地的注册商标)。
[0096] 虚拟层714提供一个抽象层,该层可以提供下列虚拟实体的例子:虚拟服务器、虚 拟存储、虚拟网络(包括虚拟私有网络)、虚拟应用和操作系统,以及虚拟客户端。
[0097] 在一个实例中,管理层718可以提供下述功能:资源供应功能:提供用于在云计
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1