用于改进信息资产的分类的细分和校准方法和系统的制作方法

文档序号:6377917阅读:179来源:国知局
专利名称:用于改进信息资产的分类的细分和校准方法和系统的制作方法
技术领域
本发明的实施例一般地涉及一种用于管理业务术语表中的资产的分类的方法。更具体地讲,本发明的实施例提供用于基于与资产关联的一组属性和其它类似资产的分类来细分相对于业务术语表的资产的手工分类(classification)或归类(categorization)的各种技术。
背景技术
大的组织经常使用各种软件应用和系统来定义并管理业务术语表。业务术语表(glossary)自身可提供在组织内(以及跨子组织)使用的术语的受控词汇表。业务术语表中的术语代表组织中的主要信息概念,并且类别用于把术语组织成层级结构。业务术语表允许数据分析员、业务分析员和专门领域专家创建业务术语的丰富的术语表、层级结构和关系。业务术语表把业务概念链接到技术元数据,并且能够使用各种用户界面在整个企业揭示这些链接。例如,基于web的工具可包括用于创建、管理和共享业务术语表的受控词汇表的用户界面。除了维护受控词汇表之外,这种界面可提供分类方案以及术语和类别的分类法,并允许管理员把术语分配给业务资产。“管理员(Steward)”通常是指组织内负责给定信息资产的人,通常是被分派管理一组术语的任务的专门领域专家。这种分配经常是手工的,其中管理员依赖于他的领域知识执行这项任务。然而,众所周知,手工的分类经常导致基于管理员识别的任何合适的种类(术语/类别)的幼稚的分配。也就是说,管理员可能在“首次最佳匹配”基础上把资产分配给分类,而非检查存在于术语表中的已有种类。尽管这导致准确的分类,但它可能对于分类的资产而言不一定是一般性的并且与类似资产的分类不一致。例如,当另一术语“交通工具-卡车-送货”存在于业务术语表中时,管理员可能把送货卡车(即一资产)分配给资产分类“交通工具”或“交通工具-卡车”。另外,当两个组织合并(或者一个组织分裂成更小的单位)时,可能需要对新的资产进行分类,不同业务术语表中的术语可能需要合并和协调,等等。也已提出用于自动地把资产分配给特定种类的各种方案。自动分类机制典型地依赖于超出已经存在于术语表中的内容的关于资产的外部描述,然后应用一些自然语言处理技术以提取可能在分类中有用的特征。另一方案是尝试基于作为训练数据集的已有手工分类来训练分类器。然而,训练自身依赖于手工分配,由于上述原因,这经常是有问题的。

发明内容
本发明的一个实施例提供一种细分使用业务术语表中的术语分类的资产的计算机实现的方法。该方法可一般地包括接收多个资产,每个资产具有从业务术语表中选择的术语的分类。业务术语表提供在组织内使用的术语的受控词汇表的层级结构,并且每个资产的特征在于使用从领域本体(domain ontology)选择的一组属性的数据库记录。这种方法还可包括通过一个或多个计算机处理器的操作,针对一组细分准则评估分配给所述多个资产中的每一个资产的分类,并细分分配给至少第一资产的分类,其中第一资产满足该组细分准则。在特定实施例中,这种方法还可包括存储对第一资产和至少第二资产的参考,其中根据所述一组细分准则,第二资产有助于第一资产的细分。基于确定第二资产已被重新分类,可针对所述细分准则重新评估分配给第一资产的细分的分类,并且如果第一资产不再满足所述一组细分准则,则撤销分配给第一资产的细分的分类。在特定实施例中,细分准则包括确定第二资产的分类是分配给业务术语表中的第一资产的分类的子孙,并且相对于本体,第二资产的每个属性具有比第一资产中的对应属性更一般性的值。另外的实施例包括一种计算机可读存储介质以及一种具有处理器和存储器的系统,所述计算机可读存储介质存储应用,当在处理器上执行该应用时,该应用执行上述方法,所述存储器存储企业信息资产管理应用程序,当在处理器上执行该应用程序时,该应用程序执行上述方法。


为了获得上述各方面并且能够详细地理解上述各方面,可通过参照附图提供以上简要总结的本发明的实施例的更具体的描述。然而,应该注意的是,附图仅示出本发明的典型实施例,因此不应视为限制它的范围,因为本发明可允许其它同样有效的实施例。图1示出根据本发明一个实施例的用于使用业务术语表中的术语来管理资产的分类的示例性计算基础设施。图2示出根据本发明一个实施例的用于细分使用业务术语表中的术语分类的资产的系统的高级架构。图3示出根据本发明一个实施例的用于对业务术语表中的术语进行分类的方法。图4示出根据本发明一个实施例的用于细分使用业务术语表中的术语分类的资产的方法。图5示出根据本发明一个实施例的用于评估使用图4的方法细分的资产分类的方法。图6示出根据本发明一个实施例的示例性业务术语表的一部分。图7示出根据本发明一个实施例的用于细分使用业务术语表的术语分类或归类的资产的示例性本体的一部分。图8示出根据本发明一个实施例的用于提供分类细分工具的示例性计算系统。
具体实施例方式本发明的实施例提供用于细分使用业务术语表的术语分类或归类的资产的手工分类的方法。在一个实施例中,语义细分机构用于细分这种资产的手工分类,以及随后评估细分的资产分类。另外,细分的资产分类可用作机器学习分类器的训练集。使用细分的资产分类训练机器学习分类器得到可用于更准确地执行自动资产分类的分类器。这样做允许数据集更迅速地合并到共同业务术语表中。细分的分类的集合也可由各种业务分析工具用来在各种度量上分析和评估组织。在一个实施例中,语义细分机构接收由管理员(或其他用户)手工分类的一组资产。管理员基于描述资产的一组元数据属性把来自业务术语表的术语分配给资产。例如,数据库可以为由管理员分类的每个资产提供一行属性。另外,可用于描述资产的属性的范围可使用本体而彼此相关。在一个实施例中,语义细分机构可评估分配给给定资产的分类以决定是否细分该分类,即,决定是否应该使用来自业务术语表的更具体的术语对该资产进行分类。如以下更详细所述,例如,假设管理员已把手工分类分配给第一资产。在这种情况下,如果语义细分机构确定(i)存在分配给另一资产的分类,该分类是分配给第一资产的分类的子孙,和(ii)第一资产的每个属性与使用子孙术语分类的资产中的对应属性相比在本体中处于更低的级别,和(iii)分配给执行正被评估的资产的分类的用户的权重的差异超过可调谐的阈值,则第一资产的分类可以被细分至更具体的分类。在一个实施例中,概率分布可用于最终选择满足以上列出的条件的资产的分类的细分。如以下更详细所述,更可能的分类(即,原始分类或者使用以上条件识别的潜在的细分)可以被选择,比如已由许多用户手工分配的分类,导致该分类在概率分布中的更高的计数。然而,为了决定细分分配给第一资产的分类究竟是否有意义,该分类需要满足以上列出的条件。这些条件确保正被评估的资产类似于以前在更专业的分类下分类的资产。业务术语表可自己随着时间提供把资产分配和重新分配给术语的演进数据集。例如,由企业进行的新的收购可导致业务术语表中的成千的新的业务定义以及使用这些术语分类的一组资产。相反,子组织的转让能够导致业务术语表中的许多术语的废止(sunset)。在这些情况下,语义细分机构可在共同业务术语表下促进分配给正被合并的资产的分类的细分(或者在原始分类已从业务术语表废止并且新的手工分类已发生之后细分分配给术语的新的分类)。另外,启用反馈的加权校准机构可用于评估使用语义细分机构进行的细分。例如,假设由语义细分机构基于一个或多个资产的基础组的手工分类细分分配给第一资产的分类。如果这些基础的资产的分类改变,则启用反馈的加权校准模块可评估第一资产的细分的分类,有可能撤销(undo)该细分。在一个实施例中,语义细分机构可按照迭代方式运行。每次资产分类被细分,启用反馈的加权校准机构可评估作为结果是否应该撤销其它分类。在下面,参照本发明的实施例。然而,应该理解,本发明不限于特定描述的实施例。相反,设想下面的特征和元素(不管是否与不同实施例相关)的任何组合以执行和实施本发明。另外,虽然本发明的实施例可相对于其它可能的解决方案和/或相对于现有技术实现优点,但是否由给定实施例实现特定优点并不限制本发明。因此,下面的方面、特征、实施例和优点仅是说明性的,而非视为除权利要求中明确记载的内容之外的所附权利要求的元素或限制。同样地,对“本发明”的提及不应解释为本文公开的任何发明主题的概括并且不应视为除权利要求中明确记载的内容之外的所附权利要求的元素或限制。本领域技术人员将会理解,本发明的各方面可实现为系统、方法或计算机程序产品。因此,本发明的各方面可以采用通常全部可在本文称为“电路”、“模块”或“系统”的完全硬件实施例、完全软件实施例(包括固件、常驻软件、微码等)或组合了软件和硬件方面的实施例的形式。另外,本发明的各方面可以采用实现于具有计算机可读程序代码的一个或多个计算机可读介质中的计算机程序产品的形式。可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁、光学、电磁、红外或半导体系统、设备或装置或者前述各项的任何合适的组合。计算机可读存储介质的更具体的例子(非穷举列表)将会包括下述各项具有一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPR0M或闪存)、光纤、便携式压缩盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或前述各项的任何合适的组合。在本文的上下文中,计算机可读存储介质可以是能够包含或存储由指令执行系统、设备或装置使用或结合指令执行系统、设备或装置使用的程序的任何有形介质。计算机可读信号介质可包括例如基带中或作为载波的一部分的嵌入了计算机可读程序代码的传播数据信号。这种传播信号可采用多种形式中的任何形式,包括但不限于电磁信号、光学信号或者它们的任何合适的组合。计算机可读信号介质可以是并非计算机可读存储介质并且能够传送、传播或传输由指令执行系统、设备或装置使用或结合指令执行系统、设备或装置使用的程序的任何计算机可读介质。可以使用合适的介质(包括但不限于无线、有线、光纤缆、射频(RF)等或前述各项的任何合适的组合)传输计算机可读介质上包含的程序代码。可以按照一种或多种编程语言的任何组合编写用于执行本发明的各方面的操作的计算机程序代码,所述编程语言包括面向对象的编程语言,诸如Java、Smalltalk、C++等;和常规过程编程语言,诸如“C”编程语言或类似编程语言。程序代码可以完全在用户计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后面的方案中,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以(例如,使用互联网服务提供商通过互联网)连接到外部计算机。以下参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图描述本发明的各方面。将会理解,流程图和/或方框图中的每个方框以及流程图和/或方框图中的方框的组合能够由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机或者其它可编程数据处理设备的处理器,以产生一机器,从而指令(所述指令经由计算机或者其它可编程数据处理设备的处理器执行)产生用于实现流程图和/或方框图的一个或多个方框中规定的功能/动作的装置。这些计算机程序指令也可存储在计算机可读介质中,该计算机可读介质能够指示计算机、其它可编程数据处理设备或其它装置按照特定的方式发挥作用,从而存储在计算机可读介质中的指令产生一种制造产品,所述制造产品包括实现流程图和/或方框图的一个或多个方框中规定的功能/动作的指令。计算机程序指令也可被加载到计算机、其它可编程数据处理设备或其它装置上,以使得在计算机、其它可编程设备或其它装置上执行一系列的操作步骤以产生计算机实现的过程,从而在计算机或其它可编程设备上执行的指令提供用于实现流程图和/或方框图的一个或多个方框中规定的功能/动作的过程。附图中的流程图和方框图示出根据本发明各种实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。在这个方面,流程图或方框图中的每个方框可代表包括用于实现规定的逻辑功能的一个或多个可执行指令的代码的模块、段或一部分。还应该注意的是,在一些另外的实现方式中,方框中标注的功能可以不按附图中标注的次序执行。例如,事实上,根据涉及的功能,连续示出的两个方框可以基本上同时执行,或者这些方框有时候可以以相反的次序执行。还应该注意的是,方框图和/或流程图中的每个方框以及方框图和/或流程图中的方框的组合能够由执行规定的功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。图1示出根据本发明一个实施例的用于使用业务术语表中的术语来管理资产的分类的示例性计算基础设施。如图中所示,计算基础设施100包括客户机系统130和服务器系统105,客户机系统130和服务器系统105均连接到网络120 (例如,互联网)。另外,服务器系统105显示为访问数据库系统115、125。具体地讲,业务数据115和业务数据分类125。要注意,尽管示出为分开的元件,但数据库系统115和125可以是在服务器系统105上或者在通过数据通信网络访问的计算系统上运行的数据库应用。在这个例子中,相对于业务术语表,业务数据115对应于指定业务资产的属性的数据,并且业务数据分类125对应于分配给这种业务资产的分类。作为相对简单的例子,假设一公司具有一个大的车队。在这种情况下,业务数据115能够包括与每个车辆相关的各种属性,诸如品牌、型号、颜色、年份等。另外,该公司能够保持业务术语表并允许客户机系统130的用户(例如,管理员)把业务术语表中的分类分配给每个业务资产(即,在这个例子中分配给每个车辆)。如图中所示,客户机系统130包括业务术语表界面135。包括客户机系统130作为各种计算装置(例如,桌上型计算机、膝上型计算机或平板装置)的代表。在一个实施例中,业务术语表界面135可以是用于访问web应用的web浏览器。因此,客户机系统130可以是能够访问并呈现来自web服务器的数据的任何计算装置。web应用(即,业务术语表界面135)自己可允许用户观看、编辑并管理业务术语表以及把术语表中的术语分配给业务资产。服务器系统105可构造为具有用于提供web应用的合适的应用,例如web服务器、应用服务器和数据库应用等。当然,本领域普通技术人员将会认识到,除了图1中显示的客户机/服务器架构之外,各种软件架构可用于为用户提供对业务术语表的访问。例示性地,服务器系统105包括分类细分工具110。在一个实施例中,细分工具110可构造为评估来自业务术语表的术语针对资产的手工分类,以便识别对这种分类的细分。另外,当添加(或去除)术语时,因为新的分类的资产被添加到业务数据115 (或者手工地对资产进行重新分类),所以分类细分工具110可评估是否应该进行新的细分(或者是否应该撤销以前的细分)。因此,分类细分工具110可以以迭代方式工作。在一个实施例中,如以下更详细所述,分类细分工具110可包括语义细分模块和启用反馈的加权校准模块。例如,图2示出根据本发明一个实施例的用于细分使用业务术语表225中的术语手工分配的资产分类的系统的高级架构200。如图中所示,架构200包括语义细分模块(SRM) 205和启用反馈的加权校准模块(FECM)210。在这个例子中,用户230手工地把业务术语表225中的术语分配给业务资产,其中数据库215中的数据记录代表业务资产。数据记录可提供使用从领域本体235选择的术语描述给定业务资产的一组属性。由用户230进行的业务资产的手工分类存储在数据库215中。业务术语表自己可提供用于分配给资产的术语的层级结构。在一个实施例中,业务术语表225和由用户230进行的手工分类被提供给SRM205。另外,SRM 205可构造为评估由用户230进行的手工分类以确定是否细分任何所述手工分类。更具体地讲,SRM205可在一些情况下确定利用分配给资产的术语的子孙细分该术语。也就是说,SRM 205可利用业务术语表225中的由用户230分配给资产的术语的孩子(或它的孩子的孩子,等)之一替换该术语,由此提供该资产的更具体的分类。在一个实施例中,通过比较第一资产的属性与被分配了与分配给第一资产的术语有关的子孙分类的资产的属性,SRM 205可识别第一资产作为细分的候选。也就是说,当如相对于领域本体235所确定的,两个资产共享类似属性时,(来自业务术语表225的)具有更具体的资产分类的资产为另一资产提供可能的细分分类。在一个实施例中,SRM 205可比较与对这两个资产进行手工分类的用户关联的权重以确定是否细分具有不那么具体的分类的资产的分类。例如,相对于由其他用户进行的分类,SRM 205可把更大的权重给予由识别的专门领域专家(SME)或有经验的数据管理员进行的分类。SRM 205也可在数据库220中存储对业务资产的任何细分的分类的参考以及对引起该细分的资产的参考。进而,FECM 210可识别何时资产由用户230进行手工分类或者何时资产分类由SRM 205细分,会导致分配给其它资产的细分的分类被撤销。例如,如果SRM依赖于第一资产的分类来细分第二资产的分类并且第一资产的分类随后改变,则FECM 210可调用SRM 215以确定第一资产的细分的分类是否应该被撤销。图3示出根据本发明一个实施例的用于对业务术语表中的术语分类的方法300。如图中所示,方法300开始于步骤305,在步骤305,分类工具初始化用户概况、用于细分分类的阈值和其它数据结构。另外,分类工具也可识别待分类的资产的集合(例如,提供待分类的每个资产的属性的一组数据库记录)和相关的业务术语表。在步骤310,分类工具可把用于分类或归类的资产提供给数据管理员或专门领域专家。例如,如上所述,用户可与web浏览器交互以访问实现为基于web的应用的分类细分工具110。在步骤315,专门领域专家或数据管理员为业务术语表中的每个资产分配分类。继续以上首次提及的例子,以下的表显示一组示例性资产和由用户手工分配的分类。 表1-咨产
资产#属性I属性2手工分类(车辆颜色)(车辆类型)
I 蓝色美式SUV涂漆SDVI 浅蓝美式SUV轻涂漆汽车3 浅红美式SllV涂漆汽车要注意,在这个例子中,相对于领域本体选择属性,领域本体的一部分显示在图7中。更具体地讲,图7显示示例性领域本体700,领域本体700使根节点705的术语“事物”与更具体的元素(诸如,“汽车”、“涂漆汽车”和“SUV”)相关。来自领域本体700的术语用于提供表I中的资产的属性。此外,从图6中显示的示例性业务术语表选择由用户分配的分类。更具体地讲,图6显示示例性业务术语表600,业务术语表600提供用于分配给业务资产的术语的层级分类法。在图6的例子中,业务术语表600显示用于对车辆进行分类的术语的层级结构,开始于最一般性的术语“车辆(vehicle)”,车辆”具有子分类“汽车(car)”等。如上所述,一旦阈值数量的资产被手工分类,这种资产可用作机器学习分类器的训练集,一旦训练,该分类器能够用于对来自数据集的另外的资产进行分类。另外,所获得的资产分类可由各种其它数据分析工具使用。然而,尽管由用户手工分配的分类通常被假设为“正确”,但在一些情况下,考虑到业务术语表中的可用精度,初始手工分类是不准确的,或者至少是不精确的。例如,虽然在图5中显示的业务术语表500中存在多个更具体的类别(例如,“涂漆SUV”和“轻涂漆汽车”),但表I中的资产#3被分配给正确的但非常一般性的类别(涂漆汽车)。因此,一旦用户已手工地把一组分类分配给资产(即,在步骤315之后),分类细分工具可调用SRM以评估手工分配的资产。也就是说,在步骤320,SRM可确定是否细分任何手工分配的资产分类。如果确定细分,则SRM可细分分配给一个或多个资产的分类以及在数据库中存储对细分的资产和给定细分所基于的资产的参考。在SRM的迭代(和任何获得的资产分类细分)之后,在步骤325,分类细分工具可调用FECM。进而,作为SRM细分资产的结果或者作为用户撤销细分或在其它方面改变资产的分类的结果,FECM可确定任何资产的当前分类是否需要被重新评估。例如,假设SRM基于第二和第三资产的分类细分第一资产的分类。在这种情况下,如果用户改变第二或第三资产的分类,则FECM可识别用于重新评估的第一资产。在一个实施例中,FECM可调用SRM以重新考虑对第一资产做出的细分。要注意,该过程可继续以迭代方式进行,直至达到稳定状态。例如,假设SRM撤销对第一资产的细分(基于第二和/或第三资产的分类的改变)。在SRM的这种迭代之后,FECM能够随后确定(现在撤销的)第一资产的细分的分类自己是否在以前有助于其它资产的细分。如果第一资产的细分的分类自己在以前有助于其它资产的细分,则FECM能够调用SRM以重新考虑以前基于(现在撤销的)第一资产的分类的细分而细分的资产的分类。并且如果这种细分被撤销,则另一迭代将会发生。在步骤330,达到稳定状态,使用SRM细分的(或由FECM撤销的)任何资产分类可以可选地在被提交给数据库之前被提供给用户以进行确认。图4示出根据本发明一个实施例的用于细分使用业务术语表中的术语分类的资产的方法400。在一个实施例中,以上讨论的语义细分模块(SRM)可实现方法400。如图中所示,方法400开始于步骤405,在步骤405,SRM识别由数据管理员或其他用户手工分类的资产的数据集(D)。在步骤410,循环开始,其中SRM评估分配给数据集(D)中的每个资产的手工分类以识别用于细分的候选。在步骤415,SRM评估一组条件以确定给定资产是否是用于细分的候选。在特定实施例中,条件包括(i)对于正在考虑的给定资产X,确定是否存在分配给数据集(D)中的另一资产Y的分类,该分类是分配给资产X的分类的子孙,(ii)与使用子孙术语分类的资产中的对应属性相比,资产X的每个属性在本体中处于更低的级别,和(iii)分配给为资产X和Y分配分类的用户的权重的差异超过指定大小。在步骤420,如果这种资产(或多个资产)Y存在于数据集D中,则在步骤425,每个这种资产Y的分类被添加到集合W作为资产X的分类的可能细分。如果没有资产满足步骤415的条件,则方法400返回到步骤410以从数据集D选择另一资产进行评估。
否则,在步骤430,集合中的细分之一被选择作为资产X的细分的分类。例如,在一个实施例中,SRM可按照下面的概率分布,利用来自集合W的可能分类(CMfinJ之一替换资产X的原始分类(Ci)Pr (Crefined) =Count (CMfined)/孩子(Ci)中的所有元素的计数的总和根据概率分布(Pr),资产X的分类的最后细分被选择为为了对术语表中的其它资产分类而由最大数量的用户/管理员手工使用(导致最高Count (Crefined))的(来自集合W的)分类。使用(最高计数的)这种量度提供了最大的证据SRM使用作为用于计算细分的原因的资产分类事实上是能够在最大程度上依赖的分类(可能就存在于术语表中的先前资产分类知识而言),因为许多用户/管理员在先前的手工资产分类期间一致地使用该分类。在步骤430之后,该方法返回到步骤410以从数据集D选择用于评估的另一资产,直至SRM已针对数据集D中的每个资产考虑了可能的细分。作为例子,再次返回到表I,对于资产#1和#2,不满足在方法400的步骤415指定的条件,因为在图6中显示的业务术语表600中不存在属于涂漆SUV或轻涂漆汽车的孩子的任何分类。相比之下,对于资产#3,如下满足在方法400的步骤415指定的条件

涂漆SUV和轻涂漆汽车都是涂漆汽车的孩子 资产#3的每个属性值在图7的本体700中的级别大于资产#1和#2的对应属性值的级别,具体地讲〇浅红至少与浅蓝或蓝色一样深。〇美式SUV至少与美式SUV等一样深。要注意,对于这个例子,假设为资产#1、#2和#3分配分类的用户的权重满足如下条件分配给为资产X和Y分配分类的用户的权重的差异超过指定大小。例如,假设执行资产X的手工分类的用户的权重是0. 2 (组织刚刚雇佣其作为数据管理员并具有〈I年的相关工作经验的某个人)并且执行资产Y的手工分类的用户的权重是1. 0(已在组织中经验>5年的经验丰富的数据管理员)并且所述指定大小(阈值)是0. 5。在这种情况下,差异(0. 2-1. 0=0. 8)超过0. 5。作为满足步骤415的条件的结果,在这个例子中,数据集W包含资产#1和#2的分类。也就是说,W包含涂漆SUV和轻涂漆汽车。在这种情况下,来自业务术语表的这些分类中的每个分类的概率相等(Pr=l/2)。结果,SRM能够把资产#3的分配从涂漆汽车细分为具有相等概率的另两个类别中的任一个(即,SRM能够随机选择一个)。或者,SRM能够存储对资产X的参考,该参考指示资产X是细分的嫌疑对象并且在概率(Pr)例如响应于另外的资产被手工分类并添加到当SRM评估资产#3时的W中的涂漆SUV或轻涂漆汽车的计数而改变以倾向可能的细分变化之一的情况下,能够在以后的迭代之一中被校准。如上所述,一旦SRM细分资产的分类,可评估数据集D以确定其它资产的分类是否应该被撤销(或自己被细分)。另外,业务术语表(和分类的资产)提供具有随着时间发生的把资产分配和重新分配给术语的演进数据集。例如,新的收购可导致获取新的资产和/或导致业务术语表中的新的术语。相反地,子组织的转让能够导致一些资产(和对应的分类)被去除或者术语从业务术语表废止。为了解决演进的数据集和业务术语表,当业务术语表中的基础资产、分类和/或术语改变时,FECM可评估是否撤销由SRM对给定资产做出的细分。例如,图5示出根据本发明一个实施例的用于评估使用图4的方法细分的资产分类的方法500。如图中所示,该方法开始于步骤505,在步骤505,FECM识别在SRM的前一迭代中有助于对另一资产(资产X)的分类的细分的资产(资产Y)是否已被手工重新分类(或者作为资产被一起去除)。作为响应,作为资产Y的分类改变(或资产Y的去除)的结果,FECM调用SRM以确定资产X的细分的分类是否应该被撤销。也就是说,FECM调用SRM以执行使用资产X(利用资产X的原始的、未细分的分类)的方法400的415-430。如果结果是资产X应该保留细分的分类,S卩,如果考虑到资产Y的当前(改变后的)分类(或者不存在资产Y),SRM仍然建议细分资产X的分类,则什么也不改变。也就是说,保留资产X的当前分类(步骤535)。否则,在步骤515,FECM比较分配给对资产Y进行重新分类的用户的权重与最初对资产Y进行分类的用户的权重(即,对资产Y给予导致资产X的分类的细分的分类的用户的权重)。在步骤520,如果对资产Y进行重新分类的用户的权重比最初对资产Y进行分类的用户的权重大出指定阈值,则FECM撤销对资产X的分类的细分。也就是说,如果对资产Y进行重新分类的用户具有足够的可信性,则对资产Y的原始分类可能是存疑的。类似地,基于该原始分类的细分也是存疑的,并且可以被撤销。换句话说,如果对资产Y做出原始分类的用户具有超过对资产Y进行重新分类的用户的权重的权重,则重新分类可能是存疑的,并且作为结果,可保留资产X的细分的分类。在后一情况下,在步骤525,对资产X的分类加标记以在进一步的SRM迭代之后在其它细分和手工分类发生时用于进一步的评估。例如,在一个实施例中,如果保留对X的细分,则FECM可初始化计数器,该计数器在SRM的随后迭代期间发现用于重新分类的更多证据(以上在0052中讨论的重新分类的性质的证据)时按照某一预定义量(例如,0.1)递增。如果在任何迭代期间,证据计数器变得大于阈值(例如,1. 0),则可撤销对资产X做出的细分(步骤530)。或者,在重新评估证据计数器以确定是否细分资产X的分类之前,SRM能够继续迭代固定次数或者在固定时间窗口期间继续迭代。图8示出根据本发明一个实施例的用于提供分类细分工具的示例性计算系统800。如图中所示,服 务器系统800非限制性地包括中央处理单元(CPU)805、网络接口 815、互连820、内存825和存储器830。计算系统800还可包括I/O装置接口 810,I/O装置接口810把I/O装置812 (例如,键盘、显示器和鼠标装置)连接到计算系统800。CPU 805取回并执行存储在内存825中的程序指令。类似地,CPU 205存储并取回驻留在内存825中的应用数据。互连820帮助CPU 805、I/O装置接口 810、存储器830、网络接口 815和内存825之间的诸如程序指令和应用数据的传输。包括CPU 805以代表单个CPU、多个CPU、具有多个处理核的单个CPU等。并且通常包括内存825以代表随机存取存储器。存储器830可以是盘驱动存储装置。虽然显示为单个单元,但存储器830可以是固定和/或可移动存储装置(诸如,固定盘驱动器、软盘驱动器、磁带驱动器、可移动存储卡或光学存储器、网络连接存储器(NAS)或存储区域网络(SAN))的组合。如图中所示,内存825包括分类细分工具110,分类细分工具110自身包括语义细分模块(SRM部件821)、启用反馈的加权校准模块(FECM部件822)和用户接口(U/I)部件823。并且存储器830包括业务术语表831、本体832和一组资产数据/分类833。如上所述,(U/I)部件823可提供允许用户(例如,专门领域专家或数据管理员)把业务术语表831中的术语分配给资产数据833的界面。业务术语表提供在组织内使用的术语(和术语定义)的受控词汇表。另外,当用户对资产进行手工分类时,分类细分工具110可调用SRM部件821以识别是否能够基于其它资产的分类来细分分配给某些资产的分类。如上所述,例如,SRM部件821可识别具有业务术语表831中的子孙分类的也具有本体832中的更一般性的(或同等的)属性的资产。如果是这样,则SRM部件821可把具有不那么具体的分类(但具有更具体的或同等具体的属性)的资产细分至更具体的分类。另外,当资产分类改变、增加新的分类或者从资产数据/分类833去除资产时,FECM部件822可确定有助于由SRM做出的其它资产的细分的任何资产的分类是否已改变。如果已改变,则可撤销对一些资产的细分。也就是说,如果有助于细分的资产的分类改变,则FECM部件822也可评估细分的分类,可能撤销该细分。有益地,本发明的实施例提供用于细分使用业务术语表的术语分类或归类的资产的手工分类的技术。在一个实施例中,语义细分机构用于细分这种资产的手工分类,以及随后评估细分的资产分类。另外,细分的资产分类可用作机器学习分类器的训练集。使用细分的资产分类训练机器学习分类器导致可用于更准确地执行自动资产分类的分类器。这样操作允许数据集更迅速地合并到共同业务术语表中。细分的分类的集合也可由各种业务分析工具用来在各种度量上分析和评估组织。尽管前面涉及本发明的实施例,但在不脱离本发明的基本范围的情况下可想出本发明的其它和另外的实施例,并且本发明的范围由后面的权利要求确定。
权利要求
1.一种用于细分资产分类的计算机实现的方法,该方法包括 接收多个资产,每个资产具有从业务术语表选择的术语的分类,其中业务术语表提供在组织内使用的术语的受控词汇表的层级结构,并且其中每个资产的特征在于使用从领域本体选择的一组属性的数据库记录; 通过一个或多个计算机处理器的操作,针对一组细分准则评估分配给所述多个资产中的每一个资产的分类;以及 细分分配给至少第一资产的分类,其中第一资产满足所述一组细分准则。
2.如权利要求1所述的方法,还包括 存储对第一资产和至少第二资产的参考,其中根据所述一组细分准则,第二资产有助于第一资产的细分。
3.如权利要求2所述的方法,还包括 基于确定第二资产已被重新分类,通过一个或多个计算机处理器的操作,针对所述细分准则重新评估分配给第一资产的细分的分类。
4.如权利要求3所述的方法,还包括 如果第一资产不再满足所述一组细分准则,则撤销分配给第一资产的细分的分类。
5.如权利要求3所述的方法,还包括 比较分配给为第二资产分配分类的用户的权重与分配给对第二资产进行重新分类的用户的权重; 如果为第二资产分配分类的用户的权重超出分配给对第二资产进行重新分类的用户的权重达到指定阈值,则撤销第二资产的细分的分类;以及 如果为第二资产分配分类的用户的权重超出分配给对第二资产进行重新分类的用户的权重未达到指定阈值,则保留第二资产的细分的分类。
6.如权利要求2所述的方法,其中所述第二资产的分类是分配给第一资产的分类的子孙,并且其中相对于本体,第二资产的每个属性具有比第一资产中的对应属性更一般性的值。
7.如权利要求2所述的方法,还包括存储用户上下文,并基于为所述多个资产之一分配分类的每个用户的分配的可信性分配初始加权方案。
8.如权利要求1所述的方法,还包括基于分配给所述多个资产的分类并且还基于分配给第一资产的细分的分类,训练机器学习分类器。
9.一种计算系统,包括 处理器; 存储器,存储构造为执行用于细分资产分类的操作的一个或多个可执行组件,该操作包括 接收多个资产,每个资产具有从业务术语表选择的术语的分类,其中业务术语表提供在组织内使用的术语的受控词汇表的层级结构,并且其中每个资产的特征在于使用从领域本体选择的一组属性的数据库记录; 通过在处理器上执行指令,针对一组细分准则评估分配给所述多个资产中的每一个资产的分类;以及 细分分配给至少第一资产的分类,其中第一资产满足所述一组细分准则。
10.如权利要求9所述的计算系统,其中所述操作还包括 存储对第一资产和至少第二资产的参考,其中根据所述一组细分准则,第二资产有助于第一资产的细分。
11.如权利要求10所述的计算系统,其中所述操作还包括 基于确定第二资产已被重新分类,通过一个或多个计算机处理器的操作,针对所述细分准则重新评估分配给第一资产的细分的分类。
12.如权利要求11所述的计算系统,其中所述操作还包括 如果第一资产不再满足所述一组细分准则,则撤销分配给第一资产的细分的分类。
13.如权利要求11所述的计算系统,其中所述操作还包括 比较分配给为第二资产分配分类的用户的权重与分配给对第二资产进行重新分类的用户的权重; 如果为第二资产分配分类的用户的权重超出分配给对第二资产进行重新分类的用户的权重达到指定阈值,则撤销第二资产的细分的分类;以及 如果为第二资产分配分类的用户的权重超出分配给对第二资产进行重新分类的用户的权重未达到指定阈值,则保留第二资产的细分的分类。
14.如权利要求10所述的计算系统,其中所述第二资产的分类是分配给第一资产的分类的子孙,并且其中相对于本体,第二资产的每个属性具有比第一资产中的对应属性更一般性的值。
15.如权利要求10所述的计算系统,其中所述操作还包括存储用户上下文,并基于为所述多个资产之一分配分类的每个用户的分配的可信性分配初始加权方案。
16.如权利要求9所述的计算系统,其中所述操作还包括基于分配给所述多个资产的分类并且还基于分配给第一资产的细分的分类,训练机器学习分类器。
全文摘要
本发明涉及用于改进信息资产的分类的细分和校准方法和系统。描述了用于细分使用业务术语表的术语分类或归类的资产的手工分类的技术。语义细分机构用于细分这种资产的手工分类,以及随后评估细分的资产分类。另外,细分的资产分类可用作机器学习分类器的训练集。也就是说,如果有助于细分的资产的分类改变,则至少在一些情况下,可撤销基于该分类的细分。
文档编号G06Q10/06GK103034922SQ20121036666
公开日2013年4月10日 申请日期2012年9月28日 优先权日2011年9月30日
发明者S·邦迪, C·K·尚克, C·D·沃尔夫森 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1