在自动模型产生期间检测和创建合适行概念的方法和系统的制作方法

文档序号:10488920阅读:192来源:国知局
在自动模型产生期间检测和创建合适行概念的方法和系统的制作方法
【专利摘要】一种将概念分配到这些组的值的系统和方法。接收数据,其中所述数据被组织作为多个命名字段以及作为与所述命名字段相关联的两组或更多组的值,其中每个命名字段被分配给一类别。对于每个类别,确定是否存在用于该类别的至少一个标识符字段,其中每个标识符字段是用作该类别的标识符的命名字段,并且对于在每个组的值的该类别的标识符字段中具有唯一值的每个类别,标识这些标识符字段,如果有的话。然后选择类别中的一个作为表示各组的值的概念。在一些实施例中,该数据被组织作为表,其中这些命名字段是列,并且这些组的值是行。
【专利说明】
在自动模型产生期间检测和创建合适行概念的方法和系统
技术领域
[0001] 本发明涉及自然语言分析,并且更具体地涉及在数据组中的数据的分类。
【背景技术】
[0002] 将表格式的数据准确地转换为有用的查询模型可能是困难的。通常,需要对数据 的专业建模,并且转换所需要的分析工具通常需要在商务用户之中的不太普遍的培训和专 业性。
[0003] 当然,创建这样的工具存在许多挑战。如果自动建模不反映其表示的数据或知识, 则其可能产生的查询未必有用于回答用户的问题。如果用户的问题不能够被系统解析和理 解,则系统不能够准确地产生查询以回答他们的问题。在过去的50年中,准确的自然语言解 析已经成为计算机科学的分支,并且其仍被认为是在初级发展阶段。
[0004]在传统的分析系统中,存在建模阶段,其中有经验的建模者通常将通过增加得到 的属性,来具体地将各行(如果它们在数据中有意义)暴露为模型中的元素。但是这通过理 解他们正在建模的数据的人来实现,并且花费时间。类似Watson分析的系统具体地去掉建 模步骤,或者至少使其为可选的,以改进用于用户的时间-价值比(time to value)。
[0005] 其它系统通过具体地去掉建模步骤,或者至少使其为可选的,来对建模和自然语 言挑战两者采取更加务实的方法,以便于改善用户的时间-价值比。在一些这样的系统之 下,自然语言分析包括将字与模型中的元素、或分析类型匹配,并且忽略语句中的其它字。 建模也是非常轻型的,产生匹配用户的原始数据的单个表(通常在列式的数据库中),但是 有额外的元数据描述系统认为各个列表示什么。这对于每一列来实现,由于各列包含在分 类系统中的方便查找的标记,以及通常表示列的概念的一组数据值。如此,列自身变为可以 匹配到用户的问题以便于产生答案的查询元素。

【发明内容】

[0006] 根据本发明的实施例,一种方法包括接收数据,其中所述数据被组织作为多个命 名字段以及作为与所述命名字段相关联的两组或更多组的值,其中每个命名字段被分配给 一类别;对于每个类别确定是否存在用于该类别的至少一个标识符字段,其中每个标识符 字段是用作该类别的标识符的命名字段;对于每个类别标识用于所述类别的标识符字段, 如果有的话,所述标识符字段在每组的值的所述类别的标识符字段中具有唯一值;以及选 择所述类别中的一个作为表示各组的值的概念。在一些实施例中,所述数据被组织作为表, 其中所述命名字段是列,并且所述组的值是行。该方法的优点在于对行或其它这样的组的 值的分类可以由系统自动地完成,并且不需要建模者或其它终端用户的干预,从而为用户 产生更好的零建模体验。
[0007] 根据本发明的一个实施例,描述了一种用于商务智能(BI)的比较对等(peer)分析 的计算机程序产品。计算机程序产品包括具有通过其实现的程序代码的计算机可读贮存介 质,所述程序代码可由至少一个处理装置执行以接收数据,其中所述数据被组织作为多个 命名字段以及作为与所述命名字段相关联的两组或更多组的值,其中每个命名字段被分配 给一类别,对于每个类别确定是否存在用于该类别的至少一个标识符字段,其中每个标识 符字段是用作该类别的标识符的命名字段,对于每个类别标识用于所述类别的标识符字 段,如果有的话,所述标识符字段在每组的值的所述类别的标识符字段中具有唯一值,并且 选择所述类别中的一个作为表示各组的值的概念。在一些实施例中,选择包括:选择类别, 所述类别包括在每个组的值的该类别的所述标识符字段中具有唯一值的标识符字段。如上 所述,该方法的优点在于对行或其它这样的组的值的分类可以由系统自动地完成,并且不 需要建模者或其它终端用户的干预,从而为用户产生更好的零建模体验。
[0008] 根据本发明的另一方面,描述了一种系统,所述系统包括网络、商务智能系统和通 过网络连接到商务智能系统的一个或多个计算装置。商务智能系统接收数据,其中所述数 据被组织作为多个命名字段以及作为与所述命名字段相关联的两组或更多组的值,其中每 个命名字段被分配给一类别。商务智能系统包括数据组分析工具,其中所述数据组分析工 具接收所述数据,对于每个类别确定是否存在用于该类别的至少一个标识符字段,其中每 个标识符字段是用作该类别的标识符的命名字段,对于每个类别标识用于所述类别的标识 符字段,如果有的话,所述标识符字段在每组的值的所述类别的标识符字段中具有唯一值, 并且选择所述类别中的一个作为表示各组的值的概念。该方法的优点在于所述系统可以自 动地分类行或其它这样的组的值,并且不需要建模者或其它终端用户的干预,从而为用户 产生更好的零建模体验。
[0009] 根据本发明的又一方面,数据被组织作为表,其中所述命名字段是列,并且所述组 的值是行,并且选择包括:选择类别,所述类别包括在每个组的值的该类别的所述标识符字 段中具有唯一值的标识符字段。该方法是有益的,因为其允许以表格式的数据使用本发明 的一方面。
[0010] 在本发明的另一方面中,选择包括:选择两个或更多字段,所述两个或更多字段当 被组合时、在每个组的值的所述两个或更多字段上具有唯一值。该方法是有益的因为其允 许使用本发明的一方面以基于命名的列的组合来标识行概念。
[0011] 在另一方面中,选择包括:选择两个或更多类别,其中所述类别包括在每个组的值 的每个类别的标识符字段中具有唯一值的标识符字段,分组所选择的类别,并且将所分组 的类别用作表示各组的值的概念。该方法是有益的因为其允许使用本发明的一方面以实现 更具代表性的概念与所述组的值相关联。
【附图说明】
[0012]图1是示例企业商务智能系统;
[0013 ]图2是在图1的系统中标识行概念的示例方法;
[0014]图3A和3B是示例数据组;
[0015] 图4是标识在图1的系统中的行概念的另一示例方法;
[0016] 图5是另一示例数据组;以及 [0017]图6示出了示例计算系统。
【具体实施方式】
[0018] 如上所述,到目前为止的系统具有有限的能力来将表转化为能够被用于回应查询 的形式。取代从客户的数据产生多个表的数据贮存,而是产生匹配用户的原始数据的单个 表(通常在列式的数据库中),但是有额外的元数据描述系统认为各个列表示什么。
[0019] 在一些实施例中,这对每一列来实现,由于所述列包含在分类系统中方便查找的 标记、以及通常表示列的概念的一组数据值。如此,列自身变为可以匹配到用户的问题以便 于产生答案的查询元素。
[0020] 可惜,列不是数据组中具有意义的唯一元素。而是,列通常表示某物的属性(诸如 年龄、性别或工资),行表示该物的实例(诸如人1或人2)。尽管人类通常直观地理解该行对 于给定数据组表示什么,但是软件系统难以将其分类并且将其暴露为查询元素。这部分上 是因为所述行不包含可以在分类工具中查找的任何标记或标识符。此外,行表示描述所述 实例的(对每一列的)值的集合,但是在行中的每个值通常是完全不同的类型。如此,由于系 统不能准确地分类它们,所以行不被分类为自动产生的模型中的可查询的元素的部分。如 果用户确实需要它们,他们必须通过增加行标识符作为单独的列来编辑原始数据组,然后 重新导入数据组,这导致较不理想的体验。
[0021] 图1示出了企业商务智能系统14的一个示例实施例,该企业商务智能系统14接收 表格式的数据并且确定表示表格式的数据的行的概念。在一个这样的实施例中,表格式的 数据被表达为具有行和列的表,其中列定义表中的数据,并且行表示特定的数据项的记录。 在一个这样的实施例中,所述列已经被分配给类别。
[0022] 在传统的分析系统中,存在建模阶段,其中有经验的建模者通常将通过增加导出 的(derived)属性来具体地将所述行(如果它们在数据中有意义)暴露为模型中的元素。但 是,这通过理解他们正在建模的数据的人来实现。该建模步骤花费时间。类似图1中示出的 系统的系统14去掉建模步骤,或者至少使其为可选的,以改进用于用户的时间-价值比。
[0023] 在一个实施例中,系统14接收表格式的数据,并且标识唯一地标识的类别。唯一地 标识的类别包括唯一地标识该类别的一个或多个属性。然后,系统14消除对类别中的每一 行不具有唯一值的任何唯一地标识的类别,并且选择剩余的唯一地标识的类别中的一个作 为表示所述行的概念。
[0024] 在一个示例实施例中,分析由系统14接收的表格式的数据,并且在浏览这些类别 以确定表示该表的行的概念之前将这些列放置到类别中。
[0025] 图1是示出具有其中多个用户12A-12N(共同称为"用户12")可能与企业商务智能 (BI)系统14交互的计算环境10的示例企业4的框图。在图1示出的系统中,企业商务智能系 统14通过企业网络18可通信地耦接到多个客户端计算装置16A-16N(共同称为"客户端计算 装置16"或"计算装置16")。用户12与它们各自的计算装置交互以访问企业商务智能系统 14。在不同的示例中,用户12、计算装置16A-16N、企业网络18和企业商务智能系统14可能全 部在单个设施中或者广泛地分布在世界上任何的两个或更多单独的位置中。
[0026] 为了示例性的目的,本公开的技术的各种示例可以容易地应用到各种软件系统, 该软件系统包括企业商务智能系统或其它大型企业软件系统。企业软件系统的示例包括企 业财务或预算规划系统、订单管理系统、库存管理系统、销售人员管理系统、商务智能工具、 企业报告工具、项目和资源管理系统和其它企业软件系统。
[0027]在该示例中,企业BI系统14包括运行BI仪表盘web应用的服务器,并且可以提供商 务分析软件。用户12可以使用在客户端计算装置16上的BI端口以通过他们各自的计算装置 16查看并操作信息,该信息诸如商务智能报告("BI报告")和其它数据的集合和可视化 (visualization)。这可以包括来自多种多样的来源的任一个的数据,包括来自企业4中的 多维数据结构和相关数据库,以及来自通过共用网络15可访问的多个外部来源的数据。 [0028]用户12可以使用多种不同类型的计算装置16以与企业商务智能系统14交互,并且 通过企业网络18访问数据可视化工具和其它资源。例如,企业用户12可以使用膝上型计算 机、桌上型计算机等与企业商务智能系统14交互,并且运行商务智能(BI)端口(例如,商务 智能仪表盘等),该膝上型计算机、桌上型计算机等可以运行web浏览器。或者,企业用户可 以使用智能电话、平板计算机或类似装置,在web浏览器中或在用于与企业商务智能系统14 交互的专用的移动应用中运行商务智能仪表盘。
[0029] 企业网络18和共用网络15可以表示任何通信网络,并且可以包括诸如私用企业内 部网的基于分组的数字网络或类似因特网的共用网络。以此方式,计算环境10可以容易地 放大到适合于大型企业。企业用户12可以通过局域网直接地访问企业商务智能系统14,或 可以通过虚拟专用网、远程拨号或类似的远程访问通信机制远程地访问企业商务智能系统 14〇
[0030] 根据本公开的方面,企业商务智能系统14可以接收自然语言查询。商务智能系统 14可以基于自然语言查询确定一组检索条件。商务智能系统14可以至少部分基于该组检索 条件和多个数据组的属性之间的匹配,从贮存在一个或多个贮存器装置中的多个数据组确 定与自然语言查询有关的一个或多个数据组。
[0031 ]图2示出了在图1的系统中标识行概念的示例方法。在图2的示例实施例中,系统14 试图基于在数据组中的列的现有分类来辨别数据组的行的特性(nature)。然后,系统14用 一组产生的行id将新得到的列增加到数据组,但是将其与其找到的代表行的概念相关联。 仅增加额外的列是容易的,但是如果不能适当地分类该列使得其能够联系到适当问题,则 该列是无用的。该方法的价值在于,其允许分类由系统自动地完成,并且不需要建模者或其 它终端用户干预,从而为用户产生更好的零建模体验。
[0032] 在一个实施例中,工具被用于基于它们的标记,并且在一些情况中,基于在列中的 该数据的采样来分类这些列。在一些这样的实施例中,这些工具也会通过标识基础层级和 类别-属性关联来进行列的非常轻型的分组。一个这样的工具在于2013年3月15日提交的美 国专利申请No. 13/844,612中被描述,该专利申请描述将具有标头的数据项分类为类别的 方法,包括标识与数据项标头相关联的词汇线索,并且基于商务本体论将数据项标头映射 到概念。这些描述通过引用结合于此。
[0033] 但是,这样的工具仅在数据组中分类列,并且不推断数据组的行的意义。相反,系 统14确定在表格式的数据组中的每一行的属性。在一些实施例中,这涉及将另一列增加到 数据组以捕捉得到的属性。在一些这样的实施例中,这进一步不仅涉及标识归属于该行的 意义,并且还涉及确定是否增加列以捕捉得到的属性,使得得到的属性则可以与问题术语 匹配,或者在产品的界面中被有意义地标记。
[0034] 在下面示出的示例中,数据组被示出为具有命名的列和未命名的行的表格式的数 据。应该清楚的是,还构思其它数据组。基本上,系统14可以分析包括数据的任何数据组,该 数据被组织作为多个命名字段(这里,列)以及与命名字段相关联的两组或更多组的值(这 里,行)。在一些实施例中,数据组包括详述每个命名字段被如何分配到一类别的信息。
[0035]在一个示例实施例中,如在图2中所示,在30处,系统14对于每个类别确定是否存 在用于该类别的至少一个标识符字段,其中每个标识符字段是用作该类别的标识符的命名 字段。如果没有,控制移动到36,并且系统14选择类别中的一个以用作表示各组的值的概 念。否则,控制移动到32。
[0036]在32处,系统14对于每个类别标识用于该类别的标识符字段,如果有的话,该标识 符字段在每组的值的该类别的标识符字段中具有唯一值。如果是,控制移动到34,并且在34 处,系统14选择具有唯一的标识符字段的类别中的一个或多个作为表示各组的值的概念。 否则,控制移动到36。
[0037]在图3A中示出了示例数据组。在图3A中示出的示例中,数据组40是美国人时间使 用调查(American Time Use Survey)的子集。它包含关于人们通常如何使用他们的时间的 信息。术语"人"或"人们"没有出现在数据组中。但是,由于人直观地知道如果是关于人们如 何使用他们的时间的数据组,他们将知道每一行表示对该调查的一个回应者(或一人)。 [0038]在一个实验中,外部方提交了被指向数据组的一组问题。大约20 %的问题包含字 "人"或"人们",因为问这样的问题是自然的。但是,为了通过计算机正确地回答这样的问 题,需要额外的信息。在一个实施例中,如在图3B中示出的,系统14在数据组模型中增加行 级别元素,该行级别元素正确地将该组的值标为表示人。然后,它可以将该元素链接回该问 题,并且产生答案。在将值的列与描述性概念相关联之前,系统14不能够回答有人或人们的 任何问题,因为该项就是不在模型中。因此,系统14就是不能够产生其可用以回答该问题的 查询元素的任何合理的组合。
[0039]如在图3B中示出的,系统14修改数据组40以增加表示"人"的概念的新得到的列 44。新数据组42包括列44(一组产生的行ID),并且将其与其找到的表示行的概念相关联。仅 增加额外的列是容易的,但是如果不能适当地分类该列使得其能够联系到适当问题,则该 列是无用的。上述方法的价值在于其允许分类由系统14自动地完成,并且不需要建模者或 其它终端用户干预。结果是用户的更好的体验。
[0040] 在图4中示出用从命名字段得到的信息来标记诸如行的各组的值的方法的更详细 的示例实施例。在图4的示例实施例中,在30处标识类别。在一些实施例中,通过诸如在于 2013年3月15日提交的美国专利申请No. 13/844,612中描述的工具来对列进行归类。
[0041] 在50处,系统14将命名字段与类别相关联。在一个实施例中,当在数据组中的各个 列确实表示分类的概念的属性,系统14将在数据组中的列分类并且根据其本体论来标识词 汇线索(lexical clue)。
[0042] 在图3A示出的数据组中,命名字段包括:
[0043] 年龄
[0044] 性别
[0045] 雇佣状态
[0046] 教育水平
[0047] 年
[0048] 月
[0049] 城市
[0050] 每周工作的小时
[0051 ] 每周睡觉的小时
[0052] 每周吃饭的小时
[0053]每周锻炼的小时 [0054] 每周娱乐的小时
[0055]在一个示例实施例中,如在图4中的50处所示,系统14将命名字段分类并且分组 为:
[0056]人(类别-cPerson)
[0057]年龄(属性-cAge)
[0058]性别(属性-cGender)
[0059]雇佣状态(属性 cEmployment)
[0060]教育水平(属性-cEducation)
[0061]日期(类别-cDate)
[0062] 年(属性-cYear)
[0063] 月(属性-cMonth)
[0064] 日(属性-cDay)
[0065] 城市(属性-cLocation)
[0066] 每周工作的小时(度量-cDuration)
[0067] 每周睡觉的小时(度量-cDuration)
[0068] 每周吃饭的小时(度量-cDuration)
[0069] 每周锻炼的小时(度量-cDura t i on)
[0070] 每周娱乐的小时(度量-cDuration)
[0071] 如上所示,系统14将人的属性分组,确认这些都是人的代表(使用其本体论),并且 在模型中增加分类的分组以将那些属性分组在一起。重要的是要注意,尽管这些被分组在 人之下,但是人不能够被用在查询中,因为在数据组中没有相关联的列以用来运行查询(除 非系统14可以将项之一标识为属性"人"的标识符,其在此处不是这样的情况)。
[0072] 在该示例实施例中,该分组机制仅帮助系统14理解在其下的属性是相关联的。此 外,系统14能够对年、月和日(并且可能从它们创建层级)做相同的处理。事实上,可以在典 型的数据组的该组列中标识许多这样的分组。(该示例是极为简单的)。
[0073]但是,如果有人查看以上模型,还是无法看出行表示什么。数据组仍只是一组属 性,该数据组的少数已经被分组为类别和某种测度(measure)。
[0074] 在52处,系统12开始施加一组消除步骤,以移除噪声并且集中在用于标识行的底 层概念的重要属性上。首先,在52处,系统14在每个类别中标识是否存在唯一地标识该类别 的属性(或组合)。在一些示例实施例(诸如Wat son分析)中,本体论知识基础(在该情况中, 在SMD中)具有该知识并且可以被使用。例如,在该情况中人(Per son)在数据组40中不具有 这样的属性,因为其相关联的每一个属性不能够唯一地标识人。但是,属性年/月/日唯一地 标识日期类别。
[0075] 接着,在54处,消除具有唯一的标识符、但是对于每一个不具有唯一值的任何类 另IJ。在图3A的示例数据组中,属性"城市"在其自己的类别中并且被消除,因为在数据组40中 不存在对于每一行的唯一值。如果没有类别保留,转到60。系统14现在应该仅留下了对于每 一行具有唯一值的类别和单个属性。
[0076]在一些示例实施例中,在52处的检查消除具有唯一的标识符属性(或属性组)、但 是对于每一个(或组合)不具有唯一值的任何类别。在该情况中,年/月/日组合将不是唯一 的,因此日期以及年/月/日被消除考虑。
[0077]在图3a中示出的示例中,但是,在52处的检查处,留下了一个剩余的类别一一 "人"。控制移动到54,在54处作出检查,以确定是否剩余了具有唯一地标识该类别的属性并 且对于该组值中的每个条目具有唯一值的多于一个的类别。如果不是(如在该示例中),控 制移动到56,并且类别"人"被检查其的标识符字段(在该示例中不存在标识符字段)。然后, 控制移动到64,其中创建唯一的标识符字段(如在图3B中示出的在数据组42中的人标识符 44)并且然后在58处使用。
[0078] 如果,在56处,存在剩余的具有唯一地标识该类别的属性并且对于该组值中的每 个条目具有唯一值的多于一个的类别,控制移动到62,并且检查剩余的类别以查看它们是 否可以被分组或应该组合到更高级别的概念中。在一个这样的实施例中,使用剩余的类别, 系统14迭代地向上移动到本体论以查看是否其可以进一步将这些分组到共同的分组中。 (该示例不存在该情况,因为所剩余的只有cPer S〇n(C人),但是参见下面的该图5的电影数 据组的该情况的示例)。这样的方法可以允许我们找到更加一般的概念,该更加一般的概念 包括被留下的可以被用作行级别概念的所有或大部分的概念,然后可以使用该行级别概 念。然后,控制移动到64,其中对该分组或更高级别的概念创建唯一的标识符,并且然后在 58处使用。
[0079] 在60处,作出检查以确定是否存在类别的子集,该类别的子集当被结合在一起时 对于每个组的值是唯一的。在图3a中示出的示例中,日期和城市的组合提供这样的唯一的 一组值。在52处没有类别幸存的事件中,在图3A的示例实施例中的日期和城市的组合可以 用作为可能的概念。控制然后移动到62,其中检查类别的组合以查看其是否可以被分组或 者应该被组合到更高级别的概念中。控制然后移动到64,其中创建唯一的标识符以用于该 分组或更高级别的概念,并且然后在58处使用。
[0080] 如果,在56或62处,系统14留下了单个概念,则其已经找到表示行的概念。如果没 有找到概念,则行不可能是表示在当数据组包含的聚合的数据时成立的任何事物,或者可 以表示概念的组合(例如用于天气数据的城市和日期)。这是没有问题的,因为针对这些数 据组问行级别问题是没有意义的。
[0081 ]但是,如果系统14已经标识出可以与行相关联的唯一的概念,则系统14可以有意 义地将行与包含该概念的问题相关联。因此,在56处作出检查以查看与该类别(或如在62处 的一组类别)相关联的一个属性是否表示用于该类别的标识符。如果是的,系统14不需要再 继续进行,因为它已经找到表示该行的适当列。它可以简单地将所找到的概念与在模型中 的该标识符列相关联。
[0082]如在上面的图4的讨论中提及的,如果当在56处检查时,系统14没有标识符列,则 它可以创建一个,将其与模型中的适当类别相关联,并且附上适当概念。现在,其将可用作 系统中的可选择的查询项,以及可用于匹配到自然语言问题两者。系统14可以安全地这样 做,因为它已经确定该类别表示这些行,所以唯一的标识符将表示该类别的唯一的行标识 符实例。一般来说这样做是不安全的,因为不表示行的类别不可能在各行上是唯一的,并且 将唯一的行级别标识符增加到该类别将产生对问题的错误回答。例如,在上面的情况中,有 多少人应该返回与多少行相同的数量的结果,但是城市数则不然,因为每一行不表示唯一 的城市。因为此,需要成功地确定在数据组系统14中的哪个类别可以创建唯一的id。
[0083] 如在图3B中所示的,在图3A的该实例数据组中产生的模型将是:
[0084] 人(类别-cPerson)
[0085]年龄(属性-cAge)
[0086]性别(属性-cGender)
[0087]雇佣状态(属性-cEmployment)
[0088] 教育水平(属性-cEducation)
[0089] 人(属性-cldentif ier)
[0090]日期(类别-cDate)
[0091 ]年(属性-cYear)
[0092] 月(属性-cMonth)
[0093] 日(属性-cDay)
[0094] 城市(属性-cLocation)
[0095] 每周工作的小时(度量-cDuration)
[0096] 每周睡觉的小时(度量-cDuration)
[0097] 每周吃饭的小时(度量-cDuration)
[0098] 每周锻炼的小时(度量-cDura t i on)
[0099] 每周娱乐的小时(度量-cDuration)
[0?00] 注意增加的模型项,其标识人(cldentifer-cPerson)并且将对于数据组的每一行 来说是唯一的。
[0101]正是上述这些步骤允许我们以巧妙的方式确定向模型增加什么以使得可以适当 地并且用适当概念来使用行。在该情况中,在人的列中的实际数据将可能是随机的唯一的 关键字,或者如在图3B中示出的,仅是行Id( r〇wId)索引。但是,它仍可以被有意义地投射在 可视化中,因为它将允许我们对每个人绘制单独的数据点,并且正确地标记可视化的轴。
[0102] 在一个实施例中,在52处进行检查之前,移除测量。因为测量表示属性的数值测 量,它们测量行的一些方面,但是不标识该行是什么。分类的属性将该行归类,并且从而更 加有用于标识该行是什么。因此,系统14消除对测量的考虑。
[0103] 随着大数据的革新,从数据组中得到概念的能力是最重要的,以使人们能够成功 地分析。目前,数据分析的供应商正在艰难应对翻译不同数据组以允许即时分析。在许多情 况中,必须增加一些手动的/人为的步骤以包括例如额外的列。这花费时间,并且通过上述 方法,系统14能够从数据组中得到人为概念。
[0104] 该方法的优点在于,得到了在数据组中没有明确地示出的语义的概念,并且将其 增加到数据组,所以其它机制可以使用该信息以分析数据组,而没有或者显著地减少人为 的干预的量。
[0105] 在图5中示出另一实例数据组。在图5的示例数据组70中,系统14标识概念,该概念 包括名称(title)、年、季、制片厂(Studio)、风格、以及票房平均、预算、利润。为了帮助减少 在一般化处理中的潜在匹配,将首先排除任何通用的概念。在以上实例中,年、季以及预算 和利润将不是选择的部分。注意,在一些实施例中,该选择和一般化处理是迭代的,并且可 以应用多次以便于细化结果。在该处理的第一次迭代中,系统14也将排除任何度量概念,因 为类别概念对于在数据组中的详细行数据通常更具代表性的。度量概念在之后的迭代中将 被用作细化概念。
[0106] 因此,概念的第一选择是名称、制片厂和风格。在第二一般化步骤期间,这些概念 将被用于在外部本体论数据库中搜索以寻找所有这些标识的概念与其相关联的更高级别 的概念。作为简单的实例,外部本体论数据库可以由于以下的关系,来返回视频游戏概念作 为潜在的候选:
[0107] 视频游戏具有名称。
[0108] 视频游戏由制片厂发布。
[0109] 视频游戏具有风格。
[0110] 具有类似关系的其它潜在的候选可以包括影片和电视节目。由于目标是标识一个 代表性的概念以描述具体的行级别数据,这些候选需要被进一步缩小。作为迭代的处理,从 数据组标识的更多的概念可以被用于细化该搜索结果。诸如预算和利润的通用概念对于不 同类型的数据是共同的,所以系统14在下一个细化迭代中选择更加具体的概念。在该情况 中,差评(Rotten Tomatoes,烂番前评分)%和票房平均被选中以进一步细化概念。在三个 候选之中,仅有概念影片(Film)与这些两个额外的概念具有额外的关系。作为最终的结果, 影片概念可以被用于描述用于该数据组的详细行级别数据。
[0111] 在以上示例中,使用额外的概念足以将概念细化到单个。在额外的概念不足以缩 小结果的情况中,可以从原始数据组中拿出采样数据,并且采样数据用于从这些候选概念 的实例中查找。例如,来自名称列的采样值可以被用于与来自视频游戏、影片和电视节目的 实例交叉引用。如果任何这些概念包含这样的实例,则其可以被用作细化该结果的证据。
[0112] 此外,如果以上两个细化处理仍不能够给出单个相对有信心的概念以描述数据 组,我们可以使用来自本体论的家世(世系)信息以寻找所有候选概念的共同根源。在以上 实例中,影片、电视节目和视频游戏的共同根源可以是通用概念一一艺术作品。
[0113]该处理的最后的步骤是对原始数据组验证,并且最终化该结果。在以上给出的实 例中,该处理将影片标识为表示数据组的行的最佳概念。但是,该数据组的主关键字、名称 列也是影片概念的主要属性。在该情况中,系统14可以选择名称列来表示影片概念。为了防 止数据组不包含可以被用于表示标识的概念的主关键字的列的情况,可以人为地创建并且 使用行ID列。其它验证可以包括将来自外部本体论的概念的实例与在原始数据组中存在的 交叉引用以进一步确认结果。
[0114] 在一个实例实施例中,在没有类别包含标识符字段的事件中,系统14选择两个或 更多字段,其中字段的组合是这些组的值的唯一表示。
[0115] 在一个实例实施例中,在一个类别包含标识符字段、并且该标识符字段中的一个 对每个组的值具有唯一值的事件中,系统14使用该类别作为概念。
[0116] 在一个实例实施例中,在类别具有两个或更多标识符字段、并且没有一个标识符 字段对每个组的值具有唯一值、但是当被组合时在该类别中的两个或更多的标识符字段在 所有组的值上具有唯一值的事件中,系统14使用该类别作为概念。
[0117] 在一个实例实施例中,在两个或更多类别(例如,类别B)具有标识符字段并且仅有 一个标识符字段对每个组的值具有唯一值的事件中:使用类别B作为概念。
[0118] 在一个实例实施例中,在两个或更多类别(例如,类别B和C)具有标识符字段并且 两个或更多标识符字段对每个组的值具有唯一值的事件中:组合包含具有唯一值的标识符 字段的所有类别(例如,B和C)并且用作概念。(情况4是5的子集)
[0119] 在一个实例实施例中,在两个或更多类别具有标识符字段、没有标识符字段在所 有组的值上具有唯一值,但是当组合被时在不同的类别(例如,类别A和C)中的两个或更多 标识符字段在所有组的值上具有唯一值的事件中:使用组合的A和C作为概念。
[0120] 在一个实例实施例中,在一个或多个类别没有标识符字段、而两个或更多类别具 有标识符字段、但是没有标识符字段在所有组的值上具有唯一值、并且当被组合时两个或 更多标识符字段中没有一个在所有组的值上具有唯一值的事件中:使用不具有标识符字段 的一个或多个类别作为概念。
[0121] 图6是根据示意性示例的可以被用于执行数据组分析工具22的计算装置80的框 图。计算装置80例如可以是服务器。计算装置80也可以是用于提供企业商务智能应用的任 何服务器,包括虚拟服务器,该服务器可以从任何数量的计算装置运行或者结合任何数量 的计算装置。计算装置可以作为实际的或虚拟服务器的全部或者部分而操作,并且可以是 或者可以结合工作站、服务器、大型主机计算机、笔记本型或膝上型计算机、桌上型计算机、 平板、智能电话、功能电话或其它任何类型的可编程数据处理设备。计算装置80的其它实现 方式可以包括具有除了或者超越这里所述的功能或者格式的计算机。
[0122] 在图6的示意性实例中,计算装置80包括通信结构82,该通信结构82提供处理器单 元84、存储器86、持久性数据贮存器88、通信单元90和输入/输出(I/O)单元92之间的通信。 通信结构82可以包括专用系统总线、通用系统总线、布置为分级形式的多个总线、任何其它 类型的总线、总线网络、交换结构或其它互联技术。通信结构82支持在计算装置80的子系统 之间的数据、命令和其它信息的转移。
[0123] 处理器单元84可以是被配置为执行贮存在存储器86中的编程的指令的可编程中 央处理器(CPU)。在另外的示意性实例中,处理器单元84可以使用其中主处理器与次级处理 器出现在单个芯片上的一个或多个异构的处理器系统来实现。在又一示意性实例中,处理 器单元84可以是包含多个相同类型的处理器的对称的多处理器系统。
[0124] 处理器单元84可以是精简指令集计算(RISC)微处理器一一诸如来自IBM?.公司 的PowerPC?处理器、χ86可兼容处理器--诸如来自Intel?公司的Pentium?处理器、 来自超微半导体?公司的Ath|011?处理器或任何其它合适的处理器。在各种实例中,处理 器单元84例如可以包括多核处理器一一诸如双核或四核处理器。例如,处理器单元84可以 包括在一个裸芯上的多处理芯片、和/或在一个封装或衬底上的多个裸芯。处理器单元84例 如还可以包括一个或多个级的集成的缓存存储器。在各种实例中,处理器单元84可以包括 分布在一个或多个位置上的一个或多个CPU。
[0125] 数据贮存器96包括存储器86和持久性数据贮存器88,其通过通信结构82与处理器 单元84通信。存储器86可以包括用于贮存应用数据的随机存取半导体存储器(RAM),该应用 数据即用于处理的计算机程序数据。尽管存储器86被概念性地描述为单个单片实体,但是, 在各种实例中,存储器86可以被布置在缓存的层级中和其他存储器装置中、在单个物理位 置中或者以各种形式分布在多个物理系统上。尽管存储器86被物理地描述为与处理器单元 84和计算装置80的其它元素分离,存储器86可以等同地指代在遍历计算装置80的任何位置 处的任何中间或缓存存储器,包括靠近处理器单元84或者处理器单元84的独立的核的、或 与处理器单元84或者处理器单元84的独立的核集成的缓存存储器。
[0126] 持久性数据贮存器88可以包括一个或多个硬盘驱动、固态驱动、闪速驱动、可重写 的光盘驱动、磁盘驱动或者这些或其它数据贮存器介质的任何组合。持久性数据贮存器88 可以贮存用于操作系统的计算机可执行的指令或计算机可读程序代码、包含程序代码的应 用文件、数据结构或数据文件和任何其它类型的数据。这些计算机可执行的指令可以从持 久性数据贮存器88被加载到存储器86中以将由处理器单元84或其它处理器读取和执行。数 据贮存器96还可以包括能够贮存信息的临时的和/或永久的任何其它硬件元素,诸如,例如 并且不是限制性的,数据、功能性形式的程序代码和/或其它合适的信息。
[0127] 持久性数据贮存器88和存储器86是物理的、有形的非瞬时性计算机可读数据贮存 器装置的实例。数据贮存器96可以包括可能需要被周期性地电刷新以在存储器中保持数据 的任何各种形式的易失性存储器,而本领域技术人员应认识到,这也构成物理的、有形的非 瞬时性计算机可读数据贮存器装置的实例。当程序代码在非瞬时性物理介质或装置上被加 载、贮存、中继、缓冲或缓存时,可执行的指令可以贮存在非瞬时性介质上,包括仅当只有短 持续时间或者只以易失性存储器形式的情况。
[0128] 如在之前详细描述的,处理器单元84还可以被适当地编程以读取、加载和执行用 于数据组分析工具22的计算机可执行的指令或计算机可读程序代码。该程序代码可以贮存 在存储器86、持久性数据贮存器88或计算装置80中的其它地方上。该程序代码也可以采用 贮存在包含在计算机程序产品100中的计算机可读介质102上的程序代码104的形式,并且 可以通过任何的多种本地或远程的方式被从计算机程序产品100转移或通信到计算装置 80,以能够由处理器单元84执行,如在下面进一步解释的。
[0129] 操作系统可以提供功能一一诸如装置接口管理、存储器管理和多任务管理。操作 系统可以是基于Unix的操作系统一一诸如来自IBM?公司的AIX?操作系统、基于非 Un i X的操作系统--诸如来自微软?公司的Windows.?系列的操作系统、网络操作系 统一一诸如来自甲骨文⑩公司的JavaOS?、或者任何其它合适的操作系统。处理器单元84 可以被适当地编程以读取、加载和执行操作系统的指令。
[0130]在该实例中,通信单元90,提供与其它计算或通信系统或装置的通信。通信单元90 可以通过使用物理和/或无线通信链接提供通信。通信单元90可以包括用于与LAN 16接口 的网络接口卡、以太网适配器、令牌环(Token Ring)适配器、用于连接到诸如电话线的传输 系统的调制解调器或任何其它类型的通信接口。通信单元90可以被用于可操作地将许多类 型的外围计算装置连接到计算装置80,该外围设备诸如打印机、总线适配器和其它计算机。 通信单元90例如可以被实现为扩展卡或被建造在主板中。
[0131]输入/输出单元92可以用可以连接到计算装置80的其它装置来支持适合于输入和 输出数据的装置,诸如键盘、鼠标或其它指示器、触摸屏接口、用于打印机或任何其它外围 装置的接口、可拆卸磁或光盘驱动(包括CD_R〇M、DVD-ROM或Blu-Ray )、通用串行总线(USB) 插座或任何其它类型的输入和/或输出装置。在各种示例中,输入/输出单元92还可以包括 用于以任何类型的视频输出协议和任何类型的显示器或其它视频显示技术视频输出的任 何类型的接口。应理解的是,这些示例的一些可能相互重叠,或者与通信单元90或数据贮存 器96的示例组件重叠。输入/输出单元92还可以包括用于任何类型的外部装置的适当装置 驱动器,或者这样的装置驱动器可以适当位于计算装置80上的其它地方。
[0132] 在该示意性实例中,计算装置80还包括显示适配器94,其提供用于诸如显示装置 98的一个或多个显示装置的一个或多个连接,该显示装置98可以包括任何多种类型的显示 装置。应理解的是,这些示例的一些可以与通信单元90或输入/输出单元92的示例组件重 叠。输入/输出单元92还可以包括用于任何类型的外部装置的适当装置驱动器,或者这样的 装置驱动器可以适当位于计算装置80上的其它地方。在各种实例中,显示适配器94可以包 括一个或多个视频卡、一个或多个图形处理单元(GPU)、一个或多个可视频的连接端口或能 够通信视频数据的任何其它类型的数据连接器。在各种实例中,显示装置98可以是任何类 型的视频显示装置,诸如显示器、电视或投影仪。
[0133] 输入/输出单元92可以包括用于接收计算机程序产品100的驱动、插口或输出口, 该计算机程序产品100包括具有贮存在其上的计算机程序代码104的计算机可读介质102。 例如,作为示意性实例,计算机程序产品100可以是CD_R〇M、DVD-ROM、蓝光盘、磁盘、USB条、 闪速驱动或外部硬盘驱动或任何其它合适的数据贮存器技术。
[0134] 计算机可读介质102可以包括任何类型的光的、磁的或其它物理介质,该介质在存 储器的每个单元中将程序代码104物理地编码为不同的物理状态的二进制序列,当由计算 装置80读取该序列时,该二进制序列引入由对应于贮存介质102的基础数据贮存器元素的 物理状态的处理器84读取的物理信号,并且引入处理器单元84的物理状态的相应改变。该 物理程序代码信号可以以任何的各种程度的抽象而被模型化或概念化为计算机可读指令, 诸如高级编程语言、汇编语言或机器语言,但是最终组成物理地引起处理器单元84的物理 状态改变的一系列物理的电和/或磁交互,从而以使得计算装置80物理地承担在通过加载 包含在程序代码104中的可执行的指令改变其物理状态之前所没有的新功能的方式,物理 地导致或者配置处理器单元84产生对应于计算机可执行的指令的物理输出。
[0135] 在一些示意性实例中,可以在网络上将程序代码104从计算装置80中使用的另外 装置或计算机系统下载到数据贮存器96。包含计算机可执行的指令的程序代码104可以通 过链接到通信单元90的低损耗电缆或无线通信、和/或到输入/输出单元92的连接而从计算 机可读介质102通信到或转移到计算装置80。包含程序代码104的计算机可读介质102可以 位于与计算装置分离的或远程的位置,并且可以位于任何地方,包括世界上任何地方的任 何远程地理位置处,并且可以通过诸如因特网和/或其它分组数据网络的任何类型的一个 或多个通信链接将程序代码104中继到计算装置80。程序代码104例如可以通过无线因特网 连接或通过短程直接无线连接(诸如无线LAN、蓝牙?、Wi-Fi?或红外连接)发送。任何其它 无线或远程通信协议也可以在其它实现方式中使用。
[0136] 在各种示意性实例中,通信链接和/或连接可以包括有线和/或无线连接,并且程 序代码104可以在非有形的介质上从源计算机可读介质102被发送,该非有形的介质诸如包 含程序代码104的通信链接或无线传输。程序代码104可以或多或少地暂时地或者经久地贮 存在任何数量的中间有形的、物理计算机可读装置和介质上,该装置和介质诸如任何数量 的物理缓冲器、缓存器、主存储器、或服务器、网关、网络节点、移动性管理实体的数据贮存 器组件、或从其原始源介质到计算装置80的途中的其它网络资产。
[0137] 本发明可以是一种系统、方法和/或计算机程序产品。计算机程序产品可以包括计 算机可读贮存介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指 令。
[0138] 计算机可读贮存介质可以是可以保持和存储由指令执行设备使用的指令的有形 设备。计算机可读贮存介质例如可以是一一但不限于一一电存储设备、磁存储设备、光存储 设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读贮存介质的 更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存 储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式 压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上 存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算 机可读贮存介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通 过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输 的电信号。
[0139] 这里所描述的计算机可读程序指令可以从计算机可读贮存介质下载到各个计算/ 处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外 部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关 计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计 算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计 算机可读贮存介质中。
[0140] 用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、 机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的 任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言一诸如 Smalltalk、C++等,以及常规的过程式编程语言一诸如"C"语言或类似的编程语言。计算机 可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独 立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机 或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络一包 括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利 用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令 的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可 编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方 面。
[0141] 这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/ 或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/ 或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0142] 这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据 处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据 处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功 能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读贮存介质中,这些指 令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的 计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中 规定的功能/动作的各个方面的指令。
[0143] 也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它 设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产 生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的 指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0144] 附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程 序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代 表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于 实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可 以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行, 它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流 程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作 的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现
[0145] 为了说明的目的已经呈现了对本发明的各种实施例的说明,但是不意欲是穷举性 的或者限制所公开的实施例。对本领域普通技术人员来说,在不脱离该实施例的范围和精 神的情况下,许多修改和变化是显而易见的。这里所使用的术语被选中以最佳地解释实施 例的原理、实际应用或相比于在市场上能够找到的技术的技术性的改善或者使得本领域的 其它技术人员理解这里所公开的实施例。
【主权项】
1. 一种方法,包括: 接收数据,其中所述数据被组织作为多个命名字段以及作为与所述命名字段相关联的 两组或更多组的值,其中每个命名字段被分配给一类别; 对于每个类别确定是否存在用于该类别的至少一个标识符字段,其中每个标识符字段 是用作该类别的标识符的命名字段; 对于每个类别标识用于所述类别的标识符字段,如果有的话,所述标识符字段在每组 的值的所述类别的标识符字段中具有唯一值;以及 选择所述类别中的一个作为表示各组的值的概念。2. 如权利要求1所述的方法,其中所述数据被组织作为表,其中所述命名字段是列,并 且所述组的值是行。3. 如权利要求1所述的方法,其中选择包括:选择两个或更多字段,所述两个或更多字 段当被组合时、在每个组的值的所述两个或更多字段上具有唯一值。4. 如权利要求1所述的方法,其中选择包括:选择类别,所述类别包括在每个组的值的 该类别的所述标识符字段中具有唯一值的标识符字段。5. 如权利要求1所述的方法,其中选择包括:选择包括两个或更多标识符字段的类别, 所述两个或更多标识符字段当被组合时、在每个组的值的该类别的所述两个或更多标识符 字段上具有唯一值。6. 如权利要求1所述的方法,其中选择包括: 选择两个或更多类别,其中所述类别包括在每个组的值的每个类别的标识符字段中具 有唯一值的标识符字段; 分组所选择的类别;以及 将分组的选择的类别用作表示各组的值的概念。7. 如权利要求1所述的方法,其中选择包括: 在两个或更多类别的每一个中选择标识符字段,所述两个或更多类别当被组合时在每 个组的值的所述两个或更多标识符字段上具有唯一值;以及 将所述两个或更多类别与所选择的标识符字段组合作为表示各组的值的概念。8. 如权利要求7所述的方法,其中组合所述两个或更多类别增加与所标识的概念相关 联的新命名字段、并且将唯一值插入到每一组的值的该字段中。9. 如权利要求1所述的方法,其中选择包括:选择不包括标识符字段的类别作为概念、 并且创建表示该概念的新标识符字段。10. 如权利要求1所述的方法,其中选择包括:增加新命名字段、并且将唯一值插入到每 一组的值的该字段中。11. 如权利要求1所述的方法,其中选择所述类别中的一个包括:标识所述类别,增加与 所标识的类别相关联的新命名字段、并且将唯一值插入到每一组的值的该字段中。12. -种系统,包括: 网络; 商务智能系统;以及 一个或多个计算装置,通过所述网络连接到所述商务智能系统; 其中所述商务智能系统接收数据,其中所述数据被组织作为多个命名字段以及作为与 所述命名字段相关联的两组或更多组的值,其中每个命名字段被分配给一类别;以及 其中所述商务智能系统包括数据组分析工具,其中所述数据组分析工具: 接收所述数据; 对于每个类别确定是否存在用于该类别的至少一个标识符字段,其中每个标识符字段 是用作该类别的标识符的命名字段; 对于每个类别标识用于所述类别的标识符字段,如果有的话,所述标识符字段在每组 的值的所述类别的标识符字段中具有唯一值;以及 选择所述类别中的一个作为表示各组的值的概念。13. 如权利要求12所述的系统,其中所述数据被组织作为表,其中所述命名字段是列, 并且所述组的值是行;以及 其中选择包括:选择类别,所述类别包括在每个组的值的该类别的所述标识符字段中 具有唯一值的标识符字段。14. 如权利要求12所述的系统,其中选择包括:选择两个或更多字段,所述两个或更多 字段当被组合时、在每个组的值的所述两个或更多字段上具有唯一值。15. 如权利要求12所述的系统,其中选择包括: 选择两个或更多类别,其中所述类别包括在每个组的值的每个类别的标识符字段中具 有唯一值的标识符字段;以及 分组所选择的类别;以及 将所分组的类别用作表示各组的值的概念。
【文档编号】G06F17/27GK105843793SQ201610058931
【公开日】2016年8月10日
【申请日】2016年1月28日
【发明人】M.雷斯-加塞姆, G.A.沃茨, Q.魏
【申请人】国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1