用于挖掘数据集中的模式的方法和系统的制作方法

文档序号:8319234阅读:289来源:国知局
用于挖掘数据集中的模式的方法和系统的制作方法
【技术领域】
[0001] 本发明涉及计算系统,并且更具体地涉及用于挖掘数据集中的模式的方法。
【背景技术】
[0002] 识别数据集(例如高维数据集)中相关数据模式常常是有挑战性的。特别地,找 出别人没注意到的模式对于依赖大数据分析的公司来说是关键的竞争优势。
[0003] R. Agrawal 和 R. Srikant 的 Fast Algorithms for Mining Association Rules in Large Databases. (In Proc of the 20th International Conference on Very Large Data Bases (VLDB'94),第487-499页,1994年)公开了用于确定数据库中数据模式的统计 重要性的方法。

【发明内容】

[0004] 本发明实施例的目标是提供改进的方法、计算机系统和计算机程序产品。所述目 标是通过独立权利要求的主题来解决的。在从属权利要求中描述有利的实施例。
[0005] 如在本文中所使用的,术语"数据模式"或"模式"指可以用来描述相关性的任何 种类的关系、形式、模板、模型或一组规则,数据集的个别条目通过这种相关性链接到一起。
[0006] -方面是用于访问数据库系统中的数据的计算机实现的方法,所述数据库系统包 括接收器模块、模式模块和分析模块。所述方法包括:
[0007] -由接收器模块从第一用户接收对存储在数据库系统中的数据集的第一查询;
[0008] -响应于接收到的第一查询,由模式模块提供数据集中的第一模式集合,并且为第 一模式集合中的每个模式提供重要性值;
[0009] -由模式模块提供用于标记第一模式集合中的模式的标记集合,所述标记集合指 示描述模式的至少两个数据类;
[0010]-由接收器模块从第一用户接收指示第一模式集合中的至少第一模式子集的标记 的输入信息,其中所述标记中的每个标记都选自所述标记集合;
[0011]-由分析模炔基于标记来调整第一模式子集的重要性值。
[0012] 对于将来的查询,模式可以根据调整后的重要性值重新排名。
[0013] 模式集合可以包括满足第一用户的第一查询的全部模式。或者,模式集合可以包 括其重要性值高于重要性阈值的模式。
[0014] 重要性值可以例如通过先验算法(或者任何合适的算法)提供/计算,该算法是 用于从数据库挖掘关联规则的模型。
[0015] 根据一种实施例,所述方法还包括从另一个用户接收对数据集的第一查询;响应 于接收到的第一查询,利用更新后的/调整后的重要性值把满足第一查询的模式排名并且 提供另一模式集合,其中所述另一模式集合包括其重要性值高于重要性阈值的模式。
[0016] 根据一种实施例,所述至少两个数据类包括噪声数据类、无价值数据类以及有效 数据类。即,模式可以是噪声模式、有效模式或无价值模式。
[0017] 噪声模式会由于结合系统过程出现的无意义的随机过程而产生。噪声模式可以由 硬件故障、编程错误、拼写错误或缩写造成。例如,当存在关于软件的问题时,CPU使用情况 的测量可能是错误的。噪声模式还可以包括与被破坏的数据相关的模式或者不能被程序读 取或使用的任何模式。
[0018] 如果模式可能是领域中的从业者已知的,则该模式是无价值的。例如,根据其"内 存不足错误"后面总是跟着"CPU使用中的尖峰"的模式在计算领域中是已知的。因此,这 种模式可以被标记为是无价值的。在另一个例子中,模式出现的频率可以用来确定那个模 式是否是无价值的。例如,如果模式自很长时间以来例如1年就在计算机系统中出现并且 对第一用户的查询的出现频率高于预定阈值,例如每天一次,则该模式可以被自动地或者 被第一用户归类为无价值的。
[0019] 有效模式是既非噪声模式又非无价值模式的模式并且对于分析是有效的。
[0020] 第一模式子集可以包括模式集合的至少一部分。
[0021] 这些特征会是有利的,因为它们可以提供用于评估数据集中的模式的准确方法, 该方法可以用于执行模式的可靠排名以供将来使用。这可以允许很容易被忽视的有效但统 计不显著的模式在系统中被提升,而在结果列表顶部出现的非常显著但无价值的模式排名 下滑。确保模式的可靠排名可以具有使资源可以被节约的优点,在别的情况下将在执行查 询的多个尝试以便得到可以满足用户需求的正确(排名)模式时需要这种资源。
[0022] 另一个优点可以是这些特征可以通过为多个用户提供服务来增加数据库系统的 能力。更多的用户可以利用本方法来得到服务,因为用户请求可以很快被满足,例如在第一 或第二请求尝试之后。这与常规方法相反,在常规方法中,用户必须执行多次尝试来满足他 的需求并且因此会比利用本方法时占用数据库系统更长时间。因而,这也会帮助提供可以 克服差服务质量(QoS)的附加服务,其中差QoS由于非最优的评估并且因此由于模式的排 名而造成。
[0023] 另一个优点可以是本方法可以无缝地集成在现有系统中,因为它可以利用低软件 和/或硬件负担来实现。
[0024] 这种实施例的方法步骤可以以不同的时间间隔重复,例如第一用户可以每天发送 一次第一查询。
[0025] 根据一种实施例,利用标记集合中的第一标记来标记第一模式子集中的第一模 式,其中调整第一模式的重要性值包括:
[0026] -分别向第一模式和第一用户指定对应于标记集合的标记计数器集合;
[0027] -初始化所述标记计数器集合的值;
[0028] -递增所述标记计数器集合中对应于第一标记的标记计数器;
[0029] -利用包括递增后的标记计数器的标记计数器集合来调整第一模式的重要性值。
[0030] 标记计数器集合只初始化一次。例如,当第一查询被第二用户提交时,除初始化步 骤之外,重复该方法的步骤。在另一个例子中,当第一查询被第一用户再次提交时,除指定 步骤和初始化步骤之外,重复该方法的步骤。
[0031] 依赖于指定给第一模式和第一用户的第一标记(及关联的计数器),第一模式的 重要性值可以增加或减小。
[0032] 例如,第一模式可以在另一个时间间隔内由第一用户利用标记集合中的第二标记 做标记(例如,模式的相关性可以是依赖于时间的;今天它是相关的但明年不是)并且由此 标记计数器集合中对应于第二标记的标记计数器递增。在这种情况下,依赖于指定给第一 模式和第一用户的第一和第二标记(及关联的计数器),第一模式的重要性值可以增加或 减小。
[0033] 例如,如果标记集合包括两个数据类标记,例如,噪声数据类标记和非噪声数据类 标记。如果第一标记是噪声数据类,则第一模式的重要性值可以减小例如10%至90% (例 如,如果第一模式被第一用户利用第一标记标记了两次,则关联的计数器可以增加两次,然 后第一模式的重要性值可以减小例如20%,而如果第一模式被第一用户利用第一标记标记 了 5次,则第一模式的重要性值可以减小例如60% )。如果第一标记是非噪声数据类标记, 则第一模式的重要性值可以增加例如5%至100%。如果第一模式利用第一标记并利用第 二标记做标记,则相关联的计数器的组合可以用来调整第一模式的重要性值。如果第一模 式利用第一标记标记了 2次并且利用第二标记标记了 20次,则第一模式的重要性值可以增 加,因为与非噪声标记关联的标记计数器比与噪声标记关联的标记计数器高得多。
[0034] 这种实施例会是有利的,因为它可以提供用于调整重要性值并且因此基于调整后 的重要性值提供最优模式排名的可靠方法。
[0035] 根据一种实施例,所述方法还包括使用标记计数器集合的加权和来调整第一模式 的重要性值。
[0036] 根据一种实施例,所述至少两个类包括噪声类模式、无价值类模式和有效类模 式,其中调整重要性值(s(r))是利用公式s'(r,u) = s(r) -w*(r(p,U)-0.5)执行的,其 中 r (p, u) = (nn (p, u) +nt (p, u)) / (nv (p, u) +nn (p, u) +nt (p, u)),其中 nv (p, u)、nn (p, u)、 nt(p,u)是分别对应于有效类、噪声类和无价值类的标记计数器,其中w是预定义的权重 值。
[0037] 例如,预定义的权重值w可以用来启动或关掉重要性值的调整,例如,w = 0意味 着调整被关掉了。
[0038] 根据一种实施例,该方法还包括:
[0039] -在数据库系统处从第二用户接收对数据集的第二查询;
[0040] -响应于接收到的第二查询,提供数据集中具有相应重要性值的第二模式集合;
[0041] -从第二用户接收指示第二模式集合中的至少第二模式子集的标记的输入信息; [0042]-确定第一模式子集和第二模式子集之间利用相同标记做标记的完全相同的模式 的数目;
[0043]-响应于确定完全相同的模式的数目高于预定义的相似性阈值,分别向完全相同 的模式中的每个模式并且向第一用户和第二用户都指定对应于标记集合的公共标记计数 器集合;其中公共标记计数器集合是单独指定给第一用户和第二用户的相应标记计数器集 合的组合;
[0044]-利用公共标记计数器调整完全相同的模式的重要性值。
[0045] 只要第一和第二用户在对高于预定义相似性阈值的被标记模式的数目上意见一 致的意义上是相似的,就可以使用两个用户的公共/合作标记计数器。
[0046] 这种实施例的优点可以是它可以允许分析人员使用他们使用的相同工具(不需 要在他们之间有明确的合作)但是利用大用户基础的反馈使结果提升或排名下滑。
[0047] 根据一种实施例,该方法还包括
[0048]-在数据库系统处从第三用户接收对数据集的第三查询;
[0049] -响应于接收到的第三查询,提供数据集中具有
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1