基于占有率的模式挖掘的制作方法

文档序号:6498562阅读:171来源:国知局
基于占有率的模式挖掘的制作方法
【专利摘要】一种模式挖掘的示例方法包括:经由逻辑电路识别多个事务中存在的多个模式,所述事务包括项目的集合,以及经由所述逻辑电路基于所述事务中的所识别的模式的占有率来选择所识别的模式之一。
【专利说明】基于占有率的模式挖掘

【背景技术】
[0001] 数据挖掘涉及在数据库中搜索数据点或数据集以解决特定问题。频繁的模式挖掘 涉及以识别频繁出现在数据集中的模式为目的的数据挖掘。用于识别模式的最常见度量是 频率,频率是模式显现在事务数据库中的次数。在这种情境中,频率被用作针对模式兴趣度 的主要量度。

【专利附图】

【附图说明】
[0002] 图1是用于执行模式挖掘的示例系统的框图。
[0003] 图2是图1的示例数据挖掘器的更详细框图。
[0004] 图3图示了用于示例事务数据库的子集树。
[0005] 图4是表示可被执行以实现用于执行模式挖掘的数据挖掘器的示例机器可读指 令的流程图。
[0006] 图5是表示可被执行以实现用于执行模式挖掘的数据挖掘器的示例机器可读指 令的流程图。
[0007] 图6是表示可被执行以实现用于提供品质模式的数据挖掘器的示例机器可读指 令的流程图。
[0008] 图7A和7B是表示可被执行以实现用于修剪子集树的项目集修剪器的示例机器可 读指令的流程图。
[0009] 图8是表示可被执行以实现用于估计品质边界的品质计算器的示例机器可读指 令的流程图。
[0010] 图9A和9B是表示可被执行以实现用于估计品质边界的品质计算器的示例机器可 读指令的流程图。
[0011] 图10是能够执行图4-9B的指令以实现图1和/或2的数据挖掘器的示例处理器 平台的框图。

【具体实施方式】
[0012] 本文公开的示例方法、装置和制品使用本文中被称为占有率的量度。占有率被定 义为模式(或项目集)在其支持事务中占有(例如,支配)项目的程度。在一些示例中,模式 挖掘应用优选下述模式:这些模式占有它们显现于其中的事务的大部分。示例方法、装置和 制品使用占有率来针对某些类型的应用提供改进的模式挖掘。贯穿本公开,可互换地使用 术语"模式"和"项目集"。
[0013] 在其中使用占有率可能有利的第一示例应用处于用于网页的打印区域推荐上。由 网页浏览器的打印功能生成的打印输出可能是不令人满意的,这是由于该打印输出包含大 部分的不相关内容(例如导航菜单、广告、相关链接等)。为了解决该问题,惠普提供了 HP智 能打印服务,其包含用户友好界面,使得用户能够容易地选择她感兴趣的打印区域。这种选 择可以被存储在打印日志中(例如,在用户同意的情况下)。感兴趣的挑战是:基于由其他用 户生成的打印日志来自动地且准确地推荐感兴趣的打印区域,使得用户在不执行手动选择 的情况下接收到感兴趣的打印区域。如果每个内容片段(clip)(例如,由另一用户选择的 内容区域)是项目,并且用户在给定网页上所选的所有片段被视为项目的事务,则来自所有 用户的打印日志数据形成事务数据库。由此,可以基于该事务数据库将给定网页中的项目 集(例如,内容片段的集合)推荐给用户。所推荐的项目集可以频繁出现,以反映大多数用户 的兴趣。然而,项目集的完整性也是重要的。所推荐的内容片段的集合应当占有它显现于 其中的事务(例如,用户所选的片段集合)的大部分,使得该推荐是完整的(例如,因此用户 未感觉到该推荐将丢失相关内容)。
[0014] 在第二示例应用中,投资证券组合(investment portfolio)推荐应用可以有利地 使用占有率来识别投资策略中的模式。对于包含高品质且多样化的投资证券组合的大集合 的事务数据库,每个事务表示由有经验的投资者所拥有的金融资产(例如股票、债券等)的 集合。该示例应用的目标是从数据库挖掘(例如,确定、识别)品质(例如,感兴趣的)模式(例 如,高品质和/或多样化的模式),这可以用于将投资计划推荐给新投资者。该示例应用可 以有利地优选频繁显现于数据库中的投资模式。然而,由于良好的投资证券组合通常作为 整体起作用以实现投资平衡并降低风险,因此该示例应用还可以评价下述投资模式:这些 投资模式覆盖它们显现于其中的事务的大部分。例如,给定相等频率的两个模式X和Y,如 果X覆盖其支持事务的90%资产而Y仅覆盖30%,则自然将X视为更好的投资模式。因此, 模式的占有率潜在地对于证券投资推荐应用是非常有用的。
[0015] 在上面讨论的两个示例应用中,占有率变成模式兴趣度的另一量度,这是对"频 率"的有利补充(在本文中也被称为"支持")。在本文公开的一些示例方法、装置和制品中, 如果一种模式不仅是频繁的(例如,其支持值高于阈值α ),而且在其支持事务中具有高占 有率(例如,具有高覆盖、进行支配),则该模式被视为感兴趣的。如果一种模式的占有率处 于阈值β以上,则该模式被视为支配的。如果一种模式既是频繁的又是支配的,则该模式 被视为有品质的。本文公开的示例方法、装置和制品挖掘相对于支持阈值α和占有率阈值 β的有品质模式。
[0016] 本文公开的一些示例方法、装置和制品解决了挖掘前k名有品质模式(其中,k是 有品质模式的期望数目,使得k=5将导致挖掘前5名有品质模式)的问题。术语k可以由 用户定义。在一些这种示例中,前k名有品质模式是相对于支持和占有率的加权和来确定 的。针对支持和/或占有率的权重也可以由用户定义。在一些示例中,当更多项目被添加 到给定项目集时,占有率的值不单调增大或减小。一些示例方法、装置和制品确定(例如计 算、估计等)针对所识别模式的占有率和/或品质的上界,并使用该一个或多个上界来修剪 针对有品质模式挖掘的搜索过程。一些示例方法、装置和制品考虑调和占有率(harmonic occupancy)。一些其他示例考虑算术占有率。
[0017] 如本文所使用,事务数据库是事务的集合。每个事务是项目的集合。I指代有区 别的项目的全集。T是事务的全集。项目集是项目的非空集合。事务集是事务的集合。包 含项目集X中的所有项目的事务是X的支持事务,被表示为Tx。项目集X的频率被表示为 freq (X),且等于Τχ中的事务的数目。
[0018] X的支持被定义为卜,/?(办 1r|。对于给定的最小支持阈值α (〇 < α彡1), 如果σ(Χ) i α,则X被称为频繁的。
[0019] 对于项目集X,我们识别所有其支持事务Tx。对于每个事务t e τχ,我们计算|X| (项目集x中的项目的数目)除以|t| (事务t中的项目的数目)(例如,|x|/|t|)的比率。 针对所有支持事务Tx聚合出这些比率,以计算针对X的占有率的单个值。在一些示例中, 占有率指代比率的平均。附加地或可替换地,还可以使用其他聚合函数,诸如或 。形式上,项目集X的占有率被表示为

【权利要求】
1. 一种模式挖掘的方法,包括: 经由逻辑电路识别多个事务中存在的多个模式,所述事务包括项目的集合;以及 经由所述逻辑电路基于所述事务中的所识别的模式的占有率来选择所识别的模式之 〇
2. 根据权利要求1所述的方法,其中,所识别的模式的占有率包括下述内容针对支持 所识别的模式的事务的聚合: 所识别的模式中的项目的第一数目与所识别的模式的支持事务中的总项目的第二数 目之比。
3. 根据权利要求1所述的方法,进一步包括:基于占有率来计算所识别的模式的品质。
4. 根据权利要求3所述的方法,其中,计算所识别的模式的品质进一步基于所识别的 模式的支持。
5. 根据权利要求1所述的方法,进一步包括:针对所述多个事务生成子集树。
6. 根据权利要求5所述的方法,进一步包括:基于相应占有率的比较或所述多个事务 的相应品质与阈值的比较中的至少一个来修剪所述子集树。
7. 根据权利要求5所述的方法,进一步包括:基于所述子集树的第一分支的占有率上 界与所述子集树的第二分支的占有率上界的比较来修剪所述子集树的第一子树,所述第二 分支独立于所述第一分支。
8. 根据权利要求1所述的方法,进一步包括:基于占有率来推荐所识别的模式。
9. 根据权利要求1所述的方法,进一步包括: 基于所计算出的所述模式的支持和所计算出的所识别的模式的占有率来计算所识别 的模式的品质度量;以及 当所识别的模式的品质度量大于所述多个事务中存在的所述多个模式中的其他模式 的相应品质度量时,推荐所述模式。
10. -种用于模式挖掘的装置,包括: 事务数据库,用于存储多个事务,所述事务包括项目的集合;以及 数据挖掘器,用于: 识别所述事务中存在的模式;以及 基于所述事务中的所识别的模式的占有率来选择所识别的模式。
11. 根据权利要求10所述的装置,其中,所述数据挖掘器包括:占有率计算器,用于计 算所识别的模式的占有率。
12. 根据权利要求10所述的装置,其中,所述数据挖掘器包括:品质计算器,用于基于 用于所述模式的占有率和支持来计算所述模式的品质。
13. -种包括机器可读指令的计算机可读存储介质,所述机器可读指令在被执行时使 机器至少执行下述操作: 使用所述机器识别多个事务中存在的模式,所述事务包括项目的集合;以及 使用所述机器基于所述事务中的模式的占有率来选择模式。
14. 根据权利要求13所述的存储介质,其中,所述指令进一步使所述机器输出具有所 识别的模式的最高确定品质的多个所识别的模式。
15. 根据权利要求14所述的存储介质,其中,所识别的模式的品质基于所识别的模式 的占有率、所识别的模式的支持、以及加权因子。
【文档编号】G06F17/30GK104254854SQ201280072816
【公开日】2014年12月31日 申请日期:2012年5月15日 优先权日:2012年5月15日
【发明者】P.罗, M.王, L.唐, L.张 申请人:惠普发展公司,有限责任合伙企业
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1