一种网络关联信息获取方法和系统的制作方法

文档序号:6510261阅读:151来源:国知局
一种网络关联信息获取方法和系统的制作方法
【专利摘要】本申请提供了一种网络关联信息获取方法和系统,其中,所述方法包括:扫描用户访问记录,获取所述用户访问记录中的用户访问信息,所述用户访问信息构成信息集合;根据所述用户访问记录,获取所述信息集合每个非空子集的支持度计数,建立支持度计数数据库;根据所述信息集合和所述支持度计数数据库,获取所有频繁1项集,所有频繁1项集构成集合L1;根据所述集合L1寻找集合LK,计算所述频繁1项集和所有频繁K项集的所有非空真子集的置信度,分析所述置信度,获取网络关联信息;基于所述网络关联信息进行网络应用。通过本申请,可以解决获取得到的网络关联信息关联程度弱的问题。
【专利说明】一种网络关联信息获取方法和系统
【技术领域】
[0001]本申请涉及网络信息【技术领域】,特别是涉及一种网络关联信息获取方法和系统。【背景技术】
[0002]在网络应用中,网络关联信息被越来越广泛的应用,例如:在网络信息推荐中,网站主或者某些网站如电商网站经常会根据网站事务的关联信息去进行网络信息的推荐:网站主向网站A进行网络信息投放时,根据网站A的关联信息,得到网站B和网站C与网站A具有关联关系,而网站D与网站A不具有关联关系;因此,网站王在向网站A进彳丁网络彳目息投放的同时,会优先选择向网站B和网站C也投放相同的网络信息,而不向网站D进行相同的网络信息投放。又例如:用户购买了商品A,电商网站家会根据商品A的关联信息,得到商品B和商品C与商品A具有关联关系;因此,当用户购买了商品A时,电商网站会优先向该用户推荐商品B和商品C。
[0003]现有技术中,以网站的关联为例,一般只考虑了两个网站之间的相互关联关系,例如,四个网站:网站A、网站B、网站C和网站D,分别获取网站A与网站B、网站C、网站D之间的关联信息,进而判断出网站A和网站B是关联的,网站A和网站C也是关联的,网站A和网站D是不关联的,由此得到和网站A具有关联关系的是网站B和网站C ;但是不会进一步去考虑网站B和网站C之间的关联关系。此时就存在两种情况:1、网站B和网站C也具有关联关系;2、网站B和网站C不具有关联关系。
[0004]因此,现有技术获取的网站A的关联信息,只反映了与网站A具有关联关系的网站;因为没有考虑与网站A关联的网站B和网站C之间是否存在关联关系,进而所述网站A的关联信息不能反映出网站B和网站C之间是否存在关联关系,因此获取的网站A的关联关系关联程度较弱。同样,现有技术对于商品等其他网络应用也存在关联程度较弱的问题。

【发明内容】

[0005]本申请提供了一种网络关联信息获取方法,以解决获取得到的网络关联信息关联程度弱的问题。
[0006]相应的,本申请还提供了一种网络关联信息获取系统,用以保证上述方法的实现及应用。
[0007]为了解决上述问题,本申请公开了一种网络关联信息获取方法,所述方法包括:
[0008]扫描用户访问记录,获取所述用户访问记录中的用户访问信息,所述用户访问信息构成信息集合;
[0009]根据所述用户访问记录,获取所述信息集合每个非空子集的支持度计数,建立支持度计数数据库;
[0010]根据所述信息集合和所述支持度计数数据库,获取所有频繁I项集,所有频繁I项集构成集合L1 ;其中,所述频繁I项集是所述信息集合的非空子集;[0011]根据所述集合L1寻找集合Lk,包括以下两个子步骤:
[0012]子步骤I,根据集合Lih,获取所有候选K项集;其中,所述候选K项集是所述信息集合的非空子集;
[0013]子步骤2,根据所述支持度计数数据库,从所述候选K项集中筛选得到:支持度计数大于等于预设最小支持度阈值的候选K项集,记作频繁K项集,所有频繁K项集构成集合Lk ;其中,所述K从2开始取值,直到根据所述集合Lk寻找到的集合LK+1是空集为止停止取值;
[0014]计算所述频繁I项集和所有频繁K项集的所有非空真子集的置信度,分析所述置?目度,获取网络关联?目息;
[0015]基于所述网络关联信息进行网络应用。
[0016]优先地,根据所述用户访问记录,获取所述信息集合每个非空子集的支持度计数,包括:
[0017]获取所述信息集合的所有非空子集;
[0018]获取每个非空子集中的所有信息元素;
[0019]根据所述用户访问记录,统计所述每个非空子集中的所有信息元素同时被用户访问的次数;
[0020]获取统计结果,所述统计结果为每个非空子集的支持度计数。
[0021]优先地,根据所述用户访问记录和所述支持度计数数据库,获取所有频繁I项集,包括:
[0022]从所述信息集合的非空子集中,获取所有单元素子集,每个单元素子集都记作一个候选I项集;其中,所述单元素子集是指只包含一个元素的非空子集;
[0023]从所述支持度计数数据库中获取所述候选I项集的支持度计数;
[0024]从所述候选I项集中筛选得到:支持度计数大于等于所述最小支持度阈值的候选I项集,记作频繁I项集。
[0025]优先地,根据集合Lim,获取所有候选K项集,包括:
[0026]获取集合Lih中的项集Iq和项集Ii ;其中,所述集合Lih为频繁K-1项集构成的集合,i≤l,q≤I,且i古q;
[0027]将项集Iq 中的项 lq[j]进行排序,...<lq[j]<...<lq[K-l];其中,所述项集Iq[j]表示所述项集Iq中的第j项,K j < K-1 ;
[0028]将项集Ii 中的项 IiU]进行排序,Ii [I] <li [2]〈...<li[j]<...<li[K-l];其中,所述项IiU]表示所述项集Ii中的第j项;
[0029]当(ljlkljl])&& (IqOliD] )&&...&& (lq[K-2]=li[K-2] ) &&(UK-1]〈UK-1])时,将所述项集Ip1与所述项集Ii连接,得到连接项集{I q[l],liq[2],...,lq[K-l],li[K-l]},所述连接项集为候选K项集。
[0030]优先地,根据所述支持度计数数据库,从所述候选K项集中筛选得到:支持度计数大于等于预设最小支持度阈值的候选K项集,记作频繁K项集,包括:
[0031]获取所述候选K项集的所有非空子集;
[0032]从所述支持度计数数据库中,获取所述候选K项集的非空子集的支持度计数;
[0033]当所述候选K项集的任意一个非空子集的支持度计数都大于等于所述最小支持度阈值时,所述候选K项集是频繁项集,记作频繁K项集;
[0034]当所述候选K项集的任意一个非空子集的支持度计数小于所述最小支持度阈值时,所述集合是非频繁项集;
[0035]其中,所述频繁K项集的任意一个非空子集的支持度计数大于等于所述最小支持度阈值。
[0036]优先地,计算所述频繁I项集和所有频繁K项集的非空真子集的置信度,包括:
[0037]获取频繁项集I的所有非空真子集;其中,所述频繁项集包括频繁I项集和所有频繁K项集,I≥I ;
[0038]从所述支持度计数数据库中分别获取所述频繁项集I的支持度计数,和集合S的支持度计数;其中,所述集合S是所述频繁项集I的任意一个非空真子集;
[0039]计算所述频繁K项集的支持度计数与所述集合S的支持度计数的比值,所述比值为所述集合S的置信度。[0040]优先地,分析所述置信度,获取网络关联信息,包括,
[0041 ] 当所述集合S的置信度大于等于预设的置信度阈值时,获取得到:所述集合S中的元素与集合(K-S)中的元素具有关联关系;
[0042]当所述集合S的置信度小于预设的置信度阈值时,获取得到:所述集合S中的元素与集合(K-S)中的元素不具有关联关系。
[0043]优先地,基于所述网络关联信息进行网络应用,包括:
[0044]从所述网络关联信息中,获取指定网站的关联网站;
[0045]当用户访问所述指定网站时,向所述用户推荐所述指定网站的关联网站;
[0046]当向所述指定网站进行网络信息投放时,同时向与所述指定网站具有关联的网站,进行相同的网络信息投放;
[0047]当用户通过搜索关键词搜索到所述指定网站时,同时向所述用户展示与所述指定网站关联的网站。
[0048]优先地,基于所述网络关联信息进行网络应用,包括:
[0049]从所述网络关联信息中,获取指定商品的关联商品;
[0050]当用户购买所述指定商品时,向用户推荐所述指定商品的关联商品;
[0051]当用户通过搜索关键词搜索到所述指定商品时,同时向所述用户展示与所述指定商品关联的商品。
[0052]本申请实施例公开了一种网络关联信息获取系统,所述系统包括:
[0053]扫描模块,用于扫描用户访问记录,获取所述用户访问记录中的用户访问信息,所述用户访问信息构成信息集合;
[0054]数据库建立模块,用于根据所述用户访问记录,获取所述信息集合每个非空子集的支持度计数,建立支持度计数数据库;
[0055]频繁I项集获取模块,用于根据所述用户访问记录和所述支持度计数数据库,获取所有频繁I项集,所有频繁I项集构成集合L1 ;其中,所述频繁I项集是所述信息集合的非空子集;
[0056]频繁K项集获取模块,用于根据所述集合L1寻找集合LK,包括以下两个子模块:
[0057]候选获取子模块,根据集合LK_1;获取所有候选K项集;其中,所述候选K项集是所述信息集合的非空子集;
[0058]筛选子模块,根据所述支持度计数数据库,从所述候选K项集中筛选得到:支持度计数大于等于预设最小支持度阈值的候选K项集,记作频繁K项集,所有频繁K项集构成集合Lk ;其中,所述K从2开始取值,直到根据所述集合Lk寻找到的集合LK+1是空集为止停止取值;
[0059]关联获取模块,用于计算所述频繁K项集的所有非空真子集的置信度,分析所述置信度,获取网络关联信息;
[0060]关联应用模块,用于基于所述网络关联信息进行网络应用。
[0061]与现有技术相比,本申请包括以下优点:
[0062]首先,本申请提供的一种网络关联信息获取方法,以获取网络之间的关联关系信息。通过对网络信息间关联关系进行挖掘,得到多个网络信息两两之间的相互关联信息,获取到的是网络信息之间的强关联信息,进而根据所述强关联信息得到具有强关联度的网络信息。通过本申请所述的方法得到网络关联信息,是具有强关联关系的网络信息,能够更加精准的反映网络信息之间的关联信息,关联程度高。进而,对于网站主或者某些网站如电商网站来说,通过本申请提供的一种网络关联信息获取方法,获取得到的网络之间关联信息准确度闻、关联性强,因此,网站主或者电商网站能够更精准的选择具有关联关系的网络/[目息进行网络应用。
[0063]其次,本申请所述方法可以应用到网站的关联、商品的关联等等领域,具有广泛的应用范围。
【专利附图】

【附图说明】
[0064]图1是本申请实施例所述一种网络关联信息获取方法的流程图;
[0065]图2是本申请另一实施例所述一种网络关联信息获取方法的流程图;
[0066]图3是本申请实施例所述一种获取候选项集的流程图;
[0067]图4是本申请实施例所述一种获取频繁项集的流程图;
[0068]图5是本申请实施例所述另一种获取频繁项集的流程图;
[0069]图6是本申请实施例所述一种获取网络关联信息的流程图;
[0070]图7是本申请另一实施例所述一种网络关联信息获取方法的示意图;
[0071]图8是本申请实施例所述一种网络关联信息获取系统的结构图。
【具体实施方式】
[0072]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
[0073]本申请实施例提供的一种网络关联信息获取方法,在获取指定网络信息的关联信息的基础上,进一步,对获取得到的与指定网络信息具有关联关系的网络信息,进行关联挖掘,判断所述与指定网络信息具有关联关系的网络信息相互之间是否存在关联关系,最终得到网络的关联信息。通过本申请实施例提供的一种网络关联信息获取方法,得到的网络关联信息,关联程度高,网络信息之间是强关联关系,例如:对于某个网站A,网站B、网站C和网站D与网站A具有关联关系,这种关联关系为一般关联关系;通过本申请实施例提供的一种网络关联信息获取方法可以进一步获取网站B、网站C和网站D之间的关联信息,如果获取得到网站B和网站C也是具有关联关系的,那么,网站A、网站B和网站C之间是两两相互关联的,这种关联关系为强关联关系。进而,某些网站主或者电商网站在应用所述网络关联信息,向用户进行网络信息推介和网络信息投放时,推介和投放的网络信息精准度高,更加符合用户的喜好,满足用户需求。
[0074]下面通过实施例对本申请所述方法的实现流程进行详细说明。
[0075]参照图1,示出了本申请实施例所述一种网络关联信息获取方法的流程图。
[0076]步骤102,扫描用户访问记录,获取所述用户访问记录中的用户访问信息,所述用户访问信息构成信息集合。
[0077]用户在进行网络活动时,用户的历史行为、访问过的网络信息和访问次数等信息,会被记录并保存在用户访问记录中。因此,通过扫描用户访问记录,可以从中获取得到用户访问过的所有网络信息,将每一个网络信息作为集合中的一个元素,构成信息集合;所述信息集合中的兀素与网络信息 对应,即:所述信息集合中的每一个兀素都对应一个网络信息,同时,每一个网络信息也对应一个信息集合中的兀素。
[0078]步骤104,根据所述用户访问记录,获取所述信息集合每个非空子集的支持度计数,建立支持度计数数据库。
[0079]用户访问记录中,同时也记录了用户访问网络信息的次数,所述访问网络信息的次数,可以包括:某一个网络信息被不同用户访问过的次数,某两个网络信息被不同用户同时访问过的次数,和多个网络信息被不同用户同时访问过的次数。所述信息集合每个非空子集中元素出现的次数都可以从用户访问记录中获取,所述信息集合每个非空子集中元素出现的次数代表每个非空子集的支持度计数。将每个非空子集和每个非空子集对应的支持度计数作为构建数据库的数据,建立支持度计数数据库。
[0080]步骤106,根据所述信息集合和所述支持度计数数据库,获取所有频繁I项集,所有频繁I项集构成集合U。其中,所述频繁I项集是所述信息集合的非空子集。
[0081]步骤108,根据所述集合L1寻找集合Lk,可以包括:
[0082]子步骤1082,根据集合Lih,获取所有候选K项集。其中,所述候选K项集是所述信息集合的非空子集。
[0083]子步骤1084,获取所有频繁K项集,所有频繁K项集构成集合LK。
[0084]根据所述支持度计数数据库,从所述候选K项集中筛选得到:支持度计数大于等于预设最小支持度阈值的候选K项集,记作频繁K项集,所有频繁K项集构成集合Lk ;其中,所述K从2开始取值,直到根据所述集合Lk寻找到的集合LK+1是空集为止停止取值。
[0085]在本申请实施例的一种优选实施例中,频繁项集是指:当某一项集的支持度计数大于等于预设最小支持度阈值时,所述某一项集为一个频繁项集。所述候选K项集的支持度计数可能大于等于所述支持度计数阈值,也可能小于所述支持度计数阈值;从所述支持度计数数据库中可以获取得到所述候选K项集的支持度计数:
[0086]当候选K项集的支持度计数大于等于所述支持度阈值时,所述候选K项集是一个频繁项集,记作频繁K项集,作为所述集合Lk中的元素;[0087]当候选K项集的支持度计数小于所述支持度阈值时,所述候选K项集不是一个频繁项集,不能作为所述集合Lk中的元素。
[0088]所述K从2开始取值,直到根据所述集合Lk寻找到的集合LK+1是空集为止停止取值。根据所述集合Lk寻找集合LK+1,也可以包括如下子步骤:根据集合Lk,获取所有候选K+1项集;获取所有频繁K+1项集。如果所有候选K+1项集的支持度计数都小于所述支持度计数阈值,则不存在频繁K+1项集,所述集合LK+1是由频繁K+1项集构成的集合,因此所述集合LK+1为空集,不再对K进行取值;如果所述集合LK+1不为空集,则对K继续取值。本申请实施例中,根据所述集合L1寻找所述集合LK,所述K从2开始取值,直到不能在找到任何频繁项集时,才停止对K进行取值。
[0089]步骤110,计算所述频繁I项集和所有频繁K项集的所有非空真子集的置信度,分析所述置信度,获取网络关联信息。
[0090]本申请实施例中,所述置信度是指:某一集合的非空真子集支持度计数与所述某一集合支持度计数的比值。
[0091]步骤112,基于所述网络关联信息进行网络应用。
[0092]所述网络应用,可以包括向用户推荐网站,向用户推荐商品的关联商品和进行网络信息投放等。
[0093]综上所述,本申请实施例提供的一种网络关联信息获取方法,在获取某一网络信息的关联信息基础上,进一步分析获取了与某一网络信息具有关联关系的一系列网络信息之间的关联信息,包含了网络信息之间存在的各种关联信息;获取得到的网络关联信息,反映了一系列网络信息之间两两相互关联的信息,关联性强,关联程度高,当网站主或者电商网站在利用获取得到的网络关联信息进行网络信息推介和投放时,网站主或者电商网站可以选择在关联度强的网站之间进行相同网络信息的推介和投放,推介和投放的网络信息精准度高,符合用户的喜好;同时,不向一些具有关联关系但是关联程度不高的网站进行网络信息的推介和投放,推介和投放的网络信息更有针对性,节约了成本。
[0094]为了更好的理解本申请实施例提供的一种网络关联信息获取方法,参照图2,对所述方法进行详细的介绍。图2,示出了本申请另一实施例所述一种网络关联信息获取方法的流程图。
[0095]步骤202,扫描用户访问记录,获取所述用户访问记录中的用户访问信息,所述用户访问信息构成信息集合。所述信息集合中包含用户访问过的所有网络信息。
[0096]步骤204,根据所述用户访问记录,获取所述信息集合每个非空子集的支持度计数,建立支持度计数数据库。
[0097]具体实现时,可以包括以下子步骤:
[0098]子步骤2042,获取所述信息集合的所有非空子集。
[0099]对于两个非空集合A与B,如果集合A的任何一个元素都是集合B的元素,我们就说A包含于B (记作A □ B),称集合A是集合B的一个非空子集。如果,所述信息集合中有η个元素,那么所述信息集合有2η-1个非空子集。
[0100]子步骤2044,获取每个非空子集中的所有信息元素。
[0101]所有非空集合都是有元素构成的,在本申请实施例中,每一个信息元素对应一个网络信息,获取每个非空子集中的所有信息元素,相当于获取每个非空子集中包含的网络信息。
[0102]子步骤2046,根据所述用户访问记录,统计所述每个非空子集中的所有信息元素同时被用户访问的次数。
[0103]用户访问记录中,记录了用户访问网络信息的次数,从所述用户访问记录中,获取每个非空子集中包含的网络信息同时被不同用户访问的次数,统计所述每个非空子集中包含的网络信息同时被不同用户访问的次数总和。
[0104]子步骤2048,获取统计结果,所述统计结果为每个非空子集的支持度计数。
[0105]统计得到的所述每个非空子集中包含的网络信息同时被不同用户访问的次数总和,所述次数总和为每个非空子集的支持度计数。
[0106]将每个非空子集与支持度计数的对应关系,即:非空子集-支持度计数,作为数据库中的数据,建立支持度计数数据库。
[0107]步骤206,根据所述信息集合和所述支持度计数数据库,获取所有频繁I项集。
[0108]具体实现时,可以包括以下子步骤:
[0109]子步骤2062,从所述信息集合的非空子集中,获取所有单元素子集,每个单元素子集都记作一个候选I项集。其中,所述单元素子集是指只包含一个元素的非空子集。
[0110]在本申请实施例的一种优选实施例中,如果所述信息集合中有η个元素,则所述信息集合共有η个单元素子集,每个单元素子集都记为一个候选I项集。
[0111]子步骤2064,从所述支持度计数数据库中获取所述候选I项集的支持度计数。
[0112]子步骤2066,从所述候选I项集中筛选得到:支持度计数大于等于所述最小支持度阈值的候选I项集,记作频繁I项集。
[0113]在本申请实施例的一种优选实施例中,如果预设的最小支持度阈值为2,则所有候选I项集中,当候选I项集的支持度计数大于等于2时,所述候选I项集是一个频繁项集,记作频繁I项集;当候选I项集的支持度计数小于2时,则所述候选I项集不属于频繁项集。
[0114]步骤208,根据所述集合L1寻找集合Lk,包括:子步骤2082,根据集合Lim,获取所有候选K项集。其中,所述候选K项集是所述信息集合的非空子集。子步骤2084,获取所有频繁K项集,所有频繁K项集构成集合Lk。
[0115]步骤210,计算所述频繁I项集和所有频繁K项集的所有非空真子集的置信度,分析所述置信度,获取网络关联信息
[0116]步骤212,基于所述网络关联信息进行网络应用。
[0117]基于以上内容,在本申请实施例的一种优选实施例中,参照图3,示出了本申请实施例所述一种获取候选项集的流程图,上述子步骤2082,可以通过连接步运算实现:
[0118]集合Lih是由所有频繁K-1项集构成的集合,项集Iq和项集Ii是所述集合Lim中的项集,i≥1,q≥1,且i关q,lq[j]表示所述项集Itl中的第j项,用IiU]表示所述项集Ii中的第j项,I≤j≤K-1。子步骤302,获取所述集合Lih中的任一两个项集,项集Iq和项集U。
[0119]子步骤304,分别对项集I,和项集Ii进行排序:
[0120]将项集Iq中的项iq[j]按如下顺序进行排序];[0121]将项集Ii中的项IiU]按如下顺序进行排序:li[l]<li[2]<***<li[j]<-KliK-1]o
[0122]子步骤306,判断项集Iq和项集Ii是否可以进行连接:
[0123]当所述项集Ip1和所述项集Ii存在如下关系)&& (ItlM=IiM )&&...&& (Iq[K-2] =IiK^DM (lq[K-1KliK-1])时,所述项集 Iq 和所述项集 Ii 是可连接的,进行步骤子308 ;
[0124]当所述项集Ig和所述项集Ii不存在如下关系)&& (ItlM=IiM )&&...&& (Iq[K-2] =IiK^DM (ljK-lKljK-l])时,所述项集 I,和所述项集 Ii 是不可连接的,不存在候选K项集,结束运算。
[0125]子步骤308,将项集I,和项集Ii进行连接。连接后得到连接项集为:{1,[1],lq[2],...,Iq[K-l],Ii [K-1]},所述连接项集记作候选K项集,所有候选K项集构成集合Ck,所述集合Ck中的项集可以是频繁项集也可以是非频繁项集。
[0126]在本申请实施例的一种优选实施例中,参照图4,示出了本申请实施例所述一种获取频繁项集的流程图,上述子步骤2084,可以通过剪枝步运算实现:
[0127]子步骤402,从所述支持度计数数据库中,获取所有候选K项集的支持度计数。
[0128]子步骤404,判断所述候选K项集是否是频繁项集:
[0129]当所述候选K项集的支持度计数大于等于所述最小支持度阈值时,所述候选K项集是频繁项集,进行子步骤406 ;
[0130]当所述候选K项集的支持度计数小于所述最小支持度计数阈值时,所述候选K项
集是非频繁项集,结束运算。
[0131]子步骤406,获取得到集合LK。获取支持度计数大于等于所述最小支持度阈值的候选K项集,记作频繁K项集,所有频繁K项集构成集合所述LK。
[0132]在本申请实施例的一种优选实施例中,对频繁项集有这样一条性质:任意一个频繁项集的所有非空子集也必须是频繁的,反之,如果某个候选项集的任意一个非空子集是非频繁项集,那么该候选项集也是非频繁项集。参照图5,示出了本申请实施例所述另一种获取频繁项集的流程图,上述子步骤2084,可以通过以下子步骤实现:
[0133]子步骤502,获取所述候选K项集的所有非空子集。
[0134]子步骤504,从所述支持度计数数据库中,获取所述候选K项集的非空子集的支持度计数。
[0135]子步骤506,判断所述候选K项集的任意一个非空子集是否是频繁项集:
[0136]当所述候选K项集的任意一个非空子集的支持度计数都大于等于所述最小支持度阈值时,所述候选K项集是频繁项集,进行子步骤508 ;
[0137]当所述候选K项集的任意一个非空子集的支持度计数小于所述最小支持度阈值时,所述集合是非频繁项集,结束运算。
[0138]子步骤508,获取得到集合LK。获取判断结果为频繁项集的候选K项集,记作频繁K项集,所有频繁K项集构成集合所述Lk。
[0139]在本申请实施例的一种优选实施例中,步骤208,根据所述集合L1寻找集合Lk,采用逐层搜索迭代的方法,寻找集合Lk:利用已知集合L1通过所述连接步运算找到候选2项集;所述候选2项集通过所述剪枝步运算,找到频繁2项集,所有频繁2项集构成集合L2 ;然后利用集合L2找集合L3,集合L3找集合L4..?逐层搜索迭代,直到寻找到集合Lk和集合LK+1 ;其中K从2开始取值,当所述集合LK+1是空集时,即:所有候选K+1项集都是非频繁项集,不存在频繁K+1项集时,结束逐层搜索迭代;当所述集合LK+1是非空集合时,通过集合LK+1继续寻找集合LK+2..?,至寻找到一个集合1^±为空集时,结束逐层搜索迭代。
[0140]在本申请实施例的一种优选实施例中,将所述频繁I项集和所有频繁K项集记作:频繁项集I。参照图6,示出了申请实施例所述一种获取网络关联信息的流程图,步骤210,可以包括以下子步骤:
[0141]子步骤602,获取频繁项集I的所有非空真子集;
[0142]对于两个非空集合A与B,如果集合A的任何一个元素都是集合B的元素,且集合A古B,我们就说A真包含于B,(记作A □ B),称集合A是集合B的一个非空真子集。
[0143]子步骤604,从所述支持度计数数据库中分别获取所述频繁项集I的支持度计数,和集合S的支持度计数;其中,所述集合S是所述频繁项集I的任意一个非空真子集。support_count (I)表示:频繁项集I的支持度计数;support_count (S)表示:集合S的支持度计数;min_conf表示:预设最小置信度阈值;
[0144]子步骤606,计算所述频繁K项集的支持度计数与所述集合S的支持度计数的比值,所述比值为所述集合S的置信度。即:support_count(I)/support_count(S)的值为所述集合S的置信度。
[0145]子步骤608,分析所述置信度,获取网络关联信息。
[0146]当support_count (I)/support_count (S) ^ min_conf 时,获取网络关联信息:s-> (Ι-s),所述S-> (1-S)表示:集合S中的元素与集合1-S中的元素具有关联关系;
[0147]当support_count (I)/support_count (S) < min_conf 时,获取网络关联信息:集合S中的元素与集合1-S中的元素不具有关联关系。
[0148]本申请提供的一种网络关联信息获取方法,通过对网络信息间关联关系的充分挖掘,获取的关联信息关联度高,关联性准确。同时,根据所述集合L1寻找所述集合Lk,所述K从2开始取值,直到不能在找到任何频繁项集时,才停止对K进行取值,获取得到所有的频繁项集;进而,可以分析获取所有频繁项集对应的网络关联信息。获取得到的网络关联信息完整度高,不会遗漏任何可能存在的关联信息。
[0149]下面结合一个具体实施例,详细说明一种网络关联信息获取方法的实现流程。
[0150]参照表1,是通过扫描用户访问记录得到的用户访问信息。
【权利要求】
1.一种网络关联信息获取方法,其特征在于,包括: 扫描用户访问记录,获取所述用户访问记录中的用户访问信息,所述用户访问信息构成信息集合; 根据所述用户访问记录,获取所述信息集合每个非空子集的支持度计数,建立支持度计数数据库; 根据所述信息集合和所述支持度计数数据库,获取所有频繁I项集,所有频繁I项集构成集合L1 ;其中,所述频繁I项集是所述信息集合的非空子集; 根据所述集合L1寻找集合Lk,包括以下两个子步骤: 子步骤I,根据集合Lih,获取所有候选K项集;其中,所述候选K项集是所述信息集合的非空子集;子步骤2,根据所述支持度计数数据库,从所述候选K项集中筛选得到:支持度计数大于等于预设最小支持度阈值的候选K项集,记作频繁K项集,所有频繁K项集构成集合Lk ;其中,所述K从2开始取值,直到根据所述集合Lk寻找到的集合LK+1是空集为止停止取值;计算所述频繁I项集和所有频繁K项集的所有非空真子集的置信度,分析所述置信度,获取网络关联?目息; 基于所述网络关联信息进行网络应用。
2.根据权利要求1所述的方法,其特征在于,根据所述用户访问记录,获取所述信息集合每个非空子集的支持度计数,包括: 获取所述信息集合的所有非空 子集; 获取每个非空子集中的所有信息元素; 根据所述用户访问记录,统计所述每个非空子集中的所有信息元素同时被用户访问的次数; 获取统计结果,所述统计结果为每个非空子集的支持度计数。
3.根据权利要求1所述的方法,其特征在于,根据所述用户访问记录和所述支持度计数数据库,获取所有频繁I项集,包括: 从所述信息集合的非空子集中,获取所有单元素子集,每个单元素子集都记作一个候选I项集;其中,所述单元素子集是指只包含一个元素的非空子集; 从所述支持度计数数据库中获取所述候选I项集的支持度计数; 从所述候选I项集中筛选得到:支持度计数大于等于所述最小支持度阈值的候选I项集,记作频繁I项集。
4.根据权利要求1所述的方法,其特征在于,根据集合Lih,获取所有候选K项集,包括: 获取集合Lih中的项集Iq和项集Ii ;其中,所述集合Lim为频繁K-1项集构成的集合,i≤l,q≤I,且i古q; 将项集 I,中的项 lq[j]进行排序..*<lq[j]<..*<lq[K-l];其中,所述项集Iq[j]表示所述项集Iq中的第j项,I < j < K-1 ; 将项集Ii中的项IiU]进行排序,1』1]〈1』2]〈...〈liUK...〈UK-1];其中,所述项Ii[j]表示所述项集Ii中的第j项; 当(lJlklJlDM (Iq [2] = Ii [2] )&&...&& (1,^-21=^^-2] )&& (1JK-1] [K-1])时,将所述项集Ip1与所述项集Ii连接,得到连接项集{1q[1],liq[2],...,1,[κ-1],Ii[K-1]},所述连接项集为候选K项集。
5.根据权利要求1所述的方法,其特征在于,根据所述支持度计数数据库,从所述候选K项集中筛选得到:支持度计数大于等于预设最小支持度阈值的候选K项集,记作频繁K项集,包括: 获取所述候选K项集的所有非空子集;从所述支持度计数数据库中,获取所述候选K项集的非空子集的支持度计数; 当所述候选K项集的任意一个非空子集的支持度计数都大于等于所述最小支持度阈值时,所述候选K项集是频繁项集,记作频繁K项集; 当所述候选K项集的任意一个非空子集的支持度计数小于所述最小支持度阈值时,所述集合是非频繁项集; 其中,所述频繁K项集的任意一个非空子集的支持度计数大于等于所述最小支持度阈值。
6.根据权利要求1所述的方法,其特征在于,计算所述频繁I项集和所有频繁K项集的非空真子集的置信度,包括: 获取频繁项集I的所有非空真子集;其中,所述频繁项集包括频繁I项集和所有频繁K项集,I≥I; 从所述支持度计数数据库中分别获取所述频繁项集I的支持度计数,和集合S的支持度计数;其中,所述集合S是所述频繁项集I的任意一个非空真子集; 计算所述频繁K项集的支持度计数与所述集合S的支持度计数的比值,所述比值为所述集合S的置信度。
7.根据权利要求6所述的方法,其特征在于,分析所述置信度,获取网络关联信息,包括, 当所述集合S的置信度大于等于预设的置信度阈值时,获取得到:所述集合S中的元素与集合(K-S)中的元素具有关联关系; 当所述集合S的置信度小于预设的置信度阈值时,获取得到:所述集合S中的元素与集合(K-S)中的元素不具有关联关系。
8.根据权利要求1或7所述的方法,其特征在于,基于所述网络关联信息进行网络应用,包括: 从所述网络关联信息中,获取指定网站的关联网站; 当用户访问所述指定网站时,向所述用户推荐所述指定网站的关联网站; 当向所述指定网站进行网络信息投放时,同时向与所述指定网站具有关联的网站,进行相同的网络信息投放; 当用户通过搜索关键词搜索到所述指定网站时,同时向所述用户展示与所述指定网站关联的网站。
9.根据权利要求1或7所述的方法,其特征在于,基于所述网络关联信息进行网络应用,包括: 从所述网络关联彳目息中,获取指定商品的关联商品; 当用户购买所述指定商品时,向用户推荐所述指定商品的关联商品;当用户通过搜索关键词搜索到所述指定商品时,同时向所述用户展示与所述指定商品关联的商品。
10.一种网络关联信息获取系统,其特征在于,包括: 扫描模块,用于扫描用户访问记录,获取所述用户访问记录中的用户访问信息,所述用户访问信息构成信息集合; 数据库建立模块,用于根据所述用户访问记录,获取所述信息集合每个非空子集的支持度计数,建立支持度计数数据库; 频繁I项集获取模块,用于根据所述用户访问记录和所述支持度计数数据库,获取所有频繁I项集,所有频繁I项集构成集合L1 ;其中,所述频繁I项集是所述信息集合的非空子集; 频繁K项集获取模块,用于根据所述集合L1寻找集合Lk,包括以下两个子模块: 候选获取子模块,根据集合LK_1;获取所有候选K项集;其中,所述候选K项集是所述信息集合的非空子集;筛选子模块,根据所述支持度计数数据库,从所述候选K项集中筛选得到:支持度计数大于等于预设最小支持度阈值的候选K项集,记作频繁K项集,所有频繁K项集构成集合Lk;其中,所述K从2开始取值,直到根据所述集合Lk寻找到的集合LK+1是空集为止停止取值;关联获取模块,用于计算所述频繁K项集的所有非空真子集的置信度,分析所述置信度,获取网络关联信息; 关联应用模块,用于基于所述网络关联信息进行网络应用。
【文档编号】G06F17/30GK103514267SQ201310398731
【公开日】2014年1月15日 申请日期:2013年9月4日 优先权日:2013年9月4日
【发明者】肖燕京, 罗峰, 黄苏支, 李娜 申请人:快传(上海)广告有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1