一种提供导航标签的方法及装置的制造方法_2

文档序号：9579274阅读：来源：国知局

以采用但不限于Apriori算法或者FP-Growth算法。在实际应用中可以根据场景灵活选择Apriori算法或者FP-Growth算法。当场景需要的每个信息标签组合中的信息标签个数较少时，可以选用Apriori算法，优点是算法简单，缺点是需要迭代运算，数据量较大时在分布式平台上很耗时。当场景需要每个信息标签组合中的信息标签的个数较多时，就需要在并行框架下使用FPGrowth算法。
[0046] 另外，频繁项集挖掘时，需要预设一个最小支持度阈值，而确定出的信息标签组合需要满足：信息标签组合中的不同信息标签之间的支持度均大于该预设的最小支持度阈值。
[0047] 其中，信息标签组合中的不同信息标签之间的支持度即为：信息标签组合包含的信息标签在各业务对象的信息标签中的共现概率。支持度的公式如下公式（1)所示：
[0048] Support(A,B) =P(AUB) (1)
[0049] 其中，Support(A，B)表示A与B的支持度，P(AUB)表示A与B同时出现的概率， A与B分别表示信息标签组合中的两个信息标签。如果A与B同时出现的概率比较小，说明 A与B之间肯定是相互不关联的，如果A与B同时出现的概率比较大，则说明A与B之间可能是相互关联的。
[0050] 基于最小支持度阈值的筛选后，就可以得到所有符合条件的信息标签组合，可选的，还可以得到每个信息标签组合对应的业务对象数量（即含有该信息标签组合的业务对象的数量）。
[0051] 在本申请的一个实施例中，一个业务对象的信息标签的集合可以表示为： (tagltag2tag3tag4···.tagn)。而本发明实施例中可以预设最小支持度阈值为5%，则确定出的导航标签组合可以表示为：（tagltag3tag5) :N1，表示tagl、tag3、tag5三个信息标签共同在N1个业务对象中出现。
[0052] 比如，以业务对象对服饰类商品为例，业务对象集合为10000件服饰类商品，包含信息标签"圆领"的商品一共有8000件，包含信息标签"翻领"的商品有7000件，而同时包含"圆领"和"翻领"的商品有500件，则"圆领"和"翻领"这两个信息标签之间的支持度= 500/10000 = 5%，符合关于支持度阈值的要求，可以确定为信息标签组合。
[0053] 步骤13,确定每个信息标签组合中的不同信息标签之间的关联关系；
[0054] 通过步骤12得到的信息标签组合包含的不同信息标签之间并不一定都是相互关联的。比如一些热门的信息标签"韩版" "通勤"等在许多商品中都会出现，但是"韩版"与其它大部分信息标签的相关性并不高，因此在确定了信息标签组合后可以进一步利用置信度和提升度进行筛选，其中置信度和提升度可以反映信息标签之间的关联关系。具体的实现过程在后续实施例中会详细介绍，在此不再赘述。
[0055] 步骤14,将不同信息标签之间的关联关系均为相互关联的信息标签组合确定为第一导航标签组合；
[0056] 可选的，当信息标签包括业务对象的属性和属性值时，比如采用pi(属性）：vl(属性值）这种形式时，步骤14可以具体包括：
[0057] 根据预先指定的属性组合，从不同信息标签之间的关联关系均为相互关联的信息标签组合中，获取仅包含与所述属性组合对应的属性值组合的信息标签组合，确定为第一导航标签组合。
[0058] 具体的，本申请实施例中得到所有符合条件的信息标签组合后，可以根据其包含的信息标签的属性提取不同类型的组合出来。比如可以把属性中包含一个"材质"标签、一个"元素"标签和一个"产品词"标签的所有组合筛选出来就可以得到类似如下表1的组合。
[0059]表1:
[0060]
[0061] 然后将各个信息标签的属性去掉，保留属性值就能得到如表2的信息标签组合。
[0062]表2 :
[0063]
[0064]
[0065] 最终，将"抓绒字母卫衣""羊羔毛拉链卫衣""针织提花半身裙""灯芯绒伞状半身裙"确定为第一导航标签组合。
[0066]步骤15,将确定的第一导航标签组合呈现在导航引擎界面上。
[0067] 因为不同的业务对象可能会存在同义或近义的信息标签，这样会导致最终得到很多同义或近义的第一导航标签组合。仍以业务对象为服饰类商品为例，比如"套头大眼睛针织衫"和"孙俪大眼睛毛衣"在覆盖的服饰类商品上的重合度就非常高，为同义的第一导航标签组合，因此，如果将这两个第一导航标签组合同时展示给用户，对用户是没有推荐价值的，因此本申请实施例还可以在向用户展示之前，还可以先对重合度高的第一导航标签组合进行归一。
[0068] 具体的可以采用如图2所示的方法，将第一导航标签组合呈现在导航引擎界面上，具体包括如下处理步骤：
[0069] 步骤21，确定第一导航标签组合中的任意两个第一导航标签组合的重合度；
[0070] 本申请实施例中可以采用minhash算法计算任意两个第一导航标签组合的重合度，所述重合度指第一导航标签组合覆盖的业务对象的重合度。
[0071] 步骤22,将重合度大于预设最小重合度阈值的两个第一导航标签组合进行归一，得到归一后的第一导航标签组合；
[0072] 步骤23,将归一后的第一导航标签组合呈现在导航引擎界面上。
[0073] 具体的，归一后的第一导航标签组合的数量可能依然比较多，因此本申请实施例中，可以根据归一后的每个第一导航标签组合对应的所有业务对象的指定信息，确定归一后的每个第一导航标签组合的热度分数，然后将指定数量的归一后的第一导航标签组合按照热度分数从高至低的顺序呈现在导航引擎界面上。
[0074] 其中，仍以业务对象为服饰类商品为例，指定信息可以包括商品销量、发布时间和商品评论等信息。
[0075] 下面结合附图，用具体实施例对上述步骤13的具体实现过程进行详细描述。
[0076] 可以采用如图3所示的方法，确定信息标签组合中的不同信息标签之间的关联关系，具体包括如下处理步骤：
[0077] 步骤31，确定信息标签组合中的任意两个信息标签之间的置信度和提升度；
[0078] 置信度的公式为：Confidence(A-B) =P(A|B) (2)
[0079] Confidence(B-A) =P(B|A) (3)
[0080] 其中，Confidence(A-B)表示A对于B的置信度，P(AIB)表示A出现时，B也同时出现的概率；Confidence?-A)表示B对于A的置信度，P(BIA)表示B出现时，A也同时出现的概率。
[0081]提升度的公式为：Lift(A，B) =P(B|A)/P(B) (4)
[0082] 其中，Lift(A，B)表示A与B的提升度，P(B|A)表示B出现时，A也同时出现的概率，P(B)表示B出现的概率。
[0083] 通常，提升度等于1时，说明A与B没有任何关联；如果提升度小于1，说明A与B 是相互排斥的。因此，本申请实施例中预设的最小提升度阈值可以设置为1。
[0084] 步骤32,当信息标签组合中的任意两个信息标签的置信度均大于预设的最小置信度阈值，提升度均大于预设的最小提升度阈值时，确定信息标签组合中的不同信息标签之间相互关联。
[0085] 步骤33,当信息标签组合中的任意两个信息标签的置信度不大于预设的最小置信度阈值，和/或提升度不大于预设的最小提升度阈值时，确定信息标签组合中的不同信息标签之间相互不关联。
[0086] 以信息标签组合中包含的两个信息标签A和B为例，需要A对B的置信度和B对 A的置信度均大于最小置信度阈值，以及A与B的提升度大于最小提升度阈值时，确定该信息标签组合中的A与B相互关联。
[0087] 仍以（圆领，翻领）为例：
[0088]圆领对翻领的置信度为500/8000约等于7%，较小；
[0089]翻领对圆领的置信度为500/7000约等于7%，较小；
[0090] 圆领与翻领的提升度为（500/8000V(7000/10000)约等于0· 09小于1 ;
[0091] 所以圆领和翻领无关联的。
[0092] 上述提供导航标签的方法可以应用在没有用户的输入信息的场景下。
[0093] 一旦接收到用户的输入信息，该方法还可以进一步包括如图4所示的处理过程：
[0094] 步骤41，当接收到用户的输入信息之后，确定与用户的输入信息相匹配的信息标签；
[0095] 其中，用户的输入信息可以包括用户输入的查询词。与用户的输入信息相匹配的信息标签可以包括与用户输入的查询词相同的信息标签。在通常情况下，用户会根据业务对象的属性或风格特征作为查询条件进行信息的搜索，用户输入的查询词往往也可以作为信息标签的描述词。根据精确匹配的方式，可以得到与用户输入

完整全部详细技术资料下载

当前第2页1 2 3 4