关键词分类方法及系统的制作方法

文档序号:6487173阅读:203来源:国知局
关键词分类方法及系统的制作方法
【专利摘要】本申请提供了一种关键词分类方法,包括以下步骤:获取待分类关键词;在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则进行下一步骤;从预存的关联表中选取与所述待分类关键词相似的关键词;确定所述待分类关键词与所述被选取的关键词所属类别的相似度;根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。本申请还提供了一种实现前述方法的关键词分类系统。本申请的关键词分类方法及系统,能够提高关键词分类效率,从而加快系统的响应速度,减少系统运算量。
【专利说明】关键词分类方法及系统
【技术领域】
[0001]本申请涉及计算机数据处理【技术领域】,特别是涉及一种关键词分类方法及系统。【背景技术】
[0002]在电子商务网站中,用户通常会通过输入关键词的方式来搜索其所需要的产品。一般情况下,用户输入的关键词通常都是单个的词或者由少数几个词组成的词组,这样可以更好的突出重点,搜索到其所需要的产品,但是因为输入的信息过少,可能导致输入的意义不明确,无法准确提供搜索结果,即可能出现大量与用户需求不相关的结果。因此,在这种情况下,往往需要事先对关键词进行分类,确定用户在输入某个关键词时,其所期望的搜索结果所属的类别,并主要展示该类别的产品,以提高搜索结果的准确性。
[0003]常见的对关键词进行分类的方法包括采用人工标注或者引入用户历史数据进行分类。
[0004]人工标注,即预先标注一部分关键词所属的类别,然后利用这些被标注了类别的关键词来训练一个分类器(分类模型),再利用训练好的分类器来预测未标注的关键词的类另O。基于人工标注的方法,分类效果会受到标注的关键词个数的影响,若标注的较少,无法实现准确的分类,若标注的过多,则需要大量的人力和时间,效率会较低。
[0005]因为电子商务网站中会预先设定每个产品所属的类别,引入用户历史数据对关键词进行分类的过程为:获取用户在进行搜索后对搜索结果的点击数据;分析搜索结果中每一个被点击的结果所属的类别;将点击率较高的类别确定为当前关键词的类别。即根据用户在利用某一关键词进行搜索后的点击行为来反推当前关键词的类别。在此过程中,需要对搜索结果中每一个被点击的结果进行分析并确定类别,然后再根据各类别被点击的次数来确定关键词的类别。当搜索结果中,被点击的结果数量较多时,因为需要逐一计算,这就增加了计算量和计算时间,同时会消耗较多的系统资源,降低了关键词分类的效率。另外,此种方法,对于出现频率较高的关键词来说,具有较好的效果,但是,对于出现频率较低或者从未出现过的关键词,因为用户点击数据较少或者甚至没有,采用此种方法往往无法对出现频率较低或者从未出现过的关键词进行分类,因此,还需要采用额外的方法,例如人工统计等方式来实现分类,这同样会影响关键词分类的效率。

【发明内容】

[0006]本申请提供一种关键词分类方法及系统,能够解决关键词分类效率较低的问题。
[0007]为了解决上述问题,本申请公开了一种关键词分类方法,包括以下步骤:
[0008]获取待分类关键词;
[0009]在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则进行下一步骤;
[0010]从预存的关联表中选取与所述待分类关键词相似的关键词;[0011]确定所述待分类关键词与所述被选取的关键词所属类别的相似度;
[0012]根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。
[0013]进一步地,所述方法还包括确定预存的关联表,所述确定过程为:
[0014]获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词;
[0015]获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别;
[0016]建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。
[0017]进一步地,所述根据所述点击数据确定所述关键词所属的类别包括:
[0018]确定所有被点击的结果所对应的类别;
[0019]统计每一类别出现的次数;
[0020]将出现次数超过分类阈值的类别确定为当前关键词的类别。
[0021]进一步地,所述根据所述点击数据确定所述关键词所属的类别包括:
[0022]确定所有被点击的结果所对应的类别;
[0023]统计每一类别出现的次数;
[0024]计算关键词与所属类别的相似度;
[0025]将出现次数超过分类阈值且相似度超过相似阈值的类别确定为当前关键词的类别。
[0026]进一步地,所述选取与所述待分类关键词相似的关键词包括:
[0027]计算待分类关键词与预存的关联表中每一个关键词的相似度;
[0028]按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。
[0029]进一步地,所述计算待分类关键词与预存的关联表中每一个关键词的相似度包括:
[0030]确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度;
[0031]确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度;
[0032]确定当前类别与所述待分类关键词的文字内容相似度;
[0033]根据前述三者确定所述待分类关键词与当前类别的相似度。
[0034]进一步地,所述根据所述查询数据选取查询次数超过查询阈值的关键词之后还包括对选取的关键词进行扩展,所述扩展包括:
[0035]获取所述关键词的用户历史点击数据;
[0036]从历史点击数据中提取每一个被点击的搜索结果中所包含的关键词;
[0037]将所述提取的关键词作为扩展关键词。
[0038]进一步地,所述根据所述点击数据确定所述关键词所属的类别之后还包括对确定的类别进行扩展,所述扩展包括:
[0039]获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目;[0040]提取每一个条目所属的类别;
[0041]将提取的类别作为扩展类别。
[0042]进一步地,所述根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别包括:
[0043]根据相似度对各类别进行排序,将排在前面预定数量的类别作为待分类关键词所属的类别;和/或
[0044]将相似度值超过预定值的类别作为待分类关键词所属的类别。
[0045]本申请还公开了一种关键词分类系统,包括:
[0046]待分类关键词获取模块,用于获取待分类关键词;
[0047]关键词匹配模块,用于在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则将查询结果传递给关键词选取模块;
[0048]关键词选取模块,用于从预存的关联表中选取与所述待分类关键词相似的关键词;
[0049]相似度确定模块,用于确定所述待分类关键词与所述被选取的关键词所属类别的相似度;
[0050]关键词类别确定模块,用于根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。
[0051]进一步地,所述系统还包括关联表确定模块,用于确定预存的关联表,所述关联表确定模块包括:
[0052]用户历史查询数据获取单元,用于获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词;
[0053]用户历史点击数据获取单元,用于获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别;
[0054]关联表建立单元,用于建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。
[0055]进一步地,所述用户历史点击数据获取单元包括:
[0056]类别确定子单元,用于确定所有被点击的结果所对应的类别;
[0057]次数统计子单元,用于统计每一类别出现的次数;
[0058]类别确定子单元,用于将出现次数超过分类阈值的类别确定为当前关键词的类别。
[0059]进一步地,所述用户历史点击数据获取单元包括:
[0060]类别确定子单元,用于确定所有被点击的结果所对应的类别;
[0061]次数统计子单元,用于统计每一类别出现的次数;
[0062]相似度计算子单元,用于计算关键词与所属类别的相似度;
[0063]类别确定子单元,用于将出现次数超过分类阈值且相似度超过相似阈值的类别确定为当前关键词的类别。
[0064]进一步地,所述关键词选取模块包括:
[0065]相似度值计算单元,用于计算待分类关键词与预存的关联表中每一个关键词的相似度;
[0066]选取单元,用于按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。
[0067]进一步地,所述相似度值计算单元包括:
[0068]平均相似度确定子单元,用于确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度;
[0069]最大相似度确定子单元,用于确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度;
[0070]文字内容相似度确定子单元,用于确定当前类别与所述待分类关键词的文字内容相似度;
[0071]相似度确定子单元,用于根据前述三者确定所述待分类关键词与当前类别的相似度。
[0072]进一步地,所述关联表确定模块还包括关键词扩展单元,用于对选取的关键词进行扩展,所述扩展包括:
[0073]获取所述关键词的用户历史点击数据;
[0074]从历史点击数据中提取每一个被点击的搜索结果中所包含的关键词;
[0075]将所述提取的关键词作为扩展关键词。
[0076]进一步地,所述关联表确定模块还包括类别扩展单元,用于对确定的类别进行扩展,所述扩展包括:
[0077]获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目;
[0078]提取每一个条目所属的类别;
[0079]将提取的类别作为扩展类别。
[0080]进一步地,所述关键词类别确定模块包括:
[0081]排序确定单元,用于根据相似度对各类别进行排序,将排在前面预定数量的类别作为待分类关键词所属的类别;和/或
[0082]相似度值确定单元,用于将相似度值超过预定值的类别作为待分类关键词所属的类别。
[0083]与现有技术相比,本申请包括以下优点:
[0084]本申请的关键词分类方法及系统通过预先设置关联表来存储常见的关键词以及对应的类别,当待分类关键词为非常见关键词,在关联表中无法查询到时,通过从关联表中选取相似关键词,并计算该相似关键词对应的类别与待分类关键词的相似度的方式来确定待分类关键词的分类。前述过程中,主要通过实时获取相似关键词的用户历史数据,并根据这些历史数据来确定待分类关键词以及选取的相似关键词所对应的各类别的相似度,从而确定待分类关键词的类别。在此过程中,因为依照于已经分类的关联表,对于已经分类的关键词无需再分类,对于关联表中不存在的关键词再进行实时分类,从而可以减少计算量,提高分类处理的效率和速度,并避免重复分类而占用过多的系统资源。其次,利用关联表中对应关键词的用户历史数据来对关键词进行分类,可以使出现频率较低的关键词也能够准确分类,无需再额外处理,从而可以提高分类效率以及准确性。
[0085]另外,在分类过程中,除了考虑关联表中与待分类关键词相似的关键词,还会根据实际情况增加扩展关键词和/或类别,从而增加了类别和关键词的范围,提高了结果的准确性。
[0086]当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优点。
【专利附图】

【附图说明】
[0087]图1是本申请的关键词分类实现的系统架构图;
[0088]图2是本申请的关键词分类方法实施例一的流程图;
[0089]图3是本申请的关键词分类系统实施例一的结构示意图。
【具体实施方式】
[0090]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本申请作进一步详细的说明。
[0091]本申请的关键词分类系统可以作为服务器中的一个功能模块设置于服务器中,也可以作为一个独立的系统与服务器进行数据交互。参照图1,示出实现本申请的关键词分类系统架构图,其作为独立的系统与服务器进行数据交互。首先,关键词分类系统从服务器中获取需要进行分类的关键词,从预存在服务器中的关联表中查询,并根据查询结果进行后续处理,若预存在服务器中的关联表中存在于该待分类关键词匹配的关键词,则直接将关联表中该关键词所对应的类别作为待分类关键词的类别,反之,则实时对待分类关键词进行分类。实时分类的过程主要为通过获取该关键词相关的历史数据来进行,依照历史数据确定该待分类关键词的最终类别。最后,关键词分类系统将实时的分类结果传递给服务器。
[0092]下面对本申请的关键词分类方法及系统进行详细的说明。
[0093]参照图2,示出本申请的一种关键词分类方法实施例一,包括以下步骤:
[0094]步骤101,获取待分类关键词。
[0095]步骤102,在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则进行下一步骤。
[0096]预存的关联表为预先根据用户历史数据确定,并存储在服务器中。具体的确定过程如下:
[0097]Al,获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词;
[0098]A2,获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别;
[0099]A3,建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。
[0100]查询阈值可以根据实际需要来设定,可以是40次、50次或者其他数值,本申请对此并不限定。
[0101]每个关键词所属的类别可能只有一个,也可能有多个。根据关键词进行查询后,会出现较多的查询结果,系统中预先会对所有产品进行分类,即每一个查询结果都会有其对应的类别。当用户根据自己的需求点击对应的查询结果,系统则会获取该查询结果所对应的类别。当用户点击多个查询结果,则可能会出现多个对应的类别,最后,对各个类别出现的次数进行统计,则可以确定出关键词所属的类别。也即,根据点击数据确定所述关键词所属的类别具体可以采用如下方式实现:
[0102]确定所有被点击的结果所对应的类别;
[0103]统计每一类别出现的次数;
[0104]将出现次数超过分类阈值的类别确定为当前关键词的类别。
[0105]确定了关键词所属类别之后,则可以建立每个关键词与其所属类别的关联表,从而便于后续使用查询。
[0106]可以理解,在确定关键词所属类别时,除了考虑点击次数,还可以考虑关键词与所属类别的相似度。即在确定了被点击的结果所对应的类别后,还包括计算关键词与所属类别的相似度,最终将相似度超过相似阈值,且出现次数超过分类阈值的类别确定为当前关键词的类别。采用此种方式,可以更好的保证关键词以及所属类别的相关性,从而提高关键词分类的准确性。
[0107]步骤103,从预存的关联表中选取与所述待分类关键词相似的关键词。
[0108]其中,选取与所述待分类关键词相似的关键词包括:
[0109]计算待分类关键词与预存的关联表中每一个关键词的相似度;
[0110]按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。
[0111]其中,相似度可以采用余弦公式计算,即,将需要计算相似度的二者用向量的形式表示,然后计算两个向量之间的夹角的余弦值,通过余弦值来表示二者的相似度,余弦值越大,相似度越高。
[0112]步骤104,确定所述待分类关键词与所述被选取的关键词所属类别的相似度。
[0113]待分类关键词与被选取的关键词所属类别的相似度可以直接由待分类关键词与该类别的文字描述的相似度来表示。此时可以采用余弦公式来计算两者的相似度,具体过程如前所述,在此不再赘述。
[0114]可以理解,为了使相似度更为客观准确,还可以采用如下方法来计算待分类关键词与被选取的关键词所属类别的相似度:
[0115]确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度;
[0116]确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度;
[0117]确定当前类别与所述待分类关键词的文字内容相似度;
[0118]根据前述三者确定所述待分类关键词与当前类别的相似度。
[0119]在此过程中,除了考虑待分类关键词与当前类别的问题内容相似度,还考虑了当前类别与被选取的关键词中其所对应的关键词的平均相似度以及最大相似度,可以使待分类关键词与当前类别的相似度更为客观和准确,从而提高分类结果的准确性。
[0120]例如,假设待分类的关键词为a,与待分类关键词a相关的两个关键词分别为al,a2,每个相关关键词对应两个类别,其中,al对应类别Cl和c2,a2对应类别cl和c3,al跟Cl的相似度为wl,al跟c2的相似度《2为,a2跟Cl的相似度为w3,a2跟c3的相似度为w4。
[0121]那么采用前述方法来计算,a和Cl的相似度的具体过程如下:
[0122]首先,因为类别Cl对应的关键词包括al和a2,那么可以确定cl与al和a2的平均相关度,具体值为(wl+w3) +2 ;
[0123]其次,确定Cl与al和a2的最大相似度,假设w3大于wl,那么w3为最大相似度;
[0124]再次,确定a和Cl的文字内容相似度,假设最终计算值为w7。
[0125]那么,可以得出,a与cl的相似度为:xX (wl+w3) + 2+yXw3+zXw7。其中,x,y,z表示三种相似度的权重值,其具体的取值可以根据实际情况来设定,本申请对此并不限制。
[0126]步骤105,根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。
[0127]待分类关键词的类别确定标准可以根据实际情况来设定。可以根据相似度对各类别进行排序,选取排在前面一定数量的类别作为待分类关键词所属的类别,例如,选取一个、两个、三个或者更多的类别作为待分类关键词所属的类别。也可以直接根据相似度值进行确定,将待分类关键词与所述被选取的关键词所属类别的相似度超过一定阈值的类别都确定为待分类关键词所属的类别。或者,可以采用前述二者结合的方式,即需要排序在一定数量,且相似度值超过一定阈值的类别才能作为待分类关键词所属的类别。
[0128]优选地,为了更好的对关键词进行分类,在前述步骤Al之后还可以包括以下步骤:
[0129]All,对选取的关键词进行扩展。
[0130]所述扩展包括获取所述关键词的用户历史点击数据,提取每一个被点击的搜索结果中所包含的关键词,将所述提取的关键词作为扩展关键词。此时,前述步骤A2中所指的关键词同时包括步骤Al中得到的关键词(原始关键词)以及步骤All中得到的扩展关键词,后续处理过程则相同,在此不再赘述。
[0131]优选地,为了更好的对关键词进行分类,在前述步骤A2之后还可以包括以下步骤:
[0132]A21,对确定的类别进行扩展。
[0133]所述扩展包括获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目,提取每一个条目所属的类别,将提取的类别作为扩展类别。此时,前述步骤A3所指的类别同时包括步骤A2中得到的类别(原始类别)以及步骤A21中得到的扩展类别,后续处理过程则相同,在此不再赘述。
[0134]优选地,为了提高选取的效率以及加快分类处理速度和效率,当预存的关联表中关键词包含扩展关键词时,还可以确定扩展关键词与原始关键词的权重,在选取相似关键词时,可以按照权重大小进行选取,从而保证权重较高的优先被选取,以提高效率。可以理解,每个关键词的权重可以由基础权重和加权权重组成。基础权重指预先统计的所有关键词的权重值,加权权重指在以原始关键词作为搜索条件进行搜索时,根据各关键词在被点击的搜索结果中出现的次数确定的权重值。
[0135]本申请的关键词分类方法通过预先设置关联表来存储常见的关键词以及对应的类别,当待分类关键词为非常见关键词,在关联表中无法查询到时,通过从关联表中选取相似关键词,并计算该相似关键词对应的类别与待分类关键词的相似度的方式来确定待分类关键词的分类。前述过程中,主要通过实时获取相似关键词的用户历史数据,并根据这些历史数据来确定待分类关键词以及选取的相似关键词所对应的各类别的相似度,从而确定待分类关键词的类别。在此过程中,因为依照于已经分类的关联表,对于已经分类的关键词无需再分类,可以直接使用原有分类。对于关联表中不存在的关键词再进行实时分类,从而可以减少计算量,提高分类处理的效率和速度,并避免重复分类而占用过多的系统资源。另夕卜,利用关联表中对应关键词的用户历史数据来对关键词进行分类,可以使出现频率较低的关键词也能够准确分类,无需再额外处理,从而可以提高分类效率以及准确性。
[0136]另外,在分类过程中,除了考虑关联表中与待分类关键词相似的关键词,还会根据实际情况增加扩展关键词和/或类别,从而增加了类别和关键词的范围,提高了结果的准确性。
[0137]参照图3,示出本申请的关键词分类系统实施例一,包括待分类关键词获取模块
10、关键词匹配模块20、关键词选取模块30、相似度确定模块40和关键词类别确定模块50。
[0138]待分类关键词获取模块10,用于获取待分类关键词。
[0139]关键词匹配模块20,用于在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则将查询结果传递给关键词选取模块。
[0140]关键词选取模块30,用于从预存的关联表中选取与所述待分类关键词相似的关键词。优选地,关键词选取模块包括相似度值计算单元和选取单元。相似度值计算单元,用于计算待分类关键词与预存的关联表中每一个关键词的相似度。选取单元,用于按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。
[0141]优选地,相似度值计算单元可以包括平均相似度确定子单元、最大相似度确定子单元、文字内容相似度确定子单元和相似度确定子单元。平均相似度确定子单元,用于确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度。最大相似度确定子单元,用于确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度。文字内容相似度确定子单元,用于确定当前类别与所述待分类关键词的文字内容相似度。相似度确定子单元,用于根据前述三者确定所述待分类关键词与当前类别的相似度。
[0142]相似度确定模块40,用于确定所述待分类关键词与所述被选取的关键词所属类别的相似度。
[0143]关键词类别确定模块50,用于根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。优选地,关键词类别确定模块包括排序确定单元和/或相似度值确定单元。排序确定单元,用于根据相似度对各类别进行排序,将排在前面预定数量的类别作为待分类关键词所属的类别。相似度值确定单元,用于将相似度值超过预定值的类别作为待分类关键词所属的类别。
[0144]优选地,该系统还包括关联表确定模块,用于确定预存的关联表,所述关联表确定模块包括用户历史查询数据获取单元、用户历史点击数据获取单元和关联表建立单元。其中,用户历史查询数据获取单元,用于获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词。用户历史点击数据获取单元,用于获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别。关联表建立单元,用于建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。
[0145]优选地,用户历史点击数据获取单元包括类别确定子单元、次数统计子单元和类别确定子单元。类别确定子单元,用于确定所有被点击的结果所对应的类别。次数统计子单元,用于统计每一类别出现的次数。类别确定子单元,用于将出现次数超过分类阈值的类别确定为当前关键词的类别。
[0146]可以理解,用户历史点击数据获取单元也可以包括类别确定子单元,、次数统计子单元、相似度计算子单元和类别确定子单元。类别确定子单元,用于确定所有被点击的结果所对应的类别。次数统计子单元,用于统计每一类别出现的次数。相似度计算子单元,用于计算关键词与所属类别的相似度。类别确定子单元,用于将出现次数超过分类阈值且相似度超过相似阈值的类别确定为当前关键词的类别。
[0147]优选地,关联表确定模块还包括关键词扩展单元,用于对选取的关键词进行扩展,所述扩展包括获取所述关键词的用户历史点击数据;从历史点击数据中提取每一个被点击的搜索结果中所包含的关键词;将所述提取的关键词作为扩展关键词。
[0148]优选地,关联表确定模块还包括类别扩展单元,用于对确定的类别进行扩展,所述扩展包括获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目;提取每一个条目所属的类别;将提取的类别作为扩展类别。
[0149]本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0150]以上对本申请所提供的关键词分类方法及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
【权利要求】
1.一种关键词分类方法,其特征在于,包括以下步骤: 获取待分类关键词; 在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则进行下一步骤; 从预存的关联表中选取与所述待分类关键词相似的关键词; 确定所述待分类关键词与所述被选取的关键词所属类别的相似度; 根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。
2.如权利要求1所述的关键词分类方法,其特征在于,所述方法还包括确定预存的关联表,所述确定过程为: 获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词; 获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别; 建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。
3.如权利要求2所述的关键词分类方法,其特征在于,所述根据所述点击数据确定所述关键词所属的类别包括: 确定所有被点击的结果所对应的类别; 统计每一类别出现的次数; 将出现次数超过分类阈值的类别确定为当前关键词的类别。
4.如权利要求2所述的关键词分类方法,其特征在于,所述根据所述点击数据确定所述关键词所属的类别包括: 确定所有被点击的结果所对应的类别; 统计每一类别出现的次数; 计算关键词与所属类别的相似度; 将出现次数超过分类阈值且相似度超过相似阈值的类别确定为当前关键词的类别。
5.如权利要求1所述的关键词分类方法,其特征在于,所述选取与所述待分类关键词相似的关键词包括: 计算待分类关键词与预存的关联表中每一个关键词的相似度; 按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。
6.如权利要求5所述的关键词分类方法,其特征在于,所述计算待分类关键词与预存的关联表中每一个关键词的相似度包括: 确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度; 确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度; 确定当前类别与所述待分类关键词的文字内容相似度; 根据前述三者确定所述待分类关键词与当前类别的相似度。
7.如权利要求2所述的关键词分类方法,其特征在于,所述根据所述查询数据选取查询次数超过查询阈值的关键词之后还包括对选取的关键词进行扩展,所述扩展包括: 获取所述关键词的用户历史点击数据; 从历史点击数据中提取每一个被点击的搜索结果中所包含的关键词; 将所述提取的关键词作为扩展关键词。
8.如权利要求2所述的关键词分类方法,其特征在于,所述根据所述点击数据确定所述关键词所属的类别之后还包括对确定的类别进行扩展,所述扩展包括: 获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目; 提取每一个条目所属的类别; 将提取的类别作为扩展类别。
9.如权利要求1所述的关键词分类方法,其特征在于,所述根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别包括: 根据相似度对各类别进行排序,将排在前面预定数量的类别作为待分类关键词所属的类别;和/或 将相似度值超过预定值的类别作为待分类关键词所属的类别。
10.一种关键词分类系统,其特征在于,包括: 待分类关键词获取模块,用于获取待分类关键词; 关键词匹配模块,用于在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则将查询结果传递给关键词选取模块;关键词选取模块,用于从预存的关联表中选取与所述待分类关键词相似的关键词; 相似度确定模块,用于确定所述待分类关键词与所述被选取的关键词所属类别的相似度; 关键词类别确定模块,用于根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。
11.如权利要求10所述的关键词分类系统,其特征在于,所述系统还包括关联表确定模块,用于确定预存的关联表,所述关联表确定模块包括: 用户历史查询数据获取单元,用于获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词; 用户历史点击数据获取单元,用于获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别; 关联表建立单元,用于建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。
12.如权利要求11所述的关键词分类系统,其特征在于,所述用户历史点击数据获取单元包括: 类别确定子单元,用于确定所有被点击的结果所对应的类别; 次数统计子单元,用于统计每一类别出现的次数;类别确定子单元,用于将出现次数超过分类阈值的类别确定为当前关键词的类别。
13.如权利 要求11所述的关键词分类系统,其特征在于,所述用户历史点击数据获取单元包括:类别确定子单元,用于确定所有被点击的结果所对应的类别; 次数统计子单元,用于统计每一类别出现的次数; 相似度计算子单元,用于计算关键词与所属类别的相似度; 类别确定子单元,用于将出现次数超过分类阈值且相似度超过相似阈值的类别确定为当前关键词的类别。
14.如权利要求10所述的关键词分类系统,其特征在于,所述关键词选取模块包括: 相似度值计算单元,用于计算待分类关键词与预存的关联表中每一个关键词的相似度; 选取单元,用于按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。
15.如权利要求14所述的关键词分类系统,其特征在于,所述相似度值计算单元包括: 平均相似度确定子单元,用于确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度; 最大相似度确定子单元,用于确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度; 文字内容相似度确定子单元,用于确定当前类别与所述待分类关键词的文字内容相似度; 相似度确定子单元,用于根据前述三者确定所述待分类关键词与当前类别的相似度。
16.如权利要求11所述的关键词分类系统,其特征在于,所述关联表确定模块还包括关键词扩展单元,用于对选取的关键词进行扩展,所述扩展包括: 获取所述关键词的用户历史点击数据; 从历史点击数据中提取每一个被点击的搜索结果中所包含的关键词; 将所述提取的关键词作为扩展关键词。
17.如权利要求11所述的关键词分类系统,其特征在于,所述关联表确定模块还包括类别扩展单元,用于对确定的类别进行扩展,所述扩展包括: 获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目; 提取每一个条目所属的类别; 将提取的类别作为扩展类别。
18.如权利要求10所述的关键词分类系统,其特征在于,所述关键词类别确定模块包括: 排序确定单元,用于根据相似度对各类别进行排序,将排在前面预定数量的类别作为待分类关键词所属的类别;和/或 相似度值确定单元,用于将相似度值超过预定值的类别作为待分类关键词所属的类别。
【文档编号】G06F17/30GK103577423SQ201210257075
【公开日】2014年2月12日 申请日期:2012年7月23日 优先权日:2012年7月23日
【发明者】顾湘余, 黄云平, 郭宁 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1