聚类方法和装置制造方法

文档序号:6499758阅读:151来源:国知局
聚类方法和装置制造方法
【专利摘要】本发明公开了一种聚类方法和装置,属于网络【技术领域】。所述方法包括:获取用户使用的搜索关键字的至少一个第一特征;获取所述搜索关键字的至少一个第二特征;获取所述搜索关键字的至少一个第三特征;根据所述至少一个第一特征、至少一个第二特征和至少一个第三特征,获取至少一个聚类特征;根据获取到的至少一个聚类特征,进行聚类。采用本发明提供的方案,通过对多种特征的合并和处理,避免了由于特征过于稀疏而造成的聚类效果差的问题,减少了聚类结果的噪音,以获得最佳的聚类结果。
【专利说明】聚类方法和装置
【技术领域】
[0001]本发明涉及网络【技术领域】,特别涉及一种聚类方法和装置。
【背景技术】
[0002]随着网络的进步,越来越多的网络应用能够满足用户的各种需求,如搜索、导航等,在服务器端,为了对搜索过程中的文本信息进行有效地组织、摘要和导航,可根据搜索过程中所使用的搜索字符串进行聚类,以分析使用搜索服务的用户的搜索习惯,便于对服务器端的搜索服务进行优化。
[0003]通常来说,搜索字符串通常较短,而由于搜索结果中大多数网页和文章等所包含的内容较多,具有丰富的文本信息,如果将搜索字符串作为网页或文章的特征,会使特征数量巨大、造成特征过于稀疏,导致聚类效果差。

【发明内容】

[0004]为了改善聚类效果、避免特征过于稀疏的情况,本发明实施例提供了一种聚类方法和装置。所述技术方案如下:
[0005]一种聚类方法,所述方法包括:
[0006]根据用户的搜索关键字以及根据所述搜索关键字进行的搜索过程,获取所述至少一个第一特征、至少一个第二特征和至少一个第三特征;
[0007]根据所述至少一个第一特征、至少一个第二特征和至少一个第三特征,获取至少一个聚类特征;
[0008]根据获取到的至少一个聚类特征,进行聚类。
[0009]根据用户的搜索关键字以及根据所述搜索关键字进行的搜索过程,获取所述至少一个第一特征、至少一个第二特征和至少一个第三特征,包括:
[0010]获取用户使用的搜索关键字的至少一个第一特征,每个所述第一特征为根据所述搜索关键字进行搜索时获取到的被用户点击的搜索结果链接;
[0011]获取所述搜索关键字的至少一个第二特征,每个所述第二特征为所述被用户点击的搜索结果链接对应的页面标题的分词结果;
[0012]获取所述搜索关键字的至少一个第三特征,每个所述第三特征为所述搜索关键字的分词结果;
[0013]根据所述至少一个第一特征、至少一个第二特征和至少一个第三特征,获取聚类特征,包括:
[0014]按照特征值从大到小的顺序,获取所述至少一个第一特征中预设数值个第一特征作为聚类特征;
[0015]和/ 或,
[0016]将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征。
[0017]将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征,包括:[0018]所述至少一个第二特征与至少一个第三特征中相同的特征合并为一个聚类特征,将所述相同的特征的特征值的和值作为合并后的特征的特征值,所述第二特征的特征值为所述第二特征的词频,所述第三特征的特征值为所述第三特征的词频。
[0019]将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征,包括:
[0020]过滤所述至少一个第二特征和所述至少一个第三特征中的预设词。
[0021]将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征,包括:
[0022]按照特征值从大到小的顺序,获取所述至少一个第二特征和至少一个第三特征中预设数值个特征作为聚类特征。
[0023]一种聚类装置,所述装置包括:
[0024]特征获取模块,用于根据用户的搜索关键字以及根据所述搜索关键字进行的搜索过程,获取所述至少一个第一特征、至少一个第二特征和至少一个第三特征;
[0025]聚类特征获取模块,用于根据所述至少一个第一特征、至少一个第二特征和至少一个第三特征,获取至少一个聚类特征;
[0026]聚类模块,用于根据获取到的至少一个聚类特征,进行聚类。
[0027]特征获取模块用于获取用户使用的搜索关键字的至少一个第一特征,每个所述第一特征为根据所述搜索关键字进行搜索时获取到的被用户点击的搜索结果链接;
[0028]所述特征获取模块还用于获取所述搜索关键字的至少一个第二特征,每个所述第二特征为所述被用户点击的搜索结果链接对应的页面标题的分词结果;
[0029]所述特征获取模块还用于获取所述搜索关键字的至少一个第三特征,每个所述第三特征为所述搜索关键字的分词结果;
[0030]所述聚类特征获取模块用于按照特征值从大到小的顺序,获取所述至少一个第一特征中预设数值个第一特征作为聚类特征;
[0031]和/ 或,
[0032]所述聚类特征获取模块用于将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征。
[0033]所述聚类特征获取模块用于所述至少一个第二特征与至少一个第三特征中相同的特征合并为一个聚类特征,将所述相同的特征的特征值的和值作为合并后的特征的特征值,所述第二特征的特征值为所述第二特征的词频,所述第三特征的特征值为所述第三特征的词频。
[0034]所述聚类特征获取模块用于过滤所述至少一个第二特征和所述至少一个第三特征中预设词。
[0035]所述聚类特征获取模块用于按照特征值从大到小的顺序,获取所述至少一个第二特征和至少一个第三特征中预设数值个特征作为聚类特征。
[0036]本发明实施例提供的一种聚类方法和装置,通过根据用户的搜索关键字以及根据所述搜索关键字进行的搜索过程,获取所述至少一个第一特征、至少一个第二特征和至少一个第三特征;根据所述至少一个第一特征、至少一个第二特征和至少一个第三特征,获取至少一个聚类特征;根据获取到的至少一个聚类特征,进行聚类。采用本发明提供的方案,通过对多种特征的合并和处理,避免了由于特征过于稀疏而造成的聚类效果差的问题,减少了聚类结果的噪音,以获得最佳的聚类结果。【专利附图】

【附图说明】
[0037]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1是本发明实施例提供的一种聚类方法的流程图;
[0039]图2是本发明实施例提供的一种聚类方法的流程图;
[0040]图3是本发明实施例提供的一种聚类装置的结构示意图。
【具体实施方式】
[0041]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0042]图1是本发明实施例提供的一种聚类方法的流程图。参见图1,该实施例包括:
[0043]101、根据用户的搜索关键字以及根据所述搜索关键字进行的搜索过程,获取所述至少一个第一特征、至少一个第二特征和至少一个第三特征;
[0044]102、根据所述至少一个第一特征、至少一个第二特征和至少一个第三特征,获取至少一个聚类特征;
[0045]103、根据获取到的至少一个聚类特征,进行聚类。
[0046]可选地,根据用户的搜索关键字以及根据所述搜索关键字进行的搜索过程,获取所述至少一个第一特征、至少一个第二特征和至少一个第三特征,包括:
[0047]获取用户使用的搜索关键字的至少一个第一特征,每个所述第一特征为根据所述搜索关键字进行搜索时获取到的被用户点击的搜索结果链接;
[0048]获取所述搜索关键字的至少一个第二特征,每个所述第二特征为所述被用户点击的搜索结果链接对应的页面标题的分词结果;
[0049]获取所述搜索关键字的至少一个第三特征,每个所述第三特征为所述搜索关键字的分词结果;
[0050]可选地,根据所述至少一个第一特征、至少一个第二特征和至少一个第三特征,获取聚类特征,包括:
[0051]按照特征值从大到小的顺序,获取所述至少一个第一特征中预设数值个第一特征作为聚类特征;
[0052]和/ 或,
[0053]将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征。
[0054]可选地,将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征,包括:
[0055]所述至少一个第二特征与至少一个第三特征中相同的特征合并为一个聚类特征,将所述相同的特征的特征值的和值作为合并后的特征的特征值,所述第二特征的特征值为所述第二特征的词频,所述第三特征的特征值为所述第三特征的词频。
[0056]可选地,将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征,包括:
[0057]过滤所述至少一个第二特征和所述至少一个第三特征中预设词。
[0058]可选地,将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征,包括:
[0059]按照特征值从大到小的顺序,获取所述至少一个第二特征和至少一个第三特征中预设数值个特征作为聚类特征。
[0060]本发明实施例提供的方法,通过对多种特征的合并和处理,避免了由于特征过于稀疏而造成的聚类效果差的问题,减少了聚类结果的噪音,以获得最佳的聚类结果。
[0061]图2是本发明实施例提供的一种聚类方法的流程图。该聚类方法可应用于运营商侧的搜索优化过程,其执行主体可以是具有聚类功能的服务器,参见图2,该实施例包括:
[0062]201、获取用户使用的搜索关键字的至少一个第一特征,每个所述第一特征为根据所述搜索关键字进行搜索时获取到的被用户点击的搜索结果链接;
[0063]优选地,该搜索结果链接为URL (Universal Resource Locator,统一资源定位符)。
[0064]在用户的搜索过程中,每当使用搜索关键字进行搜索时,均会得到多个与该搜索关键字相应的搜索结果,而用户根据自身的需求进行点击以便打开链接指向页面,被用户点击的搜索结果链接、点击时间等会记录在点击日志中,而服务器可通过对点击日志的分析,获知用户对搜索结果的点击情况,从而得到搜索关键字的至少一个第一特征。
[0065]而对于搜索关键字的第一特征来说,该第一特征的特征值为该第一特征被点击的次数,优选地,该搜索关键字的第一特征的特征值为该第一特征作为该搜索关键字的搜索结果时被点击的次数。如,对于一个搜索关键字queryl,收集用户根据queryl进行的搜索的点击日志,通过点击日志的分析获知,urIA有3人点击,urIB有5人点击,urIC有I人点击。则将urlA、urlB、urlC作为queryl的特征,其特征值分别是3、5、I。
[0066]需要说明的是,该步骤201可以是同时对多个搜索关键字的特征的获取过程,本发明实施例中,仅以一个搜索关键字为例进行说明,而在实际应用中,可以是实时对当前用户的搜索过程进行分析以获取特征,也可以是每隔预设时长对在预设时长内用户的搜索过程进行分析以获取特征。
[0067]202、按照特征值从大到小的顺序,获取所述至少一个第一特征中预设数值个第一特征作为聚类特征,执行步骤206 ;
[0068]对于第一特征来说,由于用户点击比较分散,导致一个搜索关键字对应的第一特征过多,使得特征过于分散。因此,按照第一特征的特征值从大到小的顺序,也即是第一特征的被点击次数从高到低,获取前预设数值个第一特征作为聚类特征,该预设数值可以为任意整数,其中,该预设数值可以根据服务器性能、运营商需求等进行设置,该预设数值还可以根据文章长短以及文章特征丰富程度设置,当文章较长或特征较多时,预设数值取较大的正整数;当文章较短或特征较少时,预设数值取较小的正整数。
[0069]例如,基于步骤201的示例,对于一个搜索关键字queryl, urlA、urlB、urlC为queryl的特征,其特征值分别是3、5、1,而预设数值为2,则根据特征值大小排序,获取特征值为5的urlB和特征值为3的urlA作为聚类特征。
[0070]203、获取所述搜索关键字的至少一个第二特征,每个所述第二特征为所述被用户点击的搜索结果链接对应的页面标题的分词结果,执行步骤205 ;
[0071] 由于一次搜索过程中所产生的搜索结果较多,或多个用户对同一搜索关键字的搜索中所点击的链接较多,使得第一特征较为稀疏,为了增加特征以及特征的维度,将被用户点击的搜索结果链接对应的页面标题的分词结果作为搜索关键字的第二特征。如,比如搜索关键字queryl的特征urlA是对应的页面标题是“腾讯搜搜_搜搜更懂你”,分词结果是“腾讯”、“搜搜”、“搜搜”、“更”、“懂你”。那么,将分词结果“腾讯” “搜搜”、“更”、“懂你”分别作为queryl的第二特征,特征值为词频,而根据各个第二特征在分词结果中的词频,第二特征“腾讯” “搜搜”、“更”、“懂你”的特征值均为I。
[0072]204、获取所述搜索关键字的至少一个第三特征,每个所述第三特征为所述搜索关键字的分词结果,执行步骤205 ;
[0073]为了进一步增加特征,可将搜索关键字自身的文本信息作为获取特征的来源,对搜索关键字进行分词,并将其分词结果作为第三特征。如,比如搜索关键字query〗是“智能手机价格比较”,那么将query2分词后的结果“智能”、“手机”、“价格”和“比较”分别作为搜索关键字query〗的第三特征,特征值取词频,而根据各个第三特征在分词结果中的词频,第三特征“智能”、“手机”、“价格”和“比较”的特征值均为I。
[0074]205、将所述至少一个第二特征和至少一个第三特征合并;
[0075]对于第二特征和第三特征,由于该两类特征都是文本分词的结果,所以,第二特征和第三特征之间会出现交集,则需要将第二特征和第三特征中相同的特征进行合并。具体地,将所述至少一个第二特征与至少一个第三特征中相同的特征合并为一个聚类特征,将所述相同的特征的特征值的和值作为合并后的特征的特征值,所述第二特征的特征值为所述第二特征的词频,所述第三特征的特征值为所述第三特征的词频。
[0076]优选地,在合并过程中,将对于相同的特征来说,将其对应的第二特征的特征值的M倍与第三特征的特征值求和,其中,M为正整数。其中,M是不为零的任意正数,在不同的情况下,M取值不同,M可以取1、M可以取大于I的值,M也可以取小于I的正数;如果第二特征和第三特征在文章中的权重相同时,M取I ;如果要增大第三特征的权重时,M取大于I的值;如果要增大第二特征的权重时,M取小于的正数。在本实施例中,M可以取3,即将所述第二特征和所述第三特征合并时,将其对应的第二特征的特征值的3倍与第三特征的特征值求和。
[0077]例如,第二特征为“搜搜” “更” “懂你” “互动” “百科” “腾讯” “的” “微空间” “微
博”;第三特征为“腾讯” “搜搜”;第二特征和第三特征具有相同的特征“腾讯” “搜搜”,因此,将相同的特征“腾讯”进行合并,其特征值分别为第二特征“腾讯”和第三特征“腾讯”的特征值的和,将相同的特征“搜搜”进行合并,其特征值分别为第二特征“搜搜”和第三特征“搜搜”的特征值的和。
[0078]进一步地,该方法还包括:过滤所述至少一个第二特征和所述至少一个第三特征中的预设词。
[0079]由于第二特征和第三特征属于文本特征,因此第二特征和第三特征中可能包括没有意义的停止词和部分副词,没有意义的停止词如“的” “和”等,副词如“最” “较”等。因此,需要对预设词进行过滤,该预设词可以由管理员或技术人员进行设置,可以是对词性的设置,如过滤停止词和副词,也可以是对具体词的设置,如过滤“最” “的” “较”等词。[0080]需要说明的是,该过滤可以是在获取到第二特征和第三特征时,对第二特征和第三特征分别进行,也可以是在第二特征和第三特征合并后进行。
[0081]206、按照特征值从大到小的顺序,获取所述至少一个第二特征和至少一个第三特征中预设数值个特征作为聚类特征;
[0082]其中,该预设数值和上述步骤202中的预设数值可以为相同值,也可以为不同值,本发明实施例对此不做限定。如,在给步骤206中,预设数值可以取100,即将按特征值从大到小顺序的顺序,获取所述至少一个第二特征和至少一个第三特征中前100个特征,将获取到的前100个特征作为聚类特征。
[0083]可选地,该步骤206还可以被以下步骤代替:按照特征值从大到小的顺序,获取至少一个第一特征、至少一个第二特征和至少一个第三特征中预设数值个特征作为聚类特征。其中,该步骤中所述的第一特征既可以是已经获取到的预设数值个第一特征,也可以是获取到的所有第一特征,本发明实施例不做限定。
[0084]本发明实施例是以对第一特征仅取前预设数值个,对于第二特征和第三特征采取合并的方法为例进行说明,而在实际应用中,还可以是仅按照特征值从大到小的顺序,获取所述至少一个第一特征中预设数值个第一特征作为聚类特征;或,仅将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征。本发明实施例对其具体组合方式不做限定。
[0085]207、根据获取到的至少一个聚类特征,进行聚类。
[0086]本发明实施例对具体使用的聚类算法不做限定,该聚类可以根据划分方法、层次方法、基于密度的方法等进行。
[0087]本发明实施例提供的方法,通过根据用户的搜索关键字以及根据所述搜索关键字进行的搜索过程,获取所述至少一个第一特征、至少一个第二特征和至少一个第三特征;根据所述至少一个第一特征、至少一个第二特征和至少一个第三特征,获取至少一个聚类特征;根据获取到的至少一个聚类特征,进行聚类。采用本发明提供的方案,通过对多种特征的合并和处理,避免了由于特征过于稀疏而造成的聚类效果差的问题,减少了聚类结果的噪音,获得最佳的聚类结果。
[0088]图3是本发明实施例提供了一种聚类装置结构示意图。参见图3,该装置包括:
[0089]特征获取模块301,用于根据用户的搜索关键字以及根据所述搜索关键字进行的搜索过程,获取所述至少一个第一特征、至少一个第二特征和至少一个第三特征;
[0090]聚类特征获取模块302,用于根据所述至少一个第一特征、至少一个第二特征和至少一个第三特征,获取至少一个聚类特征;
[0091]聚类模块303,用于根据获取到的至少一个聚类特征,进行聚类。
[0092]可选地,特征获取模块301用于获取用户使用的搜索关键字的至少一个第一特征,每个所述第一特征为根据所述搜索关键字进行搜索时获取到的被用户点击的搜索结果链接;
[0093]在用户的搜索过程中,每当使用搜索关键字进行搜索时,均会得到多个与该搜索关键字相应的搜索结果,而用户根据自身的需求进行点击以便打开链接指向页面,被用户点击的搜索结果链接、点击时间等会记录在点击日志中,而服务器可通过对点击日志的分析,获知用户对搜索结果的点击情况,从而得到搜索关键字的至少一个第一特征。
[0094]而对于搜索关键字的第一特征来说,该第一特征的特征值为该第一特征被点击的次数,优选地,该搜索关键字的第一特征的特征值为该第一特征作为该搜索关键字的搜索结果时被点击的次数。如,对于一个搜索关键字queryl,收集用户根据queryl进行的搜索的点击日志,通过点击日志的分析获知,urIA有3人点击,urIB有5人点击,urIC有I人点击。则将urlA、urlB、urlC作为queryl的特征,其特征值分别是3、5、I。
[0095]对于第一特征来说,由于用户点击比较分散,导致一个搜索关键字对应的第一特征过多,使得特征过于分散。因此,按照第一特征的特征值从大到小的顺序,也即是第一特征的被点击次数从高到低,获取前预设数值个第一特征作为聚类特征,该预设数值可以为任意整数,其中,该预设数值可以根据服务器性能、运营商需求等进行设置,该预设数值还可以根据文章长短以及文章特征丰富程度设置,当文章较长或特征较多时,预设数值取较大的正整数;当文章较短或特征较少时,预设数值取较小的正整数。
[0096]所述特征获取模块301还用于获取所述搜索关键字的至少一个第二特征,每个所述第二特征为所述被用户点击的搜索结果链接对应的页面标题的分词结果;
[0097]由于一次搜索过程中所产生的搜索结果较多,或多个用户对同一搜索关键字的搜索中所点击的链接较多,使得第一特征较为稀疏,为了增加特征以及特征的维度,将被用户点击的搜索结果链接对应的页面标题的分词结果作为搜索关键字的第二特征。 [0098]所述特征获取模块301还用于获取所述搜索关键字的至少一个第三特征,每个所述第三特征为所述搜索关键字的分词结果;
[0099]为了进一步增加特征,可将搜索关键字自身的文本信息作为获取特征的来源,对搜索关键字进行分词,并将其分词结果作为第三特征。如,比如搜索关键字query〗是“智能手机价格比较”,那么将query2分词后的结果“智能”、“手机”、“价格”和“比较”分别作为搜索关键字query〗的第三特征,特征值取词频,而根据各个第三特征在分词结果中的词频,第三特征“智能”、“手机”、“价格”和“比较”的特征值均为I。
[0100]可选地,所述聚类特征获取模块302用于按照特征值从大到小的顺序,获取所述至少一个第一特征中预设数值个第一特征作为聚类特征;
[0101]和/ 或,
[0102]所述聚类特征获取模块302用于将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征。
[0103]可选地,所述聚类特征获取模块302用于所述至少一个第二特征与至少一个第三特征中相同的特征合并为一个聚类特征,将所述相同的特征的特征值的和值作为合并后的特征的特征值,所述第二特征的特征值为所述第二特征的词频,所述第三特征的特征值为所述第三特征的词频。
[0104]可选地,所述聚类特征获取模块302用于过滤所述至少一个第二特征和所述至少一个第三特征中预设词。
[0105]由于第二特征和第三特征属于文本特征,因此第二特征和第三特征中可能包括没有意义的停止词和部分副词,没有意义的停止词如“的” “和”等,副词如“最” “较”等。因此,需要对预设词进行过滤,该预设词可以由管理员或技术人员进行设置,可以是对词性的设置,如过滤停止词和副词,也可以是对具体词的设置,如过滤“最” “的” “较”等词。
[0106]需要说明的是,该过滤可以是在获取到第二特征和第三特征时,对第二特征和第三特征分别进行,也可以是在第二特征和第三特征合并后进行。[0107]可选地,所述聚类特征获取模块302用于按照特征值从大到小的顺序,获取所述至少一个第二特征和至少一个第三特征中预设数值个特征作为聚类特征。
[0108]本发明实施例提供的装置,通过根据用户的搜索关键字以及根据所述搜索关键字进行的搜索过程,获取所述至少一个第一特征、至少一个第二特征和至少一个第三特征;根据所述至少一个第一特征、至少一个第二特征和至少一个第三特征,获取至少一个聚类特征;根据获取到的至少一个聚类特征,进行聚类。采用本发明提供的方案,通过对多种特征的合并和处理,避免了由于特征过于稀疏而造成的聚类效果差的问题,减少了聚类结果的噪音,获得最佳的聚类结果。
[0109]需要说明的是:上述实施例提供的聚类装置在聚类特征选取时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的聚类装置与聚类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0110]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0111]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种聚类方法,其特征在于,所述方法包括: 根据用户的搜索关键字以及根据所述搜索关键字进行的搜索过程,获取所述至少一个第一特征、至少一个第二特征和至少一个第三特征; 根据所述至少一个第一特征、至少一个第二特征和至少一个第三特征,获取至少一个聚类特征; 根据获取到的至少一个聚类特征,进行聚类。
2.根据权利要求1所述的方法,其特征在于,根据用户的搜索关键字以及根据所述搜索关键字进行的搜索过程,获取所述至少一个第一特征、至少一个第二特征和至少一个第三特征,包括: 获取用户使用的搜索关键字的至少一个第一特征,每个所述第一特征为根据所述搜索关键字进行搜索时获取到的被用户点击的搜索结果链接; 获取所述搜索关键字的至少一个第二特征,每个所述第二特征为所述被用户点击的搜索结果链接对应的页面标题的分词结果; 获取所述搜索关键字的至少一个第三特征,每个所述第三特征为所述搜索关键字的分词结果。
3.根据权利要求1所述的方法,其特征在于,根据所述至少一个第一特征、至少一个第二特征和至少一个第三特征, 获取聚类特征,包括: 按照特征值从大到小的顺序,获取所述至少一个第一特征中预设数值个第一特征作为聚类特征; 和/或, 将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征。
4.根据权利要求3所述的方法,其特征在于,将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征,包括: 所述至少一个第二特征与至少一个第三特征中相同的特征合并为一个聚类特征,将所述相同的特征的特征值的和值作为合并后的特征的特征值,所述第二特征的特征值为所述第二特征的词频,所述第三特征的特征值为所述第三特征的词频。
5.根据权利要求3或4所述的方法,其特征在于,将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征,包括: 过滤所述至少一个第二特征和所述至少一个第三特征中的预设词。
6.根据权利要求3或4所述的方法,其特征在于,将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征,包括: 按照特征值从大到小的顺序,获取所述至少一个第二特征和至少一个第三特征中预设数值个特征作为聚类特征。
7.一种聚类装置,其特征在于,所述装置包括: 特征获取模块,用于根据用户的搜索关键字以及根据所述搜索关键字进行的搜索过程,获取所述至少一个第一特征、至少一个第二特征和至少一个第三特征; 聚类特征获取模块,用于根据所述至少一个第一特征、至少一个第二特征和至少一个第三特征,获取至少一个聚类特征; 聚类模块,用于根据获取到的至少一个聚类特征,进行聚类。
8.根据权利要求7所述的装置,其特征在于,特征获取模块用于获取用户使用的搜索关键字的至少一个第一特征,每个所述第一特征为根据所述搜索关键字进行搜索时获取到的被用户点击的搜索结果链接; 所述特征获取模块还用于获取所述搜索关键字的至少一个第二特征,每个所述第二特征为所述被用户点击的搜索结果链接对应的页面标题的分词结果; 所述特征获取模块还用于获取所述搜索关键字的至少一个第三特征,每个所述第三特征为所述搜索关键字的分词结果。
9.根据权利要求7所述的装置,其特征在于,所述聚类特征获取模块用于按照特征值从大到小的顺序,获取所述至少一个第一特征中预设数值个第一特征作为聚类特征; 和/或, 所述聚类特征获取模块用于将所述至少一个第二特征和至少一个第三特征合并,作为聚类特征。
10.根据权利要求8所述的装置,其特征在于,所述聚类特征获取模块用于所述至少一个第二特征与至少一个第三特征中相同的特征合并为一个聚类特征,将所述相同的特征的特征值的和值作为合并后的特征的特征值,所述第二特征的特征值为所述第二特征的词频,所述第三特征的特征值为所述第三特征的词频。
11.根据权利要求8或9所述的装置,其特征在于,所述聚类特征获取模块用于过滤所述至少一个第二特征和所述至少一个第三特征中预设词。
12.根据权利要求8或9所述的装置,其特征在于,所述聚类特征获取模块用于按照特征值从大到小的顺序,获取所述至少一个第二特征和至少一个第三特征中预设数值个特征作为聚类特征。
【文档编号】G06F17/30GK103970797SQ201310043564
【公开日】2014年8月6日 申请日期:2013年2月4日 优先权日:2013年2月4日
【发明者】高健, 陈戈, 杨志峰 申请人:深圳市世纪光速信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1