网页搜索关键词统计方法及装置制造方法

文档序号:6627867阅读:178来源:国知局
网页搜索关键词统计方法及装置制造方法
【专利摘要】本发明公开了一种网页搜索关键词统计方法及装置。该网页搜索关键词统计方法包括:获取网页搜索过程中输入的多个搜索关键词;分别计算多个搜索关键词中各个搜索关键词之间的相似度;将多个搜索关键词中相似度达到预设阈值的搜索关键词作为一个关键词类,得到至少一个关键词类,在至少一个关键词类中包括至少两个不同的搜索关键词;统计关键词类中搜索关键词的搜索次数。通过本发明,提高了网页搜索关键词的统计准确性。
【专利说明】网页搜索关键词统计方法及装置

【技术领域】
[0001] 本发明涉及数据统计领域,具体而言,涉及一种网页搜索关键词统计方法及装置。

【背景技术】
[0002] 用户通常会抱有一定的目的和意图浏览网站。对于网站而言,了解用户访问的真 实意图非常重要。用户输入的站内搜索关键词是用户需求的集中表现,对用户输入的站内 搜索关键词热度的统计是网站了解用户需求分布情况的主要手段。传统网站统计用户输入 的站内搜索关键词的热度的方法是对站内每一个搜索关键词出现的次数进行统计,然后进 行降序排列,取出被搜索次数最高的若干个搜索关键词进行展示,用于网站了解用户需求。
[0003] 现有统计方式是假定一个站内搜索关键词即表达一种用户需求。例如,"国足"、 "中国男足"、"烤鸭"3个站内搜索关键词均可以表达用户所需表达的需求。但是,现有技术 忽略了"国足"和"中国男足"所表达的用户需求相同,将"国足"和"中国男足"分别进行统 计和排序将导致网站不能获得真实的用户需求统计。忽略了不同站内搜索关键词所代表的 用户需求之间的相关性,往往导致统计出的结果不能真实的反映用户搜索行为所体现的用 户需求。例如:站内搜索关键词"快乐男声"的统计次数为50000,站内搜索关键词"快男" 的统计次数是40000,站内搜索关键词"中国好声音"的统计次数是80000,在采用现有统计 方式进行排序后,站内搜索关键词"中国好声音"的排名最靠前。但事实上,站内搜索关键 词"快乐男声"和"快男"指代的是同一电视节目(即相同的用户需求),但因为"快男"是 "快乐男声"简称的缘故使得二者被分开统计,而导致这一电视节目的排名落后。
[0004] 针对相关技术中网页搜索关键词的统计不准确的问题,目前尚未提出有效的解决 方案。


【发明内容】

[0005] 针对现有的网页搜索关键词的统计不准确的问题而提出本发明,为此,本发明的 主要目的在于提供一种网页搜索关键词统计方法及装置,以解决上述问题。
[0006] 为了实现上述目的,根据本发明的一个方面,提供了一种网页搜索关键词统计方 法。该方法包括:获取网页搜索过程中输入的多个搜索关键词;分别计算多个搜索关键词 中各个搜索关键词之间的相似度;将多个搜索关键词中相似度达到预设阈值的搜索关键词 作为一个关键词类,得到至少一个关键词类,在至少一个关键词类中包括至少两个不同的 搜索关键词;统计关键词类中搜索关键词的搜索次数。
[0007] 进一步地,获取网页搜索过程中输入的多个搜索关键词包括:在网页加载脚本文 件代码;通过脚本文件代码监测网页搜索行为以获取多个搜索关键词。
[0008] 进一步地,在分别计算多个搜索关键词中各个搜索关键词之间的相似度之前,该 方法还包括:对多个搜索关键词进行筛选,筛选出多个搜索关键词中不重复的网页搜索关 键词;分别计算多个搜索关键词中各个搜索关键词之间的相似度包括:分别计算筛选出的 多个搜索关键词中各个搜索关键词之间的相似度;将多个搜索关键词中相似度达到预设阈 值的搜索关键词作为一个关键词类,得到至少一个关键词类,在至少一个关键词类中包括 至少两个不同的搜索关键词包括:将筛选出的多个搜索关键词中相似度达到预设阈值的搜 索关键词作为一个关键词类;统计关键词类中搜索关键词的搜索次数包括:统计多个搜索 关键词中属于关键词类的搜索关键词的搜索次数。
[0009] 进一步地,多个搜索关键词包括第一搜索关键词和第二搜索关键词,其中,分别计 算多个搜索关键词中各个搜索关键词之间的相似度包括:将第一搜索关键词和第二搜索关 键词分别分离成单独的字符,将第一搜索关键词分离得到的所有字符作为第一搜索关键词 序列,将第二搜索关键词分离得到的所有字符作为第二搜索关键词序列;统计第一字符数 量,其中,第一字符数量为第一搜索关键词序列和第二搜索关键词序列均包含的字符的数 量;统计第二字符数量,其中,第二字符数量为第一搜索关键词序列和第二搜索关键词序列 包含的不重复的字符的总数量;将第一字符数量和第二字符数量的比值作为第一搜索关键 词和第二搜索关键词之间的相似度。
[0010] 进一步地,至少一个关键词类包括多个关键词类,统计关键词类中搜索关键词的 搜索次数包括分别统计多个关键词类的搜索次数,在分别统计多个关键词类的搜索次数之 后,该方法还包括:对多个关键词类中的每一个关键词类分别进行命名;按照统计得到的 多个关键词类的搜索次数对命名之后的所有关键词类进行排序。
[0011] 为了实现上述目的,根据本发明的另一方面,提供了一种网页搜索关键词统计装 置,该装置包括:第一获取单元,用于获取网页搜索过程中输入的多个搜索关键词;计算单 元,用于分别计算多个搜索关键词中各个搜索关键词之间的相似度;第二获取单元,用于将 多个搜索关键词中相似度达到预设阈值的搜索关键词作为一个关键词类,得到至少一个关 键词类,在至少一个关键词类中包括至少两个不同的搜索关键词;统计单元,用于统计关键 词类中搜索关键词的搜索次数。
[0012] 进一步地,第一获取单元包括:加载模块,用于在网页加载脚本文件代码;获取模 块,用于通过脚本文件代码监测网页搜索行为以获取多个搜索关键词。
[0013] 进一步地,该装置还包括:筛选单元,用于对多个搜索关键词进行筛选,筛选出多 个搜索关键词中不重复的网页搜索关键词,其中,计算单元用于分别计算筛选出的多个搜 索关键词中各个搜索关键词之间的相似度,第二获取单元用于将筛选出的多个搜索关键词 中相似度达到预设阈值的搜索关键词作为一个关键词类,统计单元用于统计多个搜索关键 词中属于关键词类的搜索关键词的搜索次数。
[0014] 进一步地,第一获取单元用于获取多个搜索关键词,其中,多个搜索关键词包括第 一搜索关键词和第二搜索关键词,计算单元包括:分离模块,用于将第一搜索关键词和第二 搜索关键词分别分离成单独的字符,将第一搜索关键词分离得到的所有字符作为第一搜索 关键词序列,将第二搜索关键词分离得到的所有字符作为第二搜索关键词序列;第一统计 模块,用于统计第一字符数量,其中,第一字符数量为第一搜索关键词序列和第二搜索关键 词序列均包含的字符的数量;第二统计模块,用于统计第二字符数量,其中,第二字符数量 为第一搜索关键词序列和第二搜索关键词序列包含的不重复的字符的总数量;计算模块, 用于将第一字符数量和第二字符数量的比值作为第一搜索关键词和第二搜索关键词之间 的相似度。
[0015] 进一步地,第二获取单元用于将多个搜索关键词中相似度达到预设阈值的搜索关 键词作为一个关键词类,得到多个关键词类,在多个关键词类中至少一个关键词类包括至 少两个不同的搜索关键词,统计单元用于分别统计多个关键词类的搜索次数,该装置还包 括:命名单元,用于对多个关键词类中的每一个关键词类分别进行命名;排序单元,用于按 照统计得到的多个关键词类的搜索次数对命名之后的所有关键词类进行排序。
[0016] 通过本发明,采用包括以下步骤的方法:获取网页搜索过程中输入的多个搜索关 键词;分别计算多个搜索关键词中各个搜索关键词之间的相似度;将多个搜索关键词中相 似度达到预设阈值的搜索关键词作为一个关键词类,得到至少一个关键词类,在至少一个 关键词类中包括至少两个不同的搜索关键词;统计关键词类中搜索关键词的搜索次数,解 决了网页搜索关键词的统计不准确的问题,进而达到了通过统计相似度满足预设阈值的关 键词类中关键词的搜索次数来提高搜索关键词统计准确性的效果。

【专利附图】

【附图说明】
[0017] 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0018] 图1是根据本发明的网页搜索关键词统计方法的第一实施例的流程图;
[0019] 图2是根据本发明的网页搜索关键词统计方法的第二实施例的流程图;
[0020] 图3是根据本发明的网页搜索关键词统计方法的第三实施例的流程图;
[0021] 图4是根据本发明的网页搜索关键词统计装置的第一实施例的结构框图;
[0022] 图5是根据本发明的网页搜索关键词统计装置的第二实施例的结构框图;以及
[0023] 图6是根据本发明的网页搜索关键词统计装置的第三实施例的结构框图。

【具体实施方式】
[0024] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本发明。
[0025] 图1是根据本发明的网页搜索关键词统计方法的第一实施例的流程图。如图1所 示,该方法包括如下步骤:
[0026] 步骤S102,获取网页搜索过程中输入的多个搜索关键词。
[0027] 用户在网页上输入的网页搜索关键词往往代表了用户浏览网站的真实意图,对大 量的搜索关键词的获取和统计,可以用于展示用户在该网站的需求分布,从而有助于网站 主更新网站设置,提高网站访问量。
[0028] 需要注意的是,用户在一次会话中进行的多次站内搜索行为,应记录为多条搜索 关键词;在一次会话中重复多次搜索相同的关键词,也应记录为多条。可选地,网页搜索过 程中输入的多个搜索关键词最终以List〈〉的方式进行存储。
[0029] 例如,用户在一次会话中输入的搜索关键词,按照先后顺序分别为:"达沃斯论 坛","达沃斯论坛","天津","世界经济论坛"。该会话中,虽然"达沃斯论坛"重复出现两次, 但在记录时应分别记录为2个搜索关键词。
[0030] 步骤S104,分别计算多个搜索关键词中各个搜索关键词之间的相似度。
[0031] 搜索关键词之间的相似度的计算可以通过编写程序实现。例如,计算搜索关键词i 和搜索关键词j之间的相似度,在程序中二者分别用Queryi和Queryj表示,获取返回值, 即这两个搜索关键词的相似度。该程序可以但不仅限于表示如下:
[0032] For (i=0; j < uniqueQuery.count; i++) { For (j=i; j < uniqueQuery.count; j++) { string Queryi = uniqueQuery[?]; string Query] = uniqueQuery〇]; GetSimilar(Queryi, Query]); ?
[0033] }
[0034] 具体的,计算搜索关键词之间相似度的方法(即GetSimilarO的实现方式)较 多,下面举例进行说明。需要注意的是,计算搜索关键词之间相似度的方法包括但不仅限于 以下方法。
[0035] 第一种计算搜索关键词之间相似度的方法是杰卡德(Jaccard)系数法。
[0036] 假设多个搜索关键词包括第一搜索关键词和第二搜索关键词,计算第一搜索关键 词和第二搜索关键词之间的相似度包括:将第一搜索关键词和第二搜索关键词分别分离成 单独的字符,将第一搜索关键词分离得到的所有字符作为第一搜索关键词序列,将第二搜 索关键词分离得到的所有字符作为第二搜索关键词序列;统计第一字符数量,其中,第一字 符数量为第一搜索关键词序列和第二搜索关键词序列均包含的字符的数量;统计第二字符 数量,其中,第二字符数量为第一搜索关键词序列和第二搜索关键词序列包含的不重复的 字符的总数量;将第一字符数量和第二字符数量的比值作为第一搜索关键词和第二搜索关 键词之间的相似度。
[0037] 例如,将搜索关键词"快乐男声"分离成单独的字符为"快"、"乐"、"男"、"声","快"、 "乐"、"男"、"声"即作为第一搜索关键词序列;将搜索关键词"快男"分离成单独的字符为 "快"、"男","快"、"男"即作为第二搜索关键词序列。第一字符数量为第一搜索关键词序列 和第二搜索关键词序列中均包含的字符的数量,该数量为2。第二字符数量为第一搜索关键 词序列和第二搜索关键词序列包含的不重复的字符的总数量,该数量为4。这样,可以得到 第一搜索关键词和第二搜索关键词之间的相似度为2/4。
[0038] 第二种计算搜索关键词之间相似度的方法是编辑距离(Edit Distance或者 Levenshtein)法。
[0039] 同样地,假设多个搜索关键词包括第一搜索关键词和第二搜索关键词。根据编辑 距离计算的搜索关键词之间的相似度可以定义为:第一搜索关键词与第二搜索关键词之间 编辑距离的倒数。编辑距离,指两个字符串之间,由一个字符串转变成另一个字符串所需的 最少编辑操作次数。这里,许可的编辑操作包括将一个字符替换成另一个字符,插入一个字 符或者删除一个字符。
[0040] 例如,计算搜索关键词"kitten"和"sitting"之间的相似度。将"kitten"转换成 "sitting"过程包括:"kitten"变换为"sitten"(k 变为 s),"sitten"变换为"sittin"(e 变为i),"sittin"变换为"sitting"(插入g)。因此,搜索关键词"kitten"和"sitting" 之间的编辑距离和相似度分别为3和1/3。
[0041] 利用编辑距离法计算搜索关键词间相似度的主程序可以但不仅限于表示如下:
[0042] public static int Levenshtein Distaiice(string si, string s2)
[0043] { - if (si -- s2) return 0; else if (String.lsNul!OrEmpty(sI)) return s2.Length, else if (Siring JeNy I !OrRmpfy(s2)) return si .Length; var in ^ si,Length + lt var n - s2.Lengih + I; var d ^ new intfm, ?]; // Step I for (var i - 0; i < m; i++)尋,0]-k // Step2 for (var j - 0; j < n; j++) d[0, jj - j; // Step3 for (var i - I; i < m; i++) { for (var j = I; j < n, j十十) { var cosi - si [卜 11 -- s2[j - i ] 9 〇 : 1: var deiefbn = dfi - 1 _J] + I; var insertion ^ dfi, j - i] ι I; var substitution - dp - - i] + cost; d[i, j] ~~ Math.Mi?(M€ilh.Miii(deletioti, insertiotiK substitution); } } return d[in - ls it - 1]; }
[0044] 步骤S106,将多个搜索关键词中相似度达到预设阈值的搜索关键词作为一个关键 词类,得到至少一个关键词类,在至少一个关键词类中包括至少两个不同的搜索关键词。
[0045] 该步骤的目的在于合并相似性较高的搜索关键词到一个关键词类中。预设阈值是 两个不同的搜索关键词可以被归为一个关键词类的最小值。可以根据用户的统计需求进行 设置。
[0046] 步骤S108,统计关键词类中搜索关键词的搜索次数。
[0047] 关键词类中关键词的搜索次数可以代表用户某一需求的热度,关键词的搜索次数 越多,则代表用户这一需求热度越高。
[0048] 该实施例由于包含以下步骤:获取网页搜索过程中输入的多个搜索关键词;分别 计算多个搜索关键词中各个搜索关键词之间的相似度;将多个搜索关键词中相似度达到 预设阈值的搜索关键词作为一个关键词类,得到至少一个关键词类,在至少一个关键词类 中包括至少两个不同的搜索关键词;统计关键词类中搜索关键词的搜索次数,使得搜索关 键词之间建立了相关关系,通过这种相关关系将指向相同用户需求的搜索关键词进行了合 并,从而用多个搜索关键词表达一个用户需求,从而提高了网页搜索关键词统计的准确性。
[0049] 图2是根据本发明的网页搜索关键词统计方法的第二实施例的流程图。该实施例 可以作为图1所示实施例的一种优选实施方式,如图2所示,该网页搜索关键词统计方法包 括:
[0050] 步骤S201,在网页加载脚本文件代码。
[0051] 脚本文件类似于DOS操作系统中的批处理文件,它可以将不同的命令组合起来, 并按确定的顺序自动连续地执行。脚本程序相对一般程序开发来说比较接近自然语言,可 以不经编译而是解释执行。
[0052] 脚本语言种类较多,一般的脚本语言的执行只同具体的解释执行器有关,所以只 要系统上有相应语言的解释程序就可以做到跨平台。
[0053] 步骤S202,通过脚本文件代码监测网页搜索行为以获取多个搜索关键词。
[0054] 优选地,在该方法中可使用javascript,通过在网页中添加 javascript代码来监 测用户的网页搜索行为,获取用户输入的多个搜索关键词。
[0055] 步骤S203,分别计算多个搜索关键词中各个搜索关键词之间的相似度。
[0056] 该步骤等同于步骤S104,这里不再赘述。
[0057] 步骤S204,将多个搜索关键词中相似度达到预设阈值的搜索关键词作为一个关键 词类,得到至少一个关键词类,在至少一个关键词类中包括至少两个不同的搜索关键词。
[0058] 该步骤等同于步骤S106,这里不再赘述。
[0059] 步骤S205,统计关键词类中搜索关键词的搜索次数。
[0060] 该步骤等同于步骤S108,这里不再赘述。
[0061] 该实施例由于包含以下步骤:获取网页搜索过程中输入的多个搜索关键词包括: 在网页加载脚本文件代码;通过脚本文件代码监测网页搜索行为以获取多个搜索关键词; 分别计算多个搜索关键词中各个搜索关键词之间的相似度;将多个搜索关键词中相似度达 到预设阈值的搜索关键词作为一个关键词类,得到至少一个关键词类,在至少一个关键词 类中包括至少两个不同的搜索关键词;统计关键词类中搜索关键词的搜索次数,实现了动 态获取网页搜索关键词,提高了网页搜索关键词的获取效率,从而使得搜索关键词的统计 更加商效地进行。
[0062] 图3是根据本发明的网页搜索关键词统计方法的第三实施例的流程图。该实施例 可以作为图1所示实施例的一种优选实施方式,如图3所示,该网页搜索关键词统计方法包 括:
[0063] 步骤S301,获取网页搜索过程中输入的多个搜索关键词。
[0064] 该步骤等同于步骤S102,这里不再赘述。
[0065] 步骤S302,对多个搜索关键词进行筛选,筛选出多个搜索关键词中不重复的网页 搜索关键词。
[0066] 由于搜索关键词之间相关关系是基于搜索关键词本身的,与搜索关键词出现的频 次无关,因此在计算搜索关键词之间的相似度之前,可以先排除搜索关键词序列中重复出 现的关键词。经过该排重步骤之后,计算搜索关键词之间的相似度的效率将大大提高。 [0067] 步骤S303,分别计算筛选出的多个搜索关键词中各个搜索关键词之间的相似度。
[0068] 计算筛选出的多个搜索关键词中各个搜索关键词之间的相似度的方法和步骤 S104中所述相同,这里不再赘述。
[0069] 步骤S304,将筛选出的多个搜索关键词中相似度达到预设阈值的搜索关键词作为 一个关键词类。
[0070] 优选地,可以通过以下步骤将相似度达到预设阈值的搜索关键词聚为一类。首先, 假定筛选出的搜索关键词各自属于一个关键词类。然后,取筛选出的第一个搜索关键词记 为q〇,搜索关键词列表,并逐一比较q〇与筛选出的其他搜索关键词间相似度与预设阈值的 大小关系。当发现与q〇的相似度大于预设阈值的搜索关键词时,合并q〇与该搜索关键词 到一个关键词类中,并更新该聚类的信息,将原有的两个搜索关键词删除。若搜索整个搜索 关键词列表后发现无任何搜索关键词与q〇的相似性大于预设阈值,则认为q〇是一个独立 的类,并将其从搜索列表中删除。
[0071] 将搜索关键词聚为关键词类的实现程序可以但不仅限于表示如下:
[0072] 计算部分:
[0073] int i; double sim - 0; for (i ^ 1; i < uniqueQuery.Count; I++) sim ? GetSimilar ( unique〇uery[0], uniqueQuery[i3 ); if (situ > alpha) { break; ) if ((i + 1)^ uniqueQuery.Count) i DeleteList(uniqueQuery5 0); } ) CombineCIusters(uniqueQuery, 0, i); 输丨IU?分: public List<Closter> Output = new List<Cluster>(); //输出集 public List<Ckster> Tf(List<Cluster> input, double alpha, int beta) // beta 类rtfi人容||__值 { int i, double sim = 0,
[0074] for (i = 1; i < input.Count; i^) { sim ^ this.Similar(input[0], inputfi]); if (sim > alpha) { break; } } if (sim > alpha) // alpha表4关键词之间相似度的_值 { return this.CombineClusters(input, 0, i); } if (input[0J.Count >= beta) // 如果 input[0]3$的容m大f _值 beta,则向输出集 Output 中添加 input[0]类 { this.Output.Add{mput[0]); return this,DeleteList(input5 input[0],CoreKeyworci,ToString());
[0075] 步骤S305,统计多个搜索关键词中属于关键词类的搜索关键词的搜索次数。
[0076] 统计各关键词类中每一个搜索关键词在实际中被搜索的频次和。
[0077] 可选地,可以使用计数器方式统计各个关键词类被搜索的频数。遍历最初获取的 多个搜索关键词列表中的每一个搜索关键词,当某搜索关键词出现时,对其所属于的关键 词类进行计数。
[0078] 例如,遍历结果可以存储在如下形式的表格中:
[0079]

【权利要求】
1. 一种网页搜索关键词统计方法,其特征在于,包括: 获取网页搜索过程中输入的多个搜索关键词; 分别计算所述多个搜索关键词中各个搜索关键词之间的相似度; 将所述多个搜索关键词中相似度达到预设阈值的搜索关键词作为一个关键词类,得到 至少一个关键词类,在所述至少一个关键词类中包括至少两个不同的搜索关键词;以及 统计所述关键词类中搜索关键词的搜索次数。
2. 根据权利要求1所述的方法,其特征在于,获取所述网页搜索过程中输入的多个搜 索关键词包括: 在所述网页加载脚本文件代码;以及 通过所述脚本文件代码监测网页搜索行为以获取所述多个搜索关键词。
3. 根据权利要求1所述的方法,其特征在于, 在分别计算所述多个搜索关键词中各个搜索关键词之间的相似度之前,所述方法还包 括:对所述多个搜索关键词进行筛选,筛选出所述多个搜索关键词中不重复的网页搜索关 键词, 分别计算所述多个搜索关键词中各个搜索关键词之间的相似度包括:分别计算筛选出 的多个搜索关键词中各个搜索关键词之间的相似度, 将所述多个搜索关键词中相似度达到预设阈值的搜索关键词作为一个关键词类,得到 至少一个关键词类,在所述至少一个关键词类中包括至少两个不同的搜索关键词包括:将 所述筛选出的多个搜索关键词中相似度达到预设阈值的搜索关键词作为一个关键词类, 统计所述关键词类中搜索关键词的搜索次数包括:统计所述多个搜索关键词中属于所 述关键词类的搜索关键词的搜索次数。
4. 根据权利要求1所述的方法,其特征在于,所述多个搜索关键词包括第一搜索关键 词和第二搜索关键词,其中,分别计算所述多个搜索关键词中各个搜索关键词之间的相似 度包括: 将所述第一搜索关键词和所述第二搜索关键词分别分离成单独的字符,将第一搜索关 键词分离得到的所有字符作为第一搜索关键词序列,将第二搜索关键词分离得到的所有字 符作为第二搜索关键词序列; 统计第一字符数量,其中,所述第一字符数量为所述第一搜索关键词序列和所述第二 搜索关键词序列均包含的字符的数量; 统计第二字符数量,其中,所述第二字符数量为所述第一搜索关键词序列和所述第二 搜索关键词序列包含的不重复的字符的总数量;以及 将所述第一字符数量和所述第二字符数量的比值作为所述第一搜索关键词和所述第 二搜索关键词之间的相似度。
5. 根据权利要求1所述的方法,其特征在于,所述至少一个关键词类包括多个关键词 类,统计所述关键词类中搜索关键词的搜索次数包括分别统计所述多个关键词类的搜索次 数,在分别统计所述多个关键词类的搜索次数之后,所述方法还包括: 对所述多个关键词类中的每一个关键词类分别进行命名;以及 按照统计得到的所述多个关键词类的搜索次数对命名之后的所有关键词类进行排序。
6. -种网页搜索关键词统计装置,其特征在于,包括: 第一获取单元,用于获取网页搜索过程中输入的多个搜索关键词; 计算单元,用于分别计算所述多个搜索关键词中各个搜索关键词之间的相似度; 第二获取单元,用于将所述多个搜索关键词中相似度达到预设阈值的搜索关键词作为 一个关键词类,得到至少一个关键词类,在所述至少一个关键词类中包括至少两个不同的 搜索关键词;以及 统计单元,用于统计所述关键词类中搜索关键词的搜索次数。
7. 根据权利要求6所述的装置,其特征在于,所述第一获取单元包括: 加载模块,用于在所述网页加载脚本文件代码;以及 获取模块,用于通过所述脚本文件代码监测网页搜索行为以获取所述多个搜索关键 。
8. 根据权利要求6所述的装置,其特征在于, 所述装置还包括:筛选单元,用于对所述多个搜索关键词进行筛选,筛选出所述多个搜 索关键词中不重复的网页搜索关键词, 其中,所述计算单元用于分别计算筛选出的多个搜索关键词中各个搜索关键词之间的 相似度, 所述第二获取单元用于将所述筛选出的多个搜索关键词中相似度达到预设阈值的搜 索关键词作为一个关键词类, 所述统计单元用于统计所述多个搜索关键词中属于所述关键词类的搜索关键词的搜 索次数。
9. 根据权利要求6所述的装置,其特征在于,所述第一获取单元用于获取所述多个搜 索关键词,其中,所述多个搜索关键词包括第一搜索关键词和第二搜索关键词,所述计算单 元包括: 分离模块,用于将所述第一搜索关键词和所述第二搜索关键词分别分离成单独的字 符,将第一搜索关键词分离得到的所有字符作为第一搜索关键词序列,将第二搜索关键词 分离得到的所有字符作为第二搜索关键词序列; 第一统计模块,用于统计第一字符数量,其中,所述第一字符数量为所述第一搜索关键 词序列和所述第二搜索关键词序列均包含的字符的数量; 第二统计模块,用于统计第二字符数量,其中,所述第二字符数量为所述第一搜索关键 词序列和所述第二搜索关键词序列包含的不重复的字符的总数量;以及 计算模块,用于将所述第一字符数量和所述第二字符数量的比值作为所述第一搜索关 键词和所述第二搜索关键词之间的相似度。
10. 根据权利要求6所述的装置,其特征在于,所述第二获取单元用于将所述多个搜索 关键词中相似度达到预设阈值的搜索关键词作为一个关键词类,得到多个关键词类,在所 述多个关键词类中至少一个关键词类包括至少两个不同的搜索关键词,所述统计单元用于 分别统计所述多个关键词类的搜索次数,所述装置还包括: 命名单元,用于对所述多个关键词类中的每一个关键词类分别进行命名;以及 排序单元,用于按照统计得到的所述多个关键词类的搜索次数对命名之后的所有关键 词类进行排序。
【文档编号】G06F17/30GK104217016SQ201410488461
【公开日】2014年12月17日 申请日期:2014年9月22日 优先权日:2014年9月22日
【发明者】何鑫 申请人:北京国双科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1