停用词的挖掘方法和装置、搜索方法和装置、评测方法和装置制造方法

文档序号:6493653阅读:187来源:国知局
停用词的挖掘方法和装置、搜索方法和装置、评测方法和装置制造方法
【专利摘要】一种停用词的挖掘方法,包括以下步骤:获取查询日志;获取查询日志中记录的查询串中查询词的逆向文档频率、查询词的相对词权重、因修改查询串行为产生的查询词集合、因触发行为产生的查询串与网页地址的对应关系集中至少一种属性信息,并根据所述属性信息生成停用词集。此外,还提供了停用词的挖掘装置、搜索方法和搜索装置、停用词的挖掘算法的评测方法和装置。上述停用词的挖掘方法和装置,提高了停用词的准确率;上述搜索方法和装置通过去掉停用词把原始的查询串简化,可搜索到更多相关的网页,提高了搜索的准确率;上述停用词的挖掘算法的评测方法和装置采用交叉验证的方式进行评测,比较得出最优的算法。
【专利说明】停用词的挖掘方法和装置、搜索方法和装置、评测方法和装
【技术领域】
[0001]本发明涉及互联网技术,特别是涉及一种停用词的挖掘方法和装置、搜索方法和装置、停用词挖掘算法的评测方法和装置。
【背景技术】
[0002]停用词是搜索引擎在索引网页或处理查询请求时自动忽略掉的查询词,停用词通常出现的过于频繁且没有实际意义,如“the”、“a”、“的”、“了”,去除这类词有利于减少网页搜索的规模,提高搜索结果的准确性。
[0003]传统的停用词的挖掘方式主要有两种,一种是人工按某个标准挑选;一种是从网页文档和搜索引擎的日志中自动挖掘。人工挑选方式需要耗费大量的人力,且效率低。从网页文档和搜索引擎的日志中自动挖掘停用词的方式分为两种,一种是利用随机采样生成样本集,对样本集中的单词依次计算权重,然后选取词权重最小的若干单词,生成停用词集,该方法得到的停用词集准确率低;一种是将查询串中处于左边位置的词看作停用词,此种挖掘方式对于较短查询串中的停用词挖掘的准确率低。

【发明内容】

[0004]基于此,有必要针对传统的停用词挖掘的准确率低的问题,提供一种能提高准确率的停用词的挖掘方法。
[0005]此外,还有必要针对传统的停用词挖掘的准确率低的问题,提供一种能提高准确率的停用词的挖掘装置。
[0006]此外,还有必要提供一种能提高准确率的搜索方法。
[0007]此外,还有必要提供一种能提高准确率的搜索装置。
[0008]此外,还有必要提供一种能提高准确率的停用词的挖掘算法的评测方法。
[0009]此外,还有必要提供一种能提高准确率的停用词的挖掘算法的评测装置。
[0010]一种停用词的挖掘方法,包括以下步骤:
[0011]获取查询日志;
[0012]获取查询日志中记录的查询串中查询词的逆向文档频率、查询词的相对词权重、因修改查询串行为产生的查询词集合、因触发行为产生的查询串与网页地址的对应关系集中至少一种属性信息,并根据所述属性信息生成停用词集。
[0013]一种停用词的挖掘装置,包括:
[0014]获取模块,用于获取查询日志;
[0015]生成模块,用于获取查询日志中记录的查询串中查询词的逆向文档频率、查询词的相对词权重、因修改查询串行为产生的查询词集合、因触发行为产生的查询串与网页地址的对应关系集中至少一种属性信息,并根据所述属性信息生成停用词集。
[0016]一种搜索方法,包括以下步骤:[0017]获取查询串;
[0018]对所述查询串采用上述的停用词的挖掘方法生成的停用词集进行处理;
[0019]根据所述处理后的查询串进行搜索。
[0020]一种搜索装置,包括:
[0021]查询串获取模块,用于获取查询串;
[0022]处理模块,用于对所述查询串采用上述的停用词的挖掘装置生成的停用词集进行处理;
[0023]搜索模块,用于根据所述处理后的查询串进行搜索。
[0024]一种停用词的挖掘算法的评测方法,包括以下步骤:
[0025]获取多种挖掘算法各自的停用词集;
[0026]统计各停用词集中的停用词在其余所有停用词集中也出现的停用词的个数,在其余数量减I个停用词集中也出现的停用词的个数,依次递归统计得到仅在停用词集自身出现的停用词的个数;
[0027]将统计得到的在其余停用词集中出现的停用词的个数与预先设置的相应的权值进行加权求和,得到各挖掘算法的加权估算值。
[0028]一种停用词的挖掘算法的评测装置,包括:
[0029]提取模块,用于获取多种挖掘算法各自的停用词集;
[0030]统计模块,用于统计各停用词集中的停用词在其余所有停用词集中也出现的停用词的个数,在其余数量减I个停用词集中也出现的停用词的个数,依次递归统计得到仅在停用词集自身出现的停用词的个数;
[0031]加权模块,用于将统计得到的在其余停用词集中出现的停用词的个数与预先设置的相应的权值进行加权求和,得到各挖掘算法的加权估算值。
[0032]上述停用词的挖掘方法和装置,根据查询词的逆向文档频率、查询词的相对词权重、修改查询串行为产生的查询词集合或查询串与网页地址的对应关系生成的停用词集,由于综合了用户的查询行为和触发行为,查询词的特征等多种真实数据而生成的停用词集,提高了停用词的准确率。
[0033]上述搜索方法和装置,对查询串去掉了停用词,节省了生成停用词索引所占用的大量的存储空间,且通过去掉停用词把原始的查询串简化,可搜索到更多相关的网页,提高了搜索的准确率。此外,对搜索结果进行排序时,对查询串中的停用词降低权重可将具有实际语义的网页排在前面,节省用户浏览时间。
[0034]上述停用词的挖掘算法的评测方法和装置采用交叉验证的方式进行评测,比较得出最优的算法,该评测方法和装置还可应用于类似的同一任务的多种算法的场景。
【专利附图】

【附图说明】
[0035]图1为一个实施例中停用词的挖掘方法的流程示意图;
[0036]图2为一个实施例中获取查询日志中记录的查询串中查询词的逆向文档频率的属性信息,并根据所述属性信息生成停用词集的流程示意图;
[0037]图3为一个实施例中获取查询日志中记录的查询词的相对词权重的属性信息,并根据所述属性信息生成停用词集的流程示意图;[0038]图4为一个实施例中获取训练数据的流程示意图;
[0039]图5为一个实施例中获取查询日志中记录的因修改查询串行为产生的查询词集合的属性信息,并根据该属性信息生成停用词集的流程示意图;
[0040]图6为一个实施例中查询日志中记录的session的示意图;
[0041]图7为一个实施例中冗余搭配词集中记录的部分数据示意图;
[0042]图8为一个实施例中获取查询日志中记录的因触发行为产生的查询串与网页地址的对应关系集的属性信息,并根据所述属性信息生成停用词集的流程示意图;
[0043]图9为查询串及对应被触发的网页的关系不意图;
[0044]图10为四种挖掘方法得到的部分停用词集示意图;
[0045]图11为一个实施例中搜索方法的流程示意图;
[0046]图12为一个实施例中停用词的挖掘装置的结构示意图;
[0047]图13为一个实施例中生成模块的内部结构示意图;
[0048]图14为另一个实施例中生成模块的内部结构示意图;
[0049]图15为图14中训练数据获取单元的内部结构示意图;
[0050]图16为另一个实施例中生成模块的内部结构示意图;
[0051]图17为另一个实施例中生成模块的内部结构示意图;
[0052]图18为一个实施例中搜索装置的结构示意图;
[0053]图19为一个实施例中停用词的挖掘算法的评测方法的流程示意图;
[0054]图20为一个实施例中停用词的挖掘算法的评测装置的内部结构示意图。
【具体实施方式】
[0055]下面结合具体的实施例及附图对停用词的挖掘方法和装置,以及停用词的挖掘算法的评测方法和装置的技术方案进行详细的描述,以使其更加清楚。
[0056]如图1所示,在一个实施例中,一种停用词的挖掘方法,包括以下步骤:
[0057]步骤S102,获取查询日志。
[0058]具体的,查询日志用于记录用户输入查询串进行查询行为以及触发查询结果行为产生的信息。查询日志中包括查询串、查询得到的网页地址、修改查询串的行为、触发网页地址行为以及查询串与网页地址之间的对应关系等。
[0059]步骤SIO4,获取查询日志中记录的查询串中查询词的逆向文档频率、查询词的相对词权重、因修改查询串行为产生的查询词集合、因触发行为产生的查询串与网页地址的对应关系集中至少一种属性信息,并根据所述属性信息生成停用词集。
[0060]上述停用词的挖掘方法,根据查询词的逆向文档频率、查询词的相对词权重、修改查询串行为产生的查询词集合或查询串与网页地址的对应关系生成的停用词集,由于综合了用户的查询行为和触发行为,查询词的特征等多种真实数据而生成的停用词集,提高了停用词的准确率。
[0061]如图2所示,在一个实施例中,获取查询日志中记录的查询串中查询词的逆向文档频率的属性信息,并根据所述属性信息生成停用词集的步骤包括:
[0062]步骤S202,获取文档集中所有查询词的逆向文档频率。
[0063]具体的,IDF (Inverse Document Frequency,逆向文档频率)是指文档集合所有文档的总数目除以包含某特定单词的文档的数目,再对得到的商取对数得到的。IDF通常被用来描述一个单词的重要程度,大的IDF值意味着这个单词只出现在少数文档中,且该单词的出现往往能提供重要的信息量;小的IDF值意味着这个单词出现在大量文档中,该单词往往也没有明显的语义,不能提供重要的信息量。IDF的具体计算公式有很多种,本实施例中采用如下公式:
[0064]
【权利要求】
1.一种停用词的挖掘方法,包括以下步骤: 获取查询日志; 获取查询日志中记录的查询串中查询词的逆向文档频率、查询词的相对词权重、因修改查询串行为产生的查询词集合、因触发行为产生的查询串与网页地址的对应关系集中至少一种属性信息,并根据所述属性信息生成停用词集。
2.根据权利要求1所述的停用词的挖掘方法,其特征在于,所述属性信息包括查询日志中记录的查询串中查询词的逆向文档频率; 根据所述属性信息生成停用词集的步骤包括: 获取文档集中所有查询词的逆向文档频率; 将所述逆向文档频率进行排序; 从排序结果中选取预定个数逆向文档频率最小的查询词,生成停用词集。
3.根据权利要求1所述的停用词的挖掘方法,其特征在于,所述属性信息包括查询日志中记录的查询词的相对词权重; 根据所述属性信息生成停用词集的步骤包括: 获取训练数据,并抽取 训练数据中查询词的特征; 根据所述查询词的特征进行训练,构建查询词的相对词权重估算模型; 根据所述相对词权重估算模型对获取的第一预定时间内的查询串中的查询词进行分析,得到低权重词集; 统计所述低权重词集中各查询词的词频; 按所述词频对查询词进行排序; 选取预定个数词频最高的查询词,生成停用词集。
4.根据权利要求3所述的停用词的挖掘方法,其特征在于,所述获取训练数据的步骤包括: 根据所述查询日志中记录的查询串与网页地址的对应关系,分别获取网页内容及查询串中的查询词; 判断所述查询串中查询词是否出现在所述网页内容中,若是,则所述查询词为高权重词,若否,则所述查询词为低权重词,将所述高权重词和低权重词作为训练数据。
5.根据权利要求1所述的停用词的挖掘方法,其特征在于,所述属性信息包括查询日志中记录的因修改查询串行为产生的查询词集合; 根据所述属性信息生成停用词集的步骤包括: 采集第二预定时间内的查询日志中记录的查询行为,根据所述查询行为中查询串的变化生成查询词集; 对查询词集合求并集,选取并集中出现频率最高的预定个数的查询词,生成停用词集。
6.根据权利要求5所述的停用词的挖掘方法,其特征在于,还包括步骤: 根据所述查询行为中查询串的变化生成查询词关联集合; 对查询词关联集合求并集,选取并集中出现频率最高的预定个数的查询词对,生成冗余搭配词表。
7.根据权利要求1所述的停用词的挖掘方法,其特征在于,所述属性信息包括查询日志中记录的因触发行为产生的查询串与网页地址的对应关系集;根据所述属性信息生成停用词集的步骤包括: 获取查询日志中记录的触发行为产生的查询串与网页地址的对应关系集; 从所述对应关系集中查找得到同一网页地址对应的所有查询串; 获取所有同一网页地址对应的所有查询串的每个查询词的冗余度; 按冗余度大小对查询词进行排序; 选取冗余度最大的预定个数的查询词,生成停用词集。
8.一种停用词的挖掘装置,其特征在于,包括: 获取模块,用于获取查询日志; 生成模块,用于获取查询日志中记录的查询串中查询词的逆向文档频率、查询词的相对词权重、因修改查询串行为产生的查询词集合、因触发行为产生的查询串与网页地址的对应关系集中至少一种属性信息,并根据所述属性信息生成停用词集。
9.根据权利要求8所述的停用词的挖掘装置,其特征在于,所述生成模块包括: 逆向文档频率获 取单元,用于获取文档集中所有查询词的逆向文档频率; 第一排序单元,用于将所述逆向文档频率进行排序; 第一生成单元,用于从排序结果中选取预定个数逆向文档频率最小的查询词,生成停用词集。
10.根据权利要求8所述的停用词的挖掘装置,其特征在于,所述生成模块包括: 训练数据获取单元,用于获取训练数据,并抽取训练数据中查询词的特征; 估算模型构建单元,用于根据所述查询词的特征进行训练,构建查询词的相对词权重估算模型; 词权重分析单元,用于根据所述相对词权重估算模型对获取的第一预定时间内的查询串中的查询词进行分析,得到低权重词集; 统计单元,用于统计所述低权重词集中各查询词的词频; 第二排序单元,用于按所述词频对查询词进行排序; 第二生成单元,用于选取预定个数词频最高的查询词,生成停用词集。
11.根据权利要求10所述的停用词的挖掘装置,其特征在于,所述训练数据获取单元包括: 源数据获取子单元,用于根据所述查询日志中记录的查询串与网页地址的对应关系,分别获取网页内容及查询串中的查询词; 判断子单元,用于判断所述查询串中查询词是否出现在所述网页内容中,若是,则所述查询词为高权重词,若否,则所述查询词为低权重词; 训练数据获取子单元,用于将所述高权重词和低权重词作为训练数据。
12.根据权利要求8所述的停用词的挖掘装置,其特征在于,所述生成模块包括: 采集单元,用于采集第二预定时间内的查询日志中记录的查询行为,根据所述查询行为中查询串的变化生成查询词集合; 第三生成单元,用于对查询词集合求并集,选取并集中出现频率最高的预定个数的查询词,生成停用词集。
13.根据权利要求12所述的停用词的挖掘装置,其特征在于,所述采集单元还用于根据所述查询行为中查询串的变化生成查询词关联集合;所述第三生成单元还用于对查询词关联集合求并集,选取并集中出现频率最高的预定个数的查询词对,生成冗余搭配词表。
14.根据权利要求8所述的停用词的挖掘装置,其特征在于,所述生成模块包括: 关系集获取单元,用于获取查询日志中记录的触发行为产生的查询串与网页地址的对应关系集; 查找单元,用于从所述对应关系集中查找得到同一网页地址对应的所有查询串; 冗余度获取单元,用于获取所有同一网页地址对应的所有查询串的每个查询词的冗余度; 第三排序单元,用于按冗余度大小对查询词进行排序; 第四生成单元,用于选取冗余度最大的预定个数的查询词,生成停用词集。
15.一种搜索方法,包括以下步骤: 获取查询串; 对所述查询串采用如权利要求1至7中任一项所述的停用词的挖掘方法生成的停用词集进行处理; 根据所述处理后的查询串进行搜索。
16.一种搜索装置,其特征在于,包括: 查询串获取模块,用于获取查询串; 处理模块,用于对所述查询串采用如权利要求8至14中任一项所述的停用词的挖掘装置生成的停用词集进行处理; 搜索模块,用于根据所述处理后的查询串进行搜索。
17.一种停用词的挖掘算法的评测方法,包括以下步骤: 获取多种挖掘算法各自的停用词集; 统计各停用词集中的停用词在其余所有停用词集中也出现的停用词的个数,在其余数量减I个停用词集中也出现的停用词的个数,依次递归统计得到仅在停用词集自身出现的停用词的个数; 将统计得到的在其余停用词集中出现的停用词的个数与预先设置的相应的权值进行加权求和,得到各挖掘算法的加权估算值。
18.根据权利要求17所述的停用词的挖掘算法的评测方法,其特征在于,所述获取多种挖掘算法各自的停用词集的步骤包括: 获取根据查询日志中记录的查询串中查询词的逆向文档频率生成的停用词集; 获取根据查询日志中记录的查询词的相对词权重生成的停用词集; 获取根据因修改查询串行为产生的查询词集合生成的停用词集; 获取根据因触发行为产生的查询串与网页地址的对应关系集生成的停用词集。
19.一种停用词的挖掘算法的评测装置,其特征在于,包括: 提取模块,用于获取多种挖掘算法各自的停用词集; 统计模块,用于统计各停用词集中的停用词在其余所有停用词集中也出现的停用词的个数,在其余数量减I个停用词集中也出现的停用词的个数,依次递归统计得到仅在停用词集自身出现的停用词的个数; 加权模块,用于将统计得到的在其余停用词集中出现的停用词的个数与预先设置的相应的权值进行加权求和,得到各挖掘算法的加权估算值。
20.根据权利要求19所述的停用词的挖掘算法的评测装置,其特征在于,所述提取模块还用于获取根据查询日志中记录的查询串中查询词的逆向文档频率生成的停用词集;及获取根据查询日志中记录的查询词的相对词权重生成的停用词集; 及获取根据因修改查询串行为产生的查询词集合生成的停用词集; 及获取根据因触发行为产生的查询串与网页地址的对应关系集生成的停用词集。
【文档编号】G06F17/30GK103902552SQ201210572702
【公开日】2014年7月2日 申请日期:2012年12月25日 优先权日:2012年12月25日
【发明者】赵耀, 胡熠, 刘磊, 程佳 申请人:深圳市世纪光速信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1