一种挖掘搜索引擎未召回类纠错词的方法及装置制造方法

文档序号:6501407阅读:220来源:国知局
一种挖掘搜索引擎未召回类纠错词的方法及装置制造方法
【专利摘要】本发明提出了一种挖掘搜索引擎未召回类纠错词的方法,包括以下步骤:搜索引擎获取用户的会话日志,其中,会话日志至少包括第一会话和第二会话,第一会话和第二会话中分别包括第一搜索词和第二搜索词;搜索引擎获得第一搜索词和第二搜索词之间的关联关系信息;搜索引擎根据关联关系信息判断第一搜索词是否为未召回类纠错词。本发明还提出了一种挖掘搜索引擎未召回类纠错词的装置。本发明通过对用户搜索词序列和搜索结果的建模分析,能够自动地发现未召回类纠错词,召回效率远高于人工查找,大大节省了寻找未召回类纠错词的人力成本。
【专利说明】-种挖掘搜索引擎未召回类纠错词的方法及装置

【技术领域】
[0001] 本发明涉及互联网搜索【技术领域】,特别涉及一种挖掘搜索引擎未召回类纠错词的 方法及装置。

【背景技术】
[0002] 搜索引擎搜索词纠错是一种有效的用户搜索词纠正和引导方法。当用户在搜索 时,由于拼写错误、记忆不清而不能提供完整和准确的搜索词的时候,搜索引擎能够通过纠 错、校正用户的输入或者将用户引导到正确的搜索词上,使得用户获得有用的查询结果,如 图1(a)、图1(b)、图1(c)所示,例如用户本来想搜索"中关村",但是输入错误的"中观村"、 "众关村"或者"zhong关村",搜索引擎都能够给出正确的纠错词"中关村"。
[0003] 如果搜索引擎给出的纠错词不正确,例如将不需要纠错的搜索词做纠错,或者需 要纠错的搜索词没有正确纠错,那么不仅无法引导给用户需要的结果,往往还会造成适得 其反的负面效果。因此针对搜索引擎纠错的效果进行验证(包括准确率和召回率),以及挖 掘出纠错效果不好的搜索引擎纠错失败的案例以供后续改进就变得非常重要。
[0004] 搜索引擎纠错失败的情况可以分为如下三种类型:
[0005] (1)用户输入的是正确的搜索词,但是搜索引擎却做了纠错,给了不合适的纠错 词;
[0006] (2)用户输入的是错误的搜索词,但是搜索引擎给出的纠错词也不正确;
[0007] (3)用户输入的是错误的搜索词,但是搜索引擎没有给出纠错词,也就是业界所说 的纠错词未召回的情况,例如,用户输入"万里长征永不倒"查询结果如图2(a)所示,搜索 引擎没有给出纠错词,实际上用户想要检索的应该是"万里长城永不倒",用"万里长城永不 倒"检索能够检索到更多更好的结果,如图2(b)所示。
[0008] 对于其中的(1)和(2)两种情况,通过对带有纠错词信息的用户Session (会话) 日志进行建模分析能够有效地发现。而对于第(3)种搜索引擎未召回类纠错词的情况,现 有技术中尚未有针对性的解决办法。


【发明内容】

[0009] 本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商 业选择。
[0010] 为此,本发明的第一个目的在于提出一种挖掘搜索引擎未召回类纠错词的方法, 通过对用户搜索词序列和搜索结果的建模分析,能够自动地发现未召回类纠错词。本发明 的第二个目的在于提出一种挖掘搜索引擎未召回类纠错词的装置。
[0011] 为达到上述目的,本发明第一方面的实施例提出了一种挖掘搜索引擎未召回类纠 错词的方法,包括以下步骤:搜索引擎获取用户的会话日志,其中,所述会话日志至少包括 第一会话和第二会话,所述第一会话和第二会话中分别包括第一搜索词和第二搜索词;所 述搜索引擎获得所述第一搜索词和第二搜索词之间的关联关系信息;所述搜索引擎根据所 述关联关系信息判断所述第一搜索词是否为未召回类纠错词。
[0012] 根据本发明实施例的挖掘搜索引擎未召回类纠错词的方法,通过样本的训练之后 能够自动的进行未召回类纠错词判断,大大节省了寻找未召回类纠错词的人力,并且,通过 对用户搜索词序列和搜索结果的建模分析,能够自动地发现未召回类纠错词,召回效率远 高于以往的人工查找。
[0013] 在本发明的一个实施例中,所述关联关系信息包括所述第一搜索词和第二搜索词 之间的编辑距离信息,所述第一搜索词和第二搜索词之间的分词数量变化信息,以及所述 第一搜索词和第二搜索词之间的包含关系信息。
[0014] 在本发明的一个实施例中,所述关联关系信息还包括所述第一搜索词和第二搜索 词之间的差异比例。
[0015] 在本发明的一个实施例中,所述搜索引擎根据所述关联关系信息判断所述第一搜 索词是否为未召回类纠错词,进一步包括:所述搜索引擎根据所述关联关系信息计算所述 第一搜索词是未召回类纠错词的概率,当所述概率大于预设阈值时,所述搜索引擎判断所 述第一搜索词是未召回类纠错词。
[0016] 在本发明的一个实施例中,所述方法还包括:所述搜索引擎分别获取所述第一搜 索词对应的第一搜索结果和所述第二搜索词对应的第二搜索结果;所述搜索引擎根据所述 第一搜索结果的数量与所述第二搜索结果的数量之比判断所述第一搜索词是否为未召回 类纠错词。
[0017] 在本发明的一个实施例中,所述方法还包括:所述搜索引擎获取所述用户对所述 第一搜索结果的第一点击记录和所述用户对所述第二搜索结果的第二点击记录;所述搜索 引擎根据所述第一点击记录与所述第二点击记录判断所述第一搜索词是否为未召回类纠 错词。
[0018] 本发明第二方面的实施例提出了一种挖掘搜索引擎未召回类纠错词的装置,包 括:日志读取模块,用于获取用户的会话日志,其中,所述会话日志至少包括第一会话和第 二会话,所述第一会话和第二会话中分别包括第一搜索词和第二搜索词;关联关系检测模 块,用于获得所述第一搜索词和第二搜索词之间的关联关系信息;判断模块,用于根据所述 关联关系信息判断所述第一搜索词是否为未召回类纠错词。
[0019] 根据本发明实施例的挖掘搜索引擎未召回类纠错词的装置,通过样本的训练之后 能够自动的进行未召回类纠错词判断,大大节省了寻找未召回类纠错词的人力,并且,通过 对用户搜索词序列和搜索结果的建模分析,能够自动地发现未召回类纠错词,召回效率远 高于以往的人工查找。
[0020] 在本发明的一个实施例中,所述关联关系信息包括所述第一搜索词和第二搜索词 之间的编辑距离信息,所述第一搜索词和第二搜索词之间的分词数量变化信息,以及所述 第一搜索词和第二搜索词之间的包含关系信息。
[0021] 在本发明的一个实施例中,所述关联关系信息还包括所述第一搜索词和第二搜索 词之间的差异比例。
[0022] 在本发明的一个实施例中,所述判断模块根据所述关联关系信息计算所述第一搜 索词是未召回类纠错词的概率,当所述概率大于预设阈值时,所述搜索引擎判断所述第一 搜索词是未召回类纠错词。
[0023] 在本发明的一个实施例中,所述装置还包括:搜索结果获取模块,所述搜索模块用 于分别获取所述第一搜索词对应的第一搜索结果和所述第二搜索词对应的第二搜索结果, 所述判断模块还用于根据所述第一搜索结果的数量与所述第二搜索结果的数量之比判断 所述第一搜索词是否为未召回类纠错词。
[0024] 在本发明的一个实施例中,所述搜索结果获取模块还用于获取所述用户对所述第 一搜索结果的第一点击记录和所述用户对所述第二搜索结果的第二点击记录,所述判断模 块还用于根据所述第一点击记录与所述第二点击记录判断所述第一搜索词是否为未召回 类纠错词。
[0025] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。

【专利附图】

【附图说明】
[0026] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解,其中 :
[0027] 图1 (a)为一个搜索引擎对错误的搜索词进行纠错的示意图;
[0028] 图1 (b)为一个搜索引擎对错误的搜索词进行纠错的示意图;
[0029] 图1 (c)为一个搜索引擎对错误的搜索词进行纠错的示意图;
[0030] 图2(a)为一个搜索引擎对错误的搜索词没有进行纠错的示意图;
[0031] 图2(b)为图2(a)中错误的搜索词相对应的正确的搜索词的示意图;
[0032] 图3为根据本发明一个实施例的挖掘搜索引擎未召回类纠错词的方法的流程图;
[0033] 图4(a)为一个用户输入错误的搜索词的示意图;
[0034] 图4(b)为图4(a)中错误的搜索词相对应的正确的搜索词的示意图;
[0035] 图5为根据本发明一个实施例的挖掘搜索引擎未召回类纠错词的装置的示意图; 以及
[0036] 图6为根据本发明一个实施例的挖掘搜索引擎未召回类纠错词的装置的示意图。

【具体实施方式】
[0037] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0038] 在本发明的描述中,需要说明的是,除非另有规定和限定,术语"安装"、"相连"、 "连接"应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可 以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据 具体情况理解上述术语的具体含义。
[0039] 下面参考附图描述根据本发明实施例的挖掘搜索引擎未召回类纠错词的方法及 装直。
[0040] 如图3所示,根据本发明第一方面实施例的挖掘搜索引擎未召回类纠错词的方 法。在本发明中,纠错词是指搜索引擎对用户输入的搜索词进行纠正之后词。未召回类纠 错词是指目前虽然用户输入的搜索词有误,但是搜索引擎并没有给出相应的纠错词,因此 称之为未召回类纠错词。该方法包括以下步骤:
[0041] S101 :搜索引擎获取用户的会话日志,其中,会话日志至少包括第一会话和第二会 话,第一会话包括第一搜索词,且第二会话包括第二搜索词。
[0042] S102 :搜索引擎获得第一搜索词和第二搜索词之间的关联关系信息。
[0043] 其中,关联关系信息包括:第一搜索词和第二搜索词之间的编辑距离信息、第一搜 索词和第二搜索词之间的分词数量变化信息、第一搜索词和第二搜索词之间的包含关系信 息中的一种或多种。
[0044] S103:搜索引擎根据关联关系信息判断第一搜索词是否为未召回类纠错词。
[0045] 优选地,搜索引擎根据关联关系信息计算第一搜索词是未召回类纠错词的概率, 当概率大于预设阈值时,搜索引擎判断第一搜索词是未召回类纠错词。预设阈值可通过对 一定数量的会话日志进行训练后计算得出。
[0046] 以下通过具体的实施例对本发明进行说明。
[0047] 用户在某一段时间内使用搜索引擎输入的搜索词,称为用户的搜索词序列。用户 的搜索词序列中的前后搜索词之间存在一定的联系。在本发明的一个实施例中,比如用户 输入错误的第一搜索词"优酷tvv新剧",发现查询结果太少并且无法满足自己的需求,这 时候也许用户会意识到自己输入的搜索词有误,通过将搜索词修正为第二搜索词"优酷tvb 新剧"之后得到较好的查询结果并点击相应的搜索结果,来满足自己的信息检索需求。以下 表述中,有需要时,第一搜索词也以"前搜索词",第二搜索词也以"后搜索词"来描述。
[0048]用户使用搜索引擎一般来说都有某种搜索诉求,希望通过搜索引擎找到自己想要 的信息。而搜索词就是用户和搜索引擎交互的渠道,如果使用的搜索词不合适或者搜索词 出现错误,搜索结果可能就无法满足用户的需求。用户也会通过修正或者调整搜索词来获 取更好的搜索结果满足自己的需求。因此,当用户发现自己输入的搜索词错误而导致搜索 结果不好的时候,会主动地修正搜索词;如果用户意识不到输入了错误的搜索词,那么用户 可能会想方设法调整使用别的搜索词来获取更好的搜索结果。而体现在会话日志中,则表 现为用户修正或者调整前后的搜索词之间存在关联关系,例如当用户错误输入第一搜索词 "优酷tvv新剧"之后搜索引擎给出的结果不太好,如图4 (a),那么用户修正后,输入第二搜 索词为"优酷tvb新剧"获得了更好的搜索结果,如图4(b),编辑距离的意义为第二搜索词 相比于第一搜索词的最小修正字符数,图4(a)和图4(b)中,修正的字符为把"v"变成"b", 因此修正前后两个搜索词之间的编辑距离为1。
[0049] 本发明基于用户会话日志中提取的搜索词序列和搜索结果进行建模分析,然后计 算不同指标分布情况下属于未召回类纠错词的概率从而挖掘搜索引擎未召回类纠错词的 方法。主要分析因素如下:
[0050] (1)对会话序列中前后两个搜索词之间的关联关系分析以获得前后两个搜索词之 间的关联关系信息,关联关系信息主要包括如下内容:
[0051] A、编辑距离,例如"钻进需要哪些资格证书"和"钻井需要哪些资格证书"之间的 编辑距离为1 ;
[0052] 这里的编辑距离1为绝对编辑距离,实际上,在本实施例中,关联关系信息还可以 包括第一搜索词和第二搜索词之间的差异比例,即绝对编辑距离和第一搜索词长度的比 例,上面这个例子的差异比例就是10%。而"芒果"转换为"苹果"之间虽然编辑距离也为 1,但是差异比例为50%。再比较一下这两个例子,"芒果"转换为"苹果"这个场景下,前一 个搜索词"芒果"不被认为是输入错误词,而"钻进需要哪些资格证书"被认为是输入错误 而需要纠正的搜索词。
[0053] 也就是说,前后两个词之间的差异比例越小的情况下,前面的搜索词可能是需要 纠错的搜索词的概率会相对高一些。
[0054] B、前后词的分词数量变化,例如"是会可以吃?",经分词后,分词个数为4(是、会、 可以、吃),"石灰可以吃? "经分词后,分词个数为3 (石灰、可以、吃);
[0055] 当用户输入的搜索词存在输入错误的时候,很大概率上会造成分词数增加,例如: "大学生就业问题"如果出现输入错误变成"大学生就也问题",这种情形下,分词数会由 3 (大学生、就业、问题)变为4 (大学生、就、也、问题),因为输入的错字导致搜索词的分词 结果更加分散了。
[0056] C、前后词的包含关系,包含关系分为"前词包含后词","后词包含前词"和"不包 含"三种关系,例如"淘宝网购物"和"淘宝网"之间就是"前词包含后词"的关系,并且删除 的"购物"两个字能够独立成词。"淘宝网实"和"淘宝网"之间也是"前词包含后此"的关 系,但是删除的"实"字不能独立成词。一般情况下,如果"后词包含前词"那么前词属于输 入错误词的概率会小一些,而"前词包含后词"的情况下,如果差异的字较少并且不能独立 成词,那么前词属于输入错误词的概率就会偏大一些。
[0057] (2)搜索词查询结果的数量变化
[0058] 错误的搜索词通常情况下召回的搜索结果比较少或者召回的结果相关度比较差, 而且经过修正后能够召回更多、相关度更高的搜索结果(每个查询词的搜索结果都能够通 过建模计算出一个量化的相关度值,这个计算过程可以使用现有技术,因此在此不再赘述。 一般情况下错误的搜索词召回的搜索结果与正确的搜索词召回的搜索结果相比,计算出来 的相关度值更低)。修正后的第二搜索词的搜索结果的数量和/或相关度比第一搜索词的 搜索结果更高,也是搜索引擎判断第一搜索词是未召回类纠错词的判断依据之一。在本发 明的一个实施例中,搜索引擎分别获取第一搜索词对应的第一搜索结果和第二搜索词对应 的第二搜索结果,并根据第一搜索结果的数量与第二搜索结果的数量之比判断第一搜索词 是否为未召回类纠错词。
[0059] (3)搜索词对应查询结果的点击情况
[0060] 错误的搜索词由于召回的搜索结果比较少或者召回的结果相关性比较差,因此也 经常会造成用户对修正前的搜索结果点击少甚至不点击,而对修正后的结果点击多的情 况。修正后的第二搜索词的搜索结果的点击次数比第一搜索词的搜索结果的点击次数更 多,也是搜索引擎判断第一搜索词是未召回类纠错词的判断依据之一。在本发明的一个实 施例中,搜索引擎获取用户对第一搜索结果的第一点击记录和用户对所述第二搜索结果的 第二点击记录,并根据第一点击记录与第二点击记录的比较判断第一搜索词是否为未召回 类纠错词。
[0061] 本发明将"用户输入错误的第一搜索词之后,重新输入的第二搜索词相比于第一 搜索词更能够满足用户需要"这一判断第一搜索词是未召回类纠错词的基本依据,具体地 在统计学原理上分解为第一部分所述的第一搜索词和第二搜索词之间的关联关系(尤其 是编辑距离和差异比例,可体现出第二搜索词是否是由用户对第一搜索词修改而得到),第 二部分所述的前后两次搜索结果的相关度之间的比较,第三部分所述的用户对前后两次搜 索结果的点击次数比较等三方面的因素,实现了将对第一搜索词是未召回类纠错词的判断 智能化、自动化。
[0062] 表1为一个具体实施例中的搜索词的关联关系的不意表。
[0063]

【权利要求】
1. 一种挖掘搜索引擎未召回类纠错词的方法,其特征在于,包括以下步骤: 搜索引擎获取用户的会话日志,其中,所述会话日志至少包括第一会话和第二会话,所 述第一会话和第二会话中分别包括第一搜索词和第二搜索词; 所述搜索引擎获得所述第一搜索词和第二搜索词之间的关联关系信息;以及 所述搜索引擎根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词。
2. 如权利要求1所述的挖掘搜索引擎未召回类纠错词的方法,其特征在于,所述关联 关系信息包括所述第一搜索词和第二搜索词之间的编辑距离信息,所述第一搜索词和第二 搜索词之间的分词数量变化信息,以及所述第一搜索词和第二搜索词之间的包含关系信 息。
3. 如权利要求2所述的挖掘搜索引擎未召回类纠错词的方法,其特征在于,所述关联 关系信息还包括所述第一搜索词和第二搜索词之间的差异比例。
4. 如权利要求1-3任一项所述的挖掘搜索引擎未召回类纠错词的方法,其特征在于, 所述搜索引擎根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词,进一步 包括: 所述搜索引擎根据所述关联关系信息计算所述第一搜索词是未召回类纠错词的概率, 当所述概率大于预设阈值时,所述搜索引擎判断所述第一搜索词是未召回类纠错词。
5. 如权利要求1-4中任一项所述的挖掘搜索引擎未召回类纠错词的方法,其特征在 于,还包括: 所述搜索引擎分别获取所述第一搜索词对应的第一搜索结果和所述第二搜索词对应 的第二搜索结果; 所述搜索引擎根据所述第一搜索结果的数量与所述第二搜索结果的数量之比判断所 述第一搜索词是否为未召回类纠错词。
6. 如权利要求5所述的挖掘搜索引擎未召回类纠错词的方法,其特征在于,还包括: 所述搜索引擎获取所述用户对所述第一搜索结果的第一点击记录和所述用户对所述 第二搜索结果的第二点击记录; 所述搜索引擎根据所述第一点击记录与所述第二点击记录判断所述第一搜索词是否 为未召回类纠错词。
7. -种挖掘搜索引擎未召回类纠错词的装置,其特征在于,包括: 日志读取模块,用于获取用户的会话日志,其中,所述会话日志至少包括第一会话和第 二会话,所述第一会话和第二会话中分别包括第一搜索词和第二搜索词; 关联关系检测模块,用于获得所述第一搜索词和第二搜索词之间的关联关系信息;以 及 判断模块,用于根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词。
8. 如权利要求7所述的挖掘搜索引擎未召回类纠错词的装置,其特征在于,所述关联 关系信息包括所述第一搜索词和第二搜索词之间的编辑距离信息,所述第一搜索词和第二 搜索词之间的分词数量变化信息,以及所述第一搜索词和第二搜索词之间的包含关系信 息。
9. 如权利要求8所述的挖掘搜索引擎未召回类纠错词的装置,其特征在于,所述关联 关系信息还包括所述第一搜索词和第二搜索词之间的差异比例。
10. 如权利要求7所述的挖掘搜索引擎未召回类纠错词的装置,其特征在于,所述判断 模块根据所述关联关系信息计算所述第一搜索词是未召回类纠错词的概率,当所述概率大 于预设阈值时,所述判断模块判断所述第一搜索词是未召回类纠错词。
11. 如权利要求7-10中任一项所述的挖掘搜索引擎未召回类纠错词的装置,其特征在 于,还包括: 搜索结果获取模块,所述搜索模块用于分别获取所述第一搜索词对应的第一搜索结果 和所述第二搜索词对应的第二搜索结果,并根据所述第一搜索结果的数量与所述第二搜索 结果的数量之比判断所述第一搜索词是否为未召回类纠错词。
12. 如权利要求11所述的挖掘搜索引擎未召回类纠错词的装置,其特征在于, 所述搜索结果获取模块还用于获取所述用户对所述第一搜索结果的第一点击记录和 所述用户对所述第二搜索结果的第二点击记录,并根据所述第一点击记录与所述第二点击 记录判断所述第一搜索词是否为未召回类纠错词。
【文档编号】G06F17/27GK104102633SQ201310111569
【公开日】2014年10月15日 申请日期:2013年4月1日 优先权日:2013年4月1日
【发明者】阮星华 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1