一种挖掘搜索引擎未召回类纠错词的方法及装置制造方法

文档序号：6501407阅读：220来源：国知局

一种挖掘搜索引擎未召回类纠错词的方法及装置制造方法
【专利摘要】本发明提出了一种挖掘搜索引擎未召回类纠错词的方法，包括以下步骤：搜索引擎获取用户的会话日志，其中，会话日志至少包括第一会话和第二会话，第一会话和第二会话中分别包括第一搜索词和第二搜索词；搜索引擎获得第一搜索词和第二搜索词之间的关联关系信息；搜索引擎根据关联关系信息判断第一搜索词是否为未召回类纠错词。本发明还提出了一种挖掘搜索引擎未召回类纠错词的装置。本发明通过对用户搜索词序列和搜索结果的建模分析，能够自动地发现未召回类纠错词，召回效率远高于人工查找，大大节省了寻找未召回类纠错词的人力成本。
【专利说明】-种挖掘搜索引擎未召回类纠错词的方法及装置

【技术领域】
[0001] 本发明涉及互联网搜索【技术领域】，特别涉及一种挖掘搜索引擎未召回类纠错词的方法及装置。

【背景技术】
[0002] 搜索引擎搜索词纠错是一种有效的用户搜索词纠正和引导方法。当用户在搜索时，由于拼写错误、记忆不清而不能提供完整和准确的搜索词的时候，搜索引擎能够通过纠错、校正用户的输入或者将用户引导到正确的搜索词上，使得用户获得有用的查询结果，如图1(a)、图1(b)、图1(c)所示，例如用户本来想搜索"中关村"，但是输入错误的"中观村"、 "众关村"或者"zhong关村"，搜索引擎都能够给出正确的纠错词"中关村"。
[0003] 如果搜索引擎给出的纠错词不正确，例如将不需要纠错的搜索词做纠错，或者需要纠错的搜索词没有正确纠错，那么不仅无法引导给用户需要的结果，往往还会造成适得其反的负面效果。因此针对搜索引擎纠错的效果进行验证（包括准确率和召回率），以及挖掘出纠错效果不好的搜索引擎纠错失败的案例以供后续改进就变得非常重要。
[0004] 搜索引擎纠错失败的情况可以分为如下三种类型：
[0005] (1)用户输入的是正确的搜索词，但是搜索引擎却做了纠错，给了不合适的纠错词；
[0006] (2)用户输入的是错误的搜索词，但是搜索引擎给出的纠错词也不正确；
[0007] (3)用户输入的是错误的搜索词，但是搜索引擎没有给出纠错词，也就是业界所说的纠错词未召回的情况，例如，用户输入"万里长征永不倒"查询结果如图2(a)所示，搜索引擎没有给出纠错词，实际上用户想要检索的应该是"万里长城永不倒"，用"万里长城永不倒"检索能够检索到更多更好的结果，如图2(b)所示。
[0008] 对于其中的（1)和（2)两种情况，通过对带有纠错词信息的用户Session (会话）日志进行建模分析能够有效地发现。而对于第（3)种搜索引擎未召回类纠错词的情况，现有技术中尚未有针对性的解决办法。

【发明内容】

[0009] 本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。
[0010] 为此，本发明的第一个目的在于提出一种挖掘搜索引擎未召回类纠错词的方法，通过对用户搜索词序列和搜索结果的建模分析，能够自动地发现未召回类纠错词。本发明的第二个目的在于提出一种挖掘搜索引擎未召回类纠错词的装置。
[0011] 为达到上述目的，本发明第一方面的实施例提出了一种挖掘搜索引擎未召回类纠错词的方法，包括以下步骤：搜索引擎获取用户的会话日志，其中，所述会话日志至少包括第一会话和第二会话，所述第一会话和第二会话中分别包括第一搜索词和第二搜索词；所述搜索引擎获得所述第一搜索词和第二搜索词之间的关联关系信息；所述搜索引擎根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词。
[0012] 根据本发明实施例的挖掘搜索引擎未召回类纠错词的方法，通过样本的训练之后能够自动的进行未召回类纠错词判断，大大节省了寻找未召回类纠错词的人力，并且，通过对用户搜索词序列和搜索结果的建模分析，能够自动地发现未召回类纠错词，召回效率远高于以往的人工查找。
[0013] 在本发明的一个实施例中，所述关联关系信息包括所述第一搜索词和第二搜索词之间的编辑距离信息，所述第一搜索词和第二搜索词之间的分词数量变化信息，以及所述第一搜索词和第二搜索词之间的包含关系信息。
[0014] 在本发明的一个实施例中，所述关联关系信息还包括所述第一搜索词和第二搜索词之间的差异比例。
[0015] 在本发明的一个实施例中，所述搜索引擎根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词，进一步包括：所述搜索引擎根据所述关联关系信息计算所述第一搜索词是未召回类纠错词的概率，当所述概率大于预设阈值时，所述搜索引擎判断所述第一搜索词是未召回类纠错词。
[0016] 在本发明的一个实施例中，所述方法还包括：所述搜索引擎分别获取所述第一搜索词对应的第一搜索结果和所述第二搜索词对应的第二搜索结果；所述搜索引擎根据所述第一搜索结果的数量与所述第二搜索结果的数量之比判断所述第一搜索词是否为未召回类纠错词。
[0017] 在本发明的一个实施例中，所述方法还包括：所述搜索引擎获取所述用户对所述第一搜索结果的第一点击记录和所述用户对所述第二搜索结果的第二点击记录；所述搜索引擎根据所述第一点击记录与所述第二点击记录判断所述第一搜索词是否为未召回类纠错词。
[0018] 本发明第二方面的实施例提出了一种挖掘搜索引擎未召回类纠错词的装置，包括：日志读取模块，用于获取用户的会话日志，其中，所述会话日志至少包括第一会话和第二会话，所述第一会话和第二会话中分别包括第一搜索词和第二搜索词；关联关系检测模块，用于获得所述第一搜索词和第二搜索词之间的关联关系信息；判断模块，用于根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词。
[0019] 根据本发明实施例的挖掘搜索引擎未召回类纠错词的装置，通过样本的训练之后能够自动的进行未召回类纠错词判断，大大节省了寻找未召回类纠错词的人力，并且，通过对用户搜索词序列和搜索结果的建模分析，能够自动地发现未召回类纠错词，召回效率远高于以往的人工查找。
[0020] 在本发明的一个实施例中，所述关联关系信息包括所述第一搜索词和第二搜索词之间的编辑距离信息，所述第一搜索词和第二搜索词之间的分词数量变化信息，以及所述第一搜索词和第二搜索词之间的包含关系信息。
[0021] 在本发明的一个实施例中，所述关联关系信息还包括所述第一搜索词和第二搜索词之间的差异比例。
[0022] 在本发明的一个实施例中，所述判断模块根据所述关联关系信息计算所述第一搜索词是未召回类纠错词的概率，当所述概率大于预设阈值时，所述搜索引擎判断所述第一搜索词是未召回类纠错词。
[0023] 在本发明的一个实施例中，所述装置还包括：搜索结果获取模块，所述搜索模块用于分别获取所述第一搜索词对应的第一搜索结果和所述第二搜索词对应的第二搜索结果，所述判断模块还用于根据所述第一搜索结果的数量与所述第二搜索结果的数量之比判断所述第一搜索词是否为未召回类纠错词。
[0024] 在本发明的一个实施例中，所述搜索结果获取模块还用于获取所述用户对所述第一搜索结果的第一点击记录和所述用户对所述第二搜索结果的第二点击记录，所述判断模块还用于根据所述第一点击记录与所述第二点击记录判断所述第一搜索词是否为未召回类纠错词。
[0025] 本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

【专利附图】

【附图说明】
[0026] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
[0027] 图1 (a)为一个搜索引擎对错误的搜索词进行纠错的示意图；
[0028] 图1 (b)为一个搜索引擎对错误的搜索词进行纠错的示意图；
[0029] 图1 (c)为一个搜索引擎对错误的搜索词进行纠错的示意图；
[0030] 图2(a)为一个搜索引擎对错误的搜索词没有进行纠错的示意图；
[0031] 图2(b)为图2(a)中错误的搜索词相对应的正确的搜索词的示意图；
[0032] 图3为根据本发明一个实施例的挖掘搜索引擎未召回类纠错词的方法的流程图；
[0033] 图4(a)为一个用户输入错误的搜索词的示意图；
[0034] 图4(b)为图4(a)中错误的搜索词相对应的正确的搜索词的示意图；
[0035] 图5为根据本发明一个实施例的挖掘搜索引擎未召回类纠错词的装置的示意图；以及
[0036] 图6为根据本发明一个实施例的挖掘搜索引擎未召回类纠错词的装置的示意图。

【具体实施方式】
[0037] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。
[0038] 在本发明的描述中，需要说明的是，除非另有规定和限定，术语"安装"、"相连"、 "连接"应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。
[0039] 下面参考附图描述根据本发明实施例的挖掘搜索引擎未召回类纠错词的方法及装直。
[0040] 如图3所示，根据本发明第一方面实施例的挖掘搜索引擎未召回类纠错词的方法。在本发明中，纠错词是指搜索引擎对用户输入的搜索词进行纠正之后词。未召回类纠错词是指目前虽然用户输入的搜索词有误，但是搜索引擎并没有给出相应的纠错词，因此称之为未召回类纠错词。该方法包括以下步骤：
[0041] S101 :搜索引擎获取用户的会话日志，其中，会话日志至少包括第一会话和第二会话，第一会话包括第一搜索词，且第二会话包括第二搜索词。
[0042] S102 :搜索引擎获得第一搜索词和第二搜索词之间的关联关系信息。
[0043] 其中，关联关系信息包括：第一搜索词和第二搜索词之间的编辑距离信息、第一搜索词和第二搜索词之间的分词数量变化信息、第一搜索词和第二搜索词之间的包含关系信息中的一种或多种。
[0044] S103:搜索引擎根据关联关系信息判断第一搜索词是否为未召回类纠错词。
[0045] 优选地，搜索引擎根据关联关系信息计算第一搜索词是未召回类纠错词的概率，当概率大于预设阈值时，搜索引擎判断第一搜索词是未召回类纠错词。预设阈值可通过对一定数量的会话日志进行训练后计算得出。
[0046] 以下通过具体的实施例对本发明进行说明。
[0047] 用户在某一段时间内使用搜索引擎输入的搜索词，称为用户的搜索词序列。用户的搜索词序列中的前后搜索词之间存在一定的联系。在本发明的一个实施例中，比如用户输入错误的第一搜索词"优酷tvv新剧"，发现查询结果太少并且无法满足自己的需求，这时候也许用户会意识到自己输入的搜索词有误，通过将搜索词修正为第二搜索词"优酷tvb 新剧"之后得到较好的查询结果并点击相应的搜索结果，来满足自己的信息检索需求。以下表述中，有需要时，第一搜索词也以"前搜索词"，第二搜索词也以"后搜索词"来描述。
[0048]用户使用搜索引擎一般来说都有某种搜索诉求，希望通过搜索引擎找到自己想要的信息。而搜索词就是用户和搜索引擎交互的渠道，如果使用的搜索词不合适或者搜索词出现错误，搜索结果可能就无法满足用户的需求。用户也会通过修正或者调整搜索词来获取更好的搜索结果满足自己的需求。因此，当用户发现自己输入的搜索词错误而导致搜索结果不好的时候，会主动地修正搜索词；如果用户意识不到输入了错误的搜索词，那么用户可能会想方设法调整使用别的搜索词来获取更好的搜索结果。而体现在会话日志中，则表现为用户修正或者调整前后的搜索词之间存在关联关系，例如当用户错误输入第一搜索词 "优酷tvv新剧"之后搜索引擎给出的结果不太好，如图4 (a)，那么用户修正后，输入第二搜索词为"优酷tvb新剧"获得了更好的搜索结果，如图4(b)，编辑距离的意义为第二搜索词相比于第一搜索词的最小修正字符数，图4(a)和图4(b)中，修正的字符为把"v"变成"b"，因此修正前后两个搜索词之间的编辑距离为1。
[0049] 本发明基于用户会话日志中提取的搜索词序列和搜索结果进行建模分析，然后计算不同指标分布情况下属于未召回类纠错词的概率从而挖掘搜索引擎未召回类纠错词的方法。主要分析因素如下：
[0050] (1)对会话序列中前后两个搜索词之间的关联关系分析以获得前后两个搜索词之间的关联关系信息，关联关系信息主要包括如下内容：
[0051] A、编辑距离，例如"钻进需要哪些资格证书"和"钻井需要哪些资格证书"之间的编辑距离为1 ;
[0052] 这里的编辑距离1为绝对编辑距离，实际上，在本实施例中，关联关系信息还可以包括第一搜索词和第二搜索词之间的差异比例，即绝对编辑距离和第一搜索词长度的比例，上面这个例子的差异比例就是10%。而"芒果"转换为"苹果"之间虽然编辑距离也为 1，但是差异比例为50%。再比较一下这两个例子，"芒果"转换为"苹果"这个场景下，前一个搜索词"芒果"不被认为是输入错误词，而"钻进需要哪些资格证书"被认为是输入错误而需要纠正的搜索词。
[0053] 也就是说，前后两个词之间的差异比例越小的情况下，前面的搜索词可能是需要纠错的搜索词的概率会相对高一些。
[0054] B、前后词的分词数量变化，例如"是会可以吃？"，经分词后，分词个数为4(是、会、可以、吃），"石灰可以吃？ "经分词后，分词个数为3 (石灰、可以、吃）；
[0055] 当用户输入的搜索词存在输入错误的时候，很大概率上会造成分词数增加，例如： "大学生就业问题"如果出现输入错误变成"大学生就也问题"，这种情形下，分词数会由 3 (大学生、就业、问题）变为4 (大学生、就、也、问题），因为输入的错字导致搜索词的分词结果更加分散了。
[0056] C、前后词的包含关系，包含关系分为"前词包含后词"，"后词包含前词"和"不包含"三种关系，例如"淘宝网购物"和"淘宝网"之间就是"前词包含后词"的关系，并且删除的"购物"两个字能够独立成词。"淘宝网实"和"淘宝网"之间也是"前词包含后此"的关系，但是删除的"实"字不能独立成词。一般情况下，如果"后词包含前词"那么前词属于输入错误词的概率会小一些，而"前词包含后词"的情况下，如果差异的字较少并且不能独立成词，那么前词属于输入错误词的概率就会偏大一些。
[0057] (2)搜索词查询结果的数量变化
[0058] 错误的搜索词通常情况下召回的搜索结果比较少或者召回的结果相关度比较差，而且经过修正后能够召回更多、相关度更高的搜索结果（每个查询词的搜索结果都能够通过建模计算出一个量化的相关度值，这个计算过程可以使用现有技术，因此在此不再赘述。一般情况下错误的搜索词召回的搜索结果与正确的搜索词召回的搜索结果相比，计算出来的相关度值更低）。修正后的第二搜索词的搜索结果的数量和/或相关度比第一搜索词的搜索结果更高，也是搜索引擎判断第一搜索词是未召回类纠错词的判断依据之一。在本发明的一个实施例中，搜索引擎分别获取第一搜索词对应的第一搜索结果和第二搜索词对应的第二搜索结果，并根据第一搜索结果的数量与第二搜索结果的数量之比判断第一搜索词是否为未召回类纠错词。
[0059] (3)搜索词对应查询结果的点击情况
[0060] 错误的搜索词由于召回的搜索结果比较少或者召回的结果相关性比较差，因此也经常会造成用户对修正前的搜索结果点击少甚至不点击，而对修正后的结果点击多的情况。修正后的第二搜索词的搜索结果的点击次数比第一搜索词的搜索结果的点击次数更多，也是搜索引擎判断第一搜索词是未召回类纠错词的判断依据之一。在本发明的一个实施例中，搜索引擎获取用户对第一搜索结果的第一点击记录和用户对所述第二搜索结果的第二点击记录，并根据第一点击记录与第二点击记录的比较判断第一搜索词是否为未召回类纠错词。
[0061] 本发明将"用户输入错误的第一搜索词之后，重新输入的第二搜索词相比于第一搜索词更能够满足用户需要"这一判断第一搜索词是未召回类纠错词的基本依据，具体地在统计学原理上分解为第一部分所述的第一搜索词和第二搜索词之间的关联关系（尤其是编辑距离和差异比例，可体现出第二搜索词是否是由用户对第一搜索词修改而得到），第二部分所述的前后两次搜索结果的相关度之间的比较，第三部分所述的用户对前后两次搜索结果的点击次数比较等三方面的因素，实现了将对第一搜索词是未召回类纠错词的判断智能化、自动化。
[0062] 表1为一个具体实施例中的搜索词的关联关系的不意表。
[0063]

【权利要求】
1. 一种挖掘搜索引擎未召回类纠错词的方法，其特征在于，包括以下步骤：搜索引擎获取用户的会话日志，其中，所述会话日志至少包括第一会话和第二会话，所述第一会话和第二会话中分别包括第一搜索词和第二搜索词；所述搜索引擎获得所述第一搜索词和第二搜索词之间的关联关系信息；以及所述搜索引擎根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词。
2. 如权利要求1所述的挖掘搜索引擎未召回类纠错词的方法，其特征在于，所述关联关系信息包括所述第一搜索词和第二搜索词之间的编辑距离信息，所述第一搜索词和第二搜索词之间的分词数量变化信息，以及所述第一搜索词和第二搜索词之间的包含关系信息。
3. 如权利要求2所述的挖掘搜索引擎未召回类纠错词的方法，其特征在于，所述关联关系信息还包括所述第一搜索词和第二搜索词之间的差异比例。
4. 如权利要求1-3任一项所述的挖掘搜索引擎未召回类纠错词的方法，其特征在于，所述搜索引擎根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词，进一步包括：所述搜索引擎根据所述关联关系信息计算所述第一搜索词是未召回类纠错词的概率，当所述概率大于预设阈值时，所述搜索引擎判断所述第一搜索词是未召回类纠错词。
5. 如权利要求1-4中任一项所述的挖掘搜索引擎未召回类纠错词的方法，其特征在于，还包括：所述搜索引擎分别获取所述第一搜索词对应的第一搜索结果和所述第二搜索词对应的第二搜索结果；所述搜索引擎根据所述第一搜索结果的数量与所述第二搜索结果的数量之比判断所述第一搜索词是否为未召回类纠错词。
6. 如权利要求5所述的挖掘搜索引擎未召回类纠错词的方法，其特征在于，还包括：所述搜索引擎获取所述用户对所述第一搜索结果的第一点击记录和所述用户对所述第二搜索结果的第二点击记录；所述搜索引擎根据所述第一点击记录与所述第二点击记录判断所述第一搜索词是否为未召回类纠错词。
7. -种挖掘搜索引擎未召回类纠错词的装置，其特征在于，包括：日志读取模块，用于获取用户的会话日志，其中，所述会话日志至少包括第一会话和第二会话，所述第一会话和第二会话中分别包括第一搜索词和第二搜索词；关联关系检测模块，用于获得所述第一搜索词和第二搜索词之间的关联关系信息；以及判断模块，用于根据所述关联关系信息判断所述第一搜索词是否为未召回类纠错词。
8. 如权利要求7所述的挖掘搜索引擎未召回类纠错词的装置，其特征在于，所述关联关系信息包括所述第一搜索词和第二搜索词之间的编辑距离信息，所述第一搜索词和第二搜索词之间的分词数量变化信息，以及所述第一搜索词和第二搜索词之间的包含关系信息。
9. 如权利要求8所述的挖掘搜索引擎未召回类纠错词的装置，其特征在于，所述关联关系信息还包括所述第一搜索词和第二搜索词之间的差异比例。
10. 如权利要求7所述的挖掘搜索引擎未召回类纠错词的装置，其特征在于，所述判断模块根据所述关联关系信息计算所述第一搜索词是未召回类纠错词的概率，当所述概率大于预设阈值时，所述判断模块判断所述第一搜索词是未召回类纠错词。
11. 如权利要求7-10中任一项所述的挖掘搜索引擎未召回类纠错词的装置，其特征在于，还包括：搜索结果获取模块，所述搜索模块用于分别获取所述第一搜索词对应的第一搜索结果和所述第二搜索词对应的第二搜索结果，并根据所述第一搜索结果的数量与所述第二搜索结果的数量之比判断所述第一搜索词是否为未召回类纠错词。
12. 如权利要求11所述的挖掘搜索引擎未召回类纠错词的装置，其特征在于，所述搜索结果获取模块还用于获取所述用户对所述第一搜索结果的第一点击记录和所述用户对所述第二搜索结果的第二点击记录，并根据所述第一点击记录与所述第二点击记录判断所述第一搜索词是否为未召回类纠错词。
【文档编号】G06F17/27GK104102633SQ201310111569
【公开日】2014年10月15日申请日期:2013年4月1日优先权日:2013年4月1日
【发明者】阮星华申请人:百度在线网络技术（北京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：阮星华
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种基于短消息的记账方法及系统的制作方法
上一篇：信息处理方法和信息处理设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。