一种搜索引擎坏例的挖掘方法和装置制造方法

文档序号：6487554阅读：152来源：国知局

一种搜索引擎坏例的挖掘方法和装置制造方法
【专利摘要】本发明提供了一种搜索引擎坏例（badcase）的挖掘方法和装置，其中方法包括：预处理过程：从会话（session）日志中抽取一定数量的session作为样本，并从样本的各session中抽取描述搜索质量的特征向量；利用各session的特征向量对样本进行聚类；确定聚类得到的各类别的置信度，置信度代表搜索质量低的程度；挖掘过程：在待挖掘的session日志中确定同一query下的行为序列，并从行为序列中抽取描述搜索质量的特征向量；通过计算query的特征向量与各类别的特征向量之间的距离，确定query所属的类别；如果query所属类别的置信度超过预设的高阈值，则确定搜索引擎对该query存在badcase。本发明能够实现搜索引擎badcase的自动挖掘，从而及时准确地发现搜索引擎的badcase。
【专利说明】一种搜索引擎坏例的挖掘方法和装置
【【技术领域】】
[0001]本发明涉及计算机应用【技术领域】，特别涉及一种搜索引擎坏例(badcase)的挖掘方法和装置。
【【背景技术】】 [0002]随着计算机技术的不断发展，网络已经成为人们获取信息的主要渠道。其中搜索引擎能够通过分析理解用户查询需求和意图，在全网范围内搜索与用户query最匹配的网页。然而，由于互联网有海量的网页，网页在内容形式上差异很大，同时用户需求的表达方式也多种多样，因此搜索引擎最大的难度就在于不论用户怎样的查询都能够返回相关性最好的结果。
[0003]搜索引擎内部是由诸多复杂耦合的相关性策略组合而成的，其数量和复杂程度以及相互制约关系已经到了无法完整描述的组合爆炸程度，一个策略的升级会优化部分相关性特征，同时也会影响甚至降低其他的相关性特征。换句话说，在用户层面，一些升级会提高部分query的搜索质量(即用户满意度)，同时可能会降低一些未知query的搜索质量,这种对搜索质量的降低情况就是搜索引擎的坏例(bad case)。
[0004]搜索引擎对内部策略的升级是十分频繁的，因此也会十分频繁的引入badcase，目前badcase的发现主要是通过人工评估，即人工搜索多个热门query和随机query,判断这些query的搜索质量。这种方式效率低下，而且只能发现少量碰巧遇到的badcase,不能及时准确地发现badcase，必然难以及时作为搜索引擎改进的决策参考。
【
【发明内容】
】
[0005]有鉴于此，本发明提供了一种搜索引擎badcase的挖掘方法和装置，以便于及时准确地发现搜索引擎的badcase。
[0006]具体技术方案如下:
[0007]一种搜索引擎坏例badcase的挖掘方法，该方法包括:
[0008]S1、预处理过程:
[0009]S11、从会话session日志中抽取一定数量的session作为样本，并从样本的各session中抽取描述搜索质量的特征向量；
[0010]S12、利用各session的特征向量对所述样本进行聚类；
[0011]S13、确定聚类得到的各类别的置信度，所述置信度代表搜索质量低的程度；
[0012]S2、挖掘过程:
[0013]S21、在待挖掘的session日志中确定同一 query下的行为序列，并从所述行为序列中抽取描述搜索质量的特征向量；
[0014]S22、通过计算query的特征向量与各类别的特征向量之间的距离,确定query所属的类别；
[0015]S23、如果query所属类别的置信度超过预设的高阈值，则确定搜索引擎对该query 存在 badcase。
[0016]根据本发明一优选实施例，步骤S12和步骤S21中所述抽取描述搜索质量的特征向量为:抽取搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数中的一种或任意组合的特征，将抽取的特征进行归一化后构成所述描述搜索质量的特征向量。
[0017]根据本发明一优选实施例，所述步骤S12具体为:基于各session的特征向量之间的距离采用k-means聚类的方式对所述样本进行聚类。
[0018]根据本发明一优选实施例，所述步骤S13具体为:根据用户在各类别中标出的搜索质量低的session在各类别中所占的比例，确定各类别的置信度。
[0019]根据本发明一优选实施例，所述步骤S22具体包括:计算query的特征向量分别与各类别的特征向量之间的距离，将距离最近的类别确定为query所属的类别。
[0020]根据本发明一优选实施例，所述S23还包括:如果query所属类别的置信度低于预设的低阈值，则确定搜索引擎对该query不存在badcase ；
[0021]如果query所属类别的置信度在所述预设的高阈值和低阈值之间，则采用其他决策规则进一步判断；
[0022]所述预设的高阈值大于所述预设的低阈值。
[0023]根据本发明一优选实施例，所述采用其他决策规则进一步判断包括:
[0024]计算session日志中该query对应的被点击URL与全网搜索中该query对应的被点击URL之间的重合度，重合度高于预设第一重合度阈值的，确定搜索引擎对该query不存在badcase,重合度低于预设第二重合度阈值的,确定搜索引擎对该query存在badcase,所述第一重合度阈值大于或等于第二重合度阈值；或者，
[0025]判断该query下用户的停留时长是否超过预设的停留时长阈值，如果是，则确定搜索引擎对该query不存在badcase,否则确定搜索引擎对该query存在badcase ;或者，
[0026]判断同一用户在该query之后查询的query是否与该query相关联,如果是,则确定搜索引擎对该query存在badcase,否则确定搜索引擎对该query不存在badcase。
[0027]一种搜索引擎badcase的挖掘装置，该装置包括预处理单元和挖掘单元；
[0028]所述预处理单元包括:
[0029]样本特征抽取模块，用于从session日志中抽取一定数量的session作为样本，并从样本的各session中抽取描述搜索质量的特征向量；
[0030]样本聚类模块，用于利用各session的特征向量对所述样本进行聚类；
[0031]置信度确定模块，用于确定所述样本聚类模块聚类得到的各类别的置信度，所述置信度代表搜索质量低的程度；
[0032]所述挖掘单元包括:
[0033]查询特征抽取模块，用于在待挖掘的session日志中确定同一 query下的行为序列，并从所述行为序列中抽取描述搜索质量的特征向量；
[0034]查询类别确定模块，用于通过计算query的特征向量与各类别的特征向量之间的距离，确定query所属的类别；
[0035]坏例判别模块，用于如果query所属类别的置信度超过预设的高阈值，则确定搜索引擎对该query存在badcase。
[0036]根据本发明一优选实施例，所述样本特征抽取模块和查询特征抽取模块在抽取描述搜索质量的特征向量时，具体抽取搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数中的一种或任意组合的特征，将抽取的特征进行归一化后构成所述描述搜索质量的特征向量。
[0037]根据本发明一优选实施例，所述样本聚类模炔基于各session的特征向量之间的距离采用k-means聚类的方式对所述样本进行聚类。
[0038]根据本发明一优选实施例，所述置信度确定模块具体根据用户在各类别中标出的搜索质量低的session在各类别中所占的比例，确定各类别的置信度。
[0039]根据本发明一优选实施例，所述查询类别确定模块具体计算query的特征向量分别与各类别的特征向量之间的距离，将距离最近的类别确定为query所属的类别。
[0040]根据本发明一优选实施例，所述坏例判别模块，还用于如果query所属类别的置信度低于预设的低阈值，则确定搜索引擎对该query不存在badcase ;如果query所属类别的置信度在所述预设的高阈值和低阈值之间，则采用其他决策规则进一步判断；其中所述预设的高阈值大于所述预设的低阈值。
[0041]根据本发明一优选实施例，所述坏例判别模块在采用其他决策规则进一步判断时，包括:
[0042]计算session日志中该query对应的被点击URL与全网搜索中该query对应的被点击URL之间的重合度，重合度高于预设第一重合度阈值的，确定搜索引擎对该query不存在badcase,重合度低于预设第二重合度阈值的,确定搜索引擎对该query存在badcase,所述第一重合度阈值大于或等于第二重`合度阈值；或者，
[0043]判断该query下用户的停留时长是否超过预设的停留时长阈值，如果是，则确定搜索引擎对该query不存在badcase,否则确定搜索引擎对该query存在badcase ;或者，
[0044]判断同一用户在该query之后查询的query是否与该query相关联,如果是,则确定搜索引擎对该query存在badcase,否则确定搜索引擎对该query不存在badcase。
[0045]由以上技术方案可以看出，本发明从session日志中抽取样本后基于特征向量对样本进行聚类并确定各类别的置信度，从待挖掘的session日志中同一 query下的行为序列中抽取特征向量，利用query的特征向量与各类别的特征向量之间的距离确定query所属的类别并依据所属类别的置信度判别搜索引擎是否针对该query存在badcase，从而实现了搜索引擎badcase的自动挖掘，不再依赖于人工评估，既提高了效率也提高了准确性。
【【专利附图】

【附图说明】】
[0046]图1为本发明实施例一提供的搜索引擎badcase的挖掘方法流程图；
[0047]图2为本发明实施例二提供的搜索引擎badcase的挖掘装置结构图。
【【具体实施方式】】
[0048]为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。
[0049]搜索引擎的badcase会导致用户使用它进行查询时，得到的结果质量低下，这个结果的质量低下会直接反映到用户在本次检索时的行为上。比如搜索一个query的结果不好，用户的行为可能是直接关掉这个页面、直接翻页等，由此可见，用户的会话(session)日志里面包含了用户对检索质量好坏评价的信息。本发明就从session日志中用户行为数据入手来进行搜索引擎badcase的挖掘，具体的挖掘方法通过下面的实施例一进行详细描述。
[0050]实施例一、
[0051]图1为本发明实施例一提供的搜索引擎badcase的挖掘方法流程图，如图1所示，该方法可以包括以下步骤:
[0052]步骤101:从session日志中抽取一定数量的session作为样本，并从样本的各session中抽取描述搜索质量的特征向量。
[0053]session指的是用户与交互系统进行通信的时间阶段，通常指从进入交互系统到推出系统之间所经过的时间，还会有一定的操作空间。在本发明实施例中，session日志中一个session包含用户使用搜索引擎的行为信息。
[0054]搜索引擎的session日志是海量的，每天可能就是T (1T=1024G)级别的文件，因此在本步骤中仅需要从中抽取出一定数量的session作为样本即可，例如从中抽取出600条session作为样本。
[0055]描述搜索质量的特征可以包括但不限于以下特征中的至少一种:搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续的时间、首次点击的位置(例如搜索结果页中的第几页)、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数。以上特征实际上都是用户的一些行为信息，都能从session日志中提取出来，并被归一化后构成一个session的特征向量。
[0056]例如，用户在每个query下的一系列行为即session用一个30维的特征向量表示，该特征向量采用10个行为，每个行为采用三个特征参数描述:行为发生时间、行为发生位置和是否紧随相似query。其中行为发生时间和行为发生位置参数可以使用自然对数函数进行归一化。
[0057]步骤102:利用各session的特征向量对样本进行聚类。
[0058]在此，聚类方式可以基于特征向量间的距离采用k-means聚类的方式，其中由于特征向量中使用到的量纲可能不是统一的，因此特征向量间的距离可以采用曼哈顿距离。
[0059]k-means聚类的过程可以如下:
[0060]首先选择k个初始聚类中心。初始聚类中心的特征向量可以任意设定，例如可以从样本中选择开始的k个特征向量作为初始聚类中心。
[0061]然后逐个将需分类的样本按照最小距离划分给其中的一个类别，然后更新聚类中心的特征向量，直至各类别的聚类中心收敛。
[0062]步骤103:确定聚类得到的各类别的代表搜索质量低的程度的置信度。
[0063]在聚类结束后，可以人工分析各类别的数据，依据各类别中各session的行为信息在各类别中标出各session的搜索质量高低，根据标出的搜索质量低的session在各类别中所占的比例，确定各类别的置信度，该置信度代表搜索质量低的程度。
[0064]举一个例子，假设通过上述过程得到了 11个类别，各类别的置信度和含义如表1所示。
[0065]表1
【权利要求】
1.一种搜索引擎坏例badcase的挖掘方法，其特征在于，该方法包括: 51、预处理过程: SI 1、从会话session日志中抽取一定数量的session作为样本,并从样本的各session中抽取描述搜索质量的特征向量； 512、利用各session的特征向量对所述样本进行聚类； 513、确定聚类得到的各类别的置信度，所述置信度代表搜索质量低的程度； 52、挖掘过程: 521、在待挖掘的session日志中确定同一query下的行为序列，并从所述行为序列中抽取描述搜索质量的特征向量； 522、通过计算query的特征向量与各类别的特征向量之间的距离,确定query所属的类别； 523、如果query所属类别的置信度超过预设的高阈值,则确定搜索引擎对该query存在 badcase。
2.根据权利要求1所述的方法，其特征在于，步骤S12和步骤S21中所述抽取描述搜索质量的特征向量为:抽取搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数中的一种或任意组合的特征，将抽取的特征进行归一化后构成所述描述搜索质量的特征向量。
3.根据权利要求1所述的方法，其特征在于，所述步骤S12具体为:基于各session的特征向量之间的距离采用k-means聚`类的方式对所述样本进行聚类。
4.根据权利要求1所述的方法，其特征在于，所述步骤S13具体为:根据用户在各类别中标出的搜索质量低的session在各类别中所占的比例，确定各类别的置信度。
5.根据权利要求1所述的方法，其特征在于，所述步骤S22具体包括:计算query的特征向量分别与各类别的特征向量之间的距离，将距离最近的类别确定为query所属的类别。
6.根据权利要求1所述的方法，其特征在于，所述S23还包括:如果query所属类别的置信度低于预设的低阈值，则确定搜索引擎对该query不存在badcase ；如果query所属类别的置信度在所述预设的高阈值和低阈值之间，则采用其他决策规则进一步判断；所述预设的高阈值大于所述预设的低阈值。
7.根据权利要求6所述的方法，其特征在于，所述采用其他决策规则进一步判断包括: 计算session日志中该query对应的被点击URL与全网搜索中该query对应的被点击URL之间的重合度，重合度高于预设第一重合度阈值的，确定搜索引擎对该query不存在badcase,重合度低于预设第二重合度阈值的,确定搜索引擎对该query存在badcase,所述第一重合度阈值大于或等于第二重合度阈值；或者，判断该query下用户的停留时长是否超过预设的停留时长阈值，如果是，则确定搜索引擎对该query不存在badcase,否则确定搜索引擎对该query存在badcase ;或者，判断同一用户在该query之后查询的query是否与该query相关联,如果是,则确定搜索引擎对该query存在badcase,否则确定搜索引擎对该query不存在badcase。
8.一种搜索引擎badcase的挖掘装置，其特征在于，该装置包括预处理单元和挖掘单元; 所述预处理单元包括: 样本特征抽取模块，用于从session日志中抽取一定数量的session作为样本，并从样本的各session中抽取描述搜索质量的特征向量；样本聚类模块，用于利用各sessi0n的特征向量对所述样本进行聚类；置信度确定模块，用于确定所述样本聚类模块聚类得到的各类别的置信度，所述置信度代表搜索质量低的程度；所述挖掘单元包括: 查询特征抽取模块，用于在待挖掘的session日志中确定同一 query下的行为序列，并从所述行为序列中抽取描述搜索质量的特征向量；查询类别确定模块，用于通过计算query的特征向量与各类别的特征向量之间的距离，确定query所属的类别；坏例判别模块，用于如果query所属类别的置信度超过预设的高阈值，则确定搜索引擎对该query存在badcase。
9.根据权利要求8所述的装置，其特征在于，所述样本特征抽取模块和查询特征抽取模块在抽取描述搜索质量的特征向量时，具体抽取搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数中的一种或任意组合的特征，将抽取的特征进行归一化后构成所述描述搜索质量的特征向量。
10.根据权利要求8所述的装置，其特征在于，所述样本聚类模炔基于各session的特征向量之间的距离采用k-means聚类的方式对所述样本进行聚类。
11.根据权利要求8所述的装置，其特征在于，所述置信度确定模块具体根据用户在各类别中标出的搜索质量低的session在各类别中所占的比例，确定各类别的置信度。
12.根据权利要求8所述的装置，其特征在于，所述查询类别确定模块具体计算query的特征向量分别与各类别的特征向量之间的距离，将距离最近的类别确定为query所属的类别。
13.根据权利要求8所述的装置，其特征在于，所述坏例判别模块，还用于如果query所属类别的置信度低于预设的低阈值，则确定搜索引擎对该query不存在badcase ;如果query所属类别的置信度在所述预设的高阈值和低阈值之间，则采用其他决策规则进一步判断；其中所述预设的高阈值大于所述预设的低阈值。
14.根据权利要求13所述的装置，其特征在于，所述坏例判别模块在采用其他决策规则进一步判断时，包括: 计算session日志中该query对应的被点击URL与全网搜索中该query对应的被点击URL之间的重合度，重合度高于预设第一重合度阈值的，确定搜索引擎对该query不存在badcase,重合度低于预设第二重合度阈值的,确定搜索引擎对该query存在badcase,所述第一重合度阈值大于或等于第二重合度阈值；或者，判断该query下用户的停留时长是否超过预设的停留时长阈值，如果是，则确定搜索引擎对该query不存在badcase,否则确定搜索引擎对该query存在badcase ;或者，判断同一用户在该query之后查询的query是否与该query相关联,如果是,则确定搜索引擎对该query存在badcase,否则确定搜索引擎对该query不存在badcase。
【文档编号】G06F17/30GK103577464SQ201210273635
【公开日】2014年2月12日申请日期:2012年8月2日优先权日:2012年8月2日
【发明者】张鑫, 阮星华, 李卓申请人:百度在线网络技术（北京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张鑫;阮星华;李卓
技术所有人：百度在线网络技术(北京)有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。