搜索日志的挖掘方法和装置以及页面搜索的方法和装置的制作方法

文档序号:6339577阅读:126来源:国知局
专利名称:搜索日志的挖掘方法和装置以及页面搜索的方法和装置的制作方法
搜索日志的挖掘方法和装置以及页面搜索的方法和装置
技术领域
本发明属于互联网技术领域,具体涉及一种搜索日志的挖掘方法和装置以及页面 搜索的方法和装置。
背景技术
随着互联网技术的不断发展以及信息的不断膨胀,人们对于网络信息的使用需求 越来越高,搜索引擎成为人们获取网络信息的重要工具。当用户输入搜索词(query)后,搜 索引擎通常会将包含该搜索词的页面包含在搜索结果中返回给用户。然而,现有的搜索技术中,无法对用户所输入query的时效性需求进行识别,例如 用户想要获取刚发生不久的事件的相关信息,但搜索引擎并不会理解用户的该时效性需 求,返回的搜索结果仅仅基于以往搜索历史,并按照预先设定的各属性权值对搜索结果进 行排序,用户可能无法快速准确地从搜索结果中找到需求的页面。例如,用户想要获取刚发 生不久的河北爆炸事件的网络信息,输入“河北爆炸”的query,由于该事件刚发生不久,网 络资源还较少,在搜索结果中,近期所发生河北爆炸事件的页面可能会淹没在海量与河北 爆炸相关的历史事件的页面中,用户无法快速准确地从搜索结果中找到需求的页面。

发明内容本发明提供了一种搜索日志的挖掘方法和装置以及页面搜索的方法和装置,以便 于对用户query的时效性需求进行识别,满足用户对搜索结果的时效性需求。具体技术方案如下一种搜索日志的挖掘方法,包括对从搜索日志中抓取到的搜索词query分别执 行步骤Al和步骤Cl Al、对所述抓取到的query进行分词处理,执行步骤Bl ;Bi、利用分词处理后得到的各词语和/或各词语的属性构成的组合以及各组合的 分布概率,归纳出类型,转至步骤Dl ;Cl、对所述抓取到的query进行筛选,得到时效性query集合和非时效性query集 合,执行步骤Dl ;D1、统计步骤Bl得到的各类型在步骤Cl筛选出的时效性query集合和非时效性 query集合中的分布,利用统计结果计算各类型对应的时效性概率,并将各类型与时效性概 率之间的对应关系存储在时效性概率表中。其中,所述步骤Bl具体包括B11、按照所述分词处理后得到的各词语的属性,对各词语进行标注;B12、按照步骤Bll的标注结果,将同一个query中词语的组合,或者词语的属性的 组合,或者词语和词语的属性的组合作为归纳出的类型,其中,所述归纳出的类型在所述搜 索日志中的分布概率超过预设的类型分布概率阈值。在步骤Bll中,各词语的属性识别过程具体为预先根据词语在不同属性中的分布概率,建立词性统计表;利用分词处理后得到的各词语查找所述词性统计表,确定所述各 词语对应分布概率最高的属性。具体地,从搜索日志中抓取query所采用的抓取策略包括以下策略中的一种或任
意组合抓取策略1 抓取对应搜索结果中用户所点击页面中发布时间在最近第一时间段 内的页面占该用户所点击的所有页面的比例超过预设第一比例阈值的query ;抓取策略2 抓取对应搜索结果中发布时间在最近第二时间段内的页面占搜索结 果的比例超过预设的第二比例阈值的query ;抓取策略3 抓取对应搜索结果中存在用户点击页面的发布时间在最近一段时间 内的所有query。步骤Cl中采用的筛选策略可以包括以下策略中的一种或任意组合筛选策略1 筛选出对应搜索结果中用户所点击页面中发布时间在最近第三时间 段内的页面占该用户所点击的所有页面比例超过预设第三比例阈值的query,构成时效性 query集合,其他query构成非时效性query集合;其中,如果抓取策略采用所述抓取策略 1,则所述第三时间段的时长等于所述第一时间段的时长且所述第三比例阈值大于所述第 一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所述第三比例阈 值等于所述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所 述第三比例阈值大于所述第一比例阈值;筛选策略2 筛选出对应搜索结果中发布时间在最近第四时间段内的页面占搜索 结果的比例超过预设的第四比例阈值的query,构成时效性query集合,其他query构成非 时效性query集合;其中,如果抓取策略采用所述抓取策略2,则所述第四时间段的时长等 于所述第二时间段的时长且所述第四比例阈值大于所述第二比例阈值,或者所述第四时间 段的时长小于所述第二时间段的时长且所述第四比例阈值等于所述第二比例阈值,或者所 述第四时间段的时长小于所述第二时间段的时长且所述第四比例阈值大于所述第二比例 阈值;筛选策略3 筛选出对应搜索结果的点击率超过预设的点击率突发阈值的query, 构成时效性query集合,其他query构成非时效性query集合。一种页面搜索的方法,该方法包括A2、对用户输入的搜索词query进行分词处理;B2、利用分词处理后得到的各词语和/或各词语的属性构成的组合以及各组合的 分布概率,归纳出所述query对应的类型;C2、查找利用上述搜索日志的挖掘方法形成的时效性概率表,确定步骤B2中归纳 出的类型对应的时效性概率;D2、如果步骤C2确定出的时效性概率的最高值超过预设的时效性概率阈值,则确 定所述query具备时效性需求。其中,所述步骤B2具体包括B21、按照所述步骤A2分词处理后得到的各词语的属性,对各词语进行标注;B22、按照步骤B21的标注结果,将同一个query中词语的组合,或者,词语的属性 的组合,或者,词语和词语的属性的组合作为归纳出的类型,其中,所述归纳出的类型在所述搜索日志中的分布概率超过预设的类型分布概率阈值。在步骤B21中,各词语的属性识别过程具体为预先根据词语在不同属性中的分 布概率,建立词性统计表;利用分词处理后得到的各词语查找所述词性统计表,确定所述各 词语对应分布概率最高的属性。更进一步地,在所述步骤D2之后还包括E2、提高所述query对应的搜索结果中时间属性的排序权重。所述步骤E2具体为将时间属性在所述query对应的搜索结果中的排序权重提高 到设定权值;或者,将时间属性在所述query对应的搜索结果中的排序权重提高设定步长。一种搜索日志的挖掘装置,该挖掘装置包括抓取单元、第一分词单元、第一类型 确定单元、筛选单元和概率计算单元;所述抓取单元,用于从搜索日志中抓取搜索词query ;所述第一分词单元,用于对所述抓取单元抓取到的query进行分词处理;所述第一类型确定单元,用于利用所述第一分词单元分词处理后得到的各词语和 /或各词语的属性构成的组合以及各组合的分布概率,归纳出类型;所述筛选单元,用于对所述抓取单元抓取到的query进行筛选,得到时效性query 集合和非时效性query集合;所述概率计算单元,用于统计所述第一类型确定单元归纳出的类型在所述筛选单 元筛选出的时效性query集合和非时效性query集合中的分布,利用统计结果计算各类型 对应的时效性概率,并将各类型与时效性概率之间的对应关系存储在时效性概率表中。其中,所述第一类型确定单元具体包括第一标注子单元和第一归纳子单元;所述第一标注子单元,用于按照所述分词处理后得到的各词语的属性,对各词语 进行标注;所述第一归纳子单元,用于按照所述第一标注子单元的标注结果,将同一个query 中词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型, 其中,所述归纳出的类型在所述搜索日志中的分布概率超过预设的类型分布概率阈值。更进一步地,所述第一类型确定单元还包括第一属性识别子单元,用于利用所述 分词处理后得到的各词语查找词性统计表,确定各词语对应分布概率最高的属性,其中,所 述词性统计表是预先根据词语在不同属性中的分布概率建立的。具体地,所述抓取单元采用的抓取策略包括以下策略中的一种或任意组合抓取策略1 抓取对应搜索结果中用户所点击页面中发布时间在最近第一时间段 内的页面占该用户所点击的所有页面的比例超过预设第一比例阈值的query ;抓取策略2 抓取对应搜索结果中发布时间在最近第二时间段内的页面占搜索结 果的比例超过预设的第二比例阈值的query ;抓取策略3 抓取对应搜索结果中存在用户点击页面的发布时间在最近一段时间 内的所有query。所述筛选单元采用的筛选策略包括以下策略中的一种或任意组合筛选策略1 筛选出对应搜索结果中用户所点击页面中发布时间在最近第三时间 段内的页面占该用户所点击的所有页面比例超过预设第三比例阈值的query,构成时效性query集合,其他query构成非时效性query集合;其中,如果所述抓取单元采用所述抓取 策略1,则所述第三时间段的时长等于所述第一时间段的时长且所述第三比例阈值大于所 述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所述第三比 例阈值等于所述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长 且所述第三比例阈值大于所述第一比例阈值;筛选策略2 筛选出对应搜索结果中发布时间在最近第四时间段内的页面占搜索 结果的比例超过预设的第四比例阈值的query,构成时效性query集合,其他query构成非 时效性query集合;其中,如果所述抓取单元采用所述抓取策略2,则所述第四时间段的时 长等于所述第二时间段的时长且所述第四比例阈值大于所述第二比例阈值,或者所述第四 时间段的时长小于所述第二时间段的时长且所述第四比例阈值等于所述第二比例阈值,或 者所述第四时间段的时长小于所述第二时间段的时长且所述第四比例阈值大于所述第二 比例阈值;筛选策略3 筛选出对应搜索结果的点击率超过预设的点击率突发阈值的query, 构成时效性query集合,其他query构成非时效性query集合。一种页面搜索的装置,该页面搜索的装置包括第二分词单元、第二类型确定单 元、查表单元和时效性确定单元;所述第二分词单元,用于对用户输入的搜索词query进行分词处理;所述第二类型确定单元,用于利用所述第二分词单元分词处理后得到的各词语和 /或各词语的属性构成的组合以及各组合的分布概率,归纳出所述query对应的类型;所述查表单元,用于查找上述挖掘装置形成的时效性概率表,确定所述第二类型 确定单元归纳出的类型对应的时效性概率;所述时效性确定单元,用于在所述查表单元确定出的时效性概率的最高值超过预 设的时效性概率阈值时,确定所述query具备时效性需求。其中,所述第二类型确定单元具体包括第二标注子单元和第二归纳子单元;所述第二标注子单元,用于按照所述分词处理后得到的各词语的属性,对各词语 进行标注;所述第二归纳子单元,用于按照所述第二标注子单元的标注结果,将同一个query 中词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型, 其中,所述归纳出的类型在所述搜索日志中的分布概率超过预设的类型分布概率阈值。更进一步地,所述第二类型确定单元还包括第二属性识别子单元,用于利用所述 分词处理后得到的各词语查找词性统计表,确定各词语对应分布概率最高的属性,其中,所 述词性统计表是预先根据词语在不同属性中的分布概率建立的。较优地,该页面搜索的装置还可以进一步包括搜索优化单元,用于在所述时效性确定单元确定所述query具备时效性需求时, 提高所述query对应的搜索结果中时间属性的排序权重。所述搜索优化单元具体将时间属性在所述query对应的搜索结果中的排序权重 提高到设定权值;或者,将时间属性在所述query对应的搜索结果中的排序权重提高设定步长。由以上技术方案可以看出,本发明提供的搜索日志的挖掘方法和装置以及页面搜索的方法和装置,能够统计出query对应的各类型的时效性概率,通过该时效性概率能够 反映出query的时效性需求,以便在识别出用户输入的query具备时效性需求时,对用户输 入的query对应的搜索结果进行优化处理,满足用户对搜索结果的时效性需求。即提高时 间属性在搜索结果中的排序权值,使用户能够快速准确地从搜索结果中找到需求的页面。

图1为本发明实施例一提供的搜索日志的挖掘方法流程图;图2为本发明实施例二提供的页面搜索的方法流程图;图3为本发明实施例三提供的搜索日志的挖掘装置结构图;图4为本发明实施例四提供的页面搜索的装置结构图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对 本发明进行详细描述。首先对搜索日志的挖掘方法进行描述,通过对搜索日志进行的挖掘形成query类 型的时效性概率表,以方便对query进行时效性识别,下面通过实施例一对该方法进行描 述。实施例一、图1为本发明提供的对搜索日志的挖掘方法流程图,如图1所示,该方法可以包括 以下步骤步骤101 将从搜索日志中抓取到的query进行分词处理。从搜索日志中抓取query时,抓取策略可以采用以下策略之一或任意组合抓取策略1 抓取对应搜索结果中用户所点击页面中发布时间在最近第一时间段 内的页面占该用户所点击的所有页面比例超过预设第一比例阈值的query。例如,假设最近 第一时间段为近2天内,预设的第一比例阈值为50%,如果某query的搜索结果中用户所点 击页面的发布时间在近2天之内的页面占该用户所点击总页面的比例为70%,则可以抓取 该query。再例如,如果某query的搜索结果中用户所点击页面的发布时间均为近2天之 内,也就是说,比例为100%,则可以抓取该query。抓取策略2 抓取对应搜索结果中发布时间在最近第二时间段内的页面占搜索结 果的比例超过预设的第二比例阈值的query。例如,假设第二时间段为近2天之内,第二比 例阈值为60%,如果某query对应的搜索结果中发布时间在近2天之内的页面占搜索结果 的65%,则抓取该query。抓取策略3 抓取对应搜索结果中存在用户点击页面的发布时间在最近一段时间 内的所有query。这种策略下,对应某query,只要在其搜索结果中用户点击的页面包含发 布时间在最近一段时间内(例如近2天内)的页面,则抓取该query。本步骤中,对抓取到的各query进行分词处理后,每一个query就得到至少一个词 语(term),例如,对于“河北爆炸”的query,进行分词处理后,可以得到两个词语“河北”和 “爆炸”。对于“河北XX公司倒闭”进行分词处理后,可以得到四个词语“河北”、“XX”、“公 司”、“倒闭”。
采用的分词处理方法可以包括但不限于字符串匹配的分词方法、词义分词方法、 统计分词方法,等等。由于分词处理方法为现有技术,在此不再详细描述。步骤102 利用分词处理后得到的各词语和/或各词语的属性构成组合以及各组 合的分布概率,归纳出类型(pattern)。本步骤可以具体分为两个子步骤1)按照分词处理后得到的各词语的属性,对各词语进行标注。在本步骤中,首先按照各词语的属性,将各词语进行基础标注,即标注为名词、动 词、形容词等。更进一步地,可以采用更小的粒度将各词语进行高级标注,例如可以进一步 具体标注各词语为人名、地名、时间、机构名等。其中,对于各词语的属性识别是基于预先的分布概率统计进行的,即预先根据词 语在不同属性中的分布概率,建立词性统计表。在对query进行分词处理后,利用分词处理 后得到的各词语查找词性统计表,确定该词语对应分布概率最高的属性。通常,对于词语的 属性识别是基于各单词的上下文进行的,例如对于“河北”、“XX”、“公司”这三个名词而言, 以“河北”开头、“公司”结尾时,共同构成一个名词的概率最高,因此,可以将“河北XX公司” 标记为一个名词,更小粒度可以标记为一个机构名。词语的属性识别属于现有的基础算法, 在此也不再具体描述。2)按照query中各词语的标注,将同一个query中词语的组合,或者词语的属性的 组合,或者词语和词语的属性的组合作为归纳出的类型,其中归纳出的类型在搜索日志中 的分布概率超过预设的类型分布概率阈值。例如,当“地名+爆炸”(该组合属于词语的属性和词语的组合)这一组合在从 搜索日志中出现的分布概率超过预设的类型分布概率阈值,则可以将“地名+爆炸”设定 为一个类型;当“河北+爆炸”(该组合属于词语的组合)这一组合在搜索日志中出现 的分布概率超过预设的类型分布概率阈值,则可以将“河北+爆炸”设定为一个类型; 当“地名+动词”这一组合在搜索日志中出现的分布概率超过预设的类型分布概率阈值,则 可以将“地名+动词”(该组合属于词语的属性的组合)设定为一个类型。其中用于标 识词语。更精确地,归纳出的类型中还可以包含组合中词语的位置信息或者属性所对应词 语的位置信息。例如,“地名+爆炸(结尾)”作为一个类型,其中“(结尾)”为“爆炸” 这一词语的位置信息。确定出的各类型可以存储在类型表中。步骤103 对搜索日志抓取到的query进行筛选,得到时效性query集合和非时效 性query集合。本步骤中采取的筛选策略可以包括但不限于以下策略中的一种或任意组合筛选策略1 筛选出对应搜索结果中用户所点击页面中发布时间在最近第三时间 段内的页面占该用户所点击的所有页面比例超过预设第三比例阈值的query,构成时效性 query集合,其他query构成非时效性query集合。其中,如果抓取策略采用抓取策略1,则 第三时间段的时长等于第一时间段的时长且第三比例阈值大于第一比例阈值,或者,第三 时间段的时长小于第一时间段的时长且第三比例阈值等于第一比例阈值,或者,第三时间 段的时长小于第一时间段的时长且第三比例阈值大于第一比例阈值。
举一个例子,假设在抓取query时,抓取的是对应搜索结果中用户所点击页面的 发布时间在近2天之内的页面占该用户所点击总页面的比例超过50%的query,在本步骤 中进行query筛选时,可以筛选出对应搜索结果中用户所点击页面的发布时间在近2天之 内的页面占该用户所点击总页面的比例超过80%的query,构成时效性query集合,其他 query构成非时效性query集合。筛选策略2 筛选出对应搜索结果中发布时间在最近第四时间段内的页面占搜索 结果的比例超过预设的第四比例阈值的query,构成时效性query集合,其他query构成非 时效性query集合。其中,如果抓取策略采用抓取策略2,则第四时间段的时长等于第二时 间段的时长且第四比例阈值大于第二比例阈值,或者第四时间段的时长小于第二时间段的 时长且第四比例阈值等于第二比例阈值,或者第四时间段的时长小于第二时间段的时长且 第四比例阈值大于第二比例阈值。举一个例子,假设在抓取query时,抓取的是对应搜索结果中发布时间在近2天之 内的页面占搜索结果的比例超过60%的query,在本步骤中进行query筛选时,可以筛选出 对应搜索结果中发布时间在近2天之内的页面占搜索结果的比例超过80%的query,构成 时效性query集合,其他query构成非时效性query集合。筛选策略3 筛选出对应搜索结果的点击率超过预设的点击率突发阈值的query, 构成时效性query集合,其他query构成非时效性query集合。例如,对于某个query,如果 其搜索结果的点击率超过预设的点击率突发阈值,说明该query对应的事件可能是突发事 件,具备一定的时效性,应该纳入时效性query集合中。需要说明的是,步骤101和步骤103没有固定的先后顺序,属于两个不同的执行分 支,即从搜索日志抓取到的query分别送至步骤101和步骤103进行处理,两个步骤可以以 任意顺序先后执行,也可以同时执行。步骤104 统计步骤102得到的各类型在步骤103筛选出的时效性query集合和 非时效性query集合中的分布,利用统计结果计算各类型对应的时效性概率并存储为时效 性概率表。可以分别统计类型表中的各类型在步骤103筛选出的时效性query集合和非时效 性query集合中出现的次数,利用出现的次数进行方差计算,从而得到各类型对应的时效 性概率。假设通过本步骤后,确定“地名+爆炸”这一类型对应的时效性概率为30%,“地 名+动词”这一类型对应的时效性概率为5%,“河北+爆炸”这一类型对应的时效性 概率为50%。可以将各类型对应的时效性概率存储为时效性概率表,如表1所示,以便对用户 输入的query进行时效性识别使查询使用。表 权利要求
1.一种搜索日志的挖掘方法,其特征在于,对从搜索日志中抓取到的搜索词query分 别执行步骤Al和步骤Cl Al、对所述抓取到的query进行分词处理,执行步骤Bl ;Bi、利用分词处理后得到的各词语和/或各词语的属性构成的组合以及各组合的分布 概率,归纳出类型,转至步骤Dl ;Cl、对所述抓取到的query进行筛选,得到时效性query集合和非时效性query集合, 执行步骤Dl ;Dl、统计步骤Bl得到的各类型在步骤Cl筛选出的时效性query集合和非时效性query 集合中的分布,利用统计结果计算各类型对应的时效性概率,并将各类型与时效性概率之 间的对应关系存储在时效性概率表中。
2.根据权利要求1所述的方法,其特征在于,所述步骤Bl具体包括B11、按照所述分词处理后得到的各词语的属性,对各词语进行标注;B12、按照步骤Bll的标注结果,将同一个query中词语的组合,或者词语的属性的组 合,或者词语和词语的属性的组合作为归纳出的类型,其中,所述归纳出的类型在所述搜索 日志中的分布概率超过预设的类型分布概率阈值。
3.根据权利要求1所述的方法,其特征在于,步骤Bll中,各词语的属性识别过程具体 为预先根据词语在不同属性中的分布概率,建立词性统计表;利用分词处理后得到的各 词语查找所述词性统计表,确定所述各词语对应分布概率最高的属性。
4.根据权利要求1至3任一权项所述的方法,其特征在于,从搜索日志中抓取query所 采用的抓取策略包括以下策略中的一种或任意组合抓取策略1 抓取对应搜索结果中用户所点击页面中发布时间在最近第一时间段内的 页面占该用户所点击的所有页面的比例超过预设第一比例阈值的query ;抓取策略2 抓取对应搜索结果中发布时间在最近第二时间段内的页面占搜索结果的 比例超过预设的第二比例阈值的query ;抓取策略3 抓取对应搜索结果中存在用户点击页面的发布时间在最近一段时间内的 所有query。
5.根据权利要求4所述的方法,其特征在于,步骤Cl中采用的筛选策略包括以下策略 中的一种或任意组合筛选策略1 筛选出对应搜索结果中用户所点击页面中发布时间在最近第三时间段 内的页面占该用户所点击的所有页面比例超过预设第三比例阈值的query,构成时效性 query集合,其他query构成非时效性query集合;其中,如果抓取策略采用所述抓取策略 1,则所述第三时间段的时长等于所述第一时间段的时长且所述第三比例阈值大于所述第 一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所述第三比例阈 值等于所述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所 述第三比例阈值大于所述第一比例阈值;筛选策略2 筛选出对应搜索结果中发布时间在最近第四时间段内的页面占搜索结果 的比例超过预设的第四比例阈值的query,构成时效性query集合,其他query构成非时 效性query集合;其中,如果抓取策略采用所述抓取策略2,则所述第四时间段的时长等于 所述第二时间段的时长且所述第四比例阈值大于所述第二比例阈值,或者所述第四时间段的时长小于所述第二时间段的时长且所述第四比例阈值等于所述第二比例阈值,或者所述 第四时间段的时长小于所述第二时间段的时长且所述第四比例阈值大于所述第二比例阈 值;筛选策略3 筛选出对应搜索结果的点击率超过预设的点击率突发阈值的query,构成 时效性query集合,其他query构成非时效性query集合。
6.一种页面搜索的方法,其特征在于,该方法包括 A2、对用户输入的搜索词query进行分词处理;B2、利用分词处理后得到的各词语和/或各词语的属性构成的组合以及各组合的分布 概率,归纳出所述query对应的类型;C2、查找利用权利要求1所述方法形成的时效性概率表,确定步骤B2中归纳出的类型 对应的时效性概率;D2、如果步骤C2确定出的时效性概率的最高值超过预设的时效性概率阈值,则确定所 述query具备时效性需求。
7.根据权利要求6所述的方法,其特征在于,所述步骤B2具体包括B21、按照所述步骤A2分词处理后得到的各词语的属性,对各词语进行标注; B22、按照步骤B21的标注结果,将同一个query中词语的组合,或者,词语的属性的组 合,或者,词语和词语的属性的组合作为归纳出的类型,其中,所述归纳出的类型在所述搜 索日志中的分布概率超过预设的类型分布概率阈值。
8.根据权利要求6所述的方法,其特征在于,步骤B21中,各词语的属性识别过程具体 为预先根据词语在不同属性中的分布概率,建立词性统计表;利用分词处理后得到的各 词语查找所述词性统计表,确定所述各词语对应分布概率最高的属性。
9.根据权利要求6至8任一权项所述的方法,其特征在于,在所述步骤D2之后还包括 E2、提高所述query对应的搜索结果中时间属性的排序权重。
10.根据权利要求9所述的方法,其特征在于,所述步骤E2具体为将时间属性在所述 query对应的搜索结果中的排序权重提高到设定权值;或者,将时间属性在所述query对应的搜索结果中的排序权重提高设定步长。
11.一种搜索日志的挖掘装置,其特征在于,该挖掘装置包括抓取单元、第一分词单 元、第一类型确定单元、筛选单元和概率计算单元;所述抓取单元,用于从搜索日志中抓取搜索词query ; 所述第一分词单元,用于对所述抓取单元抓取到的query进行分词处理; 所述第一类型确定单元,用于利用所述第一分词单元分词处理后得到的各词语和/或 各词语的属性构成的组合以及各组合的分布概率,归纳出类型;所述筛选单元,用于对所述抓取单元抓取到的query进行筛选,得到时效性query集合 和非时效性query集合;所述概率计算单元,用于统计所述第一类型确定单元归纳出的类型在所述筛选单元筛 选出的时效性query集合和非时效性query集合中的分布,利用统计结果计算各类型对应 的时效性概率,并将各类型与时效性概率之间的对应关系存储在时效性概率表中。
12.根据权利要求11所述的挖掘装置,其特征在于,所述第一类型确定单元具体包括 第一标注子单元和第一归纳子单元;所述第一标注子单元,用于按照所述分词处理后得到的各词语的属性,对各词语进行 标注;所述第一归纳子单元,用于按照所述第一标注子单元的标注结果,将同一个query中 词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型,其 中,所述归纳出的类型在所述搜索日志中的分布概率超过预设的类型分布概率阈值。
13.根据权利要求11所述的挖掘装置,其特征在于,所述第一类型确定单元还包括第 一属性识别子单元,用于利用所述分词处理后得到的各词语查找词性统计表,确定各词语 对应分布概率最高的属性,其中,所述词性统计表是预先根据词语在不同属性中的分布概 率建立的。
14.根据权利要求11至13任一权项所述的挖掘装置,其特征在于,所述抓取单元采用 的抓取策略包括以下策略中的一种或任意组合抓取策略1 抓取对应搜索结果中用户所点击页面中发布时间在最近第一时间段内的 页面占该用户所点击的所有页面的比例超过预设第一比例阈值的query ;抓取策略2 抓取对应搜索结果中发布时间在最近第二时间段内的页面占搜索结果的 比例超过预设的第二比例阈值的query ;抓取策略3 抓取对应搜索结果中存在用户点击页面的发布时间在最近一段时间内的 所有query。
15.根据权利要求14所述的挖掘装置,其特征在于,所述筛选单元采用的筛选策略包 括以下策略中的一种或任意组合筛选策略1 筛选出对应搜索结果中用户所点击页面中发布时间在最近第三时间段 内的页面占该用户所点击的所有页面比例超过预设第三比例阈值的query,构成时效性 query集合,其他query构成非时效性query集合;其中,如果所述抓取单元采用所述抓取 策略1,则所述第三时间段的时长等于所述第一时间段的时长且所述第三比例阈值大于所 述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长且所述第三比 例阈值等于所述第一比例阈值,或者,所述第三时间段的时长小于所述第一时间段的时长 且所述第三比例阈值大于所述第一比例阈值;筛选策略2 筛选出对应搜索结果中发布时间在最近第四时间段内的页面占搜索结果 的比例超过预设的第四比例阈值的query,构成时效性query集合,其他query构成非时效 性query集合;其中,如果所述抓取单元采用所述抓取策略2,则所述第四时间段的时长等 于所述第二时间段的时长且所述第四比例阈值大于所述第二比例阈值,或者所述第四时间 段的时长小于所述第二时间段的时长且所述第四比例阈值等于所述第二比例阈值,或者所 述第四时间段的时长小于所述第二时间段的时长且所述第四比例阈值大于所述第二比例 阈值;筛选策略3 筛选出对应搜索结果的点击率超过预设的点击率突发阈值的query,构成 时效性query集合,其他query构成非时效性query集合。
16.一种页面搜索的装置,其特征在于,该页面搜索的装置包括第二分词单元、第二 类型确定单元、查表单元和时效性确定单元;所述第二分词单元,用于对用户输入的搜索词query进行分词处理;所述第二类型确定单元,用于利用所述第二分词单元分词处理后得到的各词语和/或各词语的属性构成的组合以及各组合的分布概率,归纳出所述query对应的类型;所述查表单元,用于查找权利要求11所述挖掘装置形成的时效性概率表,确定所述第 二类型确定单元归纳出的类型对应的时效性概率;所述时效性确定单元,用于在所述查表单元确定出的时效性概率的最高值超过预设的 时效性概率阈值时,确定所述query具备时效性需求。
17.根据权利要求16所述的页面搜索的装置,其特征在于,所述第二类型确定单元具 体包括第二标注子单元和第二归纳子单元;所述第二标注子单元,用于按照所述分词处理后得到的各词语的属性,对各词语进行 标注;所述第二归纳子单元,用于按照所述第二标注子单元的标注结果,将同一个query中 词语的组合,或者词语的属性的组合,或者词语和词语的属性的组合作为归纳出的类型,其 中,所述归纳出的类型在所述搜索日志中的分布概率超过预设的类型分布概率阈值。
18.根据权利要求16所述的页面搜索的装置,其特征在于,所述第二类型确定单元还 包括第二属性识别子单元,用于利用所述分词处理后得到的各词语查找词性统计表,确定 各词语对应分布概率最高的属性,其中,所述词性统计表是预先根据词语在不同属性中的 分布概率建立的。
19.根据权利要求16至18任一权项所述的页面搜索的装置,其特征在于,该页面搜索 的装置还包括搜索优化单元,用于在所述时效性确定单元确定所述query具备时效性需求时,提高 所述query对应的搜索结果中时间属性的排序权重。
20.根据权利要求19所述的页面搜索的装置,其特征在于,所述搜索优化单元具体将 时间属性在所述query对应的搜索结果中的排序权重提高到设定权值;或者,将时间属性在所述query对应的搜索结果中的排序权重提高设定步长。
全文摘要
本发明提供了一种搜索日志的挖掘方法和装置以及页面搜索的方法和装置,通过搜索日志的挖掘方法能够统计出搜索词(query)对应的各类型的时效性概率,该时效性概率能够反映出query的时效性需求,以便在页面搜索的方法中识别出用户输入的query是否具备时效性需求,并在具备时效性需求时,对用户输入的query对应的搜索结果进行优化处理,即提高时间属性在搜索结果中的排序权值,使用户能够快速准确地从搜索结果中找到需求的页面,满足用户对搜索结果的时效性需求。
文档编号G06F17/30GK102073684SQ20101060071
公开日2011年5月25日 申请日期2010年12月22日 优先权日2010年12月22日
发明者辜斯缪 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1