一种时效性查询内容的识别方法与流程

文档序号:12176958阅读:1235来源:国知局
一种时效性查询内容的识别方法与流程

本发明涉及查询内容识别领域,具体涉及一种时效性查询内容的识别方法。



背景技术:

在当今信息爆炸的大数据时代,搜索引擎已经成为人们获取信息的不可或缺的手段。用户在搜索引擎中输入查询来获取搜索结果,从中找到所需要的信息。在某些情况下,用户查询带有很强的时效性,例如,在2014年巴西世界杯期间,用户输入“世界杯”主要是关注巴西世界杯相关的内容,而不是往届世界杯相关的信息。在这种情况下,搜索引擎首先应该判断“世界杯”在当时是时效性类型的查询,然后优先把比较新的相关结果展示给用户。据统计,具有时效性需求的查询占比高达30%左右。因此,时效性查询的识别对于提高搜索结果质量有很重要的意义。

现有的时效性查询识别方法,通常基于搜索引擎查询日志中给定查询在前后两段时间内的查询量的变化,如果查询量有明显的增加,则说明是时效性查询。已有的判断方法包括:

(1)前后时间段增加的查询数量

如果前后时间段增加的查询数量大于阈值,则认为是时效性查询。这种方法的缺点对于长尾的查询不敏感,比如查询量由100变为200,查询量已经翻倍了但是差值仅有100。

(2)前后时间段增加的查询量的变化比例

如果前后时间段增加的查询量和第一时间段内查询量的比例超过一定阈值,则认为是时效性查询。这种方法能避免第一种方法的缺点,但是对于长尾查询过于敏感。比如查询量由5变为10,查询量虽然已经翻倍但是差值仅有5。

(3)两个时间段的轨迹线的夹角

该方法是中国专利发明(专利号CN201410211458.1)提出的,其中设定第二时间段为第一时间段的一部分。该方法认为,如果第一个时间段查询量缓慢增加,而第二个时间段查询量急速增加,则认为该查询为时效性查询。

现有的方法有以下几个缺点:

(1)基于搜索引擎日志统计查询是否具有爆发的趋势,搜索引擎日志是比较昂贵的资源,通常只有几个大型搜索引擎厂家才有,这大大地限制了方法的可用性。

(2)通常是基于整个查询串统计查询量的,这样与搜索日志中的爆发性查询类似但是没在搜索日志中整体出现的查询就识别不出来,降低了召回率。例如,在2015年5月27日左右,“黄晓明baby领证”在搜索日志中是热门搜索,但是“baby领证”可能不是热门搜索,如果直接按整个查询串统计的话,“baby领证”就识别不出来了。

(3)基于变化趋势的方法,在查询量的上升时期(波谷到波峰),识别时效性查询比较容易,但是在查询量的下降时期(从波峰下来)容易漏掉(通常,这时候查询还属于时效性查询,因为热点总是有一定的延续性)。例如,对于专利号CN201410211458.1提出的方法,在第一时间段查询量的增加是比较快的,而第二个时间段则是缓慢增加甚至是下降的,不符合判断条件。



技术实现要素:

有鉴于此,本发明提供的一种时效性查询内容的识别方法,该方法对资源要求较低,且对常见查询和长尾查询都适用;同时增加召回率;并对对处于爆发下降期的时效性查询仍能识别;能给出查询的时效性强度,实现了后续模块能够根据其时效性强度采用不同的策略;保证了识别的全面性、准确性及可靠性。

本发明的目的是通过以下技术方案实现的:

一种时效性查询内容的识别方法,所述方法包括:

步骤1.建立时效性文档资源的索引;

步骤2.统计查询内容在所述时效性文档资源中出现的次数、出现的次数的均值及方差指标;

步骤3.对所述查询内容进行时效性判断,进而识别出时效性查询内容。

优选的,所述步骤1中的所述时效性文档资源为时效性文档的集合;

所述时效性文档为搜索引擎查询日志或新闻文档。

优选的,所述步骤1,包括:

1-1.实时添加新的所述时效性文档至所述时效性文档资源,同时记录每条所述时效性文档添加至所述时效性文档资源的时间;

1-2.对当前的所述时效性文档进行中文分词,得到中文分词结果;

1-3.根据所述中文分词结果,实时将所述时效性文档添加到时效性文档资源的索引中。

优选的,所述步骤2,包括:

2-1.对所述查询内容进行中文分词,得到查询分词;

2-2.通过所述索引对所述时效性文档资源进行检索,得到包括全部的所述查询分词的所述时效性文档;

2-3.统计所述查询内容在所述时效性文档资源中出现的次数、出现的次数的均值及方差指标。

优选的,所述2-3,包括:

a.以当前时段为节点向前切分一个周期,其中,所述周期以等时间间隔划分为多个时段;包括所述当前的1个时段的所述时段的总数量为N+1;

b.统计包括所述当前时段的每个时段Ti(-N≤i≤0)中,所述查询内容在的所述时效性文档中出现的次数Ci

c.计算不包括当前时段的历史周期内(-N≤i≤-1),所述查询内容在的所述时效性文档中出现的次数的均值和标准差SD:

优选的,所述步骤3,包括:

3-1.判断所述查询内容在所述当前时段中的出现次数C0是否大于阈值,其中,所述阈值根据资源库的规模确定;

若是,则进入3-2;

若否,则识别所述查询内容为非时效性查询内容;

3-2.判断所述查询内容在所述当前时段中的出现次数C0和所述均值及标准差SD的关系是否满足其中,α为大于1的经验系数;

若是,则识别所述查询内容为时效性查询内容,并根据C0和的比值,确定所述查询内容的时效性强度;

若否,则进入3-3;

3-3.在当前时段前的且位于所述周期中的一个间隔周期内,分别统计所述查询内容在所述间隔周期内的各个时段内的出现次数Cj,其中,所述间隔周期内有M个所述时段,且M<N、-M≤j≤-1;

3-4.判断所述间隔周期内是否存在

若是,则识别所述查询内容为时效性查询内容;并根据Cj和的比值,确定所述查 询内容的时效性强度;

若否,则识别所述查询内容为非时效性查询内容。

从上述的技术方案可以看出,本发明提供了一种时效性查询内容的识别方法,通过建立时效性文档资源的索引、统计查询内容在所述时效性文档资源中出现的次数及对所述查询内容进行时效性判断,进而识别出时效性查询内容。本发明提出的识别方法,能够快速且全面的识别出时效性查询内容;其对资源要求较低,且对常见查询和长尾查询都适用;同时增加召回率;并对对处于爆发下降期的时效性查询仍能识别;能给出查询的时效性强度,实现了后续模块能够根据其时效性强度采用不同的策略;保证了识别的准确性及可靠性。

与最接近的现有技术比,本发明提供的技术方案具有以下优异效果:

1、本发明所提供的技术方案中,通过建立时效性文档资源的索引、统计查询内容在所述时效性文档资源中出现的次数及对所述查询内容进行时效性判断,进而识别出时效性查询内容。本发明提出的识别方法,能够快速且全面的识别出时效性查询内容;其对资源要求较低,且对常见查询和长尾查询都适用;同时增加召回率;并对对处于爆发下降期的时效性查询仍能识别;能给出查询的时效性强度,实现了后续模块能够根据其时效性强度采用不同的策略;保证了识别的准确性及可靠性。

2、本发明所提供的技术方案,对资源的要求不高,可以是搜索引擎日志,也可以是新闻文档集合,后者比前者更容易获取。

3、本发明所提供的技术方案,基于检索的方法去统计查询的出现频次,而不是整串统计,能增加召回率。

4、本发明所提供的技术方案,对查询的绝对查询量不敏感,对常见查询和长尾查询都适用。

5、本发明所提供的技术方案,对处于爆发下降期的时效性查询仍能识别。

6、本发明所提供的技术方案,能给出查询的时效性强度,方便后续模块根据其时效性强度采用不同的策略。

7、本发明提供的技术方案,应用广泛,具有显著的社会效益和经济效益。

附图说明

图1是本发明的一种时效性查询内容的识别方法的流程示意图;

图2是本发明的识别方法的步骤1的流程示意图;

图3是本发明的识别方法的步骤2的流程示意图;

图4是本发明的识别方法的步骤3的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明提供一种时效性查询内容的识别方法,包括:

步骤1.建立时效性文档资源的索引;

步骤2.统计查询内容在时效性文档资源中出现的次数、出现的次数的均值及方差指标;

步骤3.对查询内容进行时效性判断,进而识别出时效性查询内容。

优选的,步骤1中的时效性文档资源为时效性文档的集合;

时效性文档为搜索引擎查询日志或新闻文档。

如图2所示,步骤1,包括:

1-1.实时添加新的时效性文档至时效性文档资源,同时记录每条时效性文档添加至 时效性文档资源的时间;

1-2.对当前的时效性文档进行中文分词,得到中文分词结果;

1-3.根据中文分词结果,实时将时效性文档添加到时效性文档资源的索引中。

如图3所示,步骤2,包括:

2-1.对查询内容进行中文分词,得到查询分词;

2-2.通过索引对时效性文档资源进行检索,得到包括全部的查询分词的时效性文档;

2-3.统计查询内容在时效性文档中出现的次数。

2-3,包括:

a.以当前时段为节点向前切分一个周期,其中,周期以等时间间隔划分为多个时段;包括当前时段的时段的总数量为N+1;其中,时段根据应用需求,以小时或天为级别;

b.统计包括当前时段的每个时段Ti(-N≤i≤0)中,查询内容在的时效性文档资源中出现的次数Ci

c.计算不包括当前时段的历史周期内(-N≤i≤-1),查询内容在的时效性文档资源中出现的次数的均值和标准差SD:

如图4所示,步骤3,包括:

3-1.判断查询内容在当前时段中的出现次数C0是否大于阈值,其中,阈值根据资源库的规模确定;例如10,20,50等,避免出现次数太少的查询被误识别;

若是,则进入3-2;

若否,则因查询内容的出现次数过少,将查询内容识别为非时效性查询内容;

3-2.判断查询内容在当前时段中的出现次数C0和均值及标准差SD的关系是否满足其中,α为大于1的经验系数,例如1.5,2,2.5等;

若是,则识别查询内容为时效性查询内容,并根据C0和的比值,确定查询内容的时效性强度;该条件说明当前周期内的出现频次远高于平均频次,主要用来识别刚刚爆发的时效性查询;

若否,则进入3-3;

3-3.在当前时段前一个的且位于周期中的间隔周期内,分别统计查询内容在间隔周期内的各个时段内的出现次数Cj,其中,间隔周期内有M个时段,且M<N、-M≤j≤-1;

例如:周期总长为当前时段前的1个月,1个时段为1天;则N=30天;而间隔周期是在当前时段前的1个月以内的一段时间,该段时间包括M=10个时段,即间隔周期为10天;

3-4.判断间隔周期内是否存在

若是,则识别查询内容为时效性查询内容;并根据Cj和的比值,确定查询内容的时效性强度;该条件说明间隔周期内查询已经爆发过,鉴于时效性查询通常一定延续性,认为当前时段内仍处于时效状态;

若否,则将查询内容识别为非时效性查询内容。

以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,而这些未脱离本发明精神和范围的任何修改或者等同替换,其均在申请待批的本发明的权利要求保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1