一种基于点击率的搜索排序方法及装置制造方法

文档序号:6486356阅读:125来源:国知局
一种基于点击率的搜索排序方法及装置制造方法
【专利摘要】本申请提供了一种基于点击率的搜索排序方法及装置,以解决在应用排序规则对搜索结果进行排序时,复用性比较低并且方法繁琐的问题。所述的方法包括:搜索排序前,获取预设时间内用户的点击数据,并依据所述点击数据确定每个特征的权重;搜索排序包括以下步骤:获取查询词和与所述查询词匹配的查询目标,并且分别提取所述查询词和查询目标的特征;针对每个查询目标,根据所述查询词和查询目标的特征,以及每个特征对应的权重,采用回归模型预测所述查询目标的点击率;根据所述点击率,对所述查询目标进行排序并显示给用户。本申请适用于各种应用场景,复用性较高。并且,可以根据用户的点击数据准实时的调整所述权重,不需要重新配置。
【专利说明】一种基于点击率的搜索排序方法及装置
【技术领域】
[0001]本申请涉及搜索技术,特别是涉及一种基于点击率的搜索排序方法及装置。
【背景技术】
[0002]随着网络的不断发展,越来越多的用户通过网络获取信息,用户可以通过输入查询词查询相应的查询目标,并最终获取到对应的搜索结果。通常针对查询词对应的查询目标,可以按照一定的排序规则衡量所述查询词和查询目标的匹配程度,然后根据所述匹配程度对所述查询目标进行排序,将排序后的查询目标构成搜索结果显示给用户,可以让用户快速的获取到最需要的结果。
[0003]但是这种方法存在一定的缺陷,就是排序规则需要根据应用场景的改变而改变,即查询目标不同,则相应的排序规则也会不同。因此上述的方法需要针对每一个应用场景设置相应的排序规则,没有复用性。
[0004]例如在公司查询中,查询目标是公司,则针对于查询词匹配的公司会仅按照排序规则排序,如按公司规模的大小排序。又如在产品查询中,针对于查询词匹配的产品,可能仅根据价格,或仅根据上架时间排序,复用性很低。
[0005]而且,用户的需求变化了,应用场景也是会发生变化,当根据应用场景或用户的需求的变化而改变排序规则时,就需要重新配置排序规则,如冬季和夏季用户需求的产品不同,此时需要重新配置排序规则,重新编写搜索排序方法,方法非常的繁琐。
[0006]综上所述,在应用排序规则对搜索结果进行排序时,复用性比较低并且方法繁琐。

【发明内容】

[0007]本申请提供一种基于点击率的搜索排序方法及装置,以解决在应用排序规则对搜索结果进行排序时,复用性比较低并且方法繁琐的问题。
[0008]为了解决上述问题,本申请公开了一种基于点击率的搜索排序方法,包括:
[0009]搜索排序前,获取预设时间内用户的点击数据,并依据所述点击数据确定每个特征的权重;
[0010]搜索排序包括以下步骤:
[0011]获取查询词和与所述查询词匹配的查询目标,并且分别提取所述查询词和查询目标的特征;
[0012]针对每个查询目标,根据所述查询词和查询目标的特征,以及每个特征对应的权重,采用回归模型预测所述查询目标的点击率;
[0013]根据所述点击率,对所述查询目标进行排序并显示给用户。
[0014]优选的,所述分别提取所述查询词和查询目标的特征之后,还包括:
[0015]分别将所述查询词和查询目标的特征量化为特征值。
[0016]优选的,所述针对每个查询目标,根据所述查询词和查询目标的特征,以及每个特征对应的权重,采用回归模型预测所述查询目标的点击率,包括:[0017]获取每个特征对应的权重;
[0018]针对每个查询目标,将所述特征值和所述权重进行加权;
[0019]将所述加权后的结果代入回归模型中,预测出所述查询目标的点击率。
[0020]优选的,所述搜索排序前,获取预设时间内用户的点击数据,并依据所述点击数据确定每个特征的权重,包括:
[0021]获取预设时间内用户的点击数据,根据所述点击数据统计后验点击率;
[0022]获取查询词和所述查询目标的特征值;
[0023]根据所述后验点击率和所述特征值,计算每个特征的权重。
[0024]优选的,所述针对每个查询目标,获取预设时间内用户的点击数据之后,所述并根据所述点击数据统计后验点击率之前,还包括:
[0025]过滤所述点击数据中的异常数据,得到过滤后的点击数据。
[0026]优选的,根据所述点击数据统计后验点击率,包括:
[0027]对所述过滤后的点击数据进行统计,获取到所述查询目标在页面中每个位置的点击率;
[0028]根据预设的每个位置的权重,对所述每个位置的点击率进行加权,得到对应的后验点击率。
[0029]优选的,所述分别提取所述查询词和查询目标的特征之后,还包括:
[0030]针对输入查询词的用户,提取所述用户的行为特征,所述用户的行为特征包括以下至少一项:
[0031]所述用户在一段时间内的点击数据;
[0032]所述用户在一段时间内的类目数据,其中,所述类目数据包括点击的类目数据和/或搜索的类目数据;
[0033]所述用户在一段时间内的地域数据。
[0034]优选的,所述的方法还包括:
[0035]提取所述查询词、查询目标和用户的相关特征。
[0036]优选的,所述查询目标包括:产品、企业和行业。
[0037]相应的,本申请还公开了一种基于点击率的搜索排序装置,包括:
[0038]权重确定模块,用于搜索排序前,获取预设时间内用户的点击数据,并依据所述点击数据确定每个特征的权重;
[0039]获取并提取模块,用于获取查询词和与所述查询词匹配的查询目标,并且分别提取所述查询词和查询目标的特征;
[0040]预测点击率模块,用于针对每个查询目标,根据所述查询词和查询目标的特征,以及每个特征对应的权重,采用回归模型预测所述查询目标的点击率;
[0041]排序并显示模块,根据所述点击率,对所述查询目标进行排序并显示给用户。
[0042]与现有技术相比,本申请包括以下优点:
[0043]首先,现有技术中是按照一定的排序规则衡量所述查询词和每个查询目标的匹配程度,但是排序规则需要根据应用场景的改变而改变,即查询目标不同,则相应的排序规则也会不同。如在公司查询中,查询目标是公司,则针对于查询词匹配的公司会仅按照排序规则排序,如按公司规模的大小排序。又如在产品查询中,针对于查询词匹配的产品,可能仅根据价格,或仅根据上架时间排序,复用性很低。而本申请在搜索排序前,通过获取预设时间内用户的点击数据确定每个特征的权重。具体执行搜索排序时,无论是何种应用场景,何种查询目标,在获取到查询词和查询目标后,提取查询词和查询目标的相应特征,并根据特征和所述特征对应的权重,采用回归模型预测出本次搜索排序中所述查询目标的点击率。本申请中依据不同的查询目标的不同特征,以及不同特征对应权重,可以预测出各种应用场景中各个查询目标的点击率,因此适用于各种应用场景,复用性较高。并且,现有技术中用户的需求变化,如冬季和夏季用户需求的产品不同,此时需要重新配置排序规则,重新编写搜索排序方法。而本申请在执行搜索排序前,就可以通过预设时间内的点击数据确定每个特征的权重随着用户需求的变化,每个特征的权重会准实时的进行调整,不需要单独的手动配置,方法简单,因此根据所述权重所预测出的查询目标的点击率也会进行准实时的调整,准确率较高。
[0044]其次,本申请可以获取预设时间内的点击数据,并且对所述点击数据进行过滤,然后通过统计得到后验点击率。再根据所述后验点击率和每个特征的特征值,计算每个特征的权重。因此本申请可以点击数据更新权重,在进行搜索时,针对同样的查询词,用户搜索的时间不同,对应的搜索结果也会不同。
[0045]再次,本申请提取查询词和查询目标的特征,还可以提取用户的特征,通过提取多维度的特征,使得计算权重和预测点击率更加准确,建立更合理的预测模型,对用户进行更合理的引导,减少作弊行为带来的弊端。同时针对同样的查询词,搜索的用户不同,对应的搜索结果也会不同,满足用户个性化的需求。
【专利附图】

【附图说明】
[0046]图1是本申请实施例所述一种基于点击率的搜索排序方法流程图;
[0047]图2是本申请优选实施例所述一种基于点击率的搜索排序方法中统计后验点击率的流程图;
[0048]图3是本申请优选实施例所述一种基于点击率的搜索排序方法流程图;
[0049]图4是本申请实施例所述一种基于点击率的搜索排序装置结构图。
【具体实施方式】
[0050]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本申请作进一步详细的说明。
[0051]通常针对查询词对应的搜索结果,可以按照一定的排序规则衡量所述查询词和搜索结果的匹配程度,然后根据所述匹配程度进行排序,将排序后的搜索结果显示给用户,可以让用户快速的获取到最需要的结果。但是在应用排序规则对搜索结果进行排序时,复用性比较低并且方法繁琐。
[0052]本申请提供一种基于点击率的搜索排序方法,本申请在执行搜索排序前,可以通过预设时间内的点击数据确定每个特征的权重,而后在对查询目标进行排序时可以采用所述权重,因此本申请可以根据用户的点击数据准实时的调整所述权重,不需要重新配置。并且,采用回归模型来预测点击率,适用于各种应用场景,复用性较高。
[0053]参照图1,给出了本申请实施例所述一种基于点击率的搜索排序方法流程图。[0054]步骤10,搜索排序前,获取预设时间内用户的点击数据,并依据所述点击数据确定每个特征的权重;
[0055]现有技术中用户的需求变化会导致排序规则的变化,如冬季和夏季用户需求的产品不同,此时需要重新配置排序规则,重新编写搜索排序方法,方法非常的繁琐
[0056]在进行搜索排序前,首先可以获取预设时间内用户的点击数据,例如,预设时间为24小时,则可以获取24小时内用户的点击数据,并可以根据所述点击数据确定每个特征的权重。为后续预测查询目标的点击率做准备。
[0057]本申请中,随着用户需求的变化,每个特征的权重会准实时的进行调整,不需要单独的手动配置,方法简单,因此根据所述权重所预测出的查询目标的点击率也会进行准实时的调整,准确率较高。
[0058]具体在进行搜索排序时,主要包括以下步骤:
[0059]步骤11,获取查询词和与所述查询词匹配的查询目标,并且分别提取所述查询词和查询目标的特征;
[0060]首先,获取用户输入的查询词,并根据预设的匹配方法获取与所述查询词匹配的查询目标。然后提取所述查询词的特征和所述查询目标的特征。其中,所述特征可以包括查询词的中心词;查询词所属的类目,例如,查询词是iphone,则查询词的特征是手机。本申请对此不做限定。
[0061]所述查询目标的特征是根据具体的目标而定,例如,查询目标是产品,则查询目标的特征可以是产品所属的类别;又如,查询目标是企业,则查询目标的特征是企业的主营产
品O
[0062]步骤12,针对每个查询目标,根据所述查询词和查询目标的特征,以及每个特征对应的权重,采用回归模型预测所述查询目标的点击率;
[0063]上述获取到了与所述查询词匹配的查询目标,则针对每个查询目标,根据所述查询词和查询目标的特征,以及每个特征对应的权重,采用回归模型预测本次搜索排序中每个查询目标的点击率。
[0064]其中,所述点击率(CTR,Click Through Rate)是指网站页面上某一内容被点击的次数与被显示的次数之比。点击率反映了页面上某一内容的受关注程度。所述点击的次数与未点击的次数之和为被显示的次数。
[0065]本申请中不同的查询目标对应不同的特征,不同的特征对应不同的权重。而本申请中无论是何种应用场景,何种查询目标,都可以通过所述查询词和查询目标的相应特征,以及每个特征对应的权重,采用回归模型预测出本次搜索排序中所述查询目标的点击率,适用于各种应用场景,复用性较高。
[0066]步骤13,根据所述点击率,对所述查询目标进行排序并显示给用户。
[0067]上述预测出每个查询目标的点击率后,可以根据所述点击率,对所述查询目标进行排序,然后将所述排序后的结果显示给用户。
[0068]综上所述,现有技术中是按照一定的排序规则衡量所述查询词和每个查询目标的匹配程度,但是排序规则需要根据应用场景的改变而改变,即查询目标不同,则相应的排序规则也会不同。如在公司查询中,查询目标是公司,则针对于查询词匹配的公司会仅按照排序规则排序,如按公司规模的大小排序。又如在产品查询中,针对于查询词匹配的产品,可能仅根据价格,或仅根据上架时间排序,复用性很低。而本申请在搜索排序前,通过获取预设时间内用户的点击数据确定每个特征的权重。具体执行搜索排序时,无论是何种应用场景,何种查询目标,在获取到查询词和查询目标后,提取查询词和查询目标的相应特征,并根据查询词和查询目标的特征,以及各个特征对应的权重,采用回归模型预测出本次搜索排序中所述查询目标的点击率。本申请中依据不同的查询目标的不同特征,以及不同特征对应权重,可以预测出各种应用场景中各个查询目标的点击率,因此适用于各种应用场景,复用性较高。并且,现有技术中用户的需求变化,如冬季和夏季用户需求的产品不同,此时需要重新配置排序规则,重新编写搜索排序方法。而本申请在执行搜索排序前,就可以通过预设时间内的点击数据确定每个特征的权重,随着用户需求的变化,每个特征的权重会准实时的进行调整,不需要单独的手动配置,方法简单,因此根据所述权重所预测出的查询目标的点击率也会进行准实时的调整,准确率较高。
[0069]本申请中所述查询目标包括:产品、企业和行业等。
[0070]在电子商务网站中,用户在进行搜索时,查询目标可以是电子商务网站中卖家出售的产品信息,如服装、电子产品等。所述查询目标还可以是电子商务网站中卖家的企业信息,如查询词是手机时,查询目标是出售手机的卖家。所述查询目标还可以是电子商务网站中各个行业的相关信息等。
[0071]本申请可以应用于针对广告的搜索排序中,根据显示广告的点击数据确定权重,然后在用户搜索时,获取与所述查询词匹配的广告查询目标,根据特征和权重,预测点击率,然后可以进行排序并显示。
[0072]其中,所述广告可以是在电子商务网站中进行搜索时,搜索到的卖家发布的产品信息。也可以是用户在搜索时显示在搜索页面边缘处的与查询词匹配的查询目标的广告,例如,用户搜索裙子的图片时,可以在搜索结果页面的边缘处显示裙子相关的产品或者是出售裙子的商家等。
[0073]其中,所述查询词的特征包括查询词的关键词、类目等。查询目标也包含各自的特征。例如,若查询目标为产品,则对应的特征包括产品名中的关键词、类目和生产企业等;若查询目标为企业,则对应的特征包括企业名称中的关键词、企业主营产品的关键词和企业
主营行业等。
[0074]还可以包括查询词和所述查询目标的相关特征,以企业为例,所述相关特征包括:查询词(Query)的类目和企业的主营行业是否匹配,查询词(Query)中的关键词在企业名称中命中的个数、命中的词的比例,以及,查询词(Query)中的关键词在企业主营产品中命中的个数、命中的词的比例等。
[0075]具体实施中,所述分别提取所述查询词和查询目标的特征之后,还包括:
[0076]分别将所述查询词和查询目标的特征量化为特征值。
[0077]在提取所述查询词的特征和所述查询目标的特征后,可以分别将所述查询词的特征和所述查询目标的特征进行量化,获取到量化后的特征值。
[0078]在上述实施例的基础上,所述针对每个查询目标,根据所述查询词和查询目标的特征,以及每个特征对应的权重,采用回归模型预测所述查询目标的点击率,包括:
[0079]步骤121,获取每个特征对应的权重;
[0080]在搜索排序前,可以根据点击数据确定每个特征对应的权重,因此在预测点击率时,首先要获取每个特征对应的权重。
[0081]步骤122,针对每个查询目标,将所述特征值和所述权重进行加权;
[0082]针对每个查询目标,获取到每个特征的特征值和每个特征对应的权重,因此可以将所述特征值和所述权重进行加权。
[0083]步骤123,将所述加权后的结果代入回归模型中,预测出所述查询目标的点击率。
[0084]可以将所述加权后的结果带入到回归模型中,然后预测出所述查询目标的点击率。
[0085]例如,采用logistic回归模型拟合点击率,f (Z)表示预测的点击率,X1,...,Xk表示k个特征的特征值,ω0,..., ?,表示特征的权重,具体公式如下:
[0086]
【权利要求】
1.一种基于点击率的搜索排序方法,其特征在于,包括: 搜索排序前,获取预设时间内用户的点击数据,并依据所述点击数据确定每个特征的权重; 搜索排序包括以下步骤: 获取查询词和与所述查询词匹配的查询目标,并且分别提取所述查询词和查询目标的特征; 针对每个查询目标,根据所述查询词和查询目标的特征,以及每个特征对应的权重,采用回归模型预测所述查询目标的点击率; 根据所述点击率,对所述查询目标进行排序并显示给用户。
2.根据权利要求1所述的方法,其特征在于,所述分别提取所述查询词和查询目标的特征之后,还包括: 分别将所述查询词和查询目标的特征量化为特征值。
3.根据权利要求2所述的方法,其特征在于,所述针对每个查询目标,根据所述查询词和查询目标的特征,以及每个特征对应的权重,采用回归模型预测所述查询目标的点击率,包括: 获取每个特征对应的权重; 针对每个查询目标,将所述特征值和所述权重进行加权; 将所述加权后的结果代入回`归模型中,预测出所述查询目标的点击率。
4.根据权利要求3所述的方法,其特征在于,所述搜索排序前,获取预设时间内用户的点击数据,并依据所述点击数据确定每个特征的权重,包括: 获取预设时间内用户的点击数据,根据所述点击数据统计后验点击率; 获取查询词和所述查询目标的特征值; 根据所述后验点击率和所述特征值,计算每个特征的权重。
5.根据权利要求4所述的方法,其特征在于,所述针对每个查询目标,获取预设时间内用户的点击数据之后,所述并根据所述点击数据统计后验点击率之前,还包括: 过滤所述点击数据中的异常数据,得到过滤后的点击数据。
6.根据权利要求5所述的方法,其特征在于,根据所述点击数据统计后验点击率,包括: 对所述过滤后的点击数据进行统计,获取到所述查询目标在页面中每个位置的点击率; 根据预设的每个位置的权重,对所述每个位置的点击率进行加权,得到对应的后验点击率。
7.根据权利要求1所述的方法,其特征在于,所述分别提取所述查询词和查询目标的特征之后,还包括: 针对输入查询词的用户,提取所述用户的行为特征,所述用户的行为特征包括以下至少一项: 所述用户在一段时间内的点击数据; 所述用户在一段时间内的类目数据,其中,所述类目数据包括点击的类目数据和/或搜索的类目数据;所述用户在一段时间内的地域数据。
8.根据权利要求7所述的方法,其特征在于,还包括: 提取所述查询词、查询目标和用户的相关特征。
9.根据权利要求1至8任一所述的方法,其特征在于,所述查询目标包括:产品、企业和行业。
10.一种基于点击率的搜索排序装置,其特征在于,包括: 权重确定模块,用于搜索排序前,获取预设时间内用户的点击数据,并依据所述点击数据确定每个特征的权重; 获取并提取模块,用于获取查询词和与所述查询词匹配的查询目标,并且分别提取所述查询词和查询目标的特征; 预测点击率模块,用于针对每个查询目标,根据所述查询词和查询目标的特征,以及每个特征对应的权重,采用回归模型预测所述查询目标的点击率; 排序并显示模块,根据所述点击率, 对所述查询目标进行排序并显示给用户。
【文档编号】G06F17/30GK103514178SQ201210206502
【公开日】2014年1月15日 申请日期:2012年6月18日 优先权日:2012年6月18日
【发明者】韦袆, 宋超, 韩小梅, 陈超, 冯炯 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1