一种搜索排序方法及系统与流程

文档序号:18923060发布日期:2019-10-19 03:45阅读:311来源:国知局
一种搜索排序方法及系统与流程
本申请的实施方式涉及搜索引擎
技术领域
,尤其涉及一种搜索排序方法及系统。
背景技术
:搜索引擎在互联网技术中发挥着主要作用,其用于根据用户的查询词,从海量信息中搜索返回满足用户需求的文档(Document,简称Doc)。搜索引擎通常会间隔一定时间基于静态排序分降序创建全量索引(静态排序索引),当用户搜索查询词时,搜索引擎会通过海选召回、粗排序、精排序三个环节来搜索Doc。通常而言,搜索引擎针对每个Doc计算一个静态排序分,其主要是根据Doc的文本描述质量和历史表现计算静态排序分,再根据静态排序分按逆序关系创建索引,Doc索引量级约十几亿;海选召回以查询词为关键字key,检索出文本包含该查询词的Doc,海选召回的Doc约十万量级;粗排序用于完成海选召回Doc与用户查询词的相关性计算,并优先返回相关性高的Doc,粗排序返回的Doc约万量级;精排序综合考虑用户反馈、查询词与Doc的相关性、Doc质量、搜索平台自身策略等因素为用户返回Doc。传统搜索引擎中,静态排序索引、海选召回、粗排序、精排序四个环节是相对独立的,每个环节都有各自独立的目标,目标不统一使得其在当前环节返回的Doc对全局而言并不是最优的。纵观整个搜索环节,海选召回和粗排序主要用于从海量索引中筛选出优质万量级的Doc,精排序用于对筛选出的Doc按照用户的反馈度进行排序,统计表明,基于海选召回和粗排序筛选出的Doc与基于精排序从索引中选出的Doc重合度约为50%,即海选召回和粗排序损失了近一半的优质Doc,严重影响用户体验。技术实现要素:为了解决上述问题,本申请提供了一种搜索排序方法及系统,能够提高优质Doc的召回率,以提升用户体验。一方面,本申请提供了一种搜索排序方法,该方法包括:获取查询词,利用静态排序索引获取与该查询词匹配的文档,将获取的文档作为海选召回文档;所述静态排序索引是利用精排特征权重计算静态排序分,根据该静态排序分建立的索引;采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重,利用该粗排特征权重计算所述海选召回文档的粗排分;根据粗排分选择排序靠前的M个文档,将选择的文档作为粗排序文档;M为预设个数;计算所述粗排序文档在所述查询词下对应的用户行为发生概率,采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分;根据精排分对所述粗排序文档进行排序。可选的,计算所述粗排序文档在所述查询词下对应的用户行为发生概率,采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分,包括:利用点方式机器学习方法训练得到特征权重,利用该特征权重估算所述粗排序文档在所述查询词下对应的用户行为发生概率,所述用户行为发生概率包括:点击率、收藏率、询盘率以及购买率中的一种或其组合;将所述用户行为发生概率作为特征,利用对方式机器学习方法训练得到精排特征权重,利用该精排特征权重和所述粗排序文档的特征向量计算得到所述粗排序文档的精排分。可选的,利用点方式机器学习方法训练得到特征权重,利用该特征权重估算所述粗排序文档在所述查询词下对应的用户行为发生概率,包括:利用线性回归模型采用最大似然算法求解得到特征权重;利用该特征权重和从所述粗排序文档提取的特征向量计算得到对应的用户行为发生概率。可选的,将所述用户行为发生概率作为特征,利用对方式机器学习方法训练得到精排特征权重,利用该精排特征权重和所述粗排序文档的特征向量计算得到所述粗排序文档的精排分,包括:利用支持向量机模型,将用户行为发生概率作为特征训练得到精排特征权重;利用该精排特征权重和从所述粗排序文档提取的特征向量计算得到所述粗排序文档的精排分。可选的,采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重,利用该粗排特征权重计算所述海选召回文档的粗排分,包括:利用点方式机器学习方法,将预先统计的所述海选召回文档的精排分作为训练目标训练得粗排特征权重;利用该粗排特征权重和粗排特征向量计算所述海选召回文档的粗排分。可选的,所述获取查询词,利用静态排序索引获取与该查询词匹配的文档,将获取的文档作为海选召回文档,包括:获取查询词,计算该查询词对各个行业的隶属度,根据该隶属度和预设的海选召回文档总量计算各个行业的文档召回量;按照各个行业的文档召回量,利用静态排序索引获取与查询词匹配的各个行业的文档,将获取的文档作为海选召回文档。可选的,所述静态排序索引通过以下方式建立:利用文档的文本特征权重向量和文本质量特征计算文本质量分,利用文档的用户行为发生概率计算平均值,利用该平均值和预先统计的精排特征权重计算综合反馈分,根据所述文本质量分和综合反馈分计算文档的静态排序分,按照静态排序分由大到小的顺序建立静态排序索引。又一方面,本申请提供了一种搜索排序系统,该系统包括:海选召回单元,用于获取查询词,利用静态排序索引获取与该查询词匹配的文档,将获取的文档作为海选召回文档;所述静态排序索引是利用精排特征权重计算静态排序分,根据该静态排序分建立的索引;粗排分计算单元,用于采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重,利用该粗排特征权重计算所述海选召回文档的粗排分;粗排选择单元,用于根据粗排分选择排序靠前的M个文档,将选择的文档作为粗排序文档;M为预设个数;精排分计算单元,用于计算所述粗排序文档在所述查询词下对应的用户行为发生概率,采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分;精排序单元,用于根据精排分对所述粗排序文档进行排序。可选的,精排分计算单元,包括:第一模型训练单元,用于利用点方式机器学习方法训练得到特征权重,利用该特征权重估算所述粗排序文档在所述查询词下对应的用户行为发生概率,所述用户行为发生概率包括:点击率、收藏率、询盘率以及购买率中的一种或其组合;第二模型训练单元,用于将所述用户行为发生概率作为特征,利用对方式机器学习方法训练得到精排特征权重,利用该精排特征权重和所述粗排序文档的特征向量计算得到所述粗排序文档的精排分。可选的,第一模型训练单元,包括:权重求解子单元,用于利用线性回归模型采用最大似然算法求解得到特征权重;概率计算子单元,用于利用该特征权重和从所述粗排序文档提取的特征向量计算得到对应的用户行为发生概率。可选的,第二模型训练单元,包括:训练子单元,用于利用支持向量机模型,将用户行为发生概率作为特征训练得到精排特征权重;精排分计算子单元,用于利用该精排特征权重和从所述粗排序文档提取的特征向量计算得到所述粗排序文档的精排分。可选的,粗排分计算单元,包括:粗排特征权重训练子单元,用于利用点方式机器学习方法,将预先统计的所述海选召回文档的精排分作为训练目标训练得粗排特征权重;粗排分计算子单元,用于利用该粗排特征权重和粗排特征向量计算所述海选召回文档的粗排分。可选的,所述海选召回单元,包括:行业召回量计算子单元,用于获取查询词,计算该查询词对各个行业的隶属度,根据该隶属度和预设的海选召回文档总量计算各个行业的文档召回量;海选召回子单元,用于按照各个行业的文档召回量,利用静态排序索引获取与查询词匹配的各个行业的文档,将获取的文档作为海选召回文档。可选的,所述系统还包括:静态排序索引建立单元,用于利用文档的文本特征权重向量和文本质量特征计算文本质量分,利用文档的用户行为发生概率计算平均值,利用该平均值和预先统计的精排特征权重计算综合反馈分,根据所述文本质量分和综合反馈分计算文档的静态排序分,按照静态排序分由大到小的顺序建立静态排序索引。与现有技术相比,本申请提供的技术方案具有以下有益效果:本申请的静态排序索引是基于同步精排序环节的精排特征权重建立的,能够提升静态排序与精排序的一致性,从而使得海选召回环节优选召回精排意义上的优质文档,提升搜索质量;本申请在粗排序环节采用机器学习方法拟合精排分,实现特征权重的动态更新机制,以提升粗排序环节推送给精排序环节的优质文档的召回率;本申请在精排序环节采用两层模型,第一层模型预估了用户行为发生概率,第二层模型以第一层模型输出为特征,从全局角度统筹了各种行为数据对用户最终意图的刻画力度,以提高搜索质量。综上所述,本申请是以用户体验为最终目标,基于用户多种类型的反馈行为作为样本数据,采用机器学习方法训练预估,实现精排序的计算逻辑;同时,本申请分别将静态排序环节和精排序环节、粗排序环节构成两个反馈回路,实现搜索链路各个环节的相互作用、自动优化。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请提供的一种搜索排序方法的一个实施例的流程图;图2为本申请提供的搜索引擎的搜索链路召回量级的示意图;图3为本申请提供的静态排序索引的一种示意图;图4为本申请提供的一种搜索排序系统的构架图;图5为本申请提供的一种用户行为示意图;图6为本申请提供的点方式机器学习的样本特征维度示意图;图7为本申请提供的一种搜索排序系统的一个实施例的结构图;图8为本申请提供的一种搜索排序系统的另一个实施例的结构图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。参见图1,该图示出了本申请的基于用户反馈的搜索排序方法的一个实施例,下面对图1所示的实施例进行详细介绍。步骤S11:获取查询词,利用静态排序索引获取与该查询词匹配的文档,将获取的文档作为海选召回文档;所述静态排序索引是利用精排特征权重计算静态排序分,根据该静态排序分建立的索引。这里需要说明的是,本实施例的方法可以适用于通过搜索引擎为用户提供搜索服务的网站或平台。用户使用搜索引擎时,在搜索输入框内输入自己感兴趣的查询词query,在实际应用中query可以是一个字、词、短句或其组合,如图2所示,搜索引擎系统会根据该query在数据库中进行海选召回、粗排序、精排序三个环节的处理,以筛选出满足用户需求的Doc。由于传统搜索引擎系统的海选召回环节是以查询词为基础检索静态排序索引,而传统的静态排序索引是按照静态排序分逆序创建的,但静态排序分的计算主要涉及的是Doc文本描述完整性、Doc的平均用户反馈数等,其中文本描述完整性的度量、海选特征的权重设置通常都不能达到全局最优,从而影响召回的Doc质量。更为重要的一点,由于静态排序分布严格按照静态排序分逆序创建,使得同一关键词key下面的Doc表现出行业集中性,直接影响海选召回Doc的多样性,导致用户体验不好。以图3为例,对这种情况进行举例说明,在图3中Doc3是3C类的苹果,Doc4是水果类的苹果,Doc3和Doc4都包含关键词apple。由于3C行业的用户搜索反馈行为通常多于水果行业,且文本描述更为精确具体,因此3C行业(eg.Doc3)基于文本质量和平均历史反馈特征计算得到静态排序分会高于水果行业(eg.Doc4),从而使得3C行业Doc被优先召回。当3C行业Doc足够多,且达到搜索引擎系统设定的海选召回量时,水果行业的Doc就没有被召回的机会,从而就不会作为搜索结果返回给用户。如果用户希望找到水果时,那么搜索引擎这次返回的结果是无法满足用户需求的。发明人针对传统搜索引擎系统的海选召回环节的行业单一的缺点,还提出了在海选召回环节引入行业分层逻辑,能够召回与查询词匹配的各个行业的文档,以提高海选召回Doc的行业多样性,提升用户体验。另外,关于静态排序索引的建立的过程,在此先不介绍,后面会给出详细说明。结合图4示出的本申请基于用户反馈的搜索排序系统的构架图,先对本实施例的海选召回环节进行解释说明。在具体实现时,海选召回环节的步骤S11可以包括:获取查询词,计算该查询词对各个行业的隶属度,根据该隶属度和预设的海选召回文档总量计算各个行业的文档召回量;以及,按照各个行业的文档召回量,利用静态排序索引获取与查询词匹配的各个行业的文档,将获取的文档作为海选召回文档。首先根据查询词下用户对各个行业反馈数据,按照公式(1)计算查询词对各个行业的隶属度μcategory_n。公式(1):μcategory_n=f(CTRcategory_n,CRcategory_n,IRcategory_n,BRcategory_n)在公式(1)中,μcategory_n表示查询词在第n行业的隶属度;CTRcategory_n表示查询词在第n行业下的点击率;CRcategory_n表示查询词在第n行业下的收藏率;IRcategory_n表示查询词在第n行业下的询盘率;BRcategory_n表示查询词在第n行业下的购买率。这里需要说明的是,在实际应用中关于行业的隶属度的计算也可以只采用上述点击率、收藏率、询盘率、购买率中一种或多种组合,上述公式(1)仅是以四种组合方式为例。然后,按照公式(2)归一化隶属度μcategory_n为μ′category_n。公式(2):在公式(2)中,μ′category_n表示查询词在第n行业的归一化隶属度;μcategory_i表示查询词在第i行业的隶属度,其中,i取值为1到N。最后,按照公式(3)基于归一化隶属度μ′category_n计算各个行业Doc的召回量。公式(3):Numcategory_n=K×μ′category_n在公式(3)中,Numcategory_n表示第n行业的文档召回量;K为搜素引擎系统预设的海选召回文档总量。在确定了各个行业的文档召回量之后,就分别针对每个行业来召回满足条件的文档,将召回的所有文档作为海选召回文档。举个例子,假设查询词为“apple”,搜素引擎系统预设的海选召回文档总量K=10000。按照上文公式(1)和公式(2)计算得到其属于电子行业的归一化隶属度为0.8;按照上文公式(1)和公式(2)计算得到其属于水果行业的归一化隶属度为0.2;按照公式(3)电子行业的文档召回量Num电子=10000*0.8=8000;按照公式(3)水果行业的文档召回量Num水果=10000*0.2=2000。在确定了电子行业和水果行业的文档召回量之后,就分别针对这两个行业来召回满足条件的文档,将召回的所有文档作为海选召回文档。步骤S11的海选召回完成后,进入粗排序环节,即进入步骤S12。步骤S12:采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重,利用该粗排特征权重计算所述海选召回文档的粗排分。传统搜索引擎系统的粗排序环节主要考虑相关性,Doc包含标题描述文本、属性表述文本等,其特征权重的设置与静态排序类似,均是通过实验多组权重参数选择表现最好的特征权重,由于实验代价相对较大,因此通过实验对比的特征权重数量有限,不能遍历得到最优特征权重集合,此外,特征权重设定之后,不能随着用户行为习惯等因素的改变而改变,其缺乏自适应调整的机制,致使粗排特征权重缺乏自适应性。此外,用户搜索时,除了对相关性有要求外,还会受到其他因素的影响,例如,当用户在电商网站搜索产品时,图片内容、产品价格都是影响用户是否购买的关键因素,因此传统的搜索引擎的粗排序环节只考虑查询词与Doc的相关性,缺乏很多关键信息,对全局而言很难达到最优。发明人针对传统搜索引擎系统的粗排序环节的缺点,提出了在粗排序环节采用机器学习方法拟合精排分,实现特征权重的动态更新机制,以提升粗排序环节推送给精排序环节的优质文档的召回率。下面对本申请的粗排序环节进行详细解释说明。在具体实现时,步骤S12可以包括:利用点方式机器学习方法,将预先统计的所述海选召回文档的精排分作为训练目标训练得粗排特征权重;以及,利用该粗排特征权重和粗排特征向量计算所述海选召回文档的粗排分。在本申请中点方式机器学习方法(point-wise)既可以采用线性回归模型(LinearRegression,LR),也可以采用非线性模型如梯度提升决策树(GradientBoostingDecisionTree,GBRT)。下面以LR模型为例对该方法的实现过程作说明。首先,按照公式(4)求解粗排特征权重。公式(4):在公式(4)中,以海选召回环节筛选的海选召回文档为样本,以预先统计的关于这次海选召回文档的精排分为目标(上一次统计的文档的精排分或者上一个周期统计的文档的精排分),其中,yk表示预先统计的第k个海选召回文档的精排分;w表示待求解的粗排特征权重,fk表示从第k个海选召回文档抽取的特征向量。然后,按照公式(5)计算海选召回文档的粗排分。公式(5):在公式(5)中,Score2表示粗排分,fi表示特征向量中的第i个特征;wi表示特征向量第i个特征对应的权重。粗排序环节是承接海选召回环节和精排序环节的重要环节,本实施例一方面为了确保粗排序环节推送给精排序环节的文档尽可能优质,在粗排序环节以精排分为目标,使得粗排序和精排序的结果趋同;另一方面,由于海选召回文档的数目约十万量级,因此要求粗排序环节逻辑必须简单高效。本申请提出采用精排分作为粗排序模型训练目标,以实现粗排序和精排序的结果趋同,并采用线性回归模型可以简化计算量,提高粗排序环节的计算效率。此外,本申请还可以通过简化特征的方式,以进一步提高粗排序环节的计算效率。例如,本申请粗排序环节设计的特征主要是相关性特征,包括文本相关性和意图相关性,文本相关性的特征包括标题匹配率、属性匹配率等,意图相关性特征包括行业匹配率等,基于此得到的样本示意如表1所示。表1粗排序point-wise样本示意表1中目标栏中[Q,U,I1]为样本信息,Q表示查询词,U表示用户,I表示Doc,则I1表示第1个Doc,I2表示第2个Doc,以此类推,In表示第n个Doc;Score14表示Doc1对应的精排分;Score24表示Doc2对应的精排分,以此类推,Scoren4表示Docn对应的精排分;Scoren4的后缀n用于标识Doc,下标4用于标识其为精排分。步骤S13:根据粗排分选择排序靠前的M个文档,将选择的文档作为粗排序文档;M为预设个数。在具体实现时,可以按照粗排分由大到小的顺序,选择排序靠前的M个文档,将选择的M个文档作为粗排序文档。步骤S14:计算所述粗排序文档在所述查询词下对应的用户行为发生概率,采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分。在具体实现时,步骤S14可以通过两层模型训练方式来实现。第一层模型训练具体为:利用点方式机器学习方法训练得到特征权重,利用该特征权重估算所述粗排序文档在所述查询词下对应的用户行为发生概率,所述用户行为发生概率包括:点击率、收藏率、询盘率以及购买率中的一种或其组合。第二层模型训练具体为:将所述用户行为发生概率作为特征,利用对方式机器学习方法训练得到精排特征权重,利用该精排特征权重和所述粗排序文档的特征向量计算得到所述粗排序文档的精排分。下面先对第一层模型训练的过程进行介绍。第一层模型训练可以包括:利用线性回归模型采用最大似然算法求解得到特征权重;以及,利用该特征权重和从所述粗排序文档提取的特征向量计算得到对应的用户行为发生概率。由于用户的各种行为都可以用Bool型变量0/1表示,因此可以采用点方式学习方法(point-wise)预估给定查询词下用户是否点击、是否收藏、是否询盘、是否购买等行为,在具体实现时,可以采用线性回归模型(LinearRegression,LR)实现用户各种行为发生概率的预估。由于用户搜索特定Query后,搜索引擎会返回搜索结果list,通常情况下,用户可以对搜索结果进行多种类型的操作。以电子商务网站展现的Doc为例,用户的操作行为可以表现为对该Doc进行行点击浏览、收藏、询盘、购买等行为,这些操作行为将被电子网站以日志的形式记录下来,形成操作行为数据。这些操作行为数据反映出了用户对某个Doc的接受程度,相对于那些未被用户操作的目标对象(比如,没有被点击的商品),更能体现用户的需求倾向。第一层模型训练是以预先统计的所有文档对应的日志为样本来进行训练,以图5为例,假设用户对Doc1进行了点击(click)操作、对Doc2进行了收藏(collect)操作、对Doc3进行了询盘(inquiry)操作、对Doc4进行了购买(buy)操作,那么根据用户对Doc的各种行为日志生成精排序反馈率预估样本,参见表2。表2精排序point-wise反馈率预估样本示意表2中目标栏中的1表示行为发生,0表示行为未发生;例如点击率预估下面的目标栏中特征{Q,U,I1}的Doc1在一次曝光中被点击(如图5),则其目标为1;再例如,在收藏率预估下面的目标栏中特征{Q,U,I3}中的Doc3在一次曝光中未被收藏(如图5)则其目标为0。这里需要说明的是,在实际应用中,反馈率预估样本也可以仅关注点击率、收藏率、询盘率、购买率任一种或其组合,在表2中仅以四种组合为例进行说明。下面仅以点击率预估为例,对point-wise方法的实现过程进行说明。利用LR模型采用最大似然算法求解特征权重w,最优化目标关系式为公式(6)所示。公式(6):在公式(6)中,yk表示预先统计的第k个Doc的标准目标,如果样本k在一次曝光用户发生了对应的行为,则yk=1,否则yk=0;w表示待求解的特征权重,fk表示从样本k抽取的特征向量,特征向量可以有多个维度如图6所示。按照公式(6)求解得到w后,预估点击率的计算表达式为公式(7)。公式(7):举个例子,f1和f2表示用户维度性别特征,当用户为男性时,f1=1,f2=0,当用户为女性时,f1=0,f2=1;查询维度特征f2为查询词query本身,例如“mp3”,当用户输入的查询词为“mp3”时,f2=1,否则f2=0。Doc维度特征f4为标题抽取的产品词,例如“redmp3”,如果某个Doc的标题产品词为“redmp3”,那么f4=1,否则f4=0。通过LR模型训练得到各个特征的权重分别为w1=0.5,w2=0.8,w3=0.2,w4=0.6。如此,当一个男性用户搜索“mp3”,如果搜索到的某个Doc标题产品词为“redmp3”,那么其预估点击率为上文举例仅以点击率为例,收藏率、询盘率,购买率等模型的训练和预估过程与点击率相似,其区分只是体现在样本目标的设定和特征的设计。按照上文描述的处理过程分别预估Doc在关键词下的点击率eCTR(estimateClickThroughRate)、收藏率eCR(estimateCollectRate)、询盘率eIR(estimateInquiryRate)、购买率eBR(estimateBuyRate)。下面对第二层模型训练的过程进行介绍。第二层模型训练可以包括:利用支持向量机模型,将用户行为发生概率作为特征训练得到精排特征权重;以及,利用该精排特征权重和从所述粗排序文档提取的特征向量计算得到所述粗排序文档的精排分。支持向量机模型rankSVM是一种常用的pair-wise模型,下面就对rankSVM在本申请中的实现过程进行解释说明。由于用户对Doc作出不同类型的行为能够体现出Doc满足用户诉求的程度,因此,利用购买>询盘>收藏>点击的特点来定量各种类型行为的用户满意程度。第二层模型训练是以预先统计的所有文档对应的日志为基础按照上述购买>询盘>收藏>点击的特点构架的样本来进行的。例如以上文描述的图5为基础,构建pair-wise模型的样本,如表3所示。表3精排序pair-wise模型预估样本示意目标特征[Q,U,I1]>[Q,U,I5]{eCTR1,eCR1,eIR1,eBR1,eCTR5,eCR5,eIR5,eBR5}[Q,U,I2]>[Q,U,I1]{eCTR1,eCR1,eIR1,eBR1,eCTR2,eCR2,eIR2,eBR2}[Q,U,I3]>[Q,U,I2]{eCTR2,eCR2,eIR2,eBR2,eCTR3,eCR3,eIR3,eBR3}[Q,U,I4]>[Q,U,I3]{eCTR3,eCR3,eIR3,eBR3,eCTR4,eCR4,eIR4,eBR4}............Pair-wise模型的样本构造完成后,采用rankSVM求解精排特征权重w,如公式(8),然后按照公式(9)计算出最终的精排分。公式(8):公式(9):步骤S15:根据精排分对所述粗排序文档进行排序。在实际应用中,可以按照精排分由大到小的顺序,对粗排序文档进行排序,搜索引擎系统会按照精排序顺序向用户返回搜索的Doc。由上述描述可知本申请的精排环节包括两层模型训练。一层是point-wise模型,另一层pair-wise模型。point-wise模型实现用户的各种类型的行为发生率预估,Doc文本质量是重要的特征类型之一,例如标题长度特征、属性填写率特征、标题和属性的一致性特征等。pair-wise模型的特征权重表征点击率、收藏率、询盘率、购买率等用户行为发生率对最终用户意图的贡献度。本申请还提出了将精排特征权重同步到静态排序索引环节,使得静态排序索引的建立更合理,能够随着用户行为习惯和用户意图等因素进行自适应调整。下面对本申请的静态排序索引的建立过程进行解释说明。首先,利用文档的文本特征权重向量和文本质量特征计算文本质量分;然后,利用文档的用户行为发生概率计算平均值,利用该平均值和预先统计的精排特征权重计算综合反馈分;最后,根据所述文本质量分和综合反馈分计算文档的静态排序分,按照静态排序分由大到小的顺序建立静态排序索引。下面通过具体的计算公式来介绍静态排序索引建立的基本原理。按照如下公式(10)来计算静态排序中文本质量分。公式(10):在公式(10)中,w1表示精排环节point-wise模型文本特征权重向量,f1表示文本质量特征,表示静态排序中文本质量分。由于精排pair-wise模型计算的是<query,Doc>的精排分,而静态排序是与query无关的,为了在静态排序阶段利用精排环节pair-wise的精排特征权重,本申请首先按照公式(11)统计Doc各种类型反馈率的平均值。公式(11):在公式(11)中,feedback∈{CTR,CR,IR,BR},feedbackm表示当前Doc在Querym下的历史统计反馈率。然后按照公式(12)计算综合反馈分。公式(12):在公式(12)中,分别表示精排pair-wise模型中的点击率、收藏率、询盘率、购买率特征权重。分别表示统计的点击率、收藏率、询盘率、购买率的平均值。这里需要说明的是,在具体实现时,静态排序环节是以精排序环节的精排特征权重为基础的,此处的公式(11)和公式(12)仅是以精排环节涉及到点击率、收藏率、询盘率和购买率四个特征的情况下所对应的计算公式;如果精排环节仅涉及到点击率、收藏率、询盘率、购买率的一种或其组合时,则上述公式(11)和公式(12)对应的发生变化。最后,按照公式(13)计算静态排序分Score1。公式(13):在公式(13)中,α和β分别是基于搜索引擎策略预先设定的权重。本申请提供的上述静态排序索引的建立方法使得精态排序索引环节引入精排特征权重同步更新机制,实现了用户行为数据对静态排序环节的反馈修正逻辑。与上述方法相对应的,本申请还提供了一种搜索排序系统。下面对该系统进行介绍。参见图7,图7为本申请的一种搜索排序系统的一个实施例的结构图,如图7所示,该系统可以包括:海选召回单元701,用于获取查询词,利用静态排序索引获取与该查询词匹配的文档,将获取的文档作为海选召回文档;所述静态排序索引是利用精排特征权重计算静态排序分,根据该静态排序分建立的索引;粗排分计算单元702,用于采用机器学习方法拟合预先统计的所述海选召回文档的精排分得到粗排特征权重,利用该粗排特征权重计算所述海选召回文档的粗排分;粗排选择单元703,用于根据粗排分选择排序靠前的M个文档,将选择的文档作为粗排序文档;M为预设个数;精排分计算单元704,用于计算所述粗排序文档在所述查询词下对应的用户行为发生概率,采用机器学习方法以所述用户行为发生概率为特征计算所述粗排序文档的精排分;精排序单元705,用于根据精排分对所述粗排序文档进行排序。可选的,精排分计算单元,包括:第一模型训练单元,用于利用点方式机器学习方法训练得到特征权重,利用该特征权重估算所述粗排序文档在所述查询词下对应的用户行为发生概率,所述用户行为发生概率包括:点击率、收藏率、询盘率以及购买率中的一种或其组合;第二模型训练单元,用于将所述用户行为发生概率作为特征,利用对方式机器学习方法训练得到精排特征权重,利用该精排特征权重和所述粗排序文档的特征向量计算得到所述粗排序文档的精排分。可选的,第一模型训练单元,包括:权重求解子单元,用于利用线性回归模型采用最大似然算法求解得到特征权重;概率计算子单元,用于利用该特征权重和从所述粗排序文档提取的特征向量计算得到对应的用户行为发生概率。可选的,第二模型训练单元,包括:训练子单元,用于利用支持向量机模型,将用户行为发生概率作为特征训练得到精排特征权重;精排分计算子单元,用于利用该精排特征权重和从所述粗排序文档提取的特征向量计算得到所述粗排序文档的精排分。可选的,粗排分计算单元,包括:粗排特征权重训练子单元,用于利用点方式机器学习方法,将预先统计的所述海选召回文档的精排分作为训练目标训练得粗排特征权重;粗排分计算子单元,用于利用该粗排特征权重和粗排特征向量计算所述海选召回文档的粗排分。可选的,所述海选召回单元,包括:行业召回量计算子单元,用于获取查询词,计算该查询词对各个行业的隶属度,根据该隶属度和预设的海选召回文档总量计算各个行业的文档召回量;海选召回子单元,用于按照各个行业的文档召回量,利用静态排序索引获取与查询词匹配的各个行业的文档,将获取的文档作为海选召回文档。参见图8,如图8所示的本申请的一种搜索排序系统的另一个实施例的结构图,该系统是在上述图7所示系统的基础上还包括了静态排序索引建立单元。静态排序索引建立单元700,用于利用文档的文本特征权重向量和文本质量特征计算文本质量分,利用文档的用户行为发生概率计算平均值,利用该平均值和预先统计的精排特征权重计算综合反馈分,根据所述文本质量分和综合反馈分计算文档的静态排序分,按照静态排序分由大到小的顺序建立静态排序索引。本申请的静态排序索引是基于同步精排序环节的精排特征权重建立的,能够提升静态排序与精排序的一致性,从而使得海选召回环节优选召回精排意义上的优质文档,提升搜索质量;本申请在粗排序环节采用机器学习方法拟合精排分,实现特征权重的动态更新机制,以提升粗排序环节推送给精排序环节的优质文档的召回率;本申请在精排序环节采用两层模型,第一层模型预估了用户行为发生概率,第二层模型以第一层模型输出为特征,从全局角度统筹了各种行为数据对用户最终意图的刻画力度,以提高搜索质量。综上所述,本申请是以用户体验为最终目标,基于用户多种类型的反馈行为作为样本数据,采用机器学习方法训练预估,实现精排序的计算逻辑;同时,本申请分别将静态排序环节和精排序环节、粗排序环节构成两个反馈回路,实现搜索链路各个环节的相互作用、自动优化。此外,本申请在海选召回环节还可以引入查询词行业与Doc行业匹配的分层检索逻辑,提升搜索引擎全局优质Doc的召回率和行业多样性,改善用户的搜索体验。需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。本申请方法实施例是从系统角度描述的,与系统实施例基本相似,方法实施例描述的比较简单,相关之处参见系统实施例的部分说明。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上对本申请所提供的一种搜索排序方法及系统进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1