一种搜索方法、装置及设备与流程

文档序号:14777976发布日期:2018-06-26 07:56阅读:141来源:国知局

本发明实施例涉及信息搜索技术,尤其涉及一种搜索方法、装置及设备。



背景技术:

在当今大数据时代的背景下,互联网所提供的信息正以惊人的速度持续增长。面对这样膨大的信息库,如何准确有效地提取并呈现用户关注的有用信息成为搜索引擎服务器要解决的首要问题,其中网页的智能排序更是其中的一个不可忽略的关键问题。

目前搜索引擎服务器对于网页的排序主要是基于网页的可靠性、网页内容与搜索关键词的相关性以及网页的搜索热度等。比如基于链接的分析算法是基于网页的重要性进行排序,基于文本的相关性技术是基于网页内容与搜索关键词的相关性进行排序,而基于用户行为的点击调权技术则是基于用户浏览网页过程中的点击率来排序。这些排序算法所考虑的因素比较单一,且呈现给用户的搜索结果可能和用户的真实需求有较大出入,用户需要从搜索引擎服务器返回的结果中再次筛选有用信息,这无疑加重了用户的负担,影响用户体验。



技术实现要素:

本发明实施例提供一种搜索方法、装置及设备,以实现更加准确地对搜索结果进行排序,获得更加贴近用户搜索需求的搜索结果,提升用户的搜索体验。

第一方面,本发明实施例提供了一种搜索方法,包括:

获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息;

基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序;

基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页。

第二方面,本发明实施例还提供了一种搜索装置,该装置包括:

候选信息获取模块,用于获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息;

排序模块,用于基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序;

搜索结果页生成模块,用于基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页。

第三方面,本发明实施例还提供了一种设备,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所述的方法。

本发明实施例提供的一种搜索方法、装置及设备,通过获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息,基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序,并基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页,减少与用户搜索需求偏离较远的搜索条目,获得更加贴近用户搜索需求的搜索结果页,能够有效减少用户的二次筛选,提升用户的搜索体验。

附图说明

图1为本发明实施例一提供的一种搜索排序方法的流程图;

图2为本发明实施例一提供的一种搜索结果页示意图;

图3为本发明实施例二提供的一种搜索排序方法的流程图;

图4a为本发明实施例三提供的一种页面元素排序模型的结构图;

图4b为本发明实施例三提供的另一种页面元素排序模型的结构图;

图5为本发明实施例四提供的一种搜索排序方法的流程图;

图6为本发明实施例五提供的一种搜索排序装置的结构示意图;

图7为本发明实施例六提供的一种设备的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

本发明实施例可以适用于针对搜索查询的各种搜索引擎服务器,只要该搜索引擎服务器能够依据用户的搜索请求,在搜索结果页上展现相应的搜索查询的信息即可,而不对具体的搜索查询加以限制,比如商品、知识、资源或服务等。该方法可以由搜索装置来执行。

参见图1,本实施例提供的搜索方法具体包括:S100-S300。

S100、获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息。

其中,搜索关键词是用户输入搜索引擎的搜索请求的概括性词语。候选区块是根据搜索关键词从所有的备选区块中选择的用于在搜索结果页中展示的区块。备选区块是预先对某一时间段内的所有搜索关键词(即历史搜索关键词)进行统计分类之后得到的不同搜索主题对应的区块,比如“包子机”之类的机械类产品,可以根据历史搜索关键词划分出“包子机价格”、“包子机使用说明”、“包子机维修与保养”、“包子机销售商”和“包子机生产商”等搜索主题,则备选区块可以是“产品列表区”、“产品知识区”和“厂家介绍区”等。历史搜索关键词是基于搜索日志数据来获取,统计分类方法可以采用贝叶斯逻辑回归分类器、词频-逆向文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)或诸如支持向量机和神经网络算法的机器学习方法等。条目信息是与候选区块相对应的搜索条目,这些搜索条目是根据搜索关键词及各个区块的信息预先确定的归属于某一个区块下的所有条目,其预先确定方法可以是利用诸如页面分析技术的内容理解方法对各种搜索条目的内容进行理解,并按照理解的结果将其划分于某一区块下,划分方法可以与上述统计分类方法相同。

具体地,依据搜索关键词从多个备选区块中筛选出与搜索关键词适配的所有区块作为搜索结果页中的候选区块。然后获取每一个候选区块中对应的条目信息。在搜索结果页内进行区块的划分可以更加直观地向用户呈现搜索结果,便于用户快速找到其最感兴趣的条目。至于如何筛选与搜索关键词适配的区块及条目信息,可以是预先设立搜索关键词与区块及条目信息的映射关系,然后根据映射关系直接进行区块和条目信息的筛选;也可以是分别对搜索关键词和区块以及搜索关键词和条目信息进行回归分析,分别得到备选区块以及备选区块对应的条目信息与搜索关键词的匹配度,将达到匹配度阈值的备选区块和条目信息确定为候选区块和候选区块中的条目信息。匹配度的衡量指标可以是贴近度、语义距离或相似度,具体的算法可以是计算几何距离或相关系数等统计学方法。匹配度阈值可以根据具体的情况进行设置,比如为了获得更贴近搜索需求的搜索结果,可以将匹配度阈值设置为80%。

示例性地,获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息可以是:从区块数据库中获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息,所述区块数据库中的条目信息按区块存储且各区块与搜索关键词相关联地存储。

具体地,预先对网页进行页面分析获得搜索关键词与各区块的第一映射关系以及各区块与条目信息的第二映射关系,然后将搜索关键词与各备选区块按照第一映射关系关联地存储,并将条目信息按照第二映射关系分区块存储,共同构成区块数据库。然后根据用户的搜索关键词从区块数据库中选择出候选区块以及各候选区块中的条目信息。其中,上述第一映射关系和第二映射关系的形式可以是树结构,也可以是查找表结构。生成映射关系所用的数据是网络用户的搜索日志,即历史搜索关键词。至于映射关系的生成算法可以是诸如贝叶斯回归分类算法或聚类法等回归分析方法,也可以是决策树、支持向量机或神经网络算法等机器学习算法。

S200、基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序。

其中,区块特征是描述区块特性的参数,其可以是区块点击率、区块转化率、区块所属领域、区块与搜索关键词匹配度等中的一个或多个。区块点击率是该区块内所有条目的点击率总和除以该区块内的所有搜索条目的总数,区块转化率该区块内所有搜索条目的转化率总和除以该区块内的所有搜索条目的总数,区块领域是该区块对应的搜索主题所属的领域。相应地,条目特征是描述条目特性的参数,其可以是条目点击率、条目转化率、条目所属领域、条目与搜索关键词匹配度等中的一个或多个。条目点击率是一段时间内该条目被点击的总次数除以这段时间内该条目出现的总次数,条目转化率是一段时间内该条目完成转化行为的总次数除以该条目被点击的总次数,条目领域可以根据区块领域确定。条目点击率和条目转化率可以直接对历史用户行为数据进行分析得到,然后再利用条目点击率和条目转化率计算区块点击率和区块转化率。历史用户行为数据是一时间段内的网络用户的网络行为数据,其可以从搜索日志中提取。

具体地,在S100获取了候选区块及每个区块中的条目信息之后,可以依据历史用户行为数据获取上述候选区块的区块特征以及候选区块中各条目信息的条目特征,然后依据这些候选区块的区块特征对各个候选区块进行排序,将最贴近用户搜索需求的区块排在最前面。同时,依据候选区块内各条目的条目特征对每个候选区块内的条目进行排序,将每个区块中最贴近用户搜索需求的条目排在每个区块的最前面。至于排序方法,可以选择PageRank、Hilltop、HITS、SALSA及BFS等排序方法,也可以根据上述区块特征和条目特征利用诸如支持向量机、决策树或神经网络算法等机器学习算法训练更有针对性的排序模型,还可以在获取初步的排序结果后根据用户的具体搜索需求对其进行进一步调整等。

S300、基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页。

具体地,基于S200中经过排序的候选区块以及各候选区块中的条目信息,生成供用户浏览的搜索结果页。其中,搜索结果页每个区块内结果条目的显示形式可以被设置为只显示一页条目的形式,也可以被设置为分页显示更多条目的形式,还可以被设置为使用滚动条显示更多条目的形式。

例如,参见图2,用户通过网页浏览器201的搜索框202搜索“包子机”之后,根据本实施例获得搜索结果页203,其中包含产品列表区204、厂家介绍区205和产品知识区206共3个区块,每个区块内包含多个结果条目。可以理解的是,由于页面显示范围的限制,搜索结果页中可以直接显示的区块数量和每个区块内的条目数量是有限的,比如每个区块内包含的结果条目数量最少3条且最多10条,所以对于每个区块内搜索条目的显示方式,可以是产品列表区204中只显示一页条目(即只显示权重值较大的前10个条目)的形式,也可以是厂家介绍区205中使用分页207以显示更多条目的形式,还可以是产品知识区206中使用滚动条208以显示更多条目的形式。

本实施例的技术方案,通过获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息,基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序,并基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页,减少与用户搜索需求偏离较远的搜索条目,获得更加贴近用户搜索需求的搜索结果页,能够有效减少用户的二次筛选,提升用户的搜索体验。

在上述各实施例的基础上,上述方法还包括:依据所接收的搜索请求确定所述搜索关键词。

其中,搜索请求是用户通过网络使用网页浏览器访问搜索引擎服务器时输入的搜索查询,其可以是各种语言的字符中的一个或多个的组合,比如一个或多个较短的词语、一句较长的语句、数学表达式或化学式等。网络包括但不限于广域网、局域网和互联网等。网页浏览器安装在用户进行搜索时使用的搜索设备中,比如台式计算机、便携式计算机、平板计算机、掌上电脑PDA、智能手机、智能电视或GPS导航设备等其他具有网络搜索功能的设备。当前搜索关键词是从当前用户发出的搜索请求中抽取的搜索关键词。

通常情况下,用户进行信息搜索时输入的搜索查询形式多样,为了更好地进行信息搜索,一般需要对用户的搜索查询进行分词处理,具体的分词处理方法可以采用现有的分词处理方法,比如,基于字符串的分词方法、基于理解的分词方法、基于统计的分词方法或者基于语义的分词方法等。经过分词处理后可以获得至少一个搜索关键词。应当注意的是,这里的至少一个当前搜索关键词不仅包括对搜索查询进行拆分及去除辅助字符后得到的搜索关键词,还包括以下搜索关键词中的一个或多个:与该搜索查询意义相近的搜索关键词、根据该搜索查询所属的信息类别而确定的与该信息类别相关的搜索关键词、根据其他搜索查询与该搜索查询共同出现的概率确定的搜索关键词等。比如,搜索查询是“包子机的价格”,那么经过分词后直接获得的当前搜索关键词是“包子机”和“价格”,另外还应当包括“售价”、“价钱”、“卖家”或“产品介绍”中的一个或多个。这样,信息搜索系统的信息索引库就不必存储过多的无关关键词,节省存储空间;而运营商也不必为了提高投放信息的转化率而列举大量无关关键词,可以节省其运营成本。

实施例二

本实施例在上述各实施例的基础上,对S200进行具体说明及优化。

参见图3,本实施例二提供的搜索排序方法具体包括:

S100、获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息,执行S210、S221及S230中的任一个。

S210、基于搜索关键词特征、各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序,执行S300。

其中,搜索关键词特征是表征搜索关键词特性的参数,比如可以是搜索关键词的个数、搜索关键词的领域或搜索关键词的搜索频率等。

具体地,在获取候选区块及各候选区块的条目信息后,可以将搜索关键词特征、各候选区块的区块特征以及各条目信息的条目特征作为选择的排序模型的输入参数,由排序模型获得各候选区块的权重值以及各条目信息的权重值,并依据上述权重值对候选区块及各候选区块内的各条目信息进行排序,然后执行S300。

S221、确定所述搜索关键词的用户需求类型,执行S222。

其中,用户需求类型指的是依据用户的搜索关键词确定的泛需求或精需求的需求类型,比如用户的搜索关键词是“包子机”,由于没有更详细的信息,将其归于泛需求,而如果用户的搜索关键词是“包子机”和“价格”,那么其搜索需求就具体为“价格”,此类搜索就属于精需求。

具体地,根据用户的搜索关键词确定用户需求类型是精需求还是泛需求,然后执行S222。

S222、基于所述用户需求类型、各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序,执行S300。

具体地,在获取候选区块及各候选区块的条目信息后,可以将各候选区块的区块特征以及各条目信息的条目特征作为选择的排序模型的输入参数,由排序模型获得各候选区块的权重值以及各条目信息的权重值,并依据上述权重值对候选区块及各候选区块内的各条目信息进行排序,然后根据S221确定的用户需求类型对上述排序结果进行进一步地调整,以确定最终的排序。比如,当S221中确定的用户需求类型是泛需求时,保留上述排序;当S221中确定的用户需求类型是精需求时,将精需求相应地搜索关键词对应的候选区块排在所有区块的最前面,以使得搜索结果页中的结果更加贴近用户搜索需求,之后执行S300。

举例来说,如果用户需求类型是“价格”的精需求,而上述排序模型所得的排序中“价格”区块并不在第一位,那么就直接将“价格”区块赋予最大的权重值,将其排在其他候选区块的前面。

S230、利用预先训练的页面元素排序模型,基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序,执行S300。

其中,预先训练的页面元素排序模型预先利用诸如支持向量机、决策树或神经网络算法等机器学习算法对大量历史搜索关键词、备选区块和条目信息进行训练而建立的排序模型,模型的输出结果是每一个区块的权重值和/或每一个条目信息的权重值,模型的输入参数可以根据模型的训练数据和模型输出结果进行设置,比如区块/条目点击率、区块/条目转化率、区块/条目与关键词的匹配度或至少两个上述指标的综合结果等。

具体地,在获取候选区块及各候选区块的条目信息后,可以将各候选区块的区块特征以及各条目信息的条目特征作为预先训练的页面元素排序模型的输入参数,获得各候选区块的权重值及各候选区块内各条目信息的权重值,然后按照权重值的大小对候选区块及各候选区块内的各条目信息进行排序,之后执行S300。

S300、基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页。

需要说明的是,本实施例中S210、S221及S230除了上述的并列执行情况之外,还可以组合执行。比如,S210之后并不直接执行S300,而是执行S221和/或S230及其后续步骤;或者,考虑基于统计的排序模型的概率问题,在执行S230之后不直接执行S300,而执行S221及其后续步骤;又或者,在执行S221及S222之后也不直接执行S300,而是执行S210或S230及其后续步骤等等,对排序结果进行进一步地调整或确定,以保证最后的排序结果中是将用户最需要的信息排在最前面,且后续的排序结果具有确定的排序依据及可靠性。

本实施例的技术方案,通过获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息,然后基于搜索关键词特征、用户需求类型和预先训练的页面元素排序模型中的至少一种、各候选区块的区块特征以及各条目信息的条目特征对对所获取的候选区块以及各候选区块中的条目信息进行排序,并基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页,实现了在获取搜索结果页的过程中更多地考虑用户的搜索需求,以更加准确地对搜索结果进行排序,从而获得更加贴近用户搜索需求的搜索结果,提升用户的搜索体验。

在上述各实施例的基础上,上述区块特征包括区块点击率和区块转化率,上述条目特征包括条目点击率和条目转化率。

其中,点击率是对搜索结果满意程度的一种直接体现,一般说来,点击率越高的搜索结果条目,说明用户对该搜索结果条目的满意度越高。不过考虑到位置偏置问题(即条目点击率的大小与该条目在搜索结果页的排列位置的近似正比关系),本实施例还考虑了转化率,以点击率和转化率的综合结果作为一个条目的可靠性评价依据,这样可以减弱位置偏置问题带来的不利影响,使得生成的搜索结果页中的排序更加贴近用户需求。

实施例三

本实施例在上述各实施例的基础上,对上述的页面元素排序模型进行进一步介绍。

本发明各个实施例中提供的页面元素排序模型的训练数据是通过对用户行为日志进行特征抽取来获得的。例如,对每一条样本日志进行特征抽取,可以获得一条样本数据,表示为(x,y),其中x=(f1,f2,…,fn),其为抽取的特征,y=±1,其表示某种用户行为是否发生,比如转化或者点击是否发生,该行为发生则y为1,该行为不发生则y为-1。页面元素排序模型就是通过预测某种行为是否发生来确定输入参数x中每个特征的权重值。

参见图4a,本实施例三提供的页面元素排序模型是基于神经网络算法训练获得的四层前馈神经网络模型,其中:

第一层401是页面元素排序模型的输入特征参数,采用全连接的形式将其输入到第二层。这些输入特征参数至少包括候选区块、每一个候选区块的区块特征、每一个候选区块内的条目信息以及每一个条目信息的条目特征。

第二层402是隐含层1,采用ReLu(Rectified Linear Units)激活函数,对特征进行非线性组合变换,变换结果以全连接的形式输入到第三层。

第三层403是隐含层2,也采用ReLu激活函数对特征进行非线性组合变化,变换结果以全连接的形式输入到最后一层。

第四层404,即最后一层只有一个节点,其含义是某种用户行为发生的概率,也即区块权重值和/或条目权重值。这一层的激活函数采用sigmoid函数进行二值概率预测,预测函数如下:

其中,是预测值,w是损失权重值,x是输入特征参数的值。损失权重值w可以通过在训练样本集上对以下的损失函数L进行最小化的优化求解来获取:

通过将多个特征参数输入上述训练好的页面元素排序模型,就可以预测出某种用户行为是否发生及发生的概率,从而输出每一个待预测特征的综合的权重值。

示例性地,如图4b所示,保持上述各实施例中的页面元素排序模型的第二层402、第三次403及第四层404均不变,只是模型的第一层401′,即页面元素排序模型的输入特征参数除了上述提到的特征参数之外,还包括搜索关键词区块相似度、搜索关键词条目相似度、搜索关键词和候选区块的组合点击率、搜索关键词和候选区块的组合转化率、搜索关键词和条目信息的组合点击率及搜索关键词和条目信息的组合转化率中的至少一个。

其中,搜索关键词区块相似度是搜索关键词与候选区块之间的相似度,该相似度可以通过最大最小法、几何距离法、相关系数法或指数法等方法计算;搜索关键词条目相似度是搜索关键词与预设条目之间的相似度;搜索关键词和候选区块的组合点击率是在一定时间段内该搜索关键词下用户点击该候选区块的总次数除以用户的搜索查询中包含该搜索关键词的总次数,其可以通过搜索关键词和条目信息的组合点击率计算获得,比如将该区块内所有条目信息的组合点击率之和除以该区块内的条目信息总数;搜索关键词和候选区块的组合转化率是在一定时间段内该搜索关键词下该区块完成转化行为的总次数除以该搜索关键词下该区块出现的总次数,同样可以根据搜索关键词和条目信息的组合转化率获得;搜索关键词和条目信息的组合点击率是在一定时间段内该搜索关键词下用户点击该条目信息的总次数除以用户的搜索查询中包含该搜索关键词的总次数;搜索关键词和条目信息的组合转化率是在一定时间段内该搜索关键词下该条目信息完成转化行为的总次数除以该搜索关键词下该条目信息出现的总次数。上述特征参数的获取需要借助于历史用户行为数据,比如从历史用户行为数据中提取某一条目被点击的次数或某一条目完成转化的次数等。

这样设置的好处是在页面元素排序模型计算各个候选区块或条目信息的权重值的过程中,可以更多地考虑用户的搜索需求,使得与用户需求更加贴近的区块或条目的权重值更高,从而其在搜索结果页中的位置更加靠前,更加便于用户浏览,提高用户的搜索体验。

应当理解的是,上述两种输入特征参数的页面元素排序模型均可以根据网络用户的搜索日志中的行为数据进行定期更新。

本实施例的页面元素排序模型能够综合考虑较多的排序因素,使得区块权重值和条目权重值的获取更加准确,从而使得最终依据该区块权重值和条目权重值获得的搜索结果页更加能够满足用户搜索需求,提升用户搜索体验。

实施例四

本实施例以上述各实施例为基础,提供了一种优选实例,其中与上述任一实施例相同或相应的术语的解释在此不再赘述。

参见图5,在本优选实施例中,可以将整个实施过程分为两个部分:离线运行部分510及在线运行部分520,其中离线运行部分510指的是与当前用户的搜索行为无关,可以预先离线进行的部分;相对地,在线运行部分520指的是与当前用户的搜索行为密切相关的且实时连接网络进行的部分。

离线运行部分510总共包含2个部分。离线运行第一部分511,依据网络用户的搜索日志中的历史搜索关键词确定备选区块,依据网页内容理解确定条目信息,并对历史搜索关键词、备选区块及条目信息进行分析生成搜索关键词与各备选区块之间以及备选区块与搜索条目之间的映射关系,关于该映射关系的介绍详见实施例一的S100,然后由上述映射关系、备选区块及条目信息构成区块数据库。离线运行第三部分512,以历史用户行为数据、备选区块及条目信息为训练数据进行页面元素排序模型的训练,以得到页面元素排序模型524,有关该模型的介绍详见实施例三。

在线运行部分520是当前用户在线进行搜索查询时,本实施例的具体操作流程。首先接收用户的搜索请求521,通过对其进行分析获得搜索关键词522;根据该搜索关键词522及离线运行第一部分511获得的区块数据库确定搜索结果页中的候选区块及候选区块中的条目信息523。然后,候选区块及候选区块中的条目信息523进行特征提取,获得候选区块的区块特征和各条目信息的条目特征,并将之输入页面元素排序模型524,获得每一个候选区块的区块权重值和每一个条目信息的条目权重值525,之后依据用户需求类型及区块权重值对候选区块进行排序,并根据条目权重值对各候选区块中的条目信息进行排序,获得搜索结果页526,该搜索结果页是更加贴近用户搜索需求的搜索返回结果。

本实施例的技术方案详细介绍了本发明实施例的搜索排序方法的整个流程,其包含离线运行部分和在线运行部分,其中的离线运行部分为在线运行部分提供了数据和模型,在线运行部分利用其数据和模型更快且更加准确地为用户在线搜索提供搜索结果页,两部分互相配合以实现更加准确地对搜索结果进行排序,获得更加贴近用户搜索需求的搜索结果,提升用户的搜索体验。

实施例五

参见图6,本实施例五提供的一种搜索排序装置的结构示意图是以上述各实施例为基础,其中与上述任一实施例相同或相应的术语的解释在此不再赘述。该装置具体包括:

候选信息获取模块610,用于获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息;

排序模块620,用于基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序;

搜索结果页生成模块630,用于基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页。

可选地,候选信息获取模块610具体用于:从区块数据库中获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息,所述区块数据库中的条目信息按区块存储且各区块与搜索关键词相关联地存储。

可选地,在上述装置的基础上,该装置还包括:搜索关键词确定模块,用于依据所接收的搜索请求确定所述搜索关键词。

可选地,上述排序模块620具体用于:基于检索关键词特征、各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序。

可选地,在上述装置的基础上,该装置还包括:用户需求类型确定模块,用于确定所述搜索关键词的用户需求类型。

进一步地,上述排序模块620具体用于:基于所述用户需求类型、各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序。

可选地,上述区块特征包括区块点击率和区块转化率,上述条目特征包括条目点击率和条目转化率。

可选地,上述排序模块620还具体用于:利用预先训练的页面元素排序模型,基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序。

进一步地,上述页面元素排序模型的输入参数还包括:所述搜索关键词区块相似度、所述搜索关键词条目相似度、所述搜索关键词和所述候选区块的组合点击率、所述搜索关键词和所述候选区块的组合转化率、所述搜索关键词和所述条目信息的组合点击率及所述搜索关键词和所述条目信息的组合转化率中的至少一个。

通过本发明实施例五的一种搜索装置,实现了更加准确地对搜索结果进行排序,能够获得更加贴近用户搜索需求的搜索结果,提升用户的搜索体验。

本发明实施例所提供的搜索装置可执行本发明任意实施例所提供的搜索方法,具备执行方法相应的功能模块和有益效果。

实施例六

图7为本申请实施例六提供的设备的硬件结构示意图,如图7所示,该电子设备包括:

一个或多个处理器710,图7中以一个处理器710为例;

存储器720;

所述电子设备还可以包括:输入装置730和输出装置740。

所述电子设备中的处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。

存储器720作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的数据存储方法对应的程序指令/模块(例如,附图6所示的候选信息获取模块610、排序模块620和搜索结果页生成模块630)。处理器710通过运行存储在存储器720中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的搜索排序装置。

存储器720可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器720可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

也即:上述电子设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现时,进行如下操作:

获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息;

基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序;

基于排序后的候选区块以及各候选区块中的条目信息,生成搜索结果页。

示例性的,获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息可以包括:

从区块数据库中获取与搜索关键词匹配的候选区块以及各候选区块中的条目信息,所述区块数据库中的条目信息按区块存储且各区块与搜索关键词相关联地存储。

示例性的,所述方法还可以包括:

依据所接收的搜索请求确定所述搜索关键词。

示例性的,基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序可以包括:

基于搜索关键词特征、各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序。

示例性的,所述方法还可以包括:

确定所述搜索关键词的用户需求类型;

相应地,基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序可以包括:

基于所述用户需求类型、各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序。

示例性的,所述区块特征可以包括区块点击率和区块转化率,所述条目特征可以包括条目点击率和条目转化率。

示例性的,基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序可以包括:

利用预先训练的页面元素排序模型,基于各候选区块的区块特征以及各条目信息的条目特征,对所获取的候选区块以及各候选区块中的条目信息进行排序。

示例性的,所述页面元素排序模型的输入参数还可以包括:所述搜索关键词区块相似度、所述搜索关键词条目相似度、所述搜索关键词和所述候选区块的组合点击率、所述搜索关键词和所述候选区块的组合转化率、所述搜索关键词和所述条目信息的组合点击率及所述搜索关键词和所述条目信息的组合转化率中的至少一个。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1