基于搜索的热点推荐方法及装置与流程

文档序号:19155924发布日期:2019-11-16 00:46阅读:267来源:国知局
基于搜索的热点推荐方法及装置与流程

本发明实施例涉及互联网技术领域,尤其涉及一种基于搜索的热点推荐方法及装置。



背景技术:

在当今的互联网时代,信息呈现爆炸式增长。信息获取的便利性极大地改变了人们的生活方式,越来越多的用户已经习惯于通过互联网获取资讯。

在互联网搜索引擎中,用户可以通过关键词搜索资讯详情。在此过程中,通常根据用户查询的关键词的搜索量来衡量该关键词对应的热点的热度并排序生成热点榜单。该热点榜单能够反映当前最受关注的热点,便于用户及时快速了解当前热点。

然而,目前热点大多在社交媒体平台及信息流媒体平台率先爆发,而热点对应的关键词在搜索引擎中的反应的搜索量通常比较滞后,通过搜索量多少来对热点进行排序,无法向用户提供及时有效的热点榜单。



技术实现要素:

本发明实施例提供一种基于搜索的热点推荐方法及装置,以克服通过搜索量多少来对热点进行排序,无法向用户提供及时有效的热点榜单的问题。

第一方面,本发明实施例提供一种基于搜索的热点推荐方法,包括:

获取待排序的热点对应的关键词以及所述关键词的生成时间;

获取所述关键词对应的第一搜索量和第二搜索量,所述第一搜索量为所述关键词在当前时段的搜索量,所述第二搜索量是在前n个时段中的每个时段各自对应的所述关键词的搜索量中确定的最大搜索量,所述n为大于1的整数;

根据所述第一搜索量、所述第二搜索量、所述生成时间以及所述当前时间,确定所述待排序的热点的热度值;

根据所述待排序的热点的热度值,对所述待排序的热点进行排序并展示。

在一种可能的设计中,所述根据所述第一搜索量、所述第二搜索量、所述生成时间以及所述当前时间,确定所述待排序的热点的热度值,包括:

根据所述第一搜索量和第三搜索量,确定第一热度指数,其中,所述第三搜索量为所述关键词在前一时段的搜索量;

根据所述第二搜索量和所述第三搜索量,确定第二热度指数;

根据所述生成时间、所述当前时间以及第四搜索量,确定第三热度指数,所述第四搜索量为在所述当前时段中每个所述热点的关键词各自对应的搜索量中确定的最大搜索量;

根据所述第一热度指数、所述第二热度指数、所述第三热度指数以及所述第四搜索量,确定所述待排序的热点的热度值。

在一种可能的设计中,所述根据所述第一搜索量和所述关键词在前一时段的第三搜索量,确定第一热度指数,包括:

根据所述第一搜索量和所述第三搜索量,确定搜索变化量;

根据所述搜索变化量、所述第一搜索量和平滑函数确定所述第一热度指数。

在一种可能的设计中,所述根据所述第二搜索量和所述第三搜索量,确定第二热度指数,包括:

根据所述第二搜索量和所述第三搜索量,确定峰值变化量;

根据所述峰值变化量、所述第一搜索量和平滑函数确定所述第二热度指数。

在一种可能的设计中,所述根据所述生成时间、所述当前时间以及第四搜索量,确定第三热度指数,包括:

根据所述生成时间和所述当前时间,确定时间差值;

根据所述时间差值、所述第四搜索量和时间衰减系数,确定所述第三热度指数。

在一种可能的设计中,所述根据所述第一热度指数、所述第二热度指数、所述第三热度指数以及所述第四搜索量,确定所述待排序的热点的热度值,包括:

根据所述第一热度指数、所述第二热度指数以及所述第三热度指数,获取热度指数和值;

根据所述热度指数和值、所述第四搜索量和热度调节系数,确定所述待排序的热点的热度值。

在一种可能的设计中,所述根据所述待排序的热点的热度值,对所述待排序的热点进行排序并展示之后,还包括:

获取所述热点榜单中排名在预设排名之前的目标热点对应的关键词的热度特征;

将所述热度特征输入至点击率模型中,获取所述点击率模型输出的分类值,其中,所述分类值用于指示所述热度特征对应的点击率;

根据所述点击率模型输出的分类值,对所述目标热点重新排序,得到更新后的热点榜单。

在一种可能的设计中,所述将所述热度特征输入至点击率模型中,获取所述点击率模型输出的分类值之前,所述方法还包括:

获取历史热点榜单的点击率信息,所述点击率信息包括当前时间之前第一时长内各热点的第一点击率以及第二时长内各热点的第二点击率,所述第二时长位于所述第一时长之前,所述第二时长大于所述第一时长;

根据所述第二时长内的各热点的第二点击率和各热点对应的关键词的热度特征,得到训练样本;

根据所述第一时长内的各热点的第一点击率和各热点对应的关键词的热度特征,得到测试样本;

根据所述训练样本、所述测试样本对待训练的点击率模型进行训练,得到已训练的点击率模型。

第二方面,本发明实施例提供一种基于搜索的热点推荐装置,包括:

获取模块,用于获取待排序的热点对应的关键词以及所述关键词的生成时间;

获取模块,还用于获取所述关键词对应的第一搜索量和第二搜索量,所述第一搜索量为所述关键词在当前时段的搜索量,所述第二搜索量是在前n个时段中的每个时段各自对应的所述关键词的搜索量中确定的最大搜索量,所述n为大于1的整数;

确定模块,用于根据所述第一搜索量、所述第二搜索量、所述生成时间以及所述当前时间,确定所述待排序的热点的热度值;

排序模块,用于根据所述待排序的热点的热度值,对所述待排序的热点进行排序并展示。

在一种可能的设计中,所述确定模块具体用于:

根据所述第一搜索量和第三搜索量,确定第一热度指数,其中,所述第三搜索量为所述关键词在前一时段的搜索量;

根据所述第二搜索量和所述第三搜索量,确定第二热度指数;

根据所述生成时间、所述当前时间以及第四搜索量,确定第三热度指数,所述第四搜索量为在所述当前时段中每个所述热点的关键词各自对应的搜索量中确定的最大搜索量;

根据所述第一热度指数、所述第二热度指数、所述第三热度指数以及所述第四搜索量,确定所述待排序的热点的热度值。

在一种可能的设计中,所述确定模块具体用于:

根据所述第一搜索量和所述第三搜索量,确定搜索变化量;

根据所述搜索变化量、所述第一搜索量和平滑函数确定所述第一热度指数。

在一种可能的设计中,所述确定模块具体用于:

根据所述第二搜索量和所述第三搜索量,确定峰值变化量;

根据所述峰值变化量、所述第一搜索量和平滑函数确定所述第二热度指数。

在一种可能的设计中,所述确定模块具体用于:

根据所述生成时间和所述当前时间,确定时间差值;

根据所述时间差值、所述第四搜索量和时间衰减系数,确定所述第三热度指数。

在一种可能的设计中,所述确定模块具体用于:

根据所述第一热度指数、所述第二热度指数以及所述第三热度指数,获取热度指数和值;

在一种可能的设计中,所述排序模块还用于:

在所述根据所述待排序的热点的热度值,对所述待排序的热点进行排序并展示之后,获取所述热点榜单中排名在预设排名之前的目标热点对应的关键词的热度特征;

将所述热度特征输入至点击率模型中,获取所述点击率模型输出的分类值,其中,所述分类值用于指示所述热度特征对应的点击率;

根据所述点击率模型输出的分类值,对所述目标热点重新排序,得到更新后的热点榜单。

在一种可能的设计中,所述获取模块还用于:

在所述将所述热度特征输入至点击率模型中,获取所述点击率模型输出的分类值之前,获取历史热点榜单的点击率信息,所述点击率信息包括当前时间之前第一时长内各热点的第一点击率以及第二时长内各热点的第二点击率,所述第二时长位于所述第一时长之前,所述第二时长大于所述第一时长;

根据所述第二时长内的各热点的第二点击率和各热点对应的关键词的热度特征,得到训练样本;

根据所述第一时长内的各热点的第一点击率和各热点对应的关键词的热度特征,得到测试样本;

根据所述训练样本、所述测试样本对待训练的点击率模型进行训练,得到已训练的点击率模型。

第三方面,本发明实施例提供一种基于搜索的热点推荐设备,包括:

存储器,用于存储程序;

处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。

第四方面,本发明实施例提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上第一方面以及第一方面各种可能的设计中任一所述的方法。

本发明实施例提供一种基于搜索的热点推荐方法及装置,该方法包括:获取待排序的热点对应的关键词以及关键词的生成时间。获取关键词对应的第一搜索量和第二搜索量,第一搜索量为关键词在当前时段的搜索量,第二搜索量是在前n个时段中的每个时段各自对应的关键词的搜索量中确定的最大搜索量,n为大于1的整数。根据第一搜索量、第二搜索量、生成时间以及当前时间,确定待排序的热点的热度值。根据待排序的热点的热度值,对待排序的热点进行排序并展示。通过结合关键词对应的第一搜索量和第二搜索量确定关键词对应的热点的热度值,从而能够基于搜索并结合热点的当前状态和热度趋势得到其热度值,并根据热点的热度值对热点进行排序从而得到热度榜单,从而避免了仅根据实时的搜索量确定导致的无法向用户提供及时有效的热点榜单,提升了热点榜单的准确性和有效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于搜索的热点推荐方法的系统示意图;

图2为本发明实施例提供的基于搜索的热点推荐方法的流程图一;

图3为本发明实施例提供的基于搜索的热点推荐方法的流程图二;

图4为本发明实施例提供的基于搜索的热点推荐方法的流程图三;

图5为本发明实施例提供的基于搜索的热点推荐装置的结构示意图;

图6为本发明实施例提供的基于搜索的热点推荐设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的基于搜索的热点推荐方法的系统示意图,如图1所示,该系统包括:终端设备101以及服务器102;

其中,终端设备101上例如可以运行有浏览器,用户可通过浏览器进行热点的搜索或者相关信息的获取,或者还可以通过终端设备101上安装的搜索引擎的客户端进行上述操作,示例性的,终端设备101例如可以是计算机设备、平板电脑或移动电话(或称为“蜂窝”电话)等,终端设备101还可以是便携式、袖珍式、手持式、计算机内置的移动装置或设备,此处不做特别限制。

其中,服务器102用于根据终端设备101发送的搜索信息对热点数据进行处理,对热点进行排序得到热点榜单,并将热点榜单通过终端设备101呈现给用户,以使得用户能够快速获取到当前的热点信息。

其中,终端设备101与服务器101进行交互,其中交互的方式例如可以通过有线网络,该有线网络例如可以包括同轴电缆、双绞线和光纤等,其中交互的方式还例如可以是无线网络,该无线网络可以是2g网络、3g网络、4g网络或者5g网络、无线保真(wirelessfidelity,简称wifi)网络等。本发明实施例对交互的具体类型或者具体形式并不做限定,只要其能够实现服务器和终端交互的功能即可。

通常,在互联网搜索引擎中,热点榜单的生成存在以下三种方式:

1)基于热点源新闻资讯阅读量或话题互动量等数据加权计算分值并排序,从热点事件源头直接定义事件热度和排序规则。

然而,这种方案适合用于资讯话题类的热点榜单的生成,在基于搜索引擎的热搜榜单中不适合采取这种分值计算及排序规则。

2)基于榜单展现及点击数据排序,由于新发生的热点对应关键词没有搜索量,采取轮展的方式在生成的榜单中随机或固定位插入相应的关键词,并将展现点击数据应用在下一轮排序中。

然而,这种随机或在固定位插入新词的方案,其热度分值计算不合理,也无法有效地反应事件热度和用户对事件的关注度。

3)根据用户查询的关键词的搜索量来衡量该关键词对应的热点的热度并排序生成热点榜单

然而,目前热点大多在社交媒体平台及信息流媒体平台(如社区类平台、新闻类平台等)率先爆发,而热点对应的关键词在搜索引擎中的反应的搜索量通常比较滞后,若仅仅根据关键词的实时搜索量的大小进行热点的排序,新发生的热点事件显然无法及时上榜,旧的热点事件也很可能会长时间在榜单上停留,则容易产生“马太效应”,即热度较高、排序靠前的热点事件因为越来越受到用户的关注而持续霸榜,而排序靠后的事件因无法受到关注而一直靠后,则导致无法向用户提供及时有效的热点榜单。

基于上述问题,本发明实施例提供一种基于搜索的热点推荐方法,下面结合具体的实施例进行详细说明,首先结合图2进行介绍,图2为本发明实施例提供的基于搜索的热点推荐方法的流程图一,如图2所示,该方法包括:

s201、获取待排序的热点对应的关键词以及关键词的生成时间。

在本实施例中,每个热点均对应有关键词,其中关键词可以理解为热点的缩略,其可以简单明了的反映热点所包括的信息,在终端设备向用户提供热点榜单的时候实际上也是将热点对应的关键词显示在热点榜单上,当用户点击该关键词即可获取到该关键词对应的热点的详细信息。

例如当前存在一热点的详细信息为“据不完全统计,截至目前,已有21个省份确定了2019年退休人员基本养老金上调方案,总体调整水平将是2018年养老金的5%左右。”,其对应的关键词可以是“2019全国多地养老金上调”,本领域技术人员可以理解,每个热点对应的关键词可以为根据热点的详细信息自动生成的,还可以为人为设置的。

在一种可能的实现方式中,数据库中可以存储有已经挖掘出来的热点对应的关键词,因此可以直接从数据库中获取待排序的热点对应的关键词,其中,每个关键词还对应有生成时间,其实关键词的生成时间可以为关键词的审核通过时间,可以理解的是,所有的平台在热点榜单中显示关键词之前,会首先对关键词进行审核,其中审核可以为人工审核或者自动审核等,当审核通过之后,将审核通过的时间作为关键词的生成时间并与关键词关联存储,在获取关键词的同时可以获取到关键词的生成时间。

s202、获取关键词对应的第一搜索量和第二搜索量,第一搜索量为关键词在当前时段的搜索量,第二搜索量是在前n个时段中的每个时段各自对应的关键词的搜索量中确定的最大搜索量,n为大于1的整数。

具体的,用户在搜索引擎的平台上进行搜索会生成搜索日志,其中搜索日志记录了平台用户的相关搜索信息,如搜索内容、搜索时间等,本实施例根据关键词在搜索日志中进行匹配,当关键词出现在搜索日志中,则该关键词的搜索量加1,从而获取关键词对应的第一搜索量和第二搜索量。

在本实施例中,可以将时间划分为多个时段,其中时段的划分例如可以为根据预设时长划分的,如将5分钟作为一个时段,或者时段的划分还可以为随机划分的,本实施例对此不作限制,通过获取不同时段的搜索日志与关键词进行匹配,从而能够得到关键词在各个时段的搜索量,其中第一搜索量为关键词在当前时段的搜索量,第二搜索量为在前n个时段中的每个时段各自对应的关键词的搜索量中确定的最大搜索量,n为大于1的整数。

以n是3为例进行说明,则前3个时段可以是第一时段、第二时段和第三时段,假设第一时段对应的关键词的搜索量为20,第二时段对应的关键词的搜索量为30,第三时段对应的关键词的搜索量为25,则第二搜索量即为第二时段对应的搜索量30。

s203、根据第一搜索量、第二搜索量、生成时间以及当前时间,确定待排序的热点的热度值。

其中,若是仅仅根据实时搜索量的大小确定热点榜单,则会导致无法向用户提供及时有效的热点榜单,因此本实施例引入了第二搜索量,其中第二搜索量反映了关键词的历史峰值搜索量,可以指示热点的热度趋势,而第一搜索量反映了当前时段内的搜索量,可以指示热点的当前状态。

因此根据第一搜索量、第二搜索量、生成时间以及当前时间,以确定待排序的热点的热度值,从而能够有效根据热点的当前状态和热度趋势得到热度值,而不仅仅是根据实时搜索量的大小确定热度值。

在一种可能的实现方式中,可以根据第一搜索量、第二搜索量、生成时间以及当前时间,可以确定关键词的搜索量在一段时间内的变化率,以及搜索量的峰值搜索量在一段时间内的变化率,从而将变化率作为热点的热度的衡量指标,得到待排序的热点的热度值。

s204、根据待排序的热点的热度值,对待排序的热点进行排序并展示。

在一种可选的实现方式中,例如可以按照热度值从大到小的顺序对待排序的热点进行排序;或者,还可以根据用户需求按照从小到大的顺序(或者其他可能的顺序)进行排序,并对排序的热点进行展示。

或者,还可以按照热度值的大小选择排序在前的预设数量个热点从而得到排序的热点,本实施例对获取热点榜单的具体实现方式不做限定,只要其能够是根据待排序的热点的热度值得到的,并且能够有效反映热点的热度情况即可。

本发明实施例提供的基于搜索的热点推荐方法,包括:获取待排序的热点对应的关键词以及关键词的生成时间。获取关键词对应的第一搜索量和第二搜索量,第一搜索量为关键词在当前时段的搜索量,第二搜索量是在前n个时段中的每个时段各自对应的关键词的搜索量中确定的最大搜索量,n为大于1的整数。根据第一搜索量、第二搜索量、生成时间以及当前时间,确定待排序的热点的热度值。根据待排序的热点的热度值,对待排序的热点进行排序并展示。通过结合关键词对应的第一搜索量和第二搜索量确定关键词对应的热点的热度值,从而能够结合基于搜索并热点的当前状态和热度趋势得到其热度值,并根据热点的热度值对热点进行排序从而得到热度榜单,从而避免了仅根据实时的搜索量确定导致的无法向用户展示及时有效的热点榜单,提升了热点榜单的准确性和有效性。

在上述实施例的基础上,下面结合图3对本发明实施例提供的基于搜索的热点推荐方法进行进一步地详细介绍,图3为本发明实施例提供的基于搜索的热点推荐方法的流程图二,如图3所示,该方法包括:

s301、获取待排序的热点对应的关键词以及关键词的生成时间。

s302、获取关键词对应的第一搜索量和第二搜索量,第一搜索量为关键词在当前时段的搜索量,第二搜索量是在前n个时段中的每个时段各自对应的关键词的搜索量中确定的最大搜索量,n为大于1的整数。

其中,s301、s302的实现方式与s201、s202的类似,此处不再赘述

s303、根据第一搜索量和第三搜索量,确定搜索变化量,其中,第三搜索量为关键词在前一时段的搜索量。

其中,第三搜索量是指关键词在相对于当前时段而言的前一时段的搜索量,根据关键词在当前时段的第一搜索量和在前一时段的第三搜索量,可以确定关键词的变化率,其中确定搜索变化率的实现方式可以参见如下公式一:

其中,main_pv为第一搜索量,pre_pv为第三搜索量,main_pv_change为搜索变化量。

上述公式一的含义是,当关键词在前一时段的第三搜索量为0时(可能是新的热点),则关键词的搜索变化量即为关键词在当前时段的第一搜索量,当关键词在前一时段的第三搜索量不为0时,则关键词的搜索变化量即为在两个时段之间的搜索量变化率。

s304、根据搜索变化量、第一搜索量和平滑函数确定第一热度指数。

其中确定第一热度指数的实现方式可以参见如下公式二:

index1=main_pv*ln(1+(1+main_pv_change))公式二

其中,main_pv为第一搜索量,main_pv_change为搜索变化量,index1为第一热度指数,ln(…)为平滑函数。

在上述公式二中,通过设置平滑函数对搜索变化率进行处理,能够避免某关键词的搜索变化率过高时导致的该关键词的整体热度值过高,从而出现热度居高不下持续霸榜的情况。

本实施例中的第一热度指数为根据关键词在当前时段的第一搜索量和在前一时段的第三搜索量确定的,通过结合当前时段的第一搜索量和前一段时间的第三搜索量的变化率以及平滑函数确定第一热度指数,从而使得第一热度指数可以反映该关键词对应的热点的当前状态,避免出现已经存在于热点榜单中的热点长时间存在的情况。

s305、根据第二搜索量和第三搜索量,确定峰值变化量。

其中峰值变化量可以用于指示最大搜索量的变化率,其实现方式可以参见如下公式三:

其中,peak_pv为第二搜索量,pre_pv为第三搜索量,peak_pv_change为峰值变化量。

公式三的含义与公式一类似,不同之处在于,公式三计算得到的峰值变化量反映的是在前n个时段中的每个时段各自对应的关键词的搜索量中确定的最大搜索量的变化量,通过确定最大搜索量的变化量,从而可以确定该关键词的热度的变化趋势。

s306、根据峰值变化量、第一搜索量和平滑函数确定第二热度指数。

其中第二热度指数的实现方式可以参见如下公式四:

index2=main_pv*ln(1+(1+peak_pv_change))公式四

其中,main_pv为第一搜索量,peak_pv_change为峰值变化量,ln(…)为平滑函数。

其中平滑函数的作用于公式二中的相同,此处不再赘述,本实施例中的第二热度指数为根据关键词在前n个时段的搜索量中为最大的第二搜索量和前一时段的第三搜索量确定的,通过结合第二搜索量和第三搜索量的变化率以及平滑函数确定第二热度指数,从而使得第二热度指数能够反映该关键词对应的热点的峰值的状态,以指示该热点的热度趋势。

s307、根据生成时间和当前时间,确定时间差值。

s308、根据时间差值、第四搜索量和时间衰减系数,确定第三热度指数,第四搜索量为在当前时段中每个热点的关键词各自对应的搜索量中确定的最大搜索量。

其中,对于一个新的关键词来说,因为该关键词对应的热点才刚刚出现,因此其在搜索引擎中不会反映出来,则新的关键词的各个搜索量是不存在或者非常低的,其出现在热点榜单中同样也是非常困难的,因此本实施例通过获取当前时段中每个热点的关键词各自对应的搜索量中最大的搜索量作为第四搜索量,并且结合时间差值、第四搜索量和时间衰减系数得到第三热度指数,从而能够赋予新的关键词一个相对较大的热度,使得其能够快速进入热点榜单。

具体的,确定第三热度指数的实现方式可以参见如下公式五:

index3=max_pv*αδt公式五

其中,δt为时间差值,α…为时间衰减系数,max_pv为第四搜索量,index3为第三热度指数。

上述公式四通过结合时间衰减系数对当前时段中搜索量最大的关键词的第四搜索量进行处理,从而赋予新的关键词一个相对较大的热度,起到在搜索引擎中对新的关键词预热的效果,避免新的关键词的热度无法快速提升的问题,此处先假设时间衰减次数为1来说明问题,其中新的关键词的搜索量较低,而公式五就相当于是将当前时段搜索量最高的关键词的搜索量(第四搜索量)作为新的关键词的一个第三热度指数从而进行后续计算以有效提升新的关键词的热度值。

并且在一段时间之后,新的关键词的热度可能比较高了,则由于时间衰减系数的处理,能够使得该新的关键词随着时间的推移渐渐退出榜单,以有效的避免某些热点对应的关键词长期存在于热点榜单中,并且能够使得新的关键词有效上榜,其中时间衰减系数可以用来调整热度值,反应热点的热度时效态,在一种可能的实现方式中,时间衰减系数的范围为0<α<1。

s309、根据第一热度指数、第二热度指数以及第三热度指数,获取热度指数和值。

s310、根据热度指数和值、第四搜索量和热度调节系数,确定待排序的热点的热度值。

在本实施例中,第一热度指数、第二热度指数以及第三热度指数分别从不同的维度反映了关键词的热度指数,其中第一热度指数能够反映关键词对应的热点的当前状态,第二热度指数能够反映关键词对应的热点的变化趋势,第三热度指数能够使得新的关键词获取一个较大的热度值,因此结合第一热度指数、第二热度指数和第三热度指数共同确定待排序的热点的热度值,从而有效提升热度值的准确性。

具体的,首先将第一热度指数、第二热度指数以及第三热度指数进行加和处理,从而得到热度指数和值,其次根据热度指数和值、第四搜索量和热度调节系数,确定待排序的热点的热度值,其实现方式可以参见如下公式六:

其中,index1为第一热度指数,index2为第二热度指数,index3为第三热度指数,则(index1+index2+index3)即为热度指数和值,α和β为调节热度值数量级大小范围的系数,max_pv为第四搜索量,final_index为热度值。

通过根据热度指数和值、第四搜索量和热度调节系数,确定待排序的热点的热度值,同时通过α和β为调节热度值数量级大小范围,能够使得待排序的热点的热度值与一段时间内的搜索量相符合(因为是根据搜索量确定的,并且通过α和β进行调节),使得热度值的大小合适,不至于太高也不至于太低。

本领域技术人员可以理解,上述介绍的各个公式并非对各个参数的实现方式的限定,各个公式可以根据实际需求进行替换,如平滑函数和时间衰减系数均可以根据实际需求进行选择,而不局限于上述方式。

下面举例进行说明,假设关键词a在当前时段的第一搜索量为30,第二搜索量是80,其中第二搜索量是在前n个时段中的每个时段各自对应的关键词的搜索量中确定的最大搜索量,前一时段的第三搜索量为10,第四搜索量为40,其中第四搜索量是在当前时段中每个热点的关键词各自对应的搜索量中确定的最大搜索量,从关键词a的各个搜索量可以看出关键词a对应的热点是已经存在的热点,并且该热点的热度在慢慢降低。

则根据公式一可以确定关键词a的搜索变化量为2,同时根据公式二可以确定关键词a的第一热度指数为41.58;根据公式三可以确定关键词a的峰值变化量为7,同时根据公式四可以确定关键词a的第二热度指数为65.92;并且,为方便说明问题,假设时间衰减系数以及α和β均为1,则根据公式五可以确定关键词a的第三热度指数为40,最终根据公式六可以确定关键词a对应的热点的热度值为23.32。

下面以关键词a所在时段的下一时段出现的新的关键词b进行对比介绍,假设关键词b所在的当前时段的第一搜索量为80,第二搜索量是10,前一时段的第三搜索量为10,第四搜索量为80,从关键词b的各个搜索量可以看出关键词b在前一时段才刚开始出现搜索量,并且从前一时段到当前时段的搜索量在快速升高,则可以确定关键词b对应的热点是一个新出现的热点,并且热度不断升高。

则根据公式一可以确定关键词b的搜索变化量为7,同时根据公式二可以确定关键词b的第一热度指数为175.77;根据公式三可以确定关键词b的峰值变化量为7,同时根据公式四可以确定关键词b的第二热度指数为55.45;同样为方便说明问题,假设时间衰减系数以及α和β均为1,则根据公式五可以确定关键词b的第三热度指数为80,最终根据公式六可以确定关键词b对应的热点的热度值为34.8。

可以看出已经是热点并且热度在降低所对应的关键词a的热度值会降低,而新出现的关键词并且热度在升高的关键词b的热度是相对较高的,因此本实施例通过上述步骤能够使得热点榜单有效的根据搜索量反映出热点的热度情况。

值得说明的是,上述举例说明中为方便计算是将时间衰减系数以及α和β均设置为1进行说明的,在实际实现的过程中,时间衰减系数能够保证新的关键词在已开始出现时分配到较大的热度值,但是随着时间的推移,新的关键词的热点也会逐渐衰减,从而避免了旧的热点的热度值在很长一段时间内都比较高的情况,同时α和β能够有效改变热度值的取值范围,从而能够将热度值的范围限定在需要的范围内,其均可以根据实际需求进行设置,此处不再赘述。

s311、根据待排序的热点的热度值,对待排序的热点进行排序并展示。

其中,s311的实现方式与s204类似,此处不再赘述。

本发明实施例提供的基于搜索的热点推荐方法,包括:获取待排序的热点对应的关键词以及关键词的生成时间。获取关键词对应的第一搜索量和第二搜索量,第一搜索量为关键词在当前时段的搜索量,第二搜索量是在前n个时段中的每个时段各自对应的关键词的搜索量中确定的最大搜索量,n为大于1的整数。根据搜索变化量、第一搜索量和平滑函数确定第一热度指数。根据第二搜索量和第三搜索量,确定峰值变化量。根据峰值变化量、第一搜索量和平滑函数确定第二热度指数。根据生成时间和当前时间,确定时间差值。根据时间差值、第四搜索量和时间衰减系数,确定第三热度指数,第四搜索量为在当前时段中每个热点的关键词各自对应的搜索量中确定的最大搜索量。根据第一热度指数、第二热度指数以及第三热度指数,获取热度指数和值。根据热度指数和值、第四搜索量和热度调节系数,确定待排序的热点的热度值。根据待排序的热点的热度值,对待排序的热点进行排序并展示。通过确定第一热度指数反映关键词的当前状态,以及确定第二热度指数反映关键词的热度趋势,以及确定第三热度指数使得新的关键词对应的热度能够分配到一个较大的热度值,并且结合第一热度指数、第二热度指数和第三热度指数,以及第四搜索量和热度调节系数,确定待排序的热点的热度值,从而使得热点的热度值能够在反映搜索量的同时,能够及时进行新旧热点的更替,以保证热点榜单的有效性。

在上述实施例的基础上,本发明实施例提供的基于搜索的热点推荐方法在获取到热点榜单之后,还能够根据点击率模型对热点榜单进行更新,从而使得更新后的热点榜单能够更加准确的贴合用户的点击情况,下面结合图4进行介绍,图4为本发明实施例提供的基于搜索的热点推荐方法的流程图三。

如图4所示,该方法还包括:

s401、获取热点榜单中排名在预设排名之前的目标热点对应的关键词的热度特征。

在本实施例中,关键词的热度特征可以为上述实施例中介绍的各个参数,如上述实施例中介绍的第一热度指数、第二热度指数、第三热度指数、第一搜索量、第二搜索量等,此处不再赘述。

因为页面中可以展示的关键词数量有限,因此可以仅对排名比较靠前的热点的热度值进行更新,从而提升处理效率,当前热点榜单是已经对待排序的热点进行排序过了的,因此可以直接根据热点榜单的顺序获取排名在预设排名之前的目标热点,例如可以选择排名为前50的热点榜单进行调整。

s402、获取历史热点榜单的点击率信息,点击率信息包括当前时间之前第一时长内各热点的第一点击率以及第二时长内各热点的第二点击率,第二时长位于第一时长之前,第二时长大于第一时长。

其中历史热点榜单为当前时刻之前的热点榜单,例如可以获取历史热点榜单的用户点击日志,从而获取历史热点榜单的点击率信息,其中点击率信息包括当前时间之前第一时长内各热点的第一点击率以及第二时长内各热点的第二点击率。

例如可以将当前时间之前的2~49小时作为第一时长,将当前时间之前的1个小时作为第二时长,从而分别获取在第一时长和第二时长内的各热点的点击率,其中第一时长和第二时长的具体实现方式可以根据实际需求进行选择,只要第二时长位于第一时长之前,第二时长大于第一时长即可。

s403、根据第二时长内的各热点的第二点击率和各热点对应的关键词的热度特征,得到训练样本。

s404、根据第一时长内的各热点的第一点击率和各热点对应的关键词的热度特征,得到测试样本。

具体的,可以将第二时长内的各热点的第二点击率作为训练集,则根据第二点击率和各热点对应的关键词的热度特征从而得到训练样本;并且,可以将第一时长内的各热点的第一点击率作为测试集,则根据第一时长内的各热点的第一点击率和各热点对应的关键词的热度特征从而得到测试样本。

值得说明的是,在进行模型训练时,各热点对应的关键词的热度特征出上述实施例介绍的热度特征之外,还可以包括第五搜索量和全部变化量,其中第五搜索量为在当前时段内搜索引擎的总的搜索量,其中全部变化量是根据第五搜索量和第三搜索量确定的,其确定的实现方式可参照如下公式七:

其中,all_pv为第五搜索量,pre_pv为第二搜索量,all_pv_change为全部变化率。

将第五变化量和全部变化率同样作为热度特征进行模型的训练,能够提升模型预测的准确性和全面性。

s405、根据训练样本、测试样本对待训练的点击率模型进行训练,得到已训练的点击率模型。

在一种可能的实现方式中,根据用户点击日志中记录的历史热点榜单的点击率信息,可以将存在用户点击的热点对应的关键词作为正样本,而不存在用户点击的热点对应的关键词可以作为负样本,例如可以将正样本对应的标识记录为1,将负样本对应的标识记录为0。

其中,将训练样本作为模型的输入首先对模型进行训练,其中训练样本中包括第二时长内各热点的第二点击率和各热点对应的关键词的热度特征,其中模型根据第二点击率和关键词的热度特征作为输入进行学习,从而实现对模型的训练,在根据训练样本训练模型的过程中,模型是可以明确训练样本是正样本还是负样本的。

其次,在根据训练样本对模型训练完成之后,可以根据测试样本接着对模型进行训练,其中点击率模型根据各热点对应的关键词的热度特征进行处理,从而输出对于该测试样本为正样本还是负样本的预测结果(例如可以为0-1之间的数值),其中第一点击率可以指示测试样本为正样本(1)还是负样本(0),点击率模型根据第一点击率的指示和预测结果进行调整和学习从而不断的训练模型,提升其输出结果的准确性。

在一种可选的实现方式中,例如可以以极端梯度提升(extremegradientboosting,xgboost)为分类器,通过pairwise的方法对点击率模型进行训练,从而得到已训练的点击率模型,模型的具体训练方法可以参照现有技术中任一种可能的实现方式,此处不再赘述。

s406、将热度特征输入至点击率模型中,获取点击率模型输出的分类值,其中,分类值用于指示热度特征对应的点击率。

在点击率模型训练完成之后,将获取的目标热点对应的关键词的热度特征作为点击率模型的输出,在点击率模型处理之后输出分类值,其中分类值可以用于指示目标热点的热度状态,其中分类值例如可以为0-1之间的数值,其具体取决于点击率模型的设置,此处对此不做限定。

s407、根据点击率模型输出的分类值,对目标热点重新排序,得到更新后的热点榜单。

在点击率模型对各个目标热点进行处理之后,各个目标热点均对应各自的分类值,例如可以为0.9、0.87等等的数值,其次根据该分类值从小到大的顺序对目标热点重新排序,从而得到更新后的热点榜单。

在本实施例中,更新后的热点榜单即考虑了初始排序的热点榜单,同时还结合用户的点击率对榜单进行排序,从而使得点击率较多的热点在热点榜单中的排名比较靠前,从而能够更加及时的反映热点的状态。

本发明实施例提供的基于搜索的热点推荐方法,包括:获取热点榜单中排名在预设排名之前的目标热点对应的关键词的热度特征。获取历史热点榜单的点击率信息,点击率信息包括当前时间之前第一时长内各热点的第一点击率以及第二时长内各热点的第二点击率,第二时长位于第一时长之前,第二时长大于第一时长。根据第二时长内的各热点的第二点击率和各热点对应的关键词的热度特征,得到训练样本。根据第一时长内的各热点的第一点击率和各热点对应的关键词的热度特征,得到测试样本。根据训练样本、测试样本对待训练的点击率模型进行训练,得到已训练的点击率模型。将热度特征输入至点击率模型中,获取点击率模型输出的分类值。根据点击率模型输出的分类值,对目标热点重新排序,得到更新后的热点榜单。通过根据点击率信息对点击率模型进行训练,从而使得点击率模型能够有效准确输出点击率对应的分类结果,其次根据点击率模型对热点榜单进行处理输出分类值,并根据分类值更新热点榜单的排序,从而使得热点榜单能够结合点击率信息进行排序,从而更加准确的反映出热点的热度情况。

图5为本发明实施例提供的基于搜索的热点推荐装置的结构示意图。如图5所示,该装置50包括:获取模块501、确定模块502以及排序模块503。

获取模块501,用于获取待排序的热点对应的关键词以及所述关键词的生成时间;

获取模块501,还用于获取所述关键词对应的第一搜索量和第二搜索量,所述第一搜索量为所述关键词在当前时段的搜索量,所述第二搜索量是在前n个时段中的每个时段各自对应的所述关键词的搜索量中确定的最大搜索量,所述n为大于1的整数;

确定模块502,用于根据所述第一搜索量、所述第二搜索量、所述生成时间以及所述当前时间,确定所述待排序的热点的热度值;

排序模块503,用于根据所述待排序的热点的热度值,对所述待排序的热点进行排序并展示。

在一种可能的设计中,所述确定模块502具体用于:

根据所述第一搜索量和第三搜索量,确定第一热度指数,其中,所述第三搜索量为所述关键词在前一时段的搜索量;;

根据所述第二搜索量和所述第三搜索量,确定第二热度指数;

根据所述生成时间、所述当前时间以及第四搜索量,确定第三热度指数,所述第四搜索量为在所述当前时段中每个所述热点的关键词各自对应的搜索量中确定的最大搜索量;

根据所述第一热度指数、所述第二热度指数、所述第三热度指数以及所述第四搜索量,确定所述待排序的热点的热度值。

在一种可能的设计中,所述确定模块502具体用于:

根据所述第一搜索量和所述第三搜索量,确定搜索变化量;

根据所述搜索变化量、所述第一搜索量和平滑函数确定所述第一热度指数。

在一种可能的设计中,所述确定模块502具体用于:

根据所述第二搜索量和所述第三搜索量,确定峰值变化量;

根据所述峰值变化量、所述第一搜索量和平滑函数确定所述第二热度指数。

在一种可能的设计中,所述确定模块502具体用于:

根据所述生成时间和所述当前时间,确定时间差值;

根据所述时间差值、所述第四搜索量和时间衰减系数,确定所述第三热度指数。

在一种可能的设计中,所述确定模块502具体用于:

根据所述第一热度指数、所述第二热度指数以及所述第三热度指数,获取热度指数和值;

在一种可能的设计中,所述排序模块503还用于:

在所述根据所述待排序的热点的热度值,对所述待排序的热点进行排序并展示之后,获取所述热点榜单中排名在预设排名之前的目标热点对应的关键词的热度特征;

将所述热度特征输入至点击率模型中,获取所述点击率模型输出的分类值,其中,所述分类值用于指示所述热度特征对应的点击率;

根据所述点击率模型输出的分类值,对所述目标热点重新排序,得到更新后的热点榜单。

在一种可能的设计中,所述获取模块501还用于:

在所述将所述热度特征输入至点击率模型中,获取所述点击率模型输出的分类值之前,获取历史热点榜单的点击率信息,所述点击率信息包括当前时间之前第一时长内各热点的第一点击率以及第二时长内各热点的第二点击率,所述第二时长位于所述第一时长之前,所述第二时长大于所述第一时长;

根据所述第二时长内的各热点的第二点击率和各热点对应的关键词的热度特征,得到训练样本;

根据所述第一时长内的各热点的第一点击率和各热点对应的关键词的热度特征,得到测试样本;

根据所述训练样本、所述测试样本对待训练的点击率模型进行训练,得到已训练的点击率模型。

本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。

图6为本发明实施例提供的基于搜索的热点推荐设备的硬件结构示意图,如图6所示,本实施例的基于搜索的热点推荐设备60包括:处理器601以及存储器602;其中

存储器602,用于存储计算机执行指令;

处理器601,用于执行存储器存储的计算机执行指令,以实现上述实施例中基于搜索的热点推荐方法所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选地,存储器602既可以是独立的,也可以跟处理器601集成在一起。

当存储器602独立设置时,该基于搜索的热点推荐设备还包括总线603,用于连接所述存储器602和处理器601。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上基于搜索的热点推荐设备所执行的基于搜索的热点推荐方法。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。

应理解,上述处理器可以是中央处理单元(英文:centralprocessingunit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digitalsignalprocessor,简称:dsp)、专用集成电路(英文:applicationspecificintegratedcircuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速ram存储器,也可能还包括非易失性存储nvm,例如至少一个磁盘存储器,还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(industrystandardarchitecture,isa)总线、外部设备互连(peripheralcomponent,pci)总线或扩展工业标准体系结构(extendedindustrystandardarchitecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1