搜索关键词推荐模型生成方法、关键词推荐方法与装置与流程

文档序号:21201515发布日期:2020-06-23 19:22阅读:217来源:国知局
搜索关键词推荐模型生成方法、关键词推荐方法与装置与流程

本公开的实施例一般地涉及信息搜索技术领域,并且更具体地,涉及一种搜索关键词推荐模型生成方法、关键词推荐方法与装置。



背景技术:

搜索是互联网应用中常见的功能,用户通过搜索可以主动地获取所需的信息。通常,在用户浏览文章或发起搜索的过程中,应用系统会通过搜索推荐预测用户搜索行为以向用户推荐关键词,从而缩短搜索路径,同时一定程度激发用户的搜索需求。然而传统的搜索推荐词都是从相关性和点击率(ctr,click-through-rate)两个角度来构建推荐系统,即仅考虑两个关键词之间的文本相关性和预测用户的点击率,然而该方案推荐的关键词并不能很好地满足搜索用户的真实需求,由于低质虚假关键词可能更吸引点击,基于预测点击率也会产生很多推荐质量问题。



技术实现要素:

为此,根据本公开的实施例,提供了一种搜索关键词推荐模型生成方法、关键词推荐方法与装置,通过结合用户浏览、搜索等关联行为的信息推荐搜索关键词,能够更为准确地满足用户搜索需求,降低搜索成本。

在本公开的第一方面,提供了一种搜索关键词推荐模型生成方法,包括:

获取多个用户的第一搜索行为记录和/或第二搜索行为记录,所述第一搜索行为记录包括浏览的内容和浏览后搜索的关键词,所述第二搜索行为记录包括连续搜索的关键词和所述关键词之间的搜索顺序;

根据所述第一搜索行为记录生成内容与关键词之间的第一关联关系和/或根据所述第二搜索行为记录生成关键词之间的第二关联关系;

根据所述第一关联关系和/或第二关联关系生成关键词推荐模型。

进一步地,所述根据所述第一搜索行为记录生成内容与关键词之间的第一关联关系包括:

从所述第一搜索行为记录中提取浏览的内容和浏览所述内容后搜索的关键词;

计算所述内容和所述关键词的相关性;

根据所述相关性大于或等于第一阈值的内容和关键词生成所述第一关联关系。

进一步地,所述根据所述第二搜索行为记录生成关键词之间的第二关联关系包括:

从所述第二搜索行为记录中提取连续搜索的关键词组成多条关键词链路;

计算每条所述关键词链路的分值;

根据所述分值大于或等于第二阈值的关键词链路生成所述第二关联关系。

进一步地,所述根据所述第一关联关系和/或第二关联关系生成关键词推荐模型包括:

获取基于相关性和/或点击率(ctr)先验的关键词推荐排序;

根据所述第一关联关系和/或第二关联关系计算所推荐的关键词的后验得分;

根据所述后验得分调整所述关键词推荐排序,得到所述关键词推荐模型。

进一步地,所述第一搜索行为记录和第二搜索行为记录还包括搜索结果的查看信息。

在本公开的第二方面,提供了一种搜索关键词推荐方法,包括:

获取用户请求浏览的内容或当前搜索的关键词;

将所述内容或关键词输入关键词推荐模型,得到一个或多个推荐的关键词,所述关键词推荐模型为根据第一方面所述的方法生成的;

发送所述推荐的关键词以在所述用户的终端界面上呈现。

在本公开的第三方面,提供了一种搜索关键词推荐模型生成装置,包括:

获取模块,用于获取多个用户的第一搜索行为记录和/或第二搜索行为记录,所述第一搜索行为记录包括浏览的内容和浏览后搜索的关键词,所述第二搜索行为记录包括连续搜索的关键词和所述关键词之间的搜索顺序;

关联关系生成模块,用于根据所述第一搜索行为记录生成内容与关键词之间的第一关联关系和/或根据所述第二搜索行为记录生成关键词之间的第二关联关系;

模型生成模块,用于根据所述第一关联关系和/或第二关联关系生成关键词推荐模型。

在本公开的第四方面,提供了一种搜索关键词推荐装置,包括:

获取模块,用于获取用户请求浏览的内容或当前搜索的关键词;

推荐模块,用于将所述内容或关键词输入关键词推荐模型,得到一个或多个推荐的关键词,所述关键词推荐模型为根据第一方面所述的方法生成的;

发送模块,用于发送所述推荐的关键词以在用户的终端界面上呈现。

在本公开的第五方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如第一方面或第二方面所述的方法。

在本公开的第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面或第二方面所述的方法。

本公开实施例通过考虑用户搜索和查看过程中的“看后搜”(浏览内容后又去搜索关键词)和“搜后搜”(搜索关键词后又搜索其它关键词)信息生成搜索关键词推荐模型以推荐搜索关键词,能够更加精准地满足用户真实的搜索需求,从而切实有效地缩短搜索路径、降低搜索成本,进而改善用户体验,提升信息流和搜索用户的使用粘性;通过计算内容与关键词之间的相关性以及连续检索的关键词链路的分值,能够排除随机产生的搜索意图等不反映用户真实搜索需求的情况,保证生成的内容和搜索词之间的关联关系以及搜索词之间的关联关系更加准确、置信;通过采用所述关联关系作为后验目标对原有关键词推荐排序模型进行优化,能够与其它关键词推荐目标较好地融合。

应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:

图1示出了根据本公开第一实施例的搜索关键词推荐模型生成方法的流程示意图;

图2示出了根据本公开第二实施例的搜索关键词推荐模型生成方法的流程示意图;

图3示出了根据本公开第三实施例的搜索关键词推荐方法的流程示意图;

图4示出了根据本公开实施例的应用场景示意图;

图5示出了根据本公开第四实施例的搜索关键词推荐模型生成装置的结构示意图;

图6示出了根据本公开第五实施例的搜索关键词推荐装置的结构示意图图;

图7示出了能够实施本公开实施例的示例性电子设备的方框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。

另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

用户在使用应用程序时,为了获得所需信息所进行的操作通常是包括多个行为的过程。该过程可能包括多个搜索行为,用户会从搜索一个关键词延伸到多个关键词,这些延伸的路径,反映了大量用户从一个关键词处衍生的搜索需求,即搜完一个关键词后,通过其他关键词更好补充搜索需求。该过程也可能包括用户的查看行为和搜索行为,用户会在浏览信息流推荐文章等内容的过程中,产生一些搜索需求,即看到某些内容而产生了联想,并搜索与所述内容相关的关键词,进而浏览更多的相关信息。以上两种“看后搜”(浏览内容后又去搜索关键词)和“搜后搜”(搜索关键词后又搜索其它关键词)的行为能够反映用户真实的搜索意图,若结合这些行为的信息推荐搜索关键词,则能够更好地满足用户搜索需求。

为此,本公开的第一实施例提供了一种搜索关键词推荐模型生成方法,该方法的流程如图1所示,包括:

s101、获取多个用户的第一搜索行为记录和/或第二搜索行为记录,所述第一搜索行为记录包括浏览的内容和浏览后搜索的关键词,所述第二搜索行为记录包括连续搜索的关键词和所述关键词之间的搜索顺序。

当使用应用程序的用户进行浏览、搜索等行为时,信息流内用户的行为信息被记录在后台数据库中,形成海量用户的搜索行为记录。所述第一搜索行为记录即“看后搜”的记录,例如用户浏览了某篇文章,又去搜索某个关键词,通过记录大量用户的该类行为,可以体现出所浏览的文章等内容和搜索的关键词之间的链接关系。

所述第二搜索行为记录即“搜后搜”的记录,例如用户在搜索完一个关键词后,又去搜索另一个关键词,通过记录大量用户的该类行为,可以从用户真实搜索需求的角度体现关键词与关键词之间的链接关系。

可选地,第一搜索行为记录中的所述关键词为用户浏览完成后在设定的第一时间窗口内搜索的关键词,以排除大部分与浏览内容无关的搜索行为,保证所记录的浏览内容和关键词的相关性。可选地,第二搜索行为记录中的连续搜索的关键词之间的时间间隔小于设定的第二时间窗口,以排除搜索意图无关的两次搜索行为的关键词,减少后续处理的数据量。所述时间窗口的长度根据用户操作用时的经验值设定,例如第一时间窗口为1分钟,第二时间窗口为2分钟。

s102、根据所述第一搜索行为记录生成内容与关键词之间的第一关联关系和/或根据所述第二搜索行为记录生成关键词之间的第二关联关系。

可选地,从第一搜索行为记录中提取大量用户浏览的内容和浏览后搜索的关键词,针对每个内容确定关联的关键词,生成第一关联关系,所述第一关联关系中包括每个内容与相应的一个或多个关键词的组合。从第二搜索行为记录中提取大量用户连续搜索的关键词和关键词之间的搜索顺序,将在前搜索的关键词与在后搜索的关键词建立链接,生成关键词之间的第二关联关系,所述第二关联关系中包括相关联的多个关键词的组合。

可选地,为了归因用户浏览内容后才产生的联想进而发起搜索,该步骤包括计算所浏览的内容和浏览后搜索关键词的相关性;为了归因用户基于同一搜索需求而发生的连续搜索,该步骤包括计算连续搜索的关键词组成的关键词链路的得分,从而排除一些用户随机产生的搜索意图,保证内容和关键词的链接关系以及多个关键词的链接关系更加准确、置信。

s103、根据所述第一关联关系和/或第二关联关系生成关键词推荐模型。

其中,基于原有的关键词排序模型,融入“看后搜”和“搜后搜”的后验目标,在单纯依靠相关性和ctr先验的排序模型基础上,结合了上述第一关联关系和/或第二关联关系进行优化,得到新的关键词推荐模型,其排序目标如下:相关性*ctr*(1+用户真实后验行为得分),其中所述“用户真实后验行为得分”是基于第一关联关系和/或第二关联关系对所述相关性和ctr的排序结果进行后验计算得到的。

本公开上述实施例通过考虑用户搜索和查看过程中的“看后搜”和“搜后搜”信息生成关键词推荐模型,能够更加精准地满足用户真实的搜索需求,从而切实有效地缩短搜索路径、降低搜索成本,进而提升信息流和搜索用户的使用粘性。

本公开的第二实施例提供了一种搜索关键词推荐模型生成方法,在该实施例中,根据第一搜索行为记录和第二搜索行为记录生成关键词推荐模型。该方法的流程如图2所示,包括:

s201、获取多个用户的第一搜索行为记录和第二搜索行为记录,所述第一搜索行为记录包括浏览的内容和浏览后搜索的关键词,所述第二搜索行为记录包括连续搜索的关键词和所述关键词之间的搜索顺序。

s202、从所述第一搜索行为记录中提取浏览的内容和浏览所述内容后搜索的关键词。

s203、计算所述内容和所述关键词的相关性。

其中,可以通过关键词匹配、语义分析等方式计算内容和关键词之间的相关性,并以数值方式表示,从而针对每个内容与关键词的链接关系得到其相关性的数值。

s204、根据相关性大于或等于第一阈值的内容和关键词生成第一关联关系。

其中,将所计算得到的相关性与预设的第一阈值进行比较,筛除小于第一阈值的关键词,保留大于或等于第一阈值的内容及相应的搜索关键词,根据所保留的内容及关键词生成第一关联关系。例如根据记录的数据,用户在浏览了某篇关于周杰伦新专辑的文章后,又检索了“说好不哭”、“wontcry”、“五月天阿信”、“周杰”,经过相关性计算,该文章与“周杰”的相关性较低,关键词“周杰”被筛除,则生成的第一关联关系可表示为“文章标识——>(说好不哭,wontcry,五月天阿信)”。

s205、从所述第二搜索行为记录中提取连续搜索的关键词组成多条关键词链路。

s206、计算每条所述关键词链路的分值。

其中,所述分值是通过对搜索行为记录的数据进行挖掘、清洗、归一化处理后,根据预设的标准计算得出的,所述分值能够体现关键词链路中的连续搜索的关键词之间的关联程度,例如根据链路的指向和检索的频次确定不同关键词链路的分值,相同指向的链路数量越多,链路被检索的频次越高,则相应的分值越高。

s207、根据所述分值大于或等于第二阈值的关键词链路生成所述第二关联关系。

其中,将所计算得到的分值与预设的第二阈值进行比较,筛除小于第二阈值的关键词链路,保留大于或等于第二阈值的关键词链路,根据所保留的关键词链路生成第二关联关系。例如根据记录的数据,用户检索完“周杰伦新专辑”,又检索了“说好不哭”、“wontcry”、“五月天阿信”、“周杰”,基于链路指向和检索频次,“周杰伦”与“周杰”这一关键词链路的分值较低而被筛除,则生成的第一关联关系可表示为“周杰伦新专辑——>说好不哭”、“周杰伦新专辑——>wontcry”和“周杰伦新专辑——>五月天阿信”。

s208、获取基于相关性和/或点击率(ctr)先验的关键词推荐排序。

其中,所述关键词推荐排序是由基于相关性和/或点击率(ctr)先验的排序模型生成的。

s209、根据所述第一关联关系和/或第二关联关系计算所推荐的关键词的后验得分。

s210、根据所述后验得分调整所述关键词推荐排序,得到所述关键词推荐模型。

当应用所述关键词推荐模型时,将按照所调整的排序由高至低地输出所推荐的关键词。可选地,所述模型推荐的关键词数量不大于预设阈值,以避免影响用户的搜索体验。

该实施例中,在步骤s201后,并行地执行下述步骤s202-s204和s205-s207。可选地,步骤s202-s204和s205-s207也可以顺序地执行,且其执行的先后顺序可以互换。作为本公开可选的实施例,也可以仅根据第一搜索行为记录或者仅根据第二搜索行为记录生成搜索关键词推荐模型,其流程在此不再赘述。

可选地,所述第一搜索行为记录和第二搜索行为记录还包括每次搜索关键词后的搜索结果的查看信息。进一步地,在生成第一关联关系和/或第二关联关系的步骤中,还基于所述搜索结果的查看信息筛选浏览内容后搜索的关键词或连续搜索的关键词,例如仅保留查看了搜索结果的搜索行为的关键词。

本公开的上述实施例通过计算内容与关键词之间的相关性以及连续检索的关键词链路的分值,能够排除随机产生的搜索意图等不反映用户真实搜索需求的情况,保证生成的内容和搜索词之间的关联关系以及搜索词之间的关联关系更加准确、置信;通过采用所述关联关系作为后验目标对原有关键词推荐排序模型进行优化,能够与其它关键词推荐目标较好地融合。

本公开的第三实施例提供了一种搜索关键词推荐方法,如图3所示,包括:

s301、获取用户请求浏览的内容或当前搜索的关键词。

其中,当用户在终端界面上点击内容的链接(例如文章标题)时,终端向服务器发送浏览请求消息,服务器从所述浏览请求消息中获取用户请求浏览的内容;当用户在终端界面的搜索框中输入关键词并触发搜索功能时,终端向服务器搜索请求消息,服务器从所述搜索请求消息中获取当前搜索的关键词。

s302、将所述内容或关键词输入关键词推荐模型,得到一个或多个推荐的关键词。

其中,所述关键词推荐模型为根据第一或第二实施例所述的方法生成的。所推荐的关键词的数量不大于预设阈值。

s303、发送所述推荐的关键词以在用户的终端界面上呈现。

可选地,服务器根据浏览请求消息获取所请求浏览的内容页面,或者根据搜索请求消息生成搜索结果页面,将所述推荐的关键词嵌入所请求浏览的内容页面或者搜索结果页面,发送至用户终端,从而在用户的终端界面上呈现所推荐的关键词。本公开实施例通过应用根据上述方法生成的关键词推荐模型,能够在用户浏览或搜索操作时推荐更加精准满足用户需求的关键词,从而缩短搜索路径、降低搜索成本。

下面结合图4对上述实施例进行说明。图4(a)示出了在用户浏览内容时推荐关键词的场景,在该场景中,当用户在终端应用程序中请求浏览文章时,服务端获取当前要浏览的文章,将所述内容的标识输入根据上述实施例的方法预先生成的关键词推荐模型,得到所推荐的多个关键词,将所推荐的关键词发送至用户的终端以呈现在文章正文结尾之后。图4(b)示出了在用户进行关键词搜索时的场景,在该场景中,用户在搜索框中输入关键词并进行搜索,服务端获取所述关键词并将其输入根据上述实施例的方法预先生成的关键词推荐模型,得到所推荐的多个关键词,将所推荐的关键词发送至用户的终端以呈现在搜索结果页面中。

本公开的第四实施例提供了一种搜索关键词推荐模型生成装置,该装置的结构如图5所示,包括:

获取模块510,用于获取多个用户的第一搜索行为记录和/或第二搜索行为记录,所述第一搜索行为记录包括浏览的内容和浏览后搜索的关键词;所述第二搜索行为记录包括连续搜索的关键词和所述关键词之间的搜索顺序。

关联关系生成模块520,用于根据所述第一搜索行为记录生成内容与关键词之间的第一关联关系和/或根据所述第二搜索行为记录生成关键词之间的第二关联关系。

模型生成模块530,用于根据所述第一关联关系和/或第二关联关系生成关键词推荐模型。

本公开实施例的装置通过考虑用户搜索和查看过程中的“看后搜”和“搜后搜”信息推荐搜索关键词,能够更加精准地满足用户真实的搜索需求,从而切实有效地缩短搜索路径、降低搜索成本,进而提升信息流和搜索用户的使用粘性。

可选地,所述生成模块520包括:

第一提取单元521,用于从所述第一搜索行为记录中提取浏览的内容和浏览所述内容后搜索的关键词;

第一计算单元522,用于计算所述内容和所述关键词的相关性;

第一生成单元523,用于根据所述相关性大于或等于第一阈值的内容和关键词生成所述第一关联关系;

第二提取单元524,用于从所述第二搜索行为记录中提取连续搜索的关键词组成多个关键词链路;

第二计算单元525,用于计算所述关键词链路的分值;

第二生成单元526,用于根据所述分值大于或等于第二阈值的关键词链路生成所述第二关联关系。

可选地,所述推荐模块530包括:

排序获取单元531,用于获取基于相关性和/或点击率(ctr)先验的关键词推荐排序;

计算单元532,用于根据所述第一关联关系和/或第二关联关系计算所推荐的关键词的后验得分;

排序调整单元533,用于根据所述后验得分调整所述关键词推荐排序。

本公开的第五实施例提供了一种搜索关键词推荐装置,该装置的结构如图6所示,包括:

获取模块601,用于获取用户正在浏览的内容或当前搜索的关键词;

推荐模块602,用于将所述内容或关键词输入关键词推荐模型,得到一个或多个推荐的关键词,所述关键词推荐模型为根据第一方面所述的方法生成的;

发送模块603,用于发送所述推荐的关键词以在用户的终端界面上呈现。

本公开实施例的装置能够在用户浏览或搜索操作时推荐更加精准满足用户需求的关键词,从而缩短搜索路径、降低搜索成本。

本公开的实施例还提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现参照图1~3任一所述的方法。进一步地,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现参照图1~3任一所述的方法。图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。如图所示,设备700包括中央处理单元(cpu)701,其可以根据存储在只读存储器(rom)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序指令,来执行各种适当的动作和处理。在ram703中,还可以存储设备700操作所需的各种程序和数据。cpu701、rom702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。

设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元701执行上文所描述的各个方法和处理。例如,在一些实施例中,方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram703并由cpu701执行时,可以执行上文描述的方法的一个或多个步骤。备选地,在其他实施例中,cpu701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1