搜索处理方法、生成搜索结果排序模型的方法和装置制造方法

文档序号:6636371阅读:167来源:国知局
搜索处理方法、生成搜索结果排序模型的方法和装置制造方法
【专利摘要】本发明实施例提供了一种搜索处理方法、生成搜索结果排序模型的方法和装置,其中搜索处理方法包括:接收用户的搜索词;根据所述搜索词获取多个搜索结果条目;提取所述用户的用户模型数据,所述用户模型数据包括所述用户的多个用户特征的值;以所述搜索结果条目和所述多个用户特征的值作为输入,从搜索结果排序模型获取每个搜索结果条目的影响权重;根据所述影响权重对所述搜索结果条目进行排序;发送经过排序的搜索结果条目。通过本发明实施例的搜索处理方法、生成搜索结果排序模型的方法和装置,能够使搜索结果更符合用户的搜索偏好和习惯,提高了搜索结果与用户需求的匹配度。
【专利说明】搜索处理方法、生成搜索结果排序模型的方法和装置

【技术领域】
[0001]本发明涉及自然语言处理【技术领域】,尤其涉及一种搜索处理方法、生成搜索结果排序模型的方法和装置。

【背景技术】
[0002]随着互联网应用的发展,搜索处理技术也日渐成熟。然而,现有的搜索应用对搜索结果的处理较为随意,仅仅考虑了搜索结果与搜索词的相关性。
[0003]例如,用户输入“疑犯追踪”这个搜索词进行搜索,在得到的搜索结果中排序第一的是该部电视剧的播放链接,排序第二的是该部电视剧的百科介绍。
[0004]对已了解该部电视剧或是有过观看历史的用户来说,他们的需求是找到播放链接,但还存在未了解过该部电视剧的用户,他们的需求是电视剧介绍,在运用现有的搜索处理技术输出的搜索结果中,排序第一的是播放链接,而这样的搜索结果并不符合这类用户的搜索偏好和习惯。


【发明内容】

[0005]本发明实施例的目的在于,提供一种搜索处理方法、生成搜索结果排序模型的方法和装置,从而使得搜索结果更符合用户的搜索偏好和习惯,提高搜索结果与用户需求的匹配度。
[0006]为实现上述发明目的,本发明的实施例提供了一种搜索处理方法,包括:接收用户的搜索词;根据所述搜索词获取多个搜索结果条目;提取所述用户的用户模型数据,所述用户模型数据包括所述用户的多个用户特征的值;以所述搜索结果条目和所述多个用户特征的值作为输入,从搜索结果排序模型获取每个搜索结果条目的影响权重;根据所述影响权重对所述搜索结果条目进行排序;发送经过排序的搜索结果条目。
[0007]本发明的实施例还提供了一种搜索处理装置,包括:用户搜索词接收模块,用于接收用户的搜索词;搜索结果条目获取模块,用于根据所述搜索词获取多个搜索结果条目;用户模型数据提取模块,用于提取所述用户的用户模型数据,所述用户模型数据包括所述用户的多个用户特征的值;影响权重获取模块,用于以所述搜索结果条目和所述多个用户特征的值作为输入,从搜索结果排序模型获取每个搜索结果条目的影响权重;搜索结果条目排序模块,用于根据所述影响权重对所述搜索结果条目进行排序;搜索结果条目发送模块,用于发送经过排序的搜索结果条目。
[0008]本发明的实施例还提供了一种生成搜索结果排序模型的方法,包括:以多个用户特征参数作为训练特征建立点击调权模型;获取至少一个用户的多个用户特征的特征值;以所述多个用户特征的特征值以及一组训练样本对所述点击调权模型进行训练,以学习各个用户特征的值对搜索结果条目排序的影响权重。
[0009]本发明的实施例还提供了一种生成搜索结果排序模型的装置,包括:点击调权模型建立模块,用于以多个用户特征参数作为训练特征建立点击调权模型;特征值获取模块,用于获取至少一个用户的多个用户特征的特征值;影响权重学习模块,用于以所述多个用户特征的特征值以及一组训练样本对所述点击调权模型进行训练,以学习各个用户特征的值对搜索结果条目排序的影响权重。
[0010]本发明实施例提供的搜索处理方法、生成搜索结果排序模型的方法和装置,通过结合预先建立的用户模型数据以及训练好的点击调权模型数据,对用户的对搜索结果条目进行排序,从而使得搜索结果更符合用户的搜索偏好和习惯,提高搜索结果与用户需求的匹配度。

【专利附图】

【附图说明】
[0011]图1为本发明实施例一的生成搜索结果排序模型的方法的流程示意图;
[0012]图2为本发明实施例二的搜索处理方法的流程示意图;
[0013]图3为本发明实施例二的搜索处理方法的应用场景示意图之一;
[0014]图4为本发明实施例二的搜索处理方法的应用场景示意图之二 ;
[0015]图5为本发明实施例三的搜索处理装置的结构示意图;
[0016]图6为本发明实施例四的生成搜索结果排序模型的装置的结构示意图。

【具体实施方式】
[0017]本发明的基本构思是,结合多个用户特征以及搜索结果标注数据训练点击调权模型;根据获取的搜索结果条目以及搜索用户的多个用户特征值,通过预先建立的用户模型以及训练的点击调权模型获得每个搜索结果条目的影响权重,再依据该影响权重对搜索结果条目进行排序,使得搜索结果更符合用户的搜索偏好和习惯,提高了搜索结果与用户需求的匹配度。
[0018]下面结合附图对本发明实施例一种搜索处理方法、生成搜索结果排序模型的方法和装置进行详细描述。
[0019]实施例一
[0020]图1为本发明实施例一的生成搜索结果排序模型的方法的流程示意图。所述生成搜索结果排序模型的方法包括如下步骤:
[0021]步骤11:以多个用户特征参数作为训练特征建立点击调权模型。
[0022]步骤12:获取至少一个用户的多个用户特征的特征值。
[0023]所述用户特征可包括,但不限于,以下至少一个:搜索结果重复点击、站点偏好、用户性别、年龄、职业、求职意向、所在地、兴趣点、消费意图、消费能力、旅游意图、健康状况和孕婴状况。
[0024]根据本发明的示例性实施例,可从预先建立的用户模型数据库获取至少一个用户的多个用户特征的特征值。稍后将具体描述用户模型的建立和使用。
[0025]步骤13:以多个用户特征的特征值以及一组训练样本对点击调权模型进行训练,以学习各个用户特征的值对搜索结果条目排序的影响权重。
[0026]具体的,可以将多个用户特征的特征值和一组训练样本作为点击调权模型的输入,其中,训练样本可以为从至少一个用户的搜索历史数据获取并标注的训练样本。每个训练样本可包括历史搜索词、用户搜索点击记录以及标注的点击满意度数据。各个用户特征的值对搜索结果条目排序的影响权重作为点击调权模型的输出,基于上述机器学习的方法生成搜索结果排序模型。
[0027]通过该生成搜索结果排序模型的方法,可结合用户特征和用户的搜索结果标注数据来训练搜索结果排序模型,从而学习的影响权重可反映用户的搜索偏好和习惯,有助于提高搜索结果与用户需求的匹配度。
[0028]实施例二
[0029]图2为本发明实施例二的搜索处理方法的流程示意图。可在例如搜索引擎服务器上执行所述方法。所述方法包括如下步骤:
[0030]步骤21:接收用户的搜索词。
[0031]所述搜索词可以是从客户端发送的搜索词。例如,用户在浏览器搜索引擎界面上输入“疑犯追踪”进行搜索,浏览器应用将所述搜索词发送给搜索引擎服务器。
[0032]步骤22:根据搜索词获取多个搜索结果条目。
[0033]搜索引擎服务器可使用搜索词利用现有的搜索技术(例如,从预先编制的网页索弓I)获取到多个搜索结果条目。
[0034]步骤23:提取用户的用户模型数据,所述用户模型数据包括用户的多个用户特征的值。
[0035]具体的,根据本发明的构思,可通过对用户访问日志来为每个已有用户建立用户模型。每个用户的用户模型数据包括用户的多个用户特征的值。如前所述,所述用户特征可包括,但不限于,以下至少一个:搜索结果重复点击、站点偏好、用户性别、年龄、职业、求职意向、所在地、兴趣点、消费意图、消费能力、旅游意图、健康状况和孕婴状况。
[0036]以“站点偏好”这一用户特征为例说明用户模型数据的挖掘过程。从用户网络访问日志(例如时长90天)中,可以统计用户对搜索结果点击的网站是否有特别的偏好,挖掘方法是与同样搜索词下的其他用户对搜索结果的点击进行对比,比如同样的搜索词,大部分用户点击的搜索结果属于X网站,而少量用户点击的搜索结果属于Y网站,统计每个用户所有的点击偏好结果,得到每个用户对于每个网站的偏好。具体来说,也就是挖掘出那些“很多搜索词下点击的都不是大众点击结果,而是偏好于点某个特定网站”的用户,比如同样是大量搜索电影名的搜索词,大部分用户点击结果可能是百科、爱奇艺、搜狐高清等,而有些用户习惯于搜索电影名后点击豆瓣网。
[0037]再以“消费意图”为例说明用户模型数据的挖掘过程。首先是建立消费意图识别模型的过程:从各用户的历史行为日志中筛选出设定消费领域的相关行为日志,基于相关行为日志进行行为模式分析,确定对应购买前行为的行为日志和对应购买后行为的行为日志,从确定的行为日志中选择满足训练数据筛选条件的行为日志作为训练样本,从中提取特征训练分类模型,得到设定消费领域对应的消费意图识别模型。其次是识别消费意图的过程:确定待识别用户的消费领域,利用确定的消费领域对应的消费意图识别模型,对近一段时间内待识别用户的相关行为日志进行分类,得到待识别用户的消费意图是购买前或购买后。在中国专利申请201310301375.7中公开了前述以消费意图为用户特征挖掘用户模型数据的技术。
[0038]此外,还有多种现有技术可用于建立所述用户模型。
[0039]步骤24:以搜索结果条目和多个用户特征的值作为输入,从搜索结果排序模型获取每个搜索结果条目的影响权重。在前述的实施例一中已描述了所述搜索结果排序模型的训练。
[0040]步骤25:根据获取的影响权重对搜索结果条目进行排序。
[0041]在步骤24中获取每个搜索结果条目的影响权重之后,就可以根据影响权重对搜索结果条目进行加权得到每个搜索结果条目对应的得分,再根据得分对多个搜索结果条目进行排序,最终得到经过排序的搜索结果条目。
[0042]步骤26:发送经过排序的搜索结果条目。
[0043]通过本实施例的搜索处理方法,可以依据搜索结果条目和多个用户特征的值获得每个搜索结果条目的影响权重,再根据该影响权重对搜索结果条目进行排序,从而使得搜索结果更符合用户的搜索偏好和习惯,提高了搜索结果与用户需求的匹配度。
[0044]下面结合两个具体的应用场景,来进一步说明一下本发明实施例的具体应用。
[0045]图3为本发明实施例二的搜索处理方法的应用场景示意图之一,这是针对多次搜索电视剧名称打开播放链接的用户发送的经排序的搜索结果条目,体现了“搜索结果重复点击”这一用户特征对搜索结果排序的影响。如图3所示,排序在第一位的搜索结果条目是疑犯追踪这部电视剧的播放链接,因为对于已了解该部电视剧或是有过观看历史的用户来说,他们对这个搜索词的结果需求就是找到播放链接,运用本实施例的搜索处理方法最终发送的经过排序的搜索结果条目对他们来说是最符合的。
[0046]再例如,图4为本发明实施例二的搜索处理方法的应用场景示意图之二,这是针对多次搜索小说名字都不是看小说而是进入贴吧的用户。体现了 “站点偏好”这一用户特征对搜索结果排序的影响。从图4可以看到,排序在第一位的搜索结果条目是“大主宰”这部小说的贴吧链接,在对用户历史行为数据挖掘分析后发现,有部分用户搜索“大主宰”这个词只是为了进入“大主宰”贴吧与网友进行聊天以及对这部小说作评论或交流,因此对于这类不是以看小说内容为目标的用户来说,运用本实施例的搜索处理方法可将大主宰贴吧的结果提前到第一位,更好得满足用户需求。
[0047]以上举例说明的应用场景是应用于PC端的搜索应用中,同样本实施例的搜索处理方法还可应用于移动端的搜索应用中。
[0048]实施例三
[0049]图5为本发明实施例三的搜索处理装置的结构示意图。如图5所示,所述搜索处理装置包括:
[0050]用户搜索词接收模块31,用于接收用户的搜索词。
[0051]搜索结果条目获取模块32,用于根据搜索词获取多个搜索结果条目.
[0052]用户模型数据提取模块33,用于提取用户的用户模型数据,用户模型数据包括用户的多个用户特征的值。
[0053]所述用户特征可包括以下至少一个:搜索结果重复点击、站点偏好、用户性别、年龄、职业、求职意向、所在地、兴趣点、消费意图、消费能力、旅游意图、健康状况和孕婴状况。
[0054]影响权重获取模块34,用于以搜索结果条目和多个用户特征的值作为输入,从搜索结果排序模型获取每个搜索结果条目的影响权重。
[0055]搜索结果条目排序模块35,用于根据影响权重对搜索结果条目进行排序。
[0056]搜索结果条目发送模块36,用于发送经过排序的搜索结果条目。
[0057]通过该搜索处理装置,可以依据搜索结果条目和多个用户特征的值获得每个搜索结果条目的影响权重,再根据该影响权重对搜索结果条目进行排序,从而使得搜索结果更符合用户的搜索偏好和习惯,提高了搜索结果与用户需求的匹配度。
[0058]可选地,该搜索处理装置还包括:点击调权模型训练模块,用于使用多个标注的训练样本对多个用户特征进行点击调权模型训练。
[0059]所述训练样本可包括历史搜索词、用户搜索点击记录以及点击满意度。
[0060]实施例四
[0061]图6为本发明实施例四的生成搜索结果排序模型的装置的结构示意图。如图6所示,所述生成搜索结果排序模型的装置包括:
[0062]点击调权模型建立模块41,用于以多个用户特征参数作为训练特征建立点击调权模型。所述用户特征可包括以下至少一个:搜索结果重复点击、站点偏好、用户性别、年龄、职业、求职意向、所在地、兴趣点、消费意图、消费能力、旅游意图、健康状况和孕婴状况。
[0063]特征值获取模块42,用于获取至少一个用户的多个用户特征的特征值。
[0064]优选地,特征值获取模块42用于从预先建立的用户模型数据库获取所述至少一个用户的多个用户特征的特征值。
[0065]影响权重学习模块43,用于以多个用户特征的特征值以及一组训练样本对点击调权模型进行训练,以学习各个用户特征的值对搜索结果条目排序的影响权重。每个训练样本可包括历史搜索词、用户搜索点击记录以及标注的点击满意度数据。进一步地,训练样本为从至少一个用户的搜索历史数据获取并标注的训练样本。
[0066]通过该生成搜索结果排序模型的装置,能够生成搜索结果排序模型,利用该模型对现有的搜索结果进行排序,从而使得经过排序的搜索结果更符合用户的搜索偏好和习惯,提高了搜索结果与用户需求的匹配度。
[0067]在本发明所提供的几个实施例中,应该理解到,所公开的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0068]另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0069]上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory, RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0070]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
【权利要求】
1.一种搜索处理方法,其特征在于,所述方法包括: 接收用户的搜索词; 根据所述搜索词获取多个搜索结果条目; 提取所述用户的用户模型数据,所述用户模型数据包括所述用户的多个用户特征的值; 以所述搜索结果条目和所述多个用户特征的值作为输入,从搜索结果排序模型获取每个搜索结果条目的影响权重; 根据所述影响权重对所述搜索结果条目进行排序; 发送经过排序的搜索结果条目。
2.根据权利要求1所述的方法,其特征在于,所述用户特征包括以下至少一个:搜索结果重复点击、站点偏好、用户性别、年龄、职业、求职意向、所在地、兴趣点、消费意图、消费能力、旅游意图、健康状况和孕婴状况。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括: 使用多个标注的训练样本对多个用户特征进行搜索结果排序模型训练。
4.根据权利要求3所述的方法,其特征在于,所述训练样本包括历史搜索词、用户搜索点击记录以及点击满意度。
5.一种生成搜索结果排序模型的方法,其特征在于,所述方法包括: 以多个用户特征参数作为训练特征建立点击调权模型; 获取至少一个用户的多个用户特征的特征值; 以所述多个用户特征的特征值以及一组训练样本对所述点击调权模型进行训练,以学习各个用户特征的值对搜索结果条目排序的影响权重。
6.根据权利要求5所述的方法,其特征在于,所述获取至少一个用户的多个用户特征的特征值的处理包括: 从预先建立的用户模型数据库获取所述至少一个用户的多个用户特征的特征值。
7.根据权利要求6所述的方法,其特征在于,所述用户特征包括以下至少一个:搜索结果重复点击、站点偏好、用户性别、年龄、职业、求职意向、所在地、兴趣点、消费意图、消费能力、旅游意图、健康状况和孕婴状况。
8.根据权利要求7所述的方法,其特征在于,每个所述训练样本包括历史搜索词、用户搜索点击记录以及标注的点击满意度数据。
9.根据权利要求8所述的方法,其特征在于,所述训练样本为从所述至少一个用户的搜索历史数据获取并标注的训练样本。
10.一种搜索处理装置,其特征在于,所述装置包括: 用户搜索词接收模块,用于接收用户的搜索词; 搜索结果条目获取模块,用于根据所述搜索词获取多个搜索结果条目; 用户模型数据提取模块,用于提取所述用户的用户模型数据,所述用户模型数据包括所述用户的多个用户特征的值; 影响权重获取模块,用于以所述搜索结果条目和所述多个用户特征的值作为输入,从搜索结果排序模型获取每个搜索结果条目的影响权重; 搜索结果条目排序模块,用于根据所述影响权重对所述搜索结果条目进行排序; 搜索结果条目发送模块,用于发送经过排序的搜索结果条目。
11.根据权利要求10所述的装置,其特征在于,所述用户特征包括以下至少一个:搜索结果重复点击、站点偏好、用户性别、年龄、职业、求职意向、所在地、兴趣点、消费意图、消费能力、旅游意图、健康状况和孕婴状况。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括: 点击调权模型训练模块,用于使用多个标注的训练样本对多个用户特征进行点击调权模型训练。
13.根据权利要求12所述的装置,其特征在于,所述训练样本包括历史搜索词、用户搜索点击记录以及点击满意度。
14.一种生成搜索结果排序模型的装置,其特征在于,所述装置包括: 点击调权模型建立模块,用于以多个用户特征参数作为训练特征建立点击调权模型; 特征值获取模块,用于获取至少一个用户的多个用户特征的特征值; 影响权重学习模块,用于以所述多个用户特征的特征值以及一组训练样本对所述点击调权模型进行训练,以学习各个用户特征的值对搜索结果条目排序的影响权重。
15.根据权利要求14所述的装置,其特征在于,所述特征值获取模块用于: 从预先建立的用户模型数据库获取所述至少一个用户的多个用户特征的特征值。
16.根据权利要求15所述的装置,其特征在于,所述用户特征包括以下至少一个:搜索结果重复点击、站点偏好、用户性别、年龄、职业、求职意向、所在地、兴趣点、消费意图、消费能力、旅游意图、健康状况和孕婴状况。
17.根据权利要求16所述的装置,其特征在于,每个所述训练样本包括历史搜索词、用户搜索点击记录以及标注的点击满意度数据。
18.根据权利要求17所述的装置,其特征在于,所述训练样本为从所述至少一个用户的搜索历史数据获取并标注的训练样本。
【文档编号】G06F17/30GK104462293SQ201410706960
【公开日】2015年3月25日 申请日期:2014年11月27日 优先权日:2014年11月27日
【发明者】路华, 向伟, 徐倩, 黄硕, 陈蕊, 杨伟东, 田 浩, 黄荣升, 李双龙 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1