一种基于搜索引擎的个性化推荐方法及系统与流程

文档序号:12364528阅读:403来源:国知局
一种基于搜索引擎的个性化推荐方法及系统与流程

本发明涉及内容推荐领域,特别涉及基于搜索引擎的个性化推荐方法及系统。



背景技术:

目前推荐系统大多都是通过后台离线计算,然后把事先挖掘好的推荐结果展示给用户,但是如何能够快速的响应用户的需求,实时的调整针对不同用户的推荐结果,成为现在推荐系统所面临的问题和挑战。



技术实现要素:

本发明要解决的技术问题是,针对带有搜索引擎查询词的请求,根据相应的搜索查询词进行实时计算与调整,最终得到相关内容的实时推荐结果。

解决上述技术问题,本发明提供了一种基于搜索引擎的个性化推荐方法,包括如下步骤:

获取当前用户通过通过搜索引擎搜索的查询词;

对搜索查询词进行自然语言处理,得到关键词碎片以及相对应的权重;

通过将后台的离线挖掘结果、点击反馈数据和所述关键词碎片,进行加权并排序后,输出推荐结果。

更进一步,所述当前用户是指已登录的用户。

更进一步,所述点击反馈数据,用以根据之前推荐结果,得到用户点击情况得分,若被点击次数多则得分高,并对得分高的结果优先推荐。

更进一步,所述离线挖掘结果,用以根据被推荐的内容的整体质量进行打分,所述整体质量包括:内容的丰富程度和优质程度。

基于上述,本发明提供了一种基于搜索引擎的个性化推荐系统,包括:搜索查询词模块、搜索查询词解析模块、实时在线计算模块,

所述搜索查询词模块,用以获取当前用户通过通过搜索引擎搜索的查询词;

所述搜索查询词解析模块,用以对搜索查询词进行自然语言处理,得到关键词碎片以及相对应的权重;

所述实时在线计算模块,用以通过将后台的离线挖掘结果、点击反馈数据和所述关键词碎片,进行加权并排序后,输出推荐结果。

更进一步,系统还包括离线挖掘结果模块,用以根据被推荐的内容的整体质量进行打分,并将结果输入实时在线计算模块。

更进一步,系统还包括点击反馈数据模块,用以根据鼠标点击事件获得用户对于所述搜索查询词模块中的搜索查询词的实时反馈结果。

更进一步,所述搜索查询词解析模块还用以,对搜索查询词进行自然语言处理,通过中文分词,TF/IDF,专名词典中的一种或者多种方法计算抽取出关键词碎片。

更进一步,所述实时在线计算模块,还用以通过归并和重排序操作,输出相关推荐结果。

更进一步,所述搜索查询词模块与搜索引擎API连接,用以获取查询词

本发明的有益效果:

1)由于本发明中的一种基于搜索引擎的个性化推荐方法,由于获取当前用户通过通过搜索引擎搜索的查询词;对搜索查询词进行自然语言处理,得到关键词碎片以及相对应的权重;通过将后台的离线挖掘结果、点击反馈数据和所述关键词碎片,进行加权并排序后,输出推荐结果。通过不同的搜索查询词,可以改变用户的相关推荐结果,针对不同的用户的搜索查询词计算得到的相关推荐结果是不同,故可适用于多个领域的相关推荐,比如视频、新闻、广告等。通过将后台的离线挖掘结果、点击反馈数据和所述关键词碎片,进行加权并排序后,使得相关推荐结果会随着用户的搜索查询实时发生变化,即当不同用户请求不同的搜索查询词时会立刻得到不一样的结果,给用户带来良好的用户体验。

2)本发明中的基于搜索引擎的个性化推荐系统,由于包括搜索查询词模块、搜索查询词解析模块、实时在线计算模块,通过所述实时在线计算模块,用以通过将后台的离线挖掘结果、点击反馈数据和所述关键词碎片,使得相关推荐结果会随着用户的搜索查询实时发生变化,即当不同用户请求不同的搜索查询词时会立刻得到不一样的结果,给用户带来良好的用户体验。通过所述搜索查询词模块,获取当前用户通过通过搜索引擎搜索的查询词;通过所述搜索查询词解析模块,对搜索查询词进行自然语言处理,得到关键词碎片以及相对应的权重,并将结果输入到实时在线计算模块中通过不同的搜索查询词,可以改变用户的相关推荐结果,从而针对不同的用户的搜索查询词计算得到的相关推荐结果是不同的。

附图说明

图1是本发明一实施例中基于搜索引擎的个性化推荐方法流程示意图。

图2是本发明一实施例中基于搜索引擎的个性化推荐系统结构示意图。

图3是本发明另一实施例中基于搜索引擎的个性化推荐系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

图1是本发明一实施例中基于搜索引擎的个性化推荐方法流程示意图。

本实施例中的一种基于搜索引擎的个性化推荐方法,包括如下步骤:

步骤S100获取当前用户通过通过搜索引擎搜索的查询词;和具体的搜素引擎类型无关,用户在搜索引擎中搜索了查询词,然后点击到对应的网站的页面内后,网站即可以知道来自哪个查询词。本领域技术人员能够明了,具体过程即是用户搜查询词后,搜索引擎使用检索词,到自己的服务器里面找出和这个索引词匹配的网页。优选地,先将数据集按照hash方法分解成多个小数据集,然后使用trie树或者hash统计每个小数据集中的query词频,之后用小顶堆求出每个数据集中出频率最高的前K个数,最后在所有top K中求出最终的top K,得到查询词。在一些实施例中,所述当前用户是指已登录的用户,便于获得用户的查询词统计和习惯。

步骤S101对搜索查询词进行自然语言处理,得到关键词碎片以及相对应的权重;本领域技术人员能够明了,对所述查询词进行的自然语言处理包括但不限于:通过中文分词,TF/IDF,专名词典中的一种或者多种,对查询词进行切割得到关键词碎片。所述中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。所述TF/IDF,TF表示词频。权重IDF叫做"逆文档频率"(Inverse Document Frequency),它的大小与一个词的常见程度成反比。

第一步,计算词频。

词频(TF)=某个词在文章中的出现次数

考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。

词频(TF)=某个词在文章中的出现次数/文章的总次数

或者

词频(TF)=某个词在文章中出现的次数/该文出现次数最多的词的出现次数

第二步,计算逆文档频率。

逆文档频率(IDF)=log(语料库的文档总数/包含该词的文档数+1)

第三步,计算TF-IDF。

TF-ID=词频(TF)*逆文档频率(IDF)

可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。

所述专名词典,是指专有名词词典,用以对查询词进行更准确的碎片化。

步骤S102通过将后台的离线挖掘结果、点击反馈数据和所述关键词碎片,进行加权并排序后,输出推荐结果。在一些实施例中,所述点击反馈数据,用以根据之前推荐结果,得到用户点击情况得分,若被点击次数多则得分高,并对得分高的结果优先推荐。在一些实施例中,所述离线挖掘结果,用以根据被推荐的内容的整体质量进行打分,所述整体质量包括:内容的丰富程度和优质程度。

基于上述特征,本实施例中的技术效果至少包括:通过不同的搜索查询词,可以改变用户的相关推荐结果,针对不同的用户的搜索查询词计算得到的相关推荐结果是不同,故可适用于多个领域的相关推荐,比如视频、新闻、广告等。通过将后台的离线挖掘结果、点击反馈数据和所述关键词碎片,进行加权并排序后,使得相关推荐结果会随着用户的搜索查询实时发生变化,即当不同用户请求不同的搜索查询词时会立刻得到不一样的结果,给用户带来良好的用户体验。

图2是本发明一实施例中基于搜索引擎的个性化推荐系统结构示意图。

本实施例中的一种基于搜索引擎的个性化推荐系统,包括:搜索查询词模块1、搜索查询词解析模块2、实时在线计算模块3,

所述搜索查询词模块1,用以获取当前用户通过通过搜索引擎搜索的查询词;

所述搜索查询词解析模块2,用以对搜索查询词进行自然语言处理,得到关键词碎片以及相对应的权重;作为本实施例中的优选,所述搜索查询词解析模块2还用以,对搜索查询词进行自然语言处理,通过中文分词,TF/IDF,专名词典中的一种或者多种方法计算抽取出关键词碎片。作为本实施例中的优选,所述搜索查询词模块2与搜索引擎API连接,用以获取查询词。

所述实时在线计算模块3,用以通过将后台的离线挖掘结果、点击反馈数据和所述关键词碎片,进行加权并排序后,输出推荐结果。作为本实施例中的优选,所述实时在线计算模块3,还用以通过归并和重排序操作,输出相关推荐结果。

作为本实施例中的优选,系统还包括离线挖掘结果模块4,用以根据被推荐的内容的整体质量进行打分,并将结果输入实时在线计算模块。

作为本实施例中的优选,系统还包括点击反馈数据模块5,用以根据鼠标点击事件获得用户对于所述搜索查询词模块中的搜索查询词的实时反馈结果。

具体地,

搜索查询词模块1主要是接收用户的搜索查询词。

例如:用户Steve,

通过搜索引擎输入一段查询词XXX。

搜索查询词解析模块2会对搜索查询词进行自然语言处理。

通过中文分词,TF/IDF,专名词典等计算抽取出关键词A,B,C,得到Term Fragment多个关键词碎片及权重

Term Fragment多个关键词碎片及权重如下:

关键词A,权重0.5

关键词B,权重0.3

关键词C,权重0.2

实时在线计算模块3获取当前用户搜索查询词的各个关键词及权重,结合offline result离线挖掘结果和click feedback点击反馈数据,然后对他们进行加权合并排序,最终输出推荐结果。

例如:用户Steve,

关键词A,权重0.5,得到相关结果:

b=0.31,g=0.19

关键词B,权重0.3,得到相关结果:

x=0.16,y=0.14

关键词C,权重0.2,得到相关结果:

t=0.18,u=0.02

offline result离线挖掘结果:

x=0.52,s=0.48,g=0.27,k=0.13,t=0.12

click feedback点击反馈数据:

x=0.21,u=0.10,p=0.07

通过merge归并和rerank重排序操作,最终对于Steve的相关推荐结果:

{b=0.31,g=0.19}+{x=0.16,y=0.14}+{t=0.18,u=0.02}+{x=0.52,s=0.48,g=0.27,k=0.14,t=0.12}+{x=0.21,u=0.11,p=0.07}

={x=0.89,s=0.48,g=0.46,b=0.31,t=0.30,y=0.14,k=0.13,u=0.12,p=0.07}

本领域技术人员能够明了,上述的字母a-z分别表示不同的候选推荐结果。

本实施例中的基于搜索引擎的个性化推荐系统,通过所述实时在线计算模块,用以通过将后台的离线挖掘结果、点击反馈数据和所述关键词碎片,使得相关推荐结果会随着用户的搜索查询实时发生变化,即当不同用户请求不同的搜索查询词时会立刻得到不一样的结果,给用户带来良好的用户体验。通过所述搜索查询词模块,获取当前用户通过通过搜索引擎搜索的查询词;通过所述搜索查询词解析模块,对搜索查询词进行自然语言处理,得到关键词碎片以及相对应的权重,并将结果输入到实时在线计算模块中通过不同的搜索查询词,可以改变用户的相关推荐结果,从而针对不同的用户的搜索查询词计算得到的相关推荐结果是不同的。

图3是本发明另一实施例中基于搜索引擎的个性化推荐系统结构示意图。

本实施例中的一种基于搜索引擎的个性化推荐系统,包括:搜索查询词模块1、搜索查询词解析模块2、实时在线计算模块3,

所述搜索查询词模块1,用以获取当前用户通过通过搜索引擎搜索的查询词;将结果输入到所述搜索查询词解析模块2,用以对搜索查询词进行自然语言处理,得到关键词碎片以及相对应的权重;得到关键词碎片1、关键词碎片2、关键词碎片3;将关键词碎片1、关键词碎片2、关键词碎片3输入所述实时在线计算模块3,用以通过将后台的离线挖掘结果4、点击反馈数据5和所述关键词碎片,进行加权并排序后,输出推荐结果。

所属领域的普通技术人员应当理解:以上,所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1