基于用户兴趣的个性化元搜索引擎及搜索结果处理方法

文档序号:6481258阅读:156来源:国知局

专利名称::基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
技术领域
:本发明属于互联网信息处理
技术领域
,涉及搜索引擎、Web数据挖掘和知识发现技术,特别是涉及基于用户兴趣的个性化元搜索系统及方法,用于互联网的搜索引擎。
背景技术
:搜索引擎的出现,大大提高了人们对互联网信息检索的能力和效率,己经成为互联网的基础应用之一。据中国互联网络信息中心在2008年中期的统计,中国网民搜索引擎的使用率为69.2%,并处在高速增长之中,而在互联网高度普及的美国,网民对搜索引擎的使用率己达91%。可见,上网用户对搜索引擎己经产生了强烈的依赖。目前,搜索引擎领域主要有以下几种技术(1)传统搜索引擎这种搜索引擎目前应用最广泛且用户数量最多,主要代表有谷哥欠(www.google.com)、百度(www.baidu.com)、雅虎(cn.yahoo.com)等。这种搜索引擎虽然给人们带来了便利,但是它们却存在着本身无法克服的缺陷。根据专业评测,目前主流搜索引擎的网络资源覆盖面加在一起只占整个网络的约42%,返回的结果相关度不足45%,而且由于对网页的索引和排序机制互不相同,导致同样一个搜索请求在不同搜索引擎中的查询结果的重复率不足34%。因此,单个这样的搜索引擎是无法满足用户搜索需求的,要想获得一个比较全面、准确的搜索结果,用户就必须反复调用多个搜索引擎,这大大降低了用户的检索效率,提高了信息检索的难度。(2)元搜索引擎(Meta-SearchEngine):元搜索引擎的出现,在一定程度上弥补了传统搜索引擎的不足,其主要代表有国外的MetaCrawler(www.metacrawler.com)、Dogpile(www.dogpile.com)禾口国内的比比猫(www.bbmao.com)等。元搜索是一禾中将用户检索请求同时发送给多个独立搜索引擎,并将它们的搜索结果汇集在一起返回给用户的搜索技术。它的优点是综合了多个独立搜索引擎的搜索结果,从而提高了搜索结果在整个网络资源上的覆盖率,省去了用户自己逐个调用不同搜索引擎进行査询的麻烦。但是,目前己投入实用的元搜索引擎的搜索结果排序方式仅仅是以各独立搜索引擎返回结果的排序或某种统一的排序原则为依据的,所以对与不同用户的搜索请求不能做到根据用户的兴趣喜好和搜索意图返回与之相适应的排序结果,即搜索的准确度并未得到有效提高。因此,在信息量巨大的互联网世界里用户想要找到自己需要的信息的难易程度并未得到有效改善。(3)个性化搜索引擎(PersonalizedSearchEngine):为了满足用户的个性化搜索需求,弥补传统搜索引擎和元搜索引擎的不足,给用户提供更为精准的搜索服务,人们提出了个性化搜索引擎的思想,这种搜索引擎目前还处于技术研究和初步应用阶段。在这方面的研究中,具有代表性的方法一个是通过用户对搜索结果进行打分来调节搜索结果的排列次序,一个是将用户的搜索历史存放在用户计算机的cookie文件中,作为以后用户进行搜索的参考来影响搜索结果的次序。但是这些方法仍存在缺陷。对于依靠用户打分来说,大量用户对搜索结果的评价并不能准确刻划某个特定用户的兴趣喜好,无法实现针对每个用户的个性化服务;对于在用户计算机上记录用户搜索历史来说,这种方法实际上只是记录了这台计算机上进行过的搜索历史,如果使用该计算机的用户更换或者用户在别的计算机上进行搜索,则这种个性化搜索的作用就失效了。从上面介绍的目前存在的三种搜索引擎技术来看,个性化搜索技术无疑是搜索引擎进一步发展的方向,但这个领域的技术研究还远未达到成熟阶段,需要有更加有效和实用的个性化搜索技术来改善用户的搜索体验。
发明内容本发明的目的在于避免上述己有搜索引擎的缺陷,提供一种基于用户兴趣的个性化元搜索引擎及其搜索结果处理方法,以准确确定用户兴趣和搜索意图,在服务器上长期保存和及时更新用户兴趣,并利用用户兴趣和搜索意图对元搜索的搜索结果进行个性化排序,提高搜索结果的覆盖度和搜索的准确度。本发明的目的是这样实现的本发明的搜索系统主要由用户注册/登录单元、元搜索结果收集单元和个性化处理单元组成,其中个性化处理单元,包括搜索结果预处理模块,用于接收元搜索结果收集单元送入的搜索结果原始数据,进行基于网址和基于摘要内容的去除重复处理,并将处理后的搜索结果送入个性化排序处理模块;个性化排序处理模块,用于接收搜索结果预处理模块送入的搜索结果数据,并进行基于用户兴趣和搜索意图的个性化排序处理,将排序后的搜索结果提交给用户;用户兴趣更新模块,用于捕获用户对搜索结果的点击行为,对用户点击过的搜索结果进行兴趣分析,并对用户兴趣数据库中存储的用户兴趣模型数据进行更新;用户兴趣数据库,用于存储网站注册用户的兴趣模型数据,并将这些数据提供给个性化排序处理模块进行个性化排序。所述的用户兴趣模型数据用/(0={(^"7),(^,2),...,(^50}表示,其中(C,)是用户的一个兴趣分量,c,为兴趣类别,w,为c,对应的归一化权值,该用户兴趣模型数据是用于定量描述用户兴趣喜好及其喜好程度的数据集。本发明的引擎搜索结果处理方法,包括-步骤l.建立并初始化用户兴趣模型,保存在服务器的用户兴趣数据库中;步骤2.将用户输入的搜索词语,按各独立搜索引擎要求的格式分发出去,并收集它们返回的结果,将收集的返回结果转换成统一的格式。步骤3.将转换成统一格式的搜索结果进行去除重复处理;步骤4.根据用户兴趣模型和本次搜索词语对去除重复处理后的搜索结果进行个性化排序,并将该排序结果提交给用户;步骤5.捕获用户点击的搜索结果,对其进行兴趣分析,改变兴趣种类和权值大小,并根据改变的结果更新用户兴趣数据库中用户的兴趣模型数据。上述引擎结果处理方法,其中步骤l所述的建立用户兴趣模型,包括两种方式一是用户直接通过主动选择网站提供的兴趣类别并设置权值大小,建立该用户的初始兴趣模型;二是搜索引擎系统通过兴趣更新模块对用户搜索行为的兴趣分析,自动建立用户兴趣模型。上述引擎结果处理方法,其中步骤3所述的将转换成统一格式的搜索结果进行去除重复处理,是先将统一格式的搜索结果按照网址是否相同进行过滤,只保留网址不同的搜索结果;再将各条搜索结果的摘要内容与其它搜索结果的摘要内容进行文本比较,滤除摘要内容相似的搜索结果。上述引擎结果处理方法,其中步骤4所述的根据用户兴趣模型和本次搜索词语对去除重复处理后的搜索结果的个性化排序方法,按如下步骤进行1)分别计算搜索词语与用户兴趣的相关度向量和搜索结果与用户兴趣的相关度2)根据步骤1)得到的相关度向量,计算搜索结果与用户搜索词语的相关度向3)计算搜索结果在各独立搜索引擎上的排名得分向量;4)将步骤2)和3)得到的数值进行加权综合,得到每条搜索结果基于用户兴趣的权值,并按权值大小排序,得到个性化排序结果。上述引擎结果处理方法,其中步骤5所述的更新用户兴趣数据库中用户的兴趣模型数据,按如下步骤进行a)捕获用户在客户端点击的搜索结果,并传回服务器端;b)对该搜索结果的标题和摘要进行分词处理,得到该搜索结果的关键词集;,C)依据关键词集进行兴趣分析,得到该用户最新的兴趣类别及相应的权值大小;d)根据最新的兴趣类别及相应的权值大小对用户兴趣数据库中的用户兴趣模型数据进行更新。本发明与
背景技术
相比具有的优势在于本发明是一种个性化元搜索引擎技术,适用于建立互联网上的个性化元搜索引擎;本发明通过元搜索技术同时抓取多个独立搜索引擎的搜索结果,提高了搜索结果的覆盖度,克服了单个独立搜索引擎搜索结果覆盖度低的问题;本发明通过为每个用户建立各自的用户兴趣模型,并将其长期保存在服务器数据库中,而且随着用户的搜索过程对用户兴趣数据不断更新,使得用户不论身处何时何地,本发明的搜索系统均能准确定位用户兴趣,为其提供个性化搜索服务,不仅克服了一般元搜索引擎不能提供个性化服务的缺点,而且克服了现有个性化搜索技术不能长期保存用户兴趣和不能精准定位个人兴趣的缺点;本发明通过独创的引擎搜索结果处理机制将多个独立搜索引擎的搜索结果进行去除重复处理,并计算每条搜索结果的个性化权值PersonalRank,为用户提供最适合其搜索意图和兴趣喜好的搜索结果排列方式,使得搜索结果的准确度得到显著提高,用户的搜索需求得到最大程度的满足,用户通过本发明的搜索系统找到自己需要的搜索结果的难度大大降低。图1是本发明搜索引擎系统结构框图2是本发明搜索结果处理流程图3是本发明用户兴趣模型示例图4是本发明去除重复搜索结果流程图5是本发明基于用户兴趣的个性化排序流程图6是本发明用户兴趣更新流程图。具体实施例方式参照图l,本发明的搜索引擎系统主要由用户注册/登录单元,元搜索结果收集单元,个性化处理单元,服务器输入输出接口和外部独立搜索引擎资源组成,其中所述的用户注册/登录单元,由注册模块和登录模块组成。注册模块负责接收新用户通过服务器输入输出接口发来的注册请求,通过收集和向数据库中保存必要的用户信息,使其成为网站注册用户;登录模块负责利用存储的用户信息验证请求登录的用户的合法性,使合法用户登录进网站中进行搜索活动。所述的元搜索结果收集单元,由搜索引擎代理管理模块和用户个人配置数据库组成。用户个人配置数据库负责存储用户的搜索配置数据,如选择的独立搜索引擎种类、每个独立搜索引擎抓取的搜索结果数量和搜索结果的显示效果;搜索引擎代理管理模块负责在用户通过服务器输入输出接口向网站发出搜索请求时,根据用户个人配置数据库中存储的用户配置信息,为用户选择相应的独立搜索引擎,按照各个独立搜索引擎的搜索格式向外部独立搜索引擎资源发出搜索请求,并收集它们返回的搜索结果,把它们转换成统一的格式。所述的个性化处理单元,由搜索结果预处理模块、个性化排序处理模块、用户兴趣更新模块和用户兴趣数据库组成。该搜索结果预处理模块,用于接收元搜索结果收集单元送入的搜索结果原始数据,进行基于网址和基于摘要内容的去除重复处理,其中网址去重和摘要去重依次进行首先将统一格式的搜索结果按照网址是否相同进行过滤,只保留网址不同的搜索结果,再将网址去重后的各条搜索结果的摘要内容与其它搜索结果的摘要内容进行文本比较,滤除摘要内容相似的搜索结果,最后将处理后的搜索结果送入个性化排序处理模块;该个性化排序处理模块,用于接收搜索结果预处理模块送入的搜索结果数据,并进行基于用户兴趣和搜索意图的个性化排序处理,在处理过程中,综合考虑搜索词语与搜索结果基于用户兴趣模型的相关度以及搜索结果在独立搜索引擎的排名得分,计算出个性化权值PersonalRank,并以此为依据进行排序,将排序后的搜索结果通过服务器输入输出接口提交给用户界面;该用户兴趣更新模块,用于捕获用户对搜索结果的点击行为,对用户点击过的搜索结果进行兴趣分析,并对用户兴趣数据库中存储的用户兴趣模型数据进行更新,其中捕获用户对搜索结果的点击行为是通过在搜索结果显示页面上设置特定代码实现,并由服务器输入输出接口传回服务器进行兴趣分析,从而更新用户兴趣数据库中的用户兴趣模型数据;该用户兴趣数据库,用于存储网站注册用户的兴趣模型数据,这些数据是个性化排序处理模块进行个性化排序的依据,并由兴趣更新模块进行更新。、所述的服务器输入输出接口,是网站服务器用于服务器端与用户端进行数据交互的接口,将需要经过接口交互的数据送到相应的模块中。所述的外部独立搜索引擎资源是互联网中各种提供搜索服务的独立搜索引擎,是本发明的搜索系统获取搜索结果数据的来源,由搜索结果收集单元通过发出搜索命令与外部独立搜索弓I擎资源Ei进行连接。参照图2,本发明的对搜索引擎结果的处理步骤如下步骤一,建立并初始化用户兴趣模型数据,保存在服务器的用户兴趣数据库中。参照图3,本发明中的用户兴趣模型是用户兴趣类别及其权值的数据记录集,其中包含若干个兴趣类别分量,用/(0={(^^),(0"2),...,(^,>0}表示。其中(c)是用户的一个兴趣分量,c,为一个兴趣类别,w,为对应的归一化权值,即所有w,之和为1,w,越大说明兴趣类别c,在该用户兴趣中的比重越大,也就是该用户在兴趣类别c,方面的喜好程度越大。对于用户兴趣模型的建立,包括两种方式一是用户直接通过主动选择网站提供的兴趣类别并设置权值大小,建立该用户的用户兴趣模型数据;二是搜索引擎系统通过兴趣更新模块对用户搜索行为的兴趣分析,为用户自动建立用户兴趣模型数据。将按照以上方式建立的用户兴趣模型数据保存入服务器的用户兴趣数据库中,作为后续对搜索结果进行个性化排序的依据。步骤二,将用户输入的搜索词语,按各独立搜索引擎要求的格式分发出去。对于用户输入的搜索词语,首先由搜索引擎代理管理模块从用户个人配置数据库中取出该用户选定的独立搜索引擎种类,以及需要抓取的搜索结果数目这些必要的配置数据;然后按照各个独立搜索引擎的链接格式,将用户配置数据组合成相应的搜索链接;最后将这些组合好的搜索链接通过网络命令向独立搜索引擎资源分发出去。步骤三,收集各独立搜索引擎返回的结果,将收集的返回结果转换成统一的格式。搜索引擎代理管理模块接收到相应独立搜索引擎返回的搜索结果数据流,对这些数据流进行格式分析,分割出这些数据流中搜索结果的网址、标题、内容摘要以及在相应搜索结果中的原始排名名次信息,并将每组这样的信息作为本搜索引擎系统的一条统一格式的搜索结果数据。步骤四,在搜索结果预处理模块中将转换成统一格式的搜索结果进行去除重复处理。首先,进行基于网址的搜索结果去除重复处理。将统一格式的搜索结果按照网址是否相同进行过滤,只保留网址不同的搜索结果。在处理过程中,对于网址相同的搜索结果,优先保留在独立搜索引擎原始排名中名次靠前的那条搜索结果,将相对靠后的其它重复搜索结果删除。然后,将各条搜索结果的摘要内容与其它搜索结果的摘要内容进行文本比较,滤除摘要内容相似的搜索结果,具体步骤如图4所示(4.1)设置有关参数将用户搜索词语S由元搜索结果收集单元得到的独立搜索引擎返回的搜索结果集设为i^)={o,;(l),。,2(2),...,(n),...},其中i。(力.幼w表示查询结果总数,(n)表示第/个独立搜索引擎的第w条搜索结果且在整个集合中排在第乂位,/",.幼m廳7表示该条的摘要,r,/n)./ewg^为摘要的长度,^(n)^^为去重标志位;将经过去除重复处理后的搜索结果集设为=化;0C7力,...),。(r2j;2,...),...,Ocj;,...)},其中^0^,,...)表示7(力中的第/条搜索结果,且在包含该结果的独立搜索引擎上的排名分别为1,,凡...;(4.2)将尺oCs)中所有(nX/7《《置为0,表示相应的(n)未进行过去除重复处理;(4.3)从第一条搜索结果(1)开始,对于fo(n)和A)乂m),其中A:<"若r^m)^ag=1,表示已进行过去除重复处理,或w(n)./e"-;;和A)乂m)./e"g^相差大于50。/。,表示两者摘要长度相差太大,不做处理,否则,从/"a(n).仰mma7的前中后部分别截取长为0.6X"。,"n)./e"g^的三个子串与。乂m).做w/wtW7进行比较,若。-,f(m).仰/w/Kw7包含子串,则认为两者摘要相似,将两者合并为ra(",m),并置。,f(mX/7ag=l,若不包含,则不做处理;若K,.扁,令,=什1,转向下一条结果,重做步骤(4.3);若,=/0(.幼附,说明/V,"n)与其后的所有结果均己比较完毕,则将m,…)归入i(力中,并令/=,+l,若…io(4扁,转向步骤(4.4),否则重做步骤(4.3);(4.4)当/=7^).幼附时,说明&^中除最后一项/V卿,0)的所有条目均己进行过去除重复处理,若r^。w(yX/tog:l,说明与前面的条目重复,不计入700中,否则将它归入i0O中;(4.5)iCs)已包含所有去除重复处理后的搜索结果,由搜索结果预处理模块将这些搜索结果传给个性化排序模块进行后续处理。用基于摘要内容的搜索结果去除重复方法对搜索结果进行处理的必要性在于对于经过基于网址的去除重复处理后的搜索结果,虽然它们的网址不同,但有些页面上的实际内容还是有可能很相似甚至完全相同,对于用户而言也属于重复结果,应该予以滤除。因此,经过网址去除重复处理之后,还要对搜索结果进行内容去除重复处理。而且利用元搜索技术可以得到搜索结果网页的标题的摘要,其中对于标题而言,相似与否并不能说明其内容是否相似,例如标题为"山西省人民政府网站"和"陕西省人民政府网站"的两个网页,它们的内容其实完全不同,而网页摘要虽然简短,但它是页面中与用户查询最相关的一部分信息,这些信息可以很好的反应网页的内容。而且往往是用户搜索到的许多网页虽然它们来源不同标题不同,但它们的内容很相似甚至完全相同,都是对一些已有信息的简单复制,这些网页对用户来说没有更多价值,在用户查找有用信息时还会造成干扰。所以通过分析网页摘要内容来判断内容相似度从而进行去除重复处理是一个提高用户搜索体验的必要过程。步骤五,根据用户兴趣模型和本次搜索词语对去除重复处理后的搜索结果进行个性化排序,并将该排序结果提交给用户,具体步骤如图5所示(5.1)设置有关参数将某用户的搜索词语S经过分词处理后得到的关键词集设为g={fe^^fe^,...,^^},其中fe乂表示第/个关键词,共有A个,且它们在查询语句中相对应的归一化重要度向量为义(0=(^,化...,^),其中各分量之和为1;用户兴趣数据库的特征词基础数据表是各种特征词与兴趣类别的对应关系表,将《(C,)设为属于兴趣类别C,的特征词集合;在特征词基础数据表中逐一查找Q中的关键词,得到分别所属的兴趣类别,再与用户的/(C)对照,将用户本次查询的兴趣类别集合设为/(0={(c,,w,),(c2,W2),...,(cm,vvm)}G/(C);(5.2)对于/(0中的每个兴趣类别c,,分别计算2中各个关键词权重向量11『e(c')Kw,w2,…,v^》其中^:jo,gA:(c);若『e(^)中存在^不为零,则对Jff2j和『eW进行基于向量空间模型的相关度计算,得到搜索词语Q与兴趣类别c,的相关度《>(ac,)=S(^*、)/、2>)*2'表示^与兴趣类别C,的相关程度;若M7全为零,则&m(&C,)-0;(5.3)对用户兴趣模型中的所有兴趣类别进行相关度计算,得到搜索词语Q与用户兴趣的相关度向量&>w(2,C)=(^w(^,c》,…,w>(&cm));(5.4)对于搜索结果集合i(s)中的每条记录r,,将。的标题和摘要分别进行分词处理,得到若千关键词,在特征词库中找出其中归属于/(^)中各兴趣类别的关键词集,表示为={fe》,fe》,...,和A^細m。70v)=(fe力,...,fe_yp};对于/^)中的每个兴趣类别。,逐个计算《w,e(r,)和&"細。;^,)的权重向量『她(r,,c;)=0/,W2,...,M^t),『s腿则7(av,&)=Oy,H^,...,VV》,式中,'、^;f0.44"(c》'将《Wte(n)、^"画。o^,)以及『W/e(。,C》、『画则7(C》分别合并为《(r,)气^力,…,M)和W(/",'Cy)=(HV,W2,...,W),式中,尺(r,)包含&we(r,)和《扁膨7(r,)中的所有关键词,『(r,,&)中的权重为『她(r,,。)和『,m。0^,,&)中相应权重之和;经过分词处理后,《(AV)中包含的关键词在r,中的归一化重要度向量为-聊jj=(;0,a,若『(r,,c;)中存在w,不为零,则将X(/",)和『(r,,。)进行基于向量空间模型的相关度计算,得到搜索结果r,与兴趣类别c,的相关度^m(/;,c》/|>,2*|>f表示搜索结果a",与兴趣类别C,的相似程度,若W,全为零,则《>(/",,。)=0;(5.5)对用户兴趣模型中的所有兴趣类别进行相关度计算,得到搜索结果r,与用户兴趣的相关度向量C)=(ww(r,,c》,…,力w(r,,c));(5.6)对所有搜索结果与所有用户兴趣类别的相关度进行计算,得到搜索结果集W与用户兴趣的相关度向量&w(尺C)=(&m(/",,C),...,&m(AV,C));(5.7)计算r,与2在兴趣类别&上的相关度s/m(r,,g,当&mr2,0中所有分量全为0时,sz.附(/;,Q,。.)=>'附0;,。),否贝lJs/附0;,2,。.)=57'附(。。)xs/w(2,(5.8)计算所有的用户兴趣类别与一条搜索结果r,的相关度向量,得到相关度向量&冲,,2'O=("冲,,2,C》,...,g,C));(5.9)将相关度向量&w(r,,2,C)进行综合处理,得到G与的相关度,0=丄tw附(r,,g,。);(5.10)计算所有搜索结果与搜索词语的相关度,得到搜索结果集W与搜索词语的相关度向量^/W(i.g)=(WW(。幼,...,W>W(~0);(5.11)对于搜索结果/",,可按该式计算它在独立搜索引擎上的排名得分式中,A表示搜索结果包含的独立搜索引擎的个数,W,表示在相应搜索引擎上的排名,该式表明^被越多的搜索引擎索引且在搜索引擎上排名越靠前则其得分较高;(5.12)由于w'/w(r,.0和w/g似^(r,)均为归一化的数值,所以将两者按一定比例综合即可得到r,的权值鄉妙/(a;)=0.6x57'/^,0+O.4x膽妙&(a;),该权值是该搜索结果的个性化权值PersonalRank;(5.13)按照PersonalRank的数值,由大到小对搜索结果进行排序,得到符合用户兴趣和搜索意图的排序方式,并按照此排序方式将搜索结果提交给用户。步骤六,捕获用户点击的搜索结果,对其进行兴趣分析,改变兴趣种类和权值大小,并根据改变的结果更新用户兴趣数据库中用户的兴趣模型数据,其步骤如图6所(6.1)通过在搜索结果显示页面设置特定代码,捕获用户在客户端点击的搜索结果,并传回服务器端;(6.2)对传回的搜索结果r,的标题和摘要分别进行分词,得到该搜索结果的标题和摘要关键词集^:加e(/^)=(fe少r;,fey""..,fe少ra)禾Ba:孤卿町Ov)={fejs/,Aoto,…,(6.3)对于《tw々,)和&,^(。)中的每个关键词fe外和h,,进行如下兴趣分析步骤-(6.3a)在用户兴趣数据库的特征词基础数据表中查找fe^7y所属的兴趣类别,对找到的每个兴趣类别c,,若该用户兴趣模型中存在该兴趣类别,且其被涉及次数=w,则将其更新为Cow"fc=Cozwfo+1.2,相应的权值更新为We^fo=0.1x、、"'…""-l;若找不到兴趣类别,则将这个兴趣分量加入用户兴趣模型w妙,促(/;)-l-r[(1中,且Cozwfo=1.2,股/g/fc,=0.1x(1.2+10)~100(6.3b)在用户兴趣数据库的特征词基础数据表中查找;te^,所属的兴趣类别,对找到的每个兴趣类别c,,若该用户兴趣模型中存在该兴趣类别,且其被涉及次数CoM"fc=w,则将其更新为Co柳fo=+0.8,相应的权值更新为股^似c,0.1xJ(W+0.8+10)2-I,若找不到兴趣类别,则将这个兴趣分量加入用户兴趣模型"Vioo中,且C0M"fo=0.8,股/g/fo=0.1X、「08+10)-1;V雨所述步骤(6.3a)和步骤(6.3b)中的权值计算公式的意义在于被用户点击浏览涉及次数越多的兴趣类别的兴趣权值越大,且随着涉及次数的增多,这种权值增加的趋势会逐渐减缓,即用户的兴趣喜好逐渐趋于稳定;(6.4)对于经过一定的更新次数门限后没有被更新过的兴趣分量,说明该用户对这些兴趣领域已经不再关注,将它们从用户兴趣模型中删除;(6.5)对搜索结果。的标题和摘要中所有关键词处理结束之后,将该用户的所有兴趣权重进行归一化处理,变为取值在O和1之间且总和为1的数值,作为更新后的用户兴趣权值,对用户兴趣数据库中的相应兴趣权值进行更新。本发明的效果通过以下仿真实例进一步说明1.去除重复搜索结果实例在一个利用本发明所涉及的搜索引擎系统及其搜索方法实现的实例搜索引擎系统中,预先设置79个兴趣类别,并为每个兴趣类别设置若干能够代表该类别特征的特征词;设置每次搜索请求通过搜索引擎代理管理模块向百度抓取50条、谷歌抓取50条、有道抓取10条、搜狗抓取20条共130条搜索结果。本实例中分别用5个不同的搜索词语在该搜索系统上进行搜索,经过本发明中的去除网址重复和基于摘要内容的搜索结果去除重复方法处理后,得到的统计结果如表1所示。表1搜索结果去除重复数据搜索次数去重前总条数网址去重后总条数内容去重后总条数内容去重覆盖度内容去重准确度1130条120条93条27/3127/272122条93条29/3429/293111条105条6/65/64121条111条10/1210/10128条92条36/4336/36平均120.4条988条88.9%96.67%表1中,内容去重覆盖度为实际去重条目与应去重总条目之比;内容去重准确度为去重条目中正确去重条目与去重总条目之比。2.个性化排序实例在实例搜索系统中,分别设置一个兴趣爱好分布在"信息技术"这个类别的用户A和一个兴趣爱好分布在"个人电子产品"这个类别的用户B,首先对这两个用户以基本的元搜索技术进行搜索,再对这两个用户以登录状态进行本发明的个性化搜索,得到表2的统计结果表2搜索结果排序数据<table>tableseeoriginaldocumentpage15</column></row><table>表2中,个性化搜索响应时间为服务器从接收搜索请求到向用户返回搜索结果间经历的时间间隔。3.实例系统性能分析从表1中的数据可以看出,对从四个独立搜索引擎抓取的130条搜索结果经过本发明的基于摘要内容的去除重复方法处理后,得到的搜索结果条数相比仅进行网址去重处理有了显著减少,内容去重覆盖度平均为88.9%,内容去重准确度平均为96.67%。这说明本发明的内容去除重复技术可以准确的识别和去除重复的搜索结果,使搜索结果数量得到大幅度精简,从而免去了用户在大量重复的搜索结果中寻找有用信息的烦恼。从表2中的数据可以看出,对于具有一定兴趣爱好的用户,在基本的元搜索情况下,得到的搜索结果排在前3页的30条搜索结果中满足其搜索需求的平均不足12条,而经过本发明的个性化搜索系统的处理之后,符合用户兴趣的搜索结果平均达到了20.8条。这说明利用本发明中的基于用户兴趣的个性化排序技术实现的搜索引擎系统能够准确的识别用户兴趣,并能根据用户喜好为用户返回合适的搜索结果排序方式,这样使得用户在最靠前的搜索结果中找到感兴趣的内容的几率大大增加,从而提高了用户信息检索的效率。从搜索系统的响应时间上看,用户从提交搜索请求到服务器为用户返回搜索结果之间的时延平均约为1.49秒。据有关调查数据显示,中国网民认为打开网页的最佳速度应在5秒之内,而本发明的搜索系统的响应时间即使考虑服务器与用户端的通信时延,也完全可以满足用户这一要求,这说明利用本发明所涉及的技术实现的搜索系统具有实际可行性。综合以上的性能分析,本发明包括的基于用户兴趣的个性化元搜索引擎及搜索结果处理方法,与传统搜索引擎相比,提高了搜索结果的覆盖度,克服了单个独立搜索引擎搜索结果覆盖度低的问题;与一般的元搜索引擎以及现有的个性化搜索技术相比,通过为每个用户建立各自的用户兴趣模型,并将其长期保存在服务器数据库中,而且随着用户的搜索过程对用户兴趣数据不断更新,使得用户不论身处何时何地,均能准确定位用户兴趣,为其提供个性化搜索服务,不仅克服了一般元搜索引擎不能提供个性化服务的缺点,而且克服了现有个性化搜索技术不能长期保存用户兴趣和不能精准定位个人兴趣的缺点。本发明通过独创的引擎搜索结果处理机制将多个独立搜索引擎的搜索结果进行去除重复处理,并计算每条搜索结果的个性化权值PersonalRank,为用户提供最适合其搜索意图和兴趣喜好的搜索结果排列方式,使得搜索结果的准确度得到显著提高,用户的搜索需求得到最大程度的满足,用户找到自己需要的搜索结果权利要求1.一种基于用户兴趣的个性化元搜索引擎,主要由用户注册/登录单元、元搜索结果收集单元和个性化处理单元组成,其特征在于个性化处理单元,包括搜索结果预处理模块,用于接收元搜索结果收集单元送入的搜索结果原始数据,进行基于网址和基于摘要内容的去除重复处理,并将处理后的搜索结果送入个性化排序处理模块;个性化排序处理模块,用于接收搜索结果预处理模块送入的搜索结果数据,并进行基于用户兴趣和搜索意图的个性化排序处理,将排序后的搜索结果提交给用户;用户兴趣更新模块,用于捕获用户对搜索结果的点击行为,对用户点击过的搜索结果进行兴趣分析,并对用户兴趣数据库中存储的用户兴趣模型数据进行更新;用户兴趣数据库,用于存储网站注册用户的兴趣模型数据,并将这些数据提供给个性化排序处理模块进行个性化排序。2.—种基于用户兴趣的个性化元搜索引擎结果处理方法,包括-步骤l.建立并初始化用户兴趣模型数据,保存在服务器的用户兴趣数据库中;步骤2.将用户输入的搜索词语,按各独立搜索引擎要求的格式分发出去,并收集它们返回的结果,将收集的返回结果转换成统一的格式;步骤3.将转换成统一格式的搜索结果进行去除重复处理;步骤4.根据用户兴趣模型和本次搜索词语对去除重复处理后的搜索结果进行个性化排序,并将该排序结果提交给用户;步骤5.捕获用户点击的搜索结果,对其进行兴趣分析,改变兴趣种类和权值大小,并根据改变的结果更新用户兴趣数据库中用户的兴趣模型数据。3.根据权利要求2所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤l所述的建立用户兴趣模型数据,包括两种方式一是用户直接通过主动选择网站提供的兴趣类别并设置权值大小,建立该用户的用户兴趣模型数据;二是搜索引擎系统通过兴趣更新模块对用户搜索行为的兴趣分析,自动建立用户兴趣模型数据。4.根据权利要求2或3所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中所述的用户兴趣模型数据,用/(0={(。,^),(^2),...,(^,>0}表示,其中(c,,,)是用户的一个兴趣分量,c,为兴趣类别,w,为c,对应的归一化权值,该用户兴趣模型数据是用于定量描述用户兴趣喜好及其喜好程度的数据集。5.根据权利要求2所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤3所述的将转换成统一格式的搜索结果进行去除重复处理,是先将统一格式的搜索结果按照网址是否相同进行过滤,只保留网址不同的搜索结果;再将各条搜索结果的摘要内容与其它搜索结果的摘要内容进行文本比较,滤除摘要内容相似的搜索结果。6.根据权利要求2所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤4所述的根据用户兴趣模型和本次搜索词语对去除重复处理后的搜索结果的个性化排序方法,按如下步骤进行(6a)分别计算搜索词语与用户兴趣的相关度向量和搜索结果与用户兴趣的相关度向量;(6b)根据步骤(6a)得到的相关度向量,计算搜索结果与用户搜索词语的相关度向量;(6c)计算搜索结果在各独立搜索引擎上的排名得分向量;(6d)将步骤(6b)和(6c)得到的数值进行加权综合,得到每条搜索结果基于用户兴趣的权值,并按权值大小排序,得到个性化排序结果。7.根据权利要求6所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤(6a)所述的分别计算搜索词语与用户兴趣的相关度向量和搜索结果与用户兴趣的相关度向量,按照如下步骤进行(7a)按照公式s,附(e,c,hZ("、.)/2>;*2>;2,计算搜索词语Q与一个兴趣类别c,的相关度,式中,巧是Q经分词处理后的一个关键词对应在用户模型中的兴趣类别c,上的归一化权值,X;是该关键词在Q中的归一化重要度,当所有丐都为零,《>w(g,C,)=0;(7b)对用户兴趣模型中的所有兴趣类别进行相关度计算,得到搜索词语Q与用户兴趣的相关度向量^n(2,C)=(力w(ac》,…,Ww(2,cw));(7c)按照公式力—,。)=^>,%)/^>,2*^X,计算一条搜索结果A",与一个兴趣类别。的相关度,式中,w,是r,经分词处理后的一个关键词对应在用户模型中的兴趣类别c;上的归一化权值,x,是该关键词在r,中的归一化重要度,当所有w,都为零,^>^,。)=0;(7d)对用户兴趣模型中的所有兴趣类别进行相关度计算,得到一条搜索结果r与用户兴趣的相关度向量&W(r,,C)=(W'/(。,C;),…,&W(r,C"));(7e)对所有搜索结果与所有用户兴趣类别的相关度进行计算,得到搜索结果集/与用户兴趣的相关度向量&>(尺C)=C),...,C))。8.根据权利要求6所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤(6b)所述的计算搜索结果与用户搜索词语的相关度向量,按照如下步骤进行(8a)计算。与0在兴趣类别。上的相关度ww(r,,G,c;):当^w",C)中所有分量全为0时,g,=c》,否贝'Jw'附(A;,2,c》=s//w(^.,c》xw.附(g,c》;(8b)计算所有用户兴趣类别与搜索结果r,的相关度向量,得到S/w(a;,2,C)=(ww(r',2,c,)w/w",Q,O),并计算Q与的相关度s,w(《,0=丄tw附(a;,2,c);(8c)计算所有搜索结果与搜索词语的相关度,得到搜索结果集i与搜索词语的相关度向量=(②,...,力附(/"",0)。9.根据权利要求6所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤(6d)所述的计算每条搜索结果在各独立搜索引擎上的排名得分,按照如下步骤进行(9a)按照公式^妙^(0=1—fl(l—~^"),计算搜索结果r,在各独立搜索引々=f",擎上的排名得分,式中,A是包含/",的独立搜索引擎的个数,W,是在相应搜索引擎上的排名名次;(9b)计算所有搜索结果在各独立搜索引擎上的排名得分,得到搜索结果集在各独立搜索引擎上的排名得分向量『e/g/rfS£<i)=Oe/Wfe(AV)w/g/"ffi(r"))。10.根据权利要求2所述的基于用户兴趣的个性化元搜索引擎结果处理方法,其中步骤5所述的更新用户兴趣数据库中用户的兴趣模型数据,按如下步骤进行(10a)捕获用户在客户端点击的搜索结果,并传回服务器端;(10b)对该搜索结果的标题和摘要进行分词处理,得到该搜索结果的关键词集;(10c)依据关键词集进行兴趣分析,得到该用户最新的兴趣类别及相应的权值大小;(10d)根据最新的兴趣类别及相应的权值大小对用户兴趣数据库中的用户兴趣模型数据进行更新。全文摘要本发明公开了一种基于用户兴趣的个性化元搜索引擎及搜索结果处理方法。其搜索引擎包括用户注册/登录单元、元搜索结果收集单元和个性化处理单元,该个性化处理单元通过搜索结果预处理模块、个性化排序处理模块和用户兴趣更新模块,完成对搜索结果的筛选、个性化排序及对用户兴趣模型的建立和更新。其对搜索结果的处理为建立并初始化用户兴趣模型,存入服务器;将用户输入的搜索词语,按各搜索引擎要求的格式分发;将收集的返回结果转换成统一的格式,依次进行去除重复处理和个性化排序,并提交给用户;捕获用户点击的搜索结果,改变兴趣种类和权值大小,更新用户兴趣模型数据。本发明具有查询覆盖度和准确度高的优点,可用于互联网的搜索引擎。文档编号G06F17/30GK101477554SQ20091002095公开日2009年7月8日申请日期2009年1月16日优先权日2009年1月16日发明者李晓辉,杜晨光,邓双成,涛颜申请人:西安电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1