基于用户关注时间的网页文本与图像排序方法

文档序号:6464895阅读:108来源:国知局

专利名称::基于用户关注时间的网页文本与图像排序方法
技术领域
:本发明涉及计算机搜索领域,尤其涉及一种基于用户关注时间的网页文本与图像排序方法。
背景技术
:现有的个性化引擎依靠的是用户的反馈,它可以分为显式反馈和隐式反馈。我们从这两种反馈中都可以得到用户的喜好特征(Salton&Buckley1990;White,Jose,&Ruthven2001;White,Ruthven,&Jose2002)。但是用户一般都不愿意去提供显式的反馈,所以现在的研究越来越多的研究都转向隐式反馈(Granka,Joachims,&Gay2004;Guan&Cutrell2007;Fu2007)。研究表明,隐式反馈可以很好的反映用户的搜索意图(Foxetal.2005;Dou,Song,&Wen2007;Fu2007).并且从大量的隐式反馈中得到的用户喜好往往比显式反馈更加可靠。査询历史现代研究中,用得最多的隐式反馈就是用户的查询历史。Google的个性化搜索(http://www.google.com/psearch)就是基于用户的查询历史的。总的来说,基于查询历史的算法又可以分为以下两类一类是基于整个査询历史的算法,另一类是基于某个査询会话(指的是一连串相关的査询)。对于前者来说,通常算法会产生一个该用户的概要文档用来描述用户的搜索喜好。点击数据点击数据是另一种非常重要的隐式反馈,如(Dupret,Mmdock,&Piwowarski2007;Joachims2002)。在一个搜索结果页面上,我们假设用户点击过的链接比用户没有点过的链接对于此用户来说更加重要。研究者们用了很多中方法从用户的点击行为中获取用户的喜好特征。举例来说,有些研究者用一种叫RankingSVM的算法(Hershetal.1994)通过用户的点击信息来获得对该用户来说最好的网页排序。在(Radlinski&Joachims2005)—文中,作者不但从用户的单次査询中提取用户喜好,同时也从用户对同一信息的一连串査询中提取用户的喜好,这些喜好特征然后通过RankingSVM的改进算法来进行训练。Sunetal.(2005)提出了一种基于SingluarValueDecomposition的算法,它通过分析用户的点击数据来提高搜索引擎的建议系统的准确率。关注时间相对来说,关注时间是一个新型的隐式用户反馈。虽然它在近期的研究中越来越多被提到,但是关于它是否真的能够反映用户意图仍然有争辩。Kelly和Belkin(2004;2001)建议说,在文档的关注时间和它对用户的有用度之间并没有非常可靠的相互关系。但是不同的是,在他们的研究当中,关注5时间是通过测量一组用户阅读不同主题的文章而得到的平均关注时间。Halabietal.(2007)认为对于一个的用户在同一个搜索行为中关注时间,它可以很好的反映出用户的喜好。我们认为以上两个研究并不矛盾,因为他们所计算的关注时间并不相同。在这篇论文中,我们假设单一用户或者单一主题的关注时间可以很好的反映用户的喜好
发明内容本发明的目的是克服现有技术的不足,提供一种基于关注时间的个性化网页排序方法。基于用户关注时间的网页文本与图像排序方法包括以下步骤1)利用关注时间对现有网页排序进行个性化改迸,使排序结果符合用户心理;2)利用自定义的浏览器,收集文本关注时间的样本信息;3)利用自定义的浏览器,收集图片关注时间的样本信息;4)对收集的关注时间样本进行校正;5)基于文本和图片相似度来预测未知网页的关注时间;6)利用关注时间结合传统搜索技术生成个性化的网页和图片进行排序。所述的利用关注时间对现有网页排序进行个性化改进,使排序结果符合用户心理步骤将关注时间作为用户隐式反馈的来源,从而得知用户的喜好特征,进而对用户未浏览过的网页或图片进行关注时间的预测,最终根据预测的关注时间对结果进行排序,关注时间是用户在浏览一个网页或图片时花费的阅读或浏览时间。所述的利用自定义的浏览器,收集文本关注时间的样本信息步骤客户端是一个自定义的浏览器,对于文本搜索,在搜索结果页面上,搜索引擎通常会在搜索结果页面上为每个文档提供几行概要,追踪鼠标的移动位置,从而来记录用户在某个文档上花的时间,在被打开的页面上,记录用户在此页面上的活动时间,对于此文档的关注时间就是阅读概要的时间加上阅读整篇文档的时间,如果之后用户又回到己看过的页面,那么该页面的关注时间会相应增加。所述的利用自定义的浏览器,收集图片关注时间的样本信息步骤客户端是一个自定义的浏览器,对于图片搜索,搜索引擎会在结果页面上显式每个图片的缩略图,同样的,关注时间是用户看縮略图的时间加上用户看原图的时间,如果一个文档既有文字又有图片,它的关注时间就是两者之和。所述的对收集的关注时间样本进行校正步骤对收集的关注时间样本进行校正式如下Cf(",力=max(O,力—U"),O)其中O是收集的关注时间,tbasie(U)是用户用来判断此文档是否值得一读的时间,《(W,J)则是潜在的该文档d包含的关注时间。所述的基于文本和图片相似度来预测未知网页的关注时间步骤a)用5Vm(^。,W来表示文档4和文档4之间的相似度,同时&m^。,W/"ft7/,在计算两个文档的相似度之前,删除广告,网页源码中的标签,以及网页上面的导航栏;13)把每个训练样本表示为&,4)|/=,..."人其中"是当前用户阅读过的文档的个数,阅读过的文档表示为舶W,...,"j,当用户遇到一个新的文档式的时候,计算文档4和测试集中的所有文档进行相似度计算,挑选出A个具有最高相似度的文档,把&设为柳'"fm"),挑选出来的文档为4,厶...",用以下这个方程来预测《的关注时间,,,、2〃。"",',《)"《,《))其中用来控制57m"的值占多的比重,是一个很小的正整数用来防止表达式的分母为0,函数"用来去除一些相似度非常低的文档,它被定义为j、[1^"&>^(《,《)>0.010OAenv^步骤-所述的利用关注时间结合传统搜索技术生成个性化的网页和图片进行排序膝c)当用户提交一个查询请求时,服务端首先将查询重定向至传统搜索引擎,并获得返回的前n个网页,对于返回的每个页面,系统将在该用户的样本集中査找A个与文本或图片相似度最高的样本,并用权利要求8中的方法预测网页的关注时间;d)对于传统的排序,系统会生成一个关注时间偏差,那就是在传统排序中,排名越高的文档,获得更高的关注时间偏差,用如下公式定义这个偏差t一(,〕=2cxp(-;^'mw"/))(3)。加n1+exp(_/rdrawA:(/))其中ra"^^表示的文档/在Google的排序的排名,参数k用来控制关注时间随排名下降的坡度;e)从文档/的关注时间"^(/)和偏差t:^(/),获得文档z'的全局关注时间tzr〃(o=^。wra,,"(o+t=(o,参数K。v^是一个用户变量,用来控制该用户希望个性化的排名占的比重;f)最终排序将按照总关注时间的倒序排列。本发明有效地将用户的喜好结合在搜索过程中,使得最终的排名结果更加接近用户期待的理想排名,从而使得网页文本与图像搜索引擎为用户提供更好的个性化服务。图1是具体实施方式的流程图2是本例中自定义浏览器的截图3是14组文本搜索的实验结果,具体数据在表2中;图4是7组图片搜索实验的坐标图,具体数据在表3和表4中;每组实验都是由不同的用户在相同的设置下进行的,坐标上画的是用户的平均的期望排名,平均值越小,那么用户期望的图片在搜索结果中将会出现得越靠前。具体实施例方式基于关注时间的个性化网页排序方法包括以下步骤1)利用关注时间对现有网页排序进行个性化改进,使排序结果符合用户心理;2)利用自定义的浏览器,收集文本关注时间的样本信息;3)利用自定义的浏览器,收集图片关注时间的样本信息;4)对收集的关注时间样本进行校正;5)基于文本和图片相似度来预测未知网页的关注时间;6)利用关注时间结合传统搜索技术生成个性化的网页和图片进行排序。所述的利用关注时间对现有网页排序进行个性化改进,使排序结果符合用户心理步骤将关注时间作为用户隐式反馈的来源,从而得知用户的喜好特征,进而对用户未浏览过的网页或图片进行关注时间的预测,最终根据预测的关注时间对结果进行排序,关注时间是用户在浏览一个网页或图片时花费的阅读或浏览时间。所述的利用自定义的浏览器,收集文本关注时间的样本信息步骤客户端是一个自定义的浏览器,对于文本搜索,在搜索结果页面上,搜索引擎通常会在搜索结果页面上为每个文档提供几行概要,追踪鼠标的移动位置,从而来记录用户在某个文档上花的时间,在被打开的页面上,记录用户在此页面上的活动时间,对于此文档的关注时间就是阅读概要的时间加上阅读整篇文档的时间,如果之后用户又回到已看过的页面,那么该页面的关注时间会相应增加。所述的利用自定义的浏览器,收集图片关注时间的样本信息步骤客户端是一个自定义的浏览器,对于图片搜索,搜索引擎会在结果页面上显式每个图片的縮略图,同样的,关注时间是用户看縮略图的时间加上用户看原图的时间,如果一个文档既有文字又有图片,它的关注时间就是两者之和。所述的对收集的关注时间样本进行校正步骤对收集的关注时间样本进行校正式如下-<formula>formulaseeoriginaldocumentpage9</formula>其中《7是收集的关注时间,tb^(U)是用户用来判断此文档是否值得一读的时间,《(",J)则是潜在的该文档d包含的关注时间。所述的基于文本和图片相似度来预测未知网页的关注时间步骤a)用6Vm^/。,^)来表示文档4和文档A之间的相似度,同时6Vm",W/"0,7/,在计算两个文档的相似度之前,删除广告,网页源码中的标签,以及网页上面的导航栏;b)把每个训练样本表示为A"",WhW,…"人其中^7是当前用户阅读过的文档的个数,阅读过的文档表示为#'=人...,",当用户遇到一个新的文档^的时候,计算文档《和测试集中的所有文档进行相似度计算,挑选出A个具有最高相似度的文档,把A:设为w/"(70,"人挑选出来的文档为</=/,...,^,用以下这个方程来预测4的关注时间,<formula>formulaseeoriginaldocumentpage9</formula>其中用来控制S/m^的值占多的比重,是一个很小的正整数用来防止表达式的分母为0,函数C)用来去除一些相似度非常低的文档,它被定义为所述的利用关注时间结合传统搜索技术生成个性化的网页和图片进行排序步骤C)当用户提交一个査询请求时,服务端首先将査询重定向至传统搜索引擎,并获得返回的前n个网页,对于返回的每个页面,系统将在该用户的样本集中査找A个与文本或图片相似度最高的样本,并用权利要求8中的方法预测网页的关注时间;d)对于传统的排序,系统会生成一个关注时间偏差,那就是在传统排序中,排名越高的文档,获得更高的关注时间偏差,用如下公式定义这个偏差t一(o=2exp(—.mwA:(O)(3)由1+exp(—Krf.r朋A(/))其中ra"A^表示的文档/在Google的排序的排名,参数k用来控制关注时间随排名下降的坡度;e)从文档/的关注时间^自(/)和偏差t:t'(0,获得文档/的全局关注时间t="(0=、ra/,U)+t='(0,参数/^』是一个用户变量,用来控制该用户希望个性化的排名占的比重;f)最终排序将按照总关注时间的倒序排列。实施例本发明的基于用户关注时间的网页文本与图像排序方法的流程结构如图1所示。该个性化排序系统包括客户端和服务端两部分,客户端20、自定义浏览器来获取用户的关注时间,服务端包括30、样本收集模块,40、关注时间校正,50、用户数据库和60、文档数据库,70、査询界面,80、传统引擎模块,90、文档预处理模块,100、文档比较模块,110、关注时间预测模块,120、排序模块。。自定义浏览器20,对用户的鼠标移动进行追踪分析,最终得出用户在各个文档上的关注时间。在本例中,给出了由我们开发的自定义浏览器记录的对关注时间(图2)。样本收集模块30,将客户端发送的样本数据存入对应用户的数据库中,如果某文档在文档数据库中不存在,则下载并存入文档数据库。关注时间校正模块40,直接从客户端获得的预测关注时间还需要进行校正,当用户浏览一个文档时,不管此文档是否对该用户有用,用户都得花一段时间去粗略的浏览此文档。一般来说,此时获得关注时间既包括了用户的实际关注时间也包括了用户粗略浏览该文档的时间,为了克服这个问题,我们以下这个方程来校正我们原先获得的关注时间<formula>formulaseeoriginaldocumentpage11</formula>《;r是我们原先获得的关注时间,tb^(u)是用户用来判断此文档是否值得一读的时间,^(",力则是潜在的该文档d包含的关注时间。用户数据库50,存储系统各个用户对文档的关注时间,在本例中用MYSQL存储。文档数据库60,存储文档(文本网页和图片)的数据,在本例中用MYSQL存储。查询界面70,提供一个用户查询的web入口,提供文本搜索和图片搜索两项服务。在本例中,此査询界面用jsp实现。传统引擎模块80,当用户提交一个查询请求时,服务端会对传统搜索引擎(比如Google)的结果页面进行解析并获取其返回结果中的前300个文档,并将文档下载存至文档服务器。文档预处理模块90,直接从网站下载下来的网页包含很多无用信息,比如HTML标签,广告栏,导航栏等。此模块用于去除网页中的无用信息,保留用户将关注的主体文档。在本例中,我们实现了,去除HTML标签功能。文档比较模块100,选用的文本相似度算法为extendedJaccard方法(Tanimoto);选用的图片相似度算法为基于"AutoColorCorrelogram"(Huangetal.1997)的相似度算法。关注时间预测模块110,包含以下几个步骤a.)此模块对于传统引擎模块中的每个文档都进行关注时间的预测。首先我们把每个训练样本表示为(W(u,dOI1=1,...11},其中n是当前用户阅读过的文档的个数。阅读过的文档表示为di(i=l,...,n)。对于传统引擎返回的文档《的时候,我们会计算文档4和测试集中的所有文档进行相似度计算。然后我们会挑选出k个具有最高相似度的文档。在我们的实验中,我们把k设为min(10,n)。我们挑选出来的文档为4(1=1,...永).然后我们用以下这个方程来预测4的关注时间。其中y用来控制Sim(,)的值占多的比重,s是一个很小的正整数用来防止表达式的分母为0。函数5(,)用来去除一些相似度非常低的文档,它被定义为<formula>formulaseeoriginaldocumentpage11</formula>b.)在系统运行的初期,我们还会将传统引擎的排名转化成一个关注时间偏差。我们用下面这个方程将传统排名转化成一个值在O和1之间的标准化关注时间偏差t一(o=2exp(-;^.mw柳幽1+exp(—/irdra/A:(/))其中m"柳表示的文档i在传统搜索引擎的排名。我们之所以选择这样一个式子是因为它可以把网页排名信息转换成关注时间,而且让排名较低的文档转化所得的关注时间相对更短。参数&用来控制关注时间随排名下降的坡度,在我们是实验中,我们设定为0.2。c.)一旦我们得到了文档i的关注时间tat^(i)和偏差^^,我们可以获得该文档的全局关注时间CT"=K。v"/_,/。参数K,^是一个用户变量,用来控制该用户希望个性化的排名占的比重。最终网页的排名就是按照全局关注时间的降序来排列的。我们实现了种自动设置K。ve^值的方法,当训练集中的样本很少的时候,K。ve^值较小,并且当训练集中的样本变的越来越多的时候,Kove^值越来越大。之所以这样是因为我们的排序算法从根本上来说是一个学习算法。但是,就像其他学习算法一样,当训练样本集还很小的时候,算法会产生比较差的结果,因此我们需要借鉴传统引擎的排序结果。在我们的实验中,我们一个S形函数去自动验证K。ve^的值,发现它是一个常量,通常为0.1。排序模块120,排序模块将结果按照所有文档按照全局关注时间进行倒序排列,并将结果返回给用户。表14的实验结果清晰的显示出本方法的优越性;表l是用"网页搜索技术"(Websearchtechnology)作为关键词的文本搜索得到的前17项文本的各自排名名次;各个栏从左到右分别是用户的理想排名,网页所搜引擎Google的排名,以及用户读过2,5,8,10,15个网页之后的排名;最后一行表示的是各个排名与用户理想排名之间的排名绝对误差总和;表1<table>tableseeoriginaldocumentpage13</column></row><table>表3是一组以"毕加索"(Picasso)为关键词的图像搜索实验数据;用户想用"Picasso"去查找Picasso的自画像,在60个图片中仅有6是符合用户需求的;表中每一栏表示的是这些符合需求的图片在图像搜索引擎Google,以及本方法得出的的排名;Rklst,Rk2nd,Rk3rd分别表示的是用户在阅读过搜索结果第l,2,3页之后的排名情况;Rkgoogle表示的是这些图像在Google图像搜索的排名情况。最后一行是这些图像在各个情况下的平均排名;平均排名值越小,用户所需求的图像将出现的越早;表3<table>tableseeoriginaldocumentpage14</column></row><table>表4是另外6组图像搜索的实验数据;实验中每个用户都被要求在60个图片中寻找他所需要的图像;第一列为搜索关键词,第二列为用户所需要的图片个数;RkGoogle表示在网页图像搜索引擎Google中用户所需网页的平均排名;Rklst、Rk2nd、Rk3rd分别表示的是用户在阅读过搜索结果第l、2、3页之后,用户所需网页图像的平均排名;表4<table>tableseeoriginaldocumentpage14</column></row><table>上述表格表明,本发明有效地将用户的喜好结合在搜索过程中,使得最终的排名结果更加接近用户期待的理想排名,从而使得网页文本与图像搜索引擎为用户提供更好的个性化服务。以上所述仅为本发明的基于关注时间的面向用户的个性化网页排序方法及系统的较佳实施例,并非用以限定本发明的实质技术内容的范围。本发明的基于关注时间的面向用户的个性化网页排序方法及系统,其实质技术内容是广泛的定义于权利要求书中,任何他人所完成的技术实体或方法,若是与权利要求书中所定义者完全相同,或是同一等效的变更,均将被视为涵盖于此专利保护范围之内。权利要求1.一种基于用户关注时间的网页文本与图像排序方法,其特征在于包括以下步骤1)利用关注时间对现有网页排序进行个性化改进,使排序结果符合用户心理;2)利用自定义的浏览器,收集文本关注时间的样本信息;3)利用自定义的浏览器,收集图片关注时间的样本信息;4)对收集的关注时间样本进行校正;5)基于文本和图片相似度来预测未知网页的关注时间;6)利用关注时间结合传统搜索技术生成个性化的网页和图片进行排序。2.根据权利要求1所述的一种基于用户关注时间的网页文本与图像排序方法,其特征在于所述的利用关注时间对现有网页排序进行个性化改进,使排序结果符合用户心理步骤将关注时间作为用户隐式反馈的来源,从而得知用户的喜好特征,进而对用户未浏览过的网页或图片进行关注时间的预测,最终根据预测的关注时间对结果进行排序,关注时间是用户在浏览一个网页或图片时花费的阅读或浏览时间。3.根据权利要求1所述的一种基于用户关注时间的网页文本与图像排序方法,其特征在于所述的利用自定义的浏览器,收集文本关注时间的样本信息步骤客户端是一个自定义的浏览器,对于文本搜索,在搜索结果页面上,搜索引擎通常会在搜索结果页面上为每个文档提供几行概要,追踪鼠标的移动位置,从而来记录用户在某个文档上花的时间,在被打开的页面上,记录用户在此页面上的活动时间,对于此文档的关注时间就是阅读概要的时间加上阅读整篇文档的时间,如果之后用户又回到已看过的页面,那么该页面的关注时间会相应增加。4.根据权利要求1所述的一种基于用户关注时间的网页文本与图像排序方法,其特征在于所述的利用自定义的浏览器,收集图片关注时间的样本信息步骤客户端是一个自定义的浏览器,对于图片搜索,搜索引擎会在结果页面上显式每个图片的缩略图,同样的,关注时间是用户看缩略图的时间加上用户看原图的时间,如果一个文档既有文字又有图片,它的关注时间就是两者之和。5.根据权利要求1所述的一种基于用户关注时间的网页文本与图像排序方法,其特征在于所述的对收集的关注时间样本进行校正步骤对收集的关注时间样本进行校正式如下<formula>formulaseeoriginaldocumentpage3</formula>其中O是收集的关注时间,tb^(U)是用户用来判断此文档是否值得一读的时间,c(",rf)则是潜在的该文档d包含的关注时间。6.根据权利要求1所述的一种基于用户关注时间的网页文本与图像排序方法,其特征在于所述的基于文本和图片相似度来预测未知网页的关注时间步骤a)用6Vw^/。,^)来表示文档A和文档《之间的相似度,同时S/w(^。,《>爪v,在计算两个文档的相似度之前,删除广告,网页源码中的标签,以及网页上面的导航栏;b)把每个训练样本表示为/4/",刷其中"是当前用户阅读过的文档的个数,阅读过的文档表示为4"=7,...,",当用户遇到一个新的文档《的时候,计算文档4和测试集中的所有文档进行相似度计算,挑选出A个具有最高相似度的文档,把&设为w/"(70,"人挑选出来的文档为^^7,…力,用以下这个方程来预测《的关注时间,其中用来控制^'w"的值占多的比重,是一个很小的正整数用来防止表达式的分母为0,函数^用来去除一些相似度非常低的文档,它被定义为7.根据权利要求1所述的一种基于用户关注时间的网页文本与图像排序方法,其特征在于所述的利用关注时间结合传统搜索技术生成个性化的网页和图片进行排序步骤c)当用户提交一个査询请求时,服务端首先将査询重定向至传统搜索引擎,并获得返回的前n个网页,对于返回的每个页面,系统将在该用户的样本集中查找Fh与文本或图片相似度最高的样本,并用权利要求8中的方法预测网页的关注时间;d)对于传统的排序,系统会生成一个关注时间偏差,那就是在传统排序中,排名越高的文档,获得更高的关注时间偏差,用如下公式定义这个偏差<formula>formulaseeoriginaldocumentpage3</formula>其中ra"Ar^表示的文档/在Google的排序的排名,参数K用来控制关注时间随排名下降的坡度;e)从文档z'的关注时间^^(0和偏差tf:'W,获得文档的全局关注时间t=〃(0=^ra,,C')+t=(/),参数/^^是一个用户变量,用来控制该用户希望个性化的排名占的比重;f)最终排序将按照总关注时间的倒序排列。全文摘要本发明公开了一种基于用户关注时间的网页文本与图像排序方法。包括以下步骤1)利用关注时间对现有网页排序进行个性化改进,使排序结果符合用户心理;2)利用自定义的浏览器,收集文本关注时间的样本信息;3)利用自定义的浏览器,收集图片关注时间的样本信息;4)对收集的关注时间样本进行校正;5)基于文本和图片相似度来预测未知网页的关注时间;6)利用关注时间结合传统搜索技术生成个性化的网页和图片进行排序。本发明有效地将用户的喜好结合在搜索过程中,使得最终的排名结果更加接近用户期待的理想排名,从而使得网页文本与图像搜索引擎为用户提供更好的个性化服务。文档编号G06F17/30GK101320387SQ20081012000公开日2008年12月10日申请日期2008年7月11日优先权日2008年7月11日发明者刘智满,徐颂华,浩江,潘云鹤申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1