基于眼球跟踪的网页文本个性化搜索方法

文档序号:6464950阅读:506来源:国知局

专利名称::基于眼球跟踪的网页文本个性化搜索方法
技术领域
:本发明涉及计算机搜索领域,尤其涉及一种基于眼球跟踪的网页文本个性化搜索方法。
背景技术
:现有的个性化引擎依靠的是用户的反馈,它可以分为显式反馈和隐式反馈。我们从这两种反馈中都可以得到用户的喜好特征(Salton&Buckley1990;White,Jose,&Ruthven2001;White,Ruthven,&Jose2002)。但是用户一般都不愿意去提供显式的反馈,所以现在的研究越来越多的研究都转向隐式反馈(Granka,Joachims,&Gay2004;Guan&Cutrell2007;Fu2007)。研究表明,隐式反馈可以很好的反映用户的搜索意图(Foxetal.2005;Dou,Song,&Wen2007;Fu2007).并且从大量的隐式反馈中得到的用户喜好往往比显式反馈更加可靠。査询历史现代研究中,用得最多的隐式反馈就是用户的査询历史。Google的个性化搜索(http://www.google.com/psearch)就是基于用户的查询历史的。总的来说,基于查询历史的算法又可以分为以下两类一类是基于整个査询历史的算法,另一类是基于某个查询会话(指的是一连串相关的査询)。对于前者来说,通常算法会产生一个该用户的概要文本用来描述用户的搜索喜好。点击数据点击数据是另一种非常重要的隐式反馈,如(Dupret,Mrudock,&Piwowarski2007;Joachims2002)。在一个搜索结果页面上,我们假设用户点击过的链接比用户没有点过的链接对于此用户来说更加重要。研究者们用了很多中方法从用户的点击行为中获取用户的喜好特征。举例来说,有些研究者用一种叫RankingSVM的算法(Hershetal.1994)通过用户的点击信息来获得对该用户来说最好的网页排序。在(Radlinski&Joachims2005)—文中,作者不但从用户的单次查询中提取用户喜好,同时也从用户对同一信息的一连串査询中提取用户的喜好,这些喜好特征然后通过RankingSVM的改进算法来进行训练。Sunetal.(2005)提出了一种基于SingluarValueDecomposition的算法,它通过分析用户的点击数据来提高搜索引擎的建议系统的准确率。关注时间相对来说,关注时间是一个新型的隐式用户反馈。虽然它在近期的研究中越来越多被提到,但是关于它是否真的能够反映用户意图仍然有争辩。Kelly和Belkin(2004;2001)建议说,在文本的关注时间和它对用户的有用度之间并没有非常可靠的相互关系。但是不同的是,在他们的研究当中,关注时间是通过测量一组用户阅读不同主题的文章而得到的平均关注时间。Halabietal.(2007)认为对于一个的用户在同一个搜索行为中关注时间,它可以很好的反映出用户的喜好。我们认为以上两个研究并不矛盾,因为他们所计算的关注时间并不相同。
发明内容本发明的目的是克服现有技术的不足,提供一种基于眼球跟踪的网页文本个性化搜索方法。基于眼球跟踪的网页文本个性化搜索方法包括以下步骤1)利用眼球跟踪装置,获取用户对网页文本关注时间的样本信息;2)对获取到的用户关注时间样本进行校正;3)对未知网页文本,运用决策树的方法动态选择合适的文本相似度算法;4)基于文本相似度来预测未知网页文本的用户关注时间;5)利用用户关注时间结合传统搜索技术生成个性化的网页文本搜索结果。所述的利用眼球跟踪装置,获取用户对网页文本关注时间的样本信息步骤(a)在网页文本搜索结果页面上,搜索引擎通常会在搜索结果页面上为每个网页文本提供几行概要;利用眼球跟踪装置,追踪用户眼球的移动位置,从而来记录用户在某个网页文本概要上花的时间;(b)在被打开的网页文本页面上,记录用户在此页面上眼球装置移动的时间;(c)对于此网页文本的关注时间就是阅读该文本概要的时间加上阅读被打开的该文本页面的时间;如果之后用户又回到该文本已看过的页面,那么该网页文本的用户关注时间会相应增加。所述的对获取到的用户关注时间样本进行校正步骤(d)对获取到的用户关注时间样本通过校正公式<formula>formulaseeoriginaldocumentpage6</formula>进行校正,其中《r是从步骤(a)(c)中收集到的用户关注时间,u^是用户用来判断此文本是否值得一读的时间,。f("^)则是校正后的对该网页文本d的用户关注时间。所述的对未知网页文本,运用决策树的方法动态选择合适的文本相似度算法步骤-(e)任意挑选5个己有的文本相似度算法A1,A2,…,A5;并从步骤(a)(d)收集到的样本集中任意挑选其中90%的文本作为训练集,另10%的文本作为测试集;(f)对训练集与样本集中的每个文本A提取出特征向量F^):首先使用已有的非负矩阵的因素分解方法对训练集中的文本进行聚类,每个文本都将获得几个分值,每个分值表示的是该文本对某一聚类集合的依附程度,选择最高的3个依附分值和相应聚类集合编号作为特征向量,问=(^问力问^问/2问爲问/其中M问,M问,M问是有最高依附分值的三个聚类集合编号,力问,力问,力问则是对应的依附分值;(g)对于训练集与测试集中每个文本",分别用每个文本相似度算法Ai预测算法预测它的关注时间,然后分别和真实关注时间进行相减,得到误差error;从A,A5中找到其中误差error最小的算法A一d);(h)使用一个决策树来学习每个文本d的特征向量F^)与具有最小误差error的算法A。pt(d)之间的关系;即以文本特征向量、算法编号分别作为决策树的输入输出,并使用训练集中的样本对决策树做训练,当决策树的输出在测试集中样本上的平均误差最小时,保存此时的决策树;(i)用训练好的决策树为未知网页文本《选择最合适的文本相似度算法;所述的基于文本相似度来预测未知网页文本的用户关注时间步骤(j)用&'m^/。,^)来表示文本A和文本《之间的相似度,同时^m",^)e/0,/7,在计算两个文本的相似度之前,删除广告,网页源码中的标签,以及网页上面的导航栏;(k)把每个己通过眼球跟踪获取到用户关注事件的网页文本样本集表示为/4/",WI—7,...w人其中w是当前用户阅读过的文本的个数,阅读过的文本表示为《"=7,...,^,当用户遇到一个新的文本^的时候,计算文本4和样本集中的所有文本进行相似度计算,挑选出A:个具有最高相似度的文本,把A:设为m/"(7a"力挑选出来的文本为《//=7,...^,用以下这个公式来预测4的用户关注时间,<formula>formulaseeoriginaldocumentpage7</formula>其中y用来控制&'附^的值占多的比重^是一个很小的正整数用来防止表达式的分母为O,函数^J用来去除一些相似度非常低的文本,它被定义为<formula>formulaseeoriginaldocumentpage8</formula>所述的利用用户关注时间结合传统搜索技术生成个性化的网页文本搜索结果步骤(1)当用户提交一个査询请求时,服务端首先将査询重定向至传统搜索引擎,并获得返回的前n个网页文本,对于返回的每个页面,系统将在该用户的样本集中査找t个与文本相似度最高的样本,并用步骤(D(k)中的方法预测该网页文本的关注时间;(m)对于传统的排序,系统会生成一个关注时间偏差,那就是在传统排序中,排名越高的文本,获得更高的关注时间偏差,用如下公式定义这个偏差<formula>formulaseeoriginaldocumentpage8</formula>其中ra"^^表示的文本/在传统网络文本搜索引擎的排序的排名,参数&用来控制关注时间随排名下降的坡度;(n)从文本z'的关注时间^^(/)和偏差t:^(/),获得文本/的全局关注时间<formula>formulaseeoriginaldocumentpage8</formula>参数^』是一个用户变量,用来控制该用户希望个性化的排名占的比重;(o)最终排序将按照总关注时间的倒序排列,生成搜索结果。本发明有效地将用户的喜好结合在搜索过程中,充分的利用了眼球跟踪技术获取用户当前的兴趣所在,并利用机器学习技术中的决策树动态选择文本相似度算法,更加准确的预测了未知文本对用户的潜在吸引力,使得最终的搜索排名结果更加接近用户期待的理想排名,从而使得网页文本引擎为用户提供更好的个性化服务。图1是基于眼球跟踪的网页文本个性化搜索方法的实施流程图;图2是14组文本搜索的实验结果图。具体实施例方式基于眼球跟踪的网页文本个性化搜索方法包括以下步骤1)利用眼球跟踪装置,获取用户对网页文本关注时间的样本信息;2)对获取到的用户关注时间样本进行校正;3)对未知网页文本,运用决策树的方法动态选择合适的文本相似度算法;4)基于文本相似度来预测未知网页文本的用户关注时间;5)利用用户关注时间结合传统搜索技术生成个性化的网页文本搜索结果。所述的利用眼球跟踪装置,获取用户对网页文本关注时间的样本信息步骤(a)在网页文本搜索结果页面上,搜索引擎通常会在搜索结果页面上为每个网页文本提供几行概要;利用眼球跟踪装置,追踪用户眼球的移动位置,从而来记录用户在某个网页文本概要上花的时间;(b)在被打开的网页文本页面上,记录用户在此页面上眼球装置移动的时间;(c)对于此网页文本的关注时间就是阅读该文本概要的时间加上阅读被打开的该文本页面的时间;如果之后用户又回到该文本已看过的页面,那么该网页文本的用户关注时间会相应增加。所述的对获取到的用户关注时间样本进行校正步骤(d)对获取到的用户关注时间样本通过校正公式<formula>formulaseeoriginaldocumentpage9</formula>进行校正,其中trawatr是从步骤(a)(c)中收集到的用户关注时间,tbasic(U)是用户用来判断此文本是否值得一读的时间,tinfatt(u,d)则是校正后的对该网页文本d的用户关注时间。所述的对未知网页文本,运用决策树的方法动态选择合适的文本相似度算法'(e)任意挑选5个已有的文本相似度算法A1,A2,…,A5;并从步骤(a)(d)收集到的样本集中任意挑选其中90%的文本作为训练集,另10%的文本作为测试集;(f)对训练集与样本集中的每个文本A提取出特征向量文本d:首先使用已有的非负矩阵的因素分解方法对训练集中的文本进行聚类,每个文本都将获得几个分值,每个分值表示的是该文本对某一聚类集合的依附程度,选择最高的3个依附分值和相应聚类集合编号作为特征向量<formula>formulaseeoriginaldocumentpage9</formula>其中AO问,M问,M问是有最高依附分值的三个聚类集合编号,力问,力问,力问则是对应的依附分值;(g)对于训练集与测试集中每个文本",分别用每个文本相似度算法Ai预测算法预测它的关注时间,然后分别和真实关注时间进行相减,得到误差error;从A广As中找到其中误差error最小的算法Aopt(d);(h)使用一个决策树来学习每个文本d的特征向量尸f^与具有最小误差error的算法A申(d)之间的关系;即以文本特征向量、算法编号分别作为决策树的输入输出,并使用训练集中的样本对决策树做训练,当决策树的输出在测试集中样本上的平均误差最小时,保存此时的决策树;(i)用训练好的决策树为未知网页文本《选择最合适的文本相似度算法;所述的基于文本相似度来预测未知网页文本的用户关注时间步骤(j)用&'m^/。,^)来表示文本^和文本《之间的相似度,同时5Vm化,^)e/"0,77,在计算两个文本的相似度之前,删除广告,网页源码中的标签,以及网页上面的导航栏;(k)把每个已通过眼球跟踪获取到用户关注事件的网页文本样本集表示为/4,,刷—7,...w人其中w是当前用户阅读过的文本的个数,阅读过的文本表示为当用户遇到一个新的文本《的时候,计算文本4和样本集中的所有文本进行相似度计算,挑选出&个具有最高相似度的文本,把t设为m/"(70,",挑选出来的文本为#/=/,...力,用以下这个公式来预测《的用户关注时间,其中y用来控制^mfj的值占多的比重,s是一个很小的正整数用来防止表达式的分母为0,函数^J用来去除一些相似度非常低的文本,它被定义为所述的利用用户关注时间结合传统搜索技术生成个性化的网页文本搜索结果步骤(1)当用户提交一个查询请求时,服务端首先将查询重定向至传统搜索引擎,并获得返回的前n个网页文本,对于返回的每个页面,系统将在该用户的样本集中查找A个与文本相似度最高的样本,并用步骤(j)(k)中的方法预测该网页文本的关注时间;(m)对于传统的排序,系统会生成一个关注时间偏差,那就是在传统排序中,排名越高的文本,获得更高的关注时间偏差,用如下公式定义这个偏差<formula>formulaseeoriginaldocumentpage10</formula>其中ra"A:^表示的文本/在传统网络文本搜索引擎的排序的排名,参数^用来控制关注时间随排名下降的坡度;(n)从文本/的关注时间"^(0和偏差O〕,获得文本/的全局关注时间t=〃(0=&—C')+t=(0,参数/^^是一个用户变量,用来控制该用户希望个性化的排名占的比重;(o)最终排序将按照总关注时间的倒序排列,生成搜索结果。实施例本发明的基于眼球跟踪的网页文本个性化搜索方法的流程结构如图1所示。该个性化排序系统包括客户端和服务端两部分,客户端通过20、眼球跟踪装置来获取用户的关注时间,服务端包括30、样本收集模块,40、关注时间校正,50、用户数据库和60、文档数据库,70、査询界面,80、传统引擎模块,90、文档预处理模块,100、文档比较模块,110、关注时间预测模块,120、排序模块。眼球跟踪装置20,利用先进的眼球运动捕捉仪器,分析当前用户视线所在文档的位置,以及用户在该文档上的关注时间。在本例中眼球跟踪装置采用普通摄像头(LogitechQuickcamNotebookPro)搭配开源眼球跟踪系统opengazer(http:〃www.inference.phy.cam.ac.uk/opengazer/)组装而成<=样本收集模块30,将客户端发送的样本数据存入对应用户的数据库中,如果某文档在文档数据库中不存在,则下载并存入文档数据库。关注时间校正模块40,直接从客户端获得的预测关注时间还需要进行校正,当用户浏览一个文档时,不管此文档是否对该用户有用,用户都得花一段时间去粗略的浏览此文档。一般来说,此时获得关注时间既包括了用户的实际关注时间也包括了用户粗略浏览该文档的时间,为了克服这个问题,我们需要此模块来校正我们原先获得的关注时间。用户数据库50,存储系统各个用户对文档的关注时间,在本例中用MYSQL存储。文档数据库60,存储文档的数据,在本例中用MYSQL存储。査询界面70,提供一个用户査询的web入口,提供文本搜索服务。在本例中,此査询界面用jsp实现。传统引擎模块80,当用户提交一个査询请求时,服务端会对传统搜索引擎(比如Google)的结果页面进行解析并获取其返回结果中的前300个文档,并将文档下载存至文档服务器。文档预处理模块90,直接从网站下载下来的网页包含很多无用信息,比如HTML标签,广告栏,导航栏等。此模块用于去除网页中的无用信息,保留用户将关注的主体文档。在本例中,我们实现了,去除HTML标签功能。文档比较模块100,我们用决策树算法动态的选择最适合的文本相似度比较算法。我们挑选了5个文本相似度算法A1,A2,…,A5。对于训练集中的样本,我们随机的选择90%的样本作为训练样本,剩下的10%作为测试样本。对于测试集中每个文档《和算法Ai,我们用预测算法预测它的关注时间,然后和真实关注时间进行比较,我们可以得到一个误差error,表示为(《,Ai,error),这样我们可以从A广A5中找到最小误差的算法A^。接下来我们将对决策树进行训练,此决策树的输入是一个特征向量,输出是对应相似度算法的标识。我们对每个文档4提取出一个特征向量F(《),直接的是将dx中的每个单词作为特征会使特征空间变得巨大。因此我们引入了一个聚类算法来生成特征向量F(4)使得特征变小。在这些文档被聚合之后,每个文档都有几个分值,每个分值表示的是该文档对某一聚集的依附程度,我们选择最高的3个依附分值和聚集标识作为特征向量-N"4),N2(4),N3(dx)是有最高依附分值的三个聚集标识,f!(4),f2(dx),f3(4)则是对应的依附分值。接下来我们就用新生成的特征向量来训练决策树,为了防止过度训练,我们用10-folder交叉验证的方法来测试决策树。一旦决策树生成,我们将在运行过程中动态的决定用什么文本相似度算法来进行相似度计算。在本例中,我们选用的5个文本相似度算法为cosine相似度算法,Jaccard算法,extendedJaccard方法(Tanimoto),基于Euclidean距离的相似度和基于Dice,s系数相似度算法。实施例中所用聚类算法是non-negativematrixfactorization(Xu,Liu,&Gong2003)。关注时间预测模块110,包含以下几个步骤a.)此模块对于传统引擎模块中的每个文档都进行关注时间的预测。首先我们把每个训练样本表示为(W(u,di)li-l,...n),其中n是当前用户阅读过的文档的个数。阅读过的文档表示为di(i-l,...,n)。对于传统引擎返回的文档4的时候,我们会计算文档《和测试集中的所有文档进行相似度计算。然后我们会挑选出k个具有最高相似度的文档。在我们的实施例中,我们把k设为min(10,n)。我们挑选出来的文档为di(i-l,...,k).然后我们用以下这个方程来预测dx的关注时间。<formula>formulaseeoriginaldocumentpage12</formula>其中Y用来控制Sim(,)的值占多的比重,e是一个很小的正整数用来防止表达式的分母为0。函数3(,)用来去除一些相似度非常低的文档,它被定义为<formula>formulaseeoriginaldocumentpage13</formula>b.)在系统运行的初期,我们还会将传统引擎的排名转化成一个关注时间偏差。我们用下面这个方程将传统排名转化成一个值在O和1之间的标准化关注<formula>formulaseeoriginaldocumentpage13</formula>其中rawi^表示的文档液传统搜索引擎的排名。我们之所以选择这样一个式子是因为它可以把网页排名信息转换成关注时间,而且让排名较低的文档转化所得的关注时间相对更短。参数^用来控制关注时间随排名下降的坡度,在我们是实施例中,我们设定为0.2。C.)一旦我们得到了文档i的关注时间Wen(i)和偏差dS'',我们可以获得该文档的全局关注时间=K。,,Z,,ra/。参数K。v^n是一个用户变量,用来控制该用户希望个性化的排名占的比重。最终网页的排名就是按照全局关注时间的降序来排列的。我们实现了种自动设置Kove^值的方法,当训练集中的样本很少的时候,Kowan值较小,并且当训练集中的样本变的越来越多的时候,Ko,n值越来越大。之所以这样是因为我们的排序算法从根本上来说是一个学习算法。但是,就像其他学习算法一样,当训练样本集还很小的时候,算法会产生比较差的结果,因此我们需要借鉴传统引擎的排序结果。在我们的实施例中,我们一个S形函数去自动验证Koveran的值,发现它是一个常量,通常为排序模块120,排序模块将结果按照所有文档按照全局关注时间进行倒序排列,并将结果返回给用户。表12的实验结果清晰的显示出本方法的优越性;表l是用"网页搜索技术"(Websearchtechnology)作为关键词的文本搜索得到的前17项文本的各自排名名次;各个栏从左到右分别是用户的理想排名,网页搜索引擎Google的排名,以及用户读过2,5,8,10,15个网页之后的排名;最后一行表示的是各个排名与用户理想排名之间的排名绝对误差总和;时间偏差:表l<table>tableseeoriginaldocumentpage14</column></row><table>表2是14个不同的用户对不同关键词做文本搜索的实验数据;每一行表示每组实验中所得排名与用户理想排名之间的排名绝对误差总和,这些数据也以图形化的形式显示在图2中;表2<table>tableseeoriginaldocumentpage14</column></row><table>上述表格表明,本发明有效地将用户的喜好结合在搜索过程中,使得最终的排名结果更加接近用户期待的理想排名,从而使得网页文本搜索引擎为用户提供更好的个性化服务。以上所述仅为本发明的基于眼球跟踪的网页文本个性化搜索方法基于关注时间的面向用户的个性化网页排序方法及系统的较佳实施例,并非用以限定本发明的实质技术内容的范围。本发明的基于眼球跟踪的网页文本个性化搜索方法,其实质技术内容是广泛的定义于权利要求书中,任何他人所完成的技术实体或方法,若是与权利要求书中所定义者完全相同,或是同一等效的变更,均将被视为涵盖于此专利保护范围之内。权利要求1.一种基于眼球跟踪的网页文本个性化搜索方法,其特征在于包括以下步骤1)利用眼球跟踪装置,获取用户对网页文本关注时间的样本信息;2)对获取到的用户关注时间样本进行校正;3)对未知网页文本,运用决策树的方法动态选择合适的文本相似度算法;4)基于文本相似度来预测未知网页文本的用户关注时间;5)利用用户关注时间结合传统搜索技术生成个性化的网页文本搜索结果。2.根据权利要求1所述的一种基于眼球跟踪的网页文本个性化搜索方法,其特征在于所述的利用眼球跟踪装置,获取用户对网页文本关注时间的样本信息步骤(a)在网页文本搜索结果页面上,搜索引擎通常会在搜索结果页面上为每个网页文本提供几行概要;利用眼球跟踪装置,追踪用户眼球的移动位置,从而来记录用户在某个网页文本概要上花的时间;(b)在被打开的网页文本页面上,记录用户在此页面上眼球装置移动的时间;(c)对于此网页文本的关注时间就是阅读该文本概要的时间加上阅读被打开的该文本页面的时间;如果之后用户又回到该文本已看过的页面,那么该网页文本的用户关注时间会相应增加。3.根据权利要求1所述的一种基于眼球跟踪的网页文本个性化搜索方法,其特征在于所述的对获取到的用户关注时间样本进行校正步骤(d)对获取到的用户关注时间样本通过校正公式<formula>formulaseeoriginaldocumentpage2</formula>进行校正,其中CT是从步骤(a)(c)中收集到的用户关注时间,U"j是用户用来判断此文本是否值得一读的时间,Cf(",c/)则是校正后的对该网页文本"的用户关注时间。4.根据权利要求1所述的一种基于眼球跟踪的网页文本个性化搜索方法,其特征在于所述的对未知网页文本,运用决策树的方法动态选择合适的文本相似度算法步骤(e)任意挑选5个已有的文本相似度算法A1,A2,…,A5;并从步骤(a)(d)收集到的样本集中任意挑选其中90%的文本作为训练集,另10%的文本作为测试集;(f)对训练集与样本集中的每个文本",提取出特征向量F^):首先使用已有的非负矩阵的因素分解方法对训练集中的文本进行聚类,每个文本都将获得几个分值,每个分值表示的是该文本对某一聚类集合的依附程度,选择最高的3个依附分值和相应聚类集合编号作为特征向量其中A/;问,M问,A^问是有最高依附分值的三个聚类集合编号,力问,力问,力问则是对应的依附分值;(g)对于训练集与测试集中每个文本A分别用每个文本相似度算法Ai预测算法预测它的关注时间,然后分别和真实关注时间进行相减,得到误差error;从A「As中找到其中误差error最小的算法A。pt(d);(h)使用一个决策树来学习每个文本d的特征向量^r《与具有最小误差error的算法A申(d)之间的关系;即以文本特征向量、算法编号分别作为决策树的输入输出,并使用训练集中的样本对决策树做训练,当决策树的输出在测试集中样本上的平均误差最小时,保存此时的决策树;(i)用训练好的决策树为未知网页文本4选择最合适的文本相似度算法。5.根据权利要求1所述的一种基于眼球跟踪的网页文本个性化搜索方法,其特征在于所述的基于文本相似度来预测未知网页文本的用户关注时间步骤(j)用5Vm^。,^)来表示文本^和文本4之间的相似度,同时S^^。,^)e/"0,U,在计算两个文本的相似度之前,删除广告,网页源码中的标签,以及网页上面的导航栏;(k)把每个已通过眼球跟踪获取到用户关注事件的网页文本样本集表示为A/",力l/=7,..."人其中"是当前用户阅读过的文本的个数,阅读过的文本表示为,"入当用户遇到一个新的文本4的时候,计算文本^和样本集中的所有文本进行相似度计算,挑选出Fh具有最高相似度的文本,把A设为m/"(70,"」,挑选出来的文本为4"=,...,&,用以下这个公式来预测4的用户关注时间,其中y用来控制S/m^的值占多的比重,e是一个很小的正整数用来防止表达式的分母为0,函数(5"用来去除一些相似度非常低的文本,它被定义为6.根据权利要求1所述的一种基于眼球跟踪的网页文本个性化搜索方法,^问=(^问力问,^2问/2问,^问/3(^)2^(,。"(",《)S/myW,^^W,《》(57wyW,《W,,《》+e其特征在于所述的利用用户关注时间结合传统搜索技术生成个性化的网页文本搜索结果步骤(1)当用户提交一个查询请求时,服务端首先将查询重定向至传统搜索引擎,并获得返回的前n个网页文本,对于返回的每个页面,系统将在该用户的样本集中查找fc个与文本相似度最高的样本,并用步骤(j)(k)中的方法预测该网页文本的关注时间;(m)对于传统的排序,系统会生成一个关注时间偏差,那就是在传统排序中,排名越高的文本,获得更高的关注时间偏差,用如下公式定义这个偏差<formula>formulaseeoriginaldocumentpage4</formula>其中ra"A:(^表示的文本/在传统网络文本搜索引擎的排序的排名,参数w用来控制关注时间随排名下降的坡度;(n)从文本z'的关注时间/自(/)和偏差t^(0,获得文本/的全局关注时间<formula>formulaseeoriginaldocumentpage4</formula>,参数^^是一个用户变量,用来控制该用户希望个性化的排名占的比重;(0)最终排序将按照总关注时间的倒序排列,生成搜索结果。全文摘要本发明公开了一种基于眼球跟踪的网页文本个性化搜索方法。该方法包括以下步骤1)利用眼球跟踪装置,获取用户对网页文本关注时间的样本信息;2)对获取到的用户关注时间样本进行校正;3)对未知网页文本,运用决策树的方法动态选择合适的文本相似度算法;4)基于文本相似度来预测未知网页文本的用户关注时间;5)利用用户关注时间结合传统搜索技术生成个性化的网页文本搜索结果。本发明有效地通过眼球跟踪装置获取到了用户的个人阅读兴趣,将用户的喜好结合在网页文本搜索过程中,使得最终的文本搜索排名结果更加接近用户期待的理想排名。文档编号G06F17/30GK101382939SQ200810121650公开日2009年3月11日申请日期2008年10月23日优先权日2008年10月23日发明者刘智满,徐颂华,浩江,潘云鹤申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1