一种网页推荐方法和装置的制作方法

文档序号:6584576阅读:206来源:国知局
专利名称:一种网页推荐方法和装置的制作方法
技术领域
本发明涉及数据挖掘领域,特别涉及一种网页推荐方法和装置。
背景技术
随着计算机技术的发展和hternet因特网的普及,Web网络数据突破传统意义上 的数据格式的限制,变得越来越重要,成为Web用户更好的获得信息地一个有效的途径。Web访问日志数据是记录用户对Web站点访问信息的数据,保存有大量的路径信 息,通过挖掘这些日志信息所得到的用户访问模式,在个性化信息服务、改进门户站点设计 和服务、开展有针对性的电子商务、构建智能化Web站点、提高网站的声誉和效益等方面都 将起到重要的作用。Web访问日志的内容通常包括以下几项用户IP、Session标识符、用 户访问的目标站点URL(Uniform Resource Locator,网页地址)、访问时间、跳转来源等等。 用户可以在浏览器地址栏中输入目标网页URL,或点击超链接来搜索得到想要的目标网页。发明人在实现本发明的过程中发现,现有技术至少存在以下缺点用户在搜索时, 一般需要构造并输入查询词,才能引导搜索引擎完成搜索工作,有时由于获得了一些无关 的内容项,使得会获得一些垃圾网站,无法得到用户真正需要的网页。

发明内容
为了使用户能尽快地搜索到自己所需要的网页,得到有价值的推荐网页,减少冗 余时间,提高处理效率,提高用户体验,本发明实施例提供了一种网页推荐方法和装置,所 述技术方案如下一种网页推荐方法,所述方法包括获得网页访问记录;根据网页访问记录获得网页之间的跳转关系信息库;当需要为用户进行网页推荐时,根据所述网页之间的跳转关系信息库为用户进行 网页推荐。所述网页访问记录至少包括用户会话标识,目标网页标识以及所述目标网页的跳 转来源网页标识,根据网页访问记录获得网页之间的跳转关系信息包括至少基于所述用户会话标识对所述网页访问记录进行分类;对拥有相同用户会话标识的网页访问记录,根据目标网页标识以及所述目标网页 的跳转来源网页标识建立代表网页跳转关系的跳转连通分支,在所述跳转连通分支中,各 网页以网页节点的形式存在;汇集各用户标识下对应的所述跳转连通分支,形成网页跳转关系信息库。所述网页访问记录还包括从所述跳转来源网页跳转至目标网页的跳转时间;所述至少根据所述用户会话标识对所述网页访问记录进行分类还包括对拥有相 同会话标识的网页访问记录按照所述跳转时间递增的顺序进行排序;所述根据目标网页标识以及所述目标网页的跳转来源网页标识建立代表网页跳转关系的跳转连通分支还包括在建立所述跳转连通分支的过程中,参考所述跳转时间对 特定的网页跳转记录进行筛选。所述汇集各用户标识下对应的所述跳转连通分支,形成网页跳转关系信息库包 括同一用户会话标识下的跳转连通分支构成同一用户会话中的网页跳转关系有向 树;汇集所述各有向树构建代表网页跳转关系的点击树模型,所述点击树模型成为网 页之间的跳转关系信息库。所述汇集各有向树构建代表网页跳转关系的点击树模型包括汇集所述各有向树构建网页跳转关系森林;为所述构建的网页跳转关系森林添加虚拟根节点,形成点击树模型。所述方法还包括根据快速检索需要,对所述网页跳转关系信息库进行优化。所述根据快速检索需求,对所述网页跳转关系信息库进行优化包括为所述点击树模型中的所有不同的节点建立索引指针,所述索引指针用于指向按 照前序遍历方式遍历时和用户查询的当前网址相同的第一个节点;为所述点击树模型中的每一个节点添加一个链接指针,所述链接指针用于指向按 照前序遍历方式遍历时和当前节点相同的后续最近的节点。在所述跳转关系信息库中各网页以网页节点的形式存在,所述根据所述网页之间 的跳转关系信息库为用户进行网页推荐包括获得用户当前访问的网页的第一网页标识;在所述跳转关系信息库中查找所述第一网页标识对应的至少一个第一网页节点, 所述第一网页节点的标识与所述第一网页标识相同;在所述跳转关系信息库中查找从所述第一网页节点经过至少一跳而跳转到的后 续网页节点,所述查找到的后续网页节点构成所述第一网页的推荐网页候选集;根据预置策略在所述推荐网页候选集中选取至少一个网页为所述用户进行推荐。根据预置策略在所述推荐网页候选集中选取至少一个网页为所述用户进行推荐 包括获得所述推荐网页候选集中的网页和当前访问网页之间的平均点击距离;获得所述推荐网页候选集中的网页和当前访问网页之间的访问概率;根据所述网页之间的平均点击距离、所述网页之间的访问概率以及所述候选推荐 网页集,为用户进行网页推荐。所述根据所述网页之间的平均点击距离、所述网页之间的访问概率以及所述候选 推荐网页集,为用户进行网页推荐包括对所述网页之间的平均点击距离以及访问概率进行线性加权处理,获得所述候选 推荐网页集中的各网页的得分值;将所述计算出的各网页得分值,根据由高到低的顺序进行排序;根据所述得分值的排序结果,生成推荐网页。所述对所述网页之间的平均点击距离以及访问概率进行线性加权处理,获得所述 候选推荐网页集中的各网页的得分值包括
当访问概率一定时,所述平均点击距离越远,所述网页得分值越高;相应地,当所述平均点击距离一定时,所述访问概率越高,所述网页得分值越高。所述网页之间的平均点击距离是通过平均点击距离公式获得,所述平均点击距离 公式包括平均点击距离Σ成/"( ^),其中,n(a,b)为同时出现了网页a和网页b/=1的会话个数,d代表两个网页之间的点击距离,a和b代表所述候选推荐网页集中的任意2 个网页;相应地,所述两个网页之间的访问概率是通过网页之间的访问概率的公式获得, 所述网页之间的访问概率的公式包括Np(a,b) = \og(~—)xn(a,b),其中,N是所有会话的总数,n(b)为出现了网页b的会Φ)话个数,η (a,b)为同时出现了网页a和网页b的会话个数;相应地,所述线性加权公式具体为v(a,b) = λ Xd(a, b) + (1-λ ) Xρ (a, b),其 中,λ为融合参数,λ的取值范围为λ ( l,d(a,b)代表平均点击距离、ρ (a,b)代表 访问概率、a和b代表所述候选推荐网页集中的任意2个网页。所述获得网页访问记录包括获得Web访问日志。所述目标网页标识具体是目标网页的网址,所述目标网页的跳转来源网页标识具 体是所述跳转来源网页的网址。一种网页推荐装置,所述装置包括网页访问记录模块、网页跳转关系模块、网页 推荐模块;所述网页访问记录模块,用于获得网页访问记录;所述网页跳转关系模块,用于根据所述网页访问记录模块获得的网页访问记录获 得网页之间的跳转关系信息库;所述网页推荐模块,用于当需要为用户进行网页推荐时,根据所述网页跳转关系 模块获得的网页之间的跳转关系信息库为用户进行网页推荐。所述网页访问记录模块获得的网页访问记录至少包括用户会话标识,目标网页标 识以及所述目标网页的跳转来源网页标识,所述网页跳转关系模块包括分类单元、建立单 元、构建单元;所述分类单元,用于基于所述用户会话标识对所述网页访问记录模块获得的网页 访问记录进行分类;所述建立单元,用于对拥有相同用户会话标识的网页访问记录,根据目标网页标 识以及所述目标网页的跳转来源网页标识建立代表网页跳转关系的跳转连通分支,在所述 跳转连通分支中,各网页以网页节点的形式存在;所述构建单元,用于汇集各用户标识下对应的所述跳转连通分支,形成网页跳转 关系信息库。所述网页访问记录模块获得的网页访问记录还包括从所述跳转来源网页跳转至 目标网页的跳转时间;所述分类单元还包括排序子单元;
所述排序子单元,用于对拥有相同会话标识的网页访问记录按照所述跳转时间递 增的顺序进行排序;所述建立单元还包括筛选子单元;所述筛选子单元,用于在建立所述跳转连通分支的过程中,参考所述跳转时间对 特定的网页跳转记录进行筛选。所述构建单元包括构成子单元、汇集子单元;所述构成子单元,用于同一用户会话标识下的跳转连通分支构成同一用户会话中 的网页跳转关系有向树;所述汇集子单元,用于汇集所述各有向树构建代表网页跳转关系的点击树模型。所述汇集子单元包括汇集子单元1、汇集子单元2 ;所述汇集子单元1,用于汇集所述各有向树构建网页跳转关系森林;所述汇集子单元2,用于为所述汇集子单元1构建的网页跳转关系森林添加虚拟 根节点,形成点击树模型。所述装置还包括优化模块;所述优化模块用于根据快速检索需要,对所述网页跳转关系模块获得的网页跳转 关系信息库进行优化。所述优化模块包括索引指针建立单元、链接指针添加单元;所述索引指针建立单元,用于为所述点击树模型中的所有不同的节点建立索引指 针,所述索引指针用于指向按照前序遍历方式遍历时和用户查询的当前网址相同的第一个 节点。所述链接指针添加单元,用于为所述点击树模型中的每一个节点添加一个链接指 针,所述链接指针用于指向按照前序遍历方式遍历时和当前节点相同的后续最近的节点。在所述跳转关系信息库中各网页以网页节点的形式存在,所述推荐模块包括网 页标识获得单元、网页节点查找单元、推荐网页候选集查找单元、推荐网页选取单元;所述网页标识获得单元,用于获得用户当前访问的网页的第一网页标识;所述网页节点查找单元,用于在所述跳转关系信息库中查找所述第一网页标识对 应的至少一个第一网页节点;所述推荐网页候选集查找单元,用于在所述跳转关系信息库中查找从所述第一网 页节点经过至少一跳而跳转到的后续网页节点,所述查找到的后续网页节点构成所述第一 网页的推荐网页候选集;所述推荐网页选取单元,用于根据预置策略在所述推荐网页候选集中选取至少一 个网页为所述用户进行推荐。所述推荐网页选取单元包括平均点击距离计算子单元、访问概率计算子单元、推 荐子单元;所述平均点击距离计算子单元,用于获得所述推荐网页候选集中的网页和当前访 问网页之间的平均点击距离;所述访问概率计算子单元,用于获得所述推荐网页候选集中的网页和当前访问网 页之间的访问概率;所述推荐子单元,用于根据所述平均点击距离计算子单元获得的网页和当前访问网页之间的平均点击距离、所述访问概率计算子单元获得的网页和当前访问网页之间的访 问概率以及所述候选推荐网页集,为用户进行网页推荐。所述推荐子单元包括线性加权处理子单元、排序子单元、生成子单元;所述线性加权处理子单元,用于对所述网页之间的平均点击距离以及访问概率进 行线性加权处理,获得所述候选推荐网页集中的各网页的得分值;所述排序子单元,用于将所述计算出的各网页得分值,根据由高到低的顺序进行 排序;所述生成子单元,用于根据所述得分值的排序结果,生成推荐网页。本发明实施例提供的技术方案的有益效果是通过对访问日志进行数据预处理, 获得只包含对用户有用的内容项;对获得的对用户有用的内容项进行离线构建点击树模 型;利用点击树模型生成候选推荐网页集,从中选择出满足实际需求的网页集合,用户可以 较早地搜索到自己所需的网页,减少了冗余时间,提高了效率,满足了实际应用中的需要。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。图1是本发明实施例1提供的一种网页推荐方法的流程图;图2是本发明实施例1提供的一种网页推荐方法的示意图;图3是本发明实施例2提供的一种网页推荐方法的详细流程图;图4是本发明实施例2提供的点击树模型构建示意图;图5是本发明实施例2提供的前端浏览器插件demo的截图;图6是本发明实施例3提供的一种网页推荐装置的流程图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。为了协助互联网用户更好地进行网络浏览,提出基于Web访问日志分析的网页推 荐方法。该方法涉及到前端(即用户浏览器客户端)展现方式和后台(网页推荐服务器) 推荐计算两个部分。前端通过开发浏览器插件,实时获取用户当前浏览的网页URL,将其发 送至后台服务器,然后接收后台服务器计算出的推荐结果并在浏览器侧边栏中显示出来。 对于推荐结果,用户可以查看摘要或点击浏览。后台服务器通过对互联网用户访问网页行 为的宏观分析,过滤Web访问日志中可能存在的垃圾和噪音信息,将具有点击跳转关系的 网页相关联,离线构建出点击树模型,在给定某用户已访问过的网页资源情况下,在线计算 出访问概率高且点击距离较远的网页,生成推荐结果。具体内容描述如下1、互联网用户在浏览网页过程中,会在浏览器地址栏输入目标网页URL,或点击当 前浏览网页中的超链接。这些操作都会使浏览器发出对新网页的请求。通过用户主动在浏 览器上安装的工具条,这些操作将会被记录在Web访问日志中,日志数据反映了用户浏览网页的行为习惯;2、依照Web访问日志中的网页跳转关系,将日志数据自动划分成大量的点击序 列,每个点击序列称为一个会话,会话之间相对独立,会话内的网页具有点击跳转关系,每 个会话都代表着一个用户在一段时期内的一个访问意图;3、从用户的访问意图上看,同一个会话里的网页都有一个共同的主题。两个网页 在所有会话中同时出现的频度越高,说明越多的用户认为它们具有相同的主题,越可能被 同时访问。在给定网页a的条件下,通过计算网页b与网页a共同出现的频度以及一些全 局信息,得到用户访问网页a之后将会访问网页b的概率;4、从用户操作上来看,同一个会话中的网页,根据点击跳转关系,将构成一个树结 构。树结构中的点表示该会话中的网页,树结构中的边表示点击跳转关系。当且仅当对应 的网页有直接点击跳转关系,两个点在树中相邻。在给定网页a的条件下,通过计算网页b 在某个树结构中与网页a的距离,得到它们在对应会话里的点击距离。通过计算网页b在 所有会话中与网页a的点击距离,得到它们的平均点击距离。网页b与网页a的平均点击 距离越大,表示用户从网页a访问到达网页b需要进行的点击跳转操作越多;5、已知当前浏览的网页a,根据访问概率和平均点击距离两大因素,将所有候选网 页进行排序,选取排名靠前的网页,这就构成了推荐结果。6、通过开发前端浏览器插件,实现网页推荐的实际应用,浏览器插件负责输入和 输出任务,即实时将用户当前浏览的网页URL发送至后台服务器,并将推荐结果显示出来, 供用户点击浏览。请参见下述实施例,对本方法作进一步的说明。实施例1本发明实施例提供了一种网页推荐的方法,参见图1,该方法包括步骤101 获得网页访问记录。其中,网页访问记录可以是Web访问日志。网页访问记录至少包括用户会话标 识,目标网页标识以及所述目标网页的跳转来源网页标识。为了达到更好的效果,网页访问 记录还可以包括从跳转来源网页跳转至目标网页的跳转时间,后续会对这种优选情况进行 更详细的说明。步骤102 根据网页访问记录获得网页之间的跳转关系信息库。其中,根据网页访问记录获得网页之间的跳转关系信息库具体包括至少基于用户会话标识对网页访问记录进行分类;对拥有相同用户会话标识的网 页访问记录,根据目标网页标识以及目标网页的跳转来源网页标识建立代表网页跳转关系 的跳转连通分支,在跳转连通分支中,各网页以网页节点的形式存在。汇集各用户标识下对 应的跳转连通分支,形成网页跳转关系信息库。至少根据用户会话标识对网页访问记录进行分类还包括对拥有相同会话标识的 网页访问记录按照跳转时间递增的顺序进行排序;根据目标网页标识以及目标网页的跳转 来源网页标识建立代表网页跳转关系的跳转连通分支还包括在建立跳转连通分支的过程 中,参考跳转时间对特定的网页跳转记录进行筛选。汇集各用户标识下对应的跳转连通分支,形成网页跳转关系信息库包括同一用 户会话标识下的跳转连通分支构成同一用户会话中的网页跳转关系有向树;汇集各有向树构建代表网页跳转关系的点击树模型,点击树模型成为网页之间的跳转关系信息库。汇集 各有向树构建代表网页跳转关系的点击树模型包括汇集各有向树构建网页跳转关系森 林;为构建的网页跳转关系森林添加虚拟根节点,形成点击树模型。步骤103 当需要为用户进行网页推荐时,根据网页之间的跳转关系信息库为用 户进行网页推荐。其中,根据网页之间的跳转关系信息库为用户进行网页推荐具体包括获得用户 当前访问的网页的第一网页标识;在跳转关系信息库中查找第一网页标识对应的至少一个 第一网页节点,第一网页节点的标识与第一网页标识相同;在跳转关系信息库中查找从第 一网页节点经过至少一跳而跳转到的后续网页节点,查找到的后续网页节点构成第一网页 的推荐网页候选集;根据预置策略在推荐网页候选集中选取至少一个网页为用户进行推荐,具体包 括获得推荐网页候选集中的网页和当前访问网页之间的平均点击距离;获得推荐网页候 选集中的网页和当前访问网页之间的访问概率;根据网页之间的平均点击距离、网页之间 的访问概率以及候选推荐网页集,为用户进行网页推荐。本发明实施例提供的方法,通过对访问日志进行数据预处理,获得网页访问记录, 根据网页访问记录获得网页之间的跳转关系信息库,当需要为用户进行网页推荐时,根据 网页之间的跳转关系信息库为用户进行网页推荐。用户可以在推荐网页集中查看摘要或点 击浏览,较早地搜索到自己所需的网页,减少了冗余时间,提高了效率,提高了用户的使用 体验,此方法的复杂度低,能支持在线实时计算,并在实验测试数据上取得较好性能,满足 实际应用中的需要。为了对上述本发明实施例提供的方法进行详细说明,请参见如下实施例实施例2为了使用户能尽快地搜索到自己所需要的网页,减少冗余时间,提高处理效率,本 发明实施例提供了一种网页推荐方法,具体内容如下参见图2,图2中给出了网页推荐的示意图,结合图2,对各个部分的主要工作方式 进行详细的描述
首先,对Web访问日志进行数据预处理,获得网页访问记录,详见下文描述数据预处理部分网页推荐所依据的数据集合来自于互联网用户的Web访问日 志,对于某个Web访问日志而言,它至少包括JessionID、Dst URL、Src URL、还可以包括 Time,参见表1,表1为供网页推荐的Web访问日志包括的内容,包括记录内容和记录位数两 项内容,其中,记录的位数表明了 kssionID、DstURL、Src URL、Time中的内容通过编码格 式的转换,将统一的编码格式转换为字符串形式所占据的存储空间大小。表1供网页推荐的Web访问日志包括的内容
权利要求
1.一种网页推荐方法,其特征在于,所述方法包括获得网页访问记录;根据网页访问记录获得网页之间的跳转关系信息库;当需要为用户进行网页推荐时,根据所述网页之间的跳转关系信息库为用户进行网页 推荐。
2.根据权利要求1所述的方法,其特征在于,所述网页访问记录至少包括用户会话标 识,目标网页标识以及所述目标网页的跳转来源网页标识,根据网页访问记录获得网页之 间的跳转关系信息包括至少基于所述用户会话标识对所述网页访问记录进行分类;对拥有相同用户会话标识的网页访问记录,根据目标网页标识以及所述目标网页的跳 转来源网页标识建立代表网页跳转关系的跳转连通分支,在所述跳转连通分支中,各网页 以网页节点的形式存在;汇集各用户标识下对应的所述跳转连通分支,形成网页跳转关系信息库。
3.根据权利要求2所述的方法,其特征在于,所述网页访问记录还包括从所述跳转来 源网页跳转至目标网页的跳转时间;所述至少根据所述用户会话标识对所述网页访问记录进行分类还包括对拥有相同会 话标识的网页访问记录按照所述跳转时间递增的顺序进行排序;所述根据目标网页标识以及所述目标网页的跳转来源网页标识建立代表网页跳转关 系的跳转连通分支还包括在建立所述跳转连通分支的过程中,参考所述跳转时间对特定 的网页跳转记录进行筛选。
4.根据权利要求2所述的方法,其特征在于,所述汇集各用户标识下对应的所述跳转 连通分支,形成网页跳转关系信息库包括同一用户会话标识下的跳转连通分支构成同一用户会话中的网页跳转关系有向树;汇集所述各有向树构建代表网页跳转关系的点击树模型,所述点击树模型成为网页之 间的跳转关系信息库。
5.根据权利要求4所述的方法,其特征在于,所述汇集各有向树构建代表网页跳转关 系的点击树模型包括汇集所述各有向树构建网页跳转关系森林;为所述构建的网页跳转关系森林添加虚拟根节点,形成点击树模型。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括根据快速检索需要,对 所述网页跳转关系信息库进行优化。
7.根据权利要求6所述的方法,其特征在于,所述根据快速检索需求,对所述网页跳转 关系信息库进行优化包括为所述点击树模型中的所有不同的节点建立索引指针,所述索引指针用于指向按照前 序遍历方式遍历时和用户查询的当前网址相同的第一个节点;为所述点击树模型中的每一个节点添加一个链接指针,所述链接指针用于指向按照前 序遍历方式遍历时和当前节点相同的后续最近的节点。
8.根据权利要求1所述的方法,其特征在于,在所述跳转关系信息库中各网页以网页 节点的形式存在,所述根据所述网页之间的跳转关系信息库为用户进行网页推荐包括获得用户当前访问的网页的第一网页标识;在所述跳转关系信息库中查找所述第一网页标识对应的至少一个第一网页节点,所述 第一网页节点的标识与所述第一网页标识相同;在所述跳转关系信息库中查找从所述第一网页节点经过至少一跳而跳转到的后续网 页节点,所述查找到的后续网页节点构成所述第一网页的推荐网页候选集;根据预置策略在所述推荐网页候选集中选取至少一个网页为所述用户进行推荐。
9.根据权利要求8所述的方法,其特征在于,根据预置策略在所述推荐网页候选集中 选取至少一个网页为所述用户进行推荐包括获得所述推荐网页候选集中的网页和当前访问网页之间的平均点击距离; 获得所述推荐网页候选集中的网页和当前访问网页之间的访问概率; 根据所述网页之间的平均点击距离、所述网页之间的访问概率以及所述候选推荐网页 集,为用户进行网页推荐。
10.根据权利要求9所述的方法,其特征在于,所述根据所述网页之间的平均点击距 离、所述网页之间的访问概率以及所述候选推荐网页集,为用户进行网页推荐包括对所述网页之间的平均点击距离以及访问概率进行线性加权处理,获得所述候选推荐 网页集中的各网页的得分值;将所述计算出的各网页得分值,根据由高到低的顺序进行排序; 根据所述得分值的排序结果,生成推荐网页。
11.根据权利要求10所述的方法,其特征在于,所述对所述网页之间的平均点击距离 以及访问概率进行线性加权处理,获得所述候选推荐网页集中的各网页的得分值包括当访问概率一定时,所述平均点击距离越远,所述网页得分值越高;相应地,当所述平均点击距离一定时,所述访问概率越高,所述网页得分值越高。
12.根据权利要求11所述的方法,其特征在于,所述网页之间的平均点击距离是通过 平均点击距离公式获得,所述平均点击距离公式包括n{a,b)平均点击距离 /Ο,δ)= Σ成/ 0,的,其中,n(a,b)为同时出现了网页a和网页b的会/=1话个数,d代表两个网页之间的点击距离,a和b代表所述候选推荐网页集中的任意2个网 页;相应地,所述两个网页之间的访问概率是通过网页之间的访问概率的公式获得,所述 网页之间的访问概率的公式包括 Np(a,b) = \og(-—)xn(a,b),其中,N是所有会话的总数,n(b)为出现了网页b的会话个Φ)数,η (a, b)为同时出现了网页a和网页b的会话个数;相应地,所述线性加权公式具体为v(a,b) = λ Xd(a,b) + (l-X)Xp(a,b),其中,λ 为融合参数,λ的取值范围为λ ( l,d(a,b)代表平均点击距离、ρ (a,b)代表访问概 率、a和b代表所述候选推荐网页集中的任意2个网页。
13.根据权利要求1至12中任意一项所述的方法,其特征在于,所述获得网页访问记录 包括获得Web访问日志。
14.根据权利要求3至7中任一项所述的方法,其特征在于,所述目标网页标识具体是目标网页的网址,所述目标网页的跳转来源网页标识具体是所述跳转来源网页的网址。
15.一种网页推荐装置,其特征在于,所述装置包括网页访问记录模块、网页跳转关 系模块、网页推荐模块;所述网页访问记录模块,用于获得网页访问记录;所述网页跳转关系模块,用于根据所述网页访问记录模块获得的网页访问记录获得网 页之间的跳转关系信息库;所述网页推荐模块,用于当需要为用户进行网页推荐时,根据所述网页跳转关系模块 获得的网页之间的跳转关系信息库为用户进行网页推荐。
16.根据权利要求15所述的装置,其特征在于,所述网页访问记录模块获得的网页访 问记录至少包括用户会话标识,目标网页标识以及所述目标网页的跳转来源网页标识,所 述网页跳转关系模块包括分类单元、建立单元、构建单元;所述分类单元,用于基于所述用户会话标识对所述网页访问记录模块获得的网页访问 记录进行分类;所述建立单元,用于对拥有相同用户会话标识的网页访问记录,根据目标网页标识以 及所述目标网页的跳转来源网页标识建立代表网页跳转关系的跳转连通分支,在所述跳转 连通分支中,各网页以网页节点的形式存在;所述构建单元,用于汇集各用户标识下对应的所述跳转连通分支,形成网页跳转关系信息库。
17.根据权利要求16所述的装置,其特征在于,所述网页访问记录模块获得的网页访 问记录还包括从所述跳转来源网页跳转至目标网页的跳转时间;所述分类单元还包括排序子单元;所述排序子单元,用于对拥有相同会话标识的网页访问记录按照所述跳转时间递增的 顺序进行排序;所述建立单元还包括筛选子单元;所述筛选子单元,用于在建立所述跳转连通分支的过程中,参考所述跳转时间对特定 的网页跳转记录进行筛选。
18.根据权利要求16所述的装置,其特征在于,所述构建单元包括构成子单元、汇集 子单元;所述构成子单元,用于同一用户会话标识下的跳转连通分支构成同一用户会话中的网 页跳转关系有向树;所述汇集子单元,用于汇集所述各有向树构建代表网页跳转关系的点击树模型。
19.根据权利要求18所述的装置,其特征在于,所述汇集子单元包括汇集子单元1、汇 集子单元2 ;所述汇集子单元1,用于汇集所述各有向树构建网页跳转关系森林;所述汇集子单元2,用于为所述汇集子单元1构建的网页跳转关系森林添加虚拟根节 点,形成点击树模型。
20.根据权利要求16所述的装置,其特征在于,所述装置还包括优化模块;所述优化模块用于根据快速检索需要,对所述网页跳转关系模块获得的网页跳转关系 信息库进行优化。
21.根据权利要求20所述的装置,其特征在于,所述优化模块包括索引指针建立单 元、链接指针添加单元;所述索引指针建立单元,用于为所述点击树模型中的所有不同的节点建立索引指针, 所述索引指针用于指向按照前序遍历方式遍历时和用户查询的当前网址相同的第一个节点所述链接指针添加单元,用于为所述点击树模型中的每一个节点添加一个链接指针, 所述链接指针用于指向按照前序遍历方式遍历时和当前节点相同的后续最近的节点。
22.根据权利要求15至21中任一项所述的装置,其特征在于,在所述跳转关系信息库 中各网页以网页节点的形式存在,所述推荐模块包括网页标识获得单元、网页节点查找单 元、推荐网页候选集查找单元、推荐网页选取单元;所述网页标识获得单元,用于获得用户当前访问的网页的第一网页标识; 所述网页节点查找单元,用于在所述跳转关系信息库中查找所述第一网页标识对应的 至少一个第一网页节点;所述推荐网页候选集查找单元,用于在所述跳转关系信息库中查找从所述第一网页节 点经过至少一跳而跳转到的后续网页节点,所述查找到的后续网页节点构成所述第一网页 的推荐网页候选集;所述推荐网页选取单元,用于根据预置策略在所述推荐网页候选集中选取至少一个网 页为所述用户进行推荐。
23.根据权利要求22所述的装置,其特征在于,所述推荐网页选取单元包括平均点击 距离计算子单元、访问概率计算子单元、推荐子单元;所述平均点击距离计算子单元,用于获得所述推荐网页候选集中的网页和当前访问网 页之间的平均点击距离;所述访问概率计算子单元,用于获得所述推荐网页候选集中的网页和当前访问网页之 间的访问概率;所述推荐子单元,用于根据所述平均点击距离计算子单元获得的网页和当前访问网页 之间的平均点击距离、所述访问概率计算子单元获得的网页和当前访问网页之间的访问概 率以及所述候选推荐网页集,为用户进行网页推荐。
24.根据权利要求23所述的装置,其特征在于,所述推荐子单元包括线性加权处理子 单元、排序子单元、生成子单元;所述线性加权处理子单元,用于对所述网页之间的平均点击距离以及访问概率进行线 性加权处理,获得所述候选推荐网页集中的各网页的得分值;所述排序子单元,用于将所述计算出的各网页得分值,根据由高到低的顺序进行排序;所述生成子单元,用于根据所述得分值的排序结果,生成推荐网页。
全文摘要
本发明公开了一种网页推荐方法和装置,属于数据挖掘领域。所述方法包括获得网页访问记录;根据网页访问记录获得网页之间的跳转关系信息库;当需要为用户进行网页推荐时,根据所述网页之间的跳转关系信息库为用户进行网页推荐。本发明提供的方案,使得用户可以在推荐网页集中查看摘要或点击浏览,较早地搜索到自己所需的网页,减少了冗余时间,提高了效率,提高了用户的使用体验,此方法的复杂度低,能支持在线实时计算,并在实验测试数据上取得了较好的性能,满足了实际应用中的需要。
文档编号G06F17/30GK102054004SQ200910236869
公开日2011年5月11日 申请日期2009年11月4日 优先权日2009年11月4日
发明者佟子健, 刘奕群, 张敏, 方奇, 茹立云, 金奕江, 马少平 申请人:北京搜狗科技发展有限公司, 清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1