一种个性化网址导航的方法和系统的制作方法

文档序号:6463269阅读:133来源:国知局
专利名称:一种个性化网址导航的方法和系统的制作方法
技术领域
本发明涉及互联网信息处理技术领域,特别是涉及一种针对用户的个性化 网址导^元的方法和系统。
背景技术
目前随着互联网技术应用的越来越广泛,人们很多的日常工作和娱乐都在 网络上进行,从而产生了众多的互联网网页和海量的网络资源信息,以及提供 各种信息服务的网站,用户一般需要通过网址找到这些信息,但是人们是无法 记忆或者知悉成千上万的网址的,并且,网址也没有很好的规律便于用户记忆,
因此,现有技术提出了网址导航的解决方案,例如,hao123网址之家这样的 网iih导航网3占。
hao123作为网址导航网站,其向用户呈现了数千个常用的网址,并进行 了分类排序等便于用户查找的进一步处理,从而可以方便用户进入自己所需的 网站。但是类似上述解决方案的现有技术无法针对当前用户提供个性化的网址 导航或者推荐服务,即针对各个用户所提供的网址导航服务都是一样的,而尽 管各个用户具有不同的个性化需求。
总之,需要本领域技术人员迫切解决的一个技术问题就是如何能够提供 一种能够满足当前用户个性化需求的网址导航技术解决方案。

发明内容
本发明所要解决的技术问题是提供一种自动生成用户特征数据库的方法 和系统,能够依据该用户的查询日志和相关网页信息提取该用户的兴趣特征, 从而使得为该用户提供个性化网址导航服务成为可能。
相应的,本发明还提供了 一种利用上述用户特征数据库^Mv而实现个性化网 址导航的解决方案,能够满足当前用户的个性化导航需求。
为了解决上述问题,本发明公开了 一种生成用户特征数据库的方法,包括 获取搜索日志,所述搜索日志包括查询词和相应点击的网页;依据所点击网页 的分类信息,对搜索日志中的查询词进行分类;汇总一用户的各个查询词,依
5据各个查询词的分类结果确定该用户的特征参数;存储用户标识及其特征参 数,形成用户特征数据库。
优选的,可以通过以下方式完成对查询词的分类采用一查询词指向各个 网页的点击次数或者点击比例修正各个网页的分类信息,进而得到对该查询词 的分类结果。
优选的,可以通过以下方式获取用户特征参数采用权重参数对该用户各 个查询词的分类结果进行修正,进而获得该用户的特征参数。
依据本发明的另一实施例,还公开了一种生成用户特征数据库的系统,包

:溲索日志凄t据库,用于记录查询词和相应点击的网页; 查询词分类单元,用于依据所点击网页的分类信息,对搜索日志中的查询 词进行分类;
用户特征获取单元,用于汇总一用户的各个查询词,依据各个查询词的分
类结果确定该用户的特征参数;
特征库生成单元,用于存储用户标识及其特征参数,形成用户特征数据库。 优选的,所述查询词分类单元可以通过以下方式完成对查询词的分类采
用 一查询词指向各个网页的点击次数或者点击比例修正各个网页的分类信息,
进而得到对该查询词的分类结果。
用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征 参数。
依据本发明的另一实施例,还公开了一种个性化网址导航的方法,包括 获取搜索日志,所述搜索日志包括查询词和相应点击的网页;依据所点击网页 的分类信息,对搜索日志中的查询词进行分类;汇总一用户的各个查询词,依 据各个查询词的分类结果确定该用户的特征参数;接收用户输入的网址关键 词,在预置的网址导航数据库中进行检索,匹配获得检索结果;所述网址导航 数据库包括网址与其描述信息的对应关系;依据当前用户的特征参数和所述检 索结果中网址网页的分类信息,对所述检索结果进行调整,返回针对该当前用 户的个性化网址导^i吉果集。优选的,可以通过以下方式完成对查询词的分类采用一查询词指向各个 网页的点击次数或者点击比例修正各个网页的分类信息,进而得到对该查询词 的分类结果。
优选的,可以通过以下方式获取用户特征参数采用权重参数对该用户各 个查询词的分类结果进行修正,进而获得该用户的特征参数。
优选的,可以通过以下方式预置所述网址导航数据库分析搜索日志信息, 获取在一查询词下,用户点击频率符合预置条件的网址;获取针对所述网址的 描述信息;依据所获得的网址和相应的描述信息,建立网址导航数据库。
优选的,所述获得描述信息的步骤进一步包括获取所述网址相应的锚文 本和/或相应的主题名称;分析所述网址的锚文本和/或主题名称、以及相应的 用户查询词,获取针对所述网址的描述信息。
优选的,当所述个性化网址导航结果集包括多个网址时,还可以包括记 录用户的选择信息,并对该用户的特征参^:进行相应调整。
依据本发明的另一实施例,还公开了一种个性化网址导航的系统,包括
搜索日志数据库,用于记录查询词和相应点击的网页;
查询词分类单元,用于依据所点击网页的分类信息,对搜索日志中的查询 词进行分类;
用户特征获耳又单元,用于汇总一用户的各个查询词,依据各个查询词的分 类结果确定该用户的特征参数;
检索单元,用于接收用户输入的网址关键词,在预置的网址导航数据库中 进行检索,匹配获得检索结果;所述网址导航数据库包括网址与其描述信息的 对应关系;
结果输出单元,用于依据当前用户的特征参数和所述4企索结果中网址网页 的分类信息,对所述^r索结果进行调整,返回针对该当前用户的个性化网址导 航结果集。
优选的,所述查询词分类单元可以通过以下方式完成对查询词的分类采 用 一查询词指向各个网页的点击次数或者点击比例修正各个网页的分类信息, 进而得到对该查询词的分类结果。用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征 参数。
优选的,该系统还可以包括导航数据库生成单元,其进一步包括 日志分析模块,用于分析搜索日志信息,获取在一查询词下,用户点击频
率符合预置条件的网址;
描述信息获取J漠块,用于获^U十对所述网址的描述信息; 数据库生成模块,用于依据所获得的网址和相应的描述信息,建立网址导
航数据库。
优选的,所述描述信息获取^f莫块通过分析所述网址的锚文本和/或主题名 称、以及相应的用户查询词,获耳又针对所述网址的描述信息。
优选的,当所述个性化网址导航结果集包括多个网址时,还包括反馈单 元,用于记录用户的选择信息,并对该用户的特征参数进行相应调整。
与现有技术相比,本发明具有以下优点
本发明依据用户的查询日志和相关网页信息,得到针对该用户的特征数据 库,从而可以针对不同用户的特征而推荐不同的网址,以实现个性化的网址导 航服务,即本发明充分考虑到了用户个体的差异性。例如,对于同一个关键词, 喜欢玩游戏的用户和喜欢阅读的用户所需要的网址很可能是不一样的,本发明 正是考虑到了这些用户的需求差异性,将用户的兴趣特征加入到所推荐的网址 排序或篩选计算中,从而使得最符合当前用户个性化需求的网址被优先推荐出 来,以满足当前用户的个性化需求。


图1是本发明一种生成用户特征数据库的方法实施例的步骤流程图; 图2是本发明一种生成用户特征数据库的系统实施例的结构框图; 图3是本发明一种个性化网址导航的方法实施例的步骤流程图; 图4是本发明 一种建立网址导航数据库实施例的步骤流程图; 图5是本发明一种个性化网址导航系统的结构框图。
具体实施例方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。
本发明可用于众多通用或专用的计算系统环境或配置中。例如个人计算 机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统以及 包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例 如程序模块。 一般地,程序模块包括执行特定任务或实现特定抽象数据类型的
例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本 发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来 执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地 和远程计算机存储介质中。
参照图1,示出了本发明一种生成用户特征数据库的方法实施例,包括以 下步骤
步骤IOI、获取搜索日志,所述搜索日志包括查询词和相应点击的网页; 其中,可以通过自行记录查询词和相应点击的网页至搜索日志的方式获取
所需信息;实际上,还可以直接从搜索51擎服务商处购买获得搜索日志数据库,
即可获得所需的信息查询词和相应点击的网页。
步骤102、依据所点击网页的分类信息,对搜索日志中的查询词进行分类; 步骤103、汇总一用户的各个查询词,依据各个查询词的分类结果确定该
用户的特征参数;
步骤104、存储用户标识及其特征参数,形成用户特征数据库。
为了实现针对当前用户提供个性化网址导航服务,需要事先获取各个用户
的兴趣特征,以便区分各个用户;而本实施例就提供了一种获取用户特征参数
的解决方案。
现有技术也提出了很多基于用户网络行为(例如,网页浏览行为、电子杂 志在线阅读行为等等)而获取用户特征参数,以实现针对用户的个性化服务。 但是本发明与W目比,明显存在以下的优点首先,本发明基于用户主动的查 询行为历史记录挖掘得到用户的兴趣特征,其噪音较小,准确度较高,尤其适 用于在针对用户提供个性化探询服务(如网址导航或者搜索服务)的场景;其次,本实施例可以直接以现有的搜索日志为数据源进行分析,而不需要额外增 加对用户网络行为的监控,实现方式简单易行,不会额外增加网络的传输资源。
下面简单描述步骤102中的网页分类信息。
由于步骤102需要依据相应的网页分类信息对查询词进行分类,所以需要 预先设置网页分类信息。但是本发明不需要限定具体采用何种方案获得网页分 类信息,现有技术也提供了不少的网页分类解决方案。下面给出本发明的几个 优选例子进行简单说明。
例1
直接采用人工分类,或者对网页内容分词处理后进行人工分类; 例2
分词+自动分类
首先,对所述文档进行分词等预处理,并根据分词结果以一个词元作为一 个属性,基于传统的TF/IDF ( term frequency/inverse document frequency, 单文本词汇频率/逆文本频率)模型生成一个代表所述网站的特征向量;其中, 向量的每一维是所述属性词,每一维的值是属性词出现的次数。
然后,利用机器学习的方法或基于规则的方法,对每个网站向量进行分类 处理,得到一个网站的类别。
一种分类效果较好的方法是^f吏用Naive Bayes (简单贝叶斯)分类法,所 述分类法计算出每个维度不同取值下对于不同分类类别的概率,然后利用所有 维度的取值计算出一个整体的属于某一个类别的概率,然后将概率最高的类别 作为分类类别。贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概 率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概 率做出最优决策。贝叶斯决策理论方法是统计模型决策中的一个基本方法,其 基本思想是已知类条件概率密度参数表达式和先验概率;利用贝叶斯公式转换 成后验概率;根据后验概率大小进行决策分类。它对统计推理的主要贡献是使 用了 "逆概率"这个概念,并把它作为一种普遍的推理方法。
另一种分类效果较好的方法是采用SVM分类算法。SVM分类法是一种支持 向量机方法,对线性分类器提出了另一种设计最佳准则,从线性可分的情况扩展到线性不可分的情况,甚至扩展到使用非线性函数中去,这种分类器被称为
支持向量机(Support Vector Machine,简称SVM)。 例3
首先以树型结构建立网页信息的初始分类;然后执行动态监控,如果任一 类别下的信息数目达到预设值,则对该类别进行分裂,所述分裂包括按照网 页间的相似度执行聚类操作,将相似度达到预设量级值的网页聚为 一个类别; 剩下的网页设为一个孤立网页类。当然,还可以标注所述聚类后的类别名称。 本例所提供的基于动态分类的信息索引方式,比静态分类的结果在分类广度和 深度上更加全面、深入。
本例通过动态分类过程建立起来的分类体系,是一种层次性的多级索引存 储方式,其顶层分类(不限于一层)按照人工预定的分类体系进行一次性的分 类,然后随着各个类别中网页信息的不断添加,当任一类别下的信息数目达到 预设值,则对该类别进行分裂,按照网页间的相似度执行聚类操作,将相似度 达到预设量级值的网页聚为一个类别,剩下的网页设为一个孤立网页类。孤立 网页类中的网页信息,当满足聚类条件时,将分裂为各个分类。其中,所述顶 层分类并不限于一层,初始建立的分类体系可能已经包含多层分类。总之,所 述分裂、聚类的过程循环进行,随着网页信息的不断变化而生成新的分类,所 述分类体系 一直处于动态变化的过程中。
下面简单描述步骤102对查询词的分类。
由于搜索日志中记录了 一查询词与各用户相应点击的各个网页,所以依据 这些被点击网页的分类信息就可以确定该查询词的分类情况。当然,本发明并 不需要具体的确定方案,因为依据上述原理可能存在很多的、难以列举的实现
方式。下面简单介绍几个本发明的优选例子。 例1
々ii殳,4十对查询词"苹果",相应点击的网页包4舌www.a.com和www.b.com, 而前者属于科技IT类,后者属于水果农业类,则简单的,查询词"苹果,,的 分类情况可以为(50。/。科技IT类,50%水果农业类)。例2
采用 一 查询词指向各个网页的点击次数或者点击比例修正各个网页的分 类信息,进而得到对该查询词的分类结果。
假设,针对查询词"苹果",相应点击的网页包括www.a.com和www.b.com, 而前者属于科技IT类,点击次数为M,后者属于水果农业类,点击次数为N。
则可以在查询词的分类中引入点击次数,以获得更为准确的分类效果。简 单的,查询词"苹果"的分类情况可以为M/(M+N)科技IT类,N/(M+N) 水果农业类。
例3
前面例子中的网页分类属于简单分类,本例中的网页分类具有比例参凄t。 假如针对查询词"太阳",记录用户点击的网页和每个网页访问的次数, 例如用户点击http:〃sun.sohu.com/ M次,点击http:〃zhidao.baidu.com/question/ 16657628 N次,其中http:〃sun.sohu.com/在网页分类库中的分类属于影视娱 乐类的概率为A%,那么"太阳"这个查询词属于影视娱乐类的概率为M+ (M+N) xA%;网页http:〃zhidao.baidu.com/question/16657628在网页分类库 中的分类属于科技类的概率为B%,那么"太阳"这个查询词属于科技类的概率 为N+ (M+N) xB%。
下面简单描述步骤103用户特征参数的获取。
基于以上的描述可以得知,各个查询词具有了自己的分类情况,而将一用 户所输入的各个查询词汇总起来,就可以得到针对该用户的分类情况,即得到 该用户的兴趣特征。基于查询词的各种分类情况,可能存在很多的具体方案以 获取用户的兴趣特征,本发明并不需要加以限定。下面简单介绍几个本发明的 优选例子。
例1
假设,用户A的查询词为"古龙小说下载"、"金庸小说下载"、"士兵突击 电视剧",其中,查询词"古龙小说下载"和"金庸小说下载"属于小说类, 查询词"士兵突击电视剧"属于影视类,则该用户的兴趣特征参数为(67%小 说,33%影视)。
12例2
在例1的基础上,采用权重参数对该用户各个查询词的分类结果进行修 正,进而获得该用户的特征参数。
假设,用户A针对上述三个查询词的权重是不同的(如通过查询次数、点
击相关网页次数等确定权重参数),如查询词"古龙小说下载"、"金庸小说下
载"、"士兵突击电视剧,,的权重参数分别为1.5: 1.5: 1,则该用户的兴趣特 征参数为(75%小说,25%影视)。 例3
前面例子中的查询词分类属于简单分类,本例中的查询词分类具有比例参数。
假设,查询词"苹果"的分类情况为(6(W科技IT类,20%水果类),查询 词"太阳"的分类情况为(60°/。影视类,20y。科技IT类)。由于查询词还可能有 部分比例属于其他分类,但是由于比例较小,所以忽略不计。并且查询词的权 重参数分别为l. 5: 1,则该用户的兴趣特征参数为
(1.5/2.5x60% + 1/2,5x20%)科技IT类;
(1. 5/2. 5 x 20%)水果类;
(1/2.5x60%)影视类。
参照图2,示出了本发明一种生成用户特征数据库的系统实施例,可以包

搜索日志数据库201,用于记录查询词和相应点击的网页; 查询词分类单元202,用于依据所点击网页的分类信息,对搜索日志中的 查询词进行分类;
用户特征获取单元203,用于汇总一用户的各个查询词,依据各个查询词 的分类结果确定该用户的特征参数;
特征库生成单元204,用于存储用户标识及其特征参数,形成用户特征数 据库。
在本发明的优选实施例中,所述查询词分类单元可以通过以下方式完成对查询词的分类采用一查询词指向各个网页的点击次数或者点击比例修正各个 网页的分类信息,进而得到对该查询词的分类结果。
在本发明的另 一优选实施例中,所述用户特征获取单元可以通过以下方式 获取用户特征参数采用权重参数对该用户各个查询词的分类结果进行修正, 进而获得该用户的特征参数。
上面图l和图2所示的实施例,可以得到针对用户的兴趣特征参数,进而 为用户提供个性化服务,所述个性化服务可以包括搜索结果的个性化排序(如 将相适应类别的网页搜索结果排序在前),所述个性化服务也可以包括个性化 的网址导4元。
参照图3,示出了本发明一种个性化网址导航的方法实施例,可以包括 步骤301、获取搜索日志,所述搜索日志包括查询词和相应点击的网页; 步骤302、依据所点击网页的分类信息,对搜索日志中的查询词进行分类; 步骤303、汇总一用户的各个查询词,依据各个查询词的分类结果确定该 用户的特征参数;
步骤304、接收用户输入的网址关键词,在预置的网址导航数据库中进行 检索,匹配获得检索结果;所述网址导航数据库包括网址与其描述信息的对应
关系;
步骤305、依据当前用户的特征参数和所述^r索结果中网址网页的分类信 息,对所述4企索结果进行调整,返回针对该当前用户的个性化网址导^i吉果集。 优选的,在向用户返回相应的网址结果集的同时,还可以展示相关的介绍信息, 以便用户4是前了解该网址的大致情况。如果用户对推荐的网址感兴趣的话可以 直接点击网址,进行跳转(通过链接打开该网址网页)。
对于当前用户的特征参数,可以通过获取该用户的唯一性标识,进而从用 户特征数据库中查询得到该用户的特征参数。具体的,可以通过用户ID和密 码或者cookie等方式来识别该用户的唯一性标识。
优选的,可以通过以下方式完成对查询词的分类采用一查询词指向各个 网页的点击次数或者点击比例修正各个网页的分类信息,进而得到对该查询词 的分类结果。
14优选的,可以通过以下方式获取用户特征参数采用权重参数对该用户各 个查询词的分类结果进行修正,进而获得该用户的特征参数。
优选的,当所述个性化网址导航结果集包括多个网址时,还可以包括记 录用户的选择信息,并对该用户的特征参数进行相应调整。即通过用户的反馈 信息以进一步提高特征参数的准确度。
步骤305所述的对所述检索结果进行调整可以包括排序操作,也可以包括 筛选等操作,优选的,所述个性化网址导航结果集仅仅包括少数的几个最佳推 荐项。
对于本实施例,用于接收用户网址关键词和展示网址导航结果集的用户界 面,可以是多种多样的,本领域技术人员可以设计出各种贴近用户需要的界面 接口。
例如,建立一个导力元网站,通过i殳置在该导4元网站主页上的网址查询词專lr 入框以及页面信息展示,而完成针对当前用户的个性化网址导航。
再例如,还可以在搜索引擎输入框中集成相应的导航数据和导航形式。具 体而言,如,当用户输入查询词时,在点击搜索命令之前,可以先以浮动窗口 或者下拉菜单等方式展现依据本发明导航得到的网址结果集,以实现网址导 航。如果用户需要继续搜索,则点击搜索命令按钮,完成通常的网页搜索即可。 采用浮动窗口,可以让用户实时预览所提示的网址,从而使得用户不必输入整 个查询词就可以完成导航,并且可以随着用户的输入动态改变所提示的网址, 使得用户能够修正网址关4建词。
再例如,对于通常的网页搜索,在网页搜索结果集的前面先展示几项网址 导航的结果。具体而言,如,当用户输入查询词时,在点击搜索命令之后,返 回的结果页面中,前两项是依据本发明得到的网址导航的结果,而后面的才是 依据通过搜索过程得到的网页搜索结果。
再例如,以各种客户端软件形式独立出现或者结合出现的网址导航界面。
实际上,采用各种用户界面完成网址导航和结果展示,对于本发明都是可 行的,因为本发明的核心并不在于导航界面的创新,在此本发明就不——详述 了。由于本实施例的很多细节在前面的实施例中已经被详细描述,因此在此主 要描述一下网址导航数据库。对于所述网址导航数据库,可以直接采用人工整 理的方式获取。也可以采用其他可行的方式进行收集获取,参照图4,下面给
出本发明的一种实现方式,具体可以包括
步骤401、分析搜索日志信息,获取在一查询词下,用户点击频率符合预 置条件的网址;所述搜索日志信息包括查询词及被用户点击的网址。
例如,针对同一个查询词,如果用户的点击集中在一个或者几个网址上, 则该网址就是针对该查询词的点击焦点,本发明的导航重点;
步骤402、获取针对所述网址的描述信息;
步骤403、依据所获得的网址和相应的描述信息,建立网址导航数据库。 所生成的网址导航数据库,其包含了网址描述信息(如关键词)、网址信息以 及二者之间的联系。当然,所述导航数据库中还可以包括其他的相关信息,例 如与该网址相关的信息介绍等等,以便于用户了解该网址所拥有的资源内容, 方便导航。
为了检索方便, 一般的,针对上述信息建立倒排表,可以形成如下的一个 数据结构——"关4定词网址l,网址2......"。
步骤402所述的描述信息可以为人工添加的,也可以为从指向该网址的各 个查询词中挑选出来的。优选的,也可以通过下面的步骤获取获取所述网址 相应的锚文本和/或相应的主题名称;分析所述网址的锚文本和/或主题名称、 以及相应的用户查询词,获取针对所述网址的描述信息。该实现方式可以获得 更为准确、丰富的描述信息。针对用户的网址关4建词,在所述描述信息中进行 匹配即可获得所需的检索结果。
因为一个网址的锚文本(Anchor,或者叫链4妄文本)和该网页的主题名称 也能够在一定程度上起到导航的作用,所以实施例2引入这些辅助信息,以优 化本发明的导航数据。所谓Anchor信息是指, 一个网页通过超链接引用另一 个网页时的一段文字描述,Anchor信息和主题名称是对一网页的描述。
优选的,针对上述网址导航数据库还可以包括依据所述搜索日志信息对所 述描述信息和网址进行4iU全的步骤,其中,所述^H验可以包括去除针对描述信息中关键词的点击频率小于或等于一定阈值的网址;和/或,从描述信息中
去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。
当然,对于一些知名网站或者网址,也可以通过人工添加的方式存储到所
述导航数据库中,上述实现方式并不排斥其他的获取导航数据的方式;即上述 实现方式可以和人工整理方式或者其他可行方式组合应用。由于网址导航Jt据 库生成之后,其中的数据就处于相对静态中,为了满足用户不断变化的需求, 则本发明优选的,还需要依据实际应用情况更新所述网址导航数据库。
参照图5,示出了本发明一种个性化网址导航的系统,其特征在于,包括 搜索日志数据库501 ,用于记录查询词和相应点击的网页; 查询词分类单元502,用于依据所点击网页的分类信息,对搜索日志中的 查询词进行分类;
用户特征获取单元503,用于汇总一用户的各个查询词,依据各个查询词 的分类结果确定该用户的特征参数;存储用户标识和特征参数,形成用户特征 库507;
检索单元504,用于接收用户输入的网址关键词,在预置的网址导航数据 库508中进行检索,匹配获得检索结果;所述网址导航数据库508包括网址与 其描述信息的对应关系;
结果输出单元505 ,用于依据当前用户的特征参数和所述检索结果中网址 网页的分类信息,对所述^r索结果进行调整,返回针对该当前用户的个性化网 址导航结果集。
优选的,所述查询词分类单元502通过以下方式完成对查询词的分类采 用 一查询词指向各个网页的点击次数或者点击比例修正各个网页的分类信息, 进而得到对该查询词的分类结果。
优选的,所述用户特征获取单元503通过以下方式获取用户特征参数采 用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用户的特征 参数。
优选的,还可以包括导航数据库生成单元506,其进一步包括 日志分析模块,用于分析搜索日志信息,获取在一查询词下,用户点击频率符合预置条件的网址;
描述信息获取模块,用于获取针对所述网址的描述信息; 数据库生成模块,用于依据所获得的网址和相应的描述信息,建立网址导
航数据库。
在本发明的一个优选实施例中,所述描述信息获耳又模块可以通过分析所述 网址的锚文本和/或主题名称、以及相应的用户查询词,获耳又针对所述网址的 描述信息。
当所述个性化网址导航结果集包括多个网址时,在本发明的一个优选实施 例中,图5所示系统还可以包括反馈单元,用于记录用户的选择信息,并对 该用户的特征参数进行相应调整。
下面给出本发明一个具体的例子。
生成导航数据库。例如通过分析搜索日志,发现对于查询词"天龙八部", 有50%的用户最后点击的网页是tl.sohu.com,有20%的用户点击的是 www.xxsy.net/wx/1—1—3.html , 有 10% 的 用 户 点 击 的是 ent.sina.com.en/f/tlbb/index.html。这三个网页经过分类后,分别属于游戏类、 小说类、影视类。同时点击频率超过了所设定的阈值(即可以用于导航),则 这3条网址都被选出。那么导航数据库中针对"天龙八部,,这个查询词,存有 3条4美选网i止tl.sohu.com (;莽 戈类)、www.xxsy.net/wx/1—1—3.html (小i兌类)、 ent.sina.com.cn/f/tlbb/index.html ( #^一见类)。
生成用户兴趣数据库。如果用户A喜欢看小说,那么从搜索日志中选出 用户A的所有查询词。例如A的查询词是"古龙小说下载"、"金庸小说下载"、 "士兵突击电视剧",前两个查询词是小说类,后一个查询词是影视类。于是 用户的兴趣是(67%小说,33%影视)。而用户B的查询词经过同样分析后发 现用户兴趣是(5%小说,10%影视,85%游戏),这些兴趣特征存入用户特征 数据库中。
当用户A输入"天龙八部"查询词后,首先去导航数据库中查询,发现 "天龙八部"这个查询词可能的导航网址包括tl.sohu.com 、 www.xxsy.net/wx/1—1—3.html、 ent.sina.com.cn/f/tlbb/index.html。 再去用户特4正数据库中提取A的特征(67%小说,33%影视),那么优先推荐小说和影视类 网址给用户A,返回的结果是
www.xxsy.net/ wx/1—1—3 .html; ent. sina. com. cn/f/tlbb/index.html 当用户B输入"天龙八部"查询词后,首先去导航数据库中查询,发现 "天龙八部,,这个查询词可能的导航网址包括tl.sohu.com 、 www.xxsy.net/wx/l_l—3.html、 ent.sina.com.cn/f/tlbb/index.html。 再去用户特征 数据库中提取B的特征(5%小说,10%影视,85%游戏),那么优先推荐游戏 和影视类网址给用户B,返回的结果是
tl sohu.com; ent.sina.com.cn/f/tlbb/index.html
从上述返回的结果,可以看出针对用户A和B分别返回了不同的导航网 址,从而做到了个性化的网址导航。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的 都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即 可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较筒 单,相关之处参见方法实施例的部分说明即可。
以上对本发明所提供的 一种生成用户特征数据库的方法和系统,以及一种 个性化网址导航的方法和系统进行了详细介绍,本文中应用了具体个例对本发 明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明 的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想, 在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应 理解为对本发明的限制。
权利要求
1、一种生成用户特征数据库的方法,其特征在于,包括获取搜索日志,所述搜索日志包括查询词和相应点击的网页;依据所点击网页的分类信息,对搜索日志中的查询词进行分类;汇总一用户的各个查询词,依据各个查询词的分类结果确定该用户的特征参数;存储用户标识及其特征参数,形成用户特征数据库。
2、 如权利要求1所述的方法,其特征在于,通过以下方式完成对查询词 的分类采用 一查询词指向各个网页的点击次数或者点击比例修正各个网页的 分类信息,进而得到对该查询词的分类结果。
3、 如权利要求l所述的方法,其特征在于,通过以下方式获取用户特征 参数采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用 户的特征参数。
4、 一种生成用户特征数据库的系统,其特征在于,包括 :溲索日志数据库,用于记录查询词和相应点击的网页; 查询词分类单元,用于依据所点击网页的分类信息,对搜索日志中的查询词进4于分类;用户特征获取单元,用于汇总一用户的各个查询词,依据各个查询词的分 类结果确定该用户的特征参数;特征库生成单元,用于存储用户标识及其特征参数,形成用户特征数据库。
5、 如权利要求4所述的系统,其特征在于,所述查询词分类单元通过以 下方式完成对查询词的分类采用一查询词指向各个网页的点击次数或者点击 比例修正各个网页的分类信息,进而得到对该查询词的分类结果。
6、 如权利要求4所述的系统,其特征在于,所述用户特征获取单元通过 以下方式获取用户特征参数采用权重参数对该用户各个查询词的分类结果进 行修正,进而获得该用户的特征参数。
7、 一种个性化网址导航的方法,其特征在于,包括 获取搜索日志,所述搜索日志包括查询词和相应点击的网页; 依据所点击网页的分类信息,对搜索日志中的查询词进行分类;汇总一用户的各个查询词,依据各个查询词的分类结果确定该用户的特征参数;接收用户输入的网址关键词,在预置的网址导航数据库中进行检索,匹配 获得检索结果;所述网址导航数据库包括网址与其描述信息的对应关系;依据当前用户的特征参数和所述检索结果中网址网页的分类信息,对所述 检索结果进行调整,返回针对该当前用户的个性化网址导航结果集。
8、 如权利要求7所述的方法,其特征在于,通过以下方式完成对查询词 的分类采用 一查询词指向各个网页的点击次数或者点击比例修正各个网页的 分类信息,进而得到对该查询词的分类结果。
9、 如权利要求7所述的方法,其特征在于,通过以下方式获取用户特征 参数采用权重参数对该用户各个查询词的分类结果进行修正,进而获得该用 户的特征参数。
10、 如权利要求7所述的方法,其特征在于,通过以下方式预置所述网址 导航数据库分析搜索日志信息,获取在一查询词下,用户点击频率符合预置条件的网址;获取针对所述网址的描述信息;依据所获得的网址和相应的描述信息,建立网址导航数据库。
11、 如权利要求10所述的方法,其特征在于,所述获得描述信息的步骤 进一步包括获耳又所述网址相应的锚文本和/或相应的主题名称;分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针 对所述网址的描述信息。
12、 如权利要求7所述的方法,其特征在于,当所述个性化网址导航结果 集包括多个网址时,还包括记录用户的选择信息,并对该用户的特征参数进行相应调整。
13、 一种个性化网址导航的系统,其特征在于,包括 搜索日志数据库,用于记录查询词和相应点击的网页;查询词分类单元,用于依据所点击网页的分类信息,对^:索日志中的查询词进4于分类;用户特征获取单元,用于汇总一用户的各个查询词,依据各个查询词的分类结果确定该用户的特征参数;检索单元,用于接收用户输入的网址关键词,在预置的网址导航数据库中 进行检索,匹配获得检索结果;所述网址导航数据库包括网址与其描述信息的 对应关系;结果输出单元,用于依据当前用户的特征参数和所述4企索结果中网址网页 的分类信息,对所述4企索结果进行调整,返回针对该当前用户的个性化网址导 航结果集。
14、 如 k利要求13所述的系统,其特征在于,所述查询词分类单元通过 以下方式完成对查询词的分类采用一查询词指向各个网页的点击次数或者点 击比例修正各个网页的分类信息,进而得到对该查询词的分类结果。
15、 如权利要求13所述的系统,其特征在于,所述用户特征获取单元通 过以下方式获取用户特征参数采用权重参数对该用户各个查询词的分类结果 进行修正,进而获得该用户的特征参数。
16、 如权利要求13所述的系统,其特征在于,还包括导航数据库生成单 元,其进一步包括日志分析模块,用于分析搜索日志信息,获取在一查询词下,用户点击频率符合预置条件的网址;描述信息获取冲莫块,用于获取针对所述网址的描述信息; 数据库生成模块,用于依据所获得的网址和相应的描述信息,建立网址导4元数据库。
17、 如权利要求16所述的系统,其特征在于,所述描述信息获取模块通 过分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对 所述网址的描述信息。
18、 如权利要求13所述的系统,其特征在于,当所述个性化网址导航结 果集包括多个网址时,还包括反馈单元,用于记录用户的选择信息,并对该用户的特征参数进行相应调整。
全文摘要
本发明提供了一种生成用户特征数据库的方法和一种个性化网址导航的方法,其中所述生成特征库的方法包括获取搜索日志,所述搜索日志包括查询词和相应点击的网页;依据所点击网页的分类信息,对搜索日志中的查询词进行分类;汇总一用户的各个查询词,依据各个查询词的分类结果确定该用户的特征参数;存储用户标识及其特征参数,形成用户特征数据库。本发明考虑到了用户需求的差异性,将用户的兴趣特征加入到所推荐的网址排序或筛选计算中,从而使得最符合当前用户个性化需求的网址被优先推荐出来,以满足当前用户的个性化需求。
文档编号G06F17/30GK101551806SQ20081010342
公开日2009年10月7日 申请日期2008年4月3日 优先权日2008年4月3日
发明者浩 余, 张智敏 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1