一种信息推荐方法及系统与流程

文档序号:11545423阅读:229来源:国知局
一种信息推荐方法及系统与流程
本发明涉及互联网技术领域,特别是涉及一种信息推荐方法及系统。

背景技术:
互联网用户通常会在一段时期内对一些网站有稳定持续的访问需求,而记住网址对一些用户来说是个不小的门槛。尽管一部分站点的网址相对较为简短,但是一旦数量太多,要想全部记住也是一件困难的事情。在此前提下,用户经常会使用浏览器或网站提供的网址列表的功能,例如,收藏夹、或者类似网址导航功能的“快速通道”中的网址列表,等等。这些网址列表通常是允许用户自行建立及维护的,使得用户可以随时将有长期稳定访问需求的页面网址加入网址列表中,这样以后如有访问需求,不需要在浏览器地址栏中输入网址,而是直接在网址列表中寻找到目标并点击即可打开目标网址。虽然网址列表能够使得用户无需记忆具体的网址便可以访问到相应的网页,但是,又会使得用户的相关访问范围受到该网址列表的限制,相应的,也使得网络中存在的一些尚未包含在网址列表中的网址资源无法得到有效的利用。

技术实现要素:
本发明提供了一种信息推荐方法及系统,能够扩大方便用户访问的网址的范围,使得一些尚未包含的网址列表中的网址资源也能获得更高的利用率。本发明提供了如下方案:一种信息推荐方法,包括:采集网址及其对应的标签,所述标签为对网页内容、主题和/或形式进行标注的文本;汇总采集到的数据,以建立数据库,所述数据库中包括网址与标签之间的对应关系以及同一网址在对应的各个标签下的标注分布信息;接收到为指定网址进行信息推荐的请求时,在所述数据库中查询所述指定网址对应的标签以及所述指定网址在对应的各个标签下的标注分布信息;根据所述标注分布信息进行标签选择,根据所选中的标签在所述数据库中对应的其他网址,向用户进行网址推荐。可选的,所述同一网址在对应的各个标签下的标注分布信息包括:同一网址在对应的各个标签下的标注比例,其中,某网址在某标签下的标注比例为:在所述采集到的数据中,该网址被标注为该标签的次数与该网址该标注的总次数之比,通过以下方式进行标签选择:根据所述指定网址在对应的各个标签下的标注比例,为所述指定网址选择标签。可选的,所述根据所述指定网址在对应的各个标签下的标注比例,为所述指定网址选择标签包括:按照所述指定网址在对应的各个标签下的标注比例的大小,分别对所述指定网址对应的各个标签进行排序;根据排序的结果,为所述指定网址选择标签。可选的,所述根据所述指定网址在对应的各个标签下的标注比例,为所述指定网址选择标签包括:计算所述指定网址对应的各个标签在该用户的网址列表中的标注权重,其中,对于某标签,通过以下方式计算其在该用户的网址列表中的标注权重:获取该标签在该用户的网址列表中对应的全部网址,根据这些网址分别在该标签下的标注比例及所述这些网址各自在所述数据库中的标注量,计算该标签在该用户的网址列表中的标注权重;根据所述指定网址对应的各个标签在该用户的网址列表中的标注权重,分别对所述指定网址各自对应的各个标签进行排序;根据排序的结果,为所述指定网址选择标签。可选的,当用户的网址列表中包含多个目录时,网址列表中具有同一标签的网址位于同一目录下;所述方法还包括:获取用户的网址列表中的目录信息;如果用户的网址列表中存在某标签对应的目录,则对该标签进行加权调整。可选的,所述指定网址包括用户的网址列表中的网址,所述接收到为指定网址进行信息推荐的请求时,在所述数据库中查询所述指定网址对应的标签以及所述指定网址在对应的各个标签下的标注分布信息包括:接收到携带有用户网址列表中的网址的请求时,在所述数据库中分别查询所述请求中携带的各个网址对应的标签以及所述请求中携带的各个网址在对应的各个标签下的标注分布信息。可选的,当用户的网址列表中包含多个目录,网址列表中具有同一标签的网址位于同一目录下时,所述方法还包括:获取用户的网址列表中的目录信息;在所述目录信息中查找与所选中的标签对应的目录;如果查找到,将所述网址列表中的网址整理到所选中的标签对应的目录中;如果未查找到,或者用户的网址列表中不存在目录信息,则在所述用户的网址列表中创建与所选中的标签对应的目录,并将所述网址列表中的网址整理到所述创建的目录中。可选的,所述指定网址包括用户正在向网址列表中添加的网址,所述接收到为指定网址进行信息推荐的请求时,在所述数据库中查询所述指定网址对应的标签以及所述指定网址在对应的各个标签下的标注分布信息包括:接收到携带有用户正在向网址列表中添加的网址的请求时,在所述数据库中查询所述请求中携带的网址对应的标签以及所述请求中携带的网址在对应的各个标签下的标注分布信息。可选的,当用户的网址列表中包含多个目录,网址列表中具有同一标签的网址位于同一目录下时所述方法还包括:获取用户的网址列表中的目录信息;在所述目录信息中查找与所选中的标签对应的目录;如果查找到,将所述用户正在向网址列表中添加的网址添加到与所选中的标签对应的目录中;如果未查找到,或者用户的网址列表中不存在目录信息,则在所述用户的网址列表中创建与所选中的标签对应的目录,并将所述用户正在向网址列表中添加的网址添加到所述创建的目录中。可选的,还包括:将所述所选中的标签推荐给用户。可选的,在采集包含网址及其对应的标签的数据时,还包括:采集标签之间的父子关系,并将所有的父子关系进行汇总,组成标签父子链;在根据所选中的标签在所述数据库中对应的其他网址,向用户进行网址推荐时,判断指定网址对应的标签是否处于标签父子链中,如果是,将指定网址对应的标签的子标签加入到推荐网址所依据的标签中进行网址的推荐。还提供了一种信息推荐系统,包括:数据采集单元,用于采集网址及其对应的标签,所述标签为对网页内容、主题和/或形式进行标注的文本;数据库建立单元,用于汇总采集到的数据,以建立数据库,所述数据库中包括网址与标签之间的对应关系以及同一网址在对应的各个标签下的标注分布信息;查询单元,用于在接收到为指定网址进行信息推荐的请求时,在所述数据库中查询所述指定网址对应的标签以及所述指定网址在对应的各个标签下的标注分布信息;推荐单元,用于根据所述标注分布信息进行标签选择,根据所选中的标签在所述数据库中对应的其他网址,向用户进行网址推荐。可选的,所述同一网址在对应的各个标签下的标注分布信息包括:同一网址在对应的各个标签下的标注比例,其中,某网址在某标签下的标注比例为:在所述采集到的数据中,该网址被标注为该标签的次数与该网址该标注的总次数之比,通过以下单元进行标签选择:标签选择单元,用于根据所述指定网址在对应的各个标签下的标注比例,为所述指定网址选择标签。可选的,所述标签选择单元包括:第一排序子单元,用于按照所述指定网址在对应的各个标签下的标注比例的大小,分别对所述指定网址对应的各个标签进行排序;第一选择子单元,用于根据排序的结果,为所述指定网址选择标签。可选的,所述标签选择单元包括:权重计算子单元,用于计算所述指定网址对应的各个标签在该用户的网址列表中的标注权重,其中,对于某标签,通过以下方式计算其在该用户的网址列表中的标注权重:获取该标签在该用户的网址列表中对应的全部网址,根据这些网址分别在该标签下的标注比例及所述这些网址各自在所述数据库中的标注量,计算该标签在该用户的网址列表中的标注权重;第二排序子单元,用于根据所述指定网址对应的各个标签在该用户的网址列表中的标注权重,分别对所述指定网址各自对应的各个标签进行排序;第二选择子单元,用于根据排序的结果,为所述指定网址选择标签。可选的,当用户的网址列表中包含多个目录,网址列表中具有同一标签的网址位于同一目录下时,所述系统还包括:目录信息获取单元,用于获取用户的网址列表中的目录信息;调整单元,用于在用户的网址列表中存在某标签对应的目录时,对该标签进行加权调整。可选的,所述指定网址包括用户的网址列表中的网址,所述查询单元包括:第一查询子单元,用于在接收到携带有用户网址列表中的网址的请求时,在所述数据库中分别查询所述请求中携带的各个网址对应的标签以及所述请求中携带的各个网址在对应的各个标签下的标注分布信息。可选的,当用户的网址列表中包含多个目录,网址列表中具有同一标签的网址位于同一目录下时,所述系统还包括:第一用户数据获取单元,用于获取用户的网址列表中的目录信息;第一查找单元,用于在所述目录信息中查找与所选中的标签对应的目录;第一添加单元,用于如果查找到,将所述网址列表中的网址整理到所选中的标签对应的目录中;第一创建及添加单元,用于如果未查找到,或者用户的网址列表中不存在目录信息,则在所述用户的网址列表中创建与所选中的标签对应的目录,并将所述网址列表中的网址整理到到所述创建的目录中。可选的,其特征在于,所述指定网址包括用户正在向网址列表中添加的网址,所述查询单元包括:第二查询子单元,用于在接收到携带有用户正在向网址列表中添加的网址的请求时,在所述数据库中查询所述请求中携带的网址对应的标签以及所述请求中携带的网址在对应的各个标签下的标注分布信息。可选的,当用户的网址列表中包含多个目录,网址列表中具有同一标签的网址位于同一目录下时,所述系统还包括:第二用户数据获取单元,用于获取用户的网址列表中的目录信息;第二查找单元,用于在所述目录信息中查找与所选中的标签对应的目录;第二添加单元,用于如果查找到,将所述用户正在向网址列表中添加的网址添加到与所选中的标签对应的目录中;第二创建及添加单元,用于如果未查找到,或者用户的网址列表中不存在目录信息,则在所述用户的网址列表中创建与所选中的标签对应的目录,并将所述用户正在向网址列表中添加的网址添加到所述创建的目录中。可选的,还包括:标签推荐单元,用于将所述所选中的标签推荐给用户。可选的,所述数据采集单元还用于采集标签之间的父子关系,所述数据库建立单元还用于将所有的父子关系进行汇总,以组成标签父子链;所述系统还包括:标签增加单元,用于在根据指定网址对应的标签为用户推荐网址时,判断指定网址对应的标签是否处于标签父子链中,如果是,将指定网址对应的标签的子标签加入到推荐网址所依据的标签中进行网址的推荐。根据本发明提供的具体实施例,本发明公开了以下技术效果:通过本发明,可以预先建立数据库,该数据库中保存了网址与标签之间的对应关系以及同一网址在对应的各个标签下的标注分布信息,这样,就可以使用数据库中的这些信息为指定网址(例如用户网址列表中的网址,或者即将加入到网址列表中的网址等)选择标签,并将数据库中该标签下的其他网址推荐给用户。根据推荐的其他网址,还可以通过网址列表访问到更多可能感兴趣的网址,或者将这些网址同样加入到网址列表中,便于以后的访问,从而扩大了方便用户访问的网址的范围,使得一些尚未包含的网址列表中的网址资源也能获得更高的利用率。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例提供的方法的流程图;图2是本发明实施例提供的装置的示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。参见图1,本发明实施例提供的信息推荐方法包括以下步骤:S101:采集网址及其对应的标签,所述标签为对网页内容、主题和/或形式进行标注的文本;在本发明实施例中,为了能够为用户提供推荐信息,首先需要建立数据库,该数据库中需要包含一些网址,并且每个网址会有对应的标签,用于对网页内容、主题和/或形式进行标注,以便基于网址对应的标签进行信息的推荐。在建立数据库时,首先就需要收集一些数据,主要是为了收集一些网址及其对应的标签。具体实现时,可以在包含有网址及其标签的数据源中进行采集。例如,其中一种数据源可以是导航网站(导航网站就是集合较多网址链接,并按照一定条件对链接进行分类的一种网站),也就是说导航网站的页面中通常包含一些导航链接,并且会存在类别信息,以便使用户能够快速找到自己需要的网站,而不用去记住各类网站的网址。其中,导航网站中的链接以及类别信息通常是由网站制作者整理的,具有较高的质量,因此,可以直接将其作为数据源进行采集。在对这种数据源进行采集时,就可以直接将链接对应的类别信息作为链接的标签。例如,导航网站中包含某链接,并且该链接在“视频”这个类别中,此时,就可以采集到该链接的网址,并且将“视频”作为该网址的标签。或者,一些浏览器提供了网络收藏夹的功能,通过该功能,用户可以把自己喜欢的网址直接保存到网络数据库中,利用会员系统管理。在用户将网址保存到网络收藏夹中时,通常还在网络收藏夹中建立目录,以便对收藏的网址进行分类管理,例如,在某用户的网络收藏夹中,可能具有“购物”、“生活”等多个子文件夹,将具体的网址存放在各级目录中。另一方面,数据采集的工作通常可以由服务器来完成,因此,服务器可以直接获取到用户网络收藏夹中的数据,因此,也可以将网络收藏夹作为数据源。对于网络收藏夹中的网址链接,其所在的目录即可作为该网址的标签。例如,在某网络收藏夹中存在某网址的链接,该链接在“购物”这一目录中,此时,就可以采集到该网址,并且其标签为“购物”。此外,还可以通过其他方式采集到网址及其对应的标签,例如,如果某网址不存在直接可以作为标签的信息,还可以通过对网页内容或者网页标题的分析等方式来获取到网址的标签,等等,这里不再详述。需要说明的是,一些可以作为标签的信息在其数据来源中可能存在包含关系或者层次关系等父子关系,例如导航网站中各个类别之间的层次关系(如“音乐”这个类别中还可能包括“在线音乐”、“DJ音乐”等等,也即存在一级页面、二级页面等多级页面的情况,此时,“音乐”相当于是“在线音乐”、“DJ音乐”的父标签,相应的,“在线音乐”、“DJ音乐”相当于是“音乐”的子标签),网络收藏夹中可能存在多级目录等等,而标签之间的这些父子关系也可能影响到具体的推荐。因此,在本发明实施例中,在采集数据时,还可以同时采集这些标签之间的父子关系。S102:汇总采集到的数据,以建立数据库,所述数据库中包括网址与标签之间的对应关系以及同一网址在对应的各个标签下的标注分布信息;采集到的数据可能包含多个网址,每个网址可能从不同的数据源中多次被采集到,以至于每个网址可能对应多个不同的标签;另外,同一数据源中的同一标签下可能包含多个网址,不同的数据源中还可能存在相同的标签,以至于一个标签下可能对应多个网址,因此,可以对这样的数据进行汇总,最终建立起网址与标签之间的对应关系。同时,还可以统计出同一个网址在各个标签下被标注的次数,以及同一个网址被标注的总次数,由此统计出同一网址在对应的各个标签下的标注分布信息。该标注分布信息可以直接由在各个标签下被标注的次数来表示,或者,还可以由网址在各个标签下的标注比例来表示。其中,某网址在某标签下的标注比例为:在所述采集到的数据中,该网址被标注为该标签的次数与该网址被标注的总次数之比。例如,在采集到的数据中,网址A总共被标注了100次,其中,被标记为标签X的次数为50次,则该网址A在标签X下的标注比例为50%。其中,在统计各个网址被标记为各个标签的次数时,可以直接将各个数据源不加区别地直接进行统计,例如,发现某网址A在3个导航网站中被标记为“音乐”,在10个用户的网络收藏夹中被标记为“音乐”,则该网址A被标记为“音乐”的次数可以记为3+10=13次。当然,由于导航网站一般是由专业人员建立并维护的,数据的可信度比较高,而网络收藏夹中的数据一般是由用户自己手动建立并维护的,数据的可信度相对较低,因此,在进行次数的统计时,可以将不同的数据源赋予不同的权重。例如,可以如下进行设定:如果某网址被某导航网站标注为某标签,则直接将该网址被标注为该标签的次数记为100,而如果该网址被某用户网络收藏夹标注为该标签,则仍然将该网址被标注为该标签的次数记为1,以此类推。需要说明的是,在对采集到的数据进行汇总时,还可以包括对数据进行过滤、聚类等处理,其中,过滤是指将文本过长、出现次数太少的数据去除。聚类是指,将重复的数据聚为一类,甚至可以将一些文本内容并不完全一致但实际上表达相同含义的数据聚为一类,其中,所述数据可以为标签。例如,标签1、标签2及标签3表达的含义相同或相近,则可以将这三个标签聚为一类,可以将其中一个标签(例如标签1)作为该标签类的主标签,其他标签(如标签2和标签3)则作为该标签类的替代标签,这样,可以将标签2及标签3下的网址合并到标签1下,并且,当统计某网址被标记为标签1的次数时,将该网址被标记为标签2及标签3的次数也统计进来,同时,相加之后的总次数也是该网址被标记为标签2或标签3的次数。另外,在考虑标签之间的父子关系的情况下,还需要对这种父子关系进行汇总,并保存在数据库中。其中,在汇总父子关系时,由于导航网站一般是由专业人员建立并维护的,数据的可信度比较高,因此,如果发现在采集到的导航网站数据中,标签1是标签2的子分类,则直接添加父子标签二元组“标签1→标签2”;而网络收藏夹一般是由用户自己手动建立并维护的,数据的可信度相对较低,因此,对于用户网络收藏夹中采集到的数据,还可以进行进一步地判断,再决定是否将其作为可信的数据添加到数据库中。在进行判断时,由于如果标签1确实是标签2的子标签,则按照这种关系进行标记的数量应该会比较大,另外,用所有用户数据计算之后,这两个标签内部的网址分布情况应该具有相似性,因此,就可以将以上两个条件作为判断依据。具体实现时,可以通过以下方式进行判断:如果在采集到的收藏夹数据中,标签1是标签2的子目录,则:每出现一次,则给二元组“标签1→标签2”标记父子关系得分1;保留累加之后超过一定阈值的二元组“标签1→标签2”;查询标签数据库,获取标签1、标签2下所有网址和标注分布情况,计算出标签1、标签2的相似度:将相似度超过阈值的二元组“标签1→标签2”视为合理的父子标签,添加到数据库中。其中,在计算标签1与标签2之间的相似度时,可以采用如下方式实现:假设标签1的收藏总量为t1,标签2的收藏总量为t2,在它们之下有N个共同的网址,其中网址i的收藏总量为ui,在标签1下的收藏比例为wi1,在标签2下的收藏比例为wi2,则标签1和标签2的相似度为两者共同网址收藏比例的调和平均值按照网址收藏总量进行加权求和的结果,如公式(1)所示。最后再汇总所有的二元组,得到每个标签的标签父子链“标签1→标签2→......→标签N”,该标签父子链表示标签1是标签2的子标签,标签2又是标签3的子标签,直到最顶层的标签为止。S103:接收到为指定网址进行信息推荐的请求时,在所述数据库中查询所述指定网址对应的标签以及所述指定网址在对应的各个标签下的标注分布信息;在建立了上述数据库之后,就可以为指定的网址进行信息推荐了。具体实现时,可以为用户网址列表中的网址提供推荐信息,这里的网址列表可以是用户的本地收藏夹、网络收藏夹、浏览器为用户统计出的“最近访问网址列表”、“最常访问网址列表”或者类似于导航网站功能的“快速通道”中的网址列表等等。具体实现时,可以针对多种情形为用户进行信息的推荐。例如,用户网址列表中的数据可能是由用户添加的,但是用户可能并没有为其中的网址添加标签等分类信息,因此网址列表中的数据可能比较杂乱无章,不便于查找,针对这种情况,本发明实施例可以根据数据库中的数据,为网址列表中的各个数据推荐可以使用的标签,进而就可以利用推荐的标签对网址进行分类等管理(例如,根据为各个网址推荐的标签,在网址列表中创建相应的目录,并将网址放入到各自的目录中,等等。需要说明的是,在本发明实施例中,“目录”可以看作是“标签”的别称,也就是说,当一个网址列表中包含具有同一标签的多个网址时,就可以将这些网址整理到同一个目录下,并且可以将标签的名称作为该目录的名称,代表该目录下的各个网址都带有该同一标签,换言之,“标签”和“目录”都可以看作是对网址所属类别的一种描述,只不过在数据库中单独针对某一个网址时称为标签,在用户网址列表中针对某一些网址时称为目录)。或者,根据当前网址列表中已经存在的网址,还可以为用户推荐其他的网址,这样用户可以将推荐的网址也一并加入到网址列表中,或者直接访问等等。另外,在用户执行将某网址加入某网址列表中的操作时,也可以为用户当前正在添加的这个网址提供合适的标签,这样用户不需要手动为该网址打标签,如果用户接受推荐,并且当前的网址列表中存在与推荐的标签对应的目录,则可以直接将该网址添加到该目录中,或者如果当前的网址列表中不存在与该推荐的标签相对应的目录,则可以创建一个目录,并将该网址放入到该创建的目录中。或者,还可以根据用户当前正在添加的网址,为用户推荐其他的网址,这样用户可以直接访问该网址,或者将该网址也加入到网址列表中,等等。需要说明的是,在上述针对用户的网址列表中的网址进行标签的推荐时,相当于是用户只需要点击整理网址列表的按钮,浏览器就可以针对用户当前的网址列表,为其中的各个网址提供最合适的标签,进而对网址列表中的目录结构进行组织或者整理,这样,用户可以不再执行手动的维护网址列表的操作,因此,相当于实现了“一键式整理网址列表”的功能,例如,针对收藏夹这种网址列表,就可以称为“一键整理搜藏夹”等等。类似的,在上述针对用户正在向网址列表中添加的网址进行标签的推荐时,相当于用户只需要选择想要添加的网址,浏览器就可以自动为网址选择标签,并直接将其添加到用户网址列表中对应的目录下,用户可以不再执行其他操作,因此,相当于实现了“一键式添加到网址列表”的功能,例如,针对收藏夹这种网址列表,可以称为“一键收藏”。也就是说,在实际应用中,步骤S103中所述的指定网址可以是用户的网址列表中的网址,也可以是用户当前正在添加到网址列表中的那个网址。具体将哪个或者哪些网址作为指定网址,可以根据接收到的请求来确定,例如,如果需要基于网址列表中的网址进行推荐,则可以在请求中携带网址列表中的网址(可以是一个网址列表中的全部或者部分网址),如果需要基于用户当前正在添加到某网址列表中的网址进行推荐,则可以在请求中携带该正在添加的网址(还可以同时携带该网址列表中已经存在的目录信息,对此后文中会有详细地介绍)。当然,还可以预先定义请求消息的类型,当需要针对不同的场景进行推荐时,可以分别在请求中携带相应的类型信息。需要说明的是,即使是基于为网址列表中的多个网址进行信息的推荐,实际上也可以分解为分别针对各个网址进行推荐,因此,下面重点介绍针对单个网址进行推荐的过程。对于某指定网址,首先可以在数据库中查询该网址对应的标签,由于一个网址对应的标签可能有多个,因此还同时查询到该网址在各个标签下的标注分布信息,例如,在各个标签下的分布比例等等。也就是说,由于预先从一些数据源中采集了大量的网址保存在了数据库中,并且在数据库中这些网址都具有自己的标签,而对于需要提供推荐信息的指定网址而言,一般情况下,通常会包含在数据库中的网址中,因此,通常而言,在接收到对某指定网址进行信息推荐的请求后,就可以直接在数据库中查询到该网址对应有哪些标签,以及该网址在这些标签下各自的分布情况。当然,在实际应用中可能存在针对某指定网址,数据库中并不直接存在该网址的情况,此时,可以根据该指定网址的网址组成逐级向上查找。例如,某指定网址为www.a.b.c.com/目录1/目录2/page.html,如果数据库中不存在该网址,则可以将该网址中的page.html去掉,查询数据库中是否存在“www.a.b.c.com/目录1/目录2/”这个网址,如果存在,则将该网址对应的标签,作为该指定网址对应的标签;如果仍然不存在,则去掉“目录2/”,查询数据库中是否存在“www.a.b.c.com/目录1/”这个网址,如果仍然找不到,还可以到域名级别进行查找,例如查找是否存在“www.a.b.c.com/”,如果还没有,还可以去掉“a.”,甚至“b.”等等,直到能够在数据库中被找到为止。S104:根据所述标注分布信息进行标签选择,根据所选中的标签在所述数据库中对应的其他网址,向用户进行网址推荐。如前文所述,具体在进行信息推荐时,可以为某指定网址推荐合适的标签,也可以为用户推荐网址等等。其中,在为用户推荐网址时,也可以首先根据指定网址选择合适的标签,然后再根据该标签下的所有网址的标注量向用户进行网址的推荐。因此,关键问题在于为指定网址选择合适的标签,在本发明实施例中,可以通过以下方式进行:在查找到指定网址对应的各个标签之后,可以直接根据该指定网址在各个标签下的标注比例,对各个标签进行排序,然后选择排序比较靠前的标签推荐给用户,或者将排序比较靠前的标签下标注量比较大的网址推荐给用户。例如,对于某指定网址A,在数据库中为其查找到的标签包括标签1、标签2和标签3,其中,该网址A在标签1下的标注比例为a1,网址A在标签2下的标注比例为a2,网址A在标签3下的标注比例为a3,如果a2>a1>a3,则可以将标签2推荐给网址A,或者,将标签2对应的所有网址中,访问量最大的一个或多个网址推荐给用户。另外,在实际应用中,如果一个用户自己的网址列表中,某标签下有多个网址,则该标签对于该用户应该具有较高的权重。也就是说,为某用户甲的网址(可能是该用户甲网址列表中的某网址,或者该用户甲正在向网址列表中添加的网址)推荐的标签,是依据数据库中的数据选择的,选择出的标签一般是多数用户都使用的(也就是说,假设为网址A选择了标签1,是因为根据数据库中的数据显示,针对网址A,大多数用户都将其标注成了标签1),如果该选择的标签恰好在用户甲的网址列表中出现,并且在用户甲的网址列表中,该标签下还有多个网址,则将该标签推荐给用户甲之后,被用户甲选择使用的概率会大大提高。为此,本发明实施例中还提出了标签在用户的网址列表中的标注权重的概念。也即,在针对某指定网址A进行信息推荐时,如果在数据库中查找到该网址A对应的标签有标签1、标签2和标签3,则可以首先获取到用户网址列表中的网址以及目录信息,然后针对上述各个标签,进行以下处理:首先,针对标签1,看用户网址列表中是否存在标签1对应的目录,如果存在,再看该标签1对应的目录下除了网址A之外是否还存在其他网址,如果存在,则基于用户网址列表中该标签1对应的目录下的所有网址,计算该标签1在该用户网址列表中的标注权重,否则,如果该标签1对应的目录下只有网址A,或者用户网址列表中不存在标签1对应的目录,则直接将该网址A在该标签1下的标注比例作为该标签1在用户网址列表中的标注权重。关于标签2及标签3也分别做同样处理,最终,分别可以计算得到各个标签在该用户列表中的标注权重,然后,就可以根据各个标签对应的标注权重对各个标签进行排序。例如同样对于指定网址A,通过查询数据库,其在标签1下的标注比例为a1,在标签2下的标注比例为a2,在标签3下的标注比例为a3,且a1>a2>a3;在当前用户的网址列表中,标签a1对应的目录及标签a3对应的目录下没有其他的网址,标签a2对应的目录下除了网址A外还有网址B,则此时,标签2在该用户网址列表中的标注权重会因为网址B的存在而增高,最终计算出来的标签2在该用户网址列表中的标注权重可能会出现超过标签1在该用户网址列表中的标注权重的情况(此时,标签1在该用户网址列表中的标注权重等于网址A在该标签1下的标注比例),从而使得标签2能够获得较大的推荐几率。下面以标签1为例,介绍当用户网址列表中该标签1对应的目录下的网址有多个时,如何计算该标签1在用户网址列表中的标注权重。首先,对于指定网址对应的标签1,确定出在用户的网址列表中,该标签1对应的目录下的网址有哪些,例如在用户的网址列表中标签1对应的目录下有N个网址,则该标签1在该网址列表中的标注权重为:这N个网址在该标签1下的标注比例按照这N个网址从数据库中读取得到的标注总量进行加权之后的和。例如,假设这N个网址分别为网址A、B......N,其中,网址A在标签1下的标注比例是w1,标注总量是u1;网址B在标签1下标注比例是w2,标注总量是u2...网址N在标签1下标注比例是wN,标注总量是uN,那么标签1的在该用户网址列表中的标注权重可以如公式(2)所示。N*(w1*u1+w2*u2+...+wN*uN)/(u1+u2+...+uN)(2)需要说明的是,在上述按照标注权重对标签进行排序时,需要用到用户的网址列表中的网址及其目录信息。在实际应用中,如果是针对网址列表中的网址进行推荐,则即使不使用标注权重进行排序,在发起推荐请求时,也自然会携带上网址列表中包含的网址,因此,为了实现上述按照标注权重进行排序,只要再携带上网址列表中的目录信息即可。而针对用户当前正在向网址列表中添加的网址进行信息的推荐时,如果不需要利用标注权重进行排序,则仅需在请求中携带用户当前正在添加的网址,因此,如果需要利用标注权重进行排序,还需要再携带上网址列表中的网址及目录信息。另外,无论是根据标注比例还是标注权重对标签进行排序,如果用户在其网址列表中,已经将指定网址标记为某标签,则该标签对于该用户应该具有较高的权重。也就是说,如果在用户网址列表的目录中,指定网址已经被标注为某标签,则首先将该标签的标注比例乘以某大于1的系数(例如1.5等),然后再与其他标签的标注比例进行排序,或者计算标签在用户网址列表中的权重。一般而言,在向用户进行网址推荐时,如果父子标签都可以用于推荐,则推荐子标签下的链接更为合适。因此,如果在数据库中还保存了标签父子链,则在根据某指定网址向用户进行推荐其他网址时,在为该指定网址选择了合适的标签之后,可以首先判断该标签是否处于某标签父子链中,如果是,并且该标签在该标签父子链中存在子标签,则该子标签也可以用于推荐,并且,可以将父标签的标注权重加在子标签的标注权重上,使得子标签的标注权重增大。也就是说当父子标签均可用于推荐的时候,可以将父标签的标注权重叠加给子标签,这样子标签就具有较高的标注权重,在排序时也比较占优势。例如,某标签父子链为:团购->购物,如果针对某指定网址,“购物”是合适的标签,则“团购”也可以用于推荐,并且,还可以将“购物”的标注权重加在“团购”的标注权重上,以便使得“团购”的标注权重升高,这样可能会使得“团购”得到更多的推荐机会。需要说明的是,在使用本发明实施例提供的方法为某网址进行标签推荐时,如果数据库中不存在该网址,则可以通过其他方式来确定网址的标签,例如,可以后台加载网址,从而抓取该网址的页面内容进行分析,从而提取出能够代表页面内容的中心词,将该中心词作为网址的标签,并将其推荐给用户,同时,还可以将该网址与该标签之间的对应关系保存在数据库中,以供为其他用户推荐时使用。与本发明实施例提供的信息推荐方法相对应,本发明实施例还提供了一种信息推荐系统,参见图2,该系统包括:数据采集单元201,用于采集网址及其对应的标签,所述标签为对网页内容、主题和/或形式进行标注的文本;数据库建立单元202,用于汇总采集到的数据,以建立数据库,所述数据库中包括网址与标签之间的对应关系以及同一网址在对应的各个标签下的标注分布信息;查询单元203,用于在接收到为指定网址进行信息推荐的请求时,在所述数据库中查询所述指定网址对应的标签以及所述指定网址在对应的各个标签下的标注分布信息;推荐单元204,用于根据所述标注分布信息进行标签选择,根据所选中的标签在所述数据库中对应的其他网址,向用户进行网址推荐。其中,所述同一网址在对应的各个标签下的标注分布信息包括:同一网址在对应的各个标签下的标注比例,其中,某网址在某标签下的标注比例为:在所述采集到的数据中,该网址被标注为该标签的次数与该网址该标注的总次数之比;具体实现时,当需要进行标签选择时,通过以下单元完成:标签选择单元,用于根据所述指定网址在对应的各个标签下的标注比例,为所述指定网址选择标签。具体的,所述标签选择单元可以包括:第一排序子单元,用于按照所述指定网址在对应的各个标签下的标注比例的大小,分别对所述指定网址对应的各个标签进行排序;第一选择子单元,用于根据排序的结果,为所述指定网址选择标签。或者,所述标签选择单元也可以包括:权重计算子单元,用于计算所述指定网址对应的各个标签在该用户的网址列表中的标注权重,其中,对于某标签,通过以下方式计算其在该用户的网址列表中的标注权重:获取该标签在该用户的网址列表中对应的全部网址,根据这些网址分别在该标签下的标注比例及所述这些网址各自在所述数据库中的标注量,计算该标签在该用户的网址列表中的标注权重;第二排序子单元,用于根据所述指定网址对应的各个标签在该用户的网址列表中的标注权重,分别对所述指定网址各自对应的各个标签进行排序;第二选择子单元,用于根据排序的结果,为所述指定网址选择标签。在实际应用中,当用户的网址列表中包含多个目录,网址列表中具有同一标签的网址位于同一目录下时,该系统中还可以包括:目录信息获取单元,用于获取用户的网址列表中的目录信息;调整单元,用于如果用户的网址列表中存在某标签对应的目录,则对该标签进行加权调整。其中,所述指定网址可以是指用户的网址列表中的网址,相应的,查询单元203可以包括:第一查询子单元,用于在接收到携带有用户网址列表中的网址的请求时,在所述数据库中分别查询所述请求中携带的各个网址对应的标签以及所述请求中携带的各个网址在对应的各个标签下的标注分布信息。其中,当网址列表中包含多个目录,网址列表中具有同一标签的网址位于同一目录下时,该系统还可以包括:第一用户数据获取单元,用于获取用户的网址列表中的目录信息;第一查找单元,用于在所述目录信息中查找与所选中的标签对应的目录;第一添加单元,用于如果查找到,将所述网址列表中的网址整理到所选中的标签对应的目录中;第一创建及添加单元,用于如果未查找到,或者用户的网址列表中不存在目录信息,则在所述用户的网址列表中创建与所选中的标签对应的目录,并将所述网址列表中的网址整理到到所述创建的目录中。在实际应用中,所述指定网址也可以包括用户正在向网址列表中添加的网址,此时,查询单元203包括:第二查询子单元,用于在接收到携带有用户正在向网址列表中添加的网址的请求时,在所述数据库中查询所述请求中携带的网址对应的标签以及所述请求中携带的网址在对应的各个标签下的标注分布信息。类似的,当用户的网址列表中包含多个目录,网址列表中具有同一标签的网址位于同一目录下时,该系统还可以包括:第二用户数据获取单元,用于获取用户的网址列表中的目录信息;第二查找单元,用于在所述目录信息中查找与所选中的标签对应的目录;第二添加单元,用于如果查找到,将所述用户正在向网址列表中添加的网址添加到与所选中的标签对应的目录中;第二创建及添加单元,用于如果未查找到,或者用户的网址列表中不存在目录信息,则在所述用户的网址列表中创建与所选中的标签对应的目录,并将所述用户正在向网址列表中添加的网址添加到所述创建的目录中。另外,在实际应用中,该系统还可以包括:标签推荐单元,用于将所述所选中的标签推荐给用户。所述数据采集单元还用于采集标签之间的父子关系,所述数据库建立单元还用于将所有的父子关系进行汇总,组成标签父子链;所述系统还包括:标签增加单元,用于在根据指定网址对应的标签为用户推荐网址时,判断指定网址对应的标签是否处于标签父子链中,如果是,将指定网址对应的标签的子标签加入到推荐网址所依据的标签中进行网址的推荐。通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。以上对本发明所提供的一种信息推荐方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1