一种基于互联网的新闻推荐方法和系统的制作方法

文档序号:6468932阅读:164来源:国知局
专利名称:一种基于互联网的新闻推荐方法和系统的制作方法
技术领域
本发明涉及网络技术,特别涉及 一 种基于互联网的新闻推荐方法和系统。
背景技术
互联网的飞速发展将人类带入了网络信息时代,对人们的个人生活产生 了深刻的影响。人们在互联网上可以轻易地获取到各种网络信息,如购物信 息、影视下载信息以及音乐下栽信息等。通常,人们通过互联网获取网络信 息的方式主要有搜索信息以及浏览新闻网站等,但近几年,又涌现出了一种
帮助用户获取网络信息的新方式推荐系统。
推荐系统是指根据用户的特点,如兴趣爱好,为用户推荐有价值的信息。 其最主流的定义是Resnick&Varian在1997年给出的"它是利用电子商务 网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销 售人员帮助客户完成购买过程"。所以,目前推荐系统的主要应用领域为网 上购物,用于为用户推荐符合其兴趣爱好的商品,如书籍、音像以及生活用 品等。推荐系统的主要组成要素包括推荐对象、用户以及推荐方法。其中, 推荐对象是指作为推荐结果反馈给用户的基本对象;用户即指推荐系统所面 对的客户;推荐方法指采用什么方式,即如何推荐。
随着技术的发展,目前推荐系统的应用领域已经不再局限于网上购物, 而是扩展到了其它方面,比如,出现了纯粹的新闻推荐系统,即当用户登陆 网络浏览新闻或下载资源时,将点击率最高的热门新闻或最新的新闻推荐给 用户。但是,这种方式的缺陷是不能针对不同的用户,分别将用户感兴趣的 新闻推荐给不同的用户,从而造成用户的体验较差。

发明内容
有鉴于此,本发明的主要目的在于提供一种基于互联网的新闻推荐系 统,能够针对不同的用户,分别推荐与该用户相关的不同新闻,从而提升用 户体验。
本发明的另 一 目的在于提供一种基于互联网的新闻推荐系统,能够针对 不同的用户,分别推荐与该用户相关的不同新闻,从而提升用户体验。
为达到上述目的,本发明的技术方案是这样实现的 一种基于互联网的新闻推荐方法,包括 建立关键词词库;
依据所述关键词词库,提取用户行为信息中所包括的关键词,根据用户行 为信息中所包括的关键词推荐新闻给用户。 一种基于互联网的新闻推荐系统,包括 关键词数据库,用于保存预先建立的关键词词库;
服务器子系统,用于依据所述关键词词库,提取用户行为信息中所包括的 关键词,并根据所述用户行为信息中所包括的关键词推荐新闻给用户。
可见,采用本发明的技术方案,考虑到用户在互联网上进行某一行为,如 浏览新闻或下载资源时,可能会希望了解一些与所浏览的新闻或所下载的资源 相关的新闻,所以,预先建立关键词词库,并依据所述关键词词库中的关键词, 提取用户行为信息中所包括的关键词,根据该提取出的关键词推荐新闻给用户。 这样一来,即可针对不同的用户,分别推荐与该用户相关的不同新闻,从而提 升了用户体验。


图1为本发明新闻推荐方法实施例的流程图。
图2为本发明新闻推荐系统实施例的组成结构示意图。
具体实施例方式
为解决现有技术中存在的问题,本发明中提出一种全新的新闻推荐方案, 考虑到用户在互联网上进行某一行为时,可能会希望了解一些与所进行的行为 相关的新闻,所以本发明所述方案中预先建立关键词词库,并依据所述关键 词词库,提取用户行为信息中所包括的关键词,根据该提取出的关键词推荐新 闻给用户。这样一来,针对不同用户,即可分别推荐与该用户相关的不同新闻, 从而提升了用户体验。
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实 施例,对本发明作进一步地详细说明。
图1为本发明新闻推荐方法实施例的流程图。假设本实施例中的用户行为 是指用户浏览新闻或下载资源,那么相应地,所述提取用户行为信息中所包括
图1所示,该实施例包括以下步骤 步骤101:建立关键词词库。
本发明实施例中所提到的关键词词库主要由互联网上曾经出现过的影片标 题、歌曲名、人名、游戏、软件、书籍、重要事件名以及重要时间等一系列有 意义的词汇组成。具体建立方式,或者说词汇收集方式主要有到一些专门的 影视、歌曲、游戏或书籍等网站上进行抓取,和/或,提取各网站新闻中指定的
符号,如《》和""中所标定的内容,和/或,接收人工编辑并输入的词汇,比 如一些重要的人名和重要事件名等。
另外,还可依据不同的关键词的类别属性,分别建立不同的数据表以标记 不同关键词的相关属性。对于一个词来说,通常可以按需求赋予不同的属性, 如类别属性,即影视、音乐、游戏、软件、书籍等类别,同时,还具有与类别 相关的属性。比如,天龙八部,属于影视类别,它还具有导演、演员、国家、 影片类型以及影片介绍等相关属性;再比如,老鼠爱大米,属于歌曲类别,它 还具有歌手、专辑、国别以及歌词等相关属性;再有,对于人名或书籍等,将具有与人物相关的时间或书籍作者等相关属性;另外,还有可能一个词被同时 赋予多种类别属性,比如,刘德华,既可^皮赋予影视类别属性,也可被赋予音 乐类别属性,而每种类别属性又分别对应一种相关属性,所以,对于"刘德华" 这样一个关键词,可能同时具有两种相关属性,即两个数据表。数据表的具体 作用将在后续介绍。
在按照上述方式建立起关键词词库后,后续过程中,可按需要随时对其进 行更新,如何更新为本领域公知,不再赘述。
步骤102:依据所述关键词词库,提取用户行为信息中所包括的关键词, 根据用户行为信息中所包括的关键词推荐新闻给用户。优选实施例中,当用户 登陆网络浏览新闻或下载资源时,依据所建立的关键词词库,提取新闻标题或 资源标题中的关键词推荐新闻给用户。
本步骤中,当用户登陆网络浏览新闻或下载资源时,可依据步骤101中所
建立的关键词词库,并利用分词算法,提取新闻标题或资源标题中的关键词,
具体如何提取为本领域公知;然后,利用提取出的关键词,搜索包含所述从标 题中提取出的关键词的新闻,具体如何搜索为本领域公知;最后,将搜索到的 新闻推荐给用户。
优选实施例中,本方法还包括获取并保存作为推荐对象的新闻的步骤。
本步骤中,获取新闻的方式主要包括从指定的网站上抓取,这里所提到 的指定网站主要是指一些比较大的门户网站,具体抓取方式可以是采用网络爬 虫工具-Spider抓取;或者,也可以人工编辑各种新闻;当然,也可采用上述 两种方式的组合,但通常以Spider抓取方式为主,以人工编辑为辅。另外,还 可对抓取到的新闻进行更新,以确保能够获取到最新的新闻。
通过Spider抓取方式获取到的新闻主要包括以下内容新闻标题、新闻分 类(体育、娱乐或军事等)、新闻标签、正文内容以及新闻图片等。有的新闻可 能没有新闻标签或新闻图片,那么对于这类新闻,只需抓取新闻标题、新闻分 类以及正文内容即可。
之后,对获取到的新闻进行预处理,包括新闻分类、关键词提取以及建立索引等。
其中,针对新闻的分类,目前已经出现了一些自动分类系统,但由于本发 明所述方案中的新闻主要来源于各大门户网站,它们对新闻已有详细的分类, 而且分类方式基本相同,可能只是在文字描述方式上有一些细微的差别,所以 本发明实施例中,在对获取到的新闻进行分类时,只需对各门户网站中常用的
新闻分类词汇进行统一即可。比如中国足球和国内足3求是两个不同的门户网 站中对足球项目的一种分类,其实质含义是一样的,只是表达方式不同,因此 可以将它们归属为同一类。
对分类后的每篇新闻的标题、标签以及正文内容进行关键词提取。具体提 取方式如下首先,依据所建立的关键词词库建立分词词典,然后利用分词算 法,提取标题、标签以及正文内容中的关键词,分词算法的具体实现为本领域 公知,不再赘述;另外,还需要提取每篇新闻中的指定符号,如《》、""中所 标定的内容。之后,还可为从标题、标签以及正文内容中提取出的关键词设置 不同的权重,对所提取出的关键词按照权重由大到d 、的顺序进行排序;比如, 可将从标题中提取出的关键词的权重设置为大于从标签中提取出的关鍵词的权 重,并将从标签中提取出的关键词的权重设置为大于从正文内容中提取出的关 键词的权重;然后,可过滤掉排序后处于尾部的一些相对不太重要的关键词, 这样一来,既能防止出现过多的关键词,又能保留下重要的关键词。
完成新闻分类以及关键词提取等过程后,即可为每篇新闻的标题、标签、 正文内容以及从该新闻中提取出的关键词等建立索引,以方便后续搜索。对于 一般的搜索过程来说,如果要搜索某一对象,可能需要遍历所有的记录,但如 果建立了索引,就相当于为记录创建了一个目录,这样再搜索时只需到目录中
进行搜索即可,这样处理的好处是可以提高搜索速度,尤其是在待搜索的记录 比较多的情况下。如何建立索引为本领域公知,不再赘述。另外,还可为标题、 标签、正文内容以及从新闻中提取出的关键词设置不同的权重。具体作用后续 将会介绍。本发明的一个优选实施例,可预先为新闻的标题、标签、正文内容以及从 新闻中提取出的关键词设置不同的权重,那么本步骤中,在将搜索到的新闻推 荐给用户之前,可进一步依据该从标题中提取出的关键词在搜索到的新闻所处 位置的权重的不同,将搜索到的新闻按照权重由大到小的顺序进行排序,然后, 将排序后的新闻依次推荐给用户。比如,假设将标题的权重设置为大于正文内
容的权重,并假设共搜索到两条新闻,其中一条新闻中关^:词位于标题中,即 该新闻是基于标题搜索到的,而另一条新闻中关键词位于正文内容中,即该新 闻是基于正文内容搜索到的,那么,则可将基于标题搜索到的新闻排在基于正 文内容搜索到的新闻之前,优先推荐给用户。
另外,对于新闻来说,时效性是非常重要的,所以本实施例中,可将新闻 的发表时间作为一个重要的权重指标。比如,可设定一个时间界限,将上述按
闻过滤掉,并将过滤后的新闻推荐给用户;或者,将所述按照权重由大到小的 顺序进行排序后的新闻进一步按照发表时间的先后进行排序,将时间在先的新 闻优先推荐给用户。
再有,本发明所述方案中,为了给用户推荐更多更全面的新闻内容,还可
步骤101中所建立的数据表,确定所提取出的关键词的相关属性,然后在所保 存的新闻中搜索出包含提取出的关键词的新闻后,进一步搜索出包含该提取出 的关键词的相关属性的新闻;或者,也可以在所保存的新闻中搜索同时包含提 取出的关键词及其相关属性的新闻,具体实现方式不限。对于前一种方式,可 将按照关键词搜索到的新闻的权重设置为高于按照关键词的相关属性搜索到的 新闻,从而将按照关键词搜索到的新闻优先推荐给用户。
在实际应用中,根据用户行为的不同,即是下载资源还是浏览新闻,本步 骤的具体将略有不同,下面结合具体的示例,对本步骤的具体实现作进一步地 "i羊细i兌明 A、当用户下载资源(包括查看下载资源的下载状态)时,首先,用户所在客
户端将用户所下载的资源的相关信息,如资源标题以及资源格式(exe或rm等) 等发送至服务器;服务器根据关键词词库提取该资源标题中的关键词。例如, 资源标题为"越狱第三季01高清晰",而关键词词库中记录有关键词"越狱第 三季",则可按照分词算法,从资源标题中提取出关键词"越狱第三季";同时, 根据资源标题以及资源格式等信息,可判断出该关键词属于影视类型,进而从 关键词词库中查找出关键词"越狱第三季,,对应的相关属性,如导演为Jim Barrett 等。服务器到所保存的新闻中分别搜索包含有"越狱第三季"和"Jim Barrett" 的新闻,或者搜索同时包含有"越狱第三季"和"JimBarrett"的新闻。对于前 一种情况,服务器还需要对搜索到的新闻进行排序,即将包含有"越狱第三季" 的新闻的权重设置为高于包含有"JimBarrett"的新闻的权重,然后将排序后位 置靠前的新闻优先推荐给用户。另外,还可进一步过滤掉搜索到的新闻中的非 影视类新闻,将剩下的影视类新闻推荐给用户。 举例说明
用户正在下载一部电视剧《李小龙传奇》中的第一集,客户端将资源标题 "李小龙传奇高清版0r以及资源格式"rm"发送给服务器;服务器根据关键 词词库提取出"李小龙传奇高清版01"中的关键词"李小龙传奇",同时根据 资源标题以及资源格式"rm"确定出该资源为影视资源;然后,到关键词词库 中查找关键词"李小龙传奇,,的相关属性,得到导演李文歧,以及演员陈 囯坤、王洛勇等相关信息;之后,到所保存的新闻中分别搜索包含"李小龙传 奇"、"李文歧"、"陈国坤,,等词汇的新闻,并得到以下一系列新闻
1、 《李小龙传奇》开播黄皮小子曾是李连杰替身
2、 《李小龙传奇》8集用了 3次替身
3、 龙旋风使阴招龙迷难解李小龙本是问题少年(图)
内容为针对观众的反馈,昨日本报记者致电了本剧导演李文歧......
4、 《李小龙传奇》开播黄皮小子曾是李连杰替身
内容为而与陈国坤对战的黄皮小子李渊也是武替出身......由于3和4均为按照关键词的相关属性搜索出的新闻,而1和2为按照关 键词搜索出的新闻,所以1和2的权重高于3和4,将1和2排在3和4的前 面;另外,对于1和2,由于都是按照关键词搜索出的新闻,所以这两个在排 序时可任意设置先后,3和4的情况类似;再有,对于通过不同方式搜索出来 的重复新闻,比如1和4,可将其进行合并,并将两者的权重之和作为合并后 的新闻的权重,或者,也可以直接取权重较高的新闻;最后,将合并后得到的 3条新闻推荐给用户。
B、浏览新闻
当用户浏览新闻时,客户端将该新闻的标题以及新闻id号等发送给服务器; 服务器提取出标题中的关键词,并获取该关键词的相关属性,然后到所保存的 新闻中分别搜索包含该关键词以及相关属性的新闻;在得到所需新闻后,服务 器进一步根据新闻id号,确定出该新闻的具体类型,然后过滤掉非同类的新闻 或降低权重,并对搜索到的新闻进行排序;最后,将排序后的新闻依次推荐给 用户。
举例说明
用户正在浏览新闻"《李小龙传奇》开播黄皮小子层是李连杰替身",id 号为123。客户端将新闻标题以及id号发送给服务器;服务器提取出标题中的 关键词"李小龙传奇"以及"李连杰",然后在所保存的新闻中分别搜索包含"李 小龙传奇"和"李连杰"的新闻,当然,也可搜索同时包含"李小龙传奇"和 "李连杰"的新闻,假设该示例中采用前一种方式;之后,依据id号确定出用 户浏览的新闻类型为娱乐新闻,进而过滤掉搜索到的新闻中的非娱乐类新闻; 最后,对搜索到的新闻进行排序,假设将包含"李小龙传奇"的新闻的权重设 置为高于包含"李连杰"的新闻,并将排序后的新闻依次推荐给用户。当然, 如果需要,仍可将关键词"李小龙传奇"和/或"李连杰"的相关属性作为查询 对象。
需要说明的是,如果按照本发明所述方案搜索出的新闻数小于预先设置的 阈值,比如,如果用户正在下载一部很老的电影,那么与该电影相关的新闻可能很少,这种情况下,可按照现有方式,进一步将最新和/或最热门的新闻推荐 给用户。
发明所述方案进行说明;本领域技术人员应该知道,对于其它的用户行为,本 发明所述方案将同样适用。
基于上述方法,图2为本发明新闻推荐系统实施例的组成结构示意图。如
图2所示,该系统包括
关键词数据库21,用于保存预先建立的关键词词库;
服务器子系统23,用于依据所述关键词词库,提取用户行为信息中所包括 的关键词,并根据所述用户行为信息中所包括的关键词推荐新闻给用户。
另外,在实际应用中,图2所示系统中还将进一步包括客户端22,用于用 户登录到互联网上,以进行浏览新闻或下载资源等用户行为。
其中,服务器子系统23中包括
新闻采集服务器231,用于从指定的网站上抓取和/或接收人工编辑并输入 的各种新闻,并将获取到的各种新闻发送给新闻预处理服务器232;
新闻预处理服务器232,用于接收和保存来自新闻采集服务器231的各种 新闻,对每篇新闻的标题、标签和正文内容进行关键词提取,并为每篇新闻的 标题、标签、正文内容以及从该新闻中提取出的关键词建立索引,以方便进行 新闻搜索;
新闻推荐服务器233,用于依据所述关键词词库,提取用户行为信息中所 包括的关键词,发送给新闻搜索服务器234;并接收新闻搜索服务器234返回 的搜索到的新闻,推荐给用户;
新闻搜索服务器234,用于接收来自新闻推荐服务器233的用户行为信息 中所包括的关键词,并基于所建立的索引,在新闻预处理服务器232所保存的 新闻中,搜索包含所述用户行为信息中所包括的关键词的新闻,返回给新闻推 荐服务器233。
另外,新闻搜索服务器234可进一步用于,为新闻的标题、标签、正文内容以及从新闻中提取出的关键词设置不同的权重,按照所述用户行为信息中所 包括的关键词在搜索到的新闻中所处位置的权重的不同,将搜索到的新闻按照 权重由大到小的顺序进行排序,并将排序后的新闻依次返回给新闻推荐服务器
233。
进一步地,新闻推荐服务器233将排序后的新闻依次推荐给用户,其还可 设定一个时间界限,过滤掉按照权重由大到小的顺序进行排序后的新闻中发表 时间在所述时间界限之后的新闻;或者,将按照权重由大到小的顺序进行排序 后的新闻进一 步按照发表时间的先后进行排序。
新闻推荐服务器233还可进一步用于,确定用户行为信息中所包括的关键 词的类别属性,依据该用户行为信息中所包括的关键词对应的数据表,确定该 用户行为信息中所包括的关键词的相关属性,将所述相关属性发送给新闻搜索 服务器234,或者,将用户行为信息中所包括的关键词及其相关属性一起发送 给新闻搜索服务器234;
新闻搜索服务器234进一步用于,在新闻预处理服务器232保存的新闻中 搜索包含用户行为信息中所包括的关键词的相关属性的新闻,或者,在新闻预 处理服务器232保存的新闻中搜索同时包含用户行为信息中所包括的关键词及 其相关属性的新闻,并返回给新闻推荐服务器233;新闻推荐服务器233将按 照用户行为信息中所包括的关键词搜索到的新闻的权重设置为高于按照用户行 为信息中所包括的关键词的相关属性搜索到的新闻,并将按照用户行为信息中 所包括的关键词搜索到的新闻优先推荐给用户。
服务器子系统23中还可进一步包括热门新闻推荐服务器235,用于确定 新闻推荐服务器233已经推荐给用户的新闻数是否少于预先设定的阈值,如果 是,则将最新和/或最热门的新闻通过新闻推荐服务器233推荐给用户。
图2所示系统的具体工作流程请参照图1所示方法实施例中的相应说明, 此处不再赘述。
总之,采用本发明的技术方案,能够针对不同的用户,分别推荐与该用户 相关的不同新闻,从而提升了用户体验。综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的 保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改 进等,均应包含在本发明的保护范围之内。
权利要求
1、一种基于互联网的新闻推荐方法,其特征在于,该方法包括建立关键词词库;依据所述关键词词库,提取用户行为信息中所包括的关键词,根据用户行为信息中所包括的关键词推荐新闻给用户。
2、 根据权利要求1所述的方法,其特征在于,所述建立关键词词库包括 从互联网上抓取所需的词汇、提取各网站的新闻中指定符号所标定的内容,和/或,接收人工输入的词汇。
3、 根据权利要求2所述的方法,其特征在于,该方法进一步包括获取和 保存作为推荐对象的新闻。
4、 根据权利要求3所述的方法,其特征在于,所述获取和保存作为推荐对 象的新闻包括从指定的网站上4爪取和/或人工编辑各种新闻并保存;对每篇新闻的标题、 标签和正文内容进行关^;词提取,并为每篇新闻的标题、标签、正文内容以及 从该新闻中提取出的关键词建立索引;所述根据用户行为信息中所包括的关键词推荐新闻给用户包括利用所建 立的索引,在所保存的新闻中搜索包含所述用户行为信息中所包含的关键词的 新闻,并推荐给用户。
5、 根据权利要求4所述的方法,其特征在于,所述对每篇新闻的标题、标 签和正文内容进行关键词提取包括依据所述关键词词库,利用分词算法,对每篇新闻的标题、标签和正文内 容进行关键词提取,同时,提取每篇新闻中的指定符号所标定的内容作为关键 词;并为所述从新闻中提取出的关键词设置不同的权重,对所述从新闻中提取 出的关键词按照权重由大到小的顺序进行排序,过滤掉排序后处于尾部的预定 个关键词。
6、 根据权利要求4或5所述的方法,其特征在于,所述在所保存的新闻中搜索包含所述用户行为信息中所包括的关键词的新闻,并推荐给用户包括为新闻的标题、标签、正文内容以及从新闻中提取出的关键词设置不同的权重;按照所述用户行为信息中所包含的关键词在搜索到的新闻中所处位置的权 重的不同,将搜索到的新闻按照权重由大到小的顺序进行排序,并将排序后的 新闻依次推荐给用户。
7、 根据权利要求6所述的方法,其特征在于,该方法进一步包括 设定一个时间界限,过滤掉所述按照权重由大到小的顺序进行排序后的新闻中发表时间在所述时间界限之后的新闻,将过滤后的新闻推荐给用户;或者,将所述按照权重由大到小的顺序进行排序后的新闻进一步按照发表 时间的先后进行排序,将重新排序后的新闻推荐给用户。
8、 根据权利要求4或5所述的方法,其特征在于,所述建立关键词词库进 一步包括依据不同关键词的类别属性,建立不同的数据表以标识不同关键词 的相关属性;所述提取用户行为信息中所包含的关键词进一步包括确定所述用户行为 信息中所包含的关键词的类别属性,并依据所述用户行为信息中所包含的关鍵 词对应的数据表,确定所述用户行为信息中所包含的关键词的相关属性;所述在所保存的新闻中搜索包含所述用户行为信息中所包含的关键词的新 闻进一步包括在所保存的新闻中搜索包含所述用户行为信息中所包含的关键 词的相关属性的新闻,或者,在所保存的新闻中搜索同时包含所述用户行为信 息中所包含的关键词及其相关属性的新闻。
9、 根据权利要求8所述的方法,其特征在于,所述在所保存的新闻中搜索 同时包含所述用户行为信息中所包含的关键词及其相关属性的新闻进一步包 括将按照所述用户行为信息中所包含的关键词搜索到的新闻的权重设置为高 于按照所述用户行为信息中所包含的关键词的相关属性搜索到的新闻;所述推荐给用户包括将按照所述用户行为信息中所包含的关键词搜索到的新闻优先推荐给用户。
10、 根据权利要求8所述的方法,其特征在于,将新闻推荐给用户之后,进一步包括确定已经推荐给用户的新闻数是否小于预先设定的阈值,如杲是,则将最 新和/或最热门的新闻推荐给用户。
11、 一种基于互联网的新闻推荐系统,其特征在于,该系统包括 关键词数据库,用于保存建立的关键词词库;服务器子系统,用于依据所述关键词词库,提取用户行为信息中所包括的 关键词,并根据所述用户行为信息中所包括的关键词推荐新闻给用户。
12、 根据权利要求11所述的系统,其特征在于,所述服务器子系统包括 新闻采集服务器,用于从指定的网站上抓取和/或接收人工编辑并输入的各种新闻,并将获取到的各种新闻发送给新闻预处理服务器;所述新闻预处理服务器,用于接收和保存来自所述新闻采集服务器的各种 新闻,对每篇新闻的标题、标签和正文内容进行关键词提取,并为每篇新闻的 标题、标签、正文内容以及从该新闻中提取出的关键词建立索引,以方便进行 新闻搜索;新闻推荐服务器,用于依据所述关键词词库,提取用户行为信息中所包括 的关键词,发送给新闻搜索服务器;并接收所述新闻搜索服务器返回的搜索到 的新闻,推荐给用户;所述新闻搜索服务器,用于接收来自所述新闻推荐服务器的所述用户行为 信息中所包括的关键词,并基于所建立的索引,在所述新闻预处理服务器所保 存的新闻中搜索包含所述用户行为信息中所包括的关键词的新闻,返回给所述 新闻推荐服务器。
13、 根据权利要求12所述的系统,其特征在于,所述新闻搜索服务器进一 步用于,为新闻的标题、标签、正文内容以及从新闻中提取出的关键词设置不 同的权重,按照所述用户行为信息中所包括的关键词在搜索到的新闻中所处位 置的权重的不同,将搜索到的新闻按照权重由大到小的顺序进行排序,并将排序后的新闻依次返回给新闻推荐服务器。
14、 根据权利要求13所述的系统,其特征在于,所述新闻推荐服务器进一 步用于,设定一个时间界限,过滤掉所述按照权重由大到小的顺序进行排序后 的新闻中发表时间在所述时间界限之后的新闻;或者,将所述按照权重由大到 'J、的顺序进行排序后的新闻进一步按照发表时间的先后进行排序。
15、 根据权利要求12或13所述的系统,其特征在于,所述新闻推荐服务 器进一步用于,确定所述用户行为信息中所包括的关键词的类别属性,依据所 述用户行为信息中所包括的关键词对应的数据表,确定所述用户行为信息中所 包括的关键词的相关属性,并将所述相关属性发送给所述新闻搜索服务器,或 者,将所述用户行为信息中所包括的关键词及其相关属性一起发送给所述新闻 搜索服务器;所述新闻搜索服务器进一步用于,在所述新闻预处理服务器所保存的新闻 中搜索包含所述用户行为信息中所包括的关键词的相关属性的新闻,或者,在 所述新闻预处理服务器所保存的新闻中搜索同时包含所述用户行为信息中所包 括的关键词及其相关属性的新闻,并返回给所述新闻推荐服务器;所述新闻推荐服务器将按照所述用户行为信息中所包括的关鍵词搜索到的 新闻的权重设置为高于按照所述用户行为信息中所包括的关键词的相关属性搜 索到的新闻,并将按照所述用户行为信息中所包括的关键词搜索到的新闻优先 推荐给用户。
16、 根据权利要求15所述的系统,其特征在于,所述服务器子系统中进一 步包括热门新闻推荐服务器,用于确定所述新闻推荐服务器已经推荐给用户的新 闻数是否小于预先设定的阈值,如果是,则将最新和/或最热门的新闻通过所述 新闻推荐服务器推荐给用户。
全文摘要
本发明公开了一种基于互联网的新闻推荐方法,包括预先建立关键词词库,并依据所述关键词词库,提取用户行为信息中所包括的关键词,根据用户行为信息中所包括的关键词推荐新闻给用户。本发明同时公开了一种基于互联网的新闻推荐系统。应用本发明所述的方法和系统,能够针对不同用户,分别推荐与该用户相关的不同新闻,从而提升了用户体验。
文档编号G06F17/30GK101446959SQ20081018884
公开日2009年6月3日 申请日期2008年12月30日 优先权日2008年12月30日
发明者刘汉洲 申请人:深圳市迅雷网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1