一种基于领域本体的多源个性化新闻网页推荐方法

文档序号:6639481阅读:201来源:国知局
一种基于领域本体的多源个性化新闻网页推荐方法
【专利摘要】本发明公开了一种基于领域本体的多源个性化新闻网页推荐方法,其特征是按如下步骤进行:1建立新闻语料库;2抓取新闻;3建立用户初始兴趣模型;4建立新闻分类模型;5个性化新闻推荐;6更新兴趣模型。本发明能挖掘用户的兴趣度,使得推荐结果的准确性和召回率都有明显的提升,并提高用户的满意度。
【专利说明】一种基于领域本体的多源个性化新闻网页推荐方法

【技术领域】
[0001] 本发明属于个性化推荐领域,具体地说是一种基于领域本体的多源个性化新闻推 荐方法。

【背景技术】
[0002] 随着互联网规模的迅速发展,人们获取信息的方式越来越多,信息呈爆炸式增长, 用户逐渐由信息匮乏走向了信息过载时代一一海量信息使得用户难以寻找到各自所需的 信息。为了方便用户从海量信息中寻找其所需的内容,出现了很多解决方案:包括分类目录 和搜索引擎。分类目录是把常用热门网站分门别类,便于用户查找信息。但是,随着互联网 规模的扩大,分类目录只能覆盖少量热门网站。搜索引擎使得用户只需把自己的需求转换 成关键词的不同组合,再在网络中寻找其所需的需求。然而,由于成本、版面等原因的限制, 往往只能将网站或信息分为数个或十数个类别,这样的分类粒度往往并不能满足用户的需 求。搜索引擎则是只需用户把自己的需求转换成关键词的组合在网络中查找所需的信息。 然而由于搜索引擎面向的是所有用户,它返回的结果往往具有通用性,不能满足出于不同 维度上的查询要求。
[0003] 个性化推荐技术正是在这样的背景下应运而生的,它是今后网站发展的整体趋 势,同时也是互联网领域的一个研宄热点。所谓个性化新闻推荐就是将个性化推荐技术应 用于新闻资讯领域的推荐。它可以帮助用户从海量的新闻资讯中轻松快速地发掘自己可能 感兴趣的资讯,为用户节省了大量的时间和精力。著名电子商务网站Amazon销售额中的 35%是来自推荐系统。由此可见,推荐系统在提高了用户的满意度的同时,也提高了网站的 黏性,增加了网站访问量,为网站带来巨大的商业利益。
[0004] 在个性化推荐领域中,网页这类文本内容的推荐又是一个非常重要的领域,如何 从海量的信息中计算得到海量用户可能感兴趣的内容推荐给用户,是一个极具挑战性的技 术领域。现有的技术主要有两种技术方案比较流行,具体来说,包括:
[0005] (1)基于协同过滤的个性化推荐方法
[0006] 基于协同过滤的推荐算法(CollaborativeFilteringRecommendation)是通过 一组用户的偏好来向其他用户进行推荐的。这种方法的推荐对象可以是新闻、图书、音乐、 视频以及实物等任意对象。根据机器学习理论,基于协同过滤的推荐算法隶属于实例的学 习范畴。同时,该推荐方法对于一些特殊品味的用户不能给予很好的推荐。这类用户首先 具有特殊性,其次,其想要获得新闻、图书等也具有特殊性。
[0007] (2)基于内容的个性化推荐算法
[0008] 基于内容的推荐(Content-basedRecommendation)主要是根据分析用户已经读 取过的内容与待推荐内容之间的相似性进行推荐的。随着机器学习等技术的不断完善,基 于内容的推荐方法又可以对用户和内容分别建立对应的配置文件,通过分析用户已经读取 过的内容,建立或更新用户的配置文件。基于内容的推荐算法的根本在于信息获取和信息 过滤。因为在文本信息获取与过滤方法的研宄较为成熟,现有很多基于内容的推荐系统都 是通过分析产品的文本信息进行推荐。该方法的不足之处是:如何对新用户的推荐,因为新 用户没有历史信息,无法构建其对应的配置文件。
[0009] 与此同时,在研宄如何根据用户兴趣偏好进行个性化推荐的过程中,构建语义概 念网络就显得十分重要,本体(Ontology)是目前应用十分广泛的方法。
[0010] 本体的构成主要包括实例(Instance/Individual)、概念(Concept/Class)、属 性(Attribute)和关系(Relation),更完整的本体还会包括限制(Restriction)和定理 (Axioms)等。实例描述领域中的相关个体;概念则是实例的类别和集合,归类领域中的 个体类别;属性是用户描述实例和类别的特征;而关系用于描述实例或类别与其他实例 或类别之间的关联。广义的本体包括从简单到复杂多种形式的知识描述系统。分类系统 (Taxonomy)是一种最简单的本体,所有的概念依据is-a关系构成一个树状(或者森林) 结构,比如生物的分类系统,门纲目属种中的生物类别根据is-a构成所有已知生物的关系 树。在构建不同领域的本体时,可能出现非常复杂的推理规则,而这往往也是构建本体需要 领域专家的原因之一。本体的构建为计算和联想提供逻辑上的支持,因为联想具有关联性。 考虑到本体自身的特点,通过本体(Ontology)去寻找这种关联更加符合语义逻辑关系和 联想的过程。


【发明内容】

[0011] 本发明为解决现有技术存在的不足之处,提出一种基于领域本体的多源个性化新 闻推荐方法,以期能挖掘用户的兴趣度,从而提高推荐结果的准确性和召回率,提升用户的 满意度。
[0012] 本发明为达到上述发明目的所采用如下技术方案:
[0013] 本发明基于领域本体库的个性化中文新闻推荐方法,所述中文新闻的领域本体库 中包含由一级主题、二级主题和三级主题构成的新闻主题,所述一级主题中包含若干个一 级主题词,所述二级主题中包含若干个二级主题词,所述三级主题中包含若干个三级主题 词,所述一级主题是所述二级主题的父类,所述二级主题是三级主题的父类,一个一级主题 词中包含若干个二级主题词,一个二级主题词中包含若干个三级主题词,从而构成树形结 构;由所述一级主题、二级主题和三级主题中所有不同类别的主题词构成所述领域本体库 的查询字典;
[0014] 其特点是按如下步骤进行:
[0015] 步骤1、建立新闻语料库:
[0016] 根据所述领域本体库中所有一级主题词,分别从网络上获得类别与所述一级主题 词对应的若干新闻,从而构成新闻语料库;所述新闻语料库包括一级主题词和其相应主题 词下的若干新闻;
[0017] 步骤2、抓取新闻:
[0018] 步骤2. 1、利用新闻门户网站提供的新闻聚合器RSS获得原始新闻;所述原始新闻 包括新闻标题、新闻时间和统一资源定位符URL;
[0019] 步骤2. 2、利用HTML解析器解析所述统一资源定位符URL,获得与所述统一资源定 位符URL对应的新闻网页DOM树;所述新闻网页DOM树中包含有节点标签;
[0020] 步骤2. 3、根据所述新闻网页DOM树的节点标签获得与所述统一资源定位符URL相 对应的正文标签路径特征序列;
[0021] 步骤2. 4、根据正文标签路径特征序列抓取所述原始新闻的正文内容;由原始新 闻的正文内容,新闻标题、新闻时间和统一资源定位符URL作为原始新闻集并存储于本地 数据库;
[0022] 步骤3、建立初始用户兴趣模型:
[0023] 根据用户从所述领域本体库中选出的新闻主题作为用户兴趣主题,建立初始用户 兴趣模型

【权利要求】
1. 一种基于领域本体库的个性化中文新闻推荐方法,所述中文新闻的领域本体库中包 含由一级主题、二级主题和三级主题构成的新闻主题,所述一级主题中包含若干个一级主 题词,所述二级主题中包含若干个二级主题词,所述三级主题中包含若干个三级主题词,所 述一级主题是所述二级主题的父类,所述二级主题是三级主题的父类,一个一级主题词中 包含若干个二级主题词,一个二级主题词中包含若干个三级主题词,从而构成树形结构;由 所述一级主题、二级主题和三级主题中所有不同类别的主题词构成所述领域本体库的查询 字典; 其特征是按如下步骤进行: 步骤1、建立新闻语料库: 根据所述领域本体库中所有一级主题词,分别从网络上获得类别与所述一级主题词对 应的若干新闻,从而构成新闻语料库;所述新闻语料库包括一级主题词和其相应主题词下 的若干新闻; 步骤2、抓取新闻: 步骤2. 1、利用新闻门户网站提供的新闻聚合器RSS获得原始新闻;所述原始新闻包括 新闻标题、新闻时间和统一资源定位符URL; 步骤2. 2、利用HTML解析器解析所述统一资源定位符URL,获得与所述统一资源定位符URL对应的新闻网页DOM树;所述新闻网页DOM树中包含有节点标签; 步骤2. 3、根据所述新闻网页DOM树的节点标签获得与所述统一资源定位符URL相对应 的正文标签路径特征序列; 步骤2. 4、根据正文标签路径特征序列抓取所述原始新闻的正文内容;由原始新闻的 正文内容,新闻标题、新闻时间和统一资源定位符URL作为原始新闻集并存储于本地数据 库; 步骤3、建立初始用户兴趣模型: 根据用户从所述领域本体库中选出的新闻主题作为用户兴趣主题,建立初始用户兴趣
F=的上,…?」表示用户选择的二级主题词;集合G= {Gi,G2,…GY}表示用户选择的三 级主题词;集合a= {a。a2,…aY}表示用户的感兴趣程度;初始化所述感兴趣程度集合a 中的每个元素值为S;y表示所述用户兴趣主题的个数;0
作为用户第j个兴趣;以
作为用户第j个兴趣类别Aj;l彡j彡y; 步骤4、建立新闻分类模型: 步骤4. 1、将所述原始新闻集中的正文内容进行分词处理获得已分词新闻; 步骤4. 2、根据所述一级主题词、二级主题词和三级主题词,利用朴素贝叶斯的文本分 类方法将所述已分词新闻进行分类处理获得待推荐新闻集X={Xpx2,…Xi,…xm},Xi表示 第i个待推荐新闻; 利用式(1)获得所述第i个待推荐新闻\的属于第j个兴趣类别^概率P(A」Xi):
式(1)中,tk表示所述第i个待推荐新闻x 含有所述查询字典中的任一词语;n表 示所述第i个推荐新闻\中含有所述查询字典中的词语总数;1彡k彡n,TF(tk,Ap表示 任一词语tk在新闻语料库中类别为一级主题词h的新闻中出现次数:
表示 所述第i个待推荐新闻\中所有词语在新闻语料库中分类为一级主题Ej勺新闻中出现的 次数之和; 步骤5、个性化推荐: 步骤5. 1、利用式(2)获得第i个待推荐新闻Xi的推荐分值S(x^,从而获得所有待推 荐新闻的分值:
式(2)中,P(A」Xi)表示第i个待推荐新闻Xi属于用户第j个兴趣类别、的概率;a」 表示所述用户第j个兴趣类别?的感兴趣程度; 步骤5. 2、将所述所有待推荐新闻的推荐分值进行降序排序,选出前S个待推荐新闻推 荐给用户; 步骤6、更新兴趣模型: 利用式⑶更新所述初始用户兴趣模型,从而获得用户兴趣动态模型
式⑶中,E廣示用户第j个兴趣类别^的一级主题词;yw表示推荐给用户与所 述一级主题词&对应的任一推荐新闻;A表示推荐给用户的新闻总条数,1 <y<入; W(yw|Ep表示用户对推荐新闻的满意程度;当用户浏览推荐新闻yw,但未表示满意,则 W(yjEp=x;当用户浏览推荐新闻yw,并表示满意,则WCvA|晃)=供;当用户未浏览推荐
间距离浏览日期的时间间隔。
【文档编号】G06F17/27GK104484431SQ201410797816
【公开日】2015年4月1日 申请日期:2014年12月19日 优先权日:2014年12月19日
【发明者】吴信东, 谢飞, 胡学钢, 宫雪, 郭建波 申请人:合肥工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1