一种面向移动新闻订阅的知识推荐方法

文档序号:6517801阅读:164来源:国知局
一种面向移动新闻订阅的知识推荐方法
【专利摘要】本发明涉及一种面向移动新闻订阅的知识推荐方法,所述方法包括:(1)提取模块从知识库中依次提取知识点;(2)搜索模块从常用词词典查找知识点的名称并采用集成模块生成知识点集合存储于存储模块中;(3)更新存储模块中本体的知识点分类信息和关联关系;(4)查找模块从本体中找出新闻文档中的所有知识点名称形成集合A;(5)分析模块对集合A中的每个元素消歧形成集合B;(6)分析模块对集合B中的每个元素过滤形成推荐列表C;(7)输出模块输出推荐列表C。本发明利用众包知识库提供的知识点分类和关系信息,有效地将移动新闻订阅的背景知识推荐所要求的高实时性、高可用性、高可扩展性和高可用性融于一个轻量级的系统中。
【专利说明】—种面向移动新闻订阅的知识推荐方法
【技术领域】
[0001]本发明属于搜索领域,具体讲涉及一种面向移动新闻订阅的知识推荐方法。
【背景技术】
[0002]智能手机和平板电脑等移动智能终端的迅速普及极大地拓展了人们获取信息的途径,特别是对于新闻类信息,人们可以通过关键词订阅的方式随时随地获取自己感兴趣的内容。然而用户在阅读新闻的同时,很可能希望对该新闻事件的所涉及的事实性要素(如相关人物、组织机构、地点等)的背景知识(通常为类似百科词条性质的页面)做进一步的了解。目前,能够满足此类需求的技术主要为推荐(或过滤)技术,推荐技术主要分为基于协作的推荐、基于内容的推荐、和基于知识的推荐三种类型。
[0003]基于协作的推荐:其基本假设是如果用户之前与某些其他用户具有相近的偏好,则在未来他们也会具有相近的偏好。一般采用最近邻(按用户偏好的相似程度-userbased,或物品被偏爱的相似程度-1tem based)或挖掘关联规则的方法预测当前用户在新物品(新知识点)上的偏好,再根据预测的偏好程度给出推荐结果。但此类推荐的应用最为广泛,但需要获取用户偏好数据,随着用户数量和知识库规模的增长,对计算资源的需求会急剧增加,且基于协作的推荐没有考虑待推荐的知识点的内容。
[0004]基于内容的推荐:其基本假设是如果某物品与用户偏好的物品相近,则它可能属于用户喜欢的物品。这种方法特别适用于文本的推荐。通常采用基于tfidf的向量空间模型来表示文档,在应用最近邻(或top k近邻)方法给出推荐列表。但此类型推荐主要用于文本推荐,而知识点页面往往包含多种格式的信息,甚至包括动态变化的内容,因此很难应用或构建一个统一的文档(知识点)表示方法(如tfidf)。
[0005]基于知识的推荐:此类型的推荐是由用户显式定义其推荐需求(形成对商品的约束),系统计算用户需求与物品间的相似度或采用专门的规则进行推荐。但此类型的推荐主要针对一段时间内不会被频繁购买的商品(如汽车、大型电器等),因为这类情况下评价信息很少且易失效。移动终端用户的输入和选择都较PC为困难,让用户自己设定复杂推荐需求会增加用户操作的复杂度、长时间转移用户的注意力,同时用户对相关知识点的欲求远不及初次购买大型商品的欲求,因此基于知识的推荐技术不适于对知识点的推荐。

【发明内容】

[0006]针对现有技术的不足,本发明提供一种面向移动新闻订阅的知识推荐方法。针对移动新闻订阅本身要求的响应速度快、访问量大、内容更新迅速等特点,设计了基于众包知识库和本体的知识推荐方法,使用该方法可实现轻量级的,具有高实时性、高可扩展性、高可用性的新闻背景内容推荐系统。
[0007]本发明的目的是采用下述技术方案实现的:
[0008]一种面向移动新闻订阅的知识推荐方法,其改进之处在于,所述方法包括:
[0009]( I)提取模块从知识库中依次提取知识点;[0010](2)搜索模块从常用词词典查找知识点的名称并采用集成模块生成知识点集合存储于存储模块中;
[0011](3)更新存储模块中本体的知识点分类信息和关联关系;
[0012](4)查找模块从本体中找出新闻文档中的所有知识点名称形成集合A ;
[0013](5)分析模块对集合A中的每个元素消歧形成集合B ;
[0014](6)分析模块对集合B中的每个元素过滤形成推荐列表C ;
[0015](7)输出模块输出推荐列表C。
[0016]优选的,所述步骤(2)包括通过常用词词典中查找知识点的名称,若为常用词,则继续取下一个知识点;若其并非常用词,则将其采用集成模块生成知识点集合存储于存储模块中,供推荐使用。
[0017]优选的,一个知识点名称可能对应有多个知识点的一词多义现象,知识点名称与知识点id之间的映射关系由存储模块维护。
[0018]优选的,所述步骤(3)包括根据知识点集合、分类词词典和关系词词典三个词典生成及更新分类树和知识点关系图更新存储模块中本体。
[0019]进一步地,所述本体包括分类树、关系图、分类词词典和关系词词典;知识点ID位于本体论分类树的叶节点,分类树的中间节点为类别词ID,分类词词典包括类别词与其ID间的映射关系;关系图包括知识点ID行列下标的稀疏矩阵,矩阵元素为关系词ID的列表,关系词词典包括关系词与其ID间的映射关系。
[0020]优选的,所述步骤(5 )包括
[0021]a、若无歧义,则将对应的知识点加入候选推荐知识点集合B ;和
[0022]b、若为多义,则从对应的所有知识点中选择与用户订阅知识点具有最小公共祖先的那个知识点,将其加入集合B。
[0023]优选的,所述步骤(6 )包括
[0024]a)若名称在新闻文档中出现次数大于等于阈值δ,则将其加入推荐知识点列表C中;
[0025]b)若名称出现次数小于阈值,但该知识点与用户订阅知识点有相关关系(,则将其加入推荐列表C ;和
[0026]c)若名称出现次数小于阈值,且与用户订阅知识点无相关关系,则丢弃该知识点。
[0027]进一步的,所述新闻文档较短,为减少空推荐,则阈值δ取O。
[0028]与现有技术比,本发明的有益效果为:
[0029]I)本发明算法简单,易于实现,效率高,适于移动新闻订阅等对实时性要求较高的环境。
[0030]2)本发明系统量级轻,无需处理海量的用户偏好数据,占用计算和存储资源较少。
[0031]3)本发明可扩展性强,主要后台数据(常用词词典、本体、知识点集合)规模都不大,且无需保证数据的一致性
[0032]4)本发明可用性高,常用词词典、本体、知识点集合等均可在线更新。
[0033]5)本发明构建本体的知识库基于众包,既保证了较高的质量,又无需使用复杂的自然语言理解技术。
[0034]6)本发明充分利用了众包知识库所提供的高质量知识点分类和关系信息,避免了大规模用户偏好信息的获取、处理、和分析,也避免了构建开放领域本体所常用的复杂自然语言处理技术,有效地将移动新闻订阅的背景知识推荐所要求的高实时性、高可用性、高可扩展性和高可用性融于一个轻量级的系统中。
【专利附图】

【附图说明】
[0035]图1为本发明提供的一种面向移动新闻订阅的知识推荐方法结构框图。
[0036]图2为本发明提供的一种面向移动新闻订阅的知识推荐方法中知识处理的流程图。
[0037]图3为本发明提供的一种面向移动新闻订阅的知识推荐方法中推荐部分的流程图。
【具体实施方式】
[0038]下面结合附图对本发明的【具体实施方式】作进一步的详细说明。
[0039]如图1所示,本发明一种面向移动新闻订阅的知识推荐方法为基于众包的知识库基础上构建本体和知识点词典,以之进行知识推荐。系统的包括知识处理和推荐(又包括内容分析和消歧/过滤两个主要模块)两个部分。
[0040]知识处理部分利用常用词词典(可以人工维护)从知识库中提取有用知识点(与常用词匹配的知识点被作为噪声),并根据知识库中的分类和关系信息构建和更新本体;
[0041]推荐部分用于处理请求(从将为用户呈现的文档中挑选出合适的推荐词语),它在新闻文档中找出所有可用知识点作为候选推荐项目,然后利用知识处理所构建的本体和过滤规则,对候选推荐项目进行消歧和过滤,以提高推荐的精准度。
[0042]本体包括分类树、关系图、分类词词典和关系词词典。知识点id位于本体论分类树的叶节点,分类树的中间节点为类别词id,类别词与其id间的映射关系由分类词词典存放;关系图可以由用知识点id作行列下标的稀疏矩阵存储,矩阵元素为关系词id的列表,关系词与其id间的映射关系由关系词词典存放。
[0043]由于一词多义现象的存在,一个知识点名称可能对应有多个知识点(它们具有不同的知识点id),知识点名称与知识点id之间的映射关系可由知识点集来维护。
[0044]如图2所示,知识处理的流程主要步骤包括:
[0045]I)从知识库中依次取出每个知识点;
[0046]2)在常用词词典中查找该知识点的名称,若其为常用词,则继续取下一个知识点。若其并非常用词,则将其加入知识点集合,供推荐使用;
[0047]3)对加入知识点集合的知识点,取其分类信息和关联关系,更新本体(借助知识点集合、分类词词典和关系词词典三个词典生成及更新分类树和知识点关系图)。
[0048]如图3所示,推荐的流程主要步骤如下包括:
[0049]I)利用知识点集合,找出新闻文档中的所有知识点名称,收入集合A内。
[0050]2)对集合A中的每个元素(知识点名称)进行消歧操作;
[0051]a)若其无歧义(对应一个知识点id),则将其对应的知识点加入候选推荐知识点集合B。
[0052]b)若为多义(对应多个知识点id),则从其对应的所有知识点中(利用本体的分类树)选择与用户订阅知识点具有最小公共祖先的那个知识点,将其加入集合B。
[0053]3)对集合B中的每个元素(知识点)进行过滤操作;
[0054]a)若其名称在新闻文档中出现次数大于等于阈值δ (如取3),则将其加入知识点推荐列表C中(对于短新闻文档,为减少空推荐,则阈值δ取O);
[0055]b)若其名称出现次数小于阈值,但该知识点与用户订阅知识点有相关关系(使用本体的关系图来确定),则将其加入推荐列表C ;
[0056]c)若名称出现次数小于阈值,且与用户订阅知识点无相关关系,则丢弃该知识点。
[0057]4)输出推荐列表C。
实施例
[0058]用户a对关键词w所描述的某类新闻感兴趣,他(她)在其只能移动设备(如智能手机)的新闻订阅软件S中订阅了该关键词。S的基本功能是将与w相关的最新的新闻t呈现给a。现S希望增加背景知识推荐功能,在将t呈现给a的同时,把t中的一些词/短语P的相关的结构化知识(可能包括文本格式的基本介绍、到其他相关页面的超链接、及各种多媒体内容的链接等)也推荐给a。
[0059]实现方法:利用众包模式构建知识库K (P的集合P,每个P的页面都含有分类信息、各种格式的相关内容、及与其他P的相关关系-如相关人物等,且各个P的页面元素和布局可能不同)。利用人工或半人工方式构建通用词词典D。采用图2所示的知识处理流程(利用D)从K中构建出知识点集合Z和本体O。对于新闻t,在呈现给a之前可以使用图3所示的推荐流程(利用Z和D)给出推荐知识点列表,之后与t 一起呈现给a。具体的呈现方式可以采用在t中将推荐列表中词的第一次出现做为锚文本呈现,也可以在t的呈现区域的附近(如下方)列出推荐词的方式来呈现。
[0060]最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的【具体实施方式】进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
【权利要求】
1.一种面向移动新闻订阅的知识推荐方法,其特征在于,所述方法包括: (1)提取模块从知识库中依次提取知识点; (2)搜索模块从常用词词典查找知识点的名称并采用集成模块生成知识点集合存储于存储模块中; (3)更新存储模块中本体的知识点分类信息和关联关系; (4)查找模块从本体中找出新闻文档中的所有知识点名称形成集合A; (5)分析模块对集合A中的每个元素消歧形成集合B; (6)分析模块对集合B中的每个元素过滤形成推荐列表C; (7)输出模块输出推荐列表C。
2.如权利要求1所述的一种面向移动新闻订阅的知识推荐方法,其特征在于,所述步骤(2)包括通过常用词词典中查找知识点的名称,若为常用词,则继续取下一个知识点;若其并非常用词,则将其采用集成模块生成知识点集合存储于存储模块中,供推荐使用。
3.如权利要求1所述的一种面向移动新闻订阅的知识推荐方法,其特征在于,一个知识点名称可能对应有多个知识点的一词多义现象,知识点名称与知识点id之间的映射关系由存储模块维护。
4.如权利要求1所述的一种面向移动新闻订阅的知识推荐方法,其特征在于,所述步骤(3)包括根据知识点集合、分类词词典和关系词词典三个词典生成及更新分类树和知识点关系图更新存储模块中本体。
5.如权利要求4所述的一种面向移动新闻订阅的知识推荐方法,其特征在于,所述本体包括分类树、关系图、分类词词典和关系词词典;知识点ID位于本体论分类树的叶节点,分类树的中间节点为类别词ID,分类词词典包括类别词与其ID间的映射关系;关系图包括知识点ID行列下标的稀疏矩阵,矩阵元素为关系词ID的列表,关系词词典包括关系词与其ID间的映射关系。
6.如权利要求1所述的一种面向移动新闻订阅的知识推荐方法,其特征在于,所述步骤(5)包括 a、若无歧义,则将对应的知识点加入候选推荐知识点集合B;和 b、若为多义,则从对应的所有知识点中选择与用户订阅知识点具有最小公共祖先的那个知识点,将其加入集合B。
7.如权利要求1所述的一种面向移动新闻订阅的知识推荐方法,其特征在于,所述步骤(6)包括 a)若名称在新闻文档中出现次数大于等于阈值δ,则将其加入推荐知识点列表C中; b)若名称出现次数小于阈值,但该知识点与用户订阅知识点有相关关系(,则将其加入推荐列表C ;和 c)若名称出现次数小于阈值,且与用户订阅知识点无相关关系,则丢弃该知识点。
8.如权利要求7所述的一种面向移动新闻订阅的知识推荐方法,其特征在于,所述新闻文档较短,为减少空推荐,则阈值δ取O。
【文档编号】G06F17/30GK103559269SQ201310538587
【公开日】2014年2月5日 申请日期:2013年11月4日 优先权日:2013年11月4日
【发明者】赵毅强, 杨佳 申请人:北京中搜网络技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1