基于本体的用户模型构建方法与流程

文档序号:11621146阅读:216来源:国知局
基于本体的用户模型构建方法与流程

本发明涉及旅游领域的建模方法,更具体地说,涉及一种基于本体的用户模型构建方法。



背景技术:

旅游业是一个集中了交通、游览、住宿、餐饮、购物、文娱等环节的综合性产业。随着网络技术的飞速发展,人们在网络上可获取的旅游信息呈现出一种爆炸式的增长态势,这些网络信息资源在给人们带来丰富知识和极大便利的同时,也会给个人造成了信息疲劳和信息压力。为了快速准确地定位到需要的旅游信息,给人们个性化地推送信息,对用户兴趣模型的研究已经成为当下的热点与难点。目前,已经出现了一些常见的用户模型构建方式:基于关键词的、基于向量空间模型的、神经网络的、评价矩阵的等,但是这些用户模型都存在一定的缺陷。基于向量空间的方式稳定性较差,结果常常有许多偏差;基于神经网络的方法则不易理解,适用范围较小;基于评价矩阵的适应能力差,很难做到对兴趣更新;因此,这些模型不能准确的描述用户的个人兴趣。

由于本体在用户兴趣描述上具有一定的优势,逐渐被很多学者研究。研究方向包括:(1)如何利用本体形式化描述用户的认识结构,为用户构建基于领域本体的用户模型,提高个性化检索的质量;(2)基于用户知识本体和概念向量构建用户模型,实现用户兴趣的个性化语义描述;(3)构建集成用户兴趣信息和语义信息的加权本体,并基于该加权本体提出了一个个性化语义搜索框架;(4)通过用户个性本体、校正本体和本体更新实现用户模型的构建,在以上研究中,领域知识只是一个领域分类体系,用户兴趣对每个概念主题的兴趣仍采用了加权关键词的描述形式;(5)用本体抽取web社区用户会话的类、属性和实例作为特征项,基于特征项出现频度、在领域本体中语义位置及兴趣模型更新算法计算特征项权重;(6)将本体表示为节点和边组成的概念层次,每个节点与代表其内容的文档集相关联,通过tf-idf法计算文档集权重生成节点向量,通过索引项预先算出所有向量;(7)三元组表示法:本体概念的描述、兴趣度及最近一次更新时间;(8)提出四元组表示法:用户属性集、领域本体、领域本体中概念集及用户对各概念的访问量、用户间关系集;(9)提出六元组表示法:用户个性化信息(兴趣模型标识)、用户兴趣本体概念集、用户兴趣度集、概念集中成对概念语义相似度、概念创建时间、概念所含项目最近一次被访问时间。

但是,在用户兴趣模型的学习和更新的过程中对于资源仍采用了关键词向量的描述形式。虽然应用了领域知识,但是基本的技术仍然是基于关键词的描述方式和传统的机器学习算法的应用,而且所建立的用户模型大多数只是一个概念层次结构,用户模型是静态的,不能随着用户兴趣的变化而动态及时更新,用户模型的稳定性较低。用户模型不能随着用户兴趣的变化(含内容变化、旧兴趣衰减、新兴趣生成)而及时地经行适应性的改善,从而不能很好的反映兴趣变化的过程。



技术实现要素:

针对现有技术的缺点,本发明的目的在于提供一种基于本体的用户模型构建方法,能更好地给资源进行定位,改善旅游信息检索性能。

为了实现上述目的,本发明的技术方案为:一种基于本体的用户模型构建方法,包括如下步骤:(1)获取能够反映用户特征、偏好和需求的相关信息;(2)构建旅游领域本体;(3)利用相似度算法对用户进行分类;(4)对每一个用户构建模型,利用本体来表示用户模型;(5)利用兴趣度传递调整的方式对用户模型进行更新。

作为本发明的一种改进,在步骤(1)中,所述信息的获取方式包括显式采集和隐式采集,显式采集通过用户的注册信息,直接收集用户的基本信息;隐式采集通过分析用户web使用日志记录,获取用户的基本信息inf、用户对叶子节点的偏好程度v以及访问本体概念层次树中叶子节点的访问量v,其中,用户的偏好程度如式(a)所示,访问量如式(b)所示:

v=vi(1<=i<=n)表示用户对第i个叶子节点感兴趣的程度,fi,r表示用户访问叶子节点li的人资源的次数,n表示本体概念层次树中叶子节点的个数,根据叶子节点的访问量计算非叶子节点的访问量,使用户的偏好信息补充完整。

作为本发明的一种改进,在步骤(2)中,构建旅游领域本体的过程包括:建立文件、建立类及其类层次、建立属性及属性的允许值、添加实例。

作为本发明的一种改进,步骤(3)中,所述相似度算法的公式为:

sim(i,j)=w×rij/es(i,j)+(1-w)×s(i,j)0<w<1

其中,w为相应的权重,rij为相似用户共同访问的数量与不被这两个用户共同访问的资源的数量比,s(i,j)表示资源之间的访问量相似度。

作为本发明的一种改进,在步骤(4)中,用户的兴趣模型为一三元组,包含旅游领域本体、用户基本信息以及用户兴趣本体,用户的基本信息存储在top节点中,top为用户模型的顶层概念,其对象集记录用户浏览过的旅游信息的标识以及用户的基本信息,其属性包括节点的属性和用户对某节点的兴趣度,兴趣度作为数值属性存入属性集。

作为本发明的一种改进,在步骤(5)中,基于遗忘—再激励过程的兴趣进化模型,及时补上用户新增的原来没有的兴趣,及时剔除用户不感兴趣的达到一定阈值之后的某个兴趣,及时调整兴趣程度发生了变化的用户原有兴趣的兴趣度。

与现有技术相比,本发明基于本体概念层次树通过web使用日志搜集用户的基本信息,利用这些信息和领域本体库使用本体编辑工具建立领域本体,通过改进的相似度算法对用户经行分类,并对每类用户建立用户模型,最后结合兴趣度和传递调整的方法对用户兴趣模型进行更新,使得模型的构建难度降低,对描述用户兴趣有较高的可信度和准确度。

附图说明

下面结合附图和具体实施方式,对本发明的结构及其有益技术效果进行详细说明。

图1为本发明的旅游本体建模流程图。

图2为本发明的旅游本体模型图。

具体实施方式

为了使本发明的发明目的、技术方案及其有益技术效果更加清晰,以下结合附图和具体实施方式,对本发明进行进一步详细说明。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本发明,并非为了限定本发明。

本体具有的良好的概念层次结构和对逻辑推理的支持,本体层次树的节点只是一个关键词或元数据,从树根向叶子,结点之间只存在概念的细化的问题,而不存在节点规模越来越小的问题。基于本体的用户模型可以表示成具有层次的概念图的形式,并且存储在一般的关系数据库中,采用图的匹配技术来完成信息检索。基于本体的用户模型一般要用一种描述语言(如loom等)来表示,用户模型保存在知识库中,通过描述语言的逻辑推理能力来完成信息检索。基于本体的用户模型的构建,就是利用本体或者本体中的概念来表示用户模型,无论是利用本体还是本体概念表示,都要明确一个问题,那就是用户模型是依托于本体而存在的。若利用一个本体来表示一个用户模型,即每一个用户模型对应一个本体,则用户模型就包含了概念以及概念之间的关系,在利用用户模型时,就可以根据用户模型自身来计算,而不需要查询本体本身,但是,当本体中存在的规范化的关系修改时,需要修改每一个用户模型中存储的关系,产生了数据的冗余性问题。若利用本体中的概念来表示用户模型,即利用一组兴趣概念来表示用户的兴趣,这保证了系统中兴趣概念关系与本体概念的一致性,但是,在每一个用户兴趣模型更新时,需要查询本体进行反馈,对于系统性能有一定的影响。本发明在已经构建的领域本体的基础上,利用本体的概念层次数中的父子关系以及兄弟关系,形成了一个类似于数形状的用户模型。本发明将本体用一个三元组进行表示,分别是旅游领域本体,用户基本信息以及用户兴趣本体。

请参阅图1和图2,本发明基于本体的用户模型构建方法包括如下步骤:

(1)用户信息搜集与处理。由于用户背景的不同导致其兴趣领域也各有特色,例如大学生可能选择性价比较高的自助游,企业高管则会更倾向于品质游,因此首先需要对用户进行分类。用户数据的收集是获取能够反映用户特征、偏好和需求的相关信息的过程,本体的数据可以分为显式采集和隐式采集方式。显式采集主要通过用户的注册信息,直接收集用户的基本信息。隐式采集主要是分析用户web使用日志记录,获取用户的基本信息inf、用户对叶子节点的偏好程度v以及访问本体概念层次树中叶子节点的访问量v,其中,用户的偏好程度如式(a)所示,访问量如式(b)所示。

v=vi(1<=i<=n)表示用户对第i个叶子节点感兴趣的程度。fi,r表示用户访问叶子节点li的人资源的次数,n表示本体概念层次树中叶子节点的个数,根据叶子节点的访问量计算非叶子节点的访问量,使得用户的偏好信息补充完整。

(2)旅游领域本体的构建。采用protege工具中的owl语言来构建旅游领域本体。在protege中,构建领域本体的过程包括建立文件、建立类及其类层次、建立属性及属性的允许值、添加实例这4个基本步骤。旅游本体框架搭建完后,就需要在框架之下添加实例数据,本体中的类的实例开发也使依靠迭代循环来不断添加和完善的。为充分发挥本体在知识表示与逻辑推理方面的优势,我们需要认真的分析类与类之间的语义关系,以及属性之间的一些相关的关系。利用本体技术构建的领域知识库不仅可以清晰的描述领域中的概念及其关系,还可以实现领域知识的共享和重用,且有利于领域知识库的管理和维护。

(3)旅游用户分类。用户信息包括用户的个人基本信息,主要是姓名、性别、年龄、职业、消费水平等。本文通过本体概念层次树中的用户访问量以及用户的基本信息来计算用户相似性,进而对多且复杂的用户经行分类。由于用户背景的不同其旅游兴趣领域也会不同,年轻人和老年人的旅游兴趣也会有不同。个性化系统通过收集到的用户信息对用户进行分类。一般情况下用户感兴趣的节点只是本体概念层次树中的一小部分,利用改进的相似度算法对用户进行分类:sim(i,j)=w×rij/es(i,j)+(1-w)×s(i,j)0<w<1,其中,w为相应的权重,rij为相似用户共同访问的数量与不被这两个用户共同访问的资源的数量比,s(i,j)表示资源之间的访问量相似度。根据改进的相似度公式可以获得相似的用户,从而实现用户分类。

(4)用户旅游兴趣模型的本体表示。对用户实现分类后,对每一个用户构建兴趣模型,即利用本体来表示用户模型,用户本体模型的构建过程是针对不同的用户,利用所构建的领域本体中的节点来描述用户兴趣的过程。在已构建好的领域本体的部分节点上添加用户的个人信息即可得到用户模型,用户的兴趣模型可以看作一个三元组,即旅游领域本体,用户基本信息以及用户兴趣本体。在利用本体表示用户模型时,用户的基本信息存储在top节点中,top为用户模型的顶层概念,其对象集记录用户浏览过的所有旅游信息的标识以及用户的一些基本信息,其属性包括节点的属性和用户对某节点的兴趣度,兴趣度作为数值属性存入属性集。用户模型能详细的描述用户的兴趣偏好信息,保证了个性化系统的服务质量。

(5)用户模型的更新。随着用户年龄的成长,社会阅历的增加,工作的影响等等多重的关系。随着时间的推移,其兴趣在不断的变化,为了准确真实的反映用户的兴趣,就需要对用户兴趣进行及时的修改更新,利用兴趣度传递调整的方式对用户模型进行更新。本发明利用基于遗忘—再激励过程的兴趣进化模型,用户新增了原来没有的兴趣需要及时补上,用户对原来某个兴趣不感兴趣,达到一定阈值之后需要及时剔除,用户对现有的兴趣信息的兴趣程度发生了变化,需要对相应的兴趣度进行调整。

本发明将用户对旅游兴趣的偏好用本体进行表示,以更好地理解用户的行为偏好,通过建立一个用户模型的配置文件,存放着用户所喜好的资源所对应的用户信息,用户不喜欢的资源所对应的用户信息,和一般资源所对应的用户信息。本体对用户偏好资源进行用户信息的抽象化,每个本体对应一个资源信息的权值比重。用本体进行抽象化能更好地对用户行为信息进行描述。通过资源所占的权重对资源进行排序,每次访问之后再经过特定的算法对资源进行重新的权值认定与用户信息认定,能更好地给资源进行定位,在旅游信息检索性能(查准率和查全率)方面得到了改善。

根据上述说明书的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行适当的变更和修改。因此,本发明并不局限于上面揭示和描述的具体实施方式,对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1