给游客推荐其很可能会浏览的景点的方法

文档序号:6517496阅读:221来源:国知局
给游客推荐其很可能会浏览的景点的方法
【专利摘要】给游客推荐其很可能会浏览的景点的方法,首先获取游客的浏览行为,并将游客按照景点偏好的相似性聚类成若干个游客群,同时为每个游客群分别构建Markov预测模型,具体包括以下几个步骤:1)数据采集;2)数据预处理;3)景点偏好矩阵建立;4)游客聚类;5)预测模型建立;6)景点预测。将游客进行聚类后构建Markov预测模型的算法比现有方法正确率高,实验效果好,预测效果好。
【专利说明】给游客推荐其很可能会浏览的景点的方法
【技术领域】
[0001]本发明属于智能信息处理技术,具体涉及一种基于聚类与马尔科夫(Markov)的预测方法,可用于解决游客偏好预测、旅游产品信息预取、旅游产品推荐等问题,特别是给游客推荐其很可能会浏览的景点。
【背景技术】
[0002]随着互联网与旅游业的不断发展,人们可以随时随地从旅游网站上了解各种旅游信息,但是,旅游信息太多,严重的信息过载使得游客不容易从因特网上找到自己想要的旅游信息,同时导致游客基于因特网做出旅游决策的效率愈低。然而,个性化旅游推荐成为解决这一问题的有效工具。
[0003]现在,个性化推荐系统也已经成为人们的热点。其中,获取游客的偏好成为个性化旅游推荐的关键,在游客访问旅游网站时候,游客的行为信息是获取游客的需求与偏好的主要来源,通过分析游客的行为,可以预测游客的需求与偏好,从而为游客提供旅游信息的主动推送,同时,预测出的需求与偏好信息还可以进一步用于个性化旅游推荐。在本发明中主要通过分析游客的浏览行为信息来给游客主动推送旅游信息。
[0004]游客的行为包括显示反馈行为和隐式反馈行为,利用显示反馈行为可以很明显地知道游客的偏好,比如对浏览景点的打分,标记喜欢或者不喜欢,想去、不想去或者是去过,以及游客直接输入的偏好信息等;而隐式反馈行为却不能很明显的看出游客的偏好。根据游客普遍的行为习惯,当游客访问网站时,若想了解某些信息,一般都会在搜索框中搜索,或者点击某个喜欢的链接继续浏览,而在浏览页面时,若游客比较关注某处内容,一般都会做出一些标记行为,比如鼠标拖选,或者就是浏览时在某处停留一段时间,因为游客的浏览行为往往要受到其内在兴趣的驱动,如:游客只有对相关的页面信息感兴趣,才会打开相应的链接并主动浏览相关的内容。
[0005]本发明主要针对游客浏览旅游网站时的隐性反馈行为做出分析处理,预测游客的下一步要浏览的景点,其采集的游客浏览行为包括:鼠标点击、键盘搜索、鼠标拖选、浏览截取。
[0006]由于游客浏览的景点内容依附于网页,因此游客的浏览景点的行为的预测与网页的智能预取之间存在着一定的相似性和相关性,网页智能预取的算法也可以尝试用来解决景点浏览的预测。
[0007]班志杰等人(班志杰,古志民,金瑜.Web预取技术综述[J].计算机研究与发展.2009, 46 (2): 202-210)对网页智能预取的方法做了一个总结,指出共有五种典型的方法:1)基于DG(dependency graph)的方法;2)基于数据挖掘的方法;3)基于成本函数的方法;4)基于语义预测模型的方法;5)基于马尔可夫(Markov)预测模型的方法。许多学者采用马尔可夫预测模型进行网页预取。Dhyani等人(D.Dhyani,S.S Bhowmick and W.K.Ngj “Modelling and Predicting Web Page Accesses UsingMarkov Processes,,,Proc.1nternational Workshop on Database and Expert SystemsApplications, 2003,pp.332-336)将页面浏览过程看做一个马尔可夫链,并利用η步转移矩阵来进行预测。在分析研究马尔可夫模型和K步马尔可夫模型后,Awad等人(M.A.Awad, 1.Khalil, “Prediction of User’s Web Browsing Behavior: Applicationof Markov Model, ^Proc.1EEE transactions on systems, man, and cybernetics.PartB, Cybernetics:a publication of the IEEE Systems, Man, and Cybernetics Society,vol42,n0.4, Aug.2012, pp.1131-1142)提出了利用修改后的马尔可夫模型与关联规则挖掘的方法来进行网页预取。Faten和Chimphlee等人(K.Faten, J Y Li and H Wang, “Aframework of combining Markov model with association rules for predicting webpage accesses,,,Proc.Australasian Data Mining Conference, Nov.2006, pp.177-184 ;S.Chimphlee, N.Salim, M.S.B.Ngadiman and ff.Chimphlee, “Using Association Rulesand Markov Model for Predit Next Access on Web Usage Mining,,,Proc.Advancesin Systems, Computing Sciences and Software Engineering, 2006, pp.371-376)也利用了低阶马尔可夫模型和关联规则来预测下一步将访问的网页,这不仅可以避免复杂的高阶马尔可夫模型,也可以减少关联规则的数量,以便做出更准确的预测。Nanopoulos等人(A.Nanopoulos, D.Katsaros and Y.Manolopoulos, “A Data Mining Algorithm forGeneralized Web Prefetching,,’IEEE Transactions on Knowledge and Data Engineering, vol.15, n0.5, Sep.2003, pp.1155-1169)在研究马尔可夫模型和DG后,提出了一个新的基于关联规则的预测方法WMo。邢永康等人(邢永康,马少平.类Markov链用户浏览预测模型[J].计算机学报.2003,26(11):1510-1517)指出:受浏览目的、文化背景、爱好和其他因素的影响,不同的用户其浏览过程不尽相同,假定每个用户的浏览行为都可以用一条马尔科夫链来表示。通过计算每个用户的Markov状态转移概率矩阵之间的相似性,根据标准函数,通过聚类Markov链将用户聚类为多个用户群,并为每个用户群建立一个新的马尔可夫模型。当用户访问该网站时,根据其浏览行为,利用贝叶斯分类算法将该用户归入某个用户群,并利用其所属用户群相应的马尔可夫预测模型预测该用户下一步想要访问的页面。

【发明内容】

[0008]本发明要解决的技术问题是要提供一种通过游客在旅游网站上的隐式反馈行为预测游客下一步尽可能浏览的景点的方法,以帮助游客方便快捷的找到自己想要浏览的景点。
[0009]本发明所提出的方法包括:数据采集、数据预处理、偏好模型建立、游客聚类、预测模型建立、景点预测六个关键步骤。
[0010]1、数据采集
[0011]当游客浏览旅游网站的网页时,首先利用JavaScript在客户端获取游客的行为,然后利用AJAX交互技术将行为数据传送至服务器端,最后通过PHP的数据操作接口将数据存储至MySQL数据库。
[0012]所述行为类型包括键盘搜索、鼠标拖选、页面浏览和鼠标点击四类。键盘搜索是指游客用键盘在页面搜索框中输入查询词进行站内搜索;鼠标拖选是指游客浏览页面时拖选文字;页面浏览是指游客浏览网页时人眼关注部分页面;鼠标点击是指游客在网页上点击链接文本。[0013]2、数据预处理
[0014]建立景点名词库,将游客行为记录中第一个匹配景点名词库中的景点提取出来作为该行为记录的当前状态(currentstate,描述游客当前浏览的景点),然后去除没有当前状态的行为记录,即无效行为记录;若属于同一游客的连续行为记录具有相同的当前状态,则保留这些行为中最先存储的行为记录,即删除重复记录;根据处理过后的每个游客的浏览行为记录,为每个游客构建其景点浏览行为序列。
[0015]3、偏好矩阵建立
[0016]若游客对某景点的浏览次数越多,则表示该游客对该景点的偏好度越高。本发明中,游客对某景点的偏好度为该游客浏览该景点的次数与该游客浏览所有景点的次数的比值。通过分析游客的景点浏览行为序列,计算每个游客对各景点的偏好度,为每个游客构建景点偏好向量,继而构造游客与景点之间的景点偏好矩阵M,该矩阵反映了游客对景点的偏好程度,矩阵的行代表游客,列代表景点,矩阵元素表示游客与对应景点的偏好度,矩阵的行向量反映了不同游客对各景点的浏览偏好度。其中矩阵M为:
【权利要求】
1.给游客推荐其很可能会浏览的景点的方法,其特征在于包括以下关键步骤:数据采集、数据预处理、偏好模型建立、游客聚类、预测模型建立、景点预测: .1)数据采集:收集游客访问某旅游网站的真实在线浏览行为并存入数据库; .2)数据预处理:建立景点库,提取每条行为记录中的景点,去除无效和重复的浏览记录,并为每个游客构建其景点浏览行为序列; .3)偏好矩阵建立:根据游客浏览所有景点的总次数以及其浏览某特定景点的次数,通过分析游客的景点浏览行为序列,计算每个游客对各景点的偏好度,为每个游客构建景点偏好向量,继而构造游客与景点之间的景点偏好矩阵M ; .4)游客聚类:根据每个游客对景点的偏好度,将偏好相似的游客聚类到同一游客群; .5)预测模型建立:根据每个游客群中每个游客的景点浏览行为序列,分别为每个游客群生成其对应的Markov链,继而为每个游客群构建其对应的Markov状态转移概率矩阵,并进一步建立预测模型; .6)景点预测:根据游客是否为新访客,采取不同的预测模式: 若游客之前已经访问过该网站,则根据该游客当前浏览的景点,利用该游客所在游客群的预测模型,预测该游客下一步可能会浏览的景点; 若游客是该网站的新访客,首先将热度最高的景点推荐给该游客;随着该游客浏览行为的增加,按步骤3)为其构建一个景点偏好向量,按步骤4)将该游客归入与其相似度最高的游客群,利用其归入的游客群的预测模型,预测该游客下一步尽可能会浏览的景点。
2.如权利要求1所述的方法,其特征在于:步骤I)中,当游客浏览旅游网站的网页时,首先利用JavaScript在客户端获取游客的行为类型,然后利用AJAX交互技术将行为数据传送至服务器端,最后通过PHP的数据操作接口将数据存储至MySQL数据库; 所述行为类型包括键盘搜索、鼠标拖选、页面浏览截取和鼠标点击四类。
3.如权利要求1所述的方法,其特征在于:步骤2)中,所述景点库中的景点为步骤I)中的旅游网站上的所有景点; 将游客行为记录中第一个匹配景点库中景点的景点作为该行为记录的当前状态;所述无效行为记录是指没有当前状态的行为记录;若属于同一游客的连续行为记录具有相同的当前状态,则保留这些行为中最先存储的行为记录,删除重复记录。
4.如权利要求1所述的方法,其特征在于:步骤3)中,所述景点偏好度为该游客浏览该景点的次数与该游客浏览所有景点的次数的比值; 所述景点偏好矩阵M计为Mm,n:

5.如权利要求1所述的方法,其特征在于:步骤4)中,通过计算由分析景点浏览行为序列所得的景点偏好向量之间的夹角余弦值来度量游客间的偏好相似性,并采用经典的k-means方法对游客进行聚类,将所有游客划分成k个游客群。
6.如权利要求1所述的方法,其特征在于:步骤5)中,每个游客群的Markov状态转移概率矩阵由该群中的所有游客的Markov链分析获得;所述每个游客群中每个游客的景点浏览行为序列,是指游客群在web上的浏览过程构成一个随机变量S的序列,S是离散随机变量,其值域为该网站包含的所有旅游景点的集合S=Is1, S2, S3,…,sn}, η为景点的个数,Si为景点i,一个景点即为Markov链中的一个状态;k个游客群中的第c个游客群的游客景点浏览序列构成的Markov转移概率矩阵P。为:
7.如权利要求1所述的方法,其特征在于:步骤6)中,所述热度最高的景点为访问该网站的所有游客浏览最多的景点,景点热度利用该景点被所有用户浏览的总次数与所有景点被所有用户浏览的总次数的比值来度量,其计算方式如下:
【文档编号】G06F17/30GK103559252SQ201310533179
【公开日】2014年2月5日 申请日期:2013年11月1日 优先权日:2013年11月1日
【发明者】史一帆, 文益民, 缪裕青, 李芳
申请人:桂林电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1