一种基于地理标注照片挖掘的旅游地点情境化推荐方法

文档序号:6385058阅读:160来源:国知局
专利名称:一种基于地理标注照片挖掘的旅游地点情境化推荐方法
技术领域
本发明涉及数据挖掘技术,具体涉及一种基于地理标注照片挖掘的旅游地点情境化推荐方法。
背景技术
个性化推荐是社交网络系统、电子商务系统等提供的最重要的服务之一,是解决用户面对的“信息超载”问题的重要手段。迄今为止,协同过滤是最成功的个性化推荐技术,其基本思想是根据目标用户与其他用户之间的相关性进行推荐,当系统发现一个或一组用户与目标用户具有相似的偏好时,就可根据这些用户的偏好来预测目标用户的偏好。现有借助群体智慧的协同过滤技术通常通过以下步骤实现个性化推荐1)待推荐项目准备;2)用户偏好及用户间相似度获取;3)基于用户间相似度的偏好预测。然而,现有协同过滤技术大多面向线上电子商务系统,待推荐项目通常为由电子商务供应商自行设置的线上商品,而用户偏好通常基于其对待推荐项目的评分计算得到。这样的推荐方式难以适应真实世界中的旅游地点推荐,这是由于1)哪些地点适合旅游通常为用户的主观判断,无法事先准备;2)用户难以对真实世界中的旅游地点进行人工评分;3)用户在不同的时间或天气情境下对旅游地点的选择有所不同。

发明内容
本发明为克服上述不足之处,目的在于提供一种基于地理标注照片挖掘的旅游地点情境化推荐方法,对大量标注了经纬值的地理标注照片进行分析和挖掘,从中发现用户的旅游经验和旅游兴趣,用于个性化和情境化的旅游地点推荐。本发明通过以下技术方案达到上述目的一种基于地理标注照片挖掘的旅游地点情境化推荐方法,包括地理标注照片数据挖掘过程和在线旅游地点推荐过程,地理标注照片数据挖掘过程包括以下步骤I)获取公开的地理标注照片,把一张地理标注照片看作是一个位置点,对大量地理标注照片进行空间聚类,则得到的每个聚类代表一个热点旅游地点,得到的结果为热点旅游地点集,包括热点旅游地点拍摄的照片集合及其中心点位置;2)获取旅游地点代表性名称,包括以下步骤2.1)获得在该旅游地点拍摄的所有照片的语义标注并构造语义标注集,并基于TF-1DF计算语义标注集中每个语义标注的区分度权值;2. 2)使用Google Places API查询以该旅游地点中心位置为圆心,以指定查询距离为半径范围内的所有地点的名称、位置、地址信息,并构造查询地点集;2. 3)将语义标注集中所有语义标注与查询地点集中所有地点名称进行文本匹配,匹配方法为检查地点名称是否为语义标注的子串,是则匹配,否则不匹配,得到匹配地点集;2. 4)基于匹配结果按以下计算方法确定旅游地点代表性名称若存在多个匹配,则代表性名称为匹配地点集中离该旅游地点中心距离最近的匹配地点的名称;若只有一个匹配,则代表性名称为该匹配地点的名称;若无匹配,则代表性名称为语义标注集中区分度权值最闻的语义标注;3)建立情境化旅游地点数据库,包括以下步骤3.1)对所有用户在热点旅游地点拍摄照片的时间进行时序分析,获取所有用户对每个热点旅游地点的访问信息(包括用户一次访问发生的起始时间和结束时间);3. 2)以每次访问中第一张和最后一张照片拍摄时间的中值作为访问的发生时间,并根据访问发生时间使用天气Web服务查询访问发生时的天气情况,最后获得访问时的时间和天气情境抽象值;3. 3)将属于一个热点旅游地点的所有访问中出现频率最高的时间情境抽象值和天气情境抽象值作为该热点旅游地点适合被访问的时间情境和天气情境,得到情境化旅游地点的位置、代表性名称、适合访问时间情境和适合访问天气情境,并将其加入最终的情境化旅游地点数据库;4)建立用户偏好模型及用户间相似度模型;在线旅游地点推荐过程包括以下步骤I)用户通过网络提交情境化查询,查询信息包含位置、时间和天气情境;2)针对用户的查询信息,对旅游地点进行过滤,筛选出情境化旅游地点数据库中满足用户提供情境的所有旅游地点,得到候选旅游地点集;3)基于用户偏好模型和用户间相似度模型,使用协同过滤方法从候选旅游地点集中提取兴趣度分值最高的若干个旅游地点作为推荐结果。作为优选,地理标注照片数据挖掘过程步骤I)所述的对大量地理标注照片进行空间聚类使用P-DBSCAN算法。作为优选,地理标注照片数据挖掘过程步骤I)所述的该旅游地点中心点位置以
经纬度表示。作为优选,地理标注照片数据挖掘过程步骤3)建立情境化旅游地点数据库中步骤3.1)所述的用户一次访问的判断方法为首先,将用户在该热点旅游地点拍摄的照片按时间升序排序;然后,根据相邻照片拍摄时间间隔确定访问,若相邻两张照片拍摄时间间隔大于指定阈值则前后两张照片分别属于两次访问。作为优选,在线旅游地点推荐过程中步骤3)所述的用户间相似度模型采用Pearson相关系数计算其偏好相似度。本发明有益效果在于I)可从大量现成的地理标注照片中挖掘出热点旅游地点,无需人工干预。2)基于用户对旅游地点的访问和拍照频度获得其旅游偏好,无需手动输入评分。3)考虑用户当前的位置、时间和天气等情境特征,以获取最能满足其当前需求的旅游地点。


图1是基于地理标注照片挖掘的旅游地点情境化推荐方法系统架构图;图2是旅游地点代表性名称获取流程图3是情境化旅游地点数据库建立流程图;图4是基于用户对旅游地点访问频度的偏好模型。
具体实施例方式下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此实施例1 :如图1所示,一种基于地理标注照片挖掘的旅游地点情境化推荐方法,包括地理标注照片数据挖掘过程和在线旅游地点推荐过程,地理标注照片数据挖掘过程包括以下步骤1、热点旅游地点挖掘由于用户倾向于在其感兴趣的地点拍摄照片,则大量用户集中拍摄照片的地点可认为是一个热点旅游地点。因此,把一张地理标注照片看作是一个位置点,对大量地理标注照片进行空间聚类,则得到的每个聚类代表一个热点旅游地点。由于热点旅游地点具有不规则形状且规模大小不一,采用P-DBSCAN算法对地理标注照片进行聚类处理,得到的结果为热点旅游地点集L = (I1,12,, IJ ,其中Ii = (Pi, gi)代表一个热点旅游地点,Pi为在该旅游地点拍摄的照片集合,gi为该旅游地点中心点位置,可由经纬度表示。2、旅游地点代表性名称获取如图2所示,大部分地理标注照片都会附带用于描述拍摄地点的语义标注,另外,很多地点查询Web服务(如Google Places)提供查询指定地理范围内地点信息的功能,结合两者可得到较为准确的旅游地点名称。给定热点旅游地点集L中的旅游地点Ii (I)获得在该旅游地点拍摄的所有照片的语义标注并构造语义标注集Ti,并基于TF-1DF计算Ti中每个语义标注的区分度权值。(2)使用Google Places API查询以该旅游地点中心位置gi为圆心,以指定查询距离r为半径范围内的所有地点(可查出地点的名称、位置、地址等信息),并构造查询地点集Pi。(3)将Ti中所有语义标注与Pi中所有地点名称进行文本匹配,匹配方法为检查地点名称是否为语义标注的子串,是则匹配,否则不匹配,得到匹配地点集MPi (MPi SPi的子集)。基于匹配结果按以下原则确定旅游地点代表性名称a)若存在多个匹配,则代表性名称为MPi中离gi距离最近的地点的名称;b)若只有一个匹配,则代表性名称为该匹配地点的名称;c)若无匹配,则代表性名称为Ti中区分度权值最高的语义标注。3、情境化旅游地点数据库建立如图3所示,情境化旅游地点包含了该旅游地点的位置、名称和适合被访问的情境特征——时间情境和天气情境信息,情境化旅游地点数据库建立流程如下,给定热点旅游地点集L中的旅游地点I1:(I)对所有用户在Ii拍摄照片的时间进行时序分析i获取所有用户Ii对的访问。用户u对旅游地点I的一次访问为V = (l,u, ts, te),其中ts为访问发生的起始时间,te为访问发生的结束时间。获取用户u对旅游地点I的所有访问的方法为首先,将u在I拍摄的照片按时间升序排序;然后,根据相邻照片拍摄时间间隔确定访问,若相邻两张照片拍摄时间间隔大于指定阈值则前后两张照片分别属于两次访问。
(2)以每次访问中第一张和最后一张照片拍摄时间的中值作为访问的发生时间,并根据访问发生时间使用天气Web服务查询访问发生时的天气情况,最后将访问的发生时间和发生时天气转换为如表I所示的时间和天气情境抽象值。
权利要求
1.一种基于地理标注照片挖掘的旅游地点情境化推荐方法,其特征在于包括地理标注照片数据挖掘过程和在线旅游地点推荐过程,地理标注照片数据挖掘过程包括以下步骤 1)获取公开的地理标注照片,把一张地理标注照片看作是一个位置点,对大量地理标注照片进行空间聚类,则得到的每个聚类代表一个热点旅游地点,得到的结果为热点旅游地点集,包括热点旅游地点拍摄的照片集合及其中心点位置; 2)获取旅游地点代表性名称,包括以下步骤 2.1)获得在该旅游地点拍摄的所有照片的语义标注并构造语义标注集,并基于TF-1DF计算语义标注集中每个语义标注的区分度权值; 2.2)使用Google Places API查询以该旅游地点中心位置为圆心,以指定查询距离为半径范围内的所有地点的名称、位置、地址信息,并构造查询地点集; 2. 3)将语义标注集中所有语义标注与查询地点集中所有地点名称进行文本匹配,匹配方法为检查地点名称是否为语义标注的子串,是则匹配,否则不匹配,得到匹配地点集; 2.4)基于匹配结果按以下计算方法确定旅游地点代表性名称若存在多个匹配,则代表性名称为匹配地点集中离该旅游地点中心距离最近的匹配地点的名称;若只有一个匹配,则代表性名称为该匹配地点的名称;若无匹配,则代表性名称为语义标注集中区分度权值最闻的语义标注; 3)建立情境化旅游地点数据库,包括以下步骤 3.1)对所有用户在热点旅游地点拍摄照片的时间进行时序分析,获取所有用户对每个热点旅游地点的访问信息(包括用户一次访问发生的起始时间和结束时间); 3.2)以每次访问中第一张和最后一张照片拍摄时间的中值作为访问的发生时间,并根据访问发生时间使用天气Web服务查询访问发生时的天气情况,最后获得访问时的时间和天气情境抽象值; 3.3)将属于一个热点旅游地点的所有访问中出现频率最高的时间情境抽象值和天气情境抽象值作为该热点旅游地点适合被访问的时间情境和天气情境,得到情境化旅游地点的位置、代表性名称、适合访问时间情境和适合访问天气情境,并将其加入最终的情境化旅游地点数据库; 4)建立用户偏好模型及用户间相似度模型; 在线旅游地点推荐过程包括以下步骤 1)用户通过网络提交情境化查询,查询信息包含位置、时间和天气情境; 2)针对用户的查询信息,对旅游地点进行过滤,筛选出情境化旅游地点数据库中满足用户提供情境的所有旅游地点,得到候选旅游地点集; 3)基于用户偏好模型和用户间相似度模型,使用协同过滤方法从候选旅游地点集中提取兴趣度分值最高的若干个旅游地点作为推荐结果。
2.根据权利要求1所述的一种基于地理标注照片挖掘的旅游地点情境化推荐方法,其特征在于,地理标注照片数据挖掘过程步骤I)所述的对大量地理标注照片进行空间聚类使用P-DBSCAN算法。
3.根据权利要求2所述的一种基于地理标注照片挖掘的旅游地点情境化推荐方法,其特征在于,地理标注照片数据挖掘过程步骤I)所述的该旅游地点中心点位置以经纬度表/Jn ο
4.根据权利要求3所述的一种基于地理标注照片挖掘的旅游地点情境化推荐方法,其特征在于,地理标注照片数据挖掘过程步骤3)建立情境化旅游地点数据库中步骤3.1)所述的用户一次访问的判断方法为首先,将用户在该热点旅游地点拍摄的照片按时间升序排序;然后,根据相邻照片拍摄时间间隔确定访问,若相邻两张照片拍摄时间间隔大于指定阈值则前后两张照片分别属于两次访问。
5.根据权利要求1、2、3、4或5任一权利要求所述的一种基于地理标注照片挖掘的旅游地点情境化推荐方法,其特征在于,在线旅游地点推荐过程中步骤3)所述的用户间相似度模型采用Pearson相关系数计算其偏好相似度。
全文摘要
本发明涉及数据挖掘技术,具体涉及一种基于地理标注照片挖掘的旅游地点情境化推荐方法,地理标注照片(geotagged photo)即被标注了地理信息(如经纬值)的照片,该方法首先基于照片的地理和语义标注获取旅游地点及其名称,然后根据旅游地点被访问的情境特征(位置、时间和天气)建立旅游地点数据库和用户访问偏好模型,最后根据查询用户当前情境特征及用户间访问偏好相似度向其推荐旅游地点。该方法使用公开的地理标注照片(如Flickr),可实现社交网络用户间个性化、情境化的旅游地点推荐。
文档编号G06F17/30GK103064924SQ201210562310
公开日2013年4月24日 申请日期2012年12月17日 优先权日2012年12月17日
发明者赵江奇, 陈亮, 陈岭, 吕明琪 申请人:浙江鸿程计算机系统有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1