一种基于大数据的旅游目的地评价方法与流程

文档序号:14912023发布日期:2018-07-10 23:40阅读:345来源:国知局

本发明涉及大数据技术和信息提取技术领域,具体涉及一种基于大数据的旅游目的地评价方法。



背景技术:

随着“大数据”时代的到来,人们对于海量数据的挖掘和运用,这预示着新一波生产率增长和消费者盈余浪潮的到来。旅游业作为一个信息高度密集的行业,旅游者的流动与评论在产生了大量的数据。这些数据中隐藏了大量旅游者与旅游地的重要信息。

相比传统的旅游研究方法与数据获取方法,这类基于大数据的信息,一方面真实,都是源于旅游者真实的行为以及行为数据,比传统的问卷技术采样更为客观,更能反映社会真实。另一方面,这类数据更新及时,可以几乎实时有效地反映客观事实。

如果能够有效地采集这类旅游者在网络上留存的大数据,可以通过游客的评论中,发现对于旅游目的地的真实实时的评价,这对于发现旅游目的地的已有优势和不足、推动旅游目的地区域的建设改进而言,具有巨大的现实价值和指导意义。



技术实现要素:

针对现有技术中存在的不足,本发明的目的在于提供一种基于大数据的旅游目的地评价方法,用于依据大数据的采集实现对旅游目的地的综合评价,为发现旅游目的地的已有优势和不足以及推动旅游目的地区域的建设改进提供指导信息。

为实现上述目的,本发明采用了如下技术方案:

基于大数据的旅游目的地评价方法,包括如下步骤:

获取互联网络中对旅游目的地的点评信息;所述点评信息包括点评人信息、点评时间信息和点评内容文本信息;

对获取的旅游目的地的点评信息中的点评内容文本信息进行分词识别处理,根据所述分词识别处理结果识别出所述点评内容文本信息中所描述的旅游目的地要素属性,并利用预设的情感词典识别出所述分词识别处理结果中针对所述旅游目的地要素属性的情况描述状态;

通过所获取的旅游目的地的各点评信息所体现的各不同点评人在不同点评时间的点评内容文本信息中识别出的各种旅游目的地要素属性及其相应的情况描述状态加以统计,根据对每种旅游目的地要素属性的出现次数的统计对相应旅游目的地要素属性进行关注重要性估分计算,根据对每种旅游目的地要素属性对应的情况描述状态的统计对相应旅游目的地要素属性进行情感评价估分计算,从而得到针对旅游目的地识别出的各种旅游目的地要素属性的关注重要性评价分值以及每种旅游目的地要素属性对应的情感评价分值,用以分别表征旅游目的地在所述各中旅游目的地要素属性上的评价情况。

上述基于大数据的旅游目的地评价方法中,作为优选方案,所述旅游目的地的点评信息的获取方式具体为:

a1)获取互联网络中抓取针对旅游目的地进行点评描述的点评人、点评时间和点评描述文字信息,并使用纯文本格式加以存储;

a2)根据预设的旅游目的地无关敏感词数据库,采用敏感词识别技术对纯文本格式的点评描述文字信息进行无关敏感词识别,进而删除所述点评描述文字信息中的无关敏感词,将剩余的文字信息作为旅游目的地的点评内容文本信息;

a3)将由此获得的点评人信息、点评时间信息和点评内容文本信息作为旅游目的地的点评信息。

上述基于大数据的旅游目的地评价方法中,作为优选方案,所述旅游目的地要素属性包括如下的任意一种或多种:资源景区、人造景区、娱乐活动、运动康体、节庆事件、餐饮美食、酒店住宿、购物商品、旅游服务、旅游价格、旅游解说、旅游设施、经济水平、环境风貌、外部交通、内部交通、游憩场所、公共服务、安全治安、地方氛围、居民态度、天气气候。

上述基于大数据的旅游目的地评价方法中,作为优选方案,所述旅游目的地要素属性的识别方式具体为:

b1)基于对旅游目的地的点评信息中的点评内容文本信息的分词识别处理结果,根据先验知识分别判断所述分词识别处理结果中划分出的每个词语是否为对旅游目的地的评论描述词语,进而提取出其中的各个评论描述词语;

b2)利用人工分类的方式或机器学习的分类方式,分别对提取出的各个评论描述词语进行旅游目的地要素属性类别的归类,使得归类所得的每一个旅游目的地要素属性类别中的评论描述词语都是在描述旅游目的同一个要素属性;

b3)分别统计归类所得的各个旅游目的地要素属性类别中评论描述词语的出现频次,将出现频次由高到低排列靠前的一个或多个旅游目的地要素属性类别所对应的旅游目的地要素属性,罗列为识别出的旅游目的地要素属性。

上述基于大数据的旅游目的地评价方法中,作为优选方案,利用预设的情感词典识别出所述分词识别处理结果中针对所述旅游目的地要素属性的情况描述状态的识别方式具体为:

c1)基于对旅游目的地的点评信息中的点评内容文本信息的分词识别处理结果,分别对划分出的每个词语利用预设的情感词典进行对比识别,判别所述词语是否属于情感描述词;

c2)根据预设的情感词典,判断所判别出的情感描述词的情感评价类别;所述情感评价类别包括情感正面评价类、情感负面评价类和情感中立评价类;

c3)记录所述情感描述词的情感评价类别状态,作为其对应旅游目的地要素属性的情况描述状态。

上述基于大数据的旅游目的地评价方法中,作为优选方案,根据对每种旅游目的地要素属性对应的情况描述状态的统计对相应旅游目的地要素属性进行情感评价估分计算的计算方式具体为:

在统计周期时间内,分别统计每种旅游目的地要素属性对应的各个情况描述状态;若一个情况描述状态为情感正面评价类,则相应旅游目的地要素属性的对应的情感评价分值加1;若一个情况描述状态为情感负面评价类,则相应旅游目的地要素属性的对应的情感评价分值减1;若一个情况描述状态为情感中立评价类,则相应旅游目的地要素属性的对应的情感评价分值加0;由此分别针对每种旅游目的地要素属性进行统计累加,分别计算得到每种旅游目的地要素属性对应的情感评价分值。

上述基于大数据的旅游目的地评价方法中,作为优选方案,根据对每种旅游目的地要素属性的出现次数的统计对相应旅游目的地要素属性进行关注重要性估分计算的计算方式具体为:

在统计周期时间内,分别统计每种旅游目的地要素属性的出现次数;若一种旅游目的地要素属性出现一次,则相应旅游目的地要素属性的关注重要性评价分值加1;由此分别统计累加,计算得到针对旅游目的地识别出的各种旅游目的地要素属性的关注重要性评价分值。

上述基于大数据的旅游目的地评价方法中,作为优选方案,得到针对旅游目的地识别出的各种旅游目的地要素属性的关注重要性评价分值以及每种旅游目的地要素属性对应的情感评价分值后,表征旅游目的地在各种旅游目的地要素属性上的评价情况的具体方式为:

建立旅游目的地的评价二维坐标系,所述评价二维坐标系的纵坐标轴y为关注重要性评价分值坐标轴,所述评价二维坐标系的横坐标轴x为情感评价分值坐标轴;从而,根据针对旅游目的地识别出的各种旅游目的地要素属性的关注重要性评价分值以及每种旅游目的地要素属性对应的情感评价分值,确定每种旅游目的地要素属性在所述评价二维坐标系中的坐标位置;若旅游目的地要素属性的关注重要性评价分值和情感评价分值越高,则旅游目的地在相应旅游目的地要素属性上的综合评价越高,反之则越低。

相比于现有技术,本发明具有如下有益效果:

本发明基于大数据的旅游目的地评价方法,利用从互联网络中获取到的对旅游目的地的点评信息进行信息处理和提取,获得能够对旅游目的地加以评价的信息参数,用以对旅游目的地进行估分计算,整个过程中不会参杂人为因素对估分计算结果的影响,全部依据互联网络中对旅游目的地的客观品论信息,因此依据由此获得的估分计算结果对旅游目的地加以评价,能够客观真实的反映大众对旅游目的地的评价情况,从而为发现旅游目的地的已有优势和不足以及推动旅游目的地区域的建设改进提供指导信息。

附图说明

图1为本发明基于大数据的旅游目的地评价方法的流程图。

图2为评价二维坐标系中IPA分析示意图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

本发明提供了一种基于大数据的旅游目的地评价方法,用于依据大数据的采集实现对旅游目的地的综合评价,从而为发现旅游目的地的已有优势和不足以及推动旅游目的地区域的建设改进提供指导信息。如图1所示,本发明的旅游目的地评价方法包括如下步骤:

步骤一:获取互联网络中对旅游目的地的点评信息;所述点评信息包括点评人信息、点评时间信息和点评内容文本信息。

具体应用时,可以从携程网的目的地指南频道等旅游相关网站的相关频道中利用网络抓取器进行点评信息的抓取,其获取方式可以具体设计为:

a1)获取互联网络中抓取针对旅游目的地进行点评描述的点评人、点评时间和点评描述文字信息,并使用纯文本格式加以存储。将这些点评人、点评时间和点评描述文字信息存储为纯文本格式,是为了更便于后续的文字信息提取和处理。

a2)根据预设的旅游目的地无关敏感词数据库,采用敏感词识别技术对纯文本格式的点评描述文字信息进行无关敏感词识别,进而删除所述点评描述文字信息中的无关敏感词,将剩余的文字信息作为旅游目的地的点评内容文本信息。这里,可将一些广告信息、垃圾信息等表示无关信息的相关词语作为无关敏感词,组合构建一个预设的旅游目的地无关敏感词数据库,从而通过该步骤的处理,就能够将点评描述文字信息中出现的广告信息、垃圾信息等无关信息通过无关敏感词识别和删除的方式给删除掉,仅保留与旅游目的地的评价有关的文字信息,作为旅游目的地的点评内容文本信息。

a3)将由此获得的点评人信息、点评时间信息和点评内容文本信息作为旅游目的地的点评信息。

步骤二:对获取的旅游目的地的点评信息中的点评内容文本信息进行分词识别处理,根据所述分词识别处理结果识别出所述点评内容文本信息中所描述的旅游目的地要素属性,并利用预设的情感词典识别出所述分词识别处理结果中针对所述旅游目的地要素属性的情况描述状态。

该步骤中,利用分词技术对文本信息进行分词识别处理在互联网络信息处理领域中是非常成熟的技术,因此利用分词技术对获取的旅游目的地的点评信息中的点评内容文本信息进行分词识别处理是非常容易实现的。在获得分词识别处理结果后,从中识别出旅游目的地要素属性的识别方式可以设计具体为:

b1)基于对旅游目的地的点评信息中的点评内容文本信息的分词识别处理结果,根据先验知识分别判断所述分词识别处理结果中划分出的每个词语是否为对旅游目的地的评论描述词语,进而提取出其中的各个评论描述词语;

b2)利用人工分类的方式或机器学习的分类方式,分别对提取出的各个评论描述词语进行旅游目的地要素属性类别的归类,使得归类所得的每一个旅游目的地要素属性类别中的评论描述词语都是在描述旅游目的同一个要素属性;

b3)分别统计归类所得的各个旅游目的地要素属性类别中评论描述词语的出现频次,将出现频次由高到低排列靠前的一个或多个旅游目的地要素属性类别所对应的旅游目的地要素属性,罗列为识别出的旅游目的地要素属性。

而具体而言,所识别到的旅游目的地要素属性可以是如下的任意一种:资源景区、人造景区、娱乐活动、运动康体、节庆事件、餐饮美食、酒店住宿、购物商品、旅游服务、旅游价格、旅游解说、旅游设施、经济水平、环境风貌、外部交通、内部交通、游憩场所、公共服务、安全治安、地方氛围、居民态度、天气气候。当然,有可能一则旅游目的地的点评内容文本信息中对多种旅游目的地要素属性的情况均存在评价描述,因此也有可能从旅游目的地的一则点评内容文本信息中识别出上述旅游目的地要素属性之中的多种。

而利用预设的情感词典识别出所述分词识别处理结果中针对所述旅游目的地要素属性的情况描述状态的识别方式可以具体设计为:

c1)基于对旅游目的地的点评信息中的点评内容文本信息的分词识别处理结果,分别对划分出的每个词语利用预设的情感词典进行对比识别,判别所述词语是否属于情感描述词;

c2)根据预设的情感词典,判断所判别出的情感描述词的情感评价类别;所述情感评价类别包括情感正面评价类、情感负面评价类和情感中立评价类;

c3)记录所述情感描述词的情感评价类别状态,作为其对应旅游目的地要素属性的情况描述状态。

在该处理过程中,针对于中文描述的情感评价类别判断,可以采用台湾大学研发的中文情感极性词典NTUSD作为预设的情感词典使用,其中表达积极情绪的情感描述词即属于情感正面评价类,表达消极情绪的情感描述词即属于情感负面评价类,而表达中性情绪的情感描述词即属于情感中立评价类。将分词识别处理结果中划分出的每个词语利用预设的情感词典分别进行对比识别,便能够确定该词语是否属于情感描述词,若是,并能够进一步判断出该情感描述词的情感评价类别。

步骤三:通过所获取的旅游目的地的各点评信息所体现的各不同点评人在不同点评时间的点评内容文本信息中识别出的各种旅游目的地要素属性及其相应的情况描述状态加以统计,根据对每种旅游目的地要素属性的出现次数的统计对相应旅游目的地要素属性进行关注重要性估分计算,根据对每种旅游目的地要素属性对应的情况描述状态的统计对相应旅游目的地要素属性进行情感评价估分计算,从而得到针对旅游目的地识别出的各种旅游目的地要素属性的关注重要性评价分值以及每种旅游目的地要素属性对应的情感评价分值,用以分别表征旅游目的地在所述各中旅游目的地要素属性上的评价情况。

该步骤中,根据对每种旅游目的地要素属性的出现次数的统计对相应旅游目的地要素属性进行关注重要性估分计算的计算方式可以具体设计为:在统计周期时间内,分别统计每种旅游目的地要素属性的出现次数;若一种旅游目的地要素属性出现一次,则相应旅游目的地要素属性的关注重要性评价分值加1;由此分别统计累加,计算得到针对旅游目的地识别出的各种旅游目的地要素属性的关注重要性评价分值。

该步骤中,根据对每种旅游目的地要素属性对应的情况描述状态的统计对相应旅游目的地要素属性进行情感评价估分计算的计算方式可以具体设计为:在统计周期时间内,分别统计每种旅游目的地要素属性对应的各个情况描述状态;若一个情况描述状态为情感正面评价类,则相应旅游目的地要素属性的对应的情感评价分值加1;若一个情况描述状态为情感负面评价类,则相应旅游目的地要素属性的对应的情感评价分值减1;若一个情况描述状态为情感中立评价类,则相应旅游目的地要素属性的对应的情感评价分值加0;由此分别针对每种旅游目的地要素属性进行统计累加,分别计算得到每种旅游目的地要素属性对应的情感评价分值。

这里中的统计周期时间可以是一个预设定的周期时长,例如以一个月、一个季度或者一个年度作为一个统计周期。在统计得到针对旅游目的地识别出的各种旅游目的地要素属性的关注重要性评价分值以及每种旅游目的地要素属性对应的情感评价分值之后,这些信息就可以用以分别表征旅游目的地在所述各中旅游目的地要素属性上的评价情况。

具体而言,可以采用IPA分析方法(Importance-Performance Analysis)来分析表征旅游目的地在各种旅游目的地要素属性上的评价情况。IPA分析方法(Importance-Performance Analysis),即重要性及其表现分析法;IPA分析方法把重要因素和满意度的测量值置于二维象限中,以重要因素和满意度的平均值作为交叉点,具体划分为4个区域,即改进区(重点改进)、优势区(继续努力)、机会区(低预先事项)和维持区(不宜刻意追求)。其中,改进区揭示访问者认为非常重要的因素,但在具体旅游地的表现不令人满意,这是旅游目的地今后努力的方向;在优势区,访问者认为重要的因素在旅游地的表现非常好,今后要继续保持良好状态;在机会区,访问者认为不重要的因素在旅游地的表现也很差;在维持区,访问者认为不重要的因素在旅游地的表现较好。

因此,基于IPA分析方法的思想,在得到针对旅游目的地识别出的各种旅游目的地要素属性的关注重要性评价分值以及每种旅游目的地要素属性对应的情感评价分值后,表征旅游目的地在各种旅游目的地要素属性上的评价情况的具体方式可以设计为:建立旅游目的地的评价二维坐标系,所述评价二维坐标系的纵坐标轴y为关注重要性评价分值坐标轴,所述评价二维坐标系的横坐标轴x为情感评价分值坐标轴;从而,根据针对旅游目的地识别出的各种旅游目的地要素属性的关注重要性评价分值以及每种旅游目的地要素属性对应的情感评价分值,确定每种旅游目的地要素属性在所述评价二维坐标系中的坐标位置;若旅游目的地要素属性的关注重要性评价分值和情感评价分值越高,则旅游目的地在相应旅游目的地要素属性上的综合评价越高,反之则越低。由此,以各种旅游目的地要素属性的关注重要性评价分值的平均值和情感评价分值的平均值作为交叉点,在评价二维坐标系中可划分出四个象限区域,如图2所示,从而通过每种旅游目的地要素属性在评价二维坐标系中的坐标位置,可以评价为:

如果旅游目的地要素属性是位于第一象限(A象限),表示其关注重要性评价分值和情感评价分值皆较高,则可以判断该旅游目的地要素属性的情况应该继续保持;

如果旅游目的地要素属性是位于第二象限(B象限),表示其关注重要性评价分值较低、但情感评价分值较高,则可以判断该旅游目的地要素属性存在建设过度或供应过度的情况;

如果旅游目的地要素属性是位于第三象限(C象限),表示其关注重要性评价分值和情感评价分值皆较低,则可以判断该旅游目的地要素属性的建设或供应优先级较低;

如果旅游目的地要素属性是位于第四象限(D象限),表示其关注重要性评价分值较高、但情感评价分值较低,则可以判断该旅游目的地要素属性的情况需要加强建设或改善供应。

这样以来,就达到了对旅游目的地进行综合评价的目的,能够用以为发现旅游目的地的已有优势和不足、以及推动旅游目的地区域的建设改进提供指导意义。

综上所述,本发明基于大数据的旅游目的地评价方法,利用从互联网络中获取到的对旅游目的地的点评信息进行信息处理和提取,获得能够对旅游目的地加以评价的信息参数,用以对旅游目的地进行估分计算,整个过程中不会参杂人为因素对估分计算结果的影响,全部依据互联网络中对旅游目的地的客观品论信息,因此依据由此获得的估分计算结果对旅游目的地加以评价,能够客观真实的反映大众对旅游目的地的评价情况,从而为发现旅游目的地的已有优势和不足以及推动旅游目的地区域的建设改进提供指导信息。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1