基于旅游需求模板的景区评价数据分析舆情满意度方法与流程

文档序号:11830416阅读:755来源:国知局
基于旅游需求模板的景区评价数据分析舆情满意度方法与流程

本发明涉及一种旅游信息数据分析方法,具体是涉及了一种基于旅游需求模板的景区评价数据分析舆情满意度方法。



背景技术:

随着经济的发展,现在已经进入旅游智能化阶段和大数据的时代,游客通常通过查看媒体互动分享评价来决定自己旅游计划。

然而,传统游客在游记中对景区景点的评价内容是非结构化、离散的,即难以采用一定的算法对其进行有规律地提取和组织,从而导致不能采用计算机智能对其提取分类。然而游客对“吃、住、行、游、购、娱”的评价获取需求颇为急切,因此需要采用一种新的技术来实现游客评价的自动化提取并对大量的数据进行高效的有价值的分析。



技术实现要素:

为解决以上技术问题,本发明提出了一种基于旅游需求模板的景区评价数据分析舆情满意度方法。

本发明是通过下述技术方案来解决上述技术问题的:

本发明是针对于包含景区评价信息的帖子或者文章中的文字数据进行处理,例如对于某一论坛中,某景区下对应的所有帖子进行处理,帖子中会涉及到用户对景区的评价。

本发明主要包括基于旅游需求模板的关键词模板库构建、关键词模板库的扩充和针对景区评价数据的舆情满意度分析计算的三个步骤。

1)所述的旅游需求模板主要由基于旅游需求模板引导评价的内容大类关键词、内容子类关键词和情感关键词构成,每个内容大类关键词下分属有其对应的内容子类关键词,每个内容子类关键词下分属有其对应的情感关键词。

关键词模板库初始由列举而成,所述的内容大类关键词包括吃、住、行、游、购、娱的六个类别;所述的内容子类关键词是在内容大类关键词的基础上构建的;所述情感关键词是对内容子类关键词的描述性词语。

所述关键词模板库的扩充具体是采用以下方式对内容子类关键词和情感关键词进行扩充:

2)在已构建的关键词模板库基础上,通过网络爬虫工具在内容大类关键词所在段落文字附近搜索内容子类关键词,将找到的在已构建关键词模板库中不存在的内容子类关键词作为新的内容子类关键词,并加入到关键词模板库中;

在已构建的关键词模板库基础上,通过网络爬虫工具在内容子类关键词所在段落文字附近搜索情感关键词,将找到的在已构建关键词模板库中不存在的情感关键词作为新的情感关键词,新的情感关键词均赋分值后加入到关键词模板库中,并加入到关键词模板库中。

所述的网络爬虫工具采用八爪鱼采集器,网络爬虫工具可以是任意一种,不影响本专利的实质内容。

3)所述针对景区评价数据的舆情满意度分析计算具体是:由扩充后的关键词模板库通过网络爬虫工具搜索某景区下的文字数据,抽取出内容大类关键词所在段落文字附近的内容子类关键词,再搜索抽取出每个内容子类关键词所在段落文字附近的情感关键词,最后可得到大量的关于该景区的情感关键词,并将这些情感关键词与相应的内容子类关键词放在一起,然后构建景区舆情与满意度的分析模型,通过景区舆情与满意度的分析模型获得以平均满意度值作为该景区的舆情满意度值。

A)先采用以下公式计算获得文字数据中所有评论中的关于某一个内容子类关键词的满意度值:

<mrow> <msub> <mi>Y</mi> <msub> <mi>B</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>5</mn> </munderover> <msub> <mi>tS</mi> <mrow> <mi>i</mi> <mi>j</mi> <mo>_</mo> <mi>t</mi> </mrow> </msub> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>5</mn> </munderover> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> <mo>_</mo> <mi>t</mi> </mrow> </msub> </mrow> </mfrac> </mrow>

其中,表示第i个内容大类关键词下第j个内容子类关键词的平均满意度值,t是分值(1~5),Sij_t表示i个内容大类关键词下第j个内容子类关键词对应分值为t的情感关键词的数量,Bij表示第i个内容大类关键词下第j个内容子类关键词,B{B11,B12,B13…B21,B22,B23…}代表内容子类关键词集合;

B)再采用以下公式计算获得文字数据中一个内容大类关键词的满意度值:

<mrow> <msub> <mi>Y</mi> <msub> <mi>A</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <msub> <mi>B</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </msub> <msub> <mi>Y</mi> <msub> <mi>B</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </msub> </mrow>

其中,表示第i个内容大类关键词的满意度值,表示第i个内容大类关键词下第j个内容子类关键词的权值,n表示第i个内容大类关键词下内容子类关键词的数量,A{A1,A2,…,A6}代表内容大类关键词集合;

C)再采用以下公式计算获得该景区的综合满意度值:

<mrow> <mi>Y</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>6</mn> </munderover> <msub> <mi>W</mi> <msub> <mi>A</mi> <mi>i</mi> </msub> </msub> <msub> <mi>Y</mi> <msub> <mi>A</mi> <mi>i</mi> </msub> </msub> </mrow>

其中,Y表示景区的综合满意度值,i表示内容大类关键词的序号,i取值范围是1~6,表示第i个内容大类关键词的权值。

本发明的有益效果在于:

本发明针对游客游记、评价等非结构化内容,难以被其他游客高效搜索利用的问题,根据“吃、住、行、游、购、娱”等不同需求,构建需求关键词模板,通过旅游模板训练系统对模板进行补充和完善,然后根据已有模版库构建评价体系表,最后利用网络爬虫工具对各个旅游网站的评论帖子进行分析得出各个景区的满意度值,并通过信息一键式全媒体、多渠道分享,快速将评价结果传播分享,并被高效检索利用。

附图说明

图1是基于旅游需求模板的关键词模板库构建流程图。

图2是关键词模板库的扩充方式流程图。

具体实施方式

下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。

本发明的具体实施例及其具体实施过程如下:

1)基于旅游需求模板的关键词模板库构建

1.1)内容大类关键词构建,主要包括吃、住、行、游、购、娱几个大类;

1.2)内容子类关键词构建,主要是在内容大类关键词的基础上构建的,比如和内容大类关键词吃相关的内容子类关键词有饭店、餐馆、快餐店、小吃街等。

1.3)情感关键词构建,主要是在内容子类关键词的基础上构建的,比如和内容子类关键词‘吃’对应的情感关键词有味道很好,价格实惠,环境优美等。

2)关键词模板库的扩充

2.1)基于需求模板引导评价的内容子类关键词库扩充,通过网络爬虫工具在内容大类关键词附近搜索相关的内容子类关键词并与已有的模板库进行对比,遇到新的内容子类关键词后,自动加入到模板库,比如遇到与内容大类关键词吃相关的新的内容子类关键词野味店等。

2.2)基于需求模板引导评价的情感关键词库扩充,通过网络爬虫工具八爪鱼采集器,在内容子类关键词附近搜索相关的情感关键词并与已有的模板库进行对比,遇到新的情感关键词后,自动加入到模板库。

2.3)情感关键词均已由用户进行赋分,给出分值(1~5),比如非常好/棒极了/美妙极了,这三个情感词表达的满意度是相同的对应的分值则都是5分,一般/凑合/还行对应的分值则都是3分;差极了/难受死了/简直就是受罪/再也不会去了,对应的分值则是1分。

3)针对景区评价数据的舆情满意度分析计算

3.1)根据已有模版库构建评价体系表

内容大类关键词和内容子类关键词的权重和情感关键词的分值以及相同分值评论数量如下表1所示,表中{Cij_t}表示第i个内容大类关键词下第j个内容子类关键词对应分值为t的情感关键词的集合。

表1

3.2)通过网络爬虫工具搜索景区网页的每个帖子,按内容子类关键词,搜索所有相关的情感关键词,根据表1进行分类统计,把相应的情感关键词的数量记录到对应到Sij_t中。

比如:通过网络爬虫工具搜到网页得到1000个情感关键词,有600个是与内容大类关键词‘吃A1’有关的,其中300个是与内容子类关键词‘味道B11’有关的,对应的情感关键词集{Cij_t}及数量Sij_t如下表2:

表2

由内容子类关键词满意度计算公式可知该景区关于吃的味道的满意度值为:

<mrow> <msub> <mi>Y</mi> <msub> <mi>B</mi> <mn>11</mn> </msub> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>5</mn> </munderover> <msub> <mi>tS</mi> <mrow> <mn>11</mn> <mo>_</mo> <mi>t</mi> </mrow> </msub> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>5</mn> </munderover> <msub> <mi>S</mi> <mrow> <mn>11</mn> <mo>_</mo> <mi>t</mi> </mrow> </msub> </mrow> </mfrac> <mo>=</mo> <mn>3.6</mn> </mrow>

即该景区关于吃的味道的满意度值为3.6,同理可以计算其它内容子类的关键词的满意度值。

得到所有的内容子类关键词满意度值后,便可以根据公式计算出所有的内容大类关键词满意度值再根据公式计算出该景区的综合满意度值Y。

由此本发明实施例得到满意度值解决了以往游客游记、评价等非结构化内容,难以被其他游客高效搜索利用的问题,除了可以向游客提供某个景区的综合满意度值,还可以向游客提供该景区具体的关于吃、住、行、游、购、娱六个方面的满意度值,以及比吃、住、行、游、购、娱更具体的相关内容子类关键词的满意度值,让游客快速了解该景区的各个评价参数。

以上所述,仅是为了说明本发明的内容所列举的部分实施例,并非对本发明做任何限制,凡是根据本发明的技术实质对以上实例作出任何简单的修改,等同变化与修饰,均属于本发明的技术保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1