一种旅游网络评论情感分析及服务质量评价方法与流程

文档序号：16319148发布日期：2018-12-19 05:36阅读：561来源：国知局

本发明涉及计算机数据处理与分析
技术领域：
，具体涉及一种旅游网络评论情感分析及服务质量评价方法。
背景技术：
随着旅游电子商务的兴起和发展，越来越多的游客通过互联网购买旅游服务，并在接受旅游服务后进行评论，发表对于旅游服务品质的看法，表达对于旅游服务的情感或感受，这些评论对于其他游客评估和选择旅游服务、区域旅游服务的质量评价、改进旅游服务的质量具有很重要的参考意义。但是，面对海量的旅游评论数据，通过人工或简单的统计分析方法，既费时费力又很难深层次的发挥旅游评论的价值，如何有效分析旅游评论的情感倾向，并在此基础上评价旅游服务的质量，为游客选择旅游目的地、旅游过程中的“吃住行游购娱”等各类服务提供决策依据，为旅游主管部门提供区域旅游质量评价、改进旅游服务提供工具和依据。目前，对评论文本进行情感倾向性分析的技术主要分为两大类：一是基于情感字典或者语意知识的方法，二是基于机器学习方法。目前，上述两种方法在文本情感分析中均有运用，总体而言，使用机器学习的方法进行文本情感分析的优势更为明显，弹性和准确率更高。使用情感词典的文本情感分析方法，其准确性主要依据词典构建的质量，无法分析词典中不含有的词语。公开号为cn106156287a“基于旅游需求模板的景区评价数据分析舆情满意度方法”的发明专利公开了一种基于关键词模板库来分析旅游景区满意度的方法，可以认为是使用情感词典的情感分析方法，其严重依赖于用户对情感词进行赋分，不能对新的词语进行处理，对一条评论整体所表达的情感倾向分析准确性较差。使用机器学习方法的文本情感分析方法，主要使用情感词、词性、句法等特征作为分类基础，通过机器学习算法模型对文本进行情感/倾向性判断，但需要适当和一定数量的人工标识。目前常用的机器学习方法文本情感分析采用的算法模型很多，比如knn分类法、最大熵分类法、支持向量机分类法等，主要的过程为对文本进行人工标注、建立分类训练集、用训练集训练分类模型，每一种算法模型具有各自的优势和特点。采用机器学习方法进行文本情感分析的技术多采用单个分类模型，例如公开号为cn103116644a的“web主题倾向性挖掘与决策支持的方法”主要采用支持向量机分类法来进行文本情感倾向性的分析，受限于单个分类方法的偏好，其准确性和可扩展性较差。因此，如何在评估各类机器学习算法模型有缺的基础上，选择性能和准确性相互平衡，且适合旅游行业特征的分类算法模型，对提高旅游评论分析的效率和有效性，具有很高的研究价值。技术实现要素：本发明为了解决上述技术问题提供一种旅游网络评论情感分析及服务质量评价方法。本发明通过下述技术方案实现：一种旅游网络评论情感分析的方法，包括以下步骤:a、对旅游网络评价进行预处理；b、构建情感趋势训练集；c、利用情感趋势训练集分别训练逻辑回归模型、支持向量机模型和朴素贝叶斯模型，输出三种基本训练模型的训练结果gm(x)；d、建立投票器模型，将步骤c输出的训练结果进行处理，计算得到评论的情感倾向；e、对待测试旅游网络评论数据进行处理后输入投票器模型得到每条评论的情感倾向。本方案通过多种机器学习算法模型的综合，综合逻辑回归、支持向量机和贝叶斯三种分类算法模型，克服单一算法模型的效率和准确性问题，提升旅游评论情感分析的准确性，为游客选择旅游服务提供帮助，为旅游主管部门评价和改善区域旅游服务质量提供决策支持。对旅游网络评价进行预处理的方法包括：获取用户旅游评论数据，至少从吃、住、行、旅游、娱乐、购物方面对数据进行存储；格式规范化数据，并进行去除空格、去除重复处理。构建情感趋势训练集具体为：b1、利用分词工具对数据进行分词处理；b2、至少从吃、住、行、旅游、娱乐、购物方面构建评论词典；b3、构建评论tfidfi，j向量，tfidfi,j＝tfi,j×idfi，其中：ni,j表示第i个特征词在评论dj中的出现次数，∑knk,j则是评论dj中所有字词的出现次数之和，|d|表示语料库中的评论总数，|{j:ti∈dj}表示包含特征词ti的评论数目；b4、标注情感趋向。步骤d具体为：计算基本训练模型的误差率计算基本训练模型的权重构建基本训练模型的线性组合构建投票器模型gm(x)表示前述基本分类器,em表示基本分类器gm(x)的误差率，αm表示gm(x)在最终类器中的重要性，误差分类率越小的基本分类器在最终分类器中的作用越大，m＝1，2，3，m＝3。其中训练数据t＝{(x1,y1),(x2,y2),...,(xn,yn)}，yi∈{-1,+1}，i＝1,2,...,n，n代表训练数据的数量。一种旅游服务质量评价方法，包括以下步骤：采用上述方法获得待检测与评价的旅游目的地评论的情感倾向；对得到的结果进行展示。所述展示方法包括方法p1、方法p2、方法p3、方法p4中的至少一种，方法p1为：按吃、住、行、旅游、娱乐、购物方面，计算好评和差评的数量和百分比并展示；方法p2为：按吃、住、行、旅游、娱乐、购物方面，展示每个方面下属维度的好评与差评的数量、百分比以及相应具有代表性的评论内容；方法p3为：通过模糊检索并计算与关键词关联的好评与差评数量、百分比并展示。方法p4为：计算吃、住、行、旅游、娱乐、购物各方面的差评数，当其占比达到阈值时，向用户发出警告。本发明与现有技术相比，具有如下的优点和有益效果：1、本发明通过多种机器学习算法模型的综合，综合逻辑回归、支持向量机和贝叶斯三种分类算法模型，克服单一算法模型的效率和准确性问题，提升旅游评论情感分析的准确性，为游客选择旅游服务提供帮助，为旅游主管部门评价和改善区域旅游服务质量提供决策支持。附图说明此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。图1为实施例1方法的原理框图。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。实施例1如图1所示的一种旅游网络评论情感分析的方法，包括以下步骤：a、对旅游网络评价进行预处理；b、构建情感趋势训练集；c、利用情感趋势训练集分别训练逻辑回归模型、支持向量机模型和朴素贝叶斯模型，输出三种基本训练模型的训练结果gm(x)；d、建立投票器模型，将步骤c输出的训练结果进行处理，计算得到评论的情感倾向；e、对待测试旅游网络评论数据进行处理后输入投票器模型得到每条评论的情感倾向。实施例2基于上述实施例的原理，本实施例例举一详细实施例对其进行说明。a、采用网络爬虫等方式获取用户旅游评论数据，至少从吃、住、行、旅游、娱乐、购物方面对数据进行存储，其中，从现有的网络数据来看，上述吃、住、行、旅游、娱乐、购物方面的数据可从以下网站获取：吃：携程、大众点评等；住：蚂蜂窝、途牛、艺龙、驴妈妈、同程、大众点评等；行：大众点评等；旅游：百度旅游、京东、携程、同程、去哪儿、蚂蜂窝、驴妈妈、途牛；购物：携程、大众点评等；娱乐：大众点评等。采用hivehql格式规范化数据，并进行去除空格、去除重复处理。采用动态规划算法和python文本处理技术对评论数据进行去叠字、叠词、叠句处理。b、构建情感趋势训练集：b1、利用pythonjieba分词工具对数据进行分词处理，ythonjieba目前是主流的中文分词工具，并可以标识词性质；以“去的泰香米，味道还是很不错的”为例，通过pythonjieba分词后的结果为“去□v□的□u□泰香□m□米□q□，□wp□味道□n□还是□d□很□d□不错□a□的□u□”。其中，词性标注的对应关系如表1所示。表1词性对应关系标记词性标记词性标记词性ag形语素k后接成分tg时语素a形容词l习用语t时间词ad副形词m数词u助词an名形词ng名语素vg动语素b区别词n名词v动词c连词nr人名vd副动词dg副语素ns地名vn名动词d副词nt机构团体w标点符号e叹词nz其他专名x非语素字f方位词o拟声词y语气词g语素p介词z状态词h前接成分q量词un未知词i成语r代词tg时语素j简称略语s处所词t时间词b2、至少从吃、住、行、旅游、娱乐、购物方面构建评论词典；例如，与吃相关的评论词典中包含“味道”，“好吃”，“新鲜”等词，与住相关的评论词典中包含“房间”，“酒店”，“前台”等词，与行相关的评论词典中包含“机场”，“火车站”，“地铁”等词，与游相关的评论词典中包含“景区”，“门票”，“景色”等词，与娱相关的评论词典中包含“环境”，“老师”，“体验”等词，与购相关的评论词典中包含“服务”，“商场”，“活动”等词。b3、构建评论tfidfi，j向量，tfidfi,j＝tfi,j×idfi，其中：ni,j表示第i个特征词在评论dj中的出现次数，∑knk,j则是评论dj中所有字词的出现次数之和，|d|表示语料库中的评论总数，|{j:ti∈dj}表示包含特征词ti的评论数目；b4、标注情感趋向，该步骤可采用人工方式实现。从评论数据集中进行抽样筛选出3万条评论向量，利用关键词检索技术对评论向量进行人工情感趋向打标，如将含有“欺骗”、“投诉”等词的评论标注为差评，将含有“非常满意”、“值得推荐”等词的评论标注为好评。人工对评论向量进行情感趋向标注，差评标注为0，好评标注为1，并将标注结果存储在评论向量的末尾。例如，前述步骤b表达的是正面情感，通过人工判断为好评，标注为1，则经过人工标注情感趋向后，结果为“去□v□的□u□泰香□m□米□q□，□wp□味道□n□还是□d□很□d□不错□a□的□u□1”。经过步骤二处理后得到情感趋势训练集t＝{(x1,y1),(x2,y2),...,(xn,yn)}，是第i个样本的第j个特征，ajl是第j个特征词可能取的第l个值，j＝1,2,...,n，l＝1,2,...,sj。c、利用情感趋势训练集分别训练逻辑回归模型、支持向量机模型和朴素贝叶斯模型，输出三种基本训练模型的训练结果gm(x)；其中，逻辑回归模型采用的算法为：训练数据集t＝{(x1,y1),(x2,y2),...,(xn,yn)}，yi∈{0,1}，i＝1,2,...,n，w为权值向量，b为偏置，m＝1。其中，权值向量w和偏置b的计算过程为：设β＝(w；b)，支持向量机模型采用的算法为：gm(x)＝f(x)＝sign(w*·x+b*)其中训练数据集t＝{(x1,y1),(x2,y2),...,(xn,yn)}，yi∈{-1,+1}，i＝1,2,...,n，m＝2。其中w*和b*的计算过程为：设w*和b*为满足yi(wt·xi+b)≥1最有解且w*·x+b*＝0。朴素贝叶斯模型采用的算法为：其中训练数据集t＝{(x1,y1),(x2,y2),...,(xn,yn)}，是第i个样本的第j个特征，ajl是第j个特征可能取的第l个值，j＝1,2,...,n，l＝1,2,...,sj，yi∈{c1,c2,...,ck}，m＝3。其中，设ck满足d、建立投票器模型，将步骤c输出的训练结果进行处理，计算得到评论的情感倾向；步骤d具体为：计算基本训练模型的误差率计算基本训练模型的权重构建基本训练模型的线性组合构建投票器模型gm(x)表示前述基本分类器,em表示基本分类器gm(x)的误差率，αm表示gm(x)在最终分类器中的重要性，误差分类率越小的基本分类器在最终分类器中的作用越大，m＝1，2，3，m＝3。其中训练数据t＝{(x1,y1),(x2,y2),...,(xn,yn)}，yi∈{-1,+1}，i＝1,2,...,n，n代表训练数据的数量。e、对待测试旅游网络评论数据进行存储和清洗，通过步骤b的方法对数据进行分词处理，获得该数据的tfidfi，j向量；将tfidfi，j向量输入步骤四中的投票器模型，计算得到每条评论的情感倾向。实施例3基于上述实施例，本实施例公开一种旅游服务质量评价方法，包括以下步骤：采用上述实施例的方法获得待检测与评价的旅游目的地评论的情感倾向；对得到的结果进行展示。所述展示方法包括方法p1、方法p2、方法p3、方法p4中的至少一种，方法p1为：按吃、住、行、旅游、娱乐、购物方面，计算好评和差评的数量和百分比并展示；方法p2为：按吃、住、行、旅游、娱乐、购物方面，展示每个方面下属维度的好评与差评的数量、百分比以及相应具有代表性的评论内容；具体的，吃、住、行、旅游、娱乐、购物的下属分析维度可按下表归纳：方法p3为：通过模糊检索并计算与关键词关联的好评与差评数量、百分比并展示。方法p4为：计算吃、住、行、旅游、娱乐、购物各方面的差评数，当其占比达到阈值时，向用户发出警告。以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周道华;古鹏飞;曾俊
技术所有人：成都中科大旗软件有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。