技术特征:
1.一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法,其特征在于:包括以下工作步骤:第一步:构建文本有效性评价指标体系;s101、时效性评论文本的阅读时间和评论发布时间的差异作为评论时效性的量化值,设置参数σ,评论及时性(x_1)的取值范围控制在[0-10],计算公式为:x_1=[t_max-(t_w-t_r)]/σ;s102、情感性评论文本中含有的“非常好、满意、差评、失望”之类情感词语,可以直接表达出游客对目的地的态度,也可以指导其他游客的旅游选择,用情感词的频率很难表达评论中表述的积极或消极情绪的强度,因此根据情感词典中对应词的相似度对采集到的文本进行评分,并考虑程度副词和否定词对情感值计算的影响,并加权计算出句子情感强度,输出评论文本的情感极性和强度;s103、相关性评论文本的相关性即评论中产品特征的丰富性,由评论中包含的目的属性特征词来量化,属性特征词通常为名词或形容词,是目的地本身及其相关服务的客观表达,提取文本细节内容,通过分词、词性标注处理得到目的地评论词集合c1,使用词频统计对名词和形容词进行要素量化,得到属性特征词集c2,构建空间向量模型,匹配评论词集c1和属性特征词集c2,统计评论中每个特征词的出现频率;s104、完整性评论文本的完整性主要是指对旅游目的地特征的详细描述,需要统计每条评论的字数,统计所得字符数分布较为不均,对字符数进行取对数,length=ln(nr),其中nr为评论字数;s105、可理解性评论文本的可理解性指文本前后的关联性,利用语义文本向量度量评论的可理解性,向量语义的概念是将一个单词表示为多维语义空间的一个点,表示单词的向量嵌入到特定的向量空间中;第二步:关联分析s201、dbscan聚类分析对评论效用数据进行标准化处理,确定算法参数的取值,寻找核心点形成临时聚类族,合并临时聚类族得到聚类族;s202、关联规则挖掘通过apriori算法进行挖掘;第三步:构建基于集成学习数据挖掘技术的分类模型,通过随机森林算法建立文本分类模型;s301、随机森林分类模型的三个参数选择s3011、nodesize表示包含样本的叶节点数,节点大小为1表示分类,5表示回归,取nodesize=1;s3012、ntree表示森林中树的数目;s3013、mtry表示每个节点的候选特征数;
s302、随机森林分类模型效果评价采用统计学领域常见的准确率(accuracy)、精确率(precision)、召回率(recall)和综合评价指标(f-measure,简记为f1值)进行评估;对预先给定的评价文本数据经过测试,结果显示准确率为82.35%,即所有被预测的样本,预测正确的概率为82.35%;精确率为80.77%,说明分类器识别样本的能力较好;召回率为98.45%,表示被预测的所有正样本,能够被正确预测的占比;f1值是一个综合的评价指标,为78.02%。2.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法,其特征在于:所述文本有效性评价指标体系从信息内容质量和信息表达形式质量两方面进行文本有效性评价,信息内容质量包括情感性、时效性、相关性三个指标,信息表达形式质量包括完整性和可理解性两个指标。3.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法,其特征在于:所述t_max是评论发布时间和评论阅读时间之间的最大差值,t_w是评论发布时间,t_r是评论阅读时间,σ取值为t_max/10。4.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法,其特征在于:所述dbscan聚类分析是一种简单有效的数据挖掘技术,聚类是按照一定的标准将一些事物划分为若干类别的过程,相似的被聚为一类,不相似的被聚为不同的类。5.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法,其特征在于:所述apriori算法由连接和剪枝两个步骤组成,连接是找到lk,通过l(k-1)与自己连接产生候选k项集的集合ck。6.根据权利要求5所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法,其特征在于:所述剪枝是通过计算每个k项集的支持度来得到lk,为减少计算量,可利用到该算法的性质即如果一个k项集的(k-1)项子集不在l(k-1)中,则该候选也不是频繁的,可以直接从ck中删除,其中支持度、置信度、提升度是用来衡量关联性强弱的三个核心指标。7.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法,其特征在于:所述第三步中ntree值足够大时,可保证随机森林的总体误差率趋于稳定,实证表明ntree=59时分类效果最好,准确率达到0.8235。8.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法,其特征在于:所述mtry影响随机森林模型性能最明显的参数,在分类中mtry是整个变量个数的均方根,mtry=7。
技术总结
本发明涉及互联网信息评价技术领域,且公开了一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法,包括第一步的构建文本有效性评价指标体系,第二步的关联分析,第三步的构建基于集成学习数据挖掘技术的分类模型等。本发明利用不同维度的旅游景区评价信息质量的关联性,提出了综合信息内容质量和信息表达形式质量两个维度,包括时效性、情感性、相关性、完整性和可理解性共5项指标的旅游景区评论信息质量有效性评价指标体系。其中,信息内容质量包含时效性、情感性和相关性三个指标。信息表达形式质量包含完整性和可理解性两个指标。解性两个指标。解性两个指标。
技术研发人员:宋涛 郭佳怡 唐矛宁 韦艳芳
受保护的技术使用者:湖州师范学院
技术研发日:2022.05.05
技术公布日:2022/9/6