一种基于微博数据的公交服务负面情绪原因辨识方法

文档序号:35371112发布日期:2023-09-08 06:48阅读:19来源:国知局
一种基于微博数据的公交服务负面情绪原因辨识方法与流程

本发明涉及公交服务评价,特别涉及一种基于微博数据的公交服务负面情绪原因辨识方法。


背景技术:

1、随着我国经济的高速发展,低碳出行的理念越来越受到重视。在低碳出行的方式中,公交出行扮演着重要的角色,因此不断发现公交服务存在的不足,并及时制定改进措施显得至关重要。传统的公交服务满意度调查主要是通过问卷和访谈的方式实现,需要耗费大量的人力物力,很难应对目前巨量数据需求的采集要求。

2、随着互联网的快速发展,人们开始在新浪微博、抖音、twitter、facebook等社交媒体平台上发表对公交服务的评价信息,产生了数亿条公交相关数据。操作方便使得社交媒体数据呈现出了数据量大、传播速度快、内容实时性等特点。此外,微博作为我国公交部门发布交通信息,获取市民意见的重要途径,目前已有2000多个公交部门开设了微博账号,每天实时地发表公交规划、公交线路等信息,同时微博还开设公共交通超话主题,方便微博用户发表公交相关评论。据统计,以“广州”和“公交”为关键词,2010-2020年期间新浪微博上共有412339条和公交服务相关的微博数据。而车联网、云计算与大数据技术的到来,让社交媒体交通数据的采集、关键信息的提取、数据深入挖掘成为可能,而基于社交媒体的交通数据采集与分析也将成为未来获取交通出行数据的主流方式之一。因此,从这些日益膨胀的评论信息中挖掘人们对公交服务的喜好、态度,可以帮助政府制定公交政策法规、改进公交线路、提高运营服务等提供必要的决策依据。此外,人们在社交媒体平台发表的评论有些是正面的,有些是负面的。对于负面情绪,需要分析出背后包含的某些特定原因,如果能辨识出背后的原因,将有利于及时改进公交服务,为群众提供更舒适的公交出行体验。虽然已有一些国内外学者利用社交媒体交通数据进行交通信息检测、交通事件检测、交通流量预测、交通政策评估和交通状况分析等研究,但是在公交服务满意度分析与评价方面的应用较少,特别是公交服务负面评价背后的原因挖掘,仍处于空白阶段。郑治豪开发了基于社交媒体大数据的交通感知分析系统,用于交通事件的识别与归类,但精确率、召回率和f1值只有79%、75.4%和77.3%,分析模型准确性有待进一步提高(郑治豪,吴文兵,陈鑫,胡荣鑫,柳鑫,王璞.基于社交媒体大数据的交通感知分析系统[j].自动化学报,2018,44(04):656-666.)。bondoc使用推特流api获取交通推文数据,用于道路交通拥堵状况分析,研究比较了朴素贝叶斯、决策树、随机树和k-最近邻四种机器学习算法,只达到84%的分类准确度(bondoc,e.r.p.,caparas f.p.m.,macias j.e.d.,naculangga v.t.,estrada j.e..anintelligent road traffic information system using text analysis in the mostcongested roads in metro manila[c].2018ieee 10th international conference onhumanoid,nanotechnology,information technology,communication and control,environment and management,baguio city,philippines,2018)。chang提出了一种基于社交媒体数据的道路交通拥堵和事故检测方法,但模型需与地图匹配进行求解,辨识工作量大,计算时间较长,不适用于处理数据量大、处理速度快的场景(chang h.l.,li l.s.,huang j.x.,zhang q.p.,chin k.s..tracking traffic congestion and accidentsusing social media data:a case study of shanghai[j].accident analysis andprevention,2022,169:1-17.)。


技术实现思路

1、为解决现有技术中存在的问题,本发明提供一种基于微博数据的公交服务负面情绪原因辨识方法,从海量的微博数据中快速提取公交相关数据,并以高精度的精确率、召回率和f1值进行负面情绪原因辨识,分析结果可为公交服务、公交管理的优化与改善、公交政策的制定提供数据支撑。

2、本发明至少通过如下技术方案之一实现。

3、一种基于微博数据的公交服务负面情绪原因辨识方法,包括以下步骤:

4、s1.从微博获取公交服务评论数据;

5、s2.数据预处理;

6、s3.选出包含用户情绪的公交服务数据;

7、s4.使用bert-bigru+cnn模型对公交服务情感分类;

8、s5.将公交服务负面情绪原因分类;

9、s6.使用bert-bigru+cnn-attention模型辨识公交服务负面情绪原因,得到公交服务负面情绪原因辨识结果。

10、进一步地,步骤s1所述从微博获取公交服务评论数据,采用网络爬虫的scrapy框架,通过设置城市、时间范围和公交服务关键词构建搜索条件,获取若干字段,包括:用户昵称、微博正文、转发数、评论数、点赞数以及发布时间。

11、进一步地,步骤s2所述数据预处理,包括以下步骤:

12、1)数据清理,对完全重复和转发重复发布内容进行去重处理,对网页链接、特殊符号进行去噪处理,对数据文本字段缺失内容进行缺失处理;

13、2)中文分词,采用分词工具将文本分割成词组;

14、3)去停用词,通过停用词表过滤没有实际意义的词汇。

15、进一步地,步骤s3所述选出包含用户情绪的公交服务数据,并剔除其他数据,包括:将预处理后的数据输入bert编码层,对输入文本以字为单位切分并编码为向量,将词嵌入向量后输入bilstm层提取文本特征,用sigmoid激活函数得到数据分类结果,将包含用户情绪的公交服务数据按比例分为训练集、验证集与测试集。

16、进一步地,所述bert-bigru+cnn模型包括输入层、bert编码层、特征提取层、特征融合层、全连接层和输出层;输入层为包含用户情绪的公交服务数据;bert编码层以字为单位对文本进行切分,编码得到字向量;

17、特征提取层包括bigru模型和三个cnn模型,将bert编码层得到的向量同时输入bigru模型和三个cnn模型中进行特征提取,bigru模型捕获文本前后之间的关联信息,cnn模型提取文本的局部特征,三个cnn层卷积核的高度分别为3、4、5,卷积核在二维矩阵上以1为步长从上往下滑动做卷积运算,卷积操作输出后,进行globalaveragepooling1d池化操作;

18、特征融合层实现模型的并行连接,将bigru模型以及三个cnn模型输出的相同维度特征特征拼接在一起,实现特征融合;

19、全连接层以特征融合层的输出为输入,sigmoid作为激活函数,得到微博文本的情感分类结果。

20、进一步地,将包含用户情绪的公交服务数据训练集数据输入到bert-bigru+cnn模型中,得到参数最优的bert-bigru+cnn公交服务情感分类模型,然后输入验证集数据进行验证,最后输入测试集数据进行分类,得到公交服务正面、负面情绪分类结果,将得到的公交服务负面情绪数据按比例分为训练集、验证集与测试集。

21、进一步地,bert-bigru+cnn模型以精确率、召回率和f1值作为评价指标。

22、进一步地,步骤s5所述公交服务负面情绪原因分类,将负面情绪原因分为等车时间长、车内卫生差、司机态度差、司机开车不稳、车内较拥挤、收费不合理和其他原因七种类型。

23、进一步地,所述bert-bigru+cnn-attention模型包括输入层、bert编码层、特征提取层、特征融合层、注意力模型层、全连接层和输出层;

24、输入层为公交服务负面情绪数据;

25、bert编码层以字为单位对文本进行切分,编码得到字向量;

26、将bert编码层得到的向量同时输入bigru模型和三个cnn模型中进行特征提取,bigru模型捕获文本前后之间的关联信息,cnn模型提取文本的局部特征;三个cnn层卷积核的高度分别为3、4、5,卷积核在二维矩阵上以1为步长从上往下滑动做卷积运算,卷积操作输出后,进行globalaveragepooling1d池化操作;

27、特征融合层实现模型的并行连接,将bigru模型以及三个cnn模型输出的相同维度特征特征拼接在一起,实现特征融合;

28、注意力模型层利用注意力机制对特征加权,给重要的特征分配更高的权重;

29、全连接层以注意力模型层的输出为输入,sigmoid作为激活函数,得到微博文本的情感分类结果。

30、进一步地,将公交服务负面情绪数据训练集数据输入到bert-bigru+cnn-attention模型中,得到参数最优的bert-bigru+cnn-attention公交服务负面情绪原因辨识模型,然后输入验证集数据进行验证,最后输入测试集数据进行分类,得到最终的公交服务负面情绪原因辨识结果。

31、与现有技术相比,本发明至少能够实现以下有益效果:

32、1.本发明将微博数据应用于公交服务评价分析,可以快速获取最新公交服务评价数据,获取数据量大,数据时效性高,避免了大量人力物力的调研工作,节省了后续大数据分析处理的时间。

33、2.本发明提出的方法能够全面提取局部信息和关联上下文的信息,利用attention机制关注重点信息,提升了精确率、召回率和f1值三个指标值,具有较高的辨识度和精确度。

34、3.本发明提出的辨识模型结构简单,设置参数少,模型训练时间短,使用少量的数据训练集即可取得不错的效果,适用于处理数据量大、处理速度快、辨识效果要求高的场景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1