一种基于挖掘市民投诉文本的公共安全事件事前预警方法与流程

文档序号:17442894发布日期:2019-04-17 05:02阅读:191来源:国知局
一种基于挖掘市民投诉文本的公共安全事件事前预警方法与流程

本专利涉及公共安全技术领域,具体涉及一种基于挖掘市民投诉文本的公共安全事件事前预警方法。



背景技术:

公共安全,是指人群生命和财产安全未受到威胁,涉及公共领域的秩序、利益、价值能够按照公共生活的固有逻辑正常运转的状态。公共安全事件容易对社会秩序和社会稳定造成重大的负面影响,因而及时、有效的预测和预警公共安全突发事件,对于确保社会平稳运行具有重大的现实意义。

传统的公共安全事件预警机制通过监控系统建立,但是公共安全监控系统不能自动判别危险信息,需要值班人员实时查看监控系统发现危险信息,因此需要很大的人力成本且不能真正做到实时提前预警。

针对上述痛点,中国专利申请cn106780235a公开了一种社会安全事件监测及追溯方法,该方法包括:建立预测预警数据库、案例库、预案库和专家评判库;设定突发安全事件的指标数据;对新调入预测预警数据库中的数据进行模型演算,分析并预测社会安全事件的走势,并采用图形显示预测结果;根据预测社会安全事件的走势生成预警等级,并为决策者提供辅助决策。不过该技术方案涉及的公共安全监控系统仅为视频监控系统,而大多数公共安全事件都会发出意外声音,如爆炸、犯罪受害人的呼救等。

再如中国专利申请cn102938187a公开了一种公共安全事件检测系统,涉及公共安全事件信息监控的技术领域。系统由传感器和控制中心平台两部分组成,其中传感器包括:火灾探测器、声音(爆炸)传感器和视频传感器等物理感知器件,用于采集道路及其周边信息;控制中心平台包括节点控制器,与上述传感器及其处理电路相连,并完成信号采集与判别,并发出预警信号和其他控制指令。但是该技术方案需要特意布置相应的监控设备,渠道较为有限。

目前公共安全监控系统,都需要单独布线,因此只有在人口稠密的城市关键地带布设,而犯罪、事故高发的城镇郊区和偏远路段,由于种种原因难以布设相应的公共安全监控系统。与此同时,市民维权意识增强,投诉量近年来基本保持不断上升的态势,并且市民投诉内容涉及个人消费、食品安全和环保等多个方面。当下对用户投诉内容的分析研究已被广泛应用在服务业以及金融业等行业以提高用户满意度和黏性。对于公共安全领域,借助对用户投诉内容的分析挖掘,省去了提前布置相应传感器,并且便于针对性的建立事前预警机制。

例如,中国专利申请cn106529804a公开了一种基于文本挖掘技术的投诉预警监测分析方法,包括:文本数据规范化步骤,将录入的文本数据转成统规则的规范化数据模式;规范化数据分析预警步骤,通过建立投诉分析等级聚类模型对规范化数据模式进行分析,根据聚类结果划分投诉风险等级,根据风险所在等级发出预警。但该技术方案着重于对客户的反馈文本进行情感分析。

现有的投诉处理实现方法是被动的、低效的、延迟的。上一级的投诉处理人员的处理内容对下一级的投诉处理人员帮助较小,每一层投诉处理人员,都要仔细阅读投诉文本内容,进行自己相应的处理,造成重复劳动,效率低下的问题,而且根据投诉处理人员对业务掌握的程度不同,对于用户投诉回复质量也参差不齐,降低了用户满意度。这种人工分析存在大量的主观因素,并不能作为权威的公共安全预警机制的建立依据。



技术实现要素:

针对现有技术的不足,本发明旨在提供一种基于挖掘市民投诉文本的公共安全事件事前预警方法,利用市民投诉文本信息进行预警,无需特意布置相应的监控设备,来源渠道广泛,且能够进行公共安全事件的有效事情预警。

为了实现上述目的,本发明采用如下技术方案:

一种基于挖掘市民投诉文本的公共安全事件事前预警方法,包括如下步骤:

s1、获取原始市民投诉文本内容以及企业的基础信息,所述基础信息包括企业全称信息、归属行业信息及经营范围信息;

s2、对所获取的所有企业全称信息进行分词;

s3、针对步骤s2中得到的分词结果,提取其中的高频词,并根据高频词建立企业全称信息停用词库与企业全称信息自定义词典;

s4、对步骤s1中获取的所有企业全称信息再进行分词,并利用步骤s3中建立得到的企业全称信息停用词库与企业全称信息自定义词典进行降噪,构建得到企业名称词库;

s5、按照企业的归属行业信息,将每个行业下具有的经营范围信息进行归纳并整理成文档;

s6、使用分词包对步骤s5得到的文档中的企业的经营范围信息进行分词,建立企业经营范围停用词库和企业经营范围自定义词典;

s7、对步骤s5得到的文档中的企业的经营范围信息再次进行分词,并使用步骤s6中得到的企业经营范围停用词库和企业经营范围自定词典对再次分词的结果进行降噪,得到每个行业的经营范围信息的分词结果;

s8、对每个行业的经营范围信息的分词结果提取关键词,并利用提取得到的关键词构建行业经营范围词库;

s9、使用步骤s4中构建得到的企业名称词库与步骤s8中构建得到的行业经营范围词库作为分词自定义词典对步骤s1中获取的原始市民投诉文本内容进行分词,得到分词文本;

s10、对步骤s9得到的分词文本和步骤s4中构建得到的企业名称词库进行模糊名称匹配;

s11、基于步骤s10得到的模糊名称匹配结果,进行行业经营范围的二次关联,确定关联企业;

s12、依据关联企业对应的市民投诉文本内容的数量进行企业排名,形成高危企业列表,对高危企业采取相关高位预警措施。

进一步地,步骤s2中,使用中文结巴分词包的精确模式进行分词。

进一步地,步骤s8中,采用tf-idf计算每个行业的经营范围信息的分词结果中各个分词的权重,提取关键词。

进一步地,步骤s10中,模糊名称匹配的过程为:

首先进行对分词文本中每一个词语进行低频词判定,若该词语在企业名称词库中对应的企业数小于设定值k则被记作低频词,且低频词对应的企业直接作为模糊名称匹配结果;同时,各个非低频词所对应的企业集合之间若存在交集,则交集中的企业也作为模糊名称匹配结果。

进一步地,步骤s11的具体过程为:

针对模糊名称匹配结果中的每一个企业,追溯其归属行业信息,通过行业经营范围词库获取相应的经营范围的关键词,并判断获得的经营范围的关键词在该条市民投诉文本内容中出现的个数,记作共现数;最后选取共现数最大所对应的企业作为该条投诉文本最终的关联企业。

本发明的有益效果在于:

1、本发明中,对于公共安全事件来源的获取,采用的是市民投诉文本信息,无需特意布置相应的监控设备,并且市民投诉信息来源于劳动监察部门、交通局、市场监督部门等多种渠道,来源渠道广泛。

2、本发明中对于投诉文本分析侧重于投诉文本中投诉主体的识别,以布尔表达式为基础的匹配模型,文本的相关性是以是否满足布尔表达式为依据,若关键词出现在文本中,则表达式为1,否则为0。在该模型的基础上,引入了对文本进行切词分词再次匹配等方法,提高了匹配的效率和精度。

附图说明

图1为本发明实施例中的方法总体流程图;

图2为本发明实施例中公共安全事件关联流程示例图;

具体实施方式

以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。

如图1-2所示,一种基于挖掘市民投诉文本的公共安全事件事前预警方法,包括如下步骤:

s1、获取原始市民投诉文本内容以及企业的基础信息,所述基础信息包括企业全称信息、归属行业信息及经营范围信息;

s2、对所获取的所有企业全称信息使用分词包进行分词;在本实施例中,在本步骤中,使用中文结巴分词包的精确模式进行分词。

s3、针对步骤s2中得到的分词结果,提取其中的高频词,并根据高频词建立企业全称信息停用词库与企业全称信息自定义词典;

具体地,可以提取出排名前20的高频词,将类似“股份,有限,公司”等出现频率很高却没有太大意义的词加入企业全称信息停用词库,过滤出停用词后,再次筛选提取出排名前40的高频词,比如“信息,科技,软件”等代表行业属性的词,加入企业全称信息自定义词典;

s4、对步骤s1中获取的所有企业全称信息再进行分词,并利用步骤s3中建立得到的企业全称信息停用词库与企业全称信息自定义词典进行降噪,构建得到企业名称词库;

s5、按照企业的归属行业信息,将每个行业下具有的经营范围信息进行归纳并整理成文档;

s6、使用分词包对步骤s5得到的文档中的企业的经营范围信息进行分词,建立企业经营范围停用词库和企业经营范围自定义词典;

类似地,可以将分词结果中出现频率很高但没有多大意义的词语加入企业经营范围停用词库,过滤出停用词之后再次筛选出高频词加入企业经营范围停用词库。

s7、对步骤s5得到的文档中的企业的经营范围信息再次进行分词,并使用步骤s6中得到的企业经营范围停用词库和企业经营范围自定词典对再次分词的结果进行降噪,得到每个行业的经营范围信息的分词结果,提高分词的效果;

具体地,使用结巴分词包对各行业的经营范围信息文档进行中文分词,并利用企业经营范围停用词库和企业经营范围自定义词典进行降噪;

s8、对每个行业的经营范围信息的分词结果提取关键词,并利用提取得到的关键词构建行业经营范围词库。在本实施例中,采用tf-idf计算每个行业的经营范围信息的分词结果中各个分词的权重,提取关键词;

例如,可以针对每个行业选择权重前20个词作为该行业的经营范围信息的关键词,完成行业经营范围词库的构建。

s9、使用步骤s4中构建得到的企业名称词库与步骤s8中构建得到的行业经营范围词库作为分词自定义词典对步骤s1中获取的原始市民投诉文本内容进行分词,得到分词文本;

具体地,分词可以选择为结巴分词的全模式,将分词自定义词典中出现的所有词语都扫描出来。例如,若“嘻哈游戏”与“哈游”这两个词都存在于自定义词典里,则“嘻哈游戏”这个词可切分成“嘻哈游戏”和“哈游”两个词。

s10、对步骤s9得到的分词文本和步骤s4中构建得到的企业名称词库进行模糊名称匹配。

具体地,模糊名称匹配的过程为:首先进行对分词文本中每一个词语进行低频词判定,若该词语在企业名称词库中对应的企业数小于设定值k则被记作低频词,且低频词对应的企业直接作为模糊名称匹配结果,实操中,k=10。同时,各个非低频词所对应的企业集合之间若存在交集,则交集中的企业也作为模糊名称匹配结果。

s11、基于步骤s10得到的模糊名称匹配结果,进行行业经营范围的二次关联,确定关联企业。

具体地,针对模糊名称匹配结果中的每一个企业,追溯其归属行业信息,通过行业经营范围词库获取相应的经营范围的关键词,并判断获得的经营范围的关键词在该条市民投诉文本内容中出现的个数,记作共现数;最后选取共现数最大所对应的企业作为该条投诉文本最终的关联企业。

s12、依据关联企业对应的市民投诉文本内容的数量进行企业排名(降序排列),形成高危企业列表,采取相关高位预警措施。例如,取出降序排列的前100企业,形成高危企业列表,对相关高危企业采取相应预警措施。

上述方法中,对于公共安全事件来源的获取,采用的是市民投诉文本信息,无需特意布置相应的监控设备,并且市民投诉信息来源于劳动监察部门、交通局、市场监督部门等多种渠道。且上述方法中对于投诉文本分析侧重于投诉文本中投诉主体的识别。

对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1