一种住建领域政务热线工单数据分析方法及系统与流程

文档序号:24240771发布日期:2021-03-12 13:15阅读:187来源:国知局
一种住建领域政务热线工单数据分析方法及系统与流程

本发明属于工单数据处理技术领域,具体涉及一种住建领域政务热线工单数据分析方法及系统。



背景技术:

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

随着人们生活水平的提高,人们对自己的生活质量、生活舒适感要求也越来越高,对于住建部门的投诉、咨询等电话也越来越多。但是,与日益增加的工单量相比,目前的工单数据的分析十分滞后,难以提取出有价值的信息以供部门决策,数据分析仅停留在简单的统计分析。



技术实现要素:

本发明为了解决上述问题,提出了一种住建领域政务热线工单数据分析方法及系统,本发明能够实现对诉求工单的时间趋势分析、空间分布分析和主题挖掘,解决住建领域的数据分析问题,特别是大数据的分析。

根据一些实施例,本发明采用如下技术方案:

一种住建领域政务热线工单数据分析方法,包括以下步骤:

获取热线电话,记录语音信息,将语音数据转化为文本信息,形成工单;

对工单数据进行预处理,根据工单的受理时间,描绘各工单的时间趋势变化;

提取工单中工单涉及区域数据,确定工单涉及问题所在位置;

构建住建领域专业词库,对工单内容进行分词,基于分词结果,构建文档词条矩阵;

获取各个工单的文档词条矩阵,进行文本主题的识别,将不同主题下频率大于设定值的关键词作为主题关键词;

基于时间趋势变化、涉及问题所在位置和主题关键词,生成工单数据分析报告。

作为可选择的实施方式,对工单数据进行预处理的具体过程包括:构建噪音数据库,剔除工单中属于噪音数据库中的数据。

作为可选择的实施方式,提取工单内受理时间,确定年份、月份、星期以及具体时刻,进行时间趋势的分析。

作为可选择的实施方式,构建住建领域专业词库,对工单内容进行分词的具体过程包括:构建住建领域的专业词库,包括自定义专业词库与停用词词库;自定义专业词库是指作为整体出现的词语,停用词库是指无意义的语气助词。

作为可选择的实施方式,所述住建领域专业词库内的词语分行存储,每一个词语占一行。

作为可选择的实施方式,基于分词结果,构建文档词条矩阵的具体过程包括:以每一个分词作为单独的一列,每一行表示的是工单内容,以词语出现次数进行排列。

作为可选择的实施方式,进行文本主题的识别的具体过程包括:使用lda算法获取工单的主题,利用无监督机器学习方法将主题进行分类,根据每个主题下频率超过设定值的若干关键词,概括出该主题的主旨。

一种住建领域政务热线工单数据分析系统,包括:

工单转化模块,被配置为获取热线电话,记录语音信息,将语音数据转化为文本信息,形成工单;

时间趋势分析模块,被配置为根据工单的受理时间,描绘各工单的时间趋势变化;

空间分析模块,被配置为提取工单中工单涉及区域数据,确定工单涉及问题所在位置;

主题分析模块,被配置为构建住建领域专业词库,对工单内容进行分词,基于分词结果,构建文档词条矩阵,获取各个工单的文档词条矩阵,进行文本主题的识别,将不同主题下频率大于设定值的关键词作为主题关键词;

分析报告生成模块,被配置为基于时间趋势变化、涉及问题所在位置和主题关键词,生成工单数据分析报告。

一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种住建领域政务热线工单数据分析方法中的步骤。

一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种住建领域政务热线工单数据分析方法中的步骤。

与现有技术相比,本发明的有益效果为:

本发明能够实现诉求工单的时间趋势分析。其中包括年度、月度与星期的工单数量变化趋势;同时,时间变化趋势详细到各个时刻,描绘不同时刻的工单数量变化趋势;

本发明能够描绘出具体城区的处理的工单数量,有助于后期的区域管理和区域分析;

本发明能够进行诉求工单的主题挖掘,实现工单内容的自动聚类,有助于进行同样工单的聚类,发现共同问题,或去除重复工单。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1(a)-(c)为本实施例中几种时间趋势分析示意图;

图2为本实施例中城区分布示意图;

图3为本实施例工单主题挖掘过程示意图;

图4位本实施例的过程示意图。

具体实施方式:

下面结合附图与实施例对本发明作进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

一种住建领域政务热线工单数据分析方法,应用于住建领域政务热线,首先对热线处理流程进行简要说明,即:基于本实施例的应用场景(即住建领域政务热线),公民办拨打12345表达诉求,市长热线将公民诉求转化为工单文本信息,并转至住建部门热线平台,基本热线处理流程如下所述:

工作人员提供人工服务,接听电话并记录用户需求信息。

现有的语音识别技术已经较为普及,可以通过智能客服与用户进行交流,记录用户的语音,并通过某种语音识别框架将语音数据转化为文本信息。

12345市民热线的工作人员会将记录好的公民诉求形成工单,并派发至相关的单位,其中包括住房与城乡建设数字化中心,负责处理住建领域的工单。

如图4所示,本实施例的一种住建领域政务热线工单数据分析方法,具体包括以下步骤:

(1)数据收集:基于热线处理流程,工单数据来自是12345转办工单。

(2)数据处理:

(i)时间变量的处理:在工单数据中,有工单的受理时间变量,格式为年—月—日时:分:秒(如:2019—12—3100:00:00),可以提取出工单受理时间的年份、月份、星期以及具体时刻,从而可以进行时间趋势的分析。

(ii)空间变量的处理:工单数据中,有一列变量是所在城区,即公民反映问题所在的城区

(iii)工单内容的处理:包括构建住建领域专业词库、分词、构建文档词条矩阵。

在本实施例中,以山东省济南市住建工单为例进行说明。

12345转办的工单具有特定的格式,分为以下几种情况:

格式一:“12345韩青转办:来电人反映:槐荫区保利华府2区业主,整个小区近期陆续交房,陆续安装天然气报警器,但工作人员收取报警器费用270元(每户),咨询是否必须缴纳270元报警器费用,希望相关单位落实处理,请处理。(济华燃气,华通项目部的工作人员,安装电话15168813826)12345录入时间:2018-06-2821:27:53转办时间:2018-07-0109:17:07”

其中,一般情况下,工单内容中会出现“12345xx转办”、“来电人反映”、“希望相关单位落实处理,请处理”以及“12345录入时间,转办时间”等内容,此部分内容对于确定工单责任单位没有价值,属于数据噪音,因此,予以剔除。

除此之外,如格式二所示,部分工单中还存在“xx反馈”、“xx回退”成内容,本部分同样没有实际意义。予以剔除。

格式二:“12345贾宏伟转办:贾女士来电反映:历下区解放路77号元中建国熙台小区11号楼独单元2903室,主卧飘窗漏雨,要求尽快维修,希望相关单位落实处理,请处理。历下区政府热线办理反馈:历下区住房保障管理局回退:2015年2月1日实施的《济南市物业管理办法》第十五条物业在保修期之内出现质量缺陷,由房地产开发企业负责保修。12345录入时间:2018-06-2519:14:55转办时间:2018-07-0109:57:17”

以下是工单内容处理的详细步骤:

(a)构建起有效的词库是实现合理分词首要前提。本专利构建住建领域的专业词库,包括自定义专业词库与停用词词库。自定义专业词库是指某些词作为整体出现,如小区名、道路名,反映具体问题的事项词语等,如暖气不热;停用词库是指去除无意义的词语,如“的”、“啊”等词。

词库的构建方法采用背靠背人工编码的方法。邀请住建领域专业人士分别阅读大量的12345工单,进行人为分词。分词以后,将每人的分词结果进行比对,经商议整理出大家一致认可的分词结果。

词库的具体形式是形成txt文档,在该文档中,每一个词语占一行。

拥有了住建领域的专业词库,便可以实现精准分词,这为以后的模型训练奠定了基础。

(b)工单内容分词,因为本专利应用的场域是住建领域,因此,本专利使用住建领域的专业词库进行科学合理的分词。

分词情况如下:

原始工单:12345贾宏伟转办:贾女士来电反映:历下区解放路77号元中建国熙台小区11号楼独单元2903室,主卧飘窗漏雨,要求尽快维修,希望相关单位落实处理,请处理。历下区政府热线办理反馈:历下区住房保障管理局回退:2015年2月1日实施的《济南市物业管理办法》第十五条物业在保修期之内出现质量缺陷,由房地产开发企业负责保修。12345录入时间:2018-06-2519:14:55转办时间:2018-07-0109:57:17

分词后工单:历下区解放路77号元中建国熙台小区11号楼独单元2903室主卧飘窗漏雨要求尽快维修

(c)构建文档词条矩阵

工单内容分词以后,便以词语的形式体现,这时就可以构建起文档词条矩阵,该矩阵是以每一个词作为单独的一列,每一行表示的是工单内容,是以词语出现次数的形式出现。

(3)工单数据分析(结果以2019年数据为例,进行说明)

a时间趋势分析

依据在数据中提取出来的时间维度:年份、月份、星期与时刻,描绘出工单时间趋势变化。

b空间趋势分析

依据数据中所在城区变量,描绘出工单的城区分布,如图2所示。

c工单主题挖掘

使用lda(latentdirichletallocation)进行文本主题的识别,将海量工单数据通过无监督机器学习的方法划分为几类或者十几类。在图3中,在本实施例中,每一主题对应着出现的频率最高的7个关键词,据此关键词,可以概括出该主题的主旨。

所提到的lda算法,lda是基于词袋模型,即考虑词语出现的次数,而不考虑出现的顺序。其基本算法是:假定语料库中共有m篇文章,每篇文章下的主题分布是一个从参数为的dirichlet(狄利克雷)先验分布中采样得到的multinomial分布,每个主题下的词分布是一个从参数为的dirichlet(狄利克雷)先验分布中采样得到的multinomial分布。对于某篇文章中的第n个词,首先从该文章中出现的每个主题的multinomial分布(主题分布)中选择或采样一个主题,然后再在这个主题对应的词的multinomial分布(词分布)中选择或采样一个词。不断重复这个随机生成过程,直到m篇文章全部生成完成,形成主题与关键词矩阵。

至此,住建领域政务热线数据分析可以生成月度、季度与年度的工单报告,报告内容包括时间趋势分析、空间模式分析、热点主题识别。

通过上述实施例的方案,可以实现诉求工单的时间趋势分析。其中包括年度、月度与星期的工单数量变化趋势;同时,时间变化趋势详细到一天24时刻,描绘出24时刻的工单数量变化趋势。

也可以实现诉求工单的空间分布。描绘出具体城区的处理的工单数量。

还可以实现诉求工单的主题挖掘,实现工单内容的自动聚类。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1