基于工单的热词挖掘、分类和分析的方法和系统与流程

文档序号：30091604发布日期：2022-05-18 09:13阅读：487来源：国知局

1.本技术涉及大数据分析，尤其是基于网格工单及热线工单的热词数据挖掘分析的方案。

背景技术：

2.随着现代城市的规模越来越大，人口聚集越来越多，生活基础设施越来越复杂，对于城市的管理的要求也越来越高。为了满足城市治理和执法的需求和方便市民群众的诉求，现有的大多数的城市管理职能部门都采用了各种形式来收集市民群众对本部门的诉求，比如通过电话、短信、网络等形式接收用户的投诉和意见，并将其录入到系统中以形成相应的工单。该工单可以包括创建时间、投诉人、地点、联系电话、具体内容、处理状态、反馈等字段以反映出具体的投诉问题。所述工单在生成后被派发给相应的处理人员以进行处理，并且在处理完成后，为了提高服务质量，还会对该工单进行完成度分析。
3.目前现有的工单分析方式主要通过计算全部工单的平均满意度来衡量所有工单的整体处置情况。这种分析并未通过数据分析及ai算法来深入挖掘工单中的重点问题来处理预防，还是通过以人工的方式针对不满意工单逐个进行分析、讨论，利用经验找到市民近期不满意的重点事件并分析原因，这种方式依赖于工作人员的能力，且工作量巨大、效率较低。
4.因此，希望能提供一种基于网格工单及热线工单的热词数据挖掘分析方法，通过对现有工单数据进行分析，解决传统技术方法需要大量数据标注的人工成本过高、信息挖掘深度不足及可视化效果不直观等问题。

技术实现要素：

5.本技术涉及一种基于工单的热词数据挖掘方案，以及利用所挖掘出的热词对工单进行分类、分析和展示的一整套方案。
6.根据本技术的第一方面，提供了一种基于工单的热词数据挖掘的方法，包括：将来自各个数据源的多个工单进行数据整合；对整合后的工单数据进行全量工单的词频统计及关键词获取；以及根据获得的所述工单的关键词，创建对应的主题类别和基础主题关键词词袋；其中，所述主题关键词词袋是属于该主题的所述关键字的集合。
7.根据本技术的第二方面，提供了一种基于热词的工单分类的方法，包括：接收到新的工单；对所述工单进行数据整合以转换成对应的文本信息；从所述文本信息中提取地理位置信息；对所述工单的文本信息进行词频统计及关键词获取；通过将所提取的所述工单的关键字与利用权利要求1所述的方法中创建的各基础主题关键词词袋中的关键字进行匹配，从而确定所述工单所属的主题类别；以及将所述工单和其主题类别及其地理位置信息相关联地存储到存储器中的工单数据库。
8.根据本技术的第三方面，提供了一种工单分析的方法，包括：从用户接收查询请求，所述查询请求可包括指定的要查询的主题类别信息和地理位置信息中的至少一者；通
过分析所述查询请求，从工单数据库中检索出与所述查询请求相关联的工单作为分析结果；以及将所述分析结果展示给做出请求的所述用户以辅助其进行决策。
9.根据本技术的第四方面，提供了一种计算机系统，包括用于执行如第一方面所述的方法的装置。
10.提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。
附图说明
11.为了描述可获得本发明的上述和其它优点和特征的方式，将通过参考附图中示出的本发明的具体实施例来呈现以上简要描述的本发明的更具体描述。可以理解，这些附图只描绘了本发明的各典型实施例，并且因此不被认为是对其范围的限制，将通过使用附图并利用附加特征和细节来描述和解释本发明，在附图中：
12.图1展示了根据本技术的一个实施例的一种基于工单的热词数据挖掘的方法的示意流程图。
13.图2展示了根据本技术的一个实施例的一种基于图1生成的热词的工单分类的方法的示意流程图。
14.图3展示了根据本技术的一个实施例的一种工单分析的方法的示意流程图。
15.图4以三维热力图形式展示了所属区域中各街道的对应热点问题呈现的严重程度效果示意图。
具体实施方式
16.为了解决现有的工单人工分析费时费力、效率低下的问题，在本公开的方案中利用了大数据热词分析技术，通过对其进行改进使得所述工单分析变得自动化且高效率。
17.所述方案可被用于分析市政工单，例如咨询与投诉工单，找出关注重点相关主题的工单信息，结合工单坐标，将关注重点主题的重点区域识别出来。通过智能热搜词挖掘潜在隐患，找出市民关切的具有共性和倾向性的问题，辅助维护人员合理安排人员，提前排查隐患，对不同的隐患类型分类施策，通过配强人员、备齐物资、保障物业等方式优化管理防控手段，从而，全面提升广大群众的生活质量和幸福指数。
18.现阶段大数据热词分析的实现方法，主要通过统计学习方法进行实现，一般利用词频梯度和平滑方法进行热词的提取。对数据分词后采用梯度和贝叶斯平均(bayesian model averaging，bm)进行热词热度分数的计算，最后，根据分数高低进行热词的选择。
19.但是，根据工单分析的特点，在提取主题关键词数据集时，不仅需要在工单描述文本中根据词频统计形成热词数据集，还需要根据业务需求和事项分类对工单进行标签化处理，形成主要主题数据集。
20.因此，本公开专门根据市民工单的业务背景特点提出了一种基于工单(例如网络工单以及热线工单)的热词数据挖掘分析方法和其配套方案。
21.在开始描述本公开的方案之前，先对所述方案中可能涉及一些重要的技术术语进行下解释，其中：
22.文本分析：
23.文本分析是指对文本的表示及其特征项的选取；文本分析是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化来表示文本信息。文本(text)，与讯息(message)的意义大致相同，指的是由一定的符号或符码组成的信息结构体，这种结构体可采用不同的表现形态，如语言的、文字的、影像的等等。文本是由特定的人制作的，文本的语义不可避免地会反映人的特定立场、观点、价值和利益。因此，通过文本内容分析，可以推断文本提供者的意图和目的。
24.聚类算法：
25.聚类分析又称群分析，它是研究(样品或指标)分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。
26.聚类(cluster)分析是由若干模式(pattern)组成的，通常，模式是一个度量(measurement)的向量，或者是多维空间中的一个点。
27.聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
28.热力图：
29.以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示。热力图可以显示不可点击区域发生的事情。城市热力图这种检测方式一般只提供参考。
30.热搜词云：
31.由美国西北大学新闻学副教授、新媒体专业主任里奇
·
戈登(rich gordon)于2006年最先使用。戈登做过编辑、记者，曾担任迈阿密先驱报(miami herald)新媒体版的主任。他一直很关注网络内容发布的最新形式——即那些只有互联网可以采用而报纸、广播、电视等其它媒体都望尘莫及的传播方式。通常，这些最新的、最适合网络的传播方式，也是最好的传播方式。因此，“词云”就是通过形成“关键词云层”或“关键词渲染”，对网络文本中出现频率较高的“关键词”的视觉上的突出。
32.热词分析：
33.通过数据分析快速识别出现频率突然升高的关键词，找到最热议/最不满的点。
34.贝叶斯平均：
35.贝叶斯平均，也称为贝叶斯模型平均(bayesian model averaging)，是通过后验概率为权重对可能的单项模型进行加权平均，以后验概率大小为标准客观选择解释变量，并通过设置不同的先验概率分布将主观信息与模型和数据信息相融合，进而反映信息更新的动态过程。
36.关键词词袋：
37.词袋模型(bag of words)，是在自然语言处理和信息检索(ir)下被简化的表达模型。在词袋模型下，像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现，这种表现方式不考虑文法以及词的顺序。词袋模型被广泛应用在文件分类，词出现的频率可以用来当作训练分类器的特征。
38.维特比算法：
39.维特比算法(viterbi algorithm)，是一种动态规划算法。它用于寻找最有可能产生观测事件序列的维特比路径——隐含状态序列，特别是在马尔可夫信息源上下文和隐马
尔可夫模型中。
40.本技术提供了一种基于工单的热词数据挖掘分析方案。通过对现有工单的数据进行综合分析，解决了传统技术方法需要大量数据标注的人工成本过高、信息挖掘深度不足及可视化效果不直观等问题。
41.为了实现上述目的，本技术首先提供了一种基于工单的热词数据挖掘的方法，下面结合图1来描述一下所述方法的示例流程。
42.如图1所示，在步骤102处，将来自各个数据源的多个工单进行数据整合。所述工单可以包括来自网络(例如互联网、短信、微信、app等)的工单以及来自热线电话的工单等等。所述数据整合包括：将所述(由于来源不同可能导致格式也不同的)工单进行结构化操作，以生成对应的文本信息，从而方便之后的数据处理。随后，对所述文本信息进行规范化，例如，根据工单的id删除重复的工单，剔除工单中明显重复或无意义的字和符号等等以使得所述文本信息更加规范化。
43.随后，在步骤104处，对整合后的工单数据进行全量工单词频统计及关键词获取。所述步骤包括：先对全量工单的内容进行分词处理，将工单内容切割成一个一个的词，并统计每个词出现的次数，即计算词频。随后，按照词频数量由高到低排序所述词，并将词频高的词作为关键词。目前，已经提供了不少成熟的分词算法，例如，基于词典分词算法、基于理解的分词算法、基于统计的机器学习算法(例如n-gram、hmm、crf、svm、深度学习)等等。因此，在此不再详述分词的过程。
44.进一步地，在步骤106处，根据获得的所述工单关键词，创建主题类别和基础主题关键词词袋。主题是对同一类事件的归纳概括，关键词是针对这类事件的单个词描述，因此，主题可以包含与之相关联的多个关键字，是对其的归纳概括。而所述主题词词袋就是属于该主题的所述关键字(也即与主题具有较高相似度的关键字)的集合。
45.具体而言，首先，由人工定义一组主题词。
46.随后，执行词性标注预处理，即对提取的工单的关键词进行词性类别分类处理，并输出各关键词词向量。其中，词性类别分类处理是指模型会给词标注词性，例如名词、动词、人名、地名、介词、量词、状态词等等，然后可以设置过滤掉一些没有意义的词的规则，比如过滤掉介词，从而实现词的预处理。
47.接着，通过比较所述关键词的词向量与各个预设主题的词向量的相似度，来确认各个主题词词袋内的关键词，其中所述相似度的计算可以采用例如欧几里得距离算法
48.欧几里得距离的原理衡量的是多维空间中各个点之间的绝对距离，即通过将词转化为词向量以后，计算两个词之间的距离，距离越远欧式距离越大说明个体间的差异越大，以此来衡量两个词之间的相似度。其示例公式如下：
[0049][0050]
所述欧几里得距离公式是常用的距离公式，在此，不再详述。
[0051]
利用诸如上述欧几里得距离公式就可以计算出工单关键词与主题词之间的相似度，随后，通过将每个关键词与主题词的相似度按照例如由高到低顺序排序，就可以选择相似度较高的关键词聚合在一起以创建基础主题关键词词袋。
[0052]
例如如果通过所述步骤形成的基础关键词词袋中包含诸如路面积水、台风、积水
等关键词，则可将该基础关键词词袋归集为防台防汛主题，而如果词袋中包含了诸如环境卫生、施工工地等词语，则可将其归集为市容市貌主题，以此类推。类似的主题还可以包括垃圾清理、噪音扰民等等，在此不再累述。
[0053]
所述主题可以作为标签被附加给所述工单，以创建标准化工单数据集合，例如形成包括防台防汛、市容市貌、安全隐患和噪音扰民等主要主题(也称为“热点”或“热词”)的工单数据集，从而方便了之后对具有主题的工单的分类、分析和展示。
[0054]
主题词都是概括性的短语，模型无法自己生成，都是人工定义的。通过大量工单的归纳积累，每个工单基本都会被分到对应主题词。对于分不到主题词的工单，它们会先被统一归纳为
‘
其他’这一类别，然后，在适当的时候可通过对属于
‘
其他’类别的各工单进行人工分析再将它们归纳到新的主题词。这些主题词可以被认为是“热点”或“热词”，而热点事件就是主题词反映的某些事件。例如，“防台防汛”这一热词可能就与诸如台风、汛期、积水、树木倒伏、建筑垮塌等热点事件相关联。因此，利用上述热词数据挖掘方法，可以自动基于对历史工单的大数据分析挖掘出当前热点，从而帮助相关人员尽早发现问题。
[0055]
在一个较佳实施例中，当收集到新工单后，所述方法还可以提供更新操作，所述更新操作就是将新工单的数据经过上述数据整合、词频统计及关键词获取、词性标注预处理以及主题类别与词袋创建来更新所创建的基础主题关键词词袋。
[0056]
举例而言，在定义了“噪音扰民”类型的主题并通过所述热词数据挖掘方法构建出对应的基础主题关键词词袋(该词袋可包括：例如“吵闹”、“睡眠”、“吵醒”、“高音喇叭”、“分贝”、“休息”、“广场舞”、“减噪”、“噪音”、“噪声”等关键词)。当有新的工单输入，则若要更新该词袋，则可以采用同样的方法在提取到该新工单的关键词后，进行主题相关性匹配计算，同样可采用欧几里得距离的方法。例如，新的一批工单中获取到了新的关键词“夜间施工”、“喧哗”等关键词，通过相似性计算它们与“噪音扰民”的主题的相似度较高，则将它们整理到“噪音扰民”主题词词袋内。之后具有这类关键词的工单都会被归纳到该主题中。
[0057]
所述更新操作确保了所述基础主题关键词词袋能够始终被不断更新以适应新工单的归类。
[0058]
在另一个较佳实施例中，作为上述方式的一种改进，所述方法还可以包括：语义前后文关联模型。
[0059]
所述的语义上下文关联模型包括：基于viterbi算法的上下文感知器，用于对上文词、当前词和下文词的词性向量转变概率表示，来得到当前词的词性类别预测。
[0060]
进一步地，依据词性类别相关性和词性类别预测，可对基础主题词词袋当中部分干扰词汇进行排除，以确保所述词袋中关键词分类的准确性。
[0061]
进一步地，对所述基础主题词词袋进行更新还可以在对原有基础主题词词袋进行更新的同时，获取新的主题方向。具体而言，在对基础主题词词袋进行了一段时间的更新操作后，操作者可以人工再去查看一些词袋的内容，从其包含的关键词中可能会发现一些新的主题，由此，创建出新的主题和对应的词袋，使得所述主题分类更加精准。
[0062]
对每个历史工单执行上述方法流程，从而创建完成与主题对应的基础主题词词袋。
[0063]
至此，所述基于工单的热词(主题)数据挖掘的方法结束。根据所述方案可以构建出一组主题和与之相关联的基础主题词词袋，这些主题和词袋有助于后续的基于热词的工
单分类和分析。而且，通过所述热词数据挖掘可以有效地从大量的工单数据中挖掘出工单当中的各热点事件，帮助维护人员及时发现潜在的重大问题。
[0064]
在利用图1所述的热词数据挖掘方法构建了主题和与之相关联的基础主题词词袋之后，在处理之后的工单时，就可以执行如图2中示出的基于图1的热词的工单分类的方法的示意流程。
[0065]
首先，在步骤202，接收到新的工单。
[0066]
在步骤204，对所述工单进行数据整合，将其转换成对应的文本信息并使得其数据更加规范化。
[0067]
在步骤206，从所述文本信息中提取地理位置信息。所述地理位置信息描述了工单中的事件发生的具体位置。
[0068]
其中，所述地理位置信息的提取可包括：
[0069]
1)采用命名实体识别算法对文本信息进行地点信息识别。例如，所述地点信息包括xx区xx街道xx号、南京东路xx号等形式，可以利用模板识别出采用这样的格式的信息作为地点信息。
[0070]
2)随后，采用经纬度坐标转换算法对所识别出的所述地点信息进行转换以将其转换成相对应的地理坐标以方便在地图中进行标识。
[0071]
地理位置信息是工单中比较重要的一项数据，特别是在统计和显示某个特定区域中的工单状况时会经常用到，因此，需要在步骤206中提取出所述地理位置信息并以坐标形式保存起来以供在其后的分析和统计中使用。
[0072]
接着，在步骤208，对所述工单的文本信息进行分词、词频统计及关键词获取，从而获取所述工单的关键词。所述步骤类似于之前图1中所述的104，在此不再详述。
[0073]
在获得了所述工单的关键字之后，在步骤210，通过将所述工单的关键字与各基础主题关键词词袋中的关键字进行匹配，从而确定所述工单所属的主题类别。如前所述，在之前图1的热词数据挖掘方法中，可以基于来自多个数据源的工单构建出一组主题和与之相关联的基础主题关键词词袋。所述基础主题关键词词袋包括了属于该主题的各关键字。因此，通过将从当前的工单中所提取出的关键字(可能不止一个)与各个基础主题关键词词袋中所包括的关键字进行比较，就能根据匹配结果确定所述工单应该被划分到哪个主题类别之下。
[0074]
例如，当在工单中提取出诸如路面积水、台风、积水等关键词之后，在该步骤中就可以自动判别该工单所属的场景类别应该为“防台防汛”主题。
[0075]
最后，在步骤212，将所述工单和其主题类别及其地理位置信息(即地理位置坐标)相关联地存储到存储器中的工单数据库中以供日后进行工单分析汇总。
[0076]
每当系统接收到新的工单时，就可以在派发工单任务的同时执行上述工单分类流程，而不是传统地直接将工单保存起来。这样，由于新接收的工单在经过了工单分类处理之后，具有相应的主题(也称为“热词”或“热点”)和地理位置信息，因此，利用所述主题和地理位置信息可以实现相关主题的工单的快速聚合以及相关区域的工单的快速统计。
[0077]
在完成了图1的所述热词数据挖掘方法构建出对应的基础主题关键词词袋，并使用图2的工单分类方法对新工单进行了分类之后，可以根据图3执行根据本技术的一个实施例的一种工单分析方法。
[0078]
在步骤302，从用户接收查询请求，所述查询请求可包括指定的要查询的主题类别信息和/或地理位置信息。例如，在台风过境期间，防汛人员可以在查询请求中指定要查询的工单类别为“防台防汛”主题，并且如果需要还可以进一步指定希望查看的地理区域范围(例如全市、某个区、某个街道等等)。
[0079]
在步骤304，通过分析所述查询请求，从所述工单数据库中检索出与所述查询请求相关联的工单。例如可以将工单数据库中具有与查询请求中的主题类别信息相匹配的主题的工单查找出来，如果查询请求进一步限定了地理位置信息(例如某个区)，则可以通过将所请求的地理位置信息与所述工单数据库中具有匹配的主题的工单的地理位置信息进行比对来仅输出属于该区的具有匹配的主题的工单作为分析结果。
[0080]
最后，在步骤306，将分析结果展示给做出请求的用户以辅助其进行决策。
[0081]
例如可以利用图形化展示和/或分析报告展示这两种展示方式来向用户显示分析结果。
[0082]
所述图形化展示可用于展示各地区同一主题的工单的热度，其可包括热力图展示、热词展示及热门事件展示等多种图形展示方式。
[0083]
例如，当用户选择“防台防汛”主题和所期望查看的地理位置区域之后，首先执行前述分析步骤以生成包括在地理位置区域内具有该主题的分析结果，随后，在大屏上以图形化表示来从空间维度上展示属于所述主题的工单的地理位置分布，例如在该区域的图形表示中在发生事件的相应地理坐标位置处以醒目红点来标识该工单。在另一些实施例中，在此基础上还可以添加时间维度，即用户可以通过选择不同的时间作为筛选条件，来呈现属于所述主题的工单的地理位置分布数量随时间的变化趋势。
[0084]
上述图形化展示功能可以采用gis技术来实现，所述技术可以包括：三维热力图、平面热力图、全区热力图和街道热力图等等。所述三维热力图用于从三维角度展示涉及例如“防台防汛”主题的工单的各地理位置数量情况；所述平面热力图则用于展示涉及例如“防台防汛”主题的工单在全区的变化辐射范围；而所述全区热力图和街道热力图则用于三维热力图和平面热力图的汇总，从区域角度对区域性涉及例如防台防汛主题的工单进行展示。
[0085]
例如，在图4中，以三维热力图形式展示了所属区域中的各街道对应热点问题呈现的严重程度效果示意图。
[0086]
在该热力图中，通过将大量的热线工单数据进行主题聚类，识别出各街道存在的相关问题，并根据每个区域的工单分布形成热力峰谷图。根据该峰谷图可以发现以南京东路街道和半淞园街道的问题较为突出(因为其处表示工单数量的山峰远高于其他街道)，因此，根据山峰热力呈现的高低直观反映了各街道问题的严重程度。
[0087]
针对热力图所反映出的各街道的问题，系统经过数据分析将问题定位到对应的网格和街道，并给出相应的分析报告和改进建议。
[0088]
而所述分析报告展示可用于展示各地区同一主题的整体情况、频发区域，结合历史处理方案指导各地区进行预警及工单处理工作等信息。
[0089]
在较佳实施例中，除了类别信息和地理位置信息之外，在查询请求中用户还可以指定诸如日期、危害等级(优先级)、完成状态等等其他信息。在处理工单的过程中，这些信息一般都会随工单一起被存储以供今后调阅。因此，所述查询请求也可以利用这些信息来
筛选工单以检索出所需的工单信息。
[0090]
在一个实施例中，本公开还提供了一种工单处理系统，包括用于执行如图1-3中所述的方法中任一方法的装置。
[0091]
根据本公开的方案具有如下优点：
[0092]
1、本发明综合运用分词、词性标注、文本分类等技术，首次提出了一种面向网格工单与热线工单的热点(即主题)事件发现方法，结果表明，该方法可以有效地从大量地工单数据中挖掘出工单当中的各热点事件，有利于辅助指导各地区进行提前排查、主动处置、排除隐患等工作。
[0093]
2、本发明通过优化文本分类词袋技术来不断优化对应事项类别训练词袋预料，解决了手动标注的费时费力、耗费大量人工成本的问题，以及由于标注效果不佳导致的训练效果差等问题。
[0094]
3、本发明提出了一种多角度工单情况展示效果，可以为决策者带来直观、清晰的工单分布情况，快速地发现重点地域，从而进行针对性的分析决策。通过市民满意度山峰图直观进行展示，实现效果：结合地理位置直观展现各区域不同市民关注的重点，方便工作人员通过查看满意度山峰图直观快速发现问题，及时采取措施解决预防这些问题，更好的服务市民，满足市民诉求。
[0095]
虽然以上描述了不同的实施例，但应当理解的是它们只是作为示例而非限制。(诸)相关领域的技术人员将领会，在不偏离如所附权利要求书所定义的本发明的精神和范围的情况下，可以在形式和细节方面进行各种修改。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邬树纯倪莺徐喆张宇扬傅纲李权章杨剑韩学进
技术所有人：上海市黄浦区城市运行管理中心（上海市黄浦区城市网格化综合管理中心、上海市黄浦区大数据中心）
我是此专利的发明人

上一篇：支付通道接入方法、系统、计算机设备及可读存储介质与流程
上一篇：高频封装的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。