一种供电服务工单热点发现方法、系统、装置及存储介质与流程

文档序号:28167130发布日期:2021-12-24 22:48阅读:145来源:国知局
一种供电服务工单热点发现方法、系统、装置及存储介质与流程

1.本发明属于数据处理技术领域,具体涉及一种供电服务工单热点发现方法、系统、装置及存储介质。


背景技术:

2.在电网的客服领域,随着智能客服业务的开展与深化,逐渐积累大量的客服工单数据,这些数据虽然在构建知识库起到了关键作用,但是并没有在在业务优化分析层面发挥价值。
3.客服工单数据是体现用户服务质量和用户行为的重要分析依据,可以来分析业务运营服务质量及优化方向。因此有必要将客户数据和工单数据融合起来,构建标签体系和运营指标体系,来分析营销业务流程与服务质量优化空间与路径,提升位营销业务服务质量、流程优化、提升产品能力。
4.当前供电工单服务热点的预测方法,通过单纯文本分类的模型对工单进行标签分类,需要提前对所有的业务标签进行梳理并且固定下来,但是在实际业务场景中,业务标签体系会随着产品和业务的变化而变化,固定的标签体系不能适应变化的业务场景。


技术实现要素:

5.本发明的目的在于提供一种基于关键短语抽取的供电服务工单热点发现方法、系统、装置及存储介质,以解决现有技术中,单纯依靠传统的文本分类,标签生成解释性差的问题。
6.为实现上述目的,本发明采用如下技术方案:
7.本发明的第一个方面,一种基于关键短语抽取的供电服务工单热点发现方法,包括如下步骤:
8.获取历史工单数据,抽取历史工单数据中的关键短语;
9.通过预设的业务判别二分类模型识别符合业务需求的关键短语,作为符合业务需求的关键标签,利用符合业务需求的关键标签生成标签库;
10.获取线上工单系统的工单,通过预设的业务标签分类模型对工单进行预测,将识别通过的工单打上分类标签并归入标签库,将未识别通过的工单进行关键短语抽取,判断是否符合业务需求,将符合业务需求的关键短语作为符合业务需求的关键标签并归入标签库;
11.获取标签库内的出现频率超过设定值的标签作为服务热点。
12.可选的,所述抽取历史工单数据中的关键短语具体方法如下:
13.对历史工单数据的文本进行分词和词性标注处理,将历史工单数据的文本转化成包含词性信息的词序列;
14.按照固定的词性组合关系对词序列进行抽取,将抽取的词组合片段作为元素加入到候选关键短语集合;
15.使用预训练语言模型计算每个词的向量表示;
16.依据每个词的向量表示,通过句向量模型计算方法,分别获得候选关键短语和单条样本数据的文本的向量表示;
17.计算候选关键短语和单条样本数据的文本的向量表示的余弦距离作为相似度,把相似度排top

n的候选关键短语作为最终的关键短语。
18.可选的,所述业务判别二分类模型的获取方式为:对关键短语进行特征提取,获得关键短语的统计和语义特征;给关键短语分别打上“是/否为业务需求标签”构建训练样本;将提取到的统计和语义特征作为输入训练分类模型。
19.可选的,所述业务标签分类模型的获取方式为:针对标签库内的关键标签构建文本分类标注训练集,使用textcnn算法训练业务标签分类模型。
20.可选的,获取标签库内的出现频率超过设定值的标签作为服务热点,具体包括:按照不同维度对标签库内的标签的进行统计,取出现频率超过设定值的标签作为服务热点并进行可视化呈现。
21.可选的,所述不同维度包括时间区间、部门和区域。
22.可选的,获取标签库内的出现频率超过设定值的标签作为服务热点后,将服务热点进行推送给相关部门业务人员。
23.本发明的第二方面,一种用于基于关键短语抽取的供电服务工单热点发现方法的系统,包括:
24.获取模块,用于获取历史工单数据,抽取历史工单数据中的关键短语;
25.标签库生成模块,用于通过预设的业务判别二分类模型识别符合业务需求的关键短语,作为符合业务需求的关键标签,利用符合业务需求的关键标签生成标签库;
26.识别模块,用于获取线上工单系统的工单,通过预设的业务标签分类模型对工单进行预测,将识别通过的工单打上分类标签并归入标签库,将未识别通过的工单进行关键短语抽取,判断是否符合业务需求,将符合业务需求的关键短语作为符合业务需求的关键标签并归入标签库;
27.统计模块,用于获取标签库内的出现频率超过设定值的标签作为服务热点。
28.本发明的第三方面,一种用于所述基于关键短语抽取的供电服务工单热点发现方法的装置,包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1至7任一项所述的基于关键短语抽取电服务工单热点发现方法。
29.本发明的第四方面,一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现所述的基于关键短语抽取的供电服务工单热点发现方法。
30.本发明的有益效果如下:
31.(1)本发明提供的供电服务工单热点发现方法,基于关键短语抽取,将服务热点发现问题抽象成业务关键短语抽取和文本分类的问题,将服务热点发现划分为业务标签生成、业务标签模型预测和服务热点统计分析三个流程。业务在关键短语抽取流程,采用的sifrank算法实现了高质量的关键短语抽取。提炼出直接有业务指导意义的标签短文本,加快了业务人员进行业务梳理的效率,同时把业务标签的更新控制在较短的周期。并且通过
构建业务标签分类模型,对服务热点发现的数据处理环节构成闭环,最终支撑电力工单热点的精细化分析和管理。具有处理流程解释性强、业务更新迭代快等优点。
32.(2)本发明采用的sifrank算法即为人工智能领域中较新颖且性能优异的算法,克服了传统的关键短语抽取效果机械泛化能力弱的问题。
附图说明
33.构成本技术的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
34.图1为本发明实施例供电服务工单热点发现方法的流程图。
35.图2为本发明实施例中抽取历史工单数据中的关键短语流程图。
具体实施方式
36.下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
37.以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本技术所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
38.如图1所示,本发明实施例的第一方面,一种基于关键短语抽取的供电服务工单热点发现方法,包括如下步骤:
39.步骤1:服务工单业务标签生成,通过关键短语抽取的方法对批量的历史工单数据使用sifrank算法生成候选的关键短语标签,通过训练一个业务判别二分类模型来识别关键短语是否为符合业务需求的关键标签,然后针对过滤后的关键标签进行人工梳理和整合,进行标签入库。具体如下:
40.步骤11:从供电服务工单系统的数据库里面导出全量的历史工单文本数据,为关键短语抽取做数据准备。
41.步骤12:利用历史工单文本数据的样本数据,使用sifrank算法提取出关键短语。
42.如图2所示,sifrank算法提取关键短语的具体流程如下:
43.(1)对样本数据的文本进行分词和词性标注处理,将样本数据的文本转化成包含词性信息的词序列;
44.(2)按照固定的词性组合关系对词序列进行抽取,得到词组合片段,将抽取的词组合片段作为元素加入到候选关键短语集合;
45.(3)使用预训练语言模型计算每个词的向量表示;
46.(4)依据每个词的向量表示,通过句向量模型计算方法,分别获得候选关键短语和单条样本数据的文本的向量表示;
47.(5)计算候选关键短语和单条样本数据的文本的向量表示的余弦距离作为相似度,把相似度排top

n的候选关键短语作为最终的关键短语返回。
48.步骤13:对关键短语进行特征提取,获得关键短语的多个维度的统计和语义特征。关键短语的不同维度的统计和语义特征是作为后续判别的二分类模型的模型输入,包括短
语词频、短语长度、是否包含服务实体信息、首字/尾字是否为停用词和子词词性等信息。
49.作为一种示例,针对关键短语“变压器噪音过大”,会转化成特征表示的键值对“{

短语词频’:100,

短语长度’:7,

是否包含服务实体信息’:1,...}”。
50.步骤14:训练针对关键短语的业务判别二分类模型,通过给关键短语分别打上“是/否为业务需求标签”构建训练样本,使用xgboost算法使用提取到的统计和语义特征作为输入构建分类模型,预测关键短语是否为业务场景需求的关键标签。
51.作为一种示例,xgboost算法输入构建分类模型的流程如下:
52.(1)确定损失函数,泰勒二阶展开,求解最优树权重,继而求出最优树结构和分裂标准函数;
53.(2)按照分裂函数逐步一棵树一棵树去生成,newton法迭代生成子树。
54.(3)将每棵树进行累加,作为最终生成的数(损失最小,达到最优)。
55.xgboost算法根据抽取到的统计和语义特征构建预测模型,识别关键短语是否为业务需求标签。
56.步骤15:对全量的关键短语使用业务判别二分类模型进行预测,预测过程会将关键短语进行特征提取,转化为业务判别二分类模型的输入格式,然后使用模型预测的结果作为处理依据,把命中“业务需求标签”的关键短语过滤出来,作为符合业务场景需求的关键标签。
57.对关键短语进行相似度计算,合并业务编辑距离小于2的标签集合,归一化为单一标签,人工确认后整理到标签库。
58.步骤2:服务工单业务标签模型预测,针对标签库内的关键标签构建文本分类标注训练集,训练业务标签分类模型,对接线上工单系统进行业务标签预测,未能识别的内容归置到业务标签生成流程,否则把工单和识别到的标签进行入库。
59.步骤2具体包括下列步骤:
60.步骤21:获取关键短语和包含关键短语的原始工单文本,未包含标签的工单文本通过采样附上“其他”标签,构建工单文本分类标注数据集;
61.步骤22:使用textcnn算法利用工单文本分类标注数据集训练业务标签分类模型,训练完成获得业务标签分类模型;
62.步骤23:对接线上工单系统,输入工单文本内容,使用业务标签分类模型进行预测,获得预测标签;
63.步骤24:判断预测标签是否为“其他”类标签,如果为“其他”类标签则把工单文本归置到用以进行关键短语抽取的样本库内,用于符合业务需求时,生成关键标签并归入标签库;否则进行下一步骤;
64.步骤25:给工单打上分类标签,把工单和标签信息进行入库;
65.步骤3:服务热点统计分析,按照不同业务维度对业务标签进行统计分析,进行可视化呈现展示服务热点分布,并且进行相关推送提示服务人员作后续的分析处理。
66.步骤3具体包括下列步骤:
67.步骤31:按照时间区间(小时/天/周/月)、部门、区域或者其他维度对工单进行分类标签的统计,获取出现频率超过设定值的标签即为高频标签,作为服务热点进行可视化呈现。
68.步骤32:对服务热点标签进行推送,发送给相关部门业务人员用以分析。
69.经过上述三个步骤的操作流程之后,实现对电力工单服务热点的准确预测发现。
70.本发明的第二方面,一种用于基于关键短语抽取的供电服务工单热点发现方法的系统,包括:
71.获取模块,用于获取历史工单数据,抽取历史工单数据中的关键短语;
72.标签库生成模块,用于通过预设的业务判别二分类模型识别符合业务需求的关键短语,作为符合业务需求的关键标签,利用符合业务需求的关键标签生成标签库;
73.识别模块,用于获取线上工单系统的工单,通过预设的业务标签分类模型对工单进行预测,将识别通过的工单打上分类标签并归入标签库,将未识别通过的工单进行关键短语抽取,判断是否符合业务需求,将符合业务需求的关键短语作为符合业务需求的关键标签并归入标签库;
74.统计模块,用于获取标签库内的出现频率超过设定值的标签作为服务热点。
75.本发明的第三方面,一种用于所述基于关键短语抽取的供电服务工单热点发现方法的装置,包括:存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1至7任一项所述的基于关键短语抽取电服务工单热点发现方法。
76.本发明的第四方面,一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现所述的基于关键短语抽取的供电服务工单热点发现方法。
77.本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
78.本发明是参照根据本发明实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
79.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
80.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
81.由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方
案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1