一种电力营销服务热点95598工单自动分类方法与流程

文档序号:14720474发布日期:2018-06-17 13:22阅读:1550来源:国知局
本发明涉及一种电力营销服务热点95598工单自动分类方法,具体涉及一种基于TF-IDF算法的电力营销服务热点95598工单自动分类方法,属于信息收集、信息过滤、信息分类等
技术领域

背景技术
:随着计算机技术的应用普及,大量的文字信息开始以计算机可读写的形式存在,由此计算机自动文本分类技术应运而生。当前常用的文本分类方法主要有:决策树分类法、基于支持向量机方法(SVM法)、朴素的贝叶斯分类法、K-最近邻法(KNN)、神经网络法、模糊分类法、Rocchio分类方法和Boosting算法等。文本分类技术被广泛利用在文档索引建立、不良信息检测、主题识别、自动文摘、智能信息检索等各个研究领域。其中将文本信息转化为可计算的数值信息的方法是向量空间模型,效果最好的为支持向量机方法,建立特征向量的最常用方法是TF-IDF(TF:TermFrequency,IDF:InverseDocumentFrequency)方法,以及在其基础进行的各种改进计算方法。但TF-IDF算法以及不少改进后的TF-IDF算法,常将各个词语分量视为静态的特征项,忽略了部分短文本信息以及特征项增减变动对分类准确性的影响,无法满足对电力营销服务热点95598工单的分类要求。技术实现要素:为了解决上述技术问题,本发明提供了一种电力营销服务热点95598工单自动分类方法。为了达到上述目的,本发明所采用的技术方案是:一种电力营销服务热点95598工单自动分类方法,包括以下步骤,步骤一,从国网业务支持系统中获取95598工单受理内容;步骤二,利用人工智能语义分析技术,对95598工单受理内容进行分词,结合电力营销服务热点的特点,形成电力营销专业词库和同义词库;步骤三,采用增量-归一化TF-IDF模型对分词结果进行文本表示;t时刻文本k中某词汇x的TF-IDF值为:TF-IDFx,k,t=TFx,k×logNt-1+Nc,tDFx,t-1+DFx,(c,t)Σx=1nk,i(TFx,k×logNt-1+Nc,tDFx,t-1+DFx,(c,t))2]]>其中,TF-IDFx,k,t为t时刻文本k中某词汇x的TF-IDF值,TFx,k表示在文本k中词汇x的词频,Nt-1表示t-1时刻的文本总量,Nc,t表示t时刻增加的文本量,DFx,t-1表示t-1时刻的词汇x在总文本中的出现的频率,DFx,(c,t)表示在t时刻词汇x文本频率总增加量,nk,t为t时刻文本k中的词汇总量;步骤四,根据词汇频率与业务相结合的算法,选取最能代表服务热点特征的特征词;步骤五,利用95598工单的特点,形成对海量95598工单的预处理规则,并对海量95598工单进行预处理,采用向下随机取样方法,从预处理后的95598工单中随机筛选若干条95598工单形成训练集进行人工判断;步骤六,利用训练集,对比多种文本分类算法,选择分类效果最好的算法,构建分类器模型;步骤七,利用分类器模型,对海量95598工单按服务热点进行分类。对95598工单受理内容进行分词后,对词汇进行降维处理。分类效果最好的算法为决策树分类算法,构建决策树模型的过程为,A1)定义训练集S;在S所有描述属性A1,A2,…,Am上递归地建立决策树,即将S作为根节点;A2)若S中的样本属于同一类,则将S作为叶节点并用其中的类别标识,决策树建立完成,计算终止;A3)否则在S上计算类别属性C的信息增益G(C,Ai),选择信息增益最大的Ai作为根节点的测试属性,i∈[1,m]且为正整数;A4)若Ai的取值的个数为V,即取值为a1,a2,…,aV,则Ai将S划分为V个子集S1,S2,…,SV,同时根节点产生V个分支与之对应,其中,Sj为S中Ai=aj的样本集合;A5)分别在S1,S2,…,SV、剩余描述属性A1,…,Ai-1,Ai+1,…,Am上采用相同方法建立决策树。本发明所达到的有益效果:本发明在TF-IDF方法中引入了“增量”和“归一化”概念,把“增量”和“归一化”作为一个变量考虑在特征向量权重的计算过程中,在此基础上针对电力营销服务热点95598工单进行特征选择,并以服务热点为基点形成训练集,再对比多种文本挖掘和分类算法,选择分类效果最佳的算法,形成分类器模型,并对95598工单进行分类处理,能够及时挖掘出电力营销的服务热点事件,支撑电力营销的精益化管理。附图说明图1为本发明的流程图。图2为不同分类算法增益曲线对比。具体实施方式下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。如图1所示,一种电力营销服务热点95598工单自动分类方法,包括以下步骤:步骤一,从国网业务支持系统中获取95598工单受理内容。步骤二,利用人工智能语义分析技术,对95598工单受理内容进行分词,结合电力营销服务热点的特点,形成电力营销专业词库和同义词库。具体过程如下:1、利用人工智能语义分析技术,对95598工单受理内容依自然语言进行分词;2、对分词后的词汇进行降维处理;降维处理过程为,(21)通过分词的词性判定,排除部分没有实际意义的人名、地名、单个汉字、英文、数字等等,仅保留名词和动词;(22)根据词频情况筛除部分高频无意义词汇以及低频无意义词汇;3、结合电力营销服务热点的特点,从分词结果中选择专业词,并筛选不同表述的同义词,形成电力营销专业词库和同义词库。步骤三,采用增量-归一化TF-IDF模型对分词结果进行文本表示。t时刻文本k中某词汇x的TF-IDF值为:TF-IDFx,k,t=TFx,k×logNt-1+Nc,tDFx,t-1+DFx,(c,t)Σx=1nk,i(TFx,k×logNt-1+Nc,tDFx,t-1+DFx,(c,t))2]]>其中,TF-IDFx,k,t为t时刻文本k中某词汇x的TF-IDF值,TFx,k表示在文本k中词汇x的词频,Nt-1表示t-1时刻的文本总量,Nc,t表示t时刻增加的文本量,DFx,t-1表示t-1时刻的词汇x在总文本中的出现的频率,DFx,(c,t)表示在t时刻词汇x文本频率总增加量,nk,t为t时刻文本k中的词汇总量。步骤四,根据词汇频率与业务相结合的算法,选取最能代表服务热点特征的特征词。步骤五,利用95598工单的特点,形成对海量95598工单的预处理规则,并对海量95598工单进行预处理,采用向下随机取样方法,从预处理后的95598工单中随机筛选若干条95598工单形成训练集进行人工判断。步骤六,利用训练集,对比多种文本分类算法,选择分类效果最好的算法,构建分类器模型。分类效果最好的算法为决策树分类算法,构建决策树模型的过程为,A1)定义训练集S;在S所有描述属性A1,A2,…,Am上递归地建立决策树,即将S作为根节点;A2)若S中的样本属于同一类,则将S作为叶节点并用其中的类别标识,决策树建立完成,计算终止;A3)否则在S上计算类别属性C的信息增益G(C,Ai),选择信息增益最大的Ai作为根节点的测试属性,i∈[1,m]且为正整数;A4)若Ai的取值的个数为V,即取值为a1,a2,…,aV,则Ai将S划分为V个子集S1,S2,…,SV,同时根节点产生V个分支与之对应,其中,Sj为S中Ai=aj的样本集合;A5)分别在S1,S2,…,SV、剩余描述属性A1,…,Ai-1,Ai+1,…,Am上采用相同方法建立决策树。步骤七,利用分类器模型,对海量95598工单按服务热点进行分类。下面用具体实例进一步说明该方法。对2013年1月-2015年8月某省公司的95598工单进行分类,找出电力营销服务热点“串户”的95598工单。步骤(1)从国网业务支持系统中获取所选时间长度的95598工单,共计1238万张。步骤(2)采用R中文分词方法对95598工单文本进行分词,分词后得到52186个词汇,如表一。表一分词结果统计总工单量不同词汇数量平均包含词汇个数12375270521867.65对工单进行分词后得到5万多个词汇,若直接使用会存在空间维数高等问题,因此需要进行降维处理。步骤(3)在充分考虑工单文本内容长度以及新增工单对文本量化的影响的基础上,采用增量-归一化TF-IDF模型对文本进行量化,并结合向量空间模型进行文本表示,如表二。表二文本表示示例步骤(4)找出能代表服务热点的特征词,从词汇词义、词频和权重出发,选取最能代表热点特征的代表词汇作为特征词。“串户”服务热点特征词如表三。表三特征词和词频特征词词频电费1433377串户9783装错9554电量异常8549表计线路接错6247抄表数据异常2601装表接电2040……步骤(5)利用95598工单的特点,对海量95598工单进行预处理,从预处理后的工单中随机筛选出10000张工单,从受理内容上人工判定是否属于“串户”服务热点。步骤(6)以确定的训练集,利用决策树、SVM、贝叶斯分类、C&R树以及QUEST树分类算法,结合“串户”服务热点特征词,并对比其分类效果,选择效果最好的分类算法建立分类器模型。定义准确率R′和遗漏率L来判定分类效果的优劣,相关数据见表四,表四列联表人工判定是人工判定不是机器判定是ab机器判定不是cdR′=a+da+b+c+d]]>L=ca+b]]>结合多种分类算法,对训练集工单进行分类,用上述分类评估方法分析分类效果,具体如图2和表五所示,表五不同分类算法分类效果对比分类算法总体准确率R′总体遗漏率LC5树96.40%7.00%SVM96.00%7.40%贝叶斯分类94.20%11.10%C&R树93.60%5.50%QUEST树91.50%20.40%选择其中分类效果最好的分类算法(C5树)来建立“串户”热点事件的分类器模型。步骤(7)对1238万张95598工单进行分类,得到59132张疑似“串户”工单。上述方法在TF-IDF方法中引入了“增量”和“归一化”概念,把“增量”和“归一化”作为一个变量考虑在特征向量权重的计算过程中,在此基础上针对电力营销服务热点95598工单进行特征选择,并以服务热点为基点形成训练集,再对比多种文本挖掘和分类算法,选择分类效果最佳的算法,形成分类器模型,并对95598工单进行分类处理,能够及时挖掘出电力营销的服务热点事件,支撑电力营销的精益化管理。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1