基于词向量模型的95598工单文本挖掘方法和装置与流程

文档序号:14156946阅读:222来源:国知局
本发明涉及工单文本挖掘领域,具体涉及一种基于词向量模型的95598工单文本挖掘方法和装置。
背景技术
:95598客服中心作为电网公司与客户交流的窗口,每天都要处理大量来自客户的诉求,形成大量的工单文本数据。目前,针对电力工单数据的文本挖掘已经取得进展,但在方法上仍有可以改进之处。当前电力工单文本挖掘(textmining)主要有语料分析、文本分类(textclassification)两方面,如客户诉求分析、客户满意度预测,电力标签特征词典、工单自动分类。文本挖掘最基础的环节就是文本表示,电力工单的文本表示多采用lda主题模型进行特征提取。主题模型可以实现有效的降维,发现文档的潜在主题,但是主题模型需要大量的样本进行学习,训练难度大并且非常耗时,影响了分类的效率,而且无法捕捉词与词之间的共现关系。综上所述,现有技术中对于电力工单的文本训练难度大,分类效率低,无法捕捉词与词之间的共现关系的不足,尚缺乏有效的解决方案。技术实现要素:为了克服上述现有技术的不足,本发明提供了一种基于词向量模型的95598工单文本挖掘方法和装置,采用神经网络语言模型进行训练得到词向量,在词向量的基础上进行相应文本挖掘。本发明所采用的技术方案是:一种基于词向量模型的95598工单文本挖掘方法,包括以下步骤:获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;采用word2vec模型对电力工单语料库进行训练,得到词向量;将词向量输入word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;结合电力工单语料库,利用tf-idf方法赋权得到段落向量;将段落向量输入svm分类器进行训练,得到电力工单文本分类模型。进一步的,所述95598工单文本包括故障报修、业务咨询、服务申请、信息查询、意见、投诉、客户催办、综合业务举报、表扬、建议、订阅信息和业扩报装工单文本。进一步的,所述获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库,包括:运用数据采集工具获取用于训练的95598工单文本;结合工单文本相关的词典和jieba分词工具对95598工单文本进行中文文本预处理,得到电力工单语料库。进一步的,所述中文文本预处理包括分词处理和去停用词处理两个过程。进一步的,所述采用word2vec模型对电力工单语料库进行训练,得到词向量,包括:利用word2vec模型对电力工单语料库进行训练,得到模型文件,该模型文件包括电力工单文本词语及其对应的词向量;输出电力工单文本词语及其对应的词向量。进一步的,所述将词向量输入word2vec模型,构建电力工单词典,并调整电力工单语料库中分词,包括:读取模型文件中每一个词和其对应的词向量;将词向量作为word2vec模型的输入,利用word2vec模型附带函数,计算所输入的词向量与其他所有词的余弦相似度;如果两个词的余弦相似度超过阈值,则将该词补充到电力工单词典中;利用电力工单词典中词语来调整电力工单语料库中句子的分词。进一步的,所述结合电力工单语料库,利用tf-idf方法赋权得到段落向量,包括:结合电力工单语料库中语句,根据词频利用tf-idf方法对语句中词向量赋权;将赋权后的词向量相加来构造段落向量,来表示句子特征。进一步的,所述将段落向量输入svm分类器进行训练,得到电力工单文本分类模型,包括:将段落向量进行预处理,根据专家经验添加类别标识,得到作为分类器输入的向量集合;从向量集合中选取一定量的数据作为训练集合,一定量的数据作为测试集合;利用libsvm工具构建训练工单文本分类器;将训练集合数据输入训练工单文本分类器进行训练,得到工单文本分类模型;将测试集合数据输入训练工单文本分类器,验证工单文本分类模型分类的精度,并进行交叉验证,调整工单文本分类模型参数,得到高精度的工单文本分类模型。一种计算机装置,用于95598工单文本挖掘,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;采用word2vec模型对电力工单语料库进行训练,得到词向量;将词向量输入word2vec模型,构建电力工单词典,并调整电力工单语料库分词;结合电力工单语料库,利用tf-idf方法赋权得到段落向量;将段落向量输入svm分类模型进行训练,得到电力工单文本分类模型。一种计算机可读存储介质,其上存储有用于95598工单文本挖掘的计算机程序,该程序被处理器执行时实现以下步骤:获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;采用word2vec模型对电力工单语料库进行训练,得到词向量;将词向量输入word2vec模型,构建电力工单词典,并调整电力工单语料库分词;结合电力工单语料库,利用tf-idf方法赋权得到段落向量;将段落向量输入svm分类模型进行训练,得到电力工单文本分类模型。与现有技术相比,本发明的有益效果是:(1)本发明结合电力工单特点,通过分析电力工单文本挖掘的现状,运用神经网络语言模型对工单文本进行训练,形成词向量;在词向量的基础上,作为其他模型的输入,实现进一步的文本挖掘分析,能够帮助客服人员了解客户诉求,提供更优质便捷的服务;(2)本发明通过词向量找寻与已有词汇相似的词补充加入到电力工单词典中,不断丰富词典内容;利用电力工单语料库,利用tf-idf方法赋权得到段落向量段落向量,将段落向量作为svm多分类的输入进行训练分类,构建分类模型,提高了分类模型的精度,满足实际分类需要。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1是本发明实施例公开的基于词向量模型的95598工单文本挖掘方法流程图;图2a是本发明实施例公开的cbow结构图;图2b是本发明实施例公开的skip-gram结构图;图3是本发明实施例公开的训练生成95598工单文本的词向量流程图;图4是本发明实施例公开的词向量结构图。具体实施方式应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
技术领域
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。实施例一如图1所示,本实施例提供了一种基于词向量模型的95598工单文本挖掘方法,包括以下步骤:步骤101:对95598工单文本进行预处理,训练生成95598工单文本的词向量词向量(wordembedding)将每个词映射成一个固定长度的短向量,既能够降低维度,又能够把词与上下文的联系体现出来。词向量可以通过神经网络训练语言模型可以得到。神经网络语言模型(nnlm)由bengio等人于2001年正式提出,2013年,mikolov等人提出了cbow(continuousbagof-words)和skip-gram模型,其中,cbow和skip-gram结构图如图2a和图2b所示。cbow的优化目标是:给定词序列w1,w2,w3,…,wt,最大化下式,其中,p(wt|wt-c,…wt-1.wt+1,…,wt+c)采用log-linear(softmax)模型用于正确分类当前词,通过用t-n+1…t-1,t+1,…t+n-1的word作为输入,目标是正确分类得到第t个word。而skip-gram模型相反,通过输入为当前word,经过projection的特征提取去预测该word周围的c个词,给定词序列w1,w2,w3,…,wt,最大化下式,其中,c是上下文的大小,p(wt+j|wt)采用softmax方程,vw和vtw为对应的输入和输出词向量。本发明使用的word2vec便由google公司依据这两种模型实现,在输出层采用huffman编码计算层次softmax,具有模型简单、训练速度快的特点。对电力工单进行文本挖掘,属于特定领域挖掘,没有现成的词向量,因此首先是要训练生成95598工单文本的词向量。本发明使用word2vec模型进行训练,主要流程如3图所示。训练生成95598工单文本的词向量具体过程为:在进行模型训练之前,需要对工单文本进行预处理,主要包含工单文本收集、文本分词和电力工单语料库处理。步骤101-1:95598工单文本收集,获取95598工单文本目前营销系统内95598工单主要被分为故障报修、业务咨询、服务申请、投诉举报等12大类,每一大类又有二级子类、三级子类。运用数据采集工具获取用于训练的获取95598工单文本,2016年8月至2017年8月95598工单统计如表1所示:表1某省2016年8月至2017年8月投诉工单分布统计表业务类型本期数比例(%)故障报修41868453.43业务咨询16747221.37服务申请9874812.6信息查询425845.43意见357484.56投诉138241.76客户催办28510.36综合业务22280.28举报10360.13表扬4020.05建议570.01订阅信息190业扩报装20其中,故障报修、业务咨询、服务申请三类工单占87%。将工单受理内容整理到文本中,每一行代表一个工单。工单受理内容主要形式是“问题总结+描述”,例如“【电能表异常】客户来电反映,户号为06157*****的电能表异常显示;现申请对电表进行现场检查,请相关工作人员核实处理”,是大类为“服务申请”类型的工单受理内容。因此下一步进行分词,需要考虑去除停用词以及电力领域自身特点。步骤101-2:对95598工单文本进行分词处理,得到电力工单语料库文本分词属于特殊领域的分词,采用jieba分词对文本工单句子进行分词,得到电力工单语料库。在分词时需要结合电力领域词典取得更好效果,同时工单受理内容存有大量无用信息,可利用停用词进行处理。因此,结合工单文本相关的词典和jieba分词工具对95598工单文本进行分词处理和去停用词处理,得到电力工单语料库。如步骤101-1中提到的工单文本内容直接用jieba分词后根据词性以及停用词处理后如下“电能表异常客户来电反映户号电能表异常显示申请电表进行现场检查相关工作人员核实处理”,如“现场检查”属于电力领域的特殊词汇可以通过加入电力特征词典进行处理。前期我们通过专家经验初步形成一个简单词典但并不完善,而word2vec最大的特点恰好就是对于词性的判断,在词向量完成训练的同时可以根据结果不断对电力工单特征词典的进行补充。步骤101-3:采用word2vec模型对电力工单语料库进行训练,得到词向量将经过分词处理的电力工单语料库利用python工具包gensim中的word2vec模型进行训练,word2vec主要参数如下:表2参数表参数解释sg设置训练算法size特征向量的维度window最大距离alpha学习速率seed随机数发生器min_count字典做截断,词频小于不计算hs:采用hierarchica·softmax技巧negativenegativesamping模型训练完成后,得到vectors.bin这个模型文件。vectors.bin这个文件包括文档中电力工单文本词语和其对应的词向量,词向量维度是之前设置的,本实施例中设置为50维,结果如图4所示。步骤102:利用词向量构建电力工单词典和电力工单文本分类模型在词向量的基础上结合其他方法,进行进一步的文本挖掘,可以应用到电力领域工单词典构建,也可以作为svm等分类器的输出对电力工单文本进行分类。步骤102-1:构建电力工单词典电力领域工单词典前期通过专家经验总结产生,后面可以通过词向量找寻与已有词汇相似的词补充加入到电力工单词典中,不断丰富词典内容。word2vec本身提供distance的应用,首先,读取模型文件中每一个词和其对应的向量,将词向量作为word2vec模型的输入,使用word2vec模型附带函数,计算所输入的词向量与其他所有词的余弦相似度,如果两个词的余弦相似度超过阈值,则将该词补充到电力工单词典中,同时利用电力工单词典中词语来调整电力工单语料库中句子的分词。步骤102-2:构建电力工单文本分类模型电力文本工单分类,属于监督学习。根据之前人工分类结果作为依据,构建分类模型。因为文本工单分类需以语句为最小单位作为输入,所以采用根据词频进行赋权对语句中词向量相加,来表示句子,构造输入向量,保证向量维度,再结合svm进行构建多分类文本模型。但是这样做忽略了单词之间的排列顺序即上下文的影响,在文本短时有不错效果。为处理可变长度文本的总结性方法,quocle和tomasmikolov提出了doc2vec方法。除了增加一个段落向量以外,这个方法几乎等同于word2vec。因此,构建电力工单文本分类模型的具体过程为:(1)结合电力工单语料库,利用tf-idf方法赋权得到段落向量结合电力工单语料库中语句,根据词频利用tf-idf方法对语句中词向量赋权;将赋权后的词向量相加来构造段落向量,来表示句子特征,保证向量维度。(2)将段落向量输入svm分类器进行训练,得到电力工单文本分类模型将段落向量进行预处理,根据专家经验添加类别标识,得到作为分类器输入的向量集合;从向量集合中选取一定量的数据作为训练集合,一定量的数据作为测试集合;利用libsvm工具构建训练工单文本分类器;将训练集合数据输入训练工单文本分类器进行训练,得到工单文本分类模型;将测试集合数据输入训练工单文本分类器,验证工单文本分类模型分类的精度,并进行交叉验证,调整工单文本分类模型参数,得到高精度的工单文本分类模型,使分类模型的精度满足实际分类需要。本发明提出的基于词向量模型的95598工单文本挖掘方法,采用神经网络语言模型对电力工单文本训练,形成电力词向量,并在电力词向量的基础上进行更多进一步的文本挖掘的过程,丰富电力文本挖掘分析的方法。本发明结合电力工单特点,通过分析电力工单文本挖掘的现状,运用神经网络语言模型对工单文本进行训练,形成词向量;在词向量的基础上,作为其他模型的输入,实现进一步的文本挖掘分析,能够帮助客服人员了解客户诉求,提供更优质便捷的服务;本发明还通过词向量找寻与已有词汇相似的词补充加入到电力工单词典中,不断丰富词典内容;利用电力工单语料库,利用tf-idf方法赋权得到段落向量段落向量,将段落向量作为svm多分类的输入进行训练分类,构建分类模型,提高了分类模型的精度,满足实际分类需要。实施例二本实施例的目的是提供一种计算机装置,用于95598工单文本挖掘,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;采用word2vec模型对电力工单语料库进行训练,得到词向量;将词向量输入word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;结合电力工单语料库,利用tf-idf方法赋权得到段落向量;将段落向量输入svm分类器进行训练,得到电力工单文本分类模型。实施例三本实施例的目的是提供一种计算机可读存储介质,其上存储有用于95598工单文本挖掘的计算机程序,该程序被处理器执行时实现以下步骤:获取95598工单文本,并对95598工单文本进行分词处理,得到电力工单语料库;采用word2vec模型对电力工单语料库进行训练,得到词向量;将词向量输入word2vec模型,构建电力工单词典,并调整电力工单语料库中分词;结合电力工单语料库,利用tf-idf方法赋权得到段落向量;将段落向量输入svm分类器进行训练,得到电力工单文本分类模型。上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1