一种基于Word2Vec网络情感新词发现的文本倾向性分析方法与流程

文档序号:12837107阅读:2120来源:国知局
一种基于Word2Vec网络情感新词发现的文本倾向性分析方法与流程
本发明属于自然语言处理领域,特别是一种基于word2vec网络情感新词发现的文本倾向性分析方法。
背景技术
:基于word2vec网络情感新词发现的文本倾向性分析主要是利用word2vec模型来实现网络情感新词发现,构造较为完备的正负面词典,提高文本倾向性分析的准确性。随着web2.0技术的发展,网络资源与日俱增,越来越多的用户通过博客、评论网站、论坛等发表自己对社会事件、国家政策等的看法,但仅仅通过人工浏览来获取大众态度是一件非常繁琐和困难的事情,因此基于文本倾向性分析的意见挖掘技术应运而生。基于文本倾向性分析的意见挖掘相对于主题挖掘,需要对文本进行一定的智能化理解——倾向性分析,在此基础上提取作者的意见、情感和态度等信息。文本倾向性是用于判断文本信息中包含的情感倾向的一种技术,它可以将文本的情感区别为正面、负面或中立三种极性。例如句子:“我非常高兴见到你。”通过文本倾向性识别技术,可以判断这是一个带有正面倾向的文本。黄萱菁等(2008)将倾向性识别技术分为四个等级:词语倾向性分析、句子倾向性分析、篇章倾向性分析和海量数据的整体倾向性预测[黄萱菁,赵军.中文文本情感倾向性分析。文本倾向性分析一般有两种主流的分析方法:基于机器学习的方法和基于语义的分析方法。邸鹏等(2014)针对转折句式,提出了将词典融入朴素贝叶斯方法中的新的文本倾向性分析方法[邸鹏,李爱萍,段利国.基于转折句式的文本情感倾向性分析[j].计算机工程与技术,2014,35(12):4289-4295.]。韩中元等(2014)将主客观分类与褒贬分类融合,改进了逻辑回归模型,并结合词典分辨文本的情感倾向性[韩中元,杨沐昀,李生,韩咏,孔蕾蕾,徐冰,齐浩亮.一个面向微博的情感倾向性分析模型[j].智能计算机与应用,2014.4(6):57-60.]。基于语义的分析方法意味着分词、语义分析、句法分析等成为研究重点。另一方面,情感词典在基于语义的文本分析方法中具有无法替代的作用,一个拥有准确的情感词语,且包含网络口语化词语的情感词典,可以使分析更加准确。而目前专门发现网络情感词语的研究还不多,运用比较广泛的是《知网》提供的“情感分析用词语集”,它是利用文本文件的形式进行搜索匹配,但这种方式存在大量冗余信息,且缺少口语化的网 络新词,无法准确分辨网友的情感。技术实现要素:本发明所解决的技术问题在于提供一种利用word2vec模型进行网络情感新词发现的文本倾向性分析方法。实现本发明目的的技术解决方案为:一种基于word2vec网络情感新词发现的文本倾向性分析方法,包括以下步骤:第一步,文本预处理,将不同的语料预先进行断句、格式处理、分词和词性标注,根据不同的语料布局,分别设置相应的文本读取方式;第二步,确定句子中字词间的依存关系,使用斯坦福大学的句法分析系统进行句法分析;第三步,词典发现,利用word2vec模型来实现网络情感新词发现从而得到正负面词典,并分别获取程度级别词典、否定词词典和标点符号词典;第四步,分数计算,得到所有需要的词典之后按照抽取出的依存关系,将每个依存关系的主导词和修饰词分数相乘,再将句子中每个依存关系的分数求和,得到每个句子的分数,得到最后的分数score。本发明与现有技术相比,其显著优点为:1)本发明利用google的word2vec算法,对大量经过分词的网络语料进行无监督学习,可以将词语转化为高维词向量;2)通过计算词向量之间的距离,得到与现有情感词极性相同的网络情感新词,再加上经过筛选的“情感分析用词语集”,可形成一部较为完善的情感词典;3)该方法利用神经网络模型,速度快且效果好,为准确分析文本的倾向性打下良好基础。下面结合附图对本发明作进一步详细描述。附图说明图1是本发明的一种基于word2vec网络情感新词发现的文本倾向性分析方法流程图。图2是skip-gram模型示意图。图3是word2vec识别网络情感词结果图。图4是文本倾向性分析系统运行结果图。具体实施方式结合图1,本发明一种基于word2vec网络情感新词发现的文本倾向性分析方法, 包括以下步骤:第一步,对语料进行预处理,将不同的语料预先进行断句、格式处理、分词和词性标注,根据不同的语料布局,分别设置相应的文本读取方式;(1)由于从不同地方获取的语料有其不同的格式和存储方式,有些语料是将所有语料分开储存,每一个语料都存在一个txt文档中,而有些语料是将所有句子全部放置在同一个文档中,利用“<texti>”“</texti>”将语料分开。因此,本方法根据不同的语料布局,分别设置了相应的文本读取方式。(2)使用中科院计算技术研究所研制的汉语词法分析系统(instituteofcomputingtechnology,chineselexicalanalysissystem,ictclas),实现语料的中文分词及词性标注。例如,“诺基亚lumia新款win8系统,用起来很流畅哦,很好用”这句话的分词结果(带词性标注)是:诺基亚/nzlumia/x新款/nwin8/x系统/n,/w用/v起来/v很/d流畅/a哦/o,/w很/d好/a用/v。第二步,确定句子中字词间的依存关系,使用斯坦福大学的句法分析系统进行句法分析;为了找到句子中反应情感的词对,在查找了所有句法分词依存关系后,提取了以下四种典型的依存关系,相应的解释如下:(1)advmod副词性修饰语:副词性修饰语用于改变该副词的强度。例如,“战争原本相当残酷,将战争美化到如同娱乐活动一般,让人反感”的提取结果是advmod(残酷-4,相当-3),表示“相当”作为副词修饰了“残酷”这个形容词。(2)amod形容词修饰语:一个名词词组的形容词修饰语。例如“近来风靡荧屏的抗日题材电视剧,越来越类型化。”的提取结果是:amod(电视剧-7,抗日-5),表示名词性形容词“抗日”修饰了“电视剧”。(3)nsubj名词性主语:用于修饰名词性主语。例如“不一样的抗日神剧,好看!”的提取结果是nsubj(好看-8,剧-6),表示“好看”修饰了名词性主语“剧”。(4)neg否定修饰词:用于否定词及其被否定的词之间。例如“有人说剧情俗套抗日神剧神马的,我倒觉得不错,因为不该死的一个没死,看着不郁闷。”的提取结果是neg(郁闷-28,不-27),表示“不”对“郁闷”进行了否定,将句子的意思反转了。第三步,词典发现,利用word2vec模型来实现网络情感新词发现从而得到正负面词典,并分别获取程度级别词典、否定词词典和标点符号词典;(1)根据《知网》的“《知网》情感分析用词语集”这一基本的词汇来源,将其中的《正面评价词语(中文)》与《正面情感词语(中文)》合并得到正面词词典;同样,《负面评价词语(中文)》加上《负面情感词语(中文)》得到负面词词典;同时,利用word2vec模型来实现网络情感新词的发现;①将语料库中的文本进行分词处理;②将分词处理后得到的词语输入word2vec算法,word2vec中的神经网络模型可以将词语转化为词向量;利用如图2所示的skip-gram模型,该模型的目的是通过该模型训练后,预测概率p(wi|wj),类似n-gram模型,使其预测更符合现实的语言模型。③在《知网》中选择100个典型正面词汇和100个负面词汇;④将③中的200个词语做引子词语导入word2vec系统,word2vec可以提取出这些词的词向量,再在所有的词向量中找出与这200个引子词语向量距离最短的10个近义词。这样就得到2000个可能的网络情感新词,经过剔除一些已知的情感词或不相干的词,最终得到真正的网络情感新词;⑤剔除《知网》中不准确的情感词语,例如《负面情感词语(中文)》中,“说”这个字并不能表达负面的情感却算入负面情感词,就需要删除,以免影响系统准确性,同样的还有“想”、“要”等。将这两部分的词语合起来就得到所需的正负面词典。(2)修饰词是必须要提取出来的要素,利用《知网》的《程度级别词语(中文)》来计算句子中修饰词的程度级别,获取程度级别词典,其中部分程度基本词语举例如表1所示;表1程度级别词语举例(3)获取否定词词典时,由于neg()模式下无法提取否定的程度级别,因此本方法给neg形式都加上两倍的权重,以抵消正面倾向。(4)获取标点符号词典时,将一些常用的标点符号提取出来,构成如表2所示的 标点符号词典。表2标点符号词典标点权重“!!”2“,”、“。”1“。。。”、“···”1/2“?”、“?!”-1/2第四步,分数计算,得到所有需要的词典之后按照抽取出的依存关系,将每个依存关系的主导词和修饰词分数相乘,再将句子中每个依存关系的分数求和,得到每个句子的分数,得到最后的分数score。(1)将抽取的依存关系中的主导词(第一个词)在正面和负面词典中比对,若该主导词出现在正面词词典中则赋值“+1”,若出现在负面词词典中则赋值“-1”,没有出现则赋值为“0”,代表中立。命名为rawscore;(2)将修饰词与程度级别词典和否定词词表比对,相同则赋予相应的权重,分别记为intense;(3)将分词结果与标点符号词表比对,得到punintense;(4)将每个依存关系的主导词和修饰词分数相乘,再将句子中每个依存关系的分数求和,得到每个句子的分数,得到最后的分数score。其中,n是一个评论中的句子数,m是句子中的依存关系数,rawscore是句子中主导词的正负面基本分数(+1、-1或0);intense是第i个句子的修饰词程度权重或否定词权重;punintense是句子中标点的权重。下面结合实验证明本发明提出的基于word2vec的文本倾向性分析在加入了网络情感新词后得到了更好的效果:实验利用第五届中文倾向性分析测评(coae2013,thefifthchineseopinionanalysisevaluation)中任务三[谭松波,王素格,廖祥文,刘康.第五届中文倾向性分析评测(coae2013)大纲[eb/ol].]的微博数据来验证,包括以下内容:1、将1.5g的微博文本输入word2vec模型中,让它利用skipgram的算法进行自主学习,将这1.5g的经过分词的微博文本转化为词向量;2、导入《知网》中100个典型正面词语和100个典型负面词语,利用word2vec发现与输入词最相近的前十名词语,图3为输入已知正面情感词“可爱”时,得到的相似网络情感新词。这样,利用200个已有的正负情感词得到了2000个可能的网络情感词;3、通过人工筛选,剔除已知的情感词和不相关的词语,得到了34个正面&负面网络情感词,然后进行迭代;4、再次输入这34个新得到的网络情感词,这一次得到了85个负面网络情感词和38个正面网络情感词;5、将这总共146个词语加入hownet的情感词典中,再人工删除一些《知网》中没有情感倾向的词语,得到最终的情感词典。将更新和没有更新的情感词典分别输入文本倾向性分析系统中,系统输出结果如图4所示。为了体现出本发明提出的加入网络情感新词的文本倾向性分析方法可以更加有效地识别网络评论的情感态度,本实验将同样的实验语料利用没有经过筛选且不含网络情感新词的情感词典进行文本倾向性分析,即利用《知网》原版的“《知网》情感分析用词语集”进行文本倾向性分析,实验结果如表3。表3是否加入网络情感新词的文本倾向性分析实验对比结果由表3可知,该实验验证了由本发明提出的新情感词典的文本倾向性方法可以得到更好的实验效果,有效提高了文本倾向性分析的准确率。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1