一种基于微博的新词情感倾向判定方法

文档序号:9417343阅读:530来源:国知局
一种基于微博的新词情感倾向判定方法
【技术领域】
[0001] 本发明涉及一种基于微博的新词情感倾向判定方法,属于自然语言处理领域。
【背景技术】
[0002] 大量的情感新词在微博中涌现,这些新词的出现在人们的日常交流中起着重要的 作用,能够更丰富全面的表达人们的观点及情感,同时也是社会趋势与新闻事件的折射。在 自然语言处理过程中,情感新词识别一直是一个难点问题,其在中文分词、信息检索、问答 系统等方面都有着非常重要的应用。
[0003] 目前的词汇情感极性识别方法,首先选取具有强烈情感倾向的词语作为基准词, 然后通过计算与基准词之间的关联强度来确定目标词的情感极性。Turney P D.等人使用 PMI-IR方法,利用点互信息表示目标词与基准词之间的关联强度,求出目标词的情感极性; 王素格等人使用PMI方法,分别计算词语及其同义词与褒贬基准词集的关联强度,然后根 据关联强度的不同判断词语的情感极性。李钝等人认为共现的词汇具有相同的情感极性。 利用HowNet中的"良"、"莠"极性义原,计算词语与基准词意项之间的极性相似度,从而计 算出词语极性值。姚天昉,万常选等在计算词语关联强度时引入了链接词(而且、但是等), 并利用词语在上下文中的词性和句法结构信息,计算了词语的动态(修饰)极性。提高了 情感极性计算的准确性。
[0004] 对于新词的情感极性识别,一方面新词缺乏词性、语义方面的先验知识,无法直接 利用知网等外部资源对新词的情感极性做出判断;另一方面由于新词和基准词的数量都相 对有限,仅仅计算与基准词的相关度,会出现严重的数据稀疏问题。本发明提出的基于微 博语料的情感新词极性识别方法在计算新词情感极性时,不仅考虑了与新词相关联的基准 词,而且考虑了具有情感倾向的非基准词以及其他新词,对新词情感极性识别的影响。

【发明内容】

[0005] 本发明提供了一种基于微博的新词情感倾向判定方法,可解决现有情况下微博语 料中的情感新词无法自动识别的问题。
[0006] 本发明的技术方案是:一种基于微博的新词情感倾向判定方法,通过中文分词工 具对微博语料进行分词,并以分词结果中的停用词为分割点对分词后的语料进行分块,将 每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值的词串作 为新词候选串;根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取 得新词;再利用知网的情感词典,计算共现词与知网情感词的词语相似度;计算新词与共 现词的相关度;以新词和该新词的共现词为节点,在新词和它的共现词之间建立边,以新词 与共现词的相关度为边的权重,构建图模型;利用标签传播算法得到新词的情感极性分布, 最后通过构建线性分类器得到新词的情感倾向性。
[0007] 所述方法的具体步骤如下:
[0008] St印1、通过中文分词工具对微博语料进行分词;
[0009] Step2、以分词结果中的停用词为分割点对分词后的语料进行分块,并将每个块内 相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值T的词串作为新词 候选串;
[0010] Step3、根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤 取得新词;
[0011] Step4、利用知网的情感词典,计算共现词与知网情感词的词语相似度:
[0012] Step4. 1、找出微博语料中与新词共现的非停用词,作为共现词;
[0013] Step4. 2、利用知网情感词典,计算共现词与知网情感词的词语相似度,表示如 下:
[0014]
[0015] 式中,SinKsi, pj表示共现词Si和知网情感词p 之间的词语相似度,i和j表示 任意的两个词的下标,m和η分别为共现词S1和知网情感词p ,的义项个数,《I表示共现词 S1的第m个义项,?表示知网情感词ρ,的第η个义项,P表示知网情感词的集合;
[0016]
[0017] 式中,油KwKy)表示共现词S1和知网情感词ρ」的义项相似度,n JP η 2分别为 义项和中的属性个数,为义项定义中不同位置的属性的权重值,1为1到Ii1 的一个变量,f为1到η2的一个变量,#和为义项《$和《5的义元;
[0018]
[0019] 式中,.ν/_,吩',q表示共现词S1和知网情感词ρ涧义元相似度,d是#和,在 层次体系中的路径距离,α是一个可调节的参数;
[0020] Step5、计算新词与新词的共现词的相关度:
[0021]
[0022] 式中,i和j表示任意的两个词的下标,R为自定义的窗口的大小,r为小于等于 R的正数,表示两词在R窗口内的距离,W1 j表示新词v i和新词v i的共现词v j的相关度, Ν(Χ,r, Vj)为:新词Vi和新词V ;的共现词.V .在相关文档集合中R窗口内距离为r时的 共现次数(r < R),C(Vl,V]) = R-r+Ι为两词语间的共现强度;
[0023] Step6、以新词和该新词的共现词为节点,在新词和它的共现词之间建立边,以 Step5中的相关度为边的权重,构建图模型;
[0024] Step7、利用词语相似度计算共现词8;在y上的极性分布:
[0025]
[0026] 式中,RK为阈值,S1 (y)表示共现词的极性分布,i和j表示任意的两个词的下标, Sim表示词语相似度,为知网情感词中正倾向性的词,为知网情感词中负倾向性的 词,count表示的是词的数量;
[0027] Step8、标签传播算法确定新词情感倾向;
[0028] St印8. 1、得到新词的极性分布,其目标函数如下:
[0029] 在新词的极性识别中,认为词语之间的相关度越高,它们之间的极性分布就越相 似。基于以上思想,建立如下目标函数。使得目标函数C最小,进而取得新词节点V 1的极 性分布。
[0030]
[0031] 其中:
[0032]
[0033]
[0034] 式中,i和j表示任意的两个词的下标,qi (y)表示新词节点V1的极性分布,s i (y) 表示共现词v]的极性分布,γ和λ是自定义参数,Vt表示共现词集合,K(V t)表示共现词 1的κ近邻词集合;
[0035] steps. 2、将得到的新词的极性分布记为Qn,构建线性分类器,得到新词的情感倾 向:当新词的情感倾向为褒义的概率减去为贬义的概率大于阈值RT时,该新词情感倾向为 1,即是褒义词;当新词的情感倾向为褒义的概率减去为贬义的概率的绝对值小于阈值RT 时,该新词情感倾向为〇,即是中性词;当新词的情感倾向为贬义的概率减去为褒义的概率 大于阈值RT时,该新词情感倾向为-1,即是贬义词; CN 105138510 A VL 4/1U 贝
[0036]
[0037] 式中,Qn(y = I)表示Qn为褒义的概率,Qn(y = -I)表示仏为贬义的概率,RT为 阈值。
[0038] 本发明的工作原理是:
[0039] 步骤01)首先获得微博新词:
[0040] 通过中文分词工具对微博语料进行分词。以分词结果中的停用词为分割点对分词 后的语料进行分块,将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频 率高于阈值的词串作为新词候选串。根据汉语言学的成词规则以及邻接变化数的规则对新 词候选串进行过滤取得新词;
[0041] 步骤02)抽取知网的情感词,找出微博语料中与新词共现的词语。通过这些词与 知网情感词的义原的相似度计算它们的义项的相似度,进而根据义项的相似度得到词语的 相似度。计算共现词极性的概率分布,选择具有强烈情感倾向的共现词和新词作为节点,根 据词语与共现词以及与其他新词之间的共现强度计算节点之间的相关度,作为节点之间边 的权重,构建图模型;
[0042] 步骤03)采用标签传播的方法,将已知的情感极性分布,传递到与其相关度强的 新词,对未知的新词极性分布进行计算。根据新词在褒贬极性空间上的分布,构建线性分类 器,对新词的情感极性进行识别。
[0043] 本发明的有益效果是:大量的新词伴随着微博的快速发展而出现,对这些新词的 情感倾向性的判定不仅能使博主很好的表达自己的观点,而且能让用户准确的把握博主情 感倾向。同时,及时判定这些新词的情感倾向,对中文信息处理中的分词处理、舆情分析等 有着非常重要的意义。
【附图说明】
[0044] 图1为本发
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1