一种基于微博的新词情感倾向判定方法_2

文档序号:9417343阅读:来源:国知局
明的流程图。
【具体实施方式】
[0045] 实施例1 :如图1所示,一种基于微博的新词情感倾向判定方法,通过中文分词工 具对微博语料进行分词,并以分词结果中的停用词为分割点对分词后的语料进行分块,将 每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值的词串作 为新词候选串;根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取 得新词;再利用知网的情感词典,计算共现词与知网情感词的词语相似度;计算新词与共 现词的相关度;以新词和该新词的共现词为节点,在新词和它的共现词之间建立边,以新词 与共现词的相关度为边的权重,构建图模型;利用标签传播算法得到新词的情感极性分布, 最后通过构建线性分类器得到新词的情感倾向性。
[0046] 所述方法的具体步骤如下:
[0047] St印1、通过中文分词工具对微博语料进行分词;
[0048] Step2、以分词结果中的停用词为分割点对分词后的语料进行分块,并将每个块内 相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值T的词串作为新词 候选串;
[0049] Step3、根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤 取得新词;
[0050] Step4、利用知网的情感词典,计算共现词与知网情感词的词语相似度:
[0051] Step4. 1、找出微博语料中与新词共现的非停用词,作为共现词;
[0052] Step4. 2、利用知网情感词典,计算共现词与知网情感词的词语相似度,表示如 下:
[0053]
[0054] 式中,SinKsi, pj表示共现词Si和知网情感词p 之间的词语相似度,i和j表示 任意的两个词的下标,m和η分别为共现词S1和知网情感词p ,的义项个数表示共现词 S1的第m个义项,0表示知网情感词ρ,的第η个义项,P表示知网情感词的集合;
[0055]
[0056] 式中,《'《(〇&+)表示共现词S1和知网情感词ρ」的义项相似度,n JP η 2分别为 义项^和中的属性个数,为义项定义中不同位置的属性的权重值,1为1到H1 的一个变量,f为1到η2的一个变量,Z和/_/为义项<丨和的义元;
[0057]
[0058] 式中,j表示共现词S1和知网情感词P泗义元相似度,d是0和0/在 层次体系中的路径距离,α是一个可调节的参数;
[0059] Step5、计算新词与新词的共现词的相关度:
[0060]
[0061] 式中,i和j表示任意的两个词的下标,R为自定义的窗口的大小,r为小于等于 R的正数,表示两词在R窗口内的距离,W1 j表示新词V i和新词V i的共现词V j的相关度, Ν(Χ,r, Vj)为:新词Vi和新词V ;的共现词V 在相关文档集合中R窗口内距离为r时的共 现次数(r < R),C(Vl,V]) = R-r+Ι为两词语间的共现强度;
[0062] Step6、以新词和该新词的共现词为节点,在新词和它的共现词之间建立边,以 Step5中的相关度为边的权重,构建图模型;
[0063] Step7、利用词语相似度计算共现词si在y上的极性分布:
[0064]
[0065] 式中,RK为阈值,S1 (y)表示共现词的极性分布,i和j表示任意的两个词的下标, Sim表示词语相似度,为知网情感词中正倾向性的词,为知网情感词中负倾向性的 词,count表示的是词的数量;
[0066] Step8、标签传播算法确定新词情感倾向;
[0067] St印8. 1、得到新词的极性分布,其目标函数如下:
[0068]
[0069]
[0070]
[0071]
[0072] 式中,i和j表示任意的两个词的下标,Q1 (y)表示新词节点V1的极性分布,s i (y) 表示共现词V]的极性分布,γ和λ是自定义参数,Vt表示共现词集合,K(V t)表示共现词 1的K近邻词集合;
[0073] StepS. 2、将得到的新词的极性分布记为Qn,构建线性分类器,得到新词的情感倾 向:当新词的情感倾向为褒义的概率减去为贬义的概率大于阈值RT时,该新词情感倾向为 1,即是褒义词;当新词的情感倾向为褒义的概率减去为贬义的概率的绝对值小于阈值RT 时,该新词情感倾向为〇,即是中性词;当新词的情感倾向为贬义的概率减去为褒义的概率 大于阈值RT时,该新词情感倾向为-1,即是贬义词;
[0074]
τ
[0075] 式中,Qn(y = 1)表示Qn为褒义的概率,Qn(y = -1)表示仏为贬义的概率,RT为 阈值。
[0076] 实施例2 :如图1所示,一种基于微博的新词情感倾向判定方法,通过中文分词工 具对微博语料进行分词,并以分词结果中的停用词为分割点对分词后的语料进行分块,将 每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值的词串作 为新词候选串;根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取 得新词;再利用知网的情感词典,计算共现词与知网情感词的词语相似度;计算新词与共 现词的相关度;以新词和该新词的共现词为节点,在新词和它的共现词之间建立边,以新词 与共现词的相关度为边的权重,构建图模型;利用标签传播算法得到新词的情感极性分布, 最后通过构建线性分类器得到新词的情感倾向性。
[0077] 实施例3 :如图1所示,一种基于微博的新词情感倾向判定方法,通过中文分词工 具对微博语料进行分词,并以分词结果中的停用词为分割点对分词后的语料进行分块,将 每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值的词串作 为新词候选串;根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取 得新词;再利用知网的情感词典,计算共现词与知网情感词的词语相似度;计算新词与共 现词的相关度;以新词和该新词的共现词为节点,在新词和它的共现词之间建立边,以新词 与共现词的相关度为边的权重,构建图模型;利用标签传播算法得到新词的情感极性分布, 最后通过构建线性分类器得到新词的情感倾向性。
[0078] 所述方法的具体步骤如下:
[0079] StepU利用中科院分词工具,对微博语料进行分词,此处输入为1000万条微博语 料,输出为分词后微博语料;
[0080] Step2、得到新词候选串,此处输入为分词后微博语料,输出为新词候选串:
[0081] 以分词结果中的停用词为分割点对分词后的语料进行分块,将每个块内相邻的字 串两两组合(组合情况如表1所示),对组合后的字串频率进行统计,将频率高于阈值T = 8的词串作为新词候选串;
[0082] 表1停用词间的词组合
[0083]
[0084] 表1所示为分词后的语料,将相邻停用词间的字串两两组合的过程。
[0085] Step3、获取新词,此处输入为新词候选串,输出为新词:
[0086] 首先根据汉语言学的成词规则对新词候选串进行过滤,其次利用邻接变化数的规 则对新词候选串进行过滤取得新词,新词的生成过程及数量变化如表2 :
[0087] 表2新词生成过程及数量变化
[0088]
[0089] 表2所示为新词发现过程中每一阶段的词语的数量的变化。
[0090] Step4、利用知网的情感词典,计算共现词与知网情感词的词语相似度:
[0091] Step4. 1、找出微博语料中与新词共现的非停用词,作为共现词;
[0092] Step4. 2、利用知网情感词典,计算共现词与知网情感词的词语相似度,表示如 下:
[0093]
[0094] 式中,SinKsi, pj表示共现词Si和知网情感词p 之间的词语相似度,i和j表示 任意的两个词的下标,m和η分别为共现词S1和知网情感词p ,的义项个数,表示共现词 S1的第m个义项,《f表示知网情感词ρ,的第η个义项,P表示知网情感词的集合;
[0095]
[0096] 式中,《MOf7)表示共现词S1和知网情感词ρ郝义项相似度,n JP η 2分别为 义项4和中的属性个数,为义项定义中不同位置的属性的权重值,1为1到叫 的一个变量,f为1到η2的一个变量,为义项和%^的义元;
[0097] CN 105138510 A 1冗 P月卞> 9/10 页
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1