一种基于微博的新词情感倾向判定方法_2

文档序号：9417343阅读：来源：国知局

明的流程图。
【具体实施方式】
[0045] 实施例1 :如图1所示，一种基于微博的新词情感倾向判定方法，通过中文分词工具对微博语料进行分词，并以分词结果中的停用词为分割点对分词后的语料进行分块，将每个块内相邻的字串两两组合，对组合后的字串频率进行统计，将频率高于阈值的词串作为新词候选串；根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词；再利用知网的情感词典，计算共现词与知网情感词的词语相似度；计算新词与共现词的相关度；以新词和该新词的共现词为节点，在新词和它的共现词之间建立边，以新词与共现词的相关度为边的权重，构建图模型；利用标签传播算法得到新词的情感极性分布，最后通过构建线性分类器得到新词的情感倾向性。
[0046] 所述方法的具体步骤如下：
[0047] St印1、通过中文分词工具对微博语料进行分词；
[0048] Step2、以分词结果中的停用词为分割点对分词后的语料进行分块，并将每个块内相邻的字串两两组合，对组合后的字串频率进行统计，将频率高于阈值T的词串作为新词候选串；
[0049] Step3、根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词；
[0050] Step4、利用知网的情感词典，计算共现词与知网情感词的词语相似度：
[0051] Step4. 1、找出微博语料中与新词共现的非停用词，作为共现词；
[0052] Step4. 2、利用知网情感词典，计算共现词与知网情感词的词语相似度，表示如下：
[0053]
[0054] 式中，SinKsi, pj表示共现词Si和知网情感词p 之间的词语相似度，i和j表示任意的两个词的下标，m和η分别为共现词S1和知网情感词p ,的义项个数表示共现词 S1的第m个义项，0表示知网情感词ρ,的第η个义项，P表示知网情感词的集合；
[0055]
[0056] 式中，《'《(〇&+)表示共现词S1和知网情感词ρ」的义项相似度，n JP η 2分别为义项^和中的属性个数，为义项定义中不同位置的属性的权重值，1为1到H1 的一个变量，f为1到η2的一个变量，Z和/_/为义项<丨和的义元；
[0057]
[0058] 式中，j表示共现词S1和知网情感词P泗义元相似度，d是0和0/在层次体系中的路径距离，α是一个可调节的参数；
[0059] Step5、计算新词与新词的共现词的相关度：
[0060]
[0061] 式中，i和j表示任意的两个词的下标，R为自定义的窗口的大小，r为小于等于 R的正数，表示两词在R窗口内的距离，W1 j表示新词V i和新词V i的共现词V j的相关度， Ν(Χ，r, Vj)为：新词Vi和新词V ;的共现词V 在相关文档集合中R窗口内距离为r时的共现次数（r < R)，C(Vl，V]) = R-r+Ι为两词语间的共现强度；
[0062] Step6、以新词和该新词的共现词为节点，在新词和它的共现词之间建立边，以 Step5中的相关度为边的权重，构建图模型；
[0063] Step7、利用词语相似度计算共现词si在y上的极性分布：
[0064]
[0065] 式中，RK为阈值，S1 (y)表示共现词的极性分布，i和j表示任意的两个词的下标， Sim表示词语相似度，为知网情感词中正倾向性的词，为知网情感词中负倾向性的词，count表示的是词的数量；
[0066] Step8、标签传播算法确定新词情感倾向；
[0067] St印8. 1、得到新词的极性分布，其目标函数如下：
[0068]
[0069]
[0070]
[0071]
[0072] 式中，i和j表示任意的两个词的下标，Q1 (y)表示新词节点V1的极性分布，s i (y) 表示共现词V]的极性分布，γ和λ是自定义参数，Vt表示共现词集合，K(V t)表示共现词 1的K近邻词集合；
[0073] StepS. 2、将得到的新词的极性分布记为Qn，构建线性分类器，得到新词的情感倾向：当新词的情感倾向为褒义的概率减去为贬义的概率大于阈值RT时，该新词情感倾向为 1，即是褒义词；当新词的情感倾向为褒义的概率减去为贬义的概率的绝对值小于阈值RT 时，该新词情感倾向为〇,即是中性词；当新词的情感倾向为贬义的概率减去为褒义的概率大于阈值RT时，该新词情感倾向为-1，即是贬义词；
[0074]
τ
[0075] 式中，Qn(y = 1)表示Qn为褒义的概率，Qn(y = -1)表示仏为贬义的概率，RT为阈值。
[0076] 实施例2 :如图1所示，一种基于微博的新词情感倾向判定方法，通过中文分词工具对微博语料进行分词，并以分词结果中的停用词为分割点对分词后的语料进行分块，将每个块内相邻的字串两两组合，对组合后的字串频率进行统计，将频率高于阈值的词串作为新词候选串；根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词；再利用知网的情感词典，计算共现词与知网情感词的词语相似度；计算新词与共现词的相关度；以新词和该新词的共现词为节点，在新词和它的共现词之间建立边，以新词与共现词的相关度为边的权重，构建图模型；利用标签传播算法得到新词的情感极性分布，最后通过构建线性分类器得到新词的情感倾向性。
[0077] 实施例3 :如图1所示，一种基于微博的新词情感倾向判定方法，通过中文分词工具对微博语料进行分词，并以分词结果中的停用词为分割点对分词后的语料进行分块，将每个块内相邻的字串两两组合，对组合后的字串频率进行统计，将频率高于阈值的词串作为新词候选串；根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词；再利用知网的情感词典，计算共现词与知网情感词的词语相似度；计算新词与共现词的相关度；以新词和该新词的共现词为节点，在新词和它的共现词之间建立边，以新词与共现词的相关度为边的权重，构建图模型；利用标签传播算法得到新词的情感极性分布，最后通过构建线性分类器得到新词的情感倾向性。
[0078] 所述方法的具体步骤如下：
[0079] StepU利用中科院分词工具，对微博语料进行分词，此处输入为1000万条微博语料，输出为分词后微博语料；
[0080] Step2、得到新词候选串，此处输入为分词后微博语料，输出为新词候选串：
[0081] 以分词结果中的停用词为分割点对分词后的语料进行分块，将每个块内相邻的字串两两组合（组合情况如表1所示），对组合后的字串频率进行统计，将频率高于阈值T = 8的词串作为新词候选串；
[0082] 表1停用词间的词组合
[0083]
[0084] 表1所示为分词后的语料，将相邻停用词间的字串两两组合的过程。
[0085] Step3、获取新词，此处输入为新词候选串，输出为新词：
[0086] 首先根据汉语言学的成词规则对新词候选串进行过滤，其次利用邻接变化数的规则对新词候选串进行过滤取得新词，新词的生成过程及数量变化如表2 :
[0087] 表2新词生成过程及数量变化
[0088]
[0089] 表2所示为新词发现过程中每一阶段的词语的数量的变化。
[0090] Step4、利用知网的情感词典，计算共现词与知网情感词的词语相似度：
[0091] Step4. 1、找出微博语料中与新词共现的非停用词，作为共现词；
[0092] Step4. 2、利用知网情感词典，计算共现词与知网情感词的词语相似度，表示如下：
[0093]
[0094] 式中，SinKsi, pj表示共现词Si和知网情感词p 之间的词语相似度，i和j表示任意的两个词的下标，m和η分别为共现词S1和知网情感词p ,的义项个数，表示共现词 S1的第m个义项，《f表示知网情感词ρ,的第η个义项，P表示知网情感词的集合；
[0095]
[0096] 式中，《MOf7)表示共现词S1和知网情感词ρ郝义项相似度，n JP η 2分别为义项4和中的属性个数，为义项定义中不同位置的属性的权重值，1为1到叫的一个变量，f为1到η2的一个变量，为义项和％^的义元；
[0097] CN 105138510 A 1冗 P月卞> 9/10 页

完整全部详细技术资料下载

当前第2页1 2 3

上一篇：一种对搜索关键词进行语义分析的方法和系统的制作方法
上一篇：一种信息处理方法及电子设备的制造方法

相关技术

一种信息处理方法及电子设备的...
一种基于偏好扩散的上下文推荐...
一种基于模式自学习的中文开放...
一种金融文本情感分析方法
签证申请表的自动填写方法及装...
一种报表生成方法及报表引擎的...
一种数据编辑方法及装置的制造...
一种识别复制对象并收藏数据的...
一种可配置的动态报表生成方法...
Excel拼接语法导入apn...

网友询问留言已有0条留言

还没有人留言评论。精彩留言会获得点赞！

1

精彩留言，会给你点赞！

情感倾向相关技术
一种中文微博主客观句分类方法
基于社区评论情感倾向性分析的手游排行榜构建方法
基于组合特征向量和深度学习的情感分类方法及装置的制造方法
一种情感分类方法及系统的制作方法
一种计算机中涉及情感的文本数据分析方法
情感分类方法及装置的制造方法
一种微博情感倾向分析方法及装置的制造方法
一种文本情感标注方法、装置及系统的制作方法
信用状况评估方法及装置的制造方法
基于情感倾向的产品评论主题搜索方法
情感倾向分析相关技术
预测用户情感倾向的方法和设备的制作方法
一种网络抗争中基于数据挖掘技术的情感动员应对方法
一种中文评论分析方法及其系统的制作方法
一种文本情感倾向分析系统的制作方法
一种文本情感倾向分析系统的制作方法
通过计算机智能分析汉语文字情感倾向的方法
基于混合模型的web文本情感主题识别方法
一种基于情感值的网络文本情感分析方法
一种微博用户个性化情感倾向分析方法及系统的制作方法
一种利用表情符号对微博进行情感倾向分类的方法
情感倾向性分析相关技术
一种获取语句情感倾向性的方法及系统的制作方法
一种基于文本情感倾向识别的舆情检测方法
微信舆情监测系统的制作方法
新闻舆情监测系统的制作方法
基于用户情感倾向提供服务的方法和设备的制作方法
预测用户情感倾向的方法和设备的制作方法
一种文本情感倾向分析系统的制作方法
一种基于图模型的中文微博客倾向性检索方法
一种文本情感倾向分析系统的制作方法
一种基于新闻评论网页的情感倾向性分析系统的制作方法