一种基于微博的新词情感倾向判定方法_3

文档序号：9417343阅读：来源：国知局

r>[0098] 式中，逾w#'S:; ? >表不共现词Si和知网情感词p」的义兀相似度，d是#和'在层次体系中的路径距离，α是一个可调节的参数，取值为1.6;
[0099] Step5、计算新词与新词的共现词的相关度：
[0100]
[0101] 式中，i和j表示任意的两个词的下标，R为自定义的窗口的大小，根据实验分析，我们取R = 5, r为小于等于R的正数，表示两词在R窗口内的距离，Wl]表示新词V i和新词 Vi的共现词V .j的相关度，N(V i, r, Vj)为：新词Vi和新词V ;的共现词V 在相关文档集合中R 窗口内距离为r时的共现次数（r < R)，C(Vl，V]) = R-r+Ι为两词语间的共现强度；
[0102] Step6、以新词和该新词的共现词为节点，在新词和它的共现词之间建立边，以 Step5中的相关度为边的权重，构建图模型；
[0103] St印7、利用词语相似度计算共现词&在y上的极性分布：
[0104]
[0105] 式中，RK为阈值，通过实验分析，我们取RK = 0. 25, S1 (y)表示共现词的极性分布， i和j表示任意的两个词的下标，Sim表示词语相似度，.?+为知网情感词中正倾向性的词， 6为知网情感词中负倾向性的词，count表示的是词的数量；
[0106] Step8、标签传播算法确定新词情感倾向；
[0107] steps. 1得到新词的极性分布，其目标函数如下：
[0108] 在新词的极性识别中，认为词语之间的相关度越高，它们之间的极性分布就越相似。基于以上思想，建立如下目标函数。使得目标函数C最小，进而取得新词节点V1的极性分布。
[0109]
[0110] 其中： CN 105138510 A 说明书 10/10 页
[0111]
[0112]
[0113] 式中，i和j表示任意的两个词的下标，qi(y)表示词节点V1的极性分布， Sl(y)表示共现词\的极性分布，γ和λ是自定义参数，分别取值为1和〇.i，vt表示共现词集合， κ (Vt)表示共现词1的κ近邻词集合，此处κ取值为3 ;
[0114] StepS. 2将得到的新词的极性分布记为Qn，构建线性分类器，得到新词的情感倾向：
[0115]
[0116] 式中，Qn(y = 1)表示Qn为褒义的概率，Qn(y = -1)表示仏为贬义的概率，RT为阈值，通过实验分析，我们取RT = 0. 6。如公式所示，当新词的情感倾向为褒义的概率减去为贬义的概率大于阈值RT时，该新词情感倾向为1，即是褒义词；当新词的情感倾向为褒义的概率减去为贬义的概率的绝对值小于阈值RT时，该新词情感倾向为0,即是中性词；当新词的情感倾向为贬义的概率减去为褒义的概率大于阈值RT时，该新词情感倾向为-1，即是贬义词。
[0117] 表3部分新词
[0118]
[0119] 表3所示为通过实验获得的部分情感新词，这些新词的情感倾向性分为三类，即褒义、中性和贬义。
[0120] 上面结合附图对本发明的【具体实施方式】作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。
【主权项】
1. 一种基于微博的新词情感倾向判定方法，其特征在于：通过中文分词工具对微博语料进行分词，并以分词结果中的停用词为分割点对分词后的语料进行分块，将每个块内相邻的字串两两组合，对组合后的字串频率进行统计，将频率高于阈值的词串作为新词候选串；根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词；再利用知网的情感词典，计算共现词与知网情感词的词语相似度；计算新词与共现词的相关度；以新词和该新词的共现词为节点，在新词和它的共现词之间建立边，以新词与共现词的相关度为边的权重，构建图模型；利用标签传播算法得到新词的情感极性分布，最后通过构建线性分类器得到新词的情感倾向性。2. 根据权利要求1所述的基于微博的新词情感倾向判定方法，其特征在于：所述方法的具体步骤如下： StepU通过中文分词工具对微博语料进行分词； Step2、以分词结果中的停用词为分割点对分词后的语料进行分块，并将每个块内相邻的字串两两组合，对组合后的字串频率进行统计，将频率高于阈值T的词串作为新词候选串； Step3、根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词； Step4、利用知网的情感词典，计算共现词与知网情感词的词语相似度： Step4. 1、找出微博语料中与新词共现的非停用词，作为共现词； Step4. 2、利用知网情感词典，计算共现词与知网情感词的词语相似度，表示如下：式中，SinKsi, p_j)表示共现词Si和知网情感词p 之间的词语相似度，i和j表示任意的两个词的下标，m和n分别为共现词S1和知网情感词p ,的义项个数，表示共现词^的第m个义项，#表示知网情感词p,的第n个义项，P表示知网情感词的集合；式中，.表示共现词S1和知网情感词p j的义项相似度，n JP n 2分别为义项 4和#中的属性个数：为义项定义中不同位置的属性的权重值，1为1到H1的一个变量，f为1到n2的一个变量，//和//为义项☆和Wp的义元；式中，WhKza ,r& )表示共现词S1和知网情感词p $勺义元相似度，d是0和，y在层次体系中的路径距离，a是一个可调节的参数； Step5、计算新词与新词的共现词的相关度：式中，i和j表示任意的两个词的下标，R为自定义的窗口的大小，r为小于等于R的正数，表示两词在R窗口内的距离，Wu表示新词Vi和新词Vi的共现词v_j的相关度，N(Vi,r,Vj) 为：新词V1和新词V,的共现词、在相关文档集合中R窗口内距离为r时的共现次数（r < R)，C(Vi,Vj) = R-r+1为两词语间的共现强度； Step6、以新词和该新词的共现词为节点，在新词和它的共现词之间建立边，以Step5 中的相关度为边的权重，构建图模型； Step7、利用词语相似度计算共现词8;在丫上的极性分布：式中，RK为阈值，S1 (y)表示共现词的极性分布，i和j表示任意的两个词的下标，Sim 表示词语相似度，I^+为知网情感词中正倾向性的词，P厂为知网情感词中负倾向性的词， count表示的是词的数量； Step8、标签传播算法确定新词情感倾向； StepS. 1、得到新词的极性分布，其目标函数如下：式中，i和j表示任意的两个词的下标，Q1 (y)表示新词节点V1的极性分布，si(y)表示共现词v]的极性分布，y和A是自定义参数，Vt表示共现词集合，K(V t)表示共现词1的 K近邻词集合； Step8. 2、将得到的新词的极性分布记为Qn，构建线性分类器，得到新词的情感倾向：当新词的情感倾向为褒义的概率减去为贬义的概率大于阈值RT时，该新词情感倾向为1，即是褒义词；当新词的情感倾向为褒义的概率减去为贬义的概率的绝对值小于阈值RT时，该新词情感倾向为〇,即是中性词；当新词的情感倾向为贬义的概率减去为褒义的概率大于阈值RT时，该新词情感倾向为-1，即是贬义词；式中，Qn (y = 1)表示Qn为褒义的概率，Qn (y = -1)表示仏为贬义的概率，RT为阈值。
【专利摘要】本发明涉及一种基于微博的新词情感倾向判定方法，属于自然语言处理领域。本发明通过中文分词工具对微博语料进行分词，以分词结果中的停用词为分割点对分词后的语料进行分块，将每个块内相邻的字串两两组合，对组合后的字串频率进行统计，将频率高于阈值的词串作为新词候选串；根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词；利用知网的情感词典，计算共现词与知网情感词的词语相似度；计算新词与共现词的相关度；构建图模型；利用标签传播算法得到新词的情感极性分布，通过构建线性分类器得到新词的情感倾向性。本发明对新词的情感倾向性的判定不仅能使博主很好的表达自己的观点，且能让用户准确的把握博主情感倾向。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105138510
【申请号】CN201510485811
【发明人】严馨, 周超, 余正涛, 洪旭东, 伏云发
【申请人】昆明理工大学
【公开日】2015年12月9日
【申请日】2015年8月10日

完整全部详细技术资料下载

当前第3页1 2 3