一种基于词汇语义和句法依存的情感关键句识别方法

文档序号:6624778阅读:218来源:国知局
一种基于词汇语义和句法依存的情感关键句识别方法
【专利摘要】本发明涉及一种基于词汇语义和句法依存的情感关键句识别方法,属于自然语言处理应用【技术领域】,包括以下步骤:首先对语料及其分词结果进行规范化处理;然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板,并通过扩展后的情感词典和关键词词典获取候选情感关键句;最后设计一种位置打分函数,辅以情感词特征、关键词特征和依存模板特征,利用这四种特征训练SVM分类器,并以之完成情感关键句的最终识别。对比现有技术,通过采用规则与统计相结合的策略,能够有效利用不同层级词汇语义和句法依存信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的情感关键句,提高中文情感关键句的识别率。
【专利说明】一种基于词汇语义和句法依存的情感关键句识别方法

【技术领域】
[0001] 本发明涉及一种情感关键句识别方法,特别涉及一种基于词汇语义和句法依存的 情感关键句识别方法,属于自然语言处理应用【技术领域】。

【背景技术】
[0002] 随着我国互联网事业的迅速发展,网络作为一种新型媒体不但成为各种社会思 潮、利益诉求和意识形态较量的场所,而且也成为民众评议时政、谈论是非、交流观点的集 散地。有关网络舆情监测和分析的研究由此引起研究人员的重视。抽取出一篇文章的情感 关键句,对了解社会动态和舆情状况有着重要的作用。但在如今这个大数据时代,海量信息 层出不穷,同时处理这么多信息无疑是件费时费力的事情。因此,我们需要一种情感关键句 抽取技术来帮助我们自动从海量信息中抽取出与主题相关的情感关键句,这是一项既有学 术意义又有实用意义的研究课题。
[0003] 情感关键句又叫主题情感句,情感关键句需要包含两个要素:主题关键词和情感 关键词。主题关键词用来概括篇章的主题;情感关键词用来概括情感倾向。目前,关于情感 关键句抽取方面的研究并不多。总的来说,情感关键句抽取的研究尚不系统和成熟,目前还 处于起步阶段。而中文语言的灵活性及表达的多样性,也使情感关键句抽取的研究相对更 加困难。目前情感关键句抽取的方法大多是基于规则或基于统计的,鲜有两者结合的方法。 而且在抽取过程中只进行了浅层语义分析,没有挖掘句子的深层信息。


【发明内容】

[0004] 本发明的目的是为解决以往在情感关键句识别中不能有效利用词汇语义和句法 依存信息的问题,尽可能发挥不同层级的语义、句法信息特征,提出一种基于词汇语义和句 法依存的情感关键句识别方法。
[0005] 为实现上述目的,本发明所采用的技术方案如下:
[0006] 本发明技术方案的思想是首先对语料及其分词结果进行规范化处理,然后基于一 定规则扩展情感词典、创建关键词词典和提取依存结构模板,并通过扩展后的情感词典和 关键词词典获取候选情感关键句;最后设计一种位置打分函数,辅以情感词特征、关键词特 征和依存特征,利用这四种特征构造 SVM分类器,找到使性能达到最优的特征形式完成情 感关键句的识别。
[0007] 本发明的具体技术方案如下:
[0008] -种基于词汇语义和句法依存的中文情感关键句识别方法,该方法包括以下步 骤:
[0009] 步骤一、语料预处理:对语料集S的每一个句子进行分词、词性标注得到带有词性 标注的语料集合T;分词以及词性标注可以手工进行,也可以使用现有的工具,本发明使用 中科院的分词工具ICTCLAS对S自动分词以及词性标注;
[0010] 步骤二、情感词典扩建:通过分别计算基础情感词典与候选词集合之间的点间互 信息PMI,为每个基础情感词典中的词语选取至多5个PMI最高的候选词作为扩展词,加入 基础情感词典,用这些词加上其在语料集合中的出现概率生成最终的领域相关的情感词典 DEL ;
[0011] 步骤三、关键词词典构建:对于语料集S中的每一篇文章,通过LDA与textrank相 结合的方法,同时采用一种全新的加权方法PCF0为该文章在各主题建立对应的图模型,最 后利用textrank为图中每个节点,即词语打分,选择得分较高的词语作为本篇文章的关键 词,加入关键词词典KL;
[0012] 步骤四、依存知识库构建:对语料集S中的每一个句子进行依存分析,然后通过依 存模板提取算法获取依存模板,加入依存知识库DB ;
[0013] 步骤五、候选情感关键句生成:分别将语料集T中的每一个句子与上文已经构建 好的领域相关的情感词典DEL和关键词词典KL进行匹配,选择既含有情感词又含有关键词 的句子作为候选情感关键句,记候选情感关键句的集合为A ;
[0014] 步骤六、SVM分类:将集合A置于经过训练的SVM分类器中进行分类,得到情感 关键句集合Y和非情感关键句集合N,SVM分类器的训练特征为:情感词特征(emotional feature),关键词特征(key-word feature),依存模板特征(dependency feature)和位置 特征(position feature)这四种;
[0015] 步骤七、识别完成:输出识别结果Y。
[0016] 有益效果
[0017] 本发明对比现有技术,通过采用规则与统计相结合的策略,先通过DEL和KL筛选 出候选情感关键句,然后再利用SVM分类器进行分类,这样就弥补了基于概率统计的机器 学习方法导致的错判,两种方法相互补充,能够有效利用不同层级词汇语义和句法依存信 息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的情感关键句,提高中 文情感关键句的识别率。

【专利附图】

【附图说明】
[0018] 图1为本发明方法的处理流程图。

【具体实施方式】
[0019] 在介绍实施例以前,先做如下定义:
[0020] 情感关键句是指一篇文章中既能表现文章主题又能表现情感倾向的句子,需要包 含两个要素:主题关键词和情感关键词。主题关键词用来彰显篇章主题;情感关键词用来 表明情感倾向。
[0021] 下面结合实施例对本发明做进一步说明。
[0022] 本实施例首先介绍情感词典的扩展方法,关键词词典的构建方法,依存知识库的 形成方法以及SVM分类器的特征选择方法,最后介绍中文情感关键句的识别方法。
[0023] 本实施例选取第六届中文倾向性分析评测(The Sixth Chinese Opinion Analysis Evaluation,简称C0AE2014)任务一:面向新闻的情感关键句抽取与判定提供的 数据集作为实验语料集,用于情感词典的扩展,关键词词典的构建,依存知识库的形成以及 SVM分类器的训练。该语料集含有多篇文章,每篇文章由多个句子组成,每个句子含有类别 标注(Y :表不是情感关键句/N :表不不是情感关键句)。
[0024] 以下文档为语料集S中的一篇文章:
[0025]

【权利要求】
1. 一种基于词汇语义和句法依存的中文情感关键句识别方法,其特征在于,包括以下 步骤: 步骤一、语料预处理:对待识别的语料集的每一个句子进行分词、词性标注得到带有词 性标注的语料集合T ; 步骤二、候选情感关键句生成:分别将T中的每一个句子与领域相关的情感词典DEL和 关键词词典KL进行匹配,选择既含有情感词又含有关键词的句子作为候选情感关键句,记 候选情感关键句的集合为A ; 步骤三、SVM分类器分类:从情感词特征、关键词特征、依存模板特征和位置特征四个 方面对集合A的每个句子提取特征向量,并将特征向量置于经过训练的SVM分类器中进行 分类,得到情感关键句集合Y和非情感关键句集合N ; 步骤四、识别完成:输出识别结果Y。
2. 根据权利要求1所述的一种基于词汇语义和句法依存的中文情感关键句识别方法, 其特征在于,领域相关的情感词典DEL构建方法包括以下步骤: 步骤一、采用知网(Hownet)提供的情感分析用词语集中的正面情感词语、负面情感词 语、正面评价词语、负面评价词语加上由台湾大学整理和发布的简体中文的NTUSD构成基 础情感词典(Basic Emotion Lexicon); 步骤二、对语料集S中的所有句子进行分词、词性标注后得到语料集合T,按词性筛选 出名词、动词和形容词作为候选词; 步骤三、分别计算上文构建的Basic Emotion Lexicon中每个词与这些候选词之间的 点间互信息,关于两个词语^和《2之间的点间互信息PMI(Wl,w2)的计算公式如下(计算 过程中过滤掉P (Wi&W2),P (W),P (w2)为零的情况
): 其中P^&wJ表示…和%在同一个句子中共同出现的概率,P(Wi)和P(w2)分别表示 两个词语单独出现的概率;P(Wl&w2)、P(Wl)和p(w 2)都可以通过对语料集合T的统计得到, 其计算公式如下: P (Wi&wJ = numsen /N P(w!) = nurnsen (wj)/N P (w2) = numsen (w2) /N 其中,numjwi&wj表示集合中即出现&又出现w2的句子数,numjwi)表示出现&的 句子数,numS6n(w2)表示出现w2的句子数,N表示语料集合T的全部句子数; 步骤四、对于Basic Emotion Lexicon中的每个词,选取至多前5个与之点间互信 息最高的候选词作为扩展词,与其在语料集合T中的出现频率一起加入Basic Emotion Lexicon,并对Basic Emotion Lexicon中的每个情感词也分别计算其在语料集合T中的出 现概率,生成最终的领域相关的情感词典DEL。
3. 根据权利要求1所述的一种基于词汇语义和句法依存的中文情感关键句识别方法, 其特征在于,关键词词典的构建方法包括以下步骤: 步骤一、对语料集S中的所有句子进行分词、词性标注后得到语料集合T,设置语料集 合T的主题个数为n,某个主题用Zt表示,其中t为1到n之间的自然数,通过LDA模型求 出文档-主题分布P(Zt|d)和主题-词分布P(w|Zt);计算随机跳转概率P(Z t|w),计算公式 如下:
其中,m表示语料集合T中的文档个数,w表示一个词,屯表示语料集合T的第i篇文 章 ,i G {1,2,3......whPWi)表示文章屯在语料集合T中的出现概率; 步骤二、对语料集合T中的每一篇文章按词性选择名词和形容词作为候选关键词,并 以这些词为节点,分别在每一个主题下构建图模型:图G= (V,E),节点集合V= {Vl,v2, V3......Vk},连接从节点Vi到节点Vj的边得到边集(Vi, Vi) G E,其中k表示候选关键词的 个数,i, j G {1,2,3......,k},i 关 j ; 确定两个节点之间是否存在边以及边的方向的方法如下: 在原文中设置一个大小为window的滑动窗口,分别按照顺序从第一个词性为名词或 形容词的词语指向窗口内与第一个词不同的其他词性为名词或形容词的词语,由此得到边 集E,依次遍历集合E中的每条边,按以下方法对每条边设置权重: 权重设置主要考虑四个因素:位置重要性的影响力、覆盖重要性的影响力、频度重要性 的影响力和共现重要性的影响力;对于任意两个结点Vi和Vj,结点Vi对 Vj的影响力通过其 有向边e =< v" Vj >传递,边的权重决定了 Vj最终所获得Vi部分的分值大小,令wu表示结点\和\的整体影响力权重,a,0,Y,S分别表示这四类不同的影响力所占的 比重,且a+@ + Y + S = 1,则两节点之间的权值Wii可以根据下式计算: Wij = a wpos (vj, Vj) + wcov (vj, Vj) + y wfreq (vj, Vj) + 8 wco_occur (vj, Vj) a)wP〇s(vi,vj)表示节点 ' 的位置影响力传递到vj的权重,计算公式如下:
其中,OUt(Vi)表示以Vi为起点所指向的节点的集合,P(Vj)表示节点Vj的位置重要性 得分,具体赋值方式如下:
其中,入是一个比1大的数字,值为1. 5 ; tOWcoJv" Vj)表示节点Vi的覆盖影响力传递到Vj的权重,计算公式如下:
其中,| Out (Vi) I表示节点Vi的出度; C) Wfreq (Vi,Vj)表示节点Vi的频度影响力传递到Vj的权重,计算公式如下:
其中,Out(Vi)表示以ViS起点所指向的节点的集合,f(Vj)表示节点Vj所代表的词语 在文章中出现的次数; Vj)表示节点Vi的共现影响力传递到V」的权重,计算公式如下:
其中,Co (Vi,Vj)表示节点Vi,Vj所代表的词语在一定窗口内共现的次数; 步骤三、图模型建立完毕之后,利用textrank的思想对各节点进行打分排序,用以下 公式迭代计算每一个节点在特定主题下的得分:
其中,W(Vj,Vi)即为步骤二中求得的节点Vj,Vi之间的权值Wji ;P(Zt|Vi)即为步骤一中 求得的p(zt|w) 为阻尼因子,值为〇. 75 ;j -\表示节点'在以节点Vi为终点的节 点集合内遍历;按以上公式迭代前设置所有节点得分初值KZt(Vi:)为1 ;当连续两次迭代, 所有节点得分误差都在〇. 〇〇〇1范围之内时,迭代终止,将此时的得分作为每一个节点在特 定主题下的得分。 步骤四、求得每一个节点在特定主题下的得分之后,按照下述公式计算每一个节点在 一篇文章下的最终得分R(Vi):
选取最终得分排名靠前的节点,将节点所代表的候选关键词与此节点的最终得分一块 加入关键词词典KL,依此方法生成对应于语料集合T中所有文章的最终的关键词词典KL。
4.根据权利要求1所述的一种基于词汇语义和句法依存的中文情感关键句识别方法, 其特征在于,所述SVM分类器的训练特征包括情感词特征、关键词特征、依存模板特征和位 置特征四种,所述特征向量由这四种特征构成的特征向量分量相连接得到,将特征向量与 对应句子的类别置入SVM分类器完成SVM分类器的训练;情感词特征、关键词特征、依存模 板特征和位置特征对应的特征向量分量的生成方法如下: 首先对训练用语料集进行分词、词性标注得到语料集合T,对T中的每一个句子按以下 方法提取各特征向量的分量: 情感词特征的特征向量维度为9,第一维分量表示每个句子中出现在DEL中情感词的 个数,后八维分量分别表示这些情感词在语料集合T中出现的概率;如果句子中出现在DEL 中情感词的个数不足8个,不足的部分其对应的分量概率设置为0 ;如果句子中出现在DEL 中情感词的个数多于8个,按概率由大到小的顺序取前8个; 关键词特征的特征向量维度为9,第一维分量表示每个句子中出现在KL中关键词的个 数,后八维分量分别表示这些关键词在KL中对应的得分;如果句子中出现在KL中关键词的 个数不足8个,不足的部分其对应的分量概率设置为0 ;如果句子中出现在KL中关键词的 个数多于8个,按得分由大到小的顺序取前8个; 依存模板特征的特征向量维度为9,第一维分量表示从每个句子中提取的依存模板出 现在DB中的个数,后八维分量分别表示这些依存模板在DB中对应的出现概率;如果从每个 句子中提取的依存模板出现在DB中的个数不足8个,不足的部分其对应的分量的出现概率 设置为〇 ;如果从每个句子中提取的依存模板出现在DB中的个数多于8个,按出现概率由 大到小顺序取前8个; 位置特征的特征向量维度为1,其值按下式计算: scoresen (pos (sen)) = a X pos (sen) 2+b X pos (sen) +c 其中,
i表示句子所在文章中的句子总数,a > 0, b < 0, pos (sen)表示 句子在文章中的位置,sen表示句子序号。
5. 根据权利要求4所述的一种基于词汇语义和句法依存的中文情感关键 句识别方法,其特征在于,b = -1。
6. 根据权利要求1所述的一种基于词汇语义和句法依存的中文情感关键句识别方法, 其特征在于,依存知识库的构建方法包括以下步骤: 步骤一、使用哈工大LTP的依存句法分析模块分析语料集S中的所有句子得到依存分 析结果D ; 步骤二、对依存分析结果D进行分析,找到句子的中心词,将之与在DEL或hownet提供 的情感分析用词语集中的主张词中出现的词一起作为中心特征词(CoreWord),以这些词为 起点,对附属或依存于该词的词汇进行关系提取,并统计它们相互之间的关系,根据统计数 据提取出符合要求的依存关系模板,形成最终的依存知识库DB ;具体的依存关系模板提取 算法如下: 输入:语料集S经过分词及词性分析得到的语料集合T,依存分析结果D ; 输出:依存知识库DB ; 处理流程: Step 1 :遍历语料集合T中每条情感关键句中的所有词语,如果该词语在上文构建的 DEL或hownet提供的情感分析用词语集中的主张词中出现,或者依存分析结果中relate = "HED",则把它作为CoreWord ; Step 2 :将与CoreWord有依存关系,parent等于CoreWord的id的词语存入依存词的 集合 dpWords ; Step 3 :遍历dpWords中的每个词与CoreWord的关系,如果其依存关系为C00,则将它 作为CoreWord重复Step2 ;如果其依存关系为WP,则将其从dpWords中删除; Step 4 :将情感关键句中的所有包括CoreWorcUdpWords以及dpWords中的每一个词与 其父节点CoreWord相互之间的依存关系存入情感关键句的模板集合中,并且不改变其出 现顺序; Step 5 :从Step4中得出的模板集合中的模板按"一个前面的词与中心词的关系+中 心词+-个后面的词与中心词的关系"、"一个前面的词与中心词的关系+中心词"、"中心词 + -个后面的词与中心词的关系"三种方式作为候选模板进行提取,对于同一个中心词取最 长模板,并统计其在情感关键句、非情感关键句中出现的概率; Step 6:将由Step 5得到的候选模板集合中在情感关键句中出现的概率大于在非情 感关键句中出现概率的模板提取出来,与它在情感关键句中的出现概率一起加入依存关系 知识库DB中,直至处理完语料集合T的所有语句。
【文档编号】G06F17/30GK104281645SQ201410425148
【公开日】2015年1月14日 申请日期:2014年8月27日 优先权日:2014年8月27日
【发明者】冯冲, 廖纯, 刘至润, 黄河燕 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1