一种获取语句情感倾向性的方法及系统的制作方法

文档序号:8487793阅读:380来源:国知局
一种获取语句情感倾向性的方法及系统的制作方法
【技术领域】
[0001] 本发明涉及文本分析领域,特别涉及一种获取语句情感倾向性的方法及系统。
【背景技术】
[0002] 自然语言的文字文本是人们之间进行沟通交流的重要工具。互联网上的聊天文 本、博客、微博、论坛帖子及回复文本等多种形式文本中都包含有发言者或文章作者的情感 倾向性,有些文字则描述了评价者对评价对象的情感和态度,分析和获取这些文本中的情 感倾向性成为国家安全、舆情分析和社会管理的迫切需求。文本情感倾向性分析的目的,就 是获取文本中观点持有者对某一评价对象的情感倾向性。因此,文本的情感倾向性包含以 下几个要素:评价者、评价对象、倾向性态度。词语和语句都是构成文字文本的基本单位,获 取词语和语句的情感倾向性是文本倾向性分析的重要基础。词语的情感倾向性获取已经有 很多较成熟的方法并建立了相关的极性词典,而语句的情感倾向性还没有很好的方法。
[0003] 语句情感倾向性分析的基本原理是利用计算机分析文本中的语句结构、词语及其 内在关系,获得语句中评价者对于某些评价对象的一种情感倾向性。其实现基础是极性词 典,极性词典含有如"很好、赞同、很差、缺陷"等具有明显倾向性和评价态度的极性词语,以 及与极性词语相关的知识描述。有了极性词典以后,就可以从语句中找出极性词语,然后以 极性词语为中心,分析极性词语周围的文本,获得极性词语所关联的评价对象和评价者,从 而确定出语句中评价者对于评价对象的倾向性态度。
[0004] 在上述基本实现原理的基础上,现有技术中的文本情感倾向性分析方法分为两 类:机器学习方法和规则方法。机器学习方法通过已经标注好极性词语、评价对象、评价 者、倾向性态度的文本进行训练,得到统计模型的参数,再用训练好的统计模型去分析新的 文本,常见的模型和方法有Boosting、SVM (支持向量机)、CRF (条件随机场)和最大熵模型 等。规则方法主要是根据语法理论分析极性词语所在的语句,得到词语的句法成分,根据一 定的评价模式或规则确定评价者、评价对象和倾向性态度,主要用到词语词性、句法主谓宾 结构、推理规则等知识。
[0005] 上述二类方法都有各自的缺陷。机器学习方法需要大量的、标注好的训练语料文 本,增加了前期准备成本。规则方法中使用传统的主谓宾语法结构理论还无法获得语句中 准确的语义关系,因而只能获得准确率不高的情感倾向性分析结果。

【发明内容】

[0006] 本发明的目的在于,为克服上述问题,本发明提供了一种获取语句情感倾向性的 方法及系统。
[0007] 为实现上述目的,本发明提供一种获取语句情感倾向性的方法,所述方法包含:
[0008] 步骤101)将语句切分为词语,获得词语的概念类别;
[0009] 步骤102)根据词语的概念类别得到包含动态"V"概念的特征语义块和不包含动 态"V"概念的广义对象语义块,依据语句中的特征语义块和广义对象语义块切分语句,得到 语句的语义块切分候选集合;
[0010] 步骤103)根据语义块切分候选集合包含的特征语义块的核心词语的概念类别获 得语句的概念类别候选集合;
[0011] 步骤104)对语句的概念类别候选集合和语义块切分候选集合进行句类检验,获得 唯一与语句对应的句类表达式和语义块切分;
[0012] 步骤105)将得到的语句的唯一的句类表达式、语义块切分和语句中的极性词语映 射到倾向性评价模型,根据倾向性评价模型获得语句的情感倾向性。
[0013] 可选的,上述倾向性评价模型为二元模型或三元模型;
[0014] 所述二元模型的形式为"A B"或"B A",且所述二元模型的情感倾向性与极性词语 B的极性一致,其中,A是评价对象,B是极性词语;
[0015] 所述三元模型的形式为"C X D"、"C D X"、"D X C"或"D C X",且所述三元模型 对评价对象D的情感倾向性与极性词语X的极性一致,其中"C"是评价者,"X"是极性词语, "D"是评价对象。
[0016] 可选的,采用如下步骤获得语句的语义块切分候选集合:
[0017] 步骤2-1-1)根据语句中各词语的概念类别,找出语句中用于表示语言逻辑虚词的 "1"类概念以及用于表示动态概念的"v"类概念;
[0018] 步骤2-1-2)对于语句中得到的多个"v"类概念,逐个进行如下操作:如果其前后 概念符合预先制定的排除规则的条件,那么去除该概念的"v"类概念属性;
[0019] 步骤2-1-3)对于进行排除操作后剩下的多个"v"类概念,按照优选规则计算出每 一个"v"类概念作为特征语义块的权重,然后按所述权重做从大到小的排队,得到"v"类概 念的候选集合;
[0020] 步骤2-1-4)根据特征语义块的构成规则,把"v"类概念与前后的修饰概念合并得 到特征语义块EK,并得到特征语义块EK的候选集合;
[0021] 步骤2-1-5)根据语句中的候选特征语义块EK和特征语义块EK之前的"1"类概 念,把EK和EK之前的" 1 "类概念切分语句后形成的字词组合作为广义对象语义块,得到语 句的包含特征语义块和广义对象语义块的语义块切分候选集合。
[0022] 进一步可选的,采用如下步骤获得语句的概念类别候选集合并进行句类检验:
[0023] 步骤2-2-1)获得语句中表示动态"v"概念的特征语义块候选集合,并得到特征语 义块的核心词语,根据特征语义块核心词语对应的语句概念类别得到语句的概念类别候选 集合,由语句的概念类别得到该语句对应的所有可能的实际句类表达式和语义块,并得到 语句所对应的实际语句格式;
[0024] 步骤2-2-2)由语句的概念类别得到句类知识中标准的句类表达式和语义块约束 知识,由特征语义块的核心概念词语得到词语知识库中的句类约束、语句格式约束和语义 块约束知识;
[0025] 步骤2-2-3)将步骤2-2-2)得到的约束知识与步骤2-2-1)中得到的候选句类表 达式和语义块在语义块个数、语句格式、语义块核心概念三个方面依次进行比较,保留比较 结果都符合的语句表达式和语义块切分候选。
[0026] 可选的,针对包含动态"v"类概念的语义块,所述步骤2-2-3)后还包含如下步骤:
[0027] 步骤2-3-1)判断语义块的类型,若为块扩或原型句蜕,执行下一步,若为要素句 蜕,执行步骤2-3-3),若为包装句蜕,执行步骤2-3-4);
[0028] 步骤2-3-2)将语义块中的用于表示动态概念的"v"类概念作为新语句的特征语 义块,得到新语句的概念类别候选集合,然后进行新语句的句类检验,结束本步骤的操作;
[0029] 步骤2-3-3)对语义块中的用于表示动态概念的"v"类概念重新恢复特征语义块 的资格,得到新语句的概念类别候选集合,然后进行新语句的句类检验,结束本步骤的操 作;
[0030] 步骤2-3-4)识别出语义块中作为包装句蜕的"包装品"的字或词或短语,去除该 包装品,然后对语义块中去掉"包装品"后的部分执行步骤2-3-1),结束本步骤的操作。
[0031] 上述的步骤105)进一步包括:
[0032] 步骤105-1)判断语句中是否包含极性词语,如果未包含,则语句的情感倾向性为 中性,结束本步骤的操作,如果包含,则执行下一步;
[0033] 步骤105-2)提取语句的语义结构分析结果,所述语义结构分析结果包括语句的句 类、语义块以及语句格式;
[0034] 步骤105-3)如果语句的广义对象语义块GBK含有块扩或句蜕,那么把块扩或句蜕 作为新语句,对新语句执行步骤105-2),做递归处理;
[0035] 步骤105-4)如果语句主语义块的总数为2,且含有极性词语的主语义块都只含有 一个极性词语,那么按二元模型计算语句的情感倾向性;其中,所述主语义块包括特征语义 块以及广义对象语义块;
[0036] 步骤105-5)如果语句主语义块的总数为3,且含有极性词语的主语义块都只含有 一个极性词语,那么按三元模型计算语句的情感倾向性;
[0037] 步骤105-6)如果语句主语义块的总数为4,且含有极性词语的主语义块都只含有 一个极性词语,那么先按二元模型计算广义对象语义块GBK2和广义对象语义块GBK3的组 合,然后再与广义对象语义块GBK1和特征语义块EK组合,按三元模型计算语句的情感倾向 性;
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1