一种基于pad的汉语词汇情感建模方法

文档序号:6424023阅读:535来源:国知局
专利名称:一种基于pad的汉语词汇情感建模方法
技术领域
本发明涉及一种情感建模方法,尤其是基于PAD模型的汉语词汇的情感建模方法,属于情感计算领域。
背景技术
人与计算机交互的很多媒介都是以文本为基础的。文本中蕴涵着丰富的情感信息,对应着人类相应的心理状态。因此文本情感提取的研究在情感计算和智能交互领域有着重要意义。而文本情感的提取必须依赖于良好的情感模型,这样才能更加准确的识别用户的情感状态。汉语中有大量描述人类情绪和情感的词汇,如喜悦,乐观,忧郁。这些情感词汇都从不同的角度反映了人的心理状态。虽然人们可以通过个人心理感受来区分这些词汇,但是如果期望能够计算机也能够准确的区分这些词汇,就需要对这些词汇进行量化以及聚类分析,从而实现情感建模。PAD模型是Mehrabian和Russell提出的维度测量模型。该模型将情绪分为愉悦度(Pleasure)——表示个体情感状态的政府特性,激活度(Arousal)——表示个体神经生理激活水平;优势度(Dominance)——表示个体对情境和他人的控制状态。PAD模型不但给出了对情感空间进行描述的理论构想,同时采用量化的方法试图建立情感空间中各种情绪范畴的定位和关系。在情感建模领域,目前尚未对汉语词汇进行针对性的建模,这在一定程度上制约了汉语文本情感识别研究的进一步发展。而结合PAD模型的汉语词汇情感建模方法可以解决文本情感识别领域中缺少情感模型这一问题。因此,提出一种有效的汉语词汇情感建模方法具有很强的现实意义。

发明内容
本发明的目的在于提出一种能够对汉语词汇进行情感建模的方法,以解决计算机定量识别词汇情感的问题。本发明提供了一种基于PAD的汉语词汇情感建模方法,包括以下步骤步骤1 建立汉语情感词汇原始数据库,从报纸,文摘,博客,社交网站及BBS等多种渠道收集表达情感的词汇。步骤2 对汉语情感词汇原始数据库中的词汇分别进行P,A,D三个维度的标注,标注的范围为-4到+4。为了使标注客观准确,每个维度都由三个不同的评价者进行标注,每个词汇都进行三次不同的评价。每个词汇的P、A、D量度值为这三次评价的平均值并进行归一化处理,使其值在(-1,+1)之间。步骤3 对所标注的全部情感词汇按其P、A、D量值进行层次聚类分析。为了取得更好的聚类效果,采用欧氏距离作为聚类的距离度量,设第i个词汇的P、A、D量度为(Pi, apcQ,则其欧氏距离如下所示
3
dist] = ^ipi -Pj f + (at -a} f + {dt -Cij)2对于聚类算法,则采用加权平均距离法(WPGMA)对每个集群进行聚类。设每个集群的平均距离为Ci,则其加权平均距离如下所示Ci(CqCs) = ^diCl,Cs) + d(C ^Cq)]最后,可根据实际需求选择聚类的个数N。步骤4 如果有一个原始数据库中没有的新词,则先对其进行PAD维度的标注,然后计算其与最终聚类集群的欧氏距离,并将其归类到欧氏距离最小的那个集群。本发明提供的汉语词汇情感建模方法,其优点和积极效果在于1该方法是基于情感心理学理论,从多个角度对词汇情感进行判别。2该方法解决了汉语情感词汇没有准确度量与分类,不便于进行计算机识别的问题。


图1汉语词汇情感建模流程2立方空间聚类结果图
具体实施例方式本发明的基本思想是通过对情感词汇进行P、A、D三个维度的标注,将词汇的情感特征进行量化,并根据层次聚类的方法将其进行聚类分析,最终完成词汇的情感建模。根据以上思想,本发明的流程图如图1所示。下面通过一个具体的实例说明该建模方法的
具体实施例方式1、通过各种渠道收集88个情感词汇,如下所示
权利要求
1. 一种基于PAD的汉语词汇情感建模方法,其主要特征在于 步骤1 建立汉语情感词汇原始数据库,从报纸,文摘,博客,社交网站及BBS等多种渠道收集表达情感的词汇。步骤2 对汉语情感词汇原始数据库中的词汇分别进行P、A、D三个维度的标注,标注的范围为-4到+4 ;为了使标注客观准确,本发明定义每个维度都由三个不同的评价者进行标注,每个词汇都进行三次不同的评价;每个词汇的P、A、D量度值为这三次评价的平均值并进行归一化处理,使其值在(_1,+1)之间。步骤3 对所标注的全部情感词汇按其P、A、D量值进行层次聚类分析;为了取得更好的聚类效果,本发明采用欧氏距离作为聚类的距离度量,加权平均距离法作为聚类算法;并可以根据实际需求选择聚类个数N。步骤4 如果有一个原始数据库中没有的新词,则先对其进行PAD维度的标注,然后计算其与最终聚类集群的欧氏距离,并将其归类到欧氏距离最小的那个集群。
全文摘要
本发明提出了一种基于PAD的汉语词汇情感建模方法,可概括为(1)建立汉语情感词汇原始数据库;(2)对汉语情感词汇原始数据库中的词汇分别进行P、A、D三个维度的标注,标注的范围为-4到+4;为了使标注客观准确,本发明定义每个维度都由三个不同的评价者进行标注,每个词汇都进行三次不同的评价;每个词汇的P、A、D量度值为这三次评价的平均值并进行归一化处理,使其值在(-1,+1)之间;(3)对所标注的全部情感词汇按其P、A、D量值进行层次聚类分析;为了取得更好的聚类效果,本发明采用欧氏距离作为聚类的距离度量,加权平均距离法作为聚类算法;并可以根据实际需求选择聚类个数N;(4)如果有一个原始数据库中没有的新词,则先对其进行PAD维度的标注,然后计算其与最终聚类集群的欧氏距离,并将其归类到欧氏距离最小的那个集群。
文档编号G06F17/30GK102184232SQ20111012186
公开日2011年9月14日 申请日期2011年5月11日 优先权日2011年5月11日
发明者毛峡, 江琳 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1