一种自动识别文本所承载的情感概率的方法及系统的制作方法

文档序号:6500999阅读:155来源:国知局
一种自动识别文本所承载的情感概率的方法及系统的制作方法
【专利摘要】本发明公开了一种自动识别文本所承载的情感概率的方法及系统,该方法包括:获取多个文本以组成训练文本集,每个该文本包括多个情感元以及用户针对该情感元的投票数据;对该多个文本进行预处理,以提取在该多个文本中出现过的所有特征词、每个特征词在各个文本中的出现概率、所有该情感元、及每个该情感元在每个文本中的得票率;根据该出现概率以及该得票率,计算该训练文本集中每个该特征词对应每个该情感元的条件概率,并组成情感词典;针对一待识别文本,提取该待识别文本中出现的所有特征词并计算每个该特征词在该待识别文本中的出现概率,利用该条件概率以及每个该特征词在该待识别文本中的出现概率,计算该待识别文本对应每个情感元的概率。
【专利说明】一种自动识别文本所承载的情感概率的方法及系统

【技术领域】
[0001] 本发明涉及计算机数据挖掘领域,特别是涉及一种自动识别文本所承载的情感概 率的方法及系统。

【背景技术】
[0002] 随着科学技术的进步,人类各种固有特征的自动识别技术得到了迅猛发展,例如 语音识别、人脸识别、指纹识别、虹膜识别等。这些识别技术在产业中得到了大量具体应用。 当各个领域的智能化技术均如火如荼的推进时,自动识别技术逐渐向人类的情感识别迈 进,以实现更高等级的人机交互或人工智能处理。
[0003] 情感是客观存在的,且人类情感具有共性,S卩,对于部分客体,人类具有趋同的情 感表达,这也正是情感识别能够实现的客观基础。
[0004] 另外,他人的情感、情绪与观点是辅助人们决策的重要参考。对公众情感的分析与 挖掘,有助于管理者统计产品、服务的客户满意度,记者跟踪当前事件的公众反应,广告商 评估策划活动、广告宣传的效果,政府监测人物、机构、事件等的公众情感态势等。
[0005] 而文本是人们情感与观点表达的主要载体,词语是文本的基本组成单元,构建情 感词典自然就成为公众情感挖掘的重要基础,且,对情感词典加以利用可以解决各种产业 中存在的问题。在现有技术中,授权专利CN101587708B记载了一种《歌曲情绪压力分析方 法及系统》(授权公告日:2012-5-23),其针对歌词文本进行处理,并根据人为预设的情感词 典,计算出歌曲情绪压力指数,以便于歌曲的分类、定位。
[0006] 当前,情感词典的构建方法主要以人工为主,例如基于英语词典WordNet进行情 感扩展标注的WordNet-Affect与SentiWordNet,以及基于人工选取的主观词和在线词典 等生成的 Subjectivity Wordlist。
[0007] 可见,现有技术虽然在文本的情感识别方面有所发展,但是还存在较多局限性: (1)当前的情感词典大多具备的是通用性,却被应用于一般性的领域,以前就是说,不适 用于对个性化的数据集的情感分析;(2)语种有限,以上所述三种情感词典都只提供英文 单词的情感标注;(3)词典的容量有限,更新缓慢,例如,目前WordNet-Affect仅标注了 2874个同义词集和4787个单词的情感分布;(4)情感标注的粒度较粗,应用范围有限。 SentiWordNet中情感维度只有肯定、否定和中性三种。Subjectivity Wordlist则仅仅区 分主观词和客观词,通常是用于对评论与新闻文本的预处理。
[0008] 另外,随着Web 2. 0和移动互联网的兴起,网民可以随时随地在互联网、社交网 络、博客、微博、即时通讯、短信、微信等平台发布观点、表达情绪情感,通过计算机技术获取 海量的公众情感将更为便捷,人们情感的表达也更为迅速、传播更为广泛。这既突出了公众 情感挖掘的可行性、重要性和紧迫性,又对其技术要求提出了更大的挑战。


【发明内容】

[0009] 本发明解决的问题在于,针对一文本自动识别其所承载的情感概率,也就是情感 分布。
[0010] 更进一步的,获取情感词典的训练文本集可调节或由用户指定,使得情感词典的 个性化特征更加显著。
[0011] 更进一步的,可实现较细的情感粒度。
[0012] 更进一步的,可针对不同语种进行文本情感识别。
[0013] 更进一步的,便于情感词典的更新。
[0014] 本发明公开了一种自动识别文本所承载的情感概率的方法,包括:
[0015] 步骤1,获取多个文本以组成训练文本集,每个该文本包括多个情感元以及用户针 对该文本对该情感元的投票数据;
[0016] 步骤2,对该多个文本进行预处理,以提取在该多个文本中出现过的所有特征词、 每个特征词在各个文本中的出现概率、所有该情感元以及每个该情感元在每个文本中的得 票率;
[0017] 步骤3,根据该出现概率以及该得票率,计算该训练文本集中每个该特征词对应每 个该情感元的条件概率,并组成情感词典;
[0018] 步骤4,针对一待识别文本,提取该待识别文本中出现的所有特征词并计算每个该 特征词在该待识别文本中的出现概率,利用该条件概率以及每个该特征词在该待识别文本 中的出现概率,计算该待识别文本对应每个情感元的概率。
[0019] 步骤2的预处理步骤包括:
[0020] 对文本进行分词处理,词干化处理,和/或,去除停用词。
[0021] 该步骤3根据如下公式计算该条件概率:
[0022]

【权利要求】
1. 一种自动识别文本所承载的情感概率的方法,其特征在于,包括: 步骤1,获取多个文本以组成训练文本集,每个该文本包括多个情感元以及用户针对该 文本对该情感元的投票数据; 步骤2,对该多个文本进行预处理,以提取在该多个文本中出现过的所有特征词、每个 特征词在各个文本中的出现概率、所有该情感元以及每个该情感元在每个文本中的得票 率; 步骤3,根据该出现概率以及该得票率,计算该训练文本集中每个该特征词对应每个该 情感元的条件概率,并组成情感词典; 步骤4,针对一待识别文本,提取该待识别文本中出现的所有特征词并计算每个该特征 词在该待识别文本中的出现概率,利用该条件概率以及每个该特征词在该待识别文本中的 出现概率,计算该待识别文本对应每个情感元的概率。
2. 如权利要求1所述的方法,其特征在于,步骤2的预处理步骤包括: 对文本进行分词处理,词干化处理,和/或,去除停用词。
3. 如权利要求1所述的方法,其特征在于,该步骤3根据如下公式计算该条件概率:
其中,P (ek | wp为特征词%对应情感元ek的条件概率,rik为情感元ek在文本屯中的 得票率,P(Wj | cQ为特征词W」在文本屯中的出现概率,N为文本总数,E为情感元总数。
4. 如权利要求3所述的方法,其特征在于,步骤3、4之间还包括: 步骤31,针对每个特征词,利用P (B | w) =dfw/N计算特征词w属于背景词B的概率; 步骤32,判断P(B|w)是否大于P(e|w),如果是,执行步骤33,如果否,执行步骤34; 步骤33,将该特征词w从该情感词典中删除; 步骤34,在该情感词典中保留该特征词w ; 其中,P(B|w)为特征词w属于背景词B的概率,dfw为包含该特征词的文本数量,N为 该训练文本集包含的文本总数; 其中,P(e|w)为步骤3中的针对特征词w的P(ek|Wp的最大值、最小值或平均值。
5. 如权利要求1至4中任一所述的方法,其特征在于,该步骤4的计算该待识别文本对 应每个情感元的概率的步骤根据如下公式进行:
K.)为待识别文本Φ对应每个情感元ek的概率,p (%| cQ为特征词%在待识别 文本屯中的出现概率,p(ek|wj)为特征词Wj在该情感词典中的条件概率。
6. 如权利要求1所述的方法,其特征在于,步骤4之后还包括步骤5, 依次判断该待识别文本对应每个情感元的概率是否大于一阈值,如果是,将该概率对 应的情感元作为该待识别文本的情感标签。
7. -种自动识别文本所承载的情感概率的系统,其特征在于,包括: 获取装置,用于获取多个文本以组成训练文本集,每个该文本包括多个情感元以及用 户针对该文本对该情感元的投票数据; 预处理装置,用于对该多个文本进行预处理,以提取在该多个文本中出现过的所有特 征词、每个特征词在各个文本中的出现概率、所有该情感元、以及每个该情感元在每个文本 中的得票率; 情感词典构建装置,用于根据该出现概率以及该得票率,计算该训练文本集中每个该 特征词对应每个该情感元的条件概率,并组成情感词典; 概率计算装置,针对一待识别文本,提取该待识别文本中出现的所有特征词并计算每 个该特征词在该待识别文本中的出现概率,利用该条件概率以及每个该特征词在该待识别 文本中的出现概率,计算该待识别文本对应每个情感元的概率。
8. 如权利要求7所述的系统,其特征在于,该预处理装置用于对文本进行分词处理,词 干化处理,和/或,去除停用词。
9. 如权利要求7所述的系统,其特征在于,该情感词典构建装置根据如下公式计算该 条件概率:
其中,P (ek | wp为特征词%对应情感元ek的条件概率,rik为情感元ek在文本屯中的 得票率,P(Wj | cQ为特征词W」在文本屯中的出现概率,N为文本总数,E为情感元总数。
10. 如权利要求9所述的系统,其特征在于,该系统还包括: 用于针对每个特征词,利用P (B | w) =dfw/N计算特征词w属于背景词B的概率的装置; 用于判断P(B|w)是否大于P(e|w),如果是,将该特征词w从该情感词典中删除,如果 否,在该情感词典中保留该特征词w的装置; 其中,P (B | w)为特征词w属于背景词B的概率,dfw为包含该特征词的文本数量,N为 该训练文本集包含的文本总数; 其中,P(e|w)为情感词典构建装置中得到的针对特征词w的P(ek|Wp的最大值、最小 值或平均值。
11. 如权利要求7-10中任一所述的系统,其特征在于,该概率计算装置执行如下公式:
卢式)为待识别文本Φ对应每个情感元ek的概率,p (Wj I di)为特征词Wj在待识别 文本屯中的出现概率,p(ek|wj)为特征词Wj在该情感词典中的条件概率。
12. 如权利要求7所述的系统,其特征在于,还包括依次判断该待识别文本对应每个情 感元的概率是否大于一阈值,如果是,将该概率对应的情感元作为该待识别文本的情感标 签的装置。
13. -种自动识别文本所承载的情感概率的方法,其特征在于,包括: 步骤1,获取多个文本以组成训练文本集,每个该文本包括多个情感元以及用户针对该 文本对该情感元的投票数据; 步骤2,对该多个文本进行预处理,以提取在该多个文本中出现过的所有特征词、每个 特征词在各个文本中的出现概率、所有该情感元、以及每个该情感元在每个文本中的得票 率; 步骤3,根据该预处理的结果,利用Gibbs抽样算法,计算该训练文本集中每个情感主 题对应每个情感元的条件概率,以组成主题-情感词典,或者,利用Gibbs抽样算法,计算该 训练文本集中每个特征词对应每个该情感元的条件概率,以组成词-情感词典; 步骤4,针对一待识别文本,提取该待识别文本中出现的所有特征词并计算每个该特 征词在该待识别文本中的出现概率,利用每个该特征词在该待识别文本中的出现概率以及 该主题-情感词典,计算该待识别文本对应每个情感元的概率,或者,利用每个该特征词在 该待识别文本中的出现概率以及该词-情感词典,计算该待识别文本对应每个情感元的概 率。
14.如权利要求13所述的方法,其特征在于,该步骤3进一步包括: 步骤31,根据该情感元、该出现概率以及该得票率,利用Gibbs抽样算法,计算得到 Cj1、<和其中,Cf为情感元ek被分配为情感主题Ζηι的次数,0为文本屯被分配 为情感主题zm的次数,<;;为特征词%被分配为情感主题zm的次数; 步骤32,利用
计算该训练文本集中每个该情感主题对应每个情感元 的条件概率; 或者,利用
·计算该训练文本集中每个该特征词 对应每个情感元的条件概率; 其中,P (ek | Wj)为特征词Wj对应情感元ek的条件概率,P (ek | zm)为情感主题zm对应情 感元ek的条件概率,P(w」zj为情感主题Ζηι对应特征词%的条件概率,Ρ(Ζηι)为情感主题 ζπ的先验概率,Z为情感主题Ζηι的集合;
其中,α,β和γ为超参数,E是情感元ek的集合,W是特征词Wj的集合,D为训练文 本集。
15. 如权利要求14所述的方法,其特征在于,该步骤4的计算该待识别文本对应每个情 感元的概率的步骤根据如下公式进行:
/)(? K)为待识别文本屯对应每个情感元ek的概率,p (%|屯)为特征词%在待识别 文本屯中的出现概率,p (ek| Wj)为特征词Wj在该词-情感词典中的条件概率; P (z」cQ为待识别文本屯对应情感主题Ζηι的条件概率,其中,
^为待识别文本屯的矩阵形式,矩阵中的元素为该待识 Γ 别文本di的每个特征词的出现概率,δ m为情感主题Zm的矩阵形式,矩阵中的元素为该情感 主题Zm对应每个特征词的条件概率p (Wj I zm)。
16. 如权利要求13所述的方法,其特征在于,步骤2的预处理步骤包括: 对文本进行分词处理,词干化处理,和/或,去除停用词。
17. 如权利要求13所述的方法,其特征在于,步骤4之后还包括步骤5, 依次判断该待识别文本对应每个情感元的概率是否大于一阈值,如果是,将该概率对 应的情感元作为该待识别文本的情感标签。
18. -种自动识别文本所承载的情感概率的系统,其特征在于,包括: 获取装置,获取多个文本以组成训练文本集,每个该文本包括多个情感元以及用户针 对该文本对该情感元的投票数据; 预处理装置,对该多个文本进行预处理,以提取在该多个文本中出现过的所有特征词、 每个特征词在各个文本中的出现概率、所有该情感元、以及每个该情感元在每个文本中的 得票率; 情感词典构建装置,根据该预处理的结果,利用Gibbs抽样算法,计算该训练文本集中 每个情感主题对应每个情感元的条件概率,以组成主题-情感词典,或者,利用Gibbs抽样 算法,计算该训练文本集中每个特征词对应每个该情感元的条件概率,以组成词-情感词 血. 概率计算装置,针对一待识别文本,提取该待识别文本中出现的所有特征词并计算每 个该特征词在该待识别文本中的出现概率,利用每个该特征词在该待识别文本中的出现概 率以及该主题-情感词典,计算该待识别文本对应每个情感元的概率,或者,利用每个该特 征词在该待识别文本中的出现概率以及该词-情感词典,计算该待识别文本对应每个情感 元的概率。
19. 如权利要求18所述的系统,其特征在于,该情感词典构建装置进一步包括: Gibbs抽样计算单元,根据该情感元、该出现概率以及该得票率,利用Gibbs抽样算法, 计算得到d和<r ;其中,为情感元ek被分配为情感主题zm的次数,d为文本 K,k 、-w J A -m φ被分配为情感主题zm的次数,<:;:为特征词%被分配为情感主题zm的次数; 条件概率计算单元,利用
计算该训练文本集中每个该情感主题对应 每个情感元的条件概率; 或者,利用
计算该训练文本集中每个该特征词 对应每个情感元的条件概率; 其中,P (ek | Wj)为特征词Wj对应情感元ek的条件概率,P (ek | zm)为情感主题zm对应情 感元ek的条件概率,P(w」zj为情感主题Ζηι对应特征词%的条件概率,Ρ(Ζηι)为情感主题 ζπ的先验概率,Z为情感主题Ζηι的集合;
其中,α,β和γ为超参数,E是情感元ek的集合,W是特征词Wj的集合,D为训练文 本集。
20.如权利要求19所述的系统,其特征在于,该概率计算装置采用如下公式:
I 〇为待识别文本屯对应每个情感元ek的概率,p (Wj | cQ为特征词Wj在待识别 文本屯中的出现概率,p (ek| Wj)为特征词Wj在该词-情感词典中的条件概率; P (z」cQ为待识别文本屯对应情感主题Ζηι的条件概率,其中,
为待识别文本屯的矩阵形式,矩阵中的元素为该待识 别文本屯的每个特征词的出现概率,δ m为情感主题Zm的矩阵形式,矩阵中的元素为该情感 主题对应每个特征词的条件概率p (W,_ | zj。
21. 如权利要求18所述的系统,其特征在于,该预处理装置还用于对文本进行分词处 理,词干化处理,和/或,去除停用词。
22. 如权利要求18所述的系统,其特征在于,还包括依次判断该待识别文本对应每个 情感元的概率是否大于一阈值,如果是,将该概率对应的情感元作为该待识别文本的情感 标签的装置。
【文档编号】G06F17/30GK104063399SQ201310094618
【公开日】2014年9月24日 申请日期:2013年3月22日 优先权日:2013年3月22日
【发明者】李青, 权小军, 饶洋辉, 刘文印 申请人:杭州金弩信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1