一种基于中文语义结构和细分词库结合的情感分析方法_2

文档序号:9375578阅读:来源:国知局
了一种包含上述情感分析方法的多个待测文本情感分析方法, 所述多个待测文本的情感分析方法包括: 首先,在计算机系统中同时输入首尾依次连接多个待测文本; 其次,采用权利要求1-9中任一所述的情感分析方法,分析出多个待测文本中每一待 测文本的情感值; 再者,将每一待测文本的情感值,从最后一个待测文本开始,依次向前累加。
[0020] 较佳地,所述累加为:从后向前,从右向左,依次向前累加。
[0021] 本发明的有益效果: 1. 专业的基于中文财经词汇的分词模块。普通分词程序专业性不强,只能对一些常用 的普通词汇进行分词,而要得到某专业内的常用词汇或专业词汇,必须在分词词典中添加 上该行业的特定词汇。建议基于财经词汇的专业分词模块是本发明至关重要的环节; 2. 全面的中文财经情感词典。情感词典分为基础情感词典和专业情感词典。基础情感 词典包括《知网》、《台湾大学情感词典》、《褒义词词典》、《贬义词词典》提供的情感词汇,通 过去重处理,得到基础情感词典。专业情感词典即财经领域情感词典,主要从《证券投资分 析》、《经济学词典》中获取财经词汇。另外,因为本发明主要是对网络爬虫抓取的财经新闻 评论文本和股吧论坛的文本进行情感分析,所以人工提取了 2013年至2015年所抓取数据 的网络词和财经新闻用词,并分析其情感色彩,扩充财经情感词库,使情感词典更适合网络 财经新闻文本的情感分析,大大提高了情感识别率和准确率; 3. 详细的情感词分类。目前常用的文本情感分析方法对情感词的研究更多地集中在情 感词的褒贬分类上。本发明针对目前财经情感分析领域中对情感词的分类不具体,导致只 能对情感词叠加得到文本总情感值,从而准确率和可信度偏低的问题。在中文文本财经领 域,对领域内的常用词汇、专业词汇细分为几十个子类的情况尚属首次,有效地解决了情感 词分类过于笼统,文本情感值完全基于对其中出现的情感词统计叠加的问题; 4. 语义模式的匹配建立在情感词排列统计的基础之上,使用的是基于情感词的语义模 式组合。在语义模式匹配中,更多的是根据中文句型的样式人工标注句型结构,如主谓宾结 构。这样的句型结构太过通用,不能很好地与情感词句型结构匹配,导致句型不适合情感匹 配。本发明句型模式的积累采用统计方法,根据分词标注的情感值与其他否定词、反转词等 的不同排列组合,统计得到句型结构出现概率大的几十种模式,满足了情感文本的情感句 型匹配和识别; 5. 由于细分词库,更好地匹配情感语义模式,以语义分析为主,统计叠加情感单元情感 值为辅,凝聚了中文语义分析和统计分析的精华。以满足语义模式的情感单元而不是情感 词为单位进行情感分析,最大程度上保证了情感叠加单元的情感准确度,从而获得文本更 准确的情感结果。
【附图说明】
[0022] 图1示出了本发明一个实施例中情感分析方法的步骤示意图。
【具体实施方式】
[0023] 以下结合附图和下述实施方式进一步说明本发明,应理解,附图及下述实施方式 仅用于说明本发明,而非限制本发明。
[0024] 本发明提出一种基于中文语义结构和细分词库结合的情感分析方法,尤其涉及一 种应用于中文财经新闻评论句子级文本的情感分析方法,属于计算机科学技术、财经学、 语言学的交叉学科。其中包括情感词典、分词模块、语义模式库、情感分析模块四大部分。它 们之间的关系如图1所示。
[0025] 财经文本(可以作为待测文本)短句来源:网络爬虫全网抓取,选定特定的财经新 闻评论数据源,并切分成短句。
[0026] 分词模块:采用双向最大匹配算法,匹配出所有字串形成的最长词语。
[0027] 语义模式匹配模块:根据情感词、否定词、连接词、反转词、比较词等的排列组合模 式,统计提取出出现几率比较大的几十种模式,并按照实际句子的情感人工给出模式的情 感值。
[0028] 情感分析模块:根据语义模式匹配的结果综合得到句子情感值。
[0029] 情感值输出:句子情感值,最终结果大于1则判定情感值为正面,小于-1则判定情 感值为负面,无模式匹配或情感单元叠加后值为〇则情感值为〇,判为中性情感。
[0030] 1.分词模块 该模块完成的功能包括:对财经新闻评论文本进行断句和分词处理,最大化地提取出 财经情感词汇或短语,根据情感词典,对情感词汇或情感短语进行属性标注。
[0031] 分词模块的前期工作:为了使分词词典更全面地覆盖尽可能多的财经词汇,在基 础词库的基础之上,采用人工提取和筛选的方法,从网络爬虫获取的近五万条新闻评论语 料库中人工提取财经词汇和短语,尤其是财经情感分析需要的词汇、短语和网络习惯用语 添加进分词词典中,从而使分词模块能够识别财经词汇或短语,更专业化地针对财经文本 进行处理。
[0032] 分词模块的算法:基于双向最大匹配算法。为了更好地匹配财经新闻评论中出现 的词语,让机器更大化地理解文本的意义,尽量识别长短语即尽可能多地获取更长的信息 将有助于机器情感分析。基于双向最大匹配算法的分词模块能更好地识别出文本长短语, 使情感分析更准确。
[0033] 下面详细地介绍情感标注的标准: (1)断句的标注。模块中将"。"、";"、" !"、"? "、"……"作为句子结束的标志,标注符 为END,其他表示句子未结束,进行句中间隔的标点符号如","、"、",标注为COMMA ; ⑵情感词的标注。参考情感词库中的情感词分类,对存在于情感词库中的情感词的属 性进行标注。分词属性的标注按照情感词类和辅助类进行标注,情感词类共分为14类,分 别是八类不及物动词,四类及物动词(包括形容词)和两类名词。
[0034] 表1情感分类标注表
表2其它词类标注表: CN 105095190 A 说明书 8/15 页
:0
[0035] 2.情感词典 情感词典分为两部分:基础情感词典和专业情感词典。基础情感词典包括《知网》、《台 湾大学情感词典》、《褒义词词典》、《贬义词词典》提供的情感词汇,通过去重处理,得到基础 情感词典。专业情感词典即财经领域情感词典,主要从《证券投资分析》、《经济学词典》中 获取财经词汇。另外,因为本发明主要是对网络爬虫抓取的财经新闻评论文本和股吧论坛 的文本进行情感分析,所以人工提取了 2013年至2015年所抓取数据的网络词和财经新闻 用词,并分析其情感色彩,扩充财经情感词库,使情感词典更适合网络财经新闻文本的情感 分析,从而大大提高了情感识别率和准确率。
[0036] 3.语义模式匹配模块 情感词分类识别之后,就可以判断整个句子的情感值。本发明建立了专门适用于以句 子为单位的情感模式匹配模块,根据各类情感词的排列规则,统计出几十种可供句子情感 匹配的模式条目,只有分析的句子符合诸如表3所列条目的一种,才综合计算和赋予句子 情感值。
[0037] 表3句子情感模式匹配表(语义模式匹配表)

[0038] 4.情感分析模块 情感分析模块根据情感词的分类排列,与语义模式进行匹配,按照最右优先匹配的方 法与表3的语义模式进行匹配,得到每个情感单元的情感值。
[0039] 最右优先匹配的算法是:从分词标注的END结束符(即句子结束符)开始,自右 向左扫描整个句子,与表3中预设的模式进行匹配,采用最长匹配的原则,优先匹配表3中 的长模式,得到模式对应的情感值,即为该情感单元的情感值。然后将各情感单元的情感强 度进行累加,得到句子的累加情感值。采用最右匹配的原则是根据中文语言的特点来决定 的。中文表达中,重要的观点是在句子的后半段提出,因而情感语义模式的匹配以最右匹配 为标准。
[0040] 情感单元累加公式如式1 :
(I) q
[0041] 其中,S表示句子,E (S)表示整个句子的情感总值,m表示该句中情感单元的个数, Si表示单个情感单元,E (S ;)表示单个情感单元的情感值。
[0042] 当句子中出现单独的否定词、反转词而无模式匹配,或出现句子结束符时,作如下 处理,如式2 :
.〇
[0043] 说明
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1