一种基于中文语义结构和细分词库结合的情感分析方法

文档序号:9375578阅读:310来源:国知局
一种基于中文语义结构和细分词库结合的情感分析方法
【技术领域】
[0001] 本发明涉及一种基于中文语义结构和细分词库结合的情感分析方法,尤其涉及一 种应用于中文财经新闻评论句子级文本的情感分析方法,属于计算机科学技术、财经学、语 言学的交叉学科。
【背景技术】
[0002] 自然语言处理在1950年由图灵提出,至今已有60多年的发展历程。文本情感分 析是自然语言处理近十年的新兴研究方向。文本情感分析是对带有情感色彩的主观性文本 进行分析、处理、归纳和推理,从而得到文本的正负面或褒贬义的机器自动识别和判断。最 初的情感分析源自对带有情感色彩的词语的分析,如各种褒义词或贬义词。随着互联网上 带有情感色彩的大量的主观性文本的出现,研究重点逐步过渡到对更为复杂的情感语句或 情感篇章的研究。
[0003] 国内关于情感分析的研究主要集中在倾向度分析,其中包括两个重要方向。一个 方向是以中科院谭松波的文本情感倾向度分析方法为代表,基于大规模情感语料库,计算 词汇与上下文的统计特性,作为情感倾向值。另一个方向以中科院董振东提出的知网体系 为代表,基于语义网,根据概念的上下位、同反义等关系,获得概念距离,得到情感倾向值。 本发明中的情感计算类似于后者,建立在语义规则的基础之上,但同时又带有前者的风格, 统计叠加情感单元的情感值,作为句子的最终情感。
[0004] 自然语言处理建立在词的基础之上,词是表达语义的最小单位。对于西方语言,词 之间有明确的分界符,统计和使用语言模型非常直接。而对于中文等语言,词之间没有明确 的分界符,若要进行自然语言处理,必须首先对句子进行分词。现在的一些分词程序专业性 不强,只能对一些常用的普通词汇进行分词,而要得到某专业内的常用词汇或专业词汇,必 须在分词词典中添加上该行业的特定词汇。
[0005] 目前常用的文本情感分析方法更多的是对情感词的识别,在此基础上将文本中所 有情感词的极性进行累加,最后得到整个文本的极性,从而实现对文本的情感分类。其中对 情感词的研究更多地集中在情感词的褒贬分类上。
[0006] 在语义模式匹配中,更多的是根据中文句型的样式人工标注句型结构,这样的句 型结构太过通用,不能很好地与情感词句型结构匹配,导致句型不适合情感匹配。

【发明内容】

[0007] 本发明旨在克服现有文本情感分析方法的缺陷,本发明提供了一种基于中文语义 结构和细分词库结合的情感分析方法。
[0008] 本发明提供了 一种基于中文语义结构和细分词库结合的情感分析方法,其特征在 于,所述情感分析方法包括: 1) 在计算机系统中输入至少由一个语句组成的待测文本; 2) 通过计算机系统的分词模块对待测文本的每一语句进行分词处理,标注每一语句中 的情感词和其它词,其中, 所述分词模块通过计算机中存储的字典,标注每一语句中的情感词和其它词,所述字 典中词汇被分类为情感词类和其它词类; 所述字典中情感词汇的分类标注表如下:
.,: 所述字典中其它词类标注表如下:

3)通过计算机系统的语义模式匹配模块,对经分词处理的待测文本进行匹配,得到每 一语义单元(指能够匹配语义模式的文本片段)的语义模式,其中,所述语义单元是指待测 文本的每一语句中能够匹配语义模式的文本片段; 所述语义模式匹配表包括:

, 4) 通过计算机系统的情感分析模块,将待测文本的每一语义单元的语义模式对应为情 感值,并将文本中所有语义单元的情感值进行累加,得到待测文本的情感值,其中,当某一 语句中出现没有匹配语义模式的剩余的否定词时,该语句中否定词之后的语义单元的情感 值X (-1),再参与所述文本中所有语义单元的情感值累加的计算; 当某一语句中出现没有匹配语义模式的剩余的反转词时,该语句中反转词之后的语义 单元的情感值X2,再参与所述文本中所有语义单元的情感值累加的计算; 当某一语句中出现没有匹配语义模式的剩余的否定词和反转词时,该语句中否定词和 反转词之后的语义单元的情感值X (-1) X2,再参与所述文本中所有语义单元的情感值累 加的计算; 5) 当待测文本的情感值大于1的时候,判定待测文本的情感值为正面,标注为1, 当待测文本的情感值小于1的时候,判定待测文本的情感值为负面,标注为-1, 无模式匹配或叠加情感为O时,判定待测文本的情感为中性,标注为0。
[0009] 本发明从非结构化文本中切分出情感词、连接词、转折词等,根据各词的实际排 列,匹配句型模式,得到语义单元情感值,根据语义单元情感值综合计算句子情感值,达到 量化财经新闻评论句子情感值的目的; 以满足语义模式的情感单元而不是情感词为单位进行情感分析,最大程度上保证了情 感叠加单元的情感准确度,从而获得文本更准确的情感结果;由于细分词库,更好地匹配情 感语义模式,以语义分析为主,统计叠加情感单元情感值为辅,凝聚了中文语义分析和统计 分析的精华; 本发明针对目前财经情感分析领域中对情感词的分类不具体,导致只能对情感词叠加 得到文本总情感值,从而准确率和可信度偏低的问题。在中文文本财经领域,对领域内的常 用词汇、专业词汇细分为几十个子类的情况尚属首次,有效地解决了情感词分类过于笼统, 文本情感值完全基于以情感词为单位统计叠加的问题。本发明句型模式的积累采用统计方 法,根据分词标注的情感值与其他否定词、反转词等的不同排列组合,统计得到句型结构出 现概率大的几十种模式,满足了以情感词为主体的文本的句型匹配,同时大大提高了句型 匹配率。
[0010] 较佳地,所述待测文本包括以唯一句子结束符结尾的待测文本(即所述待测文本 为一段文本,含有至少一个语句,该段文本中只含有一个句子结束符且句子结束符在该段 话的尾部);当然所述待测文本中也可以包含有多个句子结束符; 所述待测文本的输入采用网络爬虫在网络中抓取、切分得到。
[0011] 较佳地,所述情感字典包括《知网》、《台湾大学情感词典》、《褒义词词典》、《贬义词 词典》、以及待测文本所属领域的专业情感词典。
[0012] 情感词典分为基础情感词典和专业情感词典。基础情感词典包括《知网》、《台湾大 学情感词典》、《褒义词词典》、《贬义词词典》提供的情感词汇,通过去重处理,得到基础情 感词典。专业情感词典即财经领域情感词典,主要从《证券投资分析》、《经济学词典》中获 取财经词汇。另外,因为本发明主要是对网络爬虫抓取的财经新闻评论文本和股吧论坛的 文本进行情感分析,所以人工提取了 2013年至2015年所抓取数据的网络词和财经新闻用 词,并分析其情感色彩,扩充财经情感词库,使情感词典更适合网络财经新闻文本的情感分 析,大大提高了情感识别率和准确率。
[0013] 较佳地,待测文本属于财经领域,所述情感词典还包括《证券投资分析》、《经济学 词典》。
[0014] 较佳地,所述词典还包括从爬虫抓取的近五万条财经评论短文本的网络常用财经 词汇和其他网络情感术语,即所述词典还包括通过爬虫抓取的网络财经词汇和其它网络情 感术语。
[0015] 较佳地,所述分词模块采用双向最大匹配算法识别待测文本中长短词汇或短语。 [0016] 为了更好地匹配财经新闻评论中出现的词语,让机器更大化地理解文本的意义, 尽量识别长短语即尽可能多地获取更长的信息将有助于机器情感分析。基于双向最大匹配 算法的分词模块能更好地识别出文本长短语,使情感分析更准确。
[0017] 较佳地,所述句子语义模式匹配模块采用最右优先匹配算法:从待测文本中语句 的END结束符开始,自右向左扫描整个语句,与《语义模式匹配表》(即《句子情感模式匹配 表》)中预设的模式进行匹配,采用最长匹配的原则,优先匹配《句子情感模式匹配表》中的 长模式,得到模式对应的情感值,即为该情感单元的情感值;然后将各情感单元的情感值进 行累加,得到语句的累加情感值。
[0018] 采用最右匹配的原则是根据中文语言的特点来决定的。中文表达中,重要的观点 是在句子的后半段提出,因而情感值以最右匹配为标准。
[0019] 又,本发明还提供
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1