一种基于中文语义结构和细分词库结合的情感分析方法

文档序号：9375578阅读：310来源：国知局

一种基于中文语义结构和细分词库结合的情感分析方法
【技术领域】
[0001] 本发明涉及一种基于中文语义结构和细分词库结合的情感分析方法，尤其涉及一种应用于中文财经新闻评论句子级文本的情感分析方法，属于计算机科学技术、财经学、语言学的交叉学科。
【背景技术】
[0002] 自然语言处理在1950年由图灵提出，至今已有60多年的发展历程。文本情感分析是自然语言处理近十年的新兴研究方向。文本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理，从而得到文本的正负面或褒贬义的机器自动识别和判断。最初的情感分析源自对带有情感色彩的词语的分析，如各种褒义词或贬义词。随着互联网上带有情感色彩的大量的主观性文本的出现，研究重点逐步过渡到对更为复杂的情感语句或情感篇章的研究。
[0003] 国内关于情感分析的研究主要集中在倾向度分析，其中包括两个重要方向。一个方向是以中科院谭松波的文本情感倾向度分析方法为代表，基于大规模情感语料库，计算词汇与上下文的统计特性，作为情感倾向值。另一个方向以中科院董振东提出的知网体系为代表，基于语义网，根据概念的上下位、同反义等关系，获得概念距离，得到情感倾向值。本发明中的情感计算类似于后者，建立在语义规则的基础之上，但同时又带有前者的风格，统计叠加情感单元的情感值，作为句子的最终情感。
[0004] 自然语言处理建立在词的基础之上，词是表达语义的最小单位。对于西方语言，词之间有明确的分界符，统计和使用语言模型非常直接。而对于中文等语言，词之间没有明确的分界符，若要进行自然语言处理，必须首先对句子进行分词。现在的一些分词程序专业性不强，只能对一些常用的普通词汇进行分词，而要得到某专业内的常用词汇或专业词汇，必须在分词词典中添加上该行业的特定词汇。
[0005] 目前常用的文本情感分析方法更多的是对情感词的识别，在此基础上将文本中所有情感词的极性进行累加，最后得到整个文本的极性，从而实现对文本的情感分类。其中对情感词的研究更多地集中在情感词的褒贬分类上。
[0006] 在语义模式匹配中，更多的是根据中文句型的样式人工标注句型结构，这样的句型结构太过通用，不能很好地与情感词句型结构匹配，导致句型不适合情感匹配。

【发明内容】

[0007] 本发明旨在克服现有文本情感分析方法的缺陷，本发明提供了一种基于中文语义结构和细分词库结合的情感分析方法。
[0008] 本发明提供了一种基于中文语义结构和细分词库结合的情感分析方法，其特征在于，所述情感分析方法包括： 1) 在计算机系统中输入至少由一个语句组成的待测文本； 2) 通过计算机系统的分词模块对待测文本的每一语句进行分词处理，标注每一语句中的情感词和其它词，其中，所述分词模块通过计算机中存储的字典，标注每一语句中的情感词和其它词，所述字典中词汇被分类为情感词类和其它词类；所述字典中情感词汇的分类标注表如下：
.，：所述字典中其它词类标注表如下：

3)通过计算机系统的语义模式匹配模块，对经分词处理的待测文本进行匹配，得到每一语义单元（指能够匹配语义模式的文本片段）的语义模式，其中，所述语义单元是指待测文本的每一语句中能够匹配语义模式的文本片段；所述语义模式匹配表包括：

， 4) 通过计算机系统的情感分析模块，将待测文本的每一语义单元的语义模式对应为情感值，并将文本中所有语义单元的情感值进行累加，得到待测文本的情感值，其中，当某一语句中出现没有匹配语义模式的剩余的否定词时，该语句中否定词之后的语义单元的情感值X (-1)，再参与所述文本中所有语义单元的情感值累加的计算；当某一语句中出现没有匹配语义模式的剩余的反转词时，该语句中反转词之后的语义单元的情感值X2,再参与所述文本中所有语义单元的情感值累加的计算；当某一语句中出现没有匹配语义模式的剩余的否定词和反转词时，该语句中否定词和反转词之后的语义单元的情感值X (-1) X2,再参与所述文本中所有语义单元的情感值累加的计算； 5) 当待测文本的情感值大于1的时候，判定待测文本的情感值为正面，标注为1，当待测文本的情感值小于1的时候，判定待测文本的情感值为负面，标注为-1，无模式匹配或叠加情感为O时，判定待测文本的情感为中性，标注为0。
[0009] 本发明从非结构化文本中切分出情感词、连接词、转折词等，根据各词的实际排列，匹配句型模式，得到语义单元情感值，根据语义单元情感值综合计算句子情感值，达到量化财经新闻评论句子情感值的目的；以满足语义模式的情感单元而不是情感词为单位进行情感分析，最大程度上保证了情感叠加单元的情感准确度，从而获得文本更准确的情感结果；由于细分词库，更好地匹配情感语义模式，以语义分析为主，统计叠加情感单元情感值为辅，凝聚了中文语义分析和统计分析的精华；本发明针对目前财经情感分析领域中对情感词的分类不具体，导致只能对情感词叠加得到文本总情感值，从而准确率和可信度偏低的问题。在中文文本财经领域，对领域内的常用词汇、专业词汇细分为几十个子类的情况尚属首次，有效地解决了情感词分类过于笼统，文本情感值完全基于以情感词为单位统计叠加的问题。本发明句型模式的积累采用统计方法，根据分词标注的情感值与其他否定词、反转词等的不同排列组合，统计得到句型结构出现概率大的几十种模式，满足了以情感词为主体的文本的句型匹配，同时大大提高了句型匹配率。
[0010] 较佳地，所述待测文本包括以唯一句子结束符结尾的待测文本（即所述待测文本为一段文本，含有至少一个语句，该段文本中只含有一个句子结束符且句子结束符在该段话的尾部）；当然所述待测文本中也可以包含有多个句子结束符；所述待测文本的输入采用网络爬虫在网络中抓取、切分得到。
[0011] 较佳地，所述情感字典包括《知网》、《台湾大学情感词典》、《褒义词词典》、《贬义词词典》、以及待测文本所属领域的专业情感词典。
[0012] 情感词典分为基础情感词典和专业情感词典。基础情感词典包括《知网》、《台湾大学情感词典》、《褒义词词典》、《贬义词词典》提供的情感词汇，通过去重处理，得到基础情感词典。专业情感词典即财经领域情感词典，主要从《证券投资分析》、《经济学词典》中获取财经词汇。另外，因为本发明主要是对网络爬虫抓取的财经新闻评论文本和股吧论坛的文本进行情感分析，所以人工提取了 2013年至2015年所抓取数据的网络词和财经新闻用词，并分析其情感色彩，扩充财经情感词库，使情感词典更适合网络财经新闻文本的情感分析，大大提高了情感识别率和准确率。
[0013] 较佳地，待测文本属于财经领域，所述情感词典还包括《证券投资分析》、《经济学词典》。
[0014] 较佳地，所述词典还包括从爬虫抓取的近五万条财经评论短文本的网络常用财经词汇和其他网络情感术语，即所述词典还包括通过爬虫抓取的网络财经词汇和其它网络情感术语。
[0015] 较佳地，所述分词模块采用双向最大匹配算法识别待测文本中长短词汇或短语。 [0016] 为了更好地匹配财经新闻评论中出现的词语，让机器更大化地理解文本的意义，尽量识别长短语即尽可能多地获取更长的信息将有助于机器情感分析。基于双向最大匹配算法的分词模块能更好地识别出文本长短语，使情感分析更准确。
[0017] 较佳地，所述句子语义模式匹配模块采用最右优先匹配算法：从待测文本中语句的END结束符开始，自右向左扫描整个语句，与《语义模式匹配表》（即《句子情感模式匹配表》）中预设的模式进行匹配，采用最长匹配的原则，优先匹配《句子情感模式匹配表》中的长模式，得到模式对应的情感值，即为该情感单元的情感值；然后将各情感单元的情感值进行累加，得到语句的累加情感值。
[0018] 采用最右匹配的原则是根据中文语言的特点来决定的。中文表达中，重要的观点是在句子的后半段提出，因而情感值以最右匹配为标准。
[0019] 又，本发明还提供

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：施建旭;王新蕾;
技术所有人：众联数据技术（南京）有限公司;
我是此专利的发明人

上一篇：基于多词单元进行辅助翻译的方法和装置的制造方法
上一篇：一种一键式策略编程的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。