一种基于中文语义结构和细分词库结合的情感分析方法_2

文档序号：9375578阅读：来源：国知局

了一种包含上述情感分析方法的多个待测文本情感分析方法，所述多个待测文本的情感分析方法包括：首先，在计算机系统中同时输入首尾依次连接多个待测文本；其次，采用权利要求1-9中任一所述的情感分析方法，分析出多个待测文本中每一待测文本的情感值；再者，将每一待测文本的情感值，从最后一个待测文本开始，依次向前累加。
[0020] 较佳地，所述累加为：从后向前，从右向左，依次向前累加。
[0021] 本发明的有益效果： 1. 专业的基于中文财经词汇的分词模块。普通分词程序专业性不强，只能对一些常用的普通词汇进行分词，而要得到某专业内的常用词汇或专业词汇，必须在分词词典中添加上该行业的特定词汇。建议基于财经词汇的专业分词模块是本发明至关重要的环节； 2. 全面的中文财经情感词典。情感词典分为基础情感词典和专业情感词典。基础情感词典包括《知网》、《台湾大学情感词典》、《褒义词词典》、《贬义词词典》提供的情感词汇，通过去重处理，得到基础情感词典。专业情感词典即财经领域情感词典，主要从《证券投资分析》、《经济学词典》中获取财经词汇。另外，因为本发明主要是对网络爬虫抓取的财经新闻评论文本和股吧论坛的文本进行情感分析，所以人工提取了 2013年至2015年所抓取数据的网络词和财经新闻用词，并分析其情感色彩，扩充财经情感词库，使情感词典更适合网络财经新闻文本的情感分析，大大提高了情感识别率和准确率； 3. 详细的情感词分类。目前常用的文本情感分析方法对情感词的研究更多地集中在情感词的褒贬分类上。本发明针对目前财经情感分析领域中对情感词的分类不具体，导致只能对情感词叠加得到文本总情感值，从而准确率和可信度偏低的问题。在中文文本财经领域，对领域内的常用词汇、专业词汇细分为几十个子类的情况尚属首次，有效地解决了情感词分类过于笼统，文本情感值完全基于对其中出现的情感词统计叠加的问题； 4. 语义模式的匹配建立在情感词排列统计的基础之上，使用的是基于情感词的语义模式组合。在语义模式匹配中，更多的是根据中文句型的样式人工标注句型结构，如主谓宾结构。这样的句型结构太过通用，不能很好地与情感词句型结构匹配，导致句型不适合情感匹配。本发明句型模式的积累采用统计方法，根据分词标注的情感值与其他否定词、反转词等的不同排列组合，统计得到句型结构出现概率大的几十种模式，满足了情感文本的情感句型匹配和识别； 5. 由于细分词库，更好地匹配情感语义模式，以语义分析为主，统计叠加情感单元情感值为辅，凝聚了中文语义分析和统计分析的精华。以满足语义模式的情感单元而不是情感词为单位进行情感分析，最大程度上保证了情感叠加单元的情感准确度，从而获得文本更准确的情感结果。
【附图说明】
[0022] 图1示出了本发明一个实施例中情感分析方法的步骤示意图。
【具体实施方式】
[0023] 以下结合附图和下述实施方式进一步说明本发明，应理解，附图及下述实施方式仅用于说明本发明，而非限制本发明。
[0024] 本发明提出一种基于中文语义结构和细分词库结合的情感分析方法，尤其涉及一种应用于中文财经新闻评论句子级文本的情感分析方法，属于计算机科学技术、财经学、语言学的交叉学科。其中包括情感词典、分词模块、语义模式库、情感分析模块四大部分。它们之间的关系如图1所示。
[0025] 财经文本（可以作为待测文本）短句来源：网络爬虫全网抓取，选定特定的财经新闻评论数据源，并切分成短句。
[0026] 分词模块：采用双向最大匹配算法，匹配出所有字串形成的最长词语。
[0027] 语义模式匹配模块：根据情感词、否定词、连接词、反转词、比较词等的排列组合模式，统计提取出出现几率比较大的几十种模式，并按照实际句子的情感人工给出模式的情感值。
[0028] 情感分析模块：根据语义模式匹配的结果综合得到句子情感值。
[0029] 情感值输出：句子情感值，最终结果大于1则判定情感值为正面，小于-1则判定情感值为负面，无模式匹配或情感单元叠加后值为〇则情感值为〇,判为中性情感。
[0030] 1.分词模块该模块完成的功能包括：对财经新闻评论文本进行断句和分词处理，最大化地提取出财经情感词汇或短语，根据情感词典，对情感词汇或情感短语进行属性标注。
[0031] 分词模块的前期工作：为了使分词词典更全面地覆盖尽可能多的财经词汇，在基础词库的基础之上，采用人工提取和筛选的方法，从网络爬虫获取的近五万条新闻评论语料库中人工提取财经词汇和短语，尤其是财经情感分析需要的词汇、短语和网络习惯用语添加进分词词典中，从而使分词模块能够识别财经词汇或短语，更专业化地针对财经文本进行处理。
[0032] 分词模块的算法：基于双向最大匹配算法。为了更好地匹配财经新闻评论中出现的词语，让机器更大化地理解文本的意义，尽量识别长短语即尽可能多地获取更长的信息将有助于机器情感分析。基于双向最大匹配算法的分词模块能更好地识别出文本长短语，使情感分析更准确。
[0033] 下面详细地介绍情感标注的标准： (1)断句的标注。模块中将"。"、"；"、" ！"、"？ "、"……"作为句子结束的标志，标注符为END，其他表示句子未结束，进行句中间隔的标点符号如"，"、"、"，标注为COMMA ; ⑵情感词的标注。参考情感词库中的情感词分类，对存在于情感词库中的情感词的属性进行标注。分词属性的标注按照情感词类和辅助类进行标注，情感词类共分为14类，分别是八类不及物动词，四类及物动词（包括形容词）和两类名词。
[0034] 表1情感分类标注表
表2其它词类标注表： CN 105095190 A 说明书 8/15 页
：0
[0035] 2.情感词典情感词典分为两部分：基础情感词典和专业情感词典。基础情感词典包括《知网》、《台湾大学情感词典》、《褒义词词典》、《贬义词词典》提供的情感词汇，通过去重处理，得到基础情感词典。专业情感词典即财经领域情感词典，主要从《证券投资分析》、《经济学词典》中获取财经词汇。另外，因为本发明主要是对网络爬虫抓取的财经新闻评论文本和股吧论坛的文本进行情感分析，所以人工提取了 2013年至2015年所抓取数据的网络词和财经新闻用词，并分析其情感色彩，扩充财经情感词库，使情感词典更适合网络财经新闻文本的情感分析，从而大大提高了情感识别率和准确率。
[0036] 3.语义模式匹配模块情感词分类识别之后，就可以判断整个句子的情感值。本发明建立了专门适用于以句子为单位的情感模式匹配模块，根据各类情感词的排列规则，统计出几十种可供句子情感匹配的模式条目，只有分析的句子符合诸如表3所列条目的一种，才综合计算和赋予句子情感值。
[0037] 表3句子情感模式匹配表（语义模式匹配表）

[0038] 4.情感分析模块情感分析模块根据情感词的分类排列，与语义模式进行匹配，按照最右优先匹配的方法与表3的语义模式进行匹配，得到每个情感单元的情感值。
[0039] 最右优先匹配的算法是：从分词标注的END结束符（即句子结束符）开始，自右向左扫描整个句子，与表3中预设的模式进行匹配，采用最长匹配的原则，优先匹配表3中的长模式，得到模式对应的情感值，即为该情感单元的情感值。然后将各情感单元的情感强度进行累加，得到句子的累加情感值。采用最右匹配的原则是根据中文语言的特点来决定的。中文表达中，重要的观点是在句子的后半段提出，因而情感语义模式的匹配以最右匹配为标准。
[0040] 情感单元累加公式如式1 :
(I) q
[0041] 其中，S表示句子，E (S)表示整个句子的情感总值，m表示该句中情感单元的个数， Si表示单个情感单元，E (S ;)表示单个情感单元的情感值。
[0042] 当句子中出现单独的否定词、反转词而无模式匹配，或出现句子结束符时，作如下处理，如式2 :
.〇
[0043] 说明

完整全部详细技术资料下载

当前第2页1 2 3 4