本发明涉及藏语微博领域,特别是涉及一种藏语微博情感倾向性分析方法和系统。
背景技术:
微博平台作为国内重要的信息交流、新闻信息发布和获取的渠道,极大的影响着现代人的生活,它能够在短时间内汇集大量用户在某一时间段内的情绪状态或对某一事件的观点、看法。
微博中有汉语、英语、藏语和其他语言的微博,现有的情感倾向性分析方法中,有关于汉语、英语内容的微博的情感倾向性分析方法,缺乏一种藏语内容的微博的情感分析方法,藏语有其自身的语言特点,微博话题具有短文本、句式复杂、流行语多、表情符号多、用户互动性的特点,所以,需要一种结合藏语自身的语言特点和微博的特点来分析藏语微博的情感倾向性分析方法。
技术实现要素:
本发明的目的是提供一种藏语微博情感倾向性分析方法和系统。
为实现上述目的,本发明提供了如下方案:
一种藏语微博情感倾向性分析方法包括:
预先采集藏语微博文本信息;
将所述藏语微博文本信息预处理,获得藏语文本序列数据库;
将所述藏语文本序列数据库采用基于藏语语言特征的情感分析方法进行情感分析处理,获得情感特征词、影响因子、序列规则、词性、句法依存关系、表情符号;
根据所述情感特征词、影响因子、序列规则、词性、句法依存关系、表情符号构建情感向量空间模型,获得藏语微博情感向量空间模型;
根据所述藏语微博情感向量空间模型对当前藏语微博文本信息进行情感分类,获得所述当前藏语微博文本信息的情感信息。
可选的,所述将所述藏语微博文本信息预处理,获得藏语文本序列数据库的方法具体包括:
初始化所述藏语微博文本信息,获得多个藏语微博文本句子;
采用基于词典方法,逐个分析所述藏语微博文本句子的情感,获得多个对应所述藏语微博文本句子的情感标签;
逐个结合每个所述藏语微博文本句子的情感标签和句首连词,形成多个藏语文本序列,获得所述藏语文本序列数据库。
可选的,所述将所述藏语文本序列数据库采用基于藏语语言特征的情感分析方法进行情感分析处理具体包括:
预处理所述藏语文本序列数据库,获得藏语文本序列;
将所述藏语文本序列的情感特征分类,获得情感词和情感短语;
将所述情感词和情感短语与情感词典匹配,计算出所述情感词和情感短语的情感值,获得所述情感特征词;
根据所述藏语文本序列中的句子的谓语结构和句子关系分析,获得所述影响因子、序列规则、词性、句法依存关系、表情符号。
可选的,根据所述情感特征词、影响因子、序列规则、词性、句法依存关系、表情符号构建情感向量空间模型,获得藏语微博情感向量空间模型具体包括:
根据所述情感特征词、影响因子、序列规则、词性、句法依存关系组成语义特征;
根据所述表情符号获得情感特征;
根据所述语义特征和所述情感特征获得所述藏语微博情感向量空间模型。
可选的,所述的表情符号具体包括:好、乐、惊、衰、恶、怒、惧,7维表情特征。
一种藏语微博情感倾向性分析系统包括:采集模块,用于预先采集藏语微博文本信息;
预处理模块,用于将所述藏语微博文本信息预处理,获得藏语文本序列数据库;
分析模块,用于将所述藏语文本序列数据库采用基于藏语语言特征的情感分析方法进行情感分析处理,获得情感特征词、影响因子、序列规则、词性、句法依存关系、表情符号;
构建空间模型模块,用于根据所述情感特征词、影响因子、序列规则、词性、句法依存关系、表情符号构建情感向量空间模型,获得藏语微博情感向量空间模型;
情感分类模块,用于根据所述藏语微博情感向量空间模型对当前藏语微博文本信息进行情感分类,获得所述当前藏语微博文本信息的情感信息。
可选的,所述分析模块具体包括:
处理模块,用于预处理所述藏语文本序列数据库,获得藏语文本序列;
情感特征分类模块,用于将所述藏语文本序列的情感特征分类,获得情感词和情感短语;
匹配模块,用于将所述情感词和情感短语与情感词典匹配,计算出所述情感词和情感短语的情感值,获得所述情感特征词;
提取模块,用于根据所述藏语文本序列中的句子的谓语结构和句子关系分析,获得所述影响因子、序列规则、词性、句法依存关系、表情符号。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明通过采集藏语微博文本信息,经过预处理获得藏语微博文本序列数据库,再采用情感分析方法进行情感分析处理,获得情感特征参量,根据情感特征参量构建情感空间向量模型,根据空间向量模型来分析藏语微博情感倾向,能够更加准确地分析藏语微博的情感倾向。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种藏语微博情感倾向性分析方法的流程图;
图2为获得藏语文本序列数据库的方法的流程图;
图3为基于藏语语言特征的情感分析方法进行情感分析处理的流程图;
图4为获得藏语微博情感向量空间模型方法的流程图;
图5为本发明一种藏语微博情感倾向性分析系统的组成框图;
图6为分析模块的组成框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种藏语微博情感倾向性分析方法和系统。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,一种藏语微博情感倾向性分析方法包括:
步骤100:预先采集藏语微博文本信息;
步骤200:将所述藏语微博文本信息预处理,获得藏语文本序列数据库;
步骤300:将所述藏语文本序列数据库采用基于藏语语言特征的情感分析方法进行情感分析处理,获得情感特征词、影响因子、序列规则、词性、句法依存关系、表情符号;
步骤400:根据所述情感特征词、影响因子、序列规则、词性、句法依存关系、表情符号构建情感向量空间模型,获得藏语微博情感向量空间模型;
步骤500:根据所述藏语微博情感向量空间模型对当前藏语微博文本信息进行情感分类,获得所述当前藏语微博文本信息的情感信息。
如图2所示,所述将所述藏语微博文本信息预处理,获得藏语文本序列数据库的方法具体包括:
步骤201:初始化所述藏语微博文本信息,获得多个藏语微博文本句子;
步骤202:采用基于词典方法,逐个分析所述藏语微博文本句子的情感,获得多个对应所述藏语微博文本句子的情感标签;
步骤203:逐个结合每个所述藏语微博文本句子的情感标签和句首连词,形成多个藏语文本序列,获得所述藏语文本序列数据库。
如图3所示,所述将所述藏语文本序列数据库采用基于藏语语言特征的情感分析方法进行情感分析处理具体包括:
步骤301:预处理所述藏语文本序列数据库,获得藏语文本序列;
步骤302:将所述藏语文本序列的情感特征分类,获得情感词和情感短语;
步骤303:将所述情感词和情感短语与情感词典匹配,计算出所述情感词和情感短语的情感值,获得所述情感特征词;
步骤304:根据所述藏语文本序列中的句子的谓语结构和句子关系分析,获得所述影响因子、序列规则、词性、句法依存关系、表情符号。
如图4所示,根据所述情感特征词、影响因子、序列规则、词性、句法依存关系、表情符号构建情感向量空间模型,获得藏语微博情感向量空间模型具体包括:
步骤401:根据所述情感特征词、影响因子、序列规则、词性、句法依存关系组成语义特征;
步骤402:根据所述表情符号获得情感特征;
步骤403:根据所述语义特征和所述情感特征获得所述藏语微博情感向量空间模型。
所述的表情符号具体包括:好、乐、惊、衰、恶、怒、惧,7维表情特征。
如图5所示,一种藏语微博情感倾向性分析系统包括:
采集模块1,用于预先采集藏语微博文本信息;
预处理模块2,用于将所述藏语微博文本信息预处理,获得藏语文本序列数据库;
分析模块3,用于将所述藏语文本序列数据库采用基于藏语语言特征的情感分析方法进行情感分析处理,获得情感特征词、影响因子、序列规则、词性、句法依存关系、表情符号;
构建空间模型模块4,用于根据所述情感特征词、影响因子、序列规则、词性、句法依存关系、表情符号构建情感向量空间模型,获得藏语微博情感向量空间模型;
情感分类模块5,用于根据所述藏语微博情感向量空间模型对当前藏语微博文本信息进行情感分类,获得所述当前藏语微博文本信息的情感信息。
如图6所示,所述分析模块3具体包括:
处理模块31,用于预处理所述藏语文本序列数据库,获得藏语文本序列;
情感特征分类模块32,用于将所述藏语文本序列的情感特征分类,获得情感词和情感短语;
匹配模块33,用于将所述情感词和情感短语与情感词典匹配,计算出所述情感词和情感短语的情感值,获得所述情感特征词;
提取模块34,用于根据所述藏语文本序列中的句子的谓语结构和句子关系分析,获得所述影响因子、序列规则、词性、句法依存关系、表情符号。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。