一种面向多用户微博的情感引发原因标注方法及系统与流程

文档序号:16665228发布日期:2019-01-18 23:13阅读:229来源:国知局
一种面向多用户微博的情感引发原因标注方法及系统与流程

本发明涉及自然语言处理领域,特别是涉及一种面向多用户微博的情感引发原因标注方法及系统。



背景技术:

情感是人类共同经历中最基本的一项,而且大多数人类活动是由情感所驱动或导致的。因此,情感分析在诸如意见分析和心理分析等各类实际应用中具有很大的价值。在自然语言处理领域,有两种主要的情感分析:倾向性分析和情感分析。因为倾向性分析中的极性驱动方法经常被批评为过于笼统而不能满足一些现实生活中的应用,例如制定决策,所以研究人员已经开始探索更细腻的情感感受,例如快乐与悲伤。目前已经有很多情感分析的研究,但大部分研究都仅在于对情感的分类,例如快乐、悲伤、害怕和生气。事实上,情感分析是一个很复杂的概念。除了情感的分类这种表面层次的信息之外,情感分析往往涉及很多深层信息,如情绪原因,情绪的结果。随着社交媒体的发展,人们越来越多的依赖社交媒体进行情感的表达与交流,最普遍的是微博、产品评论这种短文本的交流。为了更好对文本的情感进行分析,故提出了情感引发原因标注方法。

中文微博可以有两种用户结构:单用户和多用户。单用户微博(以用户为中心)和多用户同一微博(以原微博为中心)。单用户微博是当前用户撰写该微博所有文本;在多用户微博中,一些文本是由当前用户编写的,另一些文本是由其转发的。这两种不同的用户结构给情感引发原因关系标注增加了难度。针对不同用户结构微博的情感引发原因的具体需求,本发明提出一种面向多用户微博的情感引发原因标注方法及系统,其针对自然语言处理领域情感引发原因分析的需求,从微博文本中标注出每个情感的关键词、引发原因、发出者等信息。



技术实现要素:

(一)要解决的技术问题

本发明要解决的技术问题是提供一种面向多用户微博的情感引发原因标注方法及系统,其能规范微博文本的情感标注流程,并提高标注速度。

(二)技术方案

为了解决上述技术问题,本发明提供了一种面向多用户微博的情感引发原因标注方法及系统,所述方法包括以下步骤:

步骤s1:自动获取微博数据,构建中文微博语料库;

步骤s2:设计一套完整的微博情感引发原因标注方法;

步骤s3:根据所述微博情感引发原因表示形式,设计一套基于图像界面的标注系统,用以加快微博情感引发原因的标注;

步骤s4:利用所述标注系统对所述语料库中语料进行人工标注,得到标注语料库;

进一步的,步骤s1具体包括:

从新浪微博网站中收集微博内容,对每一条微博,提取其中的用户名称信息、原微博内容、转发微博内容等信息;采用统一的格式保存到数据库中,构建一个中文微博语料库;

进一步的,步骤s2具体包括:

针对微博文本的多用户现象,设计一个完整的微博情感引发原因表示形式。该表示形式包括四个要素:情绪关键词、情感类型、情感发出者、情感引发原因;

为最大程度地减少标注者的主观因素,设计一套规范的标注规则,并规范标注者的标注顺序,首先标注得到情绪关键词,然后标注情感关键词所述类型,接着标注情感发出者,最后标出情感引发原因;

结合所述一个微博情感引发原因表示形式和所述一套规范的标注规则,设计一套完整的微博情感引发原因标注方法;

进一步的,步骤s3具体包括:

针对所述微博情感引发原因表示形式,设计标注系统图形界面,将界面分为情绪关键词、情感类型、情感发出者、情感引发原因四个部分,且系统根据所述标注者的标注顺序设计固定标注顺序,标注者根据所述系统设计结合所述标注规则进行文档的标注;

进一步的,步骤s4具体包括:

利用所述基于图像界面的标注系统,对权利要求2中所述中文微博语料库进行人工标注,得到一个微博情感引发原因标注语料库。

附图说明

图1为一种面向多用户微博的情感引发原因标注方法及系统流程图;

图2为基于图像界面的标注系统的主界面。

具体实施方式

为使本发明的内容更加清楚,下面将结合附图对本发明实施方式进行详细的说明。

本发明提供的一种面向多用户微博的情感引发原因标注方法及系统,能够提供一个规范的标注系统,使得标注者可以规范的从微博中标注出其所包含的情感和引发其感情的原因。其工作流程图如图1所示。

步骤s1:从微博网站中获取数据,构建中文微博语料库;具体步骤为:

从新浪微博网站中爬取数据,对收集的数据进行预处理,包括:

对爬取得到的微博文本进行格式化处理,提取其中的用户名称、微博内容、微博转发内容、原微博内容,采用统一的格式保存到数据库中,得到微博语料,37,000个用户的一共85,000,000条微博;

步骤s2:设计一套完整的微博情感引发原因标注方法;具体步骤为:

首先对所述微博语料,分析微博内容。根据其采用的用户结构,将微博分为四类:单用户单微博,包含两个子微博且当前用户未发表对于原微博的看法,包含两个子微博且当前用户发表了对于原微博的看法和至少包含3个子微博;

其次规定标注内容的具体表现形式,包括情感关键词、情感种类、情感发出者、情感引发原因这个四个方面的信息,并据此规定一整套的标注步骤,最后采用xml的格式保存到数据库中;

所述标注步骤,具体内容包括:

(1)情绪标注;

(2)情感发出者标注;对于每一个情绪,标注

(3)情感原因标注:对于每一个情绪,

a)在当前微博下选择最近的情绪原因;

b)确定当前微博之外的动词性的情绪原因;

c)确定当前微博之外的名词性的情绪原因;

为了最大程度地避免标注者的主观情绪,规范标注规则,设定了情绪原因的约束条件:

(1)动词原则,选择情绪关键词附近的相关动词作为原因;

(2)就近原则,选择距离情绪关键词最近的原因作为该关键词的原因;

结合所述标注内容的具体表现形式、所述约束条件和所述标注体系,设计一套完整的微博情感引发原因标注方法;

步骤s3:根据所述微博情感引发原因表示形式,设计一套基于图像界面的标注系统,用以加快微博情感引发原因的标注;具体步骤为:

根据所述一套完整的微博情感引发原因标注方法,设计一个基于图像界面的标注系统,该系统包括情绪关键词、情感类型、情感发出者、情感引发原因四个模块,并规定固定的标注顺序:从情绪关键词到情感类型再到情感发出者最后情感引发原因,并自动得到所述已规范好的标注格式,最大程度的规范标注过程去掉标注者的主观情绪;

步骤s5:利用所述标注系统对所述语料库中语料进行人工标注,得到标注语料库;具体步骤为:

利用所述基于图像界面的标注系统进行人工标注,得到一个微博情感引发原因标注语料库;

以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的技术人员,在不脱离本发明方法与范围的情况下,还可以做出各种变化,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应有权利要求限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1