基于微博情感分析的形象评价算法的制作方法

文档序号:12364040阅读:682来源:国知局

本发明涉及一种基于微博情感分析的形象评价算法,属于计算机应用技术领域。



背景技术:

社交网站具备快捷的信息反馈能力,形成了对社会舆论巨大的影响力,网络言论一定程度上反映一个企业的社会认可度。如何通过对社交网站海量客户评论进行识别和分析,从而判断企业形象已经成为网络时代背景下企业改善自身形象的重要挑战和机遇。

现阶段对于网络言论的使用主要集中在抱怨处理,而没有对这些网络言论造成的企业形象的整体变化进行量化。本专利提出一种基于微博情感分析的企业形象评价算法,通过获取微博相关言论和传播信息,计算一段时间内的企业形象得分,从而可以从宏观上把握网络舆论对企业形象造成的影响,了解企业在竞争同行中的位置,进一步的可以更深入的钻取和判断是哪些方面的因素造成的影响,为企业决策提供辅助支持。

在计算机领域,舆情挖掘和情感分析主要考察如何运用自然语言处理、文本挖掘、机器学习、人工智能、自动化内容分析等信息技术方法对社交网络上个体评论信息进行情感分类及体系构建。处于对企业日常工作指导的价值,这类研究针对的主要是客户抱怨评论,通过加强对顾客抱怨信息的识别、搜集及反馈能力,优化企业决策。本专利通过将用户评论内容(正面与负面)与企业运营业务分类相关联,获取各业务关注点情感分值与对企业形象的贡献度。

传统的企业形象评价一般采取问卷调查的方式进行企业形象评价。而随着大数据时代的来临,企业通过网络获取用户行为数据变得越来越容易。因此,基于真实情境大样本数据的实证分析更能够对企业形象管理提供科学合理的优化策略启示。



技术实现要素:

本发明针对现有技术中存在的问题,提供一种构建基于微博情感分析的企业形象评分算法,为供电企业判断自身形象并有针对性的采取解决措施提供技术手段。

为此本发明采用的技术方案是:本发明按照以下步骤进行:

1)收集微博客户信息;

2)构建相关微博关键词库;

3)计算微博情感分值并判断微博言论情感倾向类型;

4)划分微博言论类型,关联匹配企业服务事件;

5)计算形象评分。

所述1)步骤中:通过计算机爬虫程序模拟人工搜索和浏览实现数据的自动抓取,所有抓取数据都是微博博主对外公开的信息,不涉及隐私信息。

微博客户信息主要包括用户身份、微博内容以及用户行为信息;

其中,用户身份信息包括用户名、用户行业、用户性别、账号类别,微博内容数据包括微博发布时间和文本内容,用户行为数据包括关注数、粉丝数、评论数量、转发数量、点赞数量。

所述2)步骤中:关键词库即是客户对电网相关评论的关键“词语库”,包括停电、来电、95598客服态度、铺设电缆扰民、窃电、抄电表出错、营业厅人员、错峰、诈骗、电压不稳。

所述3)步骤中:客户评论情感倾向可以划分为正面、负面和中立三类;

采取词库法开展客户评论情感倾向判断,具体工作步骤为:随机筛选部分相关微博,由供电服务专家进行人工分类和情感标定;随机选取部分微博作为样本,利用分词技术和计算机统计算法初步建立情感词库,并赋予每个词一定情感极性权重—权重分正负,越大表示正面感情越强烈,无感情则情感值为0;供电服务专家对词库中所有词进行人工校对,确保准确性,减少评判误差;一条微博包含词库中某类词的权重之和为本条微博情感分值,当情感分值达到一定临界值,则可以对客户言论中包含的情感进行判别。

所述4)步骤中:运用基于分词技术的微博分类算法,将通过搜索关键词库获取的微博经过分类关键词识别,从而进一步判断该条微博所描述内容的类别,将每条微博的类别对应到相应的业务分类能够更精准的辅助业务提升。

所述5)步骤中具体步骤如下:

(1)将情感分值归一化:通过分析大量微博数据,发现所有微博情感分值为 的时候已经可以表达极强烈的正面和负面情绪,因此对任意一条情感分为的微博,将其情感分归一化为 ;

(2)计算单条微博的影响力:单条微博影响力的计算公式为:。其中为此微博博主身份,在本专利中普通用户设为1,VIP用户设为10;分别为粉丝数、评论数、转发数和点赞数,权重按经验分别设为0.3,0.2,0.2,0.3;

(3)计算单条微博对企业的形象评价分值:;

(4)计算一类微博对企业的形象评价分值:,为属于类别j的所有微博形象评价分值之和经过归一化之后的结果;

(5)计算企业形象评价分值。为所有微博形象评价分值之和经过归一化后的结果,公式如下:

本发明的优点是:本发明以用户对电网相关的微博评论作为研究对象,采用文本挖掘技术和情感分析相结合的方法,构建基于微博情感分析的企业形象评分算法,为供电企业判断自身形象并有针对性的采取解决措施提供了坚强的技术手段。

具体实施方式

研究方法及算法:

主要目标为基于客户微博言论构建企业形象评价,主要步骤为 :1)收集微博客户信息;2)构建电网相关微博关键词库;3)计算微博情感分值并判断微博言论情感倾向类型;4)划分微博言论类型,关联匹配企业服务事件;5)计算企业形象评分。

1)微博客户信息收集:

通过计算机爬虫程序模拟人工搜索和浏览实现数据的自动抓取,所有抓取数据都是微博博主对外公开的信息,不涉及隐私信息。本专利收集的微博客户信息主要包括用户身份、微博内容以及用户行为信息。其中,用户身份信息包括用户名、用户行业、用户性别、账号类别,微博内容数据包括微博发布时间和文本内容,用户行为数据包括关注数、粉丝数、评论数量、转发数量、点赞数量。

2)构建电网相关微博关键词库:

关键词库即是客户对电网相关评论的关键“词语库”,包括停电、来电、95598客服态度好、铺设电缆扰民等,能够在一定程度上反映对电网的评价。根据某电网业务范围,在客户重点关注领域构建微博关键词库。本专利使用的关键词库主要包含以下方面:窃电、抄电表出错、95598、营业厅人员、错峰、诈骗、电压不稳等21类。

3)获取客户言论情感分值:

客户评论情感倾向可以划分为正面、负面和中立三类。目前存在三种识别顾客评论情感倾向的方法:基于词库、基于语料和基于层面。本专利采取词库法开展客户评论情感倾向判断,具体工作步骤为:随机筛选部分相关微博,由供电服务专家进行人工分类和情感标定;随机选取部分微博作为样本,利用分词技术和计算机统计算法初步建立情感词库,并赋予每个词一定情感极性权重—权重分正负,越大表示正面感情越强烈,无感情则情感值为0;供电服务专家对词库中所有词进行人工校对,确保准确性,减少评判误差;一条微博包含词库中某类词的权重之和为本条微博情感分值,当情感分值达到一定临界值,则可以对客户言论中包含的情感进行判别(正面或者负面)。

4)划分微博言论类型:

本专利运用基于分词技术的微博分类算法,将通过搜索关键词库获取的微博经过分类关键词识别,从而进一步判断该条微博所描述内容的类别,将每条微博的类别对应到相应的业务分类能够更精准的辅助业务提升。

5) 计算企业形象评分:

本专利基于以下两条假设形成企业形象评分算法。首先,每一条正面或负面的微博都从积极或消极的方面影响着一个企业的形象评分;其次,微博转发、评论、点赞数和博主身份、粉丝数都对一条微博的影响力有着贡献,而影响力越大对企业形象造成的波动也越大。因此,我们可以通过前一步骤获取的每一条微博情感企业形象得分和微博影响力的大小计算企业形象得分,具体步骤如下:

(1)将情感分值归一化。通过分析大量微博数据,发现所有微博情感分值为 的时候已经可以表达极强烈的正面和负面情绪,因此对任意一条情感分为的微博,将其情感分归一化为 。

(2)计算单条微博的影响力。单条微博影响力的计算公式为:。其中为此微博博主身份,在本专利中普通用户设为1,VIP用户设为10;分别为粉丝数、评论数、转发数和点赞数,权重按经验分别设为0.3,0.2,0.2,0.3。

(3)计算单条微博对企业的形象评价分值。。

(4)计算一类微博对企业的形象评价分值。,为属于类别j的所有微博形象评价分值之和经过归一化之后的结果。

(5)计算企业形象评价分值。为所有微博形象评价分值之和经过归一化后的结果,公式如下:

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1