用于社交动态信息情感分析的方法、系统和存储介质与流程

文档序号:26050816发布日期:2021-07-27 15:25阅读:101来源:国知局
用于社交动态信息情感分析的方法、系统和存储介质与流程

本发明涉及情感分析技术领域,尤其涉及一种用于社交动态信息情感分析的方法、系统和存储介质。



背景技术:

移动社交因其便利与开放性等特性,逐渐成为大众信息分享与交流的重要途径。随着移动社交用户规模增加,用户发布数据量也呈现爆炸式增长。为了解社情民意,帮助政府与企业科学决策,基于用户发布内容的情感倾向性分析逐渐成为学界与工业界的研究热点。

在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:现有的对社交动态信息进行情感分析的方法,仅对单一的文本、图片或者文本与图片的社交动态信息进行情感分析,使得情感分析的范围受限,情感分析结果的准确度不高。



技术实现要素:

本公开实施例提供了一种用于社交动态信息情感分析的方法、系统和存储介质,以解决现有技术中对社交动态信息进行情感分析的方法,仅对单一的文本或者图片社交动态信息进行情感分析,使得情感分析的范围受限,情感分析结果的准确度不高的技术问题。

第一方面,提供了一种于社交动态信息情感分析的方法,该方法包括:步骤s1:获取用户原始社交动态信息,并对所述用户原始社交动态信息进行预处理,得到处理后社交动态信息,其中,所述用户原始社交动态信息包括:文本信息、图片统一资源定位符信息和视频统一资源定位符信息中的至少一种;步骤s2:计算所述处理后社交动态信息的情感倾向概率;步骤s3:根据所述情感倾向概率,得到社交动态信息情感分类。

结合第一方面,在第一方面的第一种可能的实现方式中,所述步骤s2进一步包括:步骤s21:对所述文本信息进行文本特征提取并计算文本情感倾向概率。

结合第一方面或者第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述步骤s2进一步包括:步骤s22:对所述图片统一资源定位符信息进行聚类,并计算聚类后的图片统一资源定位符信息对应的图片情感倾向概率;和/或,步骤s23:对所述视频统一资源定位符信息进行聚类,并计算聚类后的视频统一资源定位符信息对应的视频情感倾向概率。

结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述步骤s3进一步包括:步骤s31:通过以下公式计算得到社交动态信息情感倾向概率r,r=α×aurl+β×burl+c,根据r(pos,neg,neu)得到所述社交动态信息情感分类,其中,α和β为分段函数,aurl为所述图片情感倾向概率,burl为所述视频情感倾向概率,c为所述文本情感倾向概率,pos为所述社交动态信息的情感倾向为正向的概率,neg为所述社交动态信息的情感倾向为负向的概率,neu为所述社交动态信息的情感倾向为中性的概率。

结合第一方面的第二种可能的实现方式,在第一方面的第四种可能的实现方式中,所述步骤s22进一步包括:步骤s221:根据所述图片统一资源定位符信息聚类后各聚类簇对应的文本情感倾向概率值,得到聚类簇中所述图片统一资源定位符信息对应的图片情感倾向概率;所述步骤s23进一步包括:步骤s231:根据所述视频统一资源定位符信息聚类后各聚类簇对应的文本情感倾向概率值,得到聚类簇中所述视频统一资源定位符信息对应的视频情感倾向概率。

结合第一方面的第二种可能的实现方式,在第一方面的第五种可能的实现方式中,所述步骤s221进一步包括:步骤s2211:根据所述图片统一资源定位符信息聚类后各聚类簇对应的文本情感倾向概率值均值,得到聚类簇中所述所述图片统一资源定位符信息对应的图片情感倾向概率;所述步骤s231进一步包括:步骤s2311:根据所述视频统一资源定位符信息聚类后各聚类簇对应的文本情感倾向概率值均值,得到聚类簇中所述视频统一资源定位符信息对应的视频情感倾向概率。

结合第一方面的第三种可能的实现方式,在第一方面的第六种可能的实现方式中,根据r(pos,negi,neu)得到所述社交动态信息情感分类,包括:根据r(pos,neg,neu)中情感倾向概率最大值对应的情感倾向,对所述用户原始社交动态信息进行情感分类。

结合第一方面,在第一方面的第七种可能的实现方式中,所述步骤s1进一步包括:步骤s11:获取所述用户原始社交动态信息后,标记所述用户原始社交动态信息是否包含文本信息、图片统一资源定位符信息或者视频统一资源定位符信息,并对标记后用户原始社交动态信息进行预处理。

第二方面,提供了一种用于社交动态消息情感分析的系统,该系统包括:社交动态信息获取模块,用于获取用户原始社交动态信息,并对所述用户原始社交动态信息进行预处理,得到处理后社交动态信息,其中,所述用户原始社交动态信息包括:文本信息、图片统一资源定位符信息和视频统一资源定位符信息中的至少一种;情感倾向概率计算模块,用于计算所述处理后社交动态信息的情感倾向概率;情感分类获取模块,用于根据所述情感倾向概率,得到社交动态信息情感分类。

第三方面,提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行前述的用于社交动态信息情感分析的方法。

本公开实施例提供的用于社交动态信息情感分析的方法、系统和存储介质,可以实现以下技术效果:

首先,可以对社交动态信息中的文本、图片和视频信息类型中的至少一种进行情感倾向概率的计算,进而对用户进行情感倾向分析;此外,根据至少两种用户社交信息的类型对用户进行情感倾向分析,可以弥补传统情感分析数据维度单一的缺陷提高情感分析维度的全面性,可以在一定程度上提高情感分析结果的准确性。

以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:

图1为本公开实施例提供的用于社交动态信息情感分析的方法流程示意图;

图2是本公开实施例提供的用于社交动态信息情感分析方法流程的另一示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。

除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本公开实施例中“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在实现本公开实施例的过程中,发现现有的情感倾向分析任务主要围绕文本数据展开,忽略了同样能够表达网络用户情感的图片和视频信息,随着网络平台用户发布的文字、图片和视频信息的日益增长,可以对文字、图片和视频信息进行情感分析的解决方案,可以进一步提高对用户进行情感倾向性分析的全面性和科学性。此外,由于图片和视频数据量过大,存储难以满足需求,也给面向图片与视频数据的情感倾向分析任务带来巨大挑战。

本公开实施例中的社交动态可以是微博动态、微信朋友圈、qq空间动态、twitter或者facebook动态,或者是其他社交类应用程序动态。

图1是本公开实施例提供的用于社交动态信息情感分析的方法流程示意图。如图1所示,本公开实施例提供了用于社交动态信息情感分析的方法,该方法包括:步骤s1:获取用户原始社交动态信息,并对用户原始社交动态信息进行预处理,得到处理后社交动态信息,其中,用户原始社交动态信息包括:文本信息、图片统一资源定位符信息(uniformresourcelocator,简称url)和视频url中的至少一种;步骤s2:计算处理后社交动态信息的情感倾向概率;步骤s3:根据情感倾向概率,得到社交动态信息情感分类。用户原始社交动态信息具体包括:文本信息、图片url、视频url、文本信息和图片url、文本信息和视频url、图片url和视频url,或者,文本信息和图片url和视频url。

本公开实施例提供的用于社交动态信息情感分析的方法,可以实现以下技术效果:首先,可以对社交动态信息中的文本、图片和视频信息类型中的至少一种进行情感倾向概率的计算,进而对用户进行情感倾向分析;此外,根据至少两种类型的用户社交信息对用户进行情感倾向分析,可以弥补传统情感分析数据维度单一的缺陷提高情感分析维度的全面性,可以在一定程度上提高情感分析结果的准确性。

在一些实施例中,步骤s2进一步包括:步骤s21:对文本信息进行文本特征提取并计算文本情感倾向概率。可以利用部分已标注情感倾向的用户社交动态信息对基于转换器的双向编码表征(bidirectionalencoderrepresentationfromtransformers,简称bert)模型进行微调(也称fine-tuning)得到训练后的模型,并用训练后的模型提取文本信息的情感倾向信息。需要说明的是,本领域技术人员也可以使用albert(alitebert),或者roberta(robustlyoptimizedbertapproach)等其他预训练模型,只要能够实现对文本信息进行特征提取即可。使用bert模型可以更好地对文本信息进行特征提取。

在一些实施例中,对于文本情感倾向概率的计算,可以使用softmax回归算法。其中,情感倾向分类可以使用二分类、三分类、六分类或者其他情感分类方式。本公开实施例仅以三分类的情感分类方式对本公开实施例所涉的技术方案进行说明,通过softmax回归算法计算得到某条社交动态信息中的文本情感倾向概率c=(text_pos,text_neg,text_neu),其中,text_pos为文本情感倾向为正向的概率,text_neg为文本情感倾向为负向的概率,text_neu为文本情感倾向为中性的概率。这样,可以得到用户社交信息中包括文本信息的社交动态的情感倾向概率。

在一些实施例中,步骤s2进一步包括:步骤s22:对图片url信息进行聚类,并计算聚类后的图片url信息对应的图片情感倾向概率;和/或,步骤s23:对视频url信息进行聚类,并计算聚类后的视频url信息对应的视频情感倾向概率。其中,步骤s2可以包括:步骤s21、步骤s22、步骤s23、步骤s21和步骤s22、步骤s21和步骤s23、步骤s22和步骤s23,或者,步骤s21和步骤s22和步骤s23七种技术方案。这样,可以对用户社交动态信息中包括文本信息、图片url信息或者视频url信息中至少一种的社交动态进行用户情感倾向的分析,扩大了用户情感倾向分析的范围,在一定程度上提高了用户情感倾向分析的准确度。

在一些实施例中,对图片url或者视频url进行聚类分析,可以使用亲和传播聚类算法(affinitypropagationclusteringalgorithm,简称ap聚类算法)分别对图片url和视频url进行聚类。使得相同或者相似url的图片或者视频url聚为一类。此处也可以使用其他聚类算法对图片url或者视频url进行聚类,也可以对图片url和视频url使用不同的聚类算法进行聚类。社交平台用户发布的相同图片或者视频具有相同的url,社交平台用户发布的相似图片或者视频具有相似的url,可以通过网络访问得到。这样,将相同或者相似url的图片或者视频url进行聚类,可在一定程度上减小对图片url和视频url进行情感倾向概率计算的计算量,降低计算过程的复杂度;此外,现有技术中对图片、视频本身加以分析,进行情感倾向性计算的方法会由于图片及视频数据资源被删除、无法访问而不能下载对应数据,无法进一步分析,而本公开实施例所提供的技术方案利用的是图片url或者视频url,对资源已丢失的图片与视频也可加以利用应用于情感倾向分析任务,在一定程度上提高了对用户社交动态情感分析的全面性与准确性。

在一些实施例中,步骤s22进一步包括:步骤s221:根据图片url信息聚类后各聚类簇对应的文本情感倾向概率值,得到该聚类簇中各图片url信息对应的图片情感倾向概率;步骤s23进一步包括:步骤s231:根据聚类后各聚类簇中的文本情感倾向概率值,得到该聚类簇中各视频url信息对应的视频情感倾向概率。可以根据图片url信息聚类后各聚类簇对应的文本情感倾向概率值去掉最大值、最小值或者小概率部分后的均值,或者是选取能够代表一组数据的平均水平或者整体水平的文本情感倾向概率,例如是众数,得到该聚类簇中各图片url信息对应的图片情感倾向概率。同理,可以得到视频情感倾向概率。这样,无需消耗海量存储资源对图片和视频本身加以存储,可避免对图片、视频本身的下载与分析过程,节省了图片与视频存储所需的硬件资源消耗,无需使用深度学习算法对图片和视频本身进行大量的计算与分析,在一定程度上提高了计算效率、降低对图片与视频本身进行分析的复杂度。

在一些实施例中,步骤s221进一步包括:步骤s2211:根据图片url信息聚类后各聚类簇对应的文本情感倾向概率值均值,得到该聚类簇中各图片url信息对应的图片情感倾向概率;或者,步骤s231进一步包括:步骤s2311:根据视频url信息聚类后各聚类簇对应的文本情感倾向概率值均值,得到该聚类簇中各视频url信息对应的视频情感倾向概率。下面仅以图片url信息对应的图片的情感倾向概率的计算为例进行说明,假设当前待计算情感倾向概率值的图片url所在聚类集合为a,集合a中包含n条微博文本,其中第i条社交动态文本情感倾向概率则集合a中图片url的情感倾向概率值可由以下公式计算得到:

其中i=1,2,……,n。同理可得该集合a中视频url信息代表的视频的情感倾向概率burl。这样,通过对图片url和视频url进行聚类,并利用聚类后各类簇中的文本情感倾向概率值均值即可得到图片与视频的情感倾向概率值,使用极少的计算资源便可将对图片和视频资源的分析应用于用户社交动态信息情感的倾向性分析。

在一些实施例中,步骤s3进一步包括:步骤s31:通过以下公式计算得到某条社交动态信息的情感倾向概率r=α×aurl+β×burl+c,根据r(pos,neg,neu)得到该条社交动态信息情感分类,其中,α和β为分段函数,aurl为该条社交动态信息的图片情感倾向概率,burl为该条社交动态信息的视频情感倾向概率,c为该条社交动态信息的文本情感倾向概率,pos为社交动态信息的情感倾向为正向的概率,neg为社交动态信息的情感倾向为负向的概率,neu为社交动态信息的情感倾向为中性的概率。若社交动态信息包括文本信息,则根据步骤s21可以得到c=(text_pos,text_neg,text_neu);否则,c=0。若社交动态信息包括图片信息,则根据步骤s2211由图片url信息可以得到aurl;否则,aurl=0。若社交动态信息包括图片信息,则根据步骤s2311由图片url信息可以得到burl;否则,burl=0。α和β的取值根据经验得到,也可以结合实际业务场景加以调节。例如是,当图片或视频所在聚类集合a中的url条数num<10时,α=0.01;当聚类集合a中的url条数num>=10时且num<100时,a=0.05;当url条数num>=100时,α=0.2。同理β与α取值原理一致:

这样,可以融合社交动态的文本信息、图片信息或者视频信息中的至少一种对用户的情感倾向进行分析。

在一些实施例中,根据r(pos,neg,neu)得到社交动态信息情感分类,包括:根据r(pos,neg,neu)中情感倾向概率最大值对应的情感倾向,对用户原始社交动态信息进行情感分类。即pos,neg,neu中,若pos为最大值,则该条用户社交动态信息属于正向情感倾向;若pos,neg,neu中,neg为最大值,则该条用户社交动态信息属于负向情感倾向;若pos,neg,neu中,如果neu为最大值,则该条用户社交动态信息属于中性情感倾向。

在一些实施例中,步骤s1进一步包括:步骤s11:获取用户原始社交动态信息后,标记用户原始社交动态信息是否包含文本信息、图片url信息或者视频url信息,并对标记后用户原始社交动态信息进行预处理。其中,预处理包括:数据去重、数据清洗、除去特殊字符乱码等,并根据采集的字段将同一条用户社交动态信息的文本、图片url和视频url关联到一起。

图2是本公开实施例提供的用于社交动态信息情感分析方法流程的另一示意图。如图2所示,步骤p1:采集用户社交应用程序中的文本、图片url和视频url信息后,转入步骤p2:获取文本情感倾向概率后,转入步骤p3:获取图片情感倾向概率,和/或视频情感倾向概率后,转入步骤p4:结合权值,对文本情感倾向概率、和/或图片情感倾向概率、和/或视频情感倾向概率进行微调后,转入步骤p5:得到融合后的社交动态信息情感倾向概率后,转入步骤p6:根据社交动态信息情感倾向概率,得到社交动态信息情感分类。

步骤p2进一步包括:步骤p21:判断是否存在文本信息,若否,转入步骤p22:文本信息标记为空,若是,转入步骤p23:进行数据清洗,后转入步骤p24:提取文本信息后,转入步骤p25:对bert模型进行模型训练和模型调参后,转入步骤p26:得到训练后的bert模后,转入步骤p27:使用bert模型提取文本信息的文本特征后,转入步骤p28:对文本特征进行映射后,转入步骤p29:进行文本情感倾向概率计算,转入步骤p36;步骤p1还包括:步骤p31:判断是存在url,若否,转入步骤p33:url标记为空,若是,转入步骤p32:判断url类别,步骤p32包括:步骤p34:为图片url,和,步骤p35:为视频url,进行完步骤p34和步骤p35后,转入步骤p36:将同一用户的社交动态信息中的文本、图片url和视频url信息关联后,转入步骤p37:对图片url和视频url进行聚类分析后,转入步骤p38:根据聚类后各聚类簇中文本情感倾向概率融合,得到该类别url对应的情感倾向概率后,转入步骤p39:得到图片url情感倾向概率,和/或视频url情感倾向概率。

本公开实施例还提供了一种用于社交动态消息情感分析的系统,该系统包括:社交动态信息获取模块,用于获取用户原始社交动态信息,并对用户原始社交动态信息进行预处理,得到处理后社交动态信息,其中,用户原始社交动态信息包括:文本信息、图片url信息和视频url信息中的至少一种;情感倾向概率计算模块,用于计算处理后社交动态信息的情感倾向概率;情感分类获取模块,用于根据情感倾向概率,得到社交动态信息情感分类。

在一些实施例中,情感倾向概率计算模块,包括:文本特征提取模块,用于对文本信息进行文本特征提取并计算文本情感倾向概率。

在一些实施例中,情感倾向概率计算模块,还包括:图片聚类分析模块,用于对图片统一资源定位符信息进行聚类,并计算聚类后的图片统一资源定位符信息对应的图片情感倾向概率;和/或,视频聚类分析模块,用于对视频统一资源定位符信息进行聚类,并计算聚类后的视频统一资源定位符信息对应的视频情感倾向概率。

在一些实施例中,情感分类获取模块,包括:情感倾向概率计算模块,用于通过以下公式计算得到社交动态信息情感极值r,r=α×aurl+β×burl+c,根据r(pos,neg,neu)得到社交动态信息情感分类,其中,α和β为分段函数,aurl为图片情感倾向概率,burl为视频情感倾向概率,c为文本情感倾向概率,pos为社交动态信息的情感倾向为正向的概率,neg为社交动态信息的情感倾向为负向的概率,neu为社交动态信息的情感倾向为中性的概率。

在一些实施例中,图片聚类分析模块,包括:图片聚类分析单元,用于根据图片url信息聚类后各聚类簇对应的文本情感倾向概率值,得到聚类簇中图片统一资源定位符信息对应的图片情感倾向概率。视频聚类分析模块,包括:视频聚类分析单元,用于根据视频url信息聚类后各聚类簇对应的文本情感倾向概率值,得到聚类簇中视频统一资源定位符信息对应的视频情感倾向概率。

在一些实施例中,图片聚类分析单元,还包括:第一单元,用于根据图片url信息聚类后各聚类簇对应的文本情感倾向概率值均值,得到聚类簇中图片统一资源定位符信息对应的图片情感倾向概率。视频聚类分析单元,还包括:第二单元,用于根据视频url信息聚类后各聚类簇对应的文本情感倾向概率值均值,得到聚类簇中视频统一资源定位符信息对应的视频情感倾向概率。

在一些实施例中,情感分类获取模块中根据r(pos,neg,neu)得到社交动态信息情感分类,包括:根据r(pos,neg,neu)中情感倾向概率最大值对应的情感倾向,对用户原始社交动态信息进行情感分类。

在一些实施例中,社交动态信息获取模块,包括:标记模块,用于获取用户原始社交动态信息后,标记用户原始社交动态信息是否包含文本信息、图片统一资源定位符信息或者视频统一资源定位符信息,并对标记后的用户原始社交动态信息进行预处理。

需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本公开实施例还提供了一种存储介质,存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时使处理器执行前述的用于社交动态信息情感分析的方法。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1