基于事件态势与用户认知的危机信息推送方法及系统

文档序号:31306062发布日期:2022-08-30 21:28阅读:125来源:国知局
基于事件态势与用户认知的危机信息推送方法及系统
基于事件态势与用户认知的危机信息推送方法及系统


背景技术:

1.本发明属于大数据信息匹配及推送技术领域,涉及一种危机信息推送方法及系统,具体涉及一种基于事件态势与用户认知的危机信息推送方法及系统。
2.背景技术
3.社交媒体环境下,公共危机信息服务可能面临两难局面,一方面某些群体因信息闭塞而低估事件的严重性,另一方面某些群体因信息过载而陷入恐惧与焦虑。因此,如何根据用户之间差异化的危机认知,向用户进行个性化的危机信息发送,及时补充其所需的危机信息,具有十分重要的意义。
4.在已有的个性化信息推荐中,平台往往只依托用户的历史兴趣去推荐符合用户偏好的信息,无法对用户的需求产生正确的、真实的、完整的认识,并不完全适用于危机情境下的信息服务。公共危机发生后,如果大众仅关注其感兴趣的内容,长时间处于同质、重复信息的茧房与桎梏之中,就无法形成对危机情境的完整与正确认知。


技术实现要素:

5.鉴于此,本发明旨在面向公共危机情境,为社交媒体平台提供一种以用户认知为基础,能够快速响应用户个性化、动态化需求的信息发送方法,即根据用户不断变更的认知状态,动态识别目标用户、调整推荐信息,并向有需求的目标用户及时敏捷地发送与危机相关的信息。
6.本发明的方法所采用的技术方案是:一种基于事件态势与用户认知的危机信息推送方法,包括以下步骤:
7.步骤1:检索社交媒体中与危机事件相关的关键词,获取社交媒体中所有相关数据及用户数据,并对数据进行预处理;
8.步骤2:危机事件画像,在此基础上建立完整的危机事件信息库;
9.步骤3:社交媒体用户对危机认知画像;
10.建立社交媒体用户对危机认知画像的标签体系,按照原始数据—事实标签—画像标签的路径进行用户画像;
11.所述标签体系分为三个部分:用户基础属性、用户情境属性与用户认知属性;所述用户基础属性包括用户性别、年龄和是否认证信息;所述用户情境属性包括用户的空间属性和行业属性;所述用户认知属性包括用户认知的话题完整性、情绪极端性和观点影响力;
12.步骤4:识别出目标用户,通过危机信息与目标用户之间的匹配关系,进行危机信息的敏捷推送。
13.本发明的系统所采用的技术方案是:一种基于事件态势与用户认知的危机信息推送系统,包括以下模块:
14.模块1,用于检索社交媒体中与危机事件相关的关键词,获取社交媒体中所有相关数据及用户数据,并对数据进行预处理;
15.模块2,用于危机事件画像,在此基础上建立完整的危机事件信息库;
16.模块3,用于社交媒体用户对危机认知画像;
17.建立社交媒体用户对危机认知画像的标签体系,按照原始数据—事实标签—画像标签的路径进行用户画像;
18.所述标签体系分为三个部分:用户基础属性、用户情境属性与用户认知属性;所述用户基础属性包括用户性别、年龄和是否认证信息;所述用户情境属性包括用户的空间属性和行业属性;所述用户认知属性包括用户认知的话题完整性、情绪极端性和观点影响力;
19.模块4,用于识别出目标用户,通过危机信息与目标用户之间的匹配关系,进行危机信息的敏捷推送。
20.本发明的有益效果为:
21.(1)提出测量用户对危机事件的涉入度计算方法,建立各类用户对危机事件的基本信息知晓标准。
22.将用户的空间属性、行业属性和危机事件的背景信息进行关联分析,将用户划分为高、中、低三类危机涉入度人群;针对各类危机涉入度的用户,计算关注每个话题的用户数量,它反映各类涉入度用户对于每个话题的现实需求程度,按照关注用户数对所有话题进行降序排列,以排序前n的话题类别作为某类用户信息知晓的最低标准。
23.(2)构建用户认知状态分析方法,确定敏捷信息发送的目标用户。
24.本发明利用数据画像方法,设计用户认知的动态画像,确立危机情境下用户认知状态的分析方法,通过对比用户认知和基本信息知晓标准,来确定危机信息敏捷发送的三类目标用户,即话题缺口型、情绪极端型以及观点引导型。
25.(3)针对当前个性化信息推荐存在的信息茧房问题,提出根据用户认知状态与事件情境的信息敏捷发送策略。
26.目前的无差别危机信息服务存在针对性不足的问题,而个性化信息推荐方法大多是仅根据用户兴趣进行信息推荐,容易导致用户陷入信息茧房,忽略重要信息。本发明通过度量用户的认知缺口、极端情绪与观点影响力,对现有的用户偏好导向的个性化信息推荐方法进行优化,综合话题、情感、热度、时间等指标进行加权计算与匹配,以用户认知为核心进行信息的敏捷发送,实现了推送信息与用户差异化、动态化认知需求的契合,,提高了危机信息发送的效率与针对性,更加适用于危机响应及信息服务场景,使公众全面、科学地认知危机情境。
附图说明
27.图1为本发明实施例的方法流程图。
具体实施方式
28.为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
29.请见图1,本发明提供的一种基于事件态势与用户认知的危机信息推送方法,包括以下步骤:
30.步骤1:对政府门户网站和社交媒体平台上的危机事件数据与用户数据进行实时
采集与预处理。
31.本实施例首先,通过微博(或其它社交媒体平台)检索与危机事件相关的关键词,获取所有相关微博数据。相关微博数据包括博主id、博文、发布时间、获得的转发/评论/点赞数量等信息。然后,进一步获取每条微博下的评论及转发数据。根据获取到的微博网址,得到评论用户id、评论内容、评论时间、评论获回复/点赞数等评论数据,以及转发用户id、转发评论内容、转发时间、转发获点赞/转发数等转发数据。最后,利用获取的所有发布微博用户、转发用户、评论用户的微博主页网址,抓取用户个人信息,包括用户名、性别、认证信息、个人简介、标签、关注数、粉丝数、微博数、所在地、大学、职业、注册时间等个人信息数据。
32.本实施例数据预处理包括两个部分:对微博数据的预处理和对用户数据的预处理。对微博数据进行预处理主要包括过滤与清洗微博数据、构建自定义用户分词词典、微博文本分词与去停用词。对用户数据进行预处理的主要目的是对用户进行分类,将官方账户、个人用户以及他们发布的微博区分开来。
33.步骤2:基于官方账户发布的事件相关微博信息,提取事件的关键信息,包括话题、评价、热度、背景等,勾勒事件态势并构建事件的危机信息库。
34.本实施例通过提取事件主副线信息链,完成危机事件画像。其中,主线信息链是核心部分,它们刻画事件的“情节”特征,主要包括话题信息。副线信息链是补充部分,它们刻画事件的“细节”特征,主要包括背景信息、评价信息、热度信息。事件的话题、评价、热度信息分别通过微博主题分析、评论情感分析、微博热度计算等方式抽取。事件背景信息主要指危机事件波及的地区和影响群体。通过抽取以上特征信息,最终得到完整的事件画像。在此基础上建立完整的危机事件信息库,为后续敏捷发送信息提供数据基础资源。
35.步骤3:利用用户的基本信息与行为数据,判断用户与事件间的情境关联,将用户划分为高、中、低三类危机涉入度人群,勾勒完整的用户危机认知画像。
36.建立社交媒体用户认知画像的标签体系,按照原始数据—事实标签—画像标签的路径进行用户画像。标签体系分为三个部分:用户的基础属性、情境属性与认知属性。其中,用户基础属性包括性别、年龄、是否认证等。用户情境属性主要包括用户的空间属性和行业属性,识别过程主要包括三个步骤:(1)对用户原始数据进行统计分析与自然语言处理,得到用户地理位置与行业的事实标签;(2) 将用户的地理位置、行业分别与危机事件的波及地区、行业进行关联分析,判断用户是否处于危机事件地区或行业;(3)综合用户与事件的空间关联和行业关联,识别出用户的危机涉入度特征。
37.首先,对原始数据进行统计分析与自然语言处理,得到用户的地理空间属性与行业属性。用户地理空间属性的判断主要来自三个渠道的数据:用户发布微博的定位位置、用户填写的所在地与大学信息、用户个人简介与标签中的专有地名。对于用户个人简介和标签文本,利用pyhanlp工具包进行命名实体识别抽取出地名实体。然后对所有地址信息进行统一格式处理,通过python程序调用cpca工具包进行地址地名解析,识别用户地址信息中的省、市、区并进行映射,保留其中的省、市部分,得到用户地理位置属性user
district
。当微博定位、用户信息、个人简介与标签中均包含用户的地理位置信息时,判定优先级为:微博定位》用户信息》个人简介与标签。同样地,根据用户的个人简介、工作经历、标签等信息得到用户的行业属性user
industry

38.然后,将用户的空间属性、行业属性和危机事件的背景信息进行关联分析,判断用户与危机事件的空间关联与行业关联,空间关联的判断规则如公式(1) 所示:
[0039][0040]
其中,user
r_dist
为用户与危机事件的地区关联,其值为2时代表用户地理位置 user
district
位于与危机事件同省的危机事件地区event
district1
,值为1时代表用户地理位置user
district
位于与危机事件地理相邻的相关地区event
district2
,值为 0时代表用户位于其他地区event
district
。当用户地理位置user
district
在危机事件 (可能)的波及范围之内时,用户与事件间存在空间关联;
[0041]
用户与事件间行业关联的判断规则如公式(2)所示:
[0042][0043]
其中,user
r_indus
为用户与危机事件的行业关联,其值为1时代表用户的行业属性user
industry
处于受危机事件影响的行业event
undustry
,值为0时代表用户的行业属性user
industry
处于未受危机事件影响的行业。当用户的行业类别在危机事件的影响群体之内时,用户与事件间存在行业关联。
[0044]
根据各地区颁布的危机事件的划分方法,结合2015年颁布《中华人民共和国职业分类大典》对我国社会职业的划分和归类,本发明总结受危机事件影响的行业,并提炼相关行业的关键词。通过对用户行业属性进行关键词匹配,识别用户是否位于受危机事件影响的行业。最后,根据用户与事件间的空间关联与行业关联,判断用户的危机涉入度user
involve
,用户的危机事件涉入度分为高、中、低三种类型,具体划分标准如表1所示。
[0045]
表1用户的危机事件涉入度
[0046][0047]
用户认知属性包括用户认知的话题完整性、情绪极端性和观点影响力三个方面。首先,为了刻画用户认知的话题完整性,通过判断每位用户生成和获取的微博所包含的话题,来识别用户的话题认知状态,构建用户话题认知矩阵 cog
user_topic
,如等式(3)所示。
[0048][0049]
其中,n为用户数量,k为话题数量,t
ij
(i=1,2,

,n,j=1,2,

,k)表示第i个用户发布的信息在第j个主题上的分布,若存在则为1,否则为0。
[0050]
其次,为了刻画用户认知的情绪极端性,对于任一用户,将其在某一话题上的信息集合表示为f=(f1,f2,

,f
l
,

,f),识别得到的对应的情感值表示为 e=(e1,e2,

,el
,

,e);考虑到时间因素对用户情感的影响,对时间越近的信息赋予越大的权重,信息f
l
的时间因子u
l
的定义为:
[0051][0052]
等式(4)中,t
l
是用户获取或发布信息f
l
的时间,t0是当前时间,α是时间衰减参数,通过实验确定;则用户在该话题上的综合情感倾向与强度为:
[0053][0054]
其中,e
l
是用户在第l个主题上的情感倾向与强度;
[0055]
利用等式(5)计算所有用户在各话题上的综合情感倾向与强度,通过构建话题-情感关系矩阵(6),来表示用户目前对危机认知的情绪状态:
[0056][0057]
其中,n为社交媒体用户数量,k为事件话题数量,e
ij
表示第i个用户在第j个话题上的情感倾向与强度;i=1,2,

,n;j=1,2,

,k。
[0058]
本实施例中,情感倾向与强度用百度ai开放平台(https://ai.baidu.com/tech/nlp_apply/sentiment_classify)计算,情感倾向分为积极、消极、中性,情感分析结果e
l
为0到1的数值。e
l
高于0.5时,情感倾向为积极,低于0.5为消极,等于0.5时为中性。e
l
数值越低(接近于0),表明消极情感强度大;e
l
数值越高(接近于1),表明积极情感强度大。
[0059]
第三,为了刻画用户的观点影响力,根据用户近期所发布信息获得的反馈次数来综合计算用户的观点影响力,对于第j个话题,提出用户微博影响力mi
ij
与用户评论影响力ci
ij
的计算方法,分别如公式(7)、(8)所示。
[0060][0061][0062]
其中,n
ij
、m
ij
分别为用户i在第j个话题上发布的微博数和评论数,mf、mc、 cr分别为微博转发数量、微博评论数量和评论回复数量,w1、w2分别为微博转发与微博评论所占的权重,其值由熵权法确定。熵权法属于客观赋权法,当指标的信息熵越大,说明其贡献的信息量越多,对于影响力评价的重要性就越高,在影响力计算中赋予越高的权重。由此得到该用户在第j个话题上的观点影响力in
ij
如等式(9)所示:
[0063]
in
ij
=mi
ij
+ci
ij
ꢀꢀ
(9)
[0064]
于是所有用户的认知影响力分布可以表示为等式(10):
[0065][0066]
其中,n为微博用户数量,k为事件话题数量,in
ij
(i=1,2,

,n,j=1,2,

,k) 表示第i个用户在第j个话题上的观点影响力。
[0067]
步骤4:识别出认知状态存在异常以及认知具有影响力的三类目标用户:话题缺口者、情绪极端者、观点引导者,通过危机信息与目标用户之间的匹配关系,进行危机信息的
敏捷发送。
[0068]
本实施例中危机信息敏捷发送的目标用户主要包括三类:话题缺口型、情绪极端型以及观点引导型。为了识别话题缺口型用户,按照关注用户数对所有话题进行降序排列,以排序前三的话题类别作为各类用户信息知晓的最低标准,当用户缺乏对这些信息的了解时,识别其为话题缺口型用户。为了识别情绪极端型用户,当用户在两个及以上话题上出现极端积极或消极情绪时,识别其为事件中的情绪极端型用户。为了识别观点引导型用户,定义观点影响力在top n%以内的用户为各话题上的观点引导型用户,n值根据任务需求与实际数据集确定。
[0069]
信息文档与目标用户的匹配包括两个阶段:召回阶段和排序阶段,通过两个阶段的过滤确定最终推荐的信息。首先,在召回阶段,匹配事件文档与目标用户的话题属性。从步骤2中的“完整的危机事件信息库”中召回与用户所需话题相符且时间距离在x天之内的信息,构成危机信息发送的候选集。其次,在排序阶段,对危机信息候选集中召回的信息文档进行更精确的计算,综合评价特征、热度特征、时间特征对信息文档进行排序。
[0070]
其中,评价特征是以微博下所有评论的情感均值作为网民对该微博信息的评价结果,以话题下所有微博的情感均值作为网民对该事件话题的评价结果,抽取出事件的情感特征,event
emotion
=[e1,e2,

,ei,

,ek],k为事件话题数量,e
i (i=1,2,

,k)表示当前公众对事件话题i的评价倾向。
[0071]
所有微博文档的评价倾向分布为file
emotion
=[e1,e2,

,ei,

,em],其中m 为事件相关微博文档的总数量,ei(i=1,2,

,m)表示公众对事件相关的第i个微博文档的评价倾向。
[0072]
热度特征是指网民对于事件相关微博的讨论热度和传播热度。新浪微博中,事件热度主要体现在事件相关的原创微博文档获得的转发数量、评论数量。事件相关信息被转发、被评论越多,表明该事件信息越受大众关注、重要性越高。抽取事件的热度特征,event ot
=[1,2,

,i,

,k],k为事件话题数量,i (i=1,2,

,k)表示当前事件话题i的热度。
[0073]
所有微博文档的热度分布为file ot
=[1,2,

,i,

,m],其中m为事件相关微博文档的总数量,i(i=1,2,

,m)表示事件相关的第i个微博文档的热度,计算方式是微博文档评论数与转发数之和,即i=n
commet
+n
foward

[0074]
时间特征是计算信息发布时间距离当前时间的分钟数。
[0075]
关于评价特征,对于极端负面情绪的目标用户(过于悲观),需要推送总体情感倾向正面的信息,从而正向引导用户认知;对于极端正面情绪的目标用户(盲目乐观),则需要推送情感倾向更为负面的信息,帮助用户全方位认知危机。关于热度特征,更受群众关注的热点信息,往往是人们普遍更需要了解的信息,这些信息可以帮助用户快速了解事件发展。关于时间特征,由于信息的时效性在危机情境中尤为明显,因此一般来说,危机信息发布时间越近,危机信息的应用价值越高,越能帮助用户了解最新进展。
[0076]
综合以上分析,相同话题下,当目标用户为话题缺口型、观点引导型或者极端负面情绪时,评价特征和热度特征为正向指标,时间特征为负向指标,即信息文档情感倾向越正向、热度越高、发布时间与当前时间间隔越小,推荐优先级越高。当目标用户为情绪极端正面时,热度特征为正向指标,评价特征和时间特征为负向指标,即信息文档情感倾向越负面、热度越高、发布时间与当前时间间隔越小,推荐优先级越高。
[0077]
对于危机信息候选集中的任一信息文档,其推荐指数的具体计算方法如等式 (11)所示:
[0078]
score(file)=(ω1·
v1+ω2·
v2+ω3·
v3)
ꢀꢀ
(11)
[0079]
式中ω1、ω2、ω3分别代表评价特征、热度特征、时间特征三个指标的权重, v1、v2、v3分别代表这三个指标的归一化度量值,score(file)的值越大,表明该条信息被推荐的优先级越高。
[0080]
本实施例选取某特定的危机事件为例进行演示,根据计算结果来展示待发送的信息。
[0081]
1.数据采集与预处理;
[0082]
利用爬虫程序采集微博数据,采集该危机事件发生的时间范围内的原创微博数据和用户信息。利用微博网页链接进一步获得评论数据和转发数据。采集数据之后,按照上文对文本数据和用户数据进行预处理。
[0083]
2.事件画像与危机信息库构建;
[0084]
构建危机事件画像,包括事件特征、话题类别、话题编号、话题描述、评价与热度等,并建立完整的危机事件信息库,为后续信息敏捷发送做准备。
[0085]
3.认知画像与目标用户识别;
[0086]
判断用户与事件间的情境关联,确定各类危机涉入度的用户数量。获得用户危机涉入度之后,从用户认知的话题完整性、情绪极端性、观点影响力三个维度对进行用户认知画像。
[0087]
4.危机信息敏捷发送示例;
[0088]
确定目标用户的基本信息与认知状态。为清晰展示信息敏捷发送的结果,以危机事件的关键时间节点为例,随机选取若干位目标用户进行危机信息敏捷发送,他们分别属于不同的认知类型:话题缺口型、情绪极端负向、情绪极端正向以及观点引导型,获得信息推荐结果。
[0089]
本发明利用数据挖掘方法来识别用户对危机事件的认知状态,构建完整的危机事件信息库,并通过危机信息与目标用户之间的匹配关系,发现用户存在的信息缺口与极端情绪,有针对性地动态识别信息发送的目标用户以及填补其信息缺口、调整极端情绪的重要信息。由于随着新信息的吸收,用户对危机情境的认知是一种迭代式的、循序渐进的状态,因此本发明会针对用户不断变更的认知而“随机应变”,依据具体的认知需求提供相应的推荐信息,从而对用户认知起到补充或调节作用。
[0090]
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1