一种匿名环境中的网络用户舆论画像构建方法

文档序号:35067531发布日期:2023-08-09 07:16阅读:50来源:国知局
一种匿名环境中的网络用户舆论画像构建方法

本发明属于网络空间安全领域,涉及一种匿名环境中的网络用户舆论画像构建方法。


背景技术:

1、社交网络平台等各类社交媒体凭借着其信息传播速度快、分享范围广、时效性强以及交互性好等特点快速渗入了人们生活,吸引了数以亿计的用户。为了保护用户隐私,匿名功能成为了用户对于敏感话题发表言论的重要途径。但是匿名功能也给网络舆论的治理带来了困难,一个用户能够发布多条匿名言论,这些匿名言论难以溯源至同一用户,因此使用传统舆论画像构建方法会引起画像库规模剧烈膨胀。同时,由于网络舆论具有动态性、实时性,用户画像的产生速度决定了舆论监管者能否及时对话题下的新用户进行评估,而在用户数量巨大的热点话题下,频繁进行用户画像重构成本过高,且时效性不足;由于冗余匿名用户画像导致画像库规模膨胀,通过画像库匹配快速构建画像同样效率不高。此外,恶意利用匿名功能可以达到网络水军的效果,对舆论产生严重的负面导向,在关键时机利用匿名功能结合网络水军能够形成一种舆论攻击,打击目标舆论形象,干扰目标的正常行动。


技术实现思路

1、为解决上述问题,本发明提出了一种以等价类方法为核心,从“人以群分”的思想入手,提出了一种基于标签的等价类构建方法,在匿名环境中构建用户舆论画像,实现对海量用户画像的约简,并提高新用户画像构建的效率,从而为网络舆情治理的决策提供有力的数据支持。

2、为了达到上述目的,本发明提供如下技术方案:

3、一种匿名环境中的网络用户舆论画像构建方法,包括如下步骤:

4、步骤1:实匿名用户特征获取;

5、步骤2:实匿名用户等价类构建;

6、步骤3:新用户画像识别。

7、进一步地,所述步骤1具体包括如下子步骤:

8、(1)对话题下匿名用户,其特征为向量ca=c1,其中c1:=(a1,a2,a3,a4,a5,l1),a1指评论ip是否与话题所在地一致;a2是评论时间和话题出现时间的差值;a3是用户情绪,分为激进和保守;a4是发言立场,分为支持和反对;a5指设置关键词表进行文本匹配,特征值为评论文本是否命中关键词;l1是评论标签,根据文本内容与典型恶意评论列表进行匹配,分为正常和恶意;

9、(2)对话题下实名用户,其特征为三元组cr=(c1,c2,c3),其中c2:=(b1,b2,b3,b4,b5,b6,b7),b1表示用户是否可能使用代理,b2表示用户关注数量,b3表示粉丝数,b4表示被点赞数,b5表示被收藏数,b6表示被喜爱数,b7表示用户发表的相关历史评论数;其中该矩阵元素ank表示实名用户第n条相关历史评论的第k个特征,其提取方法与c1的第k个特征一致;ln1是第n条相关历史评论的标签。

10、进一步地,所述步骤2具体包括如下子步骤:

11、步骤2.1:用户向量化特征点集构建;

12、步骤2.2:用户间等价关系描述;

13、步骤2.3:用户等价类构建;

14、步骤2.4:用户画像空间约简。

15、进一步地,所述步骤2.1包括如下过程:

16、构造set={ca1,ca2,…,cak,cr1,cr2,…,crr},其中对于第k个匿名用户,根据ca,cak=(a1,a2,a3,a4,a5),lak=l1;对于第r个实名用户,从cr的元组c1提取特征crr=(a1,a2,a3,a4,a5),lrr=l1;所有二元特征均量化为0和1,a2以天为单位并进行归一化。

17、进一步地,所述步骤2.3包括如下过程:

18、(1)输入等价中心个数k,从set选择一个特征点作为初始中心z1,不断选择与已选中心最小距离最大的点作为zi,直至选择k个初始中心;

19、(2)从特征点集set中选择一个未加入等价类的点c,若min{||c-zi(k)||,i=1,2,…,k}=||c-zj(k)||,则c∈sj(k);其中j为等价类号,k为迭代次数号;

20、(3)计算其中ci是标签l=0对应的点,cj是标签l=1对应的点,m和n分别是l=0和1的点的数量,α和β满足条件:α>>β;

21、(4)重新执行(2)和(3),直至zj(k+1)=zj(k);

22、(5)计算等价类sj的类标签其中m和n分别是l=0和1的点的数量,α和β满足条件:α>>β;

23、(6)输出等价类s1,s2…sj、等价中心z1,z2,…,zj和类标签

24、进一步地,所述步骤2.4包括如下过程:

25、若匿名用户点ca∈sj,则约简至同一匿名画像paj,包括评论偏好向量m和用户可信度t,其中m=zj,分别表示等价类特征和等价类标签;匿名用户画像空间约简为k个画像的集合;若实名用户点cr∈sj,且特征矩阵c3不为空则进行特征修正得到独立用户画像pr,包括评论偏好向量mr、用户可信度tr和影响力特征c2,其中,mr和tr的计算方法如下:

26、(1)根据c3,令ci=(ai1,ai2,ai3,ai4,ai5),1≤i≤n;计算其中li1为第i条相关历史评论的标签,αi、βi满足条件

27、(2)计算其中c=zj,p为c的向量长度,为评论标签;

28、(3)计算mr=jg1+(1-j)g2,其中

29、(4)计算

30、若特征矩阵c3为空,则约简至同一实名画像prj,包括评论偏好向量m、用户可信度t和简化影响力特征c′,其中m=zj,s为c3为空的实名用户点cr数量,c2i为第i个用户的影响力特征。

31、进一步地,所述步骤3具体包括如下子步骤:

32、步骤3.1:用户特征初始化;

33、步骤3.2:基于约简画像空间的等价关系搜索;

34、步骤3.3:新用户画像构建。

35、进一步地,所述步骤3.1包括如下过程:

36、若新用户为匿名用户,从c1提取其特征为向量ca=(a1,a2,a3,a4,a5);若新用户为实名用户,提取其特征为向量cr=(c,c2),其中特征c的计算方法如下:

37、根据c1和c3,令c=(a1,a2,a3,a4,a5),ci=(ai1,ai2,ai3,ai4,ai5),1≤i≤n;计算其中n为矩阵c3行数。

38、进一步地,所述步骤3.2包括如下过程:

39、(1)定义约简画像空间sp={pa1,…,pak,pr1,…,prk,…,prk+v},其中k为等价类数,v为特征矩阵c3不为空的实名用户点个数;

40、(2)若新用户为匿名用户,进一步约简画像空间至sp1={pa1,…,pak};若min{||ca-mai||,i=1,2,…,k}=||ca-maj||,则新用户画像pnew与paj等价;

41、(3)若新用户为实名用户,且c3为空,则进一步约简画像空间至sp2={pr1,…,prk},若min{||c-mri||,i=1,2,…,k}=||c-mrj||,则新用户画像pnew与prj等价;若c3不为空,则进一步约简画像空间至sp3={prk+1,…,prk+v};若min{||c-mrk+i||,i=1,2,…,v}=||c-mrk+v||,则新用户画像pnew与prk+v等价。

42、进一步地,所述步骤3.3包括如下过程:

43、若pnew与paj或prk等价,其中1≤k≤k,则将pnew约简至paj或prk,不增加新画像;若pnew与prk+v等价,其中1≤v≤y,则将pnew加入约简画像空间sp,pnew包括评论偏好向量c,用户可信度trk+v和影响力特征c2。

44、与现有技术相比,本发明具有如下优点和有益效果:

45、(1)通过建立一种等价关系、构建等价类来约简用户画像空间,解决了匿名环境下大量冗余匿名用户画像占用画像库、画像搜索效率低的问题,从而用较小的空间代价实现新用户画像的快速匹配,能高效地为实匿名用户评论构造可信度标签,为舆论治理提供辅助。

46、(2)本发明方法弥补了过往研究对匿名舆论环境关注度不足的漏洞。本方法通过使用基于点集的等价类特征和类标签对用户画像空间进行了约简,将大量用户简化为少量的典型用户画像,从而缩小了用户画像库的规模,解决了匿名机制带来的画像空间膨胀问题。

47、(3)本发明通过约简的画像空间可以对新加入用户进行快速的画像构建,并对画像库进行更新,提高了新用户画像构建的效率,提高了新用户画像的构建效率,同时对约简画像空间进行了有限更新,一定程度上填补了两次舆论画像重构之间的真空期,保证了舆论分析的实时性,从而支持舆论监管者对舆论风向的把控和对评论用户的评估。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1