一种网络论坛小群体确定方法及系统与流程

文档序号:14727069发布日期:2018-06-19 11:34阅读:306来源:国知局

本发明涉及网络信息安全技术领域,特别是涉及一种网络论坛小群体确定方法及系统。



背景技术:

网络论坛小群体,也称为凝聚子群,指网络论坛中活跃的一组用户的集合,集合内用户以较高的频率针对特定话题开展讨论,并产生某种影响力,如成功营造话题讨论热点、用户互动中产生新的高价值知识等。而发现网络论坛小群体用户成员,是网络舆情管理与干预,尤其是网络论坛敏感信息管控的前提条件。因此,确定网络论坛小群体变得尤为重要。

当前,在论坛用户的关系网络基础上提取和确定网络小群体,主要包括以下四种形式化处理角度:关系的互惠性;子群成员之间的接近性或者可达性;子群内部成员之间关系的频次;子群内部成员之间的关系密度相对于内、外部成员之间的关系的密度。上述四种形式化处理角度体现了小群体发现过程所依据的网络属性,对应的小群体提取方法主要包括派系、n-派系、n-宗派、k-丛、k-核等。考虑到n-宗派、k-丛、k-核方法会使得各个子群之间不存在重复的成员,而这与现实中网络论坛成员的跨群体现象相矛盾,因此在网络论坛成员间小群体的分析中主要采用的是派系、n-派系分析方法。

利用派系、n-派系分析方法确定论坛小群体,具体包括以下步骤:(1)提取网络论坛中用户的发帖和跟帖数据;(2)根据用户间的发帖和跟帖行为,提取用户间的交流频次;(3)依据网络论坛用户间交流关系建立整体网;(4)依据设定的规则提取派系或n-派系,其中,如果提取派系,则派系的搜索规则为“至少包含三个点的最大完备子图”;如果提取n-派系,则n-派系的搜索规则为“任一n-派系中用户之间在整体网中的距离最大不超过n”;(4)提取派系或n-派系中的用户成员,即为网络论坛小群体。

目前采用的派系、n-派系分析方法来确定论坛小群体,通过对用户发帖、跟帖行为频率的统计与分析,确定论坛小群体成员,其只能将具有紧密跟帖行为的网络论坛用户确定为论坛小群体成员,而不能将同时活跃在某一特定主题中,但不发生直接的跟帖关系的成员确定为论坛小群体成员,这就导致了论坛小群体成员的遗漏,使得确定的论坛小群体的准确性和完备性不高。



技术实现要素:

基于此,有必要提供一种网络论坛小群体确定方法及系统,以能提高论坛小群体确定的准确性和完备性。

为实现上述目的,本发明提供了如下方案:

一种网络论坛小群体确定方法,所述方法包括:

从多个目标网络论坛中获取每个所述目标网络论坛中的目标网络论坛文本,每个所述目标网络论坛文本均包括发帖时间、发帖题目、发帖作者、所述发帖的所有跟帖以及所述所有跟帖的作者;

提取每个所述目标网络论坛文本的所述发帖作者的用户名以及所述所有跟帖的作者的用户名,得到多个用户成员,所述多个用户成员构成每个所述目标网络论坛文本的用户成员集合;

将所述用户成员集合按预设阈值进行组合,得到多组用户成员集合组,所述预设阈值为每个所述用户成员集合组中的所述用户成员集合的个数,所述预设阈值大于或等于2;

在每个用户成员集合组中获取所有用户成员集合中相同的用户成员;

在每个用户成员集合组中判断所述相同的用户成员的个数是否大于预设的用户成员个数,所述预设的用户成员个数大于或等于2;

若所述相同的用户成员的个数大于所述预设的用户成员个数,则将所述相同的用户成员构成的集合确定为网络论坛小群体。

可选的,所述从多个目标网络论坛中获取每个所述目标网络论坛中的目标网络论坛文本,具体包括:

依据预设主题,对网络论坛数据进行检索,获取关键词集合;

依据所述关键词集合从多个目标网络论坛中获取每个所述目标网络论坛中的目标网络论坛文本。

可选的,所述依据所述关键词集合从多个目标网络论坛中获取每个所述目标网络论坛中的目标网络论坛文本,具体包括:

依据所述关键词集合,利用数据检索工具从多个目标网络论坛中抓取多个目标网络论坛文本数据;

依据所述多个目标网络论坛文本数据,得到每个所述目标网络论坛中的目标网络论坛文本。

可选的,所述在每个用户成员集合组中获取所有用户成员集合中相同的用户成员,具体包括:

计算每个用户成员集合组中多个所述用户成员集合的交集,所述交集中的每个元素表示一个相同的用户成员。

本发明还提供了一种网络论坛小群体确定系统,所述系统包括:

文本获取模块,用于从多个目标网络论坛中获取每个所述目标网络论坛中的目标网络论坛文本,每个所述目标网络论坛文本均包括发帖时间、发帖题目、发帖作者、所述发帖的所有跟帖以及所述所有跟帖的作者;

用户名提取模块,用于提取每个所述目标网络论坛文本的所述发帖作者的用户名以及所述所有跟帖的作者的用户名,得到多个用户成员,所述多个用户成员构成每个所述目标网络论坛文本的用户成员集合;

组合模块,用于将所述用户成员集合按预设阈值进行组合,得到多组用户成员集合组,所述预设阈值为每个所述用户成员集合组中的所述用户成员集合的个数,所述预设阈值大于或等于2;

用户成员获取模块,用于在每个用户成员集合组中获取所有用户成员集合中相同的用户成员;

判断模块,用于在每个用户成员集合组中判断所述相同的用户成员的个数是否大于预设的用户成员个数,所述预设的用户成员个数大于或等于2;

小群体确定模块,用于若所述相同的用户成员的个数大于所述预设的用户成员个数,则将所述相同的用户成员构成的集合确定为网络论坛小群体。

可选的,所述文本获取模块,具体包括:

关键词集合获取单元,用于依据预设主题,对网络论坛数据进行检索,获取关键词集合;

文本获取单元,用于依据所述关键词集合从多个目标网络论坛中获取每个所述目标网络论坛中的目标网络论坛文本。

可选的,所述文本获取单元,具体包括:

文本数据获取子单元,用于依据所述关键词集合,利用数据检索工具从多个目标网络论坛中抓取多个目标网络论坛文本数据;

文本获取子单元,用于依据所述多个目标网络论坛文本数据,得到每个所述目标网络论坛中的目标网络论坛文本。

可选的,所述用户成员获取模块,具体包括:

计算单元,用于计算每个用户成员集合组中多个所述用户成员集合的交集,所述交集中的每个元素表示一个相同的用户成员。

与现有技术相比,本发明的有益效果是:

本发明提出了一种网络论坛小群体确定方法及系统,所述方法包括:从多个目标网络论坛中获取每个目标网络论坛中的目标网络论坛文本;提取每个目标网络论坛文本的发帖作者的用户名以及所有跟帖的作者的用户名,得到多个用户成员,多个用户成员构成每个目标网络论坛文本的用户成员集合;将用户成员集合按预设阈值进行组合,得到多组用户成员集合组;在每个用户成员集合组中获取所有用户成员集合中相同的用户成员;在每个用户成员集合组中判断相同的用户成员的个数是否大于预设的用户成员个数;若相同的用户成员的个数大于预设的用户成员个数,则将相同的用户成员构成的集合确定为网络论坛小群体。本发明避免了用户发帖、跟帖行为频率的统计与分析,能够有效地发现不存在紧密跟帖行为的网络论坛用户间伴随关系,大大提高网络论坛小群体发现的准确率和完备性水平;通过对预设阈值的设定,进而设定伴随次数,实现了对伴随关系的强度的控制;并且还避免了网络论坛用户成员间发帖、跟帖行为提取及编码过程,能够有效地提高确定网络论坛小群体的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一种网络论坛小群体确定方法的流程图;

图2为本发明实施例一种网络论坛小群体确定系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例一种网络论坛小群体确定方法的流程图。

参见图1,实施例的网络论坛小群体确定方法,包括:

步骤S1:从多个目标网络论坛中获取每个所述目标网络论坛中的目标网络论坛文本,每个所述目标网络论坛文本均包括发帖时间、发帖题目、发帖作者、所述发帖的所有跟帖以及所述所有跟帖的作者。具体包括:

依据预设主题,对网络论坛数据进行检索,获取关键词集合K={k1,k2,...,kn},其中n为关键词数目,为了提高数据检索结果的完备度,关键词k1,k2,…,kn之间具有语义替代性;

依据所述关键词集合K,利用数据检索工具从多个目标网络论坛中抓取多个目标网络论坛文本数据;

依据所述多个目标网络论坛文本数据,得到每个所述目标网络论坛中的目标网络论坛文本ti,i=1,2,…,m,m为目标网络论坛文本的数目,第i个目标网络论坛文本ti的内容包括发帖时间、发帖题目、发帖作者、所述发帖的所有跟帖以及所述所有跟帖的作者。

步骤S2:提取每个所述目标网络论坛文本的所述发帖作者的用户名以及所述所有跟帖的作者的用户名,得到多个用户成员,所述多个用户成员构成每个所述目标网络论坛文本的用户成员集合。

具体的,针对目标网络论坛文本ti,提取目标网络论坛文本ti的发帖作者的用户名以及所有跟帖的作者的用户名,得到目标网络论坛文本ti的用户成员集合其中,l为目标网络论坛文本ti中用户成员的数目;

针对m个目标网络论坛文本t1,t2,…,tm,得到对应的用户成员集合U1,U2,…,Um

步骤S3:将所述用户成员集合按预设阈值进行组合,得到多组用户成员集合组,所述预设阈值为每个所述用户成员集合组中的所述用户成员集合的个数,所述预设阈值大于或等于2。

具体的,设置预设阈值v≥2,组合数记为将步骤S2中的用户成员集合U1,U2,…,Um按预设阈值v进行组合,得到组用户成员集合组,如下:

G1=U1,U2,…,Uv

G2=U1,U2,…,Uv-1,Uv+1

步骤S4:在每个用户成员集合组中获取所有用户成员集合中相同的用户成员。具体包括:

计算每个用户成员集合组中多个所述用户成员集合的交集R1、R2...,所述交集中的每个元素表示一个相同的用户成员,其中

R1=U1∩U2∩…∩Uv

R2=U1∩U2∩…∩Uv-1∩Uν+1

...

步骤S5:在每个用户成员集合组中判断所述相同的用户成员的个数是否大于预设的用户成员个数,所述预设的用户成员个数大于或等于2。

具体的,分别判断中元素的个数是否大于或等于2。

步骤S6:若所述相同的用户成员的个数大于所述预设的用户成员个数,则将所述相同的用户成员构成的集合确定为网络论坛小群体。

具体的,若R1中元素的个数大于或等于2,则R1为网络论坛小群体,否则放弃结果R1,若R2中元素的个数大于或等于2,则R2为网络论坛小群体,否则放弃结果R2,以此类推,若中元素的个数大于或等于2,则为网络论坛小群体,否则放弃结果

本实施例中的网络论坛小群体确定方法,避免了用户发帖、跟帖行为频率的统计与分析,能够有效地发现不存在紧密跟帖行为的网络论坛用户间伴随关系,大大提高网络论坛小群体确定的准确率和完备性水平;通过对预设阈值的设定,进而设定伴随次数,实现了对伴随关系的强度的控制;并且还避免了网络论坛用户成员间发帖、跟帖行为提取及编码过程,能够有效地提高确定网络论坛小群体的效率。

本发明还提供了一种网络论坛小群体确定系统,图2为本发明实施例一种网络论坛小群体确定系统的结构图。

参见图2,实施例的网络论坛小群体确定系统20,具体包括:

文本获取模块201,用于从多个目标网络论坛中获取每个所述目标网络论坛中的目标网络论坛文本,每个所述目标网络论坛文本均包括发帖时间、发帖题目、发帖作者、所述发帖的所有跟帖以及所述所有跟帖的作者。

所述文本获取模块201,具体包括:

关键词集合获取单元,用于依据预设主题,对网络论坛数据进行检索,获取关键词集合;

文本获取单元,用于依据所述关键词集合从多个目标网络论坛中获取每个所述目标网络论坛中的目标网络论坛文本。

所述文本获取单元,具体包括:

文本数据获取子单元,用于依据所述关键词集合,利用数据检索工具从多个目标网络论坛中抓取多个目标网络论坛文本数据;

文本获取子单元,用于依据所述多个目标网络论坛文本数据,得到每个所述目标网络论坛中的目标网络论坛文本。

用户名提取模块202,用于提取每个所述目标网络论坛文本的所述发帖作者的用户名以及所述所有跟帖的作者的用户名,得到多个用户成员,所述多个用户成员构成每个所述目标网络论坛文本的用户成员集合。

组合模块203,用于将所述用户成员集合按预设阈值进行组合,得到多组用户成员集合组,所述预设阈值为每个所述用户成员集合组中的所述用户成员集合的个数,所述预设阈值大于或等于2。

用户成员获取模块204,用于在每个用户成员集合组中获取所有用户成员集合中相同的用户成员。

所述用户成员获取模块204,具体包括:

计算单元,用于计算多个所述用户成员集合的交集,所述交集中的每个元素表示一个相同的用户成员。

判断模块205,用于在每个用户成员集合组中判断所述相同的用户成员的个数是否大于预设的用户成员个数,所述预设的用户成员个数大于或等于2。

小群体确定模块206,用于若所述相同的用户成员的个数大于所述预设的用户成员个数,则将所述相同的用户成员构成的集合确定为网络论坛小群体。

本实施例中的网络论坛小群体确定系统,避免了用户发帖、跟帖行为频率的统计与分析,能够有效地发现不存在紧密跟帖行为的网络论坛用户间伴随关系,大大提高网络论坛小群体确定的准确率和完备性水平;通过对预设阈值的设定,进而设定伴随次数,实现了对伴随关系的强度的控制;并且还避免了网络论坛用户成员间发帖、跟帖行为提取及编码过程,能够有效地提高确定网络论坛小群体的效率。

本说明书中对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1