基于用户特征的预测社交网络信息流行度的方法及系统的制作方法

文档序号:6627123阅读:142来源:国知局
基于用户特征的预测社交网络信息流行度的方法及系统的制作方法
【专利摘要】本发明提供了基于用户特征的预测社交网络信息流行度的方法,该方法包括:获取社交网络中的用户数据和信息数据;从用户数据中提取部分用户属性特征及用户行为特征;根据用户属性特征和用户行为特征将用户数据进行分类;根据信息数据及用户的类别,得到信息数据对应的用户传播特征;根据用户传播特征得到社交网络信息流行度预测模型,采用预测模型对信息流行度进行预测。本发明提供的基于用户特征的预测社交网络信息流行度的系统,包括获取模块、特征提取模块、分类模块、处理模块、预测模型模块及预测模型。本发明结合用户行为特征的特点,更加准确地预测社交网络的信息传播,解决热点发现滞后、信息推送以及网络舆情监测实时性难以保证的问题。
【专利说明】基于用户特征的预测社交网络信息流行度的方法及系统

【技术领域】
[0001] 本发明涉及网络安全【技术领域】,具体涉及基于用户特征的预测社交网络信息流行 度的方法及系统。

【背景技术】
[0002] 目前,网络已经成为获取信息的重要途径,尤其是随着各种社交网站的快速崛起, 更方便的信息获取和更快速的信息传播随之而来。社交网络已经形成了庞大的线上社会群 体,构建了密切的线上人际关系。社交网络上的信息传播不同于信件、口头、报纸等传统的 信息传播,社交网络中的信息传播具有以下几方面的突出特征,第一,具有很强的实时性, 科技的进步,信息的发出者很容易将看到的重大事件用最快的时间向外传播;第二,拥有较 强的群体性,社交网络的信息发布变得随心所欲,不同的人出于一些目的会发布一些具有 煽动性的信息,而这些信息广泛传播将会引发群体性。第三,信息更新周期性变小,由于信 息的大量发布,信息的来源越来越广,所以信息在传播中逐渐被新的信息所取代,周期性变 小。
[0003] 信息传播的流行度预测结合社交网络上信息传播的特点,会有效的解决很多问 题。能够及早的发现信息传播中的变化,尽早的对信息传播的流行度做出预测成为了信息 实时推送和社会网络舆情监测的主要部分。目前,对信息推送和舆情传播都是采用的监测 方法,设置一个阀值,当信息的某些参数大于这个阀值时,就会定义为推送信息或者舆情信 息。这些方法相对粗糙,信息的实时特征很难得到保证。


【发明内容】

[0004] 针对现有技术的缺陷,本发明提供的基于用户特征的预测社交网络信息流行度的 方法,结合用户行为特征的特点,更加准确地预测社交网络的信息传播,解决热点发现滞 后、信息推送以及网络舆情监测实时性难以保证的问题。
[0005] 第一方面,本发明提供了一种基于用户特征的预测社交网络信息流行度的方法, 该方法包括:
[0006] 获取预设时间内社交网络中的信息数据和与所述信息数据对应的用户数据,所述 用户数据包括多个用户属性特征;
[0007] 从所述用户数据中提取部分用户属性特征,以及根据所述用户数据,获取所述用 户数据的用户行为特征;
[0008] 按照所述用户属性特征和所述用户行为特征将用户数据进行分类,得到用户数据 中用户的类别;
[0009] 根据所述信息数据以及所述用户数据中用户的类别,获取与所述信息数据对应的 用户传播特征;
[0010] 根据所述用户传播特征,确定社交网络信息流行度的预测模型;
[0011] 采用所述预测模型对一段时间内产生的信息数据进行分析,对信息流行度进行预 测。
[0012] 优选地,所述获取预设时间内社交网络中的信息数据和与所述信息数据对应的用 户数据步骤后,该方法还包括:
[0013] 将所述用户数据和所述信息数据存储到数据库中。
[0014] 优选地,所述获取预设时间内社交网络中的信息数据和与所述信息数据对应的用 户数据,包括:
[0015] 采用网络爬虫获取论坛类社交网络的用户数据和信息数据;
[0016] 采用应用程序编程接口 API获取微博类社交网络的用户数据和信息数据;
[0017] 采用网络爬虫获取社区类社交网络的用户数据,采用用户的剪贴板获取社区类社 交网络的信息数据。
[0018] 优选地,所述按照所述用户属性特征和所述用户行为特征将用户数据进行分类, 得到用户数据中用户的类别,包括:
[0019] 对所述用户属性特征和所述用户行为特征进行归一化处理,得到用户特征;
[0020] 根据所述用户特征,采用聚类算法将用户数据进行分类,得到用户数据中用户的 类别。
[0021] 优选地,所述采用聚类算法将用户数据进行分类,包括:
[0022] 将用户数据分为两类,并计算类别中心的距离,若类别中心的距离小于预设值,则 将这两个类别融合成一个类别;
[0023] 对各类别的用户数据继续分类,并计算各类别中心的距离,直至出现三个类别的 用户数据融合成一个类别时停止分类,得到用户的类别。
[0024] 优选地,所述根据所述用户传播特征,确定社交网络信息流行度的预测模型,包 括:
[0025] 建立基于用户特征的多元线性模型;
[0026] 将所述用户传播信息作为训练集,对所述线性模型进行训练,得到社交网络信息 流行度预测模型。
[0027] 第二方面,本发明提供了一种基于用户特征的预测社交网络信息流行度的系统, 该系统包括:
[0028] 获取模块,用于获取预设时间内社交网络中的信息数据和与所述信息数据对应的 用户数据,所述用户数据包括多个用户属性特征;
[0029] 特征提取模块,用于从所述用户数据中提取部分的用户属性特征,以及根据所述 用户数据,获取所述用户数据的用户行为特征;
[0030] 分类模块,用于按照所述用户属性特征和所述用户行为特征将用户数据进行分 类,得到用户数据中用户的类别;
[0031] 处理模块,用于根据所述信息数据以及所述用户数据中用户的类别,获取与所述 信息数据对应的用户传播特征;
[0032] 预测模型模块,用于根据所述用户传播特征,确定社交网络信息流行度的预测模 型;
[0033] 预测模块,用于采用所述预测模型对一段时间内产生的信息数据进行分析,对信 息流行度进行预测。
[0034] 优选地,所述系统还包括:
[0035] 存储模块,用于将所述用户数据和所述信息数据存储到数据库中。
[0036] 优选地,所述分类模块包括:
[0037] 归一化子模块,用于对所述用户属性特征和所述用户行为特征进行归一化处理, 得到用户特征;
[0038] 划分子模块,用于根据所述用户特征,采用聚类算法将用户数据进行分类,得到用 户数据中用户的类别。
[0039] 优选地,所述预测模型模块包括:
[0040] 建立模型子模块,用于建立基于用户特征的多元线性模型;
[0041]训练子模块,用于将所述用户传播信息作为训练集,对所述线性模型进行训练,得 到社交网络信息流行度预测模型。
[0042] 基于上述技术方案,本发明提供的基于用户特征的预测社交网络信息流行度的方 法,充分考虑了社交网络信息的实时性和用户特征对于信息传播的影响,采用信息流行度 预测的方式来进行信息传播模式描述,能够尽早的对信息传播进行预测,减少了传统方法 的滞后性,对及时信息推送和社交网络的舆情及时控制提供了帮助。同时,本发明的系统在 运行时内存代价不高,拥有很高的效率,拥有独立性和可移植性。综合来说,本发明能够对 信息传播流行度做出及早的预测,对信息的及时推送,和网络的舆情及时控制都有很大的 帮助。

【专利附图】

【附图说明】
[0043] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些图获得其他的附图。
[0044] 图1是本发明一实施例提供的基于用户特征的预测社交网络信息流行度的方法 的流程示意图;
[0045] 图2是本发明另一实施例提供的获取用户数据和信息数据的方法的流程示意图;
[0046] 图3是本发明一实施例提供的基于用户特征的预测社交网络信息流行度的系统 的结构图;
[0047] 图4是本发明另一实施例提供的分类模块的结构示意图;
[0048] 图5是本发明另一实施例提供的预测模型模块的结构示意图。

【具体实施方式】
[0049] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0050] 如图1所示,图1示出了本发明一实施例提供的基于用户特征的预测社交网络信 息流行度的方法,该方法包括如下步骤:
[0051] 步骤101 :获取预设时间内社交网络中的信息数据和与信息数据对应的用户数 据。其中,用户数据包括多个用户属性特征。
[0052] 本实施例中,将获取的社交网络中的用户数据和信息数据存储到数据库中。
[0053] 根据不同类型的社交网络采取不同的数据获取方式,论坛类的社交网站以帖子作 为信息的载体,所以适合采用网络爬虫获取帖子的数据。
[0054] 对于微博类社交网络,以短文本的微博来传播消息,可以使用微博平台提供的应 用程序编程接口(Application Programming Interface,简称API)获取信息数据与用户数 据。
[0055] 对于社区类社交网络,可以通过网络爬虫获取用户数据,在通过这些用户的剪贴 板获取信息数据。
[0056] 步骤102 :从用户数据中提取部分的用户属性特征,以及根据用户数据获取用户 数据的用户行为特征。
[0057] 具体来说,对于获取的用户数据,具体分为用户属性特征和用户行为特征。
[0058] 用户属性特征是用户在注册社交网络账号时提供的信息,例如:姓名,年龄,性别 等。对于用户的属性特征要保留可能影响信息传播的有效的特征,去除不会影响信息传播 的无效特征,例如:电话号码,邮编等。
[0059] 用户行为特征是指用户在社交网络上进行活动时产生的特征,例如:好友数量,回 复数量等。但是有一些用户行为数据不能够直接通过API和网络爬虫直接获取,需要通过 计算间接获得,例如:使用社交网络年龄,聚集系数等。下述用户特征就是由有效的用户属 性特征和完整的用户行为特征组成。
[0060] 步骤103 :按照所述用户属性特征和所述用户行为特征将用户数据进行分类,得 到用户数据中用户的类别。
[0061] 本实施例中,本步骤包括:
[0062] 对所述用户属性特征和所述用户行为特征进行归一化处理,得到用户特征;
[0063] 根据所述用户特征,采用聚类算法将用户数据进行分类,得到用户数据中用户的 类别。
[0064] 具体来说,CLA算法是一种聚类算法,通过CLA算法不用预先指定要分类的个数, 而是通过一定的条件找到合适的分类个数。首先CLA算法会将用户分为两类,并计算类别 中心的距离,当类别中心的距离小于一定值时,就认为这两个类别应属于一类,并将这两个 类别融合成一个类别。然后增加类别的数量重新按照上述的方法对用户进行分类,直到第 一次出现有三个类别的用户融合成为一个类别时,停止算法。这样用户就会被分为合适的 类别。
[0065] 步骤104 :根据信息数据以及用户数据中用户的类别,获取与信息数据对应的用 户传播特征。
[0066] 按照上述用户的分类,将数据库中的信息数据中参与信息传播的用户按照他们的 类别进行统计。统计的各个种类的用户数量作为这个信息的用户传播特征。
[0067] 步骤105 :根据所述用户传播特征,确定社交网络信息流行度的预测模型。
[0068] 具体来说,本步骤包括:建立基于用户特征的多元线性模型;将所述用户传播信 息作为训练集,对所述线性模型进行训练,得到社交网络信息流行度预测模型。
[0069] 本实施例中,将信息的用户传播特征作为训练集,使用线性回归的方法,可以得到 预测信息流行度的模型。在计算过程中可以使用梯度下降的算法快速的得到各个类别的用 户对于信息传播的影响权重。
[0070] 步骤106 :采用得到的预测模型对一段时间内产生的信息数据进行分析,对信息 流行度进行预测。
[0071] 本实施例提供的基于用户特征的预测社交网络信息流行度的方法,充分考虑了社 交网络信息的实时性和用户特征对于信息传播的影响,采用信息流行度预测的方式来进行 信息传播模式描述,能够尽早的对信息传播进行预测,减少了传统方法的滞后性,对及时信 息推送和社交网络的舆情及时控制提供了帮助。同时,本发明的系统在运行时内存代价不 高,拥有很高的效率,拥有独立性和可移植性。综合来说,本发明能够对信息传播流行度做 出及早的预测,对信息的及时推送,和网络的舆情及时控制都有很大的帮助。
[0072] 下面,本发明另一实施例以天涯论坛为例来说明基于用户特征的预测社交网络信 息流行度的方法,该方法包括:
[0073] 步骤一:获取信息数据和用户数据。
[0074] 本步骤的具体流程如下:
[0075] 由于天涯论坛并没有提供有效获取数据的API,所以在本实施例中,采用编写网络 爬虫的方法来获取信息数据和用户数据。
[0076] 平台环境:在32位windows7平台下安装配置Microsoft SQL Server2008数据库, 使用Microsoft Visual Studio 2010编写网络爬虫程序PostCrawler。如图2所不,为本 实施例中提供的获取用户数据和信息数据的方法的流程图,具体运行程序的过程见下述网 络爬虫程序 postCrawler 和 UserCrawler。
[0077] 1)通过在主机上设置统一资源定位符(Uniform Resource Locator,缩写为URL) URL池来执行网络爬虫程序postCrawler。每个帖子都有对应的独一无二的帖子ID,通过帖 子ID可以获得帖子的URL,通过连续的帖子ID可以建立一个URL池,这样就可以连续的获 取信息数据和用户数据。但是由于一些帖子被官方删除,一些帖子URL不能够正常返回帖 子的信息,在获取数据前要先使用正则表达式筛选有效的信息数据。
[0078] PostCrawler 定义如下:
[0079] Void PostCrawler() { 给定连续的帖子ID建立URL池; Wliile(URL池不为空) { 选取一个URL,并从URL池中删除这个URL; 获取URL指定网页的html; If(正则表达式成功获取帖子信息数据) { 保存帖子信息数据到数据库; 保存帖子回复用户ID到用户ID列表; } } 函数结束 }
[0080] 2)通过帖子的回复用户ID可以设置爬虫UserCrawler来获取用户数据。每个用 户都有对应的用户ID,通过用户ID可以找到对应的用户页面的URL。通过URL就可以访问 用户页面查看用户基本信息和历史活动并存入数据库。
[0081] UserCrawler 定义如下:
[0082] Void UserCrawler() { While(用户ID列表不为空) { 从用户ID列表中读取一个用户ID,并删除; 将用户Π )转换为相应的URL; 通过URL读取用户页面的html; If(正则表达式成功获取用户数据) { 将用户数据存入数据库; } } 函数结束 }
[0083] 3) SQL Server 2008数据库的设计。信息数据和用户数据的设计字段如下:
[0084] 信息数据:ID(帖子ID), hostID(发帖用户ID), click(点击量),r印ly (回复 量),time (发帖时间),userlDList (回帖用户ID列表)
[0085] 回帖用户ID列表:userlD (回帖用户ID),replyTime (回帖时间)
[0086] 用户数据:ID (用户ID),fans (粉丝数),follows (关注数),posts (发帖数), replyPosts (回帖数),registerDate (注册日期),lastLoginDate (最后一次登录时间), score (社区积分),logins (登录次数),topic (参与板块数量),age (使用天涯论坛的年 龄),clusteringCoefficient (聚集系数),reciprocity (互惠系数),userType(用户类 别)。
[0087] 这里,函数PostCrawler ()和UserCrawler ()在现有的操作系统平台上使用已有 的任何编程语言来实现该函数的功能,获取信息数据和用户数据。
[0088] 步骤二:从所述用户数据中提取有效的用户属性特征,并计算得到用户行为特征。
[0089] 用户属性特征是用户在注册帐号时会被要求填写的用户基本信息,这些信息有些 可以作为用户的特征用于用户的分类。在天涯论坛注册帐号时不需要填写这些信息,但是 对于其他社交网络,通过API和网络爬虫和获得到这些数据。对于无效的用户属性特征可 以在存入数据库之前删除,也可以将全部用户属性特征存入数据库之后在进行分类步骤之 前只选择有效的用户特征进行分类。
[0090] 用户行为特征是指用户在社交网络上进行活动时产生的特征,有些用户行为特征 可以直接通过网络爬虫和API获得,而另一些需要通过计算获得。
[0091] 对于天涯论坛的用户,我们可以通过计算获得用户的age (使用天涯论坛的年 龄),clusteringCoefficient (聚集系数),reciprocity (互惠系数)。
[0092] Age是指用户在天涯论坛上活跃的时间长度的用户行为特征,也就是用户从注册 到最后一次登录天涯论坛的时间,计算方法是:
[0093] age = registerDate-lastLoginDate
[0094] ClusteringCoefficient用来衡量用户和他们的邻居之间的互连性的用户行为特 征。如果用户A关注了用户B和用户C,那么clusteringCoefficient就是用户B和用户C 之间存在关注关系的概率。用C表示clusteringCoefficient, 表示用户A,用户B,用户 C都存在关注关系,表示只有用户A与用户B和用户C之间存在关注关系,可以得到计算 公式:
[0095]

【权利要求】
1. 一种基于用户特征的预测社交网络信息流行度的方法,其特征在于,该方法包括: 获取预设时间内社交网络中的信息数据和与所述信息数据对应的用户数据,所述用户 数据包括多个用户属性特征; 从所述用户数据中提取部分用户属性特征,以及根据所述用户数据,获取所述用户数 据的用户行为特征; 按照所述用户属性特征和所述用户行为特征将用户数据进行分类,得到用户数据中用 户的类别; 根据所述信息数据以及所述用户数据中用户的类别,获取与所述信息数据对应的用户 传播特征; 根据所述用户传播特征,确定社交网络信息流行度的预测模型; 采用所述预测模型对一段时间内产生的信息数据进行分析,对信息流行度进行预测。
2. 根据权利要求1所述的方法,其特征在于,所述获取预设时间内社交网络中的信息 数据和与所述信息数据对应的用户数据步骤后,该方法还包括: 将所述用户数据和所述信息数据存储到数据库中。
3. 根据权利要求1所述的方法,其特征在于,所述获取预设时间内社交网络中的信息 数据和与所述信息数据对应的用户数据,包括: 采用网络爬虫获取论坛类社交网络的用户数据和信息数据; 采用应用程序编程接口 API获取微博类社交网络的用户数据和信息数据; 采用网络爬虫获取社区类社交网络的用户数据,采用用户的剪贴板获取社区类社交网 络的信息数据。
4. 根据权利要求1所述的方法,其特征在于,所述按照所述用户属性特征和所述用户 行为特征将用户数据进行分类,得到用户数据中用户的类别,包括: 对所述用户属性特征和所述用户行为特征进行归一化处理,得到用户特征; 根据所述用户特征,采用聚类算法将用户数据进行分类,得到用户数据中用户的类别。
5. 根据权利要求4所述的方法,其特征在于,所述采用聚类算法将用户数据进行分类, 包括: 将用户数据分为两类,并计算类别中心的距离,若类别中心的距离小于预设值,则将这 两个类别融合成一个类别; 对各类别的用户数据继续分类,并计算各类别中心的距离,直至出现三个类别的用户 数据融合成一个类别时停止分类,得到用户的类别。
6. 根据权利要求1所述的方法,其特征在于,所述根据所述用户传播特征,确定社交网 络信息流行度的预测模型,包括: 建立基于用户特征的多元线性模型; 将所述用户传播信息作为训练集,对所述线性模型进行训练,得到社交网络信息流行 度预测模型。
7. -种基于用户特征的预测社交网络信息流行度的系统,其特征在于,该系统包括: 获取模块,用于获取预设时间内社交网络中的信息数据和与所述信息数据对应的用户 数据,所述用户数据包括多个用户属性特征; 特征提取模块,用于从所述用户数据中提取部分的用户属性特征,以及根据所述用户 数据,获取所述用户数据的用户行为特征; 分类模块,用于按照所述用户属性特征和所述用户行为特征将用户数据进行分类,得 到用户数据中用户的类别; 处理模块,用于根据所述信息数据以及所述用户数据中用户的类别,获取与所述信息 数据对应的用户传播特征; 预测模型模块,用于根据所述用户传播特征,确定社交网络信息流行度的预测模型; 预测模块,用于采用所述预测模型对一段时间内产生的信息数据进行分析,对信息流 行度进行预测。
8. 根据权利要求7所述的系统,其特征在于,所述系统还包括: 存储模块,用于将所述用户数据和所述信息数据存储到数据库中。
9. 根据权利要求7所述的系统,其特征在于,所述分类模块包括: 归一化子模块,用于对所述用户属性特征和所述用户行为特征进行归一化处理,得到 用户特征; 划分子模块,用于根据所述用户特征,采用聚类算法将用户数据进行分类,得到用户数 据中用户的类别。
10. 根据权利要求7所述的系统,其特征在于,所述预测模型模块包括: 建立模型子模块,用于建立基于用户特征的多元线性模型; 训练子模块,用于将所述用户传播信息作为训练集,对所述线性模型进行训练,得到社 交网络信息流行度预测模型。
【文档编号】G06F17/30GK104281882SQ201410472689
【公开日】2015年1月14日 申请日期:2014年9月16日 优先权日:2014年9月16日
【发明者】李歌, 胡玥, 于延宇, 李丹 申请人:中国科学院信息工程研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1