一种基于多元特征的微博信息传播行为预测方法及系统的制作方法

文档序号:7976603阅读:226来源:国知局
专利名称:一种基于多元特征的微博信息传播行为预测方法及系统的制作方法
技术领域
本发明涉及基于多元特征的微博信息传播行为预测方法,尤其涉及微博信息传播过程中基于多元特征的用户行为模型建立。本发明还涉及基于多元特征的微博信息传播行为预测系统。属于网络安全领域。
背景技术
根据中国互联网络信息中心(CNNIC) 2011年1月19日发布的《第27次中国互联网络发展状况统计报告》的数据,截至2010年12月,我国网民规模已达4. 57亿,互联网普及率达到34. 3%。其中,手机网民一年增加6930万人,规模已达3. 03亿人,占整体网民的 66. 2%。TOB2. 0理念的普及与相关技术的日益成熟,使网络内容的生产者已经从过去单纯的网站制作人员逐渐转变为网站和广大网络用户的混合群体,包括新闻评论、跟帖、社交网络(博客、微博、交友、论坛)等新型网络应用不断出现,信息传播方式多样化。而网络舆论, 以其草根化、自由化和多元化,已经成为影响现实社会的一股不可忽视的力量。微博客也称“微博”,是*吐2.0时代新兴的一种集成化、开放化的互联网社交服务;它作为一个可以即时发布消息的类似博客的系统,方便用户可以通过手机、即时通信软件和外部的应用程序编程接口等途径向其微博客发布消息。一般发布的消息是200字以内(通常是140字的限制)。微博客以其简单快捷的操作方式、随时随地发布信息的互动形式让越来越多的人参与的互联网中来。但是,由于其信息来源的广泛性和不确定性,一些敏感信息和虚假信息经过微博的发酵后,可迅速成为网络突发事件,由此带来的巨大影响往往让人触不及防,其引发的安全问题值得深究(S.Vieweg,A. L.Hughes, etc. Microblogging During Two Natural Hazards Events :What Twitter May Contribute to Situational Awareness[C]. In International conference on Human factors in computing systems(CHI),pages 1079-1088,2010.)。微博中用户转帖是最有效的信息传播机制。当用户发现一条微博信息值得分享时,他将复制该信息,并转发到自己的页面,供其追随者查看。从而该信息的传播范围已超出了原始作者的关系网络,并且传播过程中保持了信息的完整性。目前对微博网络已有大量的研究,集中在分析转帖行为及其相关因素。W. GaliAa等(W. Galuba and K. Aberer. Outtweeting the Twitterers-Predicting Information Caseades in Microblogs[C]. In Conference on Online social networks (TOSN),2010.)研究了微博网络的网络拓扑结构及信息传播路径。B. Suh 等(B. Suh,L. Hong,etc. Want to be Retweeted ? Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]. In IEEE International Conference on Social Computing(SocialCom), 2010)分析了与微博转帖相关的因素,发现原帖是否包含URL(Uniform Resource Locator) ,hash tags,帖子发布时间,作者的权威性等将影响用户的转帖行为。目前的研究集中在信息传播过程的解释及关联因素的分析上,抽取了影响用户参与信息分享的因素,以及各因素的重要性。但是,如何结合这些已得到的加权因素,预测用户在信息传播中的行为以及微博群体响应,缺乏有效的用户行为预测模型。因此这些研究无法拓展到实际微博网络突发事件预警、虚拟市场规划等应用中。

发明内容
本发明要解决的技术问题是提供一种基于多元特征的微博信息传播行为预测方法,它能方便、准确地预测用户在信息传播中的行为以及微博群体响应;为此本发明还要提供一种基于多元特征的微博信息传播行为预测系统。为了解决上述技术问题,本发明的基本构思是基于抽取影响用户参与信息分享的多元特征,构建最大熵用户行为预测模型,预测用户在信息传播中的行为以及微博群体响应。对于本发明的一种基于多元特征的微博信息传播行为预测方法来说,上述技术问题是这样解决的一种基于多元特征的微博信息传播行为预测方法包括如下步骤a、微博网络数据预处理步骤,获取网络数据,并对相关数据进行预处理;b、微博网络预测模型建立步骤,根据经预处理获得的数据,建立相应的预测模型;C、微博网络预测步骤,基于所述预测模型预测用户行为趋势。作为一种基于多元特征的微博信息传播行为预测方法的一种优选所述微博网络数据预处理步骤中获取网络数据包括获取用户、发帖转帖、用户关系信息。作为一种基于多元特征的微博信息传播行为预测方法的一种优选所述微博网络数据预处理步骤包括去除广告及不完整的帖子。作为一种基于多元特征的微博信息传播行为预测方法的一种优选所述微博网络数据预处理步骤包括计算每个原帖下,各用户的内容特征、网络特征及时间特征。作为上述预测方法的一种优选所述内容特征共8个,原帖T与用户u发帖集合V1 的内容相似性特征fi,原帖τ与用户u转帖集合V2的内容相似性特征f2,原帖T是否包含 URL的特征f3及该URL在用户参与帖子集合V (V = V^V2)中出现次数特征f4,原帖T是否包含hash tag(标志为“ #短语”)的特征f5及该hash tag在用户参与帖子集合V中出现次数特征4,原帖T是否包含引用(标志为用户名”)的特征&及该引用在用户参与帖子集合V中出现次数特征f8,上述原帖T与V1的相似性为T与集合V1所有帖子相似性的平
1 m
均值*〈7^〉= -2*〈7^〉,其中集合¥1包含帖子V1 = <1\,T2, T3... Tm>,帖子Ti经分 171 k=\
词和去停止词后对应的η维词条向量为Wil,wi2, wi3. . . win>,其中Win为帖子中词条j的权
η
Σ χιν
重,因此任意两帖子Ti、L相似性为·^〈K〉= I:=1 卜 。
λ Χ xJiwI
V k=\ V k=\作为上述预测方法的一种优选所述网络特征共6个,原帖T作者的好友数特征f9, 原帖τ作者的追随者数特征f1(1,原帖T作者与用户u的共同好友数特征fn,T作者与用户 u的共同追随者数特征f12,T作者与用户u的共同引用数特征f13,T作者与用户u的共同转帖数特征f14。
作为一种上述预测方法的一种优选所述时间特征共3个,用户U当前活跃度特征 f15 (等于最近一小时内参与帖子数),原帖发布时间特征f16,最近一小时内网络中的新帖子数特征f17。作为一种基于多元特征的微博信息传播行为预测方法的一种优选所述微博网络预测模型建立步骤,其模型为最大熵模型,最大熵模型使用已有的帖子作为训练数据,将每个原帖下用户的特征作为模型输入,用户是否转发原帖,以0和1表示,作为模型输出,使用迭代方法训练模型参数。作为一种基于多元特征的微博信息传播行为预测方法的一种优选所述最大熵
其中Z㈧= 2>xp ^Jk{r,y)为归一化分母,Xk为各用户特征的权值,r为
一个原帖,y为用户的决策(参与/不参与转帖),λ为未知量,其似然函数为
/(A) = |>gp(;/ |r!)-|;g,R为原帖的个f(,|;^为惩罚项,因而可根据已知帖子数
!=1k=i 2σk=l 2σ
据,用梯度迭代方法求解。对于本发明的一种基于多元特征的微博信息传播行为预测系统来说,上述技术问题是这样解决的一种基于多元特征的微博信息传播行为预测系统包括a、微博网络数据预处理模块,用于获取网络数据,并对相关数据进行预处理;b、微博网络预测模型建立模块,用于根据经预处理获得的数据,建立相应的预测模型;C、微博网络预测模块,用于基于所述预测模型预测用户行为趋势。作为一种基于多元特征的微博信息传播行为预测系统的一种优选所述微博网络数据预处理模块进一步包括采集微博网络模块、去除广告及不完整帖子模块、结构化至数据库模块、计算用户内容、网络、时间特征模块。相对于现有技术而言,本发明具有以下优点通过对信息传播过程的解释及关联因素的分析,抽取影响用户参与信息分享的因素,以及各因素的重要性,结合这些已得到的加权因素,通过建立有效的用户行为预测模型,预测用户在信息传播中的行为以及微博群体响应,这些研究可以拓展到实际微博网络突发事件预警、虚拟市场规划等应用中。


图1为本发明一种基于多元特征的微博信息传播行为预测方法实施例流程图。图2为本发明一种基于多元特征的微博信息传播行为预测方法实施例中微博网络数据预处理步骤流程图。图3为本发明一种基于多元特征的微博信息传播行为预测系统实施例结构框图。图4为转帖率随作者追随者数量变化图。图5为一天内转帖数随帖子发布时间变化图。图6为一周内转帖数随发布时间变化图。
模型,根据原帖用户的特征,得到用户转帖的概率估计尸C^k)
Z(r)
exp YjKfAr^y),

具体实施例方式下面结合

具体实施方式
对本发明进一步说明。图1为本发明一种基于多元特征的微博信息传播行为预测方法实施例流程图,包括如下步骤a、微博网络数据预处理步骤S10,获取网络数据,并对相关数据进行预处理;b、微博网络预测模型建立步骤S11,根据经预处理获得的数据,建立相应的预测模型;C、微博网络预测步骤S12,基于所述预测模型预测用户行为趋势。图2为本发明一种基于多元特征的微博信息传播行为预测方法实施例流程图中微博网络数据预处理步骤SlO实施例流程图,微博网络数据预处理步骤进一步包括采集微博网络步骤101、去除广告及不完整帖子步骤102、结构化至数据库步骤103、计算用户内容、网络、时间特征步骤104。图3为本发明一种基于多元特征的微博信息传播行为预测系统实施例框图,包括a、微博网络数据预处理模块111,用于获取网络数据,并对相关数据进行预处理;b、微博网络预测模型建立模块112,用于根据经预处理获得的数据,建立相应的预测模型;C、微博网络预测模块113,用于基于所述预测模型预测用户行为趋势。首先通过采集微博网络步骤101获取微博网络数据。可通过微博提供的开放API, 按固定的URL格式,如新浪微博的用户好友列表的请求URL格式为“http://api. t. sina. com. cn/statuses/friends. json”。通过API接口可获取用户信息及帖子信息,包括用户创建时间、好友列表、追随者列表、用户发帖时间及内容、转帖时间、回复内容、系统状态等。使用API接口操作简捷,获取的数据覆盖面宽,但微博网站通常对客户端API的访问频率做了限制,每小时只能进行一定次数的请求,采集效率不高。另一种方法是直接采集网页源文件,模拟用户网页登录,将带有用户名密码的URL提交网站服务器,验证通过后将cookie存入session中,其后请求URL时使用该session做验证。因微博使用ajax技术,因此采集时要进行javascript解析,分析出微博数据的实际地址,获取源文件。采集时从初始的URL 开始,获取网页源文件,解析出新的URL放入待访问URL队列,访问速度不受API的限制。但采集的信息不够全,对同一个用户,也可能丢失掉部分信息。实际采集时结合两种方法,在 API的访问频率达到上限后,以网页源文件方式抓取。微博中,用户会将感兴趣的其他人添加关注,这些人将会出现在该用户的好友列表中,而该用户也会出现在这些人的追随者列表中。关注对象发布的消息,将被推送给该用户,因此该用户受到了其关注对象的强烈影响,帖子信息是随着用户好友关系网络进行传播的。然后,用户的关注对象很少也对该用户添加关注,也几乎不转发该用户的帖子。用户的好友网络与追随者网络是不对称了,双向链接仅占链接总数的22%。采集到的数据经去除广告和无效的信息步骤102后,通过结构化至数据库步骤 103,存入数据库,对应用户表、用户关系表、发帖转帖表。用户表包括用户名、用户ID、用户创建时间、用户好友数、追随者数、发帖数等字段,关系表包括用户1的ID,用户2的ID,关系创建时间、共同好友数、共同追随者数等字段,发帖转帖表包括帖子ID,帖子内容、发布者ID、发布时间、是否为转帖、原作者ID等字段。使用网页源文件采集时,需要使用不同的模板,从源文件中抽取出所需要的结构化数据,存入数据库中。在将数据存储之前,需要删除广告用户及无意义的信息。微博中存在大量的广告用户,不断发布产品宣传、交易、服务等信息,多数包含有指向外网的链接。这些用户中,大多数是临时用户,部分公司为了即时的需要,新创建一些账号,散布广告信息,发布完消息后不再使用这些账号,因此账号的活跃时间较短。在筛选时,删除活跃时间少于1天的用户及其发布转发的所有帖子。少数广告用户虽然活跃时间大于1天,由于其在短时间内大量发帖,且发布的信息中包含较多链向单一外网的链接,因此也删除这些用户及其发表转发的帖子。此外,一些用户常常发布表达其心情状态等信息,字数通常在10字以内,这部分信息将降低内容相似性判断的准确性, 影响模型预测性能,因此也删掉这些帖子。在数据的发帖转帖表中,找出所有原帖,通过计算用户内容、网络、时间特征步骤 104,计算其与每个用户(即原帖——用户对)的内容特征、网络特征及时间特征总计17个特征。用户发表转发的帖子,通常具有一定的内容团聚性,如某些用户关注娱乐消息, 而一些用户关注社会动态,因此用户参与的帖子集合反应了其兴趣偏好。对每个原帖, 经分词、去无意义词及停止词后,转化成词条向量,计算原帖与用户参与帖子集合的相似性。原帖T对应的词条向量为W1, w2,W3... wn>,其中%为词条j的权重。%采用经典的TFXIDF定义。IDF根据所有原帖来计算。一个用户u参与帖子集合V包括发布帖子集合V1,转发帖子集合V2。义、V2均包含一系列的帖子,如V1 = <1\,T2,T3...Tm>。帖子间的相似性使用帖子词条向量夹角的余弦来度量,两帖子Ti, Ir它们之间的相似性为
权利要求
1.一种基于多元特征的微博信息传播行为预测方法,其特征在于包括如下步骤a、微博网络数据预处理步骤,获取网络数据,并对相关数据进行预处理;b、微博网络预测模型建立步骤,根据经预处理获得的数据,建立相应的预测模型; C、微博网络预测步骤,基于所述预测模型预测用户行为趋势。
2.如权利要求1所述的一种基于多元特征的微博信息传播行为预测方法,其特征在于所述微博网络数据预处理步骤中获取网络数据包括获取用户、发帖转帖、用户关系信肩、ο
3.如权利要求1所述的一种基于多元特征的微博信息传播行为预测方法,其特征在于所述微博网络数据预处理步骤中对相关数据进行预处理包括去除广告及不完整的帖子。
4.如权利要求1至3之一所述的一种基于多元特征的微博信息传播行为预测方法,其特征在于所述微博网络数据预处理步骤包括计算每个原帖下,各用户的内容特征、网络特征及时间特征。
5.如权利要求4所述的一种基于多元特征的微博信息传播行为预测方法,其特征在于所述内容特征共8个,原帖T与用户u发帖集合V1的内容相似性特征原帖T与用户u转帖集合V2的内容相似性特征f2,原帖T是否包含URL的特征f3及该URL在用户参与帖子集合V (V = VJV2)中出现次数特征&,原帖T是否包含hash tag (标志为“#短语”) 的特征f5及该hash tag在用户参与帖子集合V中出现次数特征f6,原帖T是否包含引用 (标志为用户名”)的特征f7及该引用在用户参与帖子集合V中出现次数特征f8,上述原帖T与V1的相似性为T与集合V1所有帖子相似性的平均值
6.如权利要求4所述的一种基于多元特征的微博信息传播行为预测方法,其特征在于所述网络特征共6个,原帖T作者的好友数特征f9,原帖T作者的追随者数特征f1(l,原帖T作者与用户u的共同好友数特征fn,T作者与用户u的共同追随者数特征f12,T作者与用户u的共同引用数特征f13,T作者与用户u的共同转帖数特征f14。
7.如权利要求4所述的一种基于多元特征的微博信息传播行为预测方法,其特征在于所述时间特征共3个,用户u当前活跃度特征f15 (等于最近一小时内参与帖子数),原帖发布时间特征f16,最近一小时内网络中的新帖子数特征f17。
8.如权利要求1所述的一种基于多元特征的微博信息传播行为预测方法,其特征在于所述微博网络预测模型建立步骤,其模型为最大熵模型,最大熵模型使用已有的帖子作为训练数据,将每个原帖下用户的特征作为模型输入,用户是否转发原帖,以O和1表示,作为模型输出,使用迭代方法训练模型参数。
9.一种基于多元特征的微博信息传播行为预测系统,其特征在于包括a、微博网络数据预处理模块,用于获取网络数据,并对相关数据进行预处理;b、微博网络预测模型建立模块,用于根据经预处理获得的数据,建立相应的预测模型;C、微博网络预测模块,用于基于所述预测模型预测用户行为趋势。
10.如权利要求9所述的一种基于多元特征的微博信息传播行为预测系统,其特征在于所述微博网络数据预处理模块进一步包括采集微博网络模块、去除广告及不完整帖子模块、结构化至数据库模块、计算用户内容、网络、时间特征模块。
全文摘要
本发明涉及一种基于多元特征的微博信息传播行为预测方法及系统。它是从微博网络获取网络数据,并对相关数据进行预处理,然后根据经预处理获得的数据,建立相应的预测模型,基于所述预测模型预测用户行为趋势。本发明可以用于网络安全控制。
文档编号H04L12/24GK102394798SQ20111036396
公开日2012年3月28日 申请日期2011年11月16日 优先权日2011年11月16日
发明者刘云, 张振江, 朱江, 熊菲, 王星, 程军军 申请人:北京交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1