一种微博用户行为分析预测的方法与流程

文档序号:14155071阅读:221来源:国知局

本发明涉及网络数据技术领域,特别是涉及一种微博用户行为分 析预测的方法。



背景技术:

据中国互联网信息中心于2017年1月发布的第39次《中国互 联网络发展状况统计报告》显示,截止2016年12月,中国网民规模 已达7.31亿,新增4299万,普及率53.2%,较2015年底提升了 2.9个百分点。而手机上网用户规模达6.95亿,新增7550万,较 2015年底的90.1%提升到了95.1%。很明显的,移动终端尤其是以手 机为代表的移动终端,已发展成为我国网民上网的主要方式。在我国, 从当初的新浪、网易、搜狐、腾讯四大门户网站,到今天的BAT(百 度,阿里巴巴,腾讯)和TMD(头条,美团,滴滴)移动互联网已经 进入发展的快车道。伴随与此SNS应用(交友网站,微博等)的发 展也进入了新的阶段,借助兴趣、关注、LBS(Location Based Service)、联系人等模块,以解决用户交流沟通,互动娱乐,分享 等为出发点,满足不同场景下的用户需求。

互联网时代造就了“指尖上的信息”。以在线论坛,社交网站,社交媒体 等为代表的社交网络服务吸引了越来越多的用户,诸如国外的Facebook, Twitter,YouTube等,据社交网络Facebook2016年第一季度财报显示,它现 在的月活跃用户数量为16.5亿(同比上涨了15%),其中移动用户数量为15.1 亿(同比上涨了21%),它的日活跃用户数量为10.9亿(同比上涨了16%), 移动日活跃用户数量为9.89亿(同比上涨了24%),互联网正在一点一点的 改变着人们的习惯。

微博作为一种新型的在线社交媒体平台,以其使用门槛低、获取 信息方便、涵盖内容全面等特点迅速吸引了大量的用户,对信息的泛 洪式传播起到了推手的作用,形成了一种特有的信息传播网络。因此, 微博成了许多个人和企业获取信息主要平台,研究人们在微博中的行 为特征、预测人们对信息的处理情况,对于微博营销甚至网络营销、 热点话提提取、舆情控制等方面具有重要的意义。



技术实现要素:

本发明的目的是提供一种微博用户行为分析预测的方法,对微博 网络中用户转发行为的分析及预测研究意义重大,有利于政府机构各 部门和相关企业组织掌握用户的动态,预测用户后继行为,进而引导 行为信息的发展方向;同时政府也可以在作决策的时候参考群众的言 论和社会舆论做出科学有效的决策。

一种微博用户行为分析预测的方法,所述方法包括:

步骤S101:获取微博数据,并分析微博网页结构,选取种子用 户后,以该用户为根节点,按广度优先的顺序将该用户的粉丝群以及 该用户的关注列表加入到待爬取队列,抓取一定时间段内的数据,最 后将爬取完的数据分为训练数据和测试数据;

步骤S102:预处理数据,对实验数据按照一定的规则进行处理;

步骤S103:提取文本特征,包括提取统计特征、提取语义特征 以及提取组合特征;

步骤S104:提取相关特征,从结构特征、用户特征、微博特征 三个维度做细粒度的特征提取。

步骤S105:得到表征用户兴趣的空间特征。

具体地,步骤S101:获取微博数据,并分析微博网页结构,选 取种子用户后,以该用户为根节点,按广度优先的顺序将该用户的粉 丝群以及该用户的关注列表加入到待爬取队列,抓取一定时间段内的 数据,最后将爬取完的数据分为训练数据和测试数据,包括先获得微 博平台的授权。

具体地,步骤S102:预处理数据,对实验数据按照一定的规则 进行处理;包括分为两步第一步数据清洗(ETL),第二步二次处理, 降低特征维度。

具体地,步骤S103:提取文本特征,包括提取统计特征、提取 语义特征以及提取组合特征,所述提取统计特征采用平均频率法。

具体地,步骤S103:提取文本特征,包括提取统计特征、提取 语义特征以及提取组合特征,所述语义特征包括文档、主题以及词。

具体地,步骤S103:提取文本特征,包括提取统计特征、提取 语义特征以及提取组合特征,所述提取组合特征包括利用用户微博中 的词汇和关注列表加权处理后的兴趣集来表征用户的兴趣以及潜在 的兴趣。

具体地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括用户特征的提取将从是 否认证、用户重要程度、用户活跃度三个方面进行。

具体地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括结构特征提取将从用户 间的亲密度和兴趣相似度两个方面进行。

具体地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括微博特征表征了用户发 布微博的内容形式。

由以上技术方案可知:本发明的目的是提供一种微博用户行为分 析预测的方法,对微博网络中用户转发行为的分析及预测研究意义重 大,通过获取微博数据;预处理数据;提取文本特征,包括提取统计 特征、提取语义特征以及提取组合特征;提取相关特征,从结构特征、 用户特征、微博特征三个维度做细粒度的特征提取以及得到表征用户 兴趣的空间特征等五个步骤,有利于政府机构各部门和相关企业组织 掌握用户的动态,预测用户后继行为,进而引导行为信息的发展方向; 同时政府也可以在作决策的时候参考群众的言论和社会舆论做出科 学有效的决策。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的 一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或 部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附 图中:

图1为本申请实施例提供的一种微博用户行为分析预测的方法 流程图。

具体实施方式

本下面将结合本发明实施例中的附图,对本发明实施例中的技术 方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一 部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域 普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。

如图1所示,本申请实施例提供的一种微博用户行为分析预测的 方法流程图。

一种微博用户行为分析预测的方法,所述方法包括:

步骤S101:获取微博数据,并分析微博网页结构,选取种子用 户后,以该用户为根节点,按广度优先的顺序将该用户的粉丝群以及 该用户的关注列表加入到待爬取队列,抓取一定时间段内的数据,最 后将爬取完的数据分为训练数据和测试数据;

主要获取了用户的博文内容、用户粉丝数、关注数、博文发布时 间等数据

步骤S102:预处理数据,对实验数据按照一定的规则进行处理;

微博平台是一个平民化的社交媒体平台,内容具有草根性、娱乐 化、碎片性、口语化严重等特点,这样就给文本分析造成了一定干扰。 所以应当按照实验目的,对实验数据按照一定的规则进行处理。文中 对微博数据的预处理主要分两个步骤:第一步是数据清洗(ETL), 第二步是对清洗后的数据进行二次处理,以达到降低特征维度的目 的。

步骤S103:提取文本特征,包括提取统计特征、提取语义特征 以及提取组合特征;

对于新浪微博用户来说,每天平台上都会产生数以亿计的微博消 息,并且充斥着各种同用户兴趣不太相关的信息。为了过滤掉一些用 户可能不太感兴趣的微博信息,留下与用户兴趣尽可能相关的信息, 微博平台提供了一个自定义标签的功能。用户可以自定义一些标签信 息,这样平台可以帮助用户过滤掉一些不太感兴趣的微博消息。

步骤S104:提取相关特征,从结构特征、用户特征、微博特征 三个维度做细粒度的特征提取。

微博网络中的用户是通过关注与被关注的这种关注关系联系起 来的,并且微博消息的扩散传播正是依赖了由这种关注关系构成的微 博网络结构。在数据经过预处理后,从用户、微博两个维度做数据粗 粒度分析,从结构特征、用户特征、微博特征三个维度做细粒度的特 征提取,得到模型输入样本的特征集合。

步骤S105:得到表征用户兴趣的空间特征。

本发明的目的是提供一种微博用户行为分析预测的方法,对微博 网络中用户转发行为的分析及预测研究意义重大,有利于政府机构各 部门和相关企业组织掌握用户的动态,预测用户后继行为,进而引导 行为信息的发展方向;同时政府也可以在作决策的时候参考群众的言 论和社会舆论做出科学有效的决策。

进一步地,步骤S101:获取微博数据,并分析微博网页结构, 选取种子用户后,以该用户为根节点,按广度优先的顺序将该用户的 粉丝群以及该用户的关注列表加入到待爬取队列,抓取一定时间段内 的数据,最后将爬取完的数据分为训练数据和测试数据,包括先获得 微博平台的授权。

进一步地,步骤S102:预处理数据,对实验数据按照一定的规 则进行处理;包括分为两步第一步数据清洗(ETL),第二步二次处 理,降低特征维度。

进一步地,步骤S103:提取文本特征,包括提取统计特征、提 取语义特征以及提取组合特征,所述提取统计特征采用平均频率法。

进一步地,步骤S103:提取文本特征,包括提取统计特征、提 取语义特征以及提取组合特征,所述语义特征包括文档、主题以及词。

进一步地,步骤S103:提取文本特征,包括提取统计特征、提 取语义特征以及提取组合特征,所述提取组合特征包括利用用户微博 中的词汇和关注列表加权处理后的兴趣集来表征用户的兴趣以及潜 在的兴趣。

进一步地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括用户特征的提取将从是 否认证、用户重要程度、用户活跃度三个方面进行。

进一步地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括结构特征提取将从用户 间的亲密度和兴趣相似度两个方面进行。

进一步地,步骤S104:提取相关特征,从结构特征、用户特征、 微博特征三个维度做细粒度的特征提取,包括微博特征表征了用户发 布微博的内容形式。

由以上技术方案可知:本发明的目的是提供一种微博用户行为分 析预测的方法,对微博网络中用户转发行为的分析及预测研究意义重 大,通过获取微博数据;预处理数据;提取文本特征,包括提取统计 特征、提取语义特征以及提取组合特征;提取相关特征,从结构特征、 用户特征、微博特征三个维度做细粒度的特征提取以及得到表征用户 兴趣的空间特征等五个步骤,有利于政府机构各部门和相关企业组织 掌握用户的动态,预测用户后继行为,进而引导行为信息的发展方向; 同时政府也可以在作决策的时候参考群众的言论和社会舆论做出科 学有效的决策。

至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了 本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情 况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理 的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖 了所有这些其他变型或修改。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1