一种用户行为数据建立及分析方法与流程

文档序号:13804849阅读:423来源:国知局

本发明涉及大数据统计技术领域,尤其涉及一种用户行为数据建立及分析方法。



背景技术:

论坛,也称为bbs,是互联网上常见的用于信息服务的web系统,主要是为用户提供不限地域的相互沟通的平台,现在的互联网已成为一种生活方式,能够提供知识库,进行上传图片、转帖、下载音乐等等,人们可以在这里畅所欲言,发表自己的看法、关注他人的动态,结交朋友等等,使得生活丰富多彩。

现有的论坛软件比较多,有针对贸易的、有针对名人的、有针对小说的、有针对会议、针对学术的等等,而且,论坛活动具有强大的聚众能力,利用论坛作为平台举办各类踩楼、灌水、贴图、视频等活动,可以调动各网友与品牌之间的互动。

而且,现有的事件炒作通常是炮制网民感兴趣的活动,将客户的品牌、产品、活动内容植入进传播内容,并展开持续的传播效应,引发新闻事件,导致传播的连锁反应。

通过现有的搜索引擎内容编辑技术,使得主流搜索引擎快速寻找到发布的帖子。

上述这些都是对论坛的发帖状况进行统计分析得到的响应效果,现有并没有对论坛的使用用户进行有效统计分析的数据分析模型,使得用户无法获得归属感和成就感。

因此,现有技术中存在论坛使用者没有对自己兴趣进行定位,无法对论坛使用者有效管理的技术问题。



技术实现要素:

本发明提供了一种用户行为数据建立及分析方法,解决了现有技术中存在论坛使用者没有对自己兴趣进行定位,无法对论坛使用者有效管理的技术问题。

为解决上述技术问题,本发明采用的一个技术方案是:一种用户行为数据建立及分析方法,包括如下内容:

根据论坛用户的每天的访问信息、访问时间,确定所述论坛用户的活跃程度;

根据所述论坛用户的活跃程度,统计获得活跃程度大于预设值的论坛用户的信息;

基于所述活跃程度大于预设值的论坛用户的信息,提取所述论坛用户的发帖内容信息,获取所述发帖内容信息的多个标签;

合并相同类型的标签,获得发帖内容的分类信息;

根据每种类型的发帖内容的回帖信息的内容以及长度信息,剔除无效的回帖信息;

将每种类型的发帖内容的回帖信息按照数量由大到小的顺序排列,获取前n名的回帖信息对应的发帖内容所对应的标签,n为大于0的自然数;

将所述标签标注为所述论坛用户的兴趣。

进一步地,根据论坛用户的每天的访问信息、访问时间,确定所述论坛用户的活跃程度,具体包括:

获取论坛用户每天访问浏览的内容信息的数量,以及访问时间的集中程度;

在所述访问浏览的内容信息的数量大于或等于普通数量,且访问时间的集中程度大于或等于预设集中程度时,确定所述论坛用户属于论坛忠诚用户;

在所述访问浏览的内容信息的数量小于普通数量,且访问时间的集中程度小于预设集中程度时,确定所述论坛用户属于论坛僵尸用户;

在所述访问浏览的内容信息的数量小于普通数量,且访问时间的集中程度大于或等于预设集中程度时,或者在所述访问浏览的内容信息的数量大于或等于普通数量,且访问时间的集中程度小于预设集中程度时,确定所述论坛用户属于论坛看客用户。

进一步地,根据所述论坛用户的活跃程度,统计获得活跃程度大于预设值的论坛用户的信息,具体为:

根据所述论坛用户的活跃程度,统计获得属于论坛忠诚用户的用户信息,所述用户的信息为:用户的账号信息。

进一步地,基于所述活跃程度大于预设值的论坛用户的信息,提取所述论坛用户的发帖内容信息,获取发帖内容信息的多个标签,具体为:

基于所述活跃程度大于预设值的论坛用户的信息,提取所述论坛用户的发帖内容信息,并筛选出发帖内容信息的关键字信息,分析所述关键字信息出现的频次,获取所述发帖内容信息的多个标签。

进一步地,根据每种类型的发帖内容的回帖信息的内容及长度信息,剔除无效的回帖信息,具体为:

根据每种类型的发帖内容的回帖信息的内容,剔除与所述发帖内容不相关的回帖内容、无意义的回帖内容;

接着,根据每种类型的发帖内容的回帖信息的长度信息,剔除长度小于预设字数的回帖内容。

本发明的有益效果是:区别于现有技术的情况:

本发明采用的用户行为数据建立及分析方法,通过分析用户每天访问论坛的数量和时间,获得该论坛用户的活跃程度,然后获得活跃程度大于预设值的论坛用户的信息,基于该用户的信息,提取论坛用户的发帖内容信息,从而蝴蝶发帖内容信息的多个标签,将多个标签进行合并,获得发帖内容的分类信息,根据每种类型的发帖内容的回帖信息的内容以及长度信息,剔除无效的回帖信息,将每种类型的发帖内容的回帖信息按照数量由大到小的顺序排列,获取前n名的回帖信息对应的发帖内容所对应的标签,然后将该标签标注为论坛用户的兴趣,进而通过层层筛选,获得论坛用户的准确兴趣点,便于论坛的管理。

附图说明

图1是本发明实施例中用户行为数据建立及分析方法的步骤流程示意图。

具体实施方式

本发明提供了一种用户行为数据建立及分析方法,解决了现有技术中存在论坛使用者没有对自己兴趣进行定位,无法对论坛使用者有效管理的技术问题。

为了解决上述技术问题,下面结合说明书附图进行详细说明。

本发明实施例提供的一种论坛用户兴趣分析的方法,如图1所示,包括:s101,根据论坛用户的每天的访问信息、访问时间,确定,论坛用户的活跃程度;s102,根据论坛用户的活跃程度,统计获得活跃程度大于预设值的论坛用户的信息;s103,基于活跃程度大于预设值的论坛用户的信息,提取论坛用户的发帖内容信息,获取发帖内容信息的多个标签;s104,合并相同类型的标签,获得发帖内容的分类信息;s105,根据每种类型的发帖内容的回帖信息的内容以及长度信息,剔除无效的回帖信息;s106,将每种类型的发帖内容的回帖信息按照数量由大到小的顺序排列,获取前n名的回帖信息对应的发帖内容所对应的标签,n为大于0的自然数;s107,将该标签标注为该论坛用户的兴趣。

在具体的实施方式中,s101具体包括获取论坛用户每天访问浏览的内容信息的数量,以及访问时间的集中程度,在访问浏览的内容信息的数量大于或等于普通数量,且访问时间的集中程度大于或等于预设集中程度时,确定该论坛用户属于论坛忠诚用户。该普通数量具体是指访问量的均值,预设集中程度是指平常用户访问的集中程度的平均值,也就是普遍用户访问的集中时间,比如,普遍用户集中时间是30分钟到1个小时。也就是说,该用户每天在论坛上访问的帖子数量较多,访问的时间也比较集中,属于花费大量时间在论坛上的专业人士。

在访问浏览的内容信息的数量小于普通数量,且访问时间的集中程度小于预设集中程度时,确定该论坛用户属于论坛冒泡用户,也就是说,该论坛用户偶尔出现,访问量较少,而且,时间不集中。

在访问浏览的内容信息的数量小于普通数量,且访问时间的集中程度大于或等于预设集中程度时,或者在访问浏览的内容信息的数量大于或等于普通数量,且访问时间的集中程度小于预设集中程度时,确定该论坛用户属于论坛看客用户。也就是说,该论坛用户属于走马观花的用户,偶尔集中,偶尔不集中。

由上述分析,从而确定论坛用户的活跃程度,那么,上述只有论坛忠诚用户属于活跃程度大于预设值的论坛用户。

因此,在s102中,就是获得属于论坛忠诚用户的用户信息,这里的用户的信息具体是指用户的账号信息,由于论坛在注册时,可以通过昵称注册,也可以通过邮箱注册,当然,还可以关联其他应用服务进行注册,因此,这里的账号信息就是用户注册该论坛的注册信息。

由于该注册信息都是唯一的,因此,能够唯一标识论坛用户。

接着,在s103中,具体是基于活跃程度大于预设值的论坛用户的信息,提取该论坛用户的发帖内容信息,并筛选处发帖内容信息的关键字信息,分析该关键字信息出现的频次,获取该发帖内容信息的多个标签。

在具体的实施方式中,确定了属于论坛忠诚用户之后,基于这些论坛忠诚用户的用户信息,提取这些用户发帖内容信息,从中筛选出关键字信息,分析关键字信息出现的频次,由于关键词能够确定发帖内容的主旨,因此,能够根据该关键字以及关键字出现的频次,当然,是关键字频次较高的情况下,总结获得发帖内容信息的多个标签,比如,提取的关键字中有“房价”、“经济”、“物价”,而且出现的频次较高,那么,可以从中确定出发帖内容信息的标签为“社会经济舆论”。当然,该论坛用户还有其他的发帖内容,从中可以提取出关键字信息,从而总结出该发帖内容的标签,如果获得当前的标签为“房屋贷款利率变化”,与前一个标签属于同一类别,因此,在s104中,合并相同类型的标签,获得发帖内容的分类信息。也就是,将多个帖子的内容通过提取关键字的方式,获得关键字所指代的标签,然后,将获得的标签重新进行划分和归纳,获得一个大类。

然后,在s105中,根据每类型的发帖内容的回帖信息的内容以及长度信息,剔除无效的回帖信息。具体地,首先是根据每种类型的发帖内容的回帖信息的内容,剔除与发帖内容不相关的回帖内容、无意义的回帖内容。由于每个发帖内容的回帖信息很多,有些是没有意义的,比如,有些打广告的,或者仅仅想随便说两句的,这些都是不相关的或者是无意义的回帖内容,应当剔除掉,接着,在根据每种类型的发帖内容的回帖信息的长度信息,剔除长度小于预设字数的回帖内容,从而保留有价值的回帖内容。

执行s106,将每种类型的发帖内容的回帖信息按照数量由大到小的顺序排列,获取前n名的回帖信息对应的发帖内容所对应的标签,n为大于0的自然数。这里将回帖信息按照数量由大到小顺序排列,从而确定每一个发帖内容的关注度,不仅是论坛用户自己的关注度,而且还有与其他论坛用户互动的关注度,这里是指有效的信息,按照回帖数量由大到小的排序,前n名的回帖信息对应的发帖内容所对应的标签,足以标注该论坛用户的兴趣点,因此,在s107中,将上述获得标签标注为论坛用户的兴趣。

通过上述对回帖数量的统计,将数量较多的回帖信息对应的发帖内容的标签,标注为用户的兴趣,

采用上述的技术方案,能够通过层层统计分析,能够精准定位论坛忠诚用户的兴趣点,对论坛用户的兴趣标定,便于其他例如论坛冒泡用户以及论坛看客用户能够根据兴趣点选择关注的论坛忠诚用户,也便于论坛管理者对论坛的管理。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1