基于数据挖掘的用户行为分析方法及用户行为分析装置与流程

文档序号:13736160阅读:263来源:国知局
基于数据挖掘的用户行为分析方法及用户行为分析装置与流程

本发明涉及数据分析技术领域,具体而言,涉及一种基于数据挖掘的用户行为分析和一种基于数据挖掘的用户行为分析装置。



背景技术:

随着互联网的商用和广泛部署,为了给用户提供全面、优质的个性化服务,在互联网应用这一领域,用户行为分析指的是统计和分析用户接入网络服务全过程当中产生的实时性和历史性的用户行为信息。

随着时间周期逐渐增大,互联网用户产生和应用的数据量日益增大,海量用户数据的出现和数据结构的多样化,对于用户行为的分析,相关技术中存在一些问题:第一,大多基于web日志进行数据挖掘,但这些日志并不足以及时描述用户访问网站时的情景:第二,大型网站一般拥有庞大的在线用户,产生的实时行为和上下文信息量巨大,因此,系统的存储能力和计算速度更强,才能及时地将分析结果反馈给用户;第三,数据分析过程比较粗糙,不能针对不同网络环境进行分类分析。而目前,大多数用户行为分析系统采用关系数据库技术与传统的数据处理方法,不能很好满足海量数据的高效分析。



技术实现要素:

本发明正是基于上述技术问题至少之一,提出了一种新的基于数据挖掘的用户行为分析方案,能够基于对不同网络环境下的用户行为数据的挖掘分析来确定用户行为,实现了对用户行为数据的精细化分析,同时将数据分散至多个数据点进行分析,确保了数据挖掘效率。

有鉴于此,本发明提出了一种新的基于数据挖掘的用户行为分析方法,包括:采集不同网络环境下的用户行为数据;对采集到的用户行为数据进行分类处理,以得到不同类别的待分析数据,并将不同类别的待分析数据存储于分布式文件系统上;将所述不同类别的待分析数据分配至所述分布式文件系统中的多个数据节点上;基于每个所述数据节点对其所分配到的待分析数据进行预处理与聚合;根据聚合后的待分析数据,确定用户在不同网络环境下的兴趣数据。

在该技术方案中,通过对采集的不同环境下的用户行为数据进行分离处理,以获得不同类别的待分析数据,将获得的待分析数据分配至分布式文件系统中的多个数据节点上,基于每个数据节点完成对其所分配到的待分析数据的预处理与聚合,将海量数据分析任务分散处理,有效降低了计算量和复杂度,确保了数据挖掘效率,此外根据聚合后的待分析数据,确定用户在不同网络环境下的兴趣数据,实现了对用户行为数据的精细化分析。

在上述技术方案中,优选地,还包括:获取用户所使用的当前网络环境;从所述用户在不同网络环境下的兴趣数据中,查找与当前网络环境相对应的目标兴趣数据;搜索与所述目标兴趣数据相关联的网址,并推荐至用户。

在该技术方案中,通过为用户推荐与其兴趣数据相关联的网址,用户可根据需求直接访问网址,而无需浪费精力查找,提升了用户的使用体验。

在上述技术方案中,优选地,所述将所述不同类别的待分析数据分配至所述分布式文件系统中的多个数据节点上的步骤,具体包括:统计所述不同类别的待分析数据的类别数量;根据所述不同类别的待分析数据的类别数量,确定占用所述分布式文件系统中的数据节点的数量,其中,所述分布式文件系统中的数据节点的数量等于所述不同类别的待分析数据的类别数量;依照数据类别将所述不同类别的待分析数据分配至所述分布式文件系统中的数据节点上。

在该技术方案中,采用与待分析数据的类别数量相等的数据节点,依类进行数据分析,确保了数据分析效率。

在上述任一项技术方案中,优选地,所述采集不同网络环境下的用户行为数据的步骤,具体包括:采用爬虫技术采集不同网路环境下的用户行为数据。

在上述任一项技术方案中,优选地,所述不同网络环境包括移动数据网络环境、无线网络环境。

根据本发明的第二方面,提出了一种基于数据挖掘的用户行为分析装置,包括:采集单元,用于采集不同网络环境下的用户行为数据;第一处理单元,用于对采集到的用户行为数据进行分类处理,以得到不同类别的待分析数据,并将不同类别的待分析数据存储于分布式文件系统上;分配单元,用于将所述不同类别的待分析数据分配至所述分布式文件系统中的多个数据节点上;第二处理单元,用于基于每个所述数据节点对其所分配到的待分析数据进行预处理与聚合;第一确定单元,用于根据聚合后的待分析数据,确定用户在不同网络环境下的兴趣数据。

在该技术方案中,通过对采集的不同环境下的用户行为数据进行分离处理,以获得不同类别的待分析数据,将获得的待分析数据分配至分布式文件系统中的多个数据节点上,基于每个数据节点完成对其所分配到的待分析数据的预处理与聚合,将海量数据分析任务分散处理,有效降低了计算量和复杂度,确保了数据挖掘效率,此外根据聚合后的待分析数据,确定用户在不同网络环境下的兴趣数据,实现了对用户行为数据的精细化分析。

在上述技术方案中,优选地,还包括:获取单元,用于获取用户所使用的当前网络环境;查找单元,用于从所述用户在不同网络环境下的兴趣数据中,查找与当前网络环境相对应的目标兴趣数据;推荐单元,用于搜索与所述目标兴趣数据相关联的网址,并推荐至用户。

在该技术方案中,通过为用户推荐与其兴趣数据相关联的网址,用户可根据需求直接访问网址,而无需浪费精力查找,提升了用户的使用体验。

在上述任一项技术方案中,优选地,所述分配单元包括:统计单元,用于统计所述不同类别的待分析数据的类别数量;第二确定单元,用于根据所述不同类别的待分析数据的类别数量,确定占用所述分布式文件系统中的数据节点的数量,其中,所述分布式文件系统中的数据节点的数量等于所述不同类别的待分析数据的类别数量;第三处理单元,用于依照数据类别将所述不同类别的待分析数据分配至所述分布式文件系统中的数据节点上。

在该技术方案中,采用与待分析数据的类别数量相等的数据节点,依类进行数据分析,确保了数据分析效率。

在上述任一项技术方案中,优选地,所述采集单元具体用于:采用爬虫技术采集不同网路环境下的用户行为数据。

在上述任一项技术方案中,优选地,所述不同网络环境包括移动数据网络环境、无线网络环境。

通过以上技术方案,能够基于对不同网络环境下的用户行为数据的挖掘分析来确定用户行为,实现了对用户行为数据的精细化分析,同时将数据分散至多个数据点进行分析,确保了数据挖掘效率。

附图说明

图1示出了根据本发明的实施例的基于数据挖掘的用户行为分析方法的示意流程图;

图2示出了根据本发明的实施例的基于数据挖掘的用户行为分析装置的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的实施例的基于数据挖掘的用户行为分析方法的示意流程图。

如图1所示,根据本发明的实施例的基于数据挖掘的用户行为分析方法,包括:

步骤102,采集不同网络环境下的用户行为数据。

优选地,采用爬虫技术采集不同网路环境下的用户行为数据。

步骤104,对采集到的用户行为数据进行分类处理,以得到不同类别的待分析数据,并将不同类别的待分析数据存储于分布式文件系统上。

步骤106,将所述不同类别的待分析数据分配至所述分布式文件系统中的多个数据节点上。

步骤108,基于每个所述数据节点对其所分配到的待分析数据进行预处理与聚合。

步骤110,根据聚合后的待分析数据,确定用户在不同网络环境下的兴趣数据。

在该技术方案中,通过对采集的不同环境下的用户行为数据进行分离处理,以获得不同类别的待分析数据,将获得的待分析数据分配至分布式文件系统中的多个数据节点上,基于每个数据节点完成对其所分配到的待分析数据的预处理与聚合,将海量数据分析任务分散处理,有效降低了计算量和复杂度,确保了数据挖掘效率,此外根据聚合后的待分析数据,确定用户在不同网络环境下的兴趣数据,实现了对用户行为数据的精细化分析。其中,用户行为数据包括用户用网类型、浏览页面的时间、频率、在页面上的操作信息、搜索关键词等。

在上述技术方案中,优选地,还包括:获取用户所使用的当前网络环境;从所述用户在不同网络环境下的兴趣数据中,查找与当前网络环境相对应的目标兴趣数据;搜索与所述目标兴趣数据相关联的网址,并推荐至用户。

在该技术方案中,通过为用户推荐与其兴趣数据相关联的网址,用户可根据需求直接访问网址,而无需浪费精力查找,提升了用户的使用体验。

在上述技术方案中,优选地,所述将所述不同类别的待分析数据分配至所述分布式文件系统中的多个数据节点上的步骤,具体包括:统计所述不同类别的待分析数据的类别数量;根据所述不同类别的待分析数据的类别数量,确定占用所述分布式文件系统中的数据节点的数量,其中,所述分布式文件系统中的数据节点的数量等于所述不同类别的待分析数据的类别数量;依照数据类别将所述不同类别的待分析数据分配至所述分布式文件系统中的数据节点上。

在该技术方案中,采用与待分析数据的类别数量相等的数据节点,依类进行数据分析,确保了数据分析效率。

在上述任一项技术方案中,优选地,所述不同网络环境包括移动数据网络环境、无线网络环境。

图2示出了根据本发明的实施例的基于数据挖掘的用户行为分析装置的示意框图。

如图2所示,根据本发明的实施例的基于数据挖掘的用户行为分析装置200,包括:采集单元202、第一处理单元204、分配单元206、第二处理单元208和第一确定单元210。

其中,采集单元202用于采集不同网络环境下的用户行为数据;第一处理单元204用于对采集到的用户行为数据进行分类处理,以得到不同类别的待分析数据,并将不同类别的待分析数据存储于分布式文件系统上;分配单元206用于将所述不同类别的待分析数据分配至所述分布式文件系统中的多个数据节点上;第二处理单元208用于基于每个所述数据节点对其所分配到的待分析数据进行预处理与聚合;第一确定单元210用于根据聚合后的待分析数据,确定用户在不同网络环境下的兴趣数据。

其中,优选地,采集单元202具体用于:采用爬虫技术采集不同网路环境下的用户行为数据。

在该技术方案中,通过对采集的不同环境下的用户行为数据进行分离处理,以获得不同类别的待分析数据,将获得的待分析数据分配至分布式文件系统中的多个数据节点上,基于每个数据节点完成对其所分配到的待分析数据的预处理与聚合,将海量数据分析任务分散处理,有效降低了计算量和复杂度,确保了数据挖掘效率,此外根据聚合后的待分析数据,确定用户在不同网络环境下的兴趣数据,实现了对用户行为数据的精细化分析。

在上述技术方案中,优选地,还包括:获取单元212用于获取用户所使用的当前网络环境;查找单元214用于从所述用户在不同网络环境下的兴趣数据中,查找与当前网络环境相对应的目标兴趣数据;推荐单元216用于搜索与所述目标兴趣数据相关联的网址,并推荐至用户。

在该技术方案中,通过为用户推荐与其兴趣数据相关联的网址,用户可根据需求直接访问网址,而无需浪费精力查找,提升了用户的使用体验。

在上述任一项技术方案中,优选地,所述分配单元206包括:统计单元2062,用于统计所述不同类别的待分析数据的类别数量;第二确定单元2064,用于根据所述不同类别的待分析数据的类别数量,确定占用所述分布式文件系统中的数据节点的数量,其中,所述分布式文件系统中的数据节点的数量等于所述不同类别的待分析数据的类别数量;第三处理单元2066,用于依照数据类别将所述不同类别的待分析数据分配至所述分布式文件系统中的数据节点上。

在该技术方案中,采用与待分析数据的类别数量相等的数据节点,依类进行数据分析,确保了数据分析效率。

在上述任一项技术方案中,优选地,所述不同网络环境包括移动数据网络环境、无线网络环境。

以上结合附图详细说明了本发明的技术方案,本发明的技术方案提出了一种新的基于数据挖掘的用户行为分析方案,基于数据挖掘的用户行为分析方案,能够基于对不同网络环境下的用户行为数据的挖掘分析来确定用户行为,实现了对用户行为数据的精细化分析,同时将数据分散至多个数据点进行分析,确保了数据挖掘效率。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1