一种大数据处理方法及系统与流程

文档序号:11234205阅读:435来源:国知局
一种大数据处理方法及系统与流程

本发明涉及大数据处理技术领域,特别涉及一种大数据处理方法及系统。



背景技术:

近年来,互联网的发展越来越迅速,使用互联网的人也越来越普及,人们在使用互联网进行日常的活动的时候,例如网购,查看节目,信息,商品都会产生大量的数据,而这些数据对于电子商务网站或者互联网媒体类网站来说是非常宝贵的,利用这些大数据的处理处理能得到非常宝贵的商业价值。

大数据广泛应用于互联网各项应用中,对网站的价值意义重大,通过海量数据处理和云计算的实现,可以最大化帮助互联网媒体类网站广告系统和电子商务类网站大数据商品推送系统得到最大化的提升。互联网媒体类网站大数据广告根据用户阅读偏好推送,针对海量数据的云计算,通过各种广告形式推送到网站浏览用户电子商务类网站大数据商品推送给在线购买者,通过处理用户点击行为、购买行为、产品相关性、偏好及使用时间规律推送相应的商品及促销信息。

大数据的出现,正在引发全球范围内深刻的技术与商业变革。在技术上,大数据使从数据当中提取信息的常规方式发生了变化。在搜索引擎和在线广告中发挥重要作用的机器学习,被认为是大数据发挥真正价值的领域。在海量的数据中统计处理出人的行为、习惯等方式,最大程度帮助广告主找到精准潜在客户,从而提升广告效果和后续购买操作。

但是当前大数据应用存在着诸多的缺点,例如:1、数据的处理需要基于海量的数据积累。目前大数据需要根据数以百万计的用户及其历史行为进行处理,而绝大部分的平台或企业缺乏大数据依托,往往是小数据、中数据,此外行为习惯、购买记录、阅读记录等数据也比较匮乏;2、数据处理需要强大的软硬件支持。目前大数据的计算有较高的门槛,所以大数据的计算还不是很普及。现在大数据计算主要有下面两类生态圈:开源大数据生态圈和商用大数据生态圈;3、数据处理需要依赖大量专业人士的解码。大数据的行为模型,需要有较强的数学统计要求、计算机建模要求,目前国内还缺乏此类人才。比如需要掌握数据库管理系统的使用能力、概率统计学等;4、数据处理结果还存在误判。大数据的处理结果往往不具备实时性、针对性,原始数据采样精准度和统计方法的差异性,以及建模结构性错误,都会导致处理有误。此外不同的使用场景也会带来完全不同的结果。



技术实现要素:

本发明实施例的目的在于提供一种大数据处理方法及系统,依托云计算能够对大数据进行分布式数据挖掘,可以有效挖掘网站用户行为数据,并实时有效地做云计算处理。

为达到上述目的,本发明实施例公开了一种大数据处理方法,方法包括:

根据用户以往历史浏览、购买记录等行为进行数据采集;

利用hadoop分布式模式,对所述数据采集模块采集到的数据进行过滤,得到的完整且不重复的数据;

将所述数据过滤模块过滤后的完整且不重复的数据,转化为计算机语言并存储在数据库中;

调用所述数据库中存储的信息,并利用云计算处理调用出的所述数据库中的数据。

为达到上述目的,本发明实施例还公开了一种大数据处理系统,所述系统包括:

大数据采集模块,所述数据采集模块用于根据用户以往历史浏览、购买记录等行为进行数据采集;

大数据过滤模块,所述数据过滤模块用于利用hadoop分布式模式,对所述数据采集模块采集到的数据进行过滤,得到的完整且不重复的数据;

编译模块,用于将所述数据过滤模块过滤得到的完整且不重复的数据,转化为计算机语言;

数据库,所述数据过滤模块过滤得到的完整且不重复的数据经过所述编译模块转化的计算机语言能够存储在所述数据库中;

操作系统,通过所述操作系统,可以调用所述数据库中存储的数据信息;

云计算模块,所述云计算模块能处理所述数据库中的数据。

可选的,所述数据处理系统还可以包括:

网络服务器,通过所述网络服务器能将多个所述数据库中的数据连接起来,提供更大的数据。

可选的,所述操作系统为linux操作系统。

可选的,所述网络服务器为apache网络服务器。

可选的,所述数据库为mysql数据库。

可选的,所述编译模块为perl、php或者python编程语言。

可选的,所述数据采集模块采集的数据通过所述云计算进行分布式的数据挖掘,以此有效地挖掘出所需要的数据。

可选的,所述数据处理系统还可以包括:

storm拓扑结构架构,通过所述拓扑结构架构在不需要专业人员的情况下可实时矫正数据处理的偏差。

可选的,所述数据处理系统还可以包括:

mapreduce功能的简单storm拓扑结构,所述mapreduce功能的简单storm拓扑结构可实时矫正数据处理的偏差。

可见,本发明实施例提供的一种大数据处理方法及系统,根据大数据处理系统能够提升网站的广告传播的精准度和商城商品展示的精准度;通过大数据系统处理技术使得平台能迅速了解用户的行为习惯和偏好,并在其使用过程中实时动态交互,让感兴趣的广告及商品在恰当的时间以友好的网站形式进行展示,解决了传统广告和商品展示不精准的问题;解决了国内企业在软硬件上的缺陷,以及操作人员的经验不足,帮忙平台克服原始数据凌乱、大数据模型建模、数据处理及预测等问题,提供实时且相对有效的数据支持;依托云计算能够对大数据进行分布式数据挖掘,可以有效挖掘网站用户行为数据,并实时有效地做云计算处理;并且,其中包含的storm拓扑结构可在不需要专业人员的情况下实时矫正数据处理偏差。

当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种大数据处理方法的流程示意图。

图2为本发明实施例提供的一种分布式数据挖掘示意图。

图3为本发明实施例提供的一种storm拓扑结构架构示意图。

图4为本发明实施例提供的一种mapreduce功能的简单storm拓扑结构示意图。

图5为本发明实施例提供的一种hadoop云框架配置方案示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,图1为本发明实施例提供的一种大数据处理方法的流程示意图,可以包括如下步骤:

s101,根据用户以往历史浏览、购买记录等行为进行数据采集;

s102,利用hadoop分布式模式,对所述数据采集模块采集到的数据进行过滤,得到的完整且不重复的数据;其中,hadoop分布式模式为现有技术,本发明实施例在此不对其进行赘述;

s103,将所述数据过滤模块过滤后的完整且不重复的数据,转化为计算机语言并存储在数据库中;

s104,调用所述数据库中存储的信息,并利用云计算处理调用出的所述数据库中的数据。

大数据处理系统应用在一些电子商务类网站上,例如应用在a商城上。其中a商城大数据处理系统主要包含对用户以往历史浏览、购买记录等行为进行大量及时的处理,形成庞大的商城动态数据仓库,根据购买偏好和采购频率,通过数据挖掘及时推送用户商品信息,自动定期发送包括edm、短信、站内信等多种形式的商品广告信息。还有,大数据处理系统同时也是作为考核商城产品热度和布局的依据,热门常用的产品通过系统处理可以自动排序到最显眼的位置。根据用户访问通道(通常是通过ip地址判断或账号判断,严格遵守安全保密原则),网站内的推荐产品、热门产品会随着用户的操作而快速更新调整,匹配用户感兴趣的商品,从而最大程度提升网站商品的精准销售。为了实现a商城大数据处理系统的功能,本发明提供的一种大数据处理系统采用分布式计算架构(lamp),lamp框架包括:linux操作系统,apache网络服务器,mysql数据库,perl、php或者python编程语言,所有组成产品均是开源软件,是国际上成熟的架构框架。和java/j2ee架构相比,lamp具有web资源丰富、轻量、安全等特点,与微软的.net架构相比,lamp具有通用、跨平台、高性能优势。同时商城数据实时备份、事务处理效应快速、拥有完备的数据处理功能。再通过云计算形式,处理大规模并行(mpp)数据库、分布式数据库等,可以快速、大量、精准的处理商城用户的购买习惯,推送相匹配的产品以多样化的形式展现在购买者的视觉中,从而有效促进商品购买的概率和频率。

大数据处理系统应用在一些互联网媒体类网站上,例如应用在a网站上。其中a网站大数据处理系统,尤其是a网站大数据广告系统,能自动提升付费广告客户在网站上最大程度匹配潜在客户,通过大量用户行为数据处理,通过云计算处理在短时间内为浏览网站的客户推送相关联的广告信息。从而促进在线用户对感兴趣类别的广告进行浏览、点击查看等后续行为,是实现广告价值最大化的一门核心互联网技术。同时a网站广告系统还支持互联网绝大多数广告形式,包括文字链、图片广告、视频广告等。拥有健全的广告排期机制,能精准统计广告pv、点击效果、数据统计等。具备广告客户竞价体系,可按照cpc、cpm、cpa、cps、cpv等多种形式进行收费。为了实现a网站大数据广告系统的功能,本发明提供一种大数据处理系统采用分布式计算架构(lamp),lamp框架包括:linux操作系统,apache网络服务器,mysql数据库,perl、php或者python编程语言,所有组成产品均是开源软件,是国际上成熟的架构框架。和java/j2ee架构相比,lamp具有web资源丰富、轻量、安全等特点,与微软的.net架构相比,lamp具有通用、跨平台、高性能优势。同时通过云计算形式,处理大规模并行(mpp)数据库、分布式数据库等,可以快速、大量、精准的处理广告信息并多样化的展示在用户面前。

根据图2所示的分布式数据挖掘,分布式数据挖掘依托云计算的分布式处理、分布式数据库(paas)和云存储、虚拟化技术(iaas)。通过移动端、pc端来展现云计算呈现数据效果。可以有效挖掘网站用户行为数据,并实时有效的做云计算处理,反馈用户感兴趣的广告信息和商品。

随着云时代的来临,大数据也吸引了越来越多的关注。大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于处理时会花费过多时间和金钱。大数据处理常和云计算联系到一起,因为实时的大型数据集处理需要像mapreduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术,以有效地处理大量的在经过时间内容纳的数据。适用于大数据的技术,包括大规模并行处理(mpp)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

根据图3所示的storm拓扑结构架构,使用快速高效的storm架构,可实时矫正大数据处理的偏差,而且不需要专业的人员就可以得出较为精准的数据结果。storm不只是一个传统的大数据处理系统,它是复杂事件处理(cep)系统的一个示例。cep系统通常分类为计算和面向检测,其中每个系统都可通过用户定义的算法在storm中实现。值得一提的是,storm的一个最主要的特点在于它注重容错和管理。storm实现了有保障的消息处理,所以每个元组都会通过storm拓扑结构进行全面处理;如果发现一个元组还未处理,它会自动从喷嘴处重放。storm还实现了任务级的故障检测,在一个任务发生故障时,消息会自动重新分配以快速重新开始处理。storm包含比hadoop更智能的处理管理,流程会由监管员来进行管理,以确保资源得到充分使用。

具体的,storm还实现了一种数据流模型,其中数据持续地流经一个转换实体网络,如图3所示。一个数据流抽象地称为一个流(流源,streamsource),一个流是一个无限的元组序列(元组流,tuplestream)。元组就像一种使用一些附加的序列化代码来表示标准数据类型(比如整数、浮点和字节数组)或用户定义类型的结构。每个流由一个惟一id定义,这个id可用于构建数据源和接收器(sink)的拓扑结构。流起源于喷嘴(消息源,spout),喷嘴将数据从外部来源流入storm拓扑结构中。并且,spout可以发射元组流给消息处理者(bolt),bolt可以执行过滤、聚合、查询数据库等操作,而且可以一级一级的进行处理元组流,并可以进行流转换(streamtransformation)。

根据图3所示mapreduce功能的简单storm拓扑结构。针对普通的平台或企业,采用更为简单的storm模型,可以更好的适应中小数据流的处理,具有更为广阔的应用领域。接收器(或提供转换的实体)称为螺栓。螺栓实现了一个流上的单一转换和一个storm拓扑结构中的所有处理。螺栓既可实现mapreduce之类的传统功能,也可实现更复杂的操作(单步功能),比如过滤、聚合或与数据库等外部实体通信。典型的storm拓扑结构会实现多个转换,因此需要多个具有独立元组流的螺栓。喷嘴和螺栓都实现为系统中的一个或多个任务。

值得一提的是,可使用storm为词频轻松地实现mapreduce(映射归约)功能。如图4中所示,喷嘴生成文本数据流,螺栓实现map(映射)功能(令牌化一个流的各个单词)。来自“map”螺栓的流然后流入一个实现reduce(归约)功能的螺栓中(以将单词聚合到总数中)。

根据图5所示的hadoop云框架配置方案,其主要阐述云计算的实现,通过云端的配置实现高效的数据处理。hadoopmapreduce采用master(主盘)/slave(从盘)结构。master是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即mapreduce中jobtracker(作业控制器)。slave负责任务的执行和任务状态的回报,即mapreduce中的tasktracker(任务执行器)。

hadoop的核心是使用java语言编写的,但支持使用各种语言编写的数据处理应用程序。最新的应用程序的实现采用了更加深奥的路线,以充分利用现代语言和它们的特性。

具体的操作步骤如下:首先使用了五台机器来实现hadoop框架。

ip依次为:

192.168.1.199(master)

192.168.1.200(slave)

192.168.1.201(slave)

192.168.1.202(slave)

192.168.1.203(slave)

首先登录119服务器:

[root@localhost~]#uname-ar

linuxlocalhost2.6.18-92.el5#1smptuejun1018:49:47edt2008i686

i686i386gnu/linux

保证计算机名的全局唯一性:

hadoop1.test.com-----192.168.1.203

hadoop2.test.com-----192.168.1.202

hadoop3.test.com-----192.168.1.201

hadoop4.test.com-----192.168.1.200

hadoop5.test.com-----192.168.1.199

设置hostname:

hostnamehadoop5.test.com

[root@localhost~]#vi/etc/hosts

127.0.0.1localhost.localdomainlocalhos

192.168.1.199hadoop5.test.com

[root@localhost~]#uname-ar

linuxhadoop5.test.com2.6.18-92.el5#1smptuejun1018:49:47edt

2008i686i686i386gnu/linux

[root@localhost~]#vi/etc/sysconfig/network

networking=yes

networking_ipv6=no

#hostname=localhost.localdomain

hostname=hadoop5.test.com

gateway=192.168.1.254

无密码的ssh登录的设置:

建立master到每一台slave的ssh受信证书。由于master将会通过ssh启动所有slave的hadoop,所以需要建立单向或者双向证书保证命令执行时不需要再输入密码。在master和所有的slave机器上执行:ssh-keygen-trsa。

执行此命令的时候,看到提示只需要回车。然后就会在/root/.ssh/下面产生id_rsa.pub的证书文件,通过scp将master机器上的这个文件拷贝到slave上(记得修改名称),例如:

scproot/.ssh/id_rsa.pubroot@192.168.1.200:/root/.ssh/authorized_keys

建立authorized_keys文件即可,可以打开这个文件看看,也就是rsa的公钥作为key,user@ip作为value。此时可以试验一下,从masterssh到slave已经不需要密码了。由slave反向建立也是同样。为什么要反向呢,其实如果一直都是master启动和关闭的话那么没有必要建立反向,只是如果想在slave也可以关闭hadoop就需要建立反向。

具体地实现互联网媒体类网站广告推送和电子商务网站商品展示的步骤如下:

(a)通过数据采集模块采集用户以往历史浏览、购买记录等行为信息;

(b)将所采集到的信息通过转化,转化为计算机语言存储在数据库中;及

(c)用户在点击网页时根据云计算对所述数据库中的信息进行分布式数据挖掘,反馈用户感兴趣的广告信息和商品。

其中步骤(b)中包括步骤:

(b.1)将采集到的信息通过一编译模块转化为计算机语言;

(b.2)转化为计算机语言的信息存储在一数据库中;

(b.3)多个所述数据库中的信息通过一网络服务器相连接,实现大数据的形成;及

(b.4)通过一操作系统随时调用所采集到的信息。

其中在步骤(b)中所述操作系统优选为linux操作系统,所述网络服务器优选为apache网络服务器,所述数据库优选为mysql数据库,所述编译模块优选为perl、php或者python编程语言。

综上所述,大数据处理系统是结合了当前大数据技术的各种解决方案基础上,形成简洁高效的技术处理手段。适用于中小企业、媒体平台、电商平台,性价比较高,可以满足日常经营所需的数据处理支持,帮助企业更好的获得收益。

可见,本发明实施例提供的一种大数据处理方法及系统,根据大数据处理系统能够提升网站的广告传播的精准度和商城商品展示的精准度;通过大数据系统处理技术使得平台能迅速了解用户的行为习惯和偏好,并在其使用过程中实时动态交互,让感兴趣的广告及商品在恰当的时间以友好的网站形式进行展示,解决了传统广告和商品展示不精准的问题;解决了国内企业在软硬件上的缺陷,以及操作人员的经验不足,帮忙平台克服原始数据凌乱、大数据模型建模、数据处理及预测等问题,提供实时且相对有效的数据支持;依托云计算能够对大数据进行分布式数据挖掘,可以有效挖掘网站用户行为数据,并实时有效地做云计算处理;并且,其中包含的storm拓扑结构可在不需要专业人员的情况下实时矫正数据处理偏差。

需要说明的是,在本文中,诸根据第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,根据:rom/ram、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1