一种万维网日志挖掘的方法与流程

文档序号:14257159阅读:436来源:国知局

本发明涉及网络数据技术领域,特别是涉及一种万维网日志挖掘的方法。



背景技术:

万维网日志保存了用户访问网站时在后台留下的操作记录,包括访问动作、查询关键词、用户ip和用户的其他信息,用户每一次的访问动作都会产生一条记录,所以对于诸如搜索引擎或电商平台这样的大型网站来说,这种万维网日志数量是非常大的。数以亿计的用户产生的记录少说tb,到pb级也是可能的,如果有能力从中得到一些用户、或者某个用户群的习惯,那么对制定网站运营策略则有很大帮助,所以处理并且分析这些海量数据是具有现实意义的。而且如今在自己的网站宣传自己的产品,甚至投放其他的广告来获得可观的收益已经是几乎每个互联网企业都会做的工作。这样做的好处有很多,不但会使用户在浏览网站的同时了解关注到自己的产品,还会宣传到其他的产品,从而了解用户的关注点。

由此可知,如何能够高效的、高质量的挖掘数据成为了重要的问题。由于网站的使用者——用户,是数据产生的一个重要来源,是决定网站设计的方向的重要参考标准,所以对用户行为的分析,是一个大型网站必须要研究的方向。



技术实现要素:

本发明的目的是提供一种万维网日志挖掘的方法,将海量数据进行分布式计算和存储,很大的程度上弥补了传统技术对海量数据处理的限制,同时也可以对用户搜索相关行为进行研究,用户可以获得高效的、高质量的挖掘数据。

一种万维网日志挖掘的方法,所述方法包括:

步骤s101:采集日志数据,将日志数据上传至hdfs上进行存储;

步骤s102:预处理数据,将错误的、杂乱的、不完整的数据去掉;

步骤s103:识别用户,通过借助识别算法对万维网日志识别出所涉及到的访问用户;

步骤s104:识别会话,判断用户从初次进入万维网站点到离开站点的操作的用户行为。

步骤s105:识别路径,补充和优化数据;

步骤s106:选取合适的数据挖掘算法可以对数据进行分析处理;

步骤s107:输出万维网日志挖掘结果。

具体地,步骤s101:采集日志数据,将日志数据上传至hdfs上进行存储,包括在正式进行对万维网日志的数据预处理之前,需要确定合适的数据源。

具体地,所述数据源为服务器端的apache日志文件。

具体地,步骤s102:预处理数据,将错误的、杂乱的、不完整的数据去掉,还包括日志文件中用户请求页面时发生错误的记录、没有研究意义的数据删除掉。

具体地,具体地,步骤s103:识别用户,通过借助识别算法对万维网日志识别出所涉及到的访问用户,包括识别访问搜索引擎的海量用户的个体,区分出不同的用户。

具体地,步骤s104:识别会话,判断用户从初次进入万维网站点到离开站点的操作的用户行为,包括将用户的访问记录分为单个的会话。

具体地,步骤s105:识别路径,补充和优化数据,包括对记录的路径数据不完整,或是某些被缓存的页面和对象的访问引用丢失情况的路径数据进行补充优化。

具体地,步骤s106:选取合适的数据挖掘算法可以对数据进行分析处理,包括采用聚类分析算法。

由以上技术方案可知:本发明的目的是提供一种万维网日志挖掘的方法,通过采集日志数据,将日志数据上传至hdfs上进行存储;预处理数据,将错误的、杂乱的、不完整的数据去掉;识别用户,通过借助识别算法对万维网日志识别出所涉及到的访问用户;识别会话,判断用户从初次进入万维网站点到离开站点的操作的用户行为;识别路径,补充和优化数据;选取合适的数据挖掘算法可以对数据进行分析处理;输出万维网日志挖掘结果等七个步骤很大的程度上弥补了传统技术对海量数据处理的限制,同时也可以对用户搜索相关行为进行研究,用户可以获得高效的、高质量的挖掘数据。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:

图1为本申请实施例提供的一种万维网日志挖掘的方法流程图。

具体实施方式

本下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本申请实施例提供的一种万维网日志挖掘的方法流程图。

一种万维网日志挖掘的方法,所述方法包括:

步骤s101:采集日志数据,将日志数据上传至hdfs上进行存储;

hdfs(hadoopdistributedfilesystem)是一个开源在apache上的分布式文件系统框架,是gfs的克隆。在hadoop分布式环境中,hdfs负责了数据的存储和管理。hdfs具有的高容错、高可靠性、高可扩展性、高吞吐率等特征和它的备份系统保证了海量数据的存储和管理。

hadoop分布式集群为主从架构,包括了一个master节点和数个slave节点。hadoop的分布式文件系统中由一个管理节点namenode和若干个数据节点datanode组成。hdfs把namenode看作主服务器,用来管理文件系统的命名空间和客户端的一系列访问文件系统的操作;而datanode就看作为从节点,用来管理要存储的数据。其底层实现原理是,master主节点将初始输入文件切割成多个数据块——block(用户可自定义,默认大小64m),并且拷贝若干份block副本(一般默认3份),拷贝的副本数目是可配置的,然后存储至各个slave节点上,可以是随进的分散的存储,保证了在集群的某一节点出现故障的时候,整个文件仍能保持其可用性,hdfs将每个块同时复制到多台机器上,实现了容错处理。namenode的作用是维护文件系统的namespace(命名空间),记录了被提交上来的输入文件被分割的情况、各个block被存储的位置信息以及节点存储block的状态信息,是整个hdfs的核心。而datanode则主要负责以分散的形式存储block块,并定时向namenode汇报存储块的状态信息,负责整个文件系统中的实施工作。

步骤s102:预处理数据,将错误的、杂乱的、不完整的数据去掉;

预处理数据即清晰数据,将这些无关紧要的记录删除,需要清洗的内容主要包括扩展名识别、状态清洗、请求类型清洗三种内容。

扩展名识别:本文数据分析的对象主要是文本数据,一般网页上都会包含一些图片或音频等信息,用户在点击网页时,这些信息会同时被自动下载,下载下来的信息后缀名为gif、jpg、jpeg、map等,会和用户的访问信息一起记载在万维网日志中。这些对用户行为分析几乎没有影响,而且这种记录很多,占用空间,首要删掉。

状态清洗:用户的请求并不是每次都会成功的,有时点击的页面也可能不会完全的打开,所以应该把请求状态不成功的数据清洗掉。

请求类型清洗:get、post、以及put等信息都是用户操作的请求类型,但可以真正反映用户行为的只有get类型的请求,所以只留下get类型的请求即可。

步骤s103:识别用户,通过借助识别算法对万维网日志识别出所涉及到的访问用户;

识别用户即用户识别,当对用户的聚类作为研究目标时,用户识别就显得尤其重要。由于每个用户群都是由单个的用户所组成的,仅当识别出了单个的用户时,才能将有相似性的用户聚为一类。而且一个用户可能多次访问同一个网站,这样服务器为每个用户记录多个会话,所以可以使用用户活动记录的形式来表示同一个用户的所有行为。

步骤s104:识别会话,判断用户从初次进入万维网站点到离开站点的操作的用户行为。

由于万维网服务器日志中存在跨越时间区段较大的情况,即用户有可能会多次访问某个站点,会话识别的目的就是将用户的访问记录分为单个的会话。本文中将用户完成一次访问网站包括离开网站所做的所有动作表述为会话,当对两个页面进行请求之间的时间差值超过了某一认定的阈值,就认为用户开始了一个新的会话。要识别新会话的开始就要利用这个时间阈值。

步骤s105:识别路径,补充和优化数据;

例如,受到客户端的缓冲机制影响和用户点击浏览页面上的“前进”和“返回”按钮使日志中的记录的路径信息不完整,或是某些被缓存的页面和对象的访问引用丢失情况的出现,这些情况就需要路径识别来进行优化。

步骤s106:选取合适的数据挖掘算法可以对数据进行分析处理;

数据挖掘的手段主要包括关联规则、序列模式和聚类分析等。聚类分析算法实现了万维网日志挖掘,为下一步提供对站点进行改进和提供个性化的服务。对万维网日志的聚类可了解用户的访问兴趣模式和搜索倾向,发现页面之间的关联,改进站点。在用户行为分析中,发现具有相同兴趣的倾向,进一步分析可以发现有价值的商业情报,例如为用户提供个性化和共性化的服务,这样做能够保证原有用户群的稳定。

步骤s107:输出万维网日志挖掘结果。

本发明的目的是提供一种万维网日志挖掘的方法,将海量数据进行分布式计算和存储,很大的程度上弥补了传统技术对海量数据处理的限制,同时也可以对用户搜索相关行为进行研究,用户可以获得高效的、高质量的挖掘数据。

进一步地,步骤s101:采集日志数据,将日志数据上传至hdfs上进行存储,包括在正式进行对万维网日志的数据预处理之前,需要确定合适的数据源。

进一步地,所述数据源为服务器端的apache日志文件。

进一步地,步骤s102:预处理数据,将错误的、杂乱的、不完整的数据去掉,还包括日志文件中用户请求页面时发生错误的记录、没有研究意义的数据删除掉。

进一步地,进一步地,步骤s103:识别用户,通过借助识别算法对万维网日志识别出所涉及到的访问用户,包括识别访问搜索引擎的海量用户的个体,区分出不同的用户。

进一步地,步骤s104:识别会话,判断用户从初次进入万维网站点到离开站点的操作的用户行为,包括将用户的访问记录分为单个的会话。

进一步地,步骤s105:识别路径,补充和优化数据,包括对记录的路径数据不完整,或是某些被缓存的页面和对象的访问引用丢失情况的路径数据进行补充优化。

进一步地,步骤s106:选取合适的数据挖掘算法可以对数据进行分析处理,包括采用聚类分析算法。

由以上技术方案可知:本发明的目的是提供一种万维网日志挖掘的方法,通过采集日志数据,将日志数据上传至hdfs上进行存储;预处理数据,将错误的、杂乱的、不完整的数据去掉;识别用户,通过借助识别算法对万维网日志识别出所涉及到的访问用户;识别会话,判断用户从初次进入万维网站点到离开站点的操作的用户行为;识别路径,补充和优化数据;选取合适的数据挖掘算法可以对数据进行分析处理;输出万维网日志挖掘结果等七个步骤很大的程度上弥补了传统技术对海量数据处理的限制,同时也可以对用户搜索相关行为进行研究,用户可以获得高效的、高质量的挖掘数据。

至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1