大数据采集方法、装置及系统与流程

文档序号:12887304阅读:343来源:国知局
大数据采集方法、装置及系统与流程

本发明涉及大数据技术领域,具体涉及一种大数据采集方法、装置及系统。



背景技术:

随着科技的发展,为给用户提供更精准的服务,很多研发机构及企业捕捉用户的使用行为信息,进行有效分析,而后,用准确量化的数据进行分析得到大数据分析结果。基于大数据的分析结果来实现产品创新及优化,研发机构及企业对数据分析的需求越来越旺盛。

由于通常基于客户端外挂程序的方式来进行用户数据采集,采集样本容量非常庞大,并且用户行为信息的数据格式与数据分析时所采用的数据格式不同,若采用在线采集数据、分析数据会造成数据处理量大的问题,容易导致网络堵塞的情况发生。因此,现有技术中,在对大数据进行采集分析时,通常采集和分析两步分离作业。亦即,首先基于客户端或者终端记录用户的行为,完成一定时段的记录后,将这些行为信息收集起来,而后,将完成收集的信息打包交由后台大数据服务器进行分析,得到分析结果。现有技术中的这种大数据采集、分析模式为t+1模式,耗费的时间长,数据采集的效率低下,难以满足对数据实时性的需求,尤其是需要在线调整、优化产品的需求。

因此,如何实现大数据的实时采集,满足大数据实时分析条件成为亟待解决的技术问题。



技术实现要素:

本发明要解决的技术问题在于现有技术中实现大数据的实时采集,满足大数据实时分析条件。

为此,根据第一方面,本发明实施例公开了一种大数据采集方法,包括:

接收数据前端发送的提供服务请求;根据服务请求通过区别于记录服务动作的日志线程监听服务日志,服务日志用于表征数据前端为客户提供的服务动作;将服务日志转化为预设格式的传输文件,预设格式为符合大数据分析的格式;按预设路径向数据库发送传输文件。

可选地,按预设路径向数据库发送传输文件包括:收集多个传输文件构成传输文件集;向数据库发送传输文件集。

可选地,在收集多个传输文件构成传输文件集和按预设路径向数据库发送传输文件集之间,还包括:对传输文件集进行解码转化为符合大数据分析格式的结构化数据集;按预设时间间隔向数据库发送传输文件集。

可选地,服务日志包括:数据交互过程日志、数据更新日志和第三方报文日志中的任意一种或者任意组合。

根据第二方面,本发明实施例公开了一种大数据采集装置,包括:

请求接收模块,用于接收数据前端发送的提供服务请求;监听模块,用于根据服务请求通过区别于记录服务动作的日志线程监听服务日志,服务日志用于表征数据前端为客户提供的服务动作;日志转化模块,用于将服务日志转化为预设格式的传输文件,预设格式为符合大数据分析的格式;传输模块,用于按预设路径向数据库发送传输文件。

可选地,传输模块包括:收集单元,用于收集多个传输文件构成传输文件集;发送单元,用于向数据库发送传输文件集。

可选地,还包括:结构化模块,用于对传输文件集进行解码转化为符合大数据分析格式的结构化数据集;发送单元用于按预设时间间隔向数据库发送传输文件集。

可选地,服务日志包括:数据交互过程日志、数据更新日志和第三方报文日志中的任意一种或者任意组合。

根据第三方面,本发明实施例公开了一种计算机装置,包括处理器,处理器用于执行存储器中存储的计算机程序实现如下方法:

接收数据前端发送的提供服务请求;根据服务请求通过区别于记录服务动作的日志线程监听服务日志,服务日志用于表征数据前端为客户提供的服务动作;将服务日志转化为预设格式的传输文件,预设格式为符合大数据分析的格式;按预设路径向数据库发送传输文件。

根据第四方面,本发明实施例公开了一种计算机可读存储介质,其上存储有计算机程序,处理器用于执行存储介质中存储的计算机程序实现如下方法:

接收数据前端发送的提供服务请求;根据服务请求通过区别于记录服务动作的日志线程监听服务日志,服务日志用于表征数据前端为客户提供的服务动作;将服务日志转化为预设格式的传输文件,预设格式为符合大数据分析的格式;按预设路径向数据库发送传输文件。

根据第五方面,本发明实施例公开了一种大数据采集系统,包括:数据前端;采集服务器;上述的大数据采集装置。

本发明技术方案,具有如下优点:

本发明实施例提供的大数据采集方法、装置及系统,由于在接收到数据前端发送的提供服务请求后,根据服务请求通过有别于记录服务动作的日志线程监听服务日志,使得在记录服务日志的同时能够通过该区别于记录日志线程的线程对服务动作进行监听采集,从而能够在该线程上将服务动作转化为符合大数据分析格式的传输文件,相对于现有技术中需要收集预定时间段的日志后,再对日志进行格式转化的方式,本发明实施例提供的方案实现了大数据的实时采集,为大数据实时分析创造了条件。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本实施例公开的一种大数据采集方法流程图;

图2为本实施例公开的一种大数据采集系统结构框图;

图3为本实施例公开的一种大数据采集装置结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

为了实现大数据的实时采集,满足大数据实时分析条件,本实施例公开了一种大数据采集方法,请参考图1,为该大数据采集方法流程图,该大数据采集方法包括:

步骤s100,接收数据前端发送的提供服务请求。本实施例中,所称数据前端是指能够产生服务操作的数据端,该数据端可以是移动终端、计算机、工控机以及后台服务器等。在具体实施例中,当用户在数据前端进行操作时会产生触发信号,该触发信号可以表征提供服务请求。

步骤s200,根据服务请求通过区别于记录服务动作的日志线程监听服务日志。本实施例中,所称服务日志用于表征数据前端为客户提供的服务动作。一般而言,用户在前端进行数据操作、后台数据发生变更、不同设备之间的数据交互、第三方报文等动作时,都会产生相应的服务日志并通过日志线程进行服务日志记录。本实施例中,通过开设特定的线程来监听服务日志,由此,来实现数据前端为客户提供服务动作的监听,该特定的线程区别于记录日志的线程。

在具体实施例中,请参考图2,为本实施例公开的一种大数据采集系统结构框图,服务日志可以来自前端应用工具1,也可以来自后端2,具体地,服务日志包括:数据交互过程日志、数据更新日志和第三方报文日志中的任意一种或者任意组合。

步骤s300,将服务日志转化为预设格式的传输文件。本实施例中,预设格式为符合大数据分析的格式。由于服务日志的数据格式不能直接应用于大数据分析,通常需要对服务日志进行转化,而后对转化后的数据进行分析。在现有技术中,因为单线程记录服务日志,因此,需要在完成服务日志记录后,收集这些服务日志,再批量转化,否则容易造成线程拥堵,或者数据错位导致数据分析有误。本实施例中,通过有别于记录日志线程的线程来监听服务日志,使得在记录服务日志的同时,能够通过监听的线程对服务日志进行格式处理,并且该格式处理一般不占用服务日志记录线程,因此,能够实现在线实时的服务日志转化。

在具体实施例中,请参考图2,在监听到服务日志后,可以将不同类型的服务日志分别转化为预设格式的文件,作为例子,预设格式的文件可以是例如落盘文件;而后对各个类型服务日志的落盘文件分别进行整合。

步骤s400,按预设路径向数据库发送传输文件。数据库在接收到符合大数据分析格式的传输文件后,即可对传输文件进行分析。

为了便于统一调度不同类型的传输文件,在可选的实施例中,在执行步骤s400时,按预设路径向数据库发送传输文件包括:收集多个传输文件构成传输文件集;向数据库发送传输文件集。具体地,请参考图2,在监听到各个类型服务日志后,分别将各个类型的服务日志转化为预定格式的传输文件,而后,将这些转化为预定格式的传输文件集合在一起形成传输文件集,最后,将形成的传输文件集发送给数据库3。

为了有序地统筹传输文件集,在可选的实施例中,在收集多个传输文件构成传输文件集和按预设路径向数据库发送传输文件集之间,还包括:对传输文件集进行解码转化为符合大数据分析格式的结构化数据集;按预设时间间隔向数据库发送传输文件集。作为例子,可以通过例如sparkstreaming模型对传输文件集进行解码得到结构化数据集。本实施例中,预设时间间隔可以是例如5分钟、10分钟或者更多、更少的时间间隔,本实施例并不限制具体的时间间隔数值。

本实施例还公开了一种大数据采集装置,请参考图3,为该大数据采集装置结构示意图,该大数据采集装置包括:请求接收模块100、监听模块200、日志转化模块300和传输模块400,其中:

请求接收模块100用于接收数据前端发送的提供服务请求;监听模块200用于根据服务请求通过区别于记录服务动作的日志线程监听服务日志,服务日志用于表征数据前端为客户提供的服务动作;日志转化模块300用于将服务日志转化为预设格式的传输文件,预设格式为符合大数据分析的格式;传输模块400用于按预设路径向数据库发送传输文件。

在可选的实施例中,传输模块包括:收集单元,用于收集多个传输文件构成传输文件集;发送单元,用于向数据库发送传输文件集。

在可选的实施例中,还包括:结构化模块,用于对传输文件集进行解码转化为符合大数据分析格式的结构化数据集;发送单元用于按预设时间间隔向数据库发送传输文件集。

在可选的实施例中,服务日志包括:数据交互过程日志、数据更新日志和第三方报文日志中的任意一种或者任意组合。

此外,本实施例还公开了一种计算机装置,包括处理器,处理器用于执行存储器中存储的计算机程序实现如下方法:

接收数据前端发送的提供服务请求;根据服务请求通过区别于记录服务动作的日志线程监听服务日志,服务日志用于表征数据前端为客户提供的服务动作;将服务日志转化为预设格式的传输文件,预设格式为符合大数据分析的格式;按预设路径向数据库发送传输文件。

在可选的实施例中,按预设路径向数据库发送传输文件包括:收集多个传输文件构成传输文件集;向数据库发送传输文件集。

在可选的实施例中,在收集多个传输文件构成传输文件集和按预设路径向数据库发送传输文件集之间,还包括:对传输文件集进行解码转化为符合大数据分析格式的结构化数据集;按预设时间间隔向数据库发送传输文件集。

在可选的实施例中,服务日志包括:数据交互过程日志、数据更新日志和第三方报文日志中的任意一种或者任意组合。

本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(rom)或随机存储记忆体(ram)等。计算机处理器用于执行存储介质中存储的计算机程序实现以下方法:

接收数据前端发送的提供服务请求;根据服务请求通过区别于记录服务动作的日志线程监听服务日志,服务日志用于表征数据前端为客户提供的服务动作;将服务日志转化为预设格式的传输文件,预设格式为符合大数据分析的格式;按预设路径向数据库发送传输文件。

在可选的实施例中,按预设路径向数据库发送传输文件包括:收集多个传输文件构成传输文件集;向数据库发送传输文件集。

在可选的实施例中,在收集多个传输文件构成传输文件集和按预设路径向数据库发送传输文件集之间,还包括:对传输文件集进行解码转化为符合大数据分析格式的结构化数据集;按预设时间间隔向数据库发送传输文件集。

在可选的实施例中,服务日志包括:数据交互过程日志、数据更新日志和第三方报文日志中的任意一种或者任意组合。

本发明实施例公开了一种大数据采集系统,包括:数据前端,为客户提供服务动作,数据前端在为客户提供服务动作时,会产生服务日志;采集服务器,用于提供存储大数据的数据库;上述的大数据采集装置。

本实施例提供的大数据采集方法、装置及系统,由于在接收到数据前端发送的提供服务请求后,根据服务请求通过有别于记录服务动作的日志线程监听服务日志,使得在记录服务日志的同时能够通过该区别于记录日志线程的线程对服务动作进行监听采集,从而能够在该线程上将服务动作转化为符合大数据分析格式的传输文件,相对于现有技术中需要收集预定时间段的日志后,再对日志进行格式转化的方式,本发明实施例提供的方案实现了大数据的实时采集,为大数据实时分析创造了条件。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1