一种数据采集方法、装置、设备和存储介质与流程

文档序号:17130507发布日期:2019-03-16 01:08阅读:214来源:国知局
一种数据采集方法、装置、设备和存储介质与流程

本发明实施例涉及数据采集技术,尤其涉及一种数据采集方法、装置、设备和存储介质。



背景技术:

在计算机广泛应用的今天,作为计算机与外部物理世界连接的桥梁,数据采集的重要性是十分显著的。

数据采集,是利用装置从系统外部采集数据并输入到系统内部的一个接口,数据采集技术广泛应用在各个领域,被采集的数据可以是模拟量,也可以是数字量,尽管数据采集系统根据不同的应用需求有不同的定义,但各个系统采集、分析和显示信息的目的却都相同。准确的数据来源是数据采集的基础,而在进行数据筛选时,现有的数据采集过程中,普遍采用数据遍历比较的方式进行数据过滤,把某种数据结构中的所有节点都访问一遍,遍历算法的好坏也直接影响计算机的运算速度。

然而,采用遍历数据比较的方式来解决数据采集中的数据过滤问题,大大增加了cpu的运行负担,消耗了服务器的运行性能,同时,采集效率低下。



技术实现要素:

本发明实施例提供了一种数据采集方法、装置、设备和存储介质,以实现数据采集过程中高效的数据过滤,提高数据采集效率。

第一方面,本发明实施例提供了一种数据采集方法,包括:

统一数据平台实时对用户行为日志进行监听,并在监听到新的用户行为日志时,获取与所述用户行为日志匹配的目标用户标识以及目标子平台标识;

其中,在所述统一数据平台中内嵌有至少两个功能子平台,同一用户通过在所述统一数据平台注册统一的合法用户标识登录各所述功能子平台,不同功能子平台标识对应不同的数据处理插件;

所述统一数据平台获取与所述目标子平台标识匹配的目标数据处理插件;

所述统一数据平台如果确定预设的合法用户标识集合中,与所述目标用户标识匹配的数据位数的数据值为1,则确定所述目标用户标识为合法用户标识,所述合法用户标识集合为设定位长的二进制数字串;

所述统一数据平台使用数据采集插件对所述用户行为日志进行数据采集。

第二方面,本发明实施例还提供了一种数据采集装置,应用于统一数据平台中,包括:

监听及标识获取模块,用于实时对用户行为日志进行监听,并在监听到新的用户行为日志时,获取与所述用户行为日志匹配的目标用户标识以及目标子平台标识;

其中,在所述统一数据平台中内嵌有至少两个功能子平台,同一用户通过在所述统一数据平台注册统一的合法用户标识登录各所述功能子平台,不同功能子平台标识对应不同的数据处理插件;

插件获取模块,用于获取与所述目标子平台标识匹配的目标数据处理插件;

合法用户判定模块,用于如果确定预设的合法用户标识集合中,与所述目标用户标识匹配的数据位数的数据值为1,则确定所述目标用户标识为合法用户标识,所述合法用户标识集合为设定位长的二进制数字串;

数据采集模块,用于通过数据采集插件对所述用户行为日志进行数据采集。

第三方面,本发明实施例还提供了一种设备,所述设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的数据采集方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的数据采集方法。

本发明实施例的技术方案,通过目标用户标识与合法用户标识集合的二进制位运算,提出了一种数据采集过程中的新的数据过滤方法,避免了现有的通过数据遍历比较的实现的数据过滤方式的繁琐过程,减少了cpu的运行负担,降低了服务器运行性能的消耗,提高了数据采集效率。

附图说明

图1是本发明实施例一提供的一种数据采集方法的流程图;

图2是本发明实施例二提供的一种数据采集方法的流程图;

图3是本发明实施例三提供的一种数据采集方法的流程图;

图4是本发明实施例四提供的一种数据采集装置的结构框图;

图5是本发明实施例五提供的一种数据采集设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种数据采集方法的流程图,本实施例可适用于采集数据的情况,该方法可以由本发明实施例中的数据采集装置来执行,该装置可以通过软件和/或硬件的方式实现,并一般可以集成在统一数据平台中,本发明实施例的方法具体包括如下步骤:

s110、统一数据平台实时对用户行为日志进行监听,并在监听到新的用户行为日志时,获取与所述用户行为日志匹配的目标用户标识以及目标子平台标识。

其中,在所述统一数据平台中内嵌有至少两个功能子平台,同一用户通过在所述统一数据平台注册统一的合法用户标识登录各所述功能子平台,不同功能子平台标识对应不同的数据处理插件。

用户行为,就是用户在打开网站、客户端或app软件等工具后,所做的动作,比如:账号登录、搜索内容、浏览页面、发表言论等等。用户行为日志则记录了该用户的所有动作。当统一数据平台监听到新的用户行为日志时,例如,用户账号登陆后点击了统一数据平台下的某个板块的内容,此时,统一数据平台根据这个用户行为日志,获取该用户的账号和所点击的目标板块的标识。

典型的,统一数据平台可以为游戏平台,功能子平台为各个不同的游戏,用户在游戏平台注册账户,并通过账户登录游戏平台后打开某个游戏,不同的游戏对应不同的数据处理插件。

可选的,用户行为日志为binlog日志,binlog日志用于记录用户对数据库更新的sql语句信息,例如,更改数据库表和更改内容的sql语句都会记录到binlog里。当有数据写入到数据库时,还会同时把更新的sql语句写入到对应的binlog文件里。在mysql的配置文件my.cnf中,增加log_bin参数即可开启binlog日志,也可以通过赋值来指定binlog日志的文件名。

s120、所述统一数据平台获取与所述目标子平台标识匹配的目标数据处理插件。

数据处理是对数据进行分析和加工的过程,数据处理离不开软件的支持,数据处理软件包括很多种类,例如,用以书写处理程序的各种程序设计语言及其编译程序,管理数据的文件系统和数据库系统,以及各种数据处理方法的应用软件包。为了保证数据安全可靠,还有一整套数据安全保密的技术。

在本实施例中,每个子平台对应不同的数据处理插件。

可选的,当统一数据平台为游戏平台,功能子平台为各个不同的游戏时,数据处理插件可以是游戏的启动程序。

s130、所述统一数据平台如果确定预设的合法用户标识集合中,与所述目标用户标识匹配的数据位数的数据值为1,则确定所述目标用户标识为合法用户标识,所述合法用户标识集合为设定位长的二进制数字串。

统一数据平台将所有合法用户标识集合成一个二进制数字串,该二进制数字串的位长可以根据需要设定,每个合法用户标识对应二进制数字串中的一位。

可选的,每个合法用户标识都有对应的以十进制位表示的内部id,该内部id可以随机分配也可以按照一定预定规则分配,例如,该用户内部id为0537,那么对应该二进制数字串右起第537位。

可选的,还可以按照用户注册时间顺序作为合法用户标识,注册时间最早的作为第一个注册的合法用户,对应该二进制数字串中右起第1位。

可选的,当该合法用户标识被用户或被统一数据平台注销时,并不需要将其删除,只需将该二进制数字串中的对应位置0即可。

s140、所述统一数据平台使用数据采集插件对所述用户行为日志进行数据采集。

本发明实施例的技术方案,通过目标用户标识与合法用户标识集合的二进制位运算,提出了一种数据采集过程中的新的数据过滤方法,避免了现有的通过数据遍历比较的实现的数据过滤方式的繁琐过程,减少了cpu的运行负担,降低了服务器运行性能的消耗,提高了数据采集效率。

实施例二

图2为本发明实施例二中的一种数据采集方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,根据初始化加载指令,构造合法用户标识集合。相应的,本实施例的方法具体包括如下操作:

s210、所述统一数据平台根据初始化加载指令,构造设定位长的全零数字串作为合法用户标识集合的初始值。

其中,所述位长与预设的所述统一数据平台中注册的合法用户的数量相匹配。例如,如果所述统一数据平台中包括的全部合法用户的数量为100万,则该全零数字串的位长为100万位。其中,所述全零数字串中的每一位都对应一个合法用户标识。

s220、所述统一数据平台依次获取一个合法用户标识作为当前操作标识,并确定与所述当前操作标识匹配的位置编号。

可以理解的是,在统一数据平台中注册的每一个合法用户标识都是不重复的,因此,可以在上述数字串中唯一确定一个数据位置与一个合法用户标识建立映射关系。

典型的,所述统一数据平台可以根据用户在统一数据平台中的注册顺序,为每一个用户分配一个合法用户标识,例如,如果一个用户是该统一数据平台的第1个注册用户,则可以为该用户分配0000001这一个合法用户标识;如果一个用户是该统一数据平台的第100个注册用户,则可以为该用户分配0000100这一合法用户标识。

相应的,根据不同的合法用户标识,可以确定其在上述数字串中的不同位置编号,也即:与0000001这一个合法用户标识匹配的位置编号可以为1,与0000100这一合法用户标识匹配的位置编号可以为100。

s230、所述统一数据平台将所述合法用户标识集合中与所述位置编号匹配的数据位数的数据值设置为1后,执行s240。

s240、所述统一数据平台判断完成对全部合法用户标识的处理:若是,执行s250;否则返回执行s220。

s250、所述统一数据平台得到与所述全部合法用户标识对应的合法用户标识集合。

s260、统一数据平台实时对用户行为日志进行监听,并在监听到新的用户行为日志时,获取与所述用户行为日志匹配的目标用户标识以及目标子平台标识。

其中,在所述统一数据平台中内嵌有至少两个功能子平台,同一用户通过在所述统一数据平台注册统一的合法用户标识登录各所述功能子平台,不同功能子平台标识对应不同的数据处理插件;

s270、所述统一数据平台获取与所述目标子平台标识匹配的目标数据处理插件。

s280、所述统一数据平台如果确定预设的合法用户标识集合中,与所述目标用户标识匹配的数据位数的数据值为1,则确定所述目标用户标识为合法用户标识,所述合法用户标识集合为设定位长的二进制数字串。

通过上述设置,一个合法用户标识集合中的为1的位置,代表了一个唯一确定的合法用户标识。与现有技术中存储100万个合法用户标识,并在数据筛选时遍历这100万个合法用户标识的方法相比,本发明实施例的方案仅需要存储一个100万位的字符串,并通过验证这100万位的字符串中的某一位为1或者为0,实现数据的快速筛选。

s290、所述统一数据平台使用数据采集插件对所述用户行为日志进行数据采集。

本发明实施例的技术方案,通过构造合法用户标识集合,将所有合法用户标识组成一个二进制集合,以二进制位运算的方式确定是否为合法用户标识,提出了一种数据采集过程中的新的数据过滤方法,避免了现有的通过数据遍历比较的实现的数据过滤方式的繁琐过程,减少了cpu的运行负担,降低了服务器运行性能的消耗,提高了数据采集效率。

实施例三

图3为本发明实施例三中的一种数据采集方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,在统一数据平台无法直接获取与目标子平台标识匹配的目标数据处理插件时,通过修改配置文件的读取时间,以获取目标处理插件。相应的,本实施例的方法具体包括如下操作:

s301、所述统一数据平台根据初始化加载指令,对数据处理插件配置文件进行读取;所述统一数据平台根据读取结果,从数据处理插件服务池中获取所述数据处理插件配置文件中记录的数据处理插件进行加载。

s302、统一数据平台实时对用户行为日志进行监听,并在监听到新的用户行为日志时,获取与所述用户行为日志匹配的目标用户标识以及目标子平台标识。

其中,在所述统一数据平台中内嵌有至少两个功能子平台,同一用户通过在所述统一数据平台注册统一的合法用户标识登录各所述功能子平台,不同功能子平台标识对应不同的数据采集插件。

s303、所述统一数据平台对所述目标子平台标识进行合法性验证,验证所述目标子平台标识是否合法。

若否,执行s304;若是,执行s305。

s304、放弃对所述用户行为日志进行数据采集。

s305、所述统一数据平台判断已加载的数据处理插件中是否包括与所述目标子平台标识匹配的目标数据处理插件。

若是,执行s310;若否,执行s306。

s306、所述统一数据平台获取所述数据处理插件配置文件的读取时间累加插件老化时长后的时间作为配置维持时间。

s307、判断所述统一数据平台确定所述配置维持时间是否为当前系统时间的历史时间。

若所述统一数据平台确定所述配置维持时间不是当前系统时间的历史时间时,则证明所述统一数据平台确定的所述配置维持时间为当前系统时间的未来时间。

若否,执行s304;若是,执行s308。

s308、重新获取数据处理插件配置文件进行读取,同时,更新所述数据处理插件配置文件的读取时间;

统一数据平台如果监听到配置修改事件,例如,监听到对数据处理插件配置文件的读取时间进行了修改,则对与所述配置修改事件匹配的数据处理插件进行热启动加载。

s309、所述统一数据平台根据重新读取的结果,判断是否能从数据处理插件服务池中获取所述数据处理插件配置文件中记录的数据处理插件进行加载。

若否,执行s304;若是,执行310。

s310、在所述已加载的数据处理插件中获取所述目标数据处理插件。

s311、判断所述统一数据平台确定预设的合法用户标识集合中,与所述目标用户标识匹配的数据位数的数据值是否为1,所述合法用户标识集合为设定位长的二进制数字串。

若否,执行s304;若是,执行s312。

s312、确定所述目标用户标识为合法用户标识。

s313、所述统一数据平台使用数据采集插件对所述用户行为日志进行数据采集。

本发明实施例的技术方案,当统一数据平台无法直接获取与目标子平台标识匹配的目标数据处理插件时,通过修改配置文件的读取时间并累加插件老化时长,重新读取配置文件并修改读取时间以获取目标处理插件,在获取到目标处理插件后,通过二进制的位运算,将目标用户标识与合法用户标识集合中对应的数字位比较,以此确定是否为合法用户标识,提出了一种数据采集过程中的新的数据过滤方法,避免了现有的通过数据遍历比较的实现的数据过滤方式的繁琐过程,减少了cpu的运行负担,降低了服务器运行性能的消耗,提高了数据采集效率。

实施例四

本发明实施例四所提供的一种数据采集装置可执行本发明任意实施例所提供数据采集方法,具备执行方法相应的功能模块和有益效果。如图4所示,数据采集装置具体包括:监听及标识获取模块410、插件获取模块420、合法用户判定模块430、数据采集模块440。

监听及标识获取模块410,用于实时对用户行为日志进行监听,并在监听到新的用户行为日志时,获取与所述用户行为日志匹配的目标用户标识以及目标子平台标识;

其中,在统一数据平台中内嵌有至少两个功能子平台,同一用户通过在所述统一数据平台注册统一的合法用户标识登录各所述功能子平台,不同功能子平台标识对应不同的数据处理插件;

插件获取模块420,用于获取与所述目标子平台标识匹配的目标数据处理插件;

合法用户判定模块430,用于如果确定预设的合法用户标识集合中,与所述目标用户标识匹配的数据位数的数据值为1,则确定所述目标用户标识为合法用户标识,所述合法用户标识集合为设定位长的二进制数字串;

数据采集模块440,用于使用数据采集插件对所述用户行为日志进行数据采集。

本发明实施例的技术方案,通过二进制的位运算,将目标用户标识与合法用户标识集合中对应的数字位比较,以此确定是否为合法用户标识,提出了一种数据采集过程中的新的数据过滤装置,避免了现有装置通过数据遍历比较实现数据过滤的繁琐过程,减少了cpu的运行负担,降低了服务器运行性能的消耗,提高了数据采集效率。

在上述各实施例的基础上,数据采集装置,还可以包括:

合法用户标识获取模块,用于根据初始化加载指令,构造设定位长的全零数字串作为合法用户标识集合的初始值;并依次获取一个合法用户标识作为当前操作标识,确定与所述当前操作标识匹配的位置编号;当所述合法用户标识集合中与所述位置编号匹配的数据位数的数据值设置为1后,返回执行依次获取一个合法用户标识作为当前操作标识的操作,直至完成对全部合法用户标识的处理,以得到与所述全部合法用户标识对应的合法用户标识集合。

在上述各实施例的基础上,数据采集装置,还可以包括:

数据处理插件获取模块,用于根据初始化加载指令,对数据处理插件配置文件进行读取;并根据读取结果,从数据处理插件服务池中获取所述数据处理插件配置文件中记录的数据处理插件进行加载。

在上述各实施例的基础上,插件获取模块420,具体可以包括:

读取单元,用于更新所述数据处理插件配置文件的读取时间;

目标数据处理插件确定单元,用于判断已加载的数据处理插件中是否包括与所述目标子平台标识匹配的目标数据处理插件:若是,则在所述已加载的数据处理插件中获取所述目标数据处理插件;若否,获取所述数据处理插件配置文件的读取时间累加插件老化时长后的时间作为配置维持时间;

时间确定单元,用于确定所述配置维持时间为当前系统时间的历史时间还是未来时间;若为历史时间,则由数据处理插件获取模块重新对数据处理插件配置文件进行读取;若为未来时间,则放弃对所述用户行为日志进行数据采集。

在上述各实施例的基础上,数据处理插件获取模块,还可以用于:

根据重新读取的结果,从数据处理插件服务池中获取所述数据处理插件配置文件中记录的数据处理插件进行加载。

在上述各实施例的基础上,监听及标识获取模块410,还可以用于:

对获取到的目标子平台标识进行合法性验证,若确定合法性验证失败,则放弃对所述用户行为日志进行数据采集。

上述装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的方法。

实施例五

图5为本发明实施例五提供的一种数据采集设备的结构示意图,如图5所示,该设备包括处理器50、存储器51、输入装置52和输出装置53;设备中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;设备处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接,图5中以通过总线连接为例。

存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例四中的数据采集装置对应的模块(监听及标识获取模块410、插件获取模块420、合法用户判定模块430和数据采集模块440)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的数据采集方法。

存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置52可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。

实施例六

本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据采集方法,该方法包括:

统一数据平台实时对用户行为日志进行监听,并在监听到新的用户行为日志时,获取与所述用户行为日志匹配的目标用户标识以及目标子平台标识;

其中,在所述统一数据平台中内嵌有至少两个功能子平台,同一用户通过在所述统一数据平台注册统一的合法用户标识登录各所述功能子平台,不同功能子平台标识对应不同的数据处理插件;

所述统一数据平台获取与所述目标子平台标识匹配的目标数据处理插件;

所述统一数据平台如果确定预设的合法用户标识集合中,与所述目标用户标识匹配的数据位数的数据值为1,则确定所述目标用户标识为合法用户标识,所述合法用户标识集合为设定位长的二进制数字串;

所述统一数据平台使用数据采集插件对所述用户行为日志进行数据采集。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据采集方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1